343 lines
5.1 KiB
Java
343 lines
5.1 KiB
Java
package it.cavallium.dbengine.lucene.analyzer;
|
|
|
|
import java.util.ArrayList;
|
|
import java.util.Arrays;
|
|
import java.util.EventListener;
|
|
import java.util.List;
|
|
import org.apache.lucene.analysis.CharArraySet;
|
|
|
|
public class ItaEngStopWords {
|
|
|
|
/**
|
|
* An unmodifiable set containing some common English words that are not usually useful for
|
|
* searching.
|
|
*/
|
|
public static final CharArraySet ENGLISH_STOP_WORDS_SET;
|
|
|
|
public static final CharArraySet ITA_DEFAULT_ARTICLES;
|
|
|
|
public static final CharArraySet ITA_STOP_WORDS_SET;
|
|
|
|
public static final CharArraySet STOP_WORDS_SET;
|
|
|
|
static {
|
|
final List<String> stopWords =
|
|
Arrays.asList(
|
|
"a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is",
|
|
"it", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there",
|
|
"these", "they", "this", "to", "was", "will", "with");
|
|
final CharArraySet stopSet = new CharArraySet(stopWords, false);
|
|
ENGLISH_STOP_WORDS_SET = CharArraySet.unmodifiableSet(stopSet);
|
|
|
|
ITA_DEFAULT_ARTICLES = CharArraySet.unmodifiableSet(new CharArraySet(Arrays.asList(
|
|
"c",
|
|
"l",
|
|
"all",
|
|
"dall",
|
|
"dell",
|
|
"nell",
|
|
"sull",
|
|
"coll",
|
|
"pell",
|
|
"gl",
|
|
"agl",
|
|
"dagl",
|
|
"degl",
|
|
"negl",
|
|
"sugl",
|
|
"un",
|
|
"m",
|
|
"t",
|
|
"s",
|
|
"v",
|
|
"d"
|
|
), true));
|
|
|
|
ITA_STOP_WORDS_SET = CharArraySet.unmodifiableSet(new CharArraySet(List.of("ad",
|
|
"al",
|
|
"allo",
|
|
"ai",
|
|
"agli",
|
|
"all",
|
|
"agl",
|
|
"alla",
|
|
"alle",
|
|
"con",
|
|
"col",
|
|
"coi",
|
|
"da",
|
|
"dal",
|
|
"dallo",
|
|
"dai",
|
|
"dagli",
|
|
"dall",
|
|
"dagl",
|
|
"dalla",
|
|
"dalle",
|
|
"di",
|
|
"del",
|
|
"dello",
|
|
"dei",
|
|
"degli",
|
|
"dell",
|
|
"degl",
|
|
"della",
|
|
"delle",
|
|
"in",
|
|
"nel",
|
|
"nello",
|
|
"nei",
|
|
"negli",
|
|
"nell",
|
|
"negl",
|
|
"nella",
|
|
"nelle",
|
|
"su",
|
|
"sul",
|
|
"sullo",
|
|
"sui",
|
|
"sugli",
|
|
"sull",
|
|
"sugl",
|
|
"sulla",
|
|
"sulle",
|
|
"per",
|
|
"tra",
|
|
"contro",
|
|
"io",
|
|
"tu",
|
|
"lui",
|
|
"lei",
|
|
"noi",
|
|
"voi",
|
|
"loro",
|
|
"mio",
|
|
"mia",
|
|
"miei",
|
|
"mie",
|
|
"tuo",
|
|
"tua",
|
|
"tuoi",
|
|
"tue",
|
|
"suo",
|
|
"sua",
|
|
"suoi",
|
|
"sue",
|
|
"nostro",
|
|
"nostra",
|
|
"nostri",
|
|
"nostre",
|
|
"vostro",
|
|
"vostra",
|
|
"vostri",
|
|
"vostre",
|
|
"mi",
|
|
"ti",
|
|
"ci",
|
|
"vi",
|
|
"lo",
|
|
"la",
|
|
"li",
|
|
"le",
|
|
"gli",
|
|
"ne",
|
|
"il",
|
|
"un",
|
|
"uno",
|
|
"una",
|
|
"ma",
|
|
"ed",
|
|
"se",
|
|
"perché",
|
|
"anche",
|
|
"come",
|
|
"dov",
|
|
"dove",
|
|
"che",
|
|
"chi",
|
|
"cui",
|
|
"non",
|
|
"più",
|
|
"quale",
|
|
"quanto",
|
|
"quanti",
|
|
"quanta",
|
|
"quante",
|
|
"quello",
|
|
"quelli",
|
|
"quella",
|
|
"quelle",
|
|
"questo",
|
|
"questi",
|
|
"questa",
|
|
"queste",
|
|
"si",
|
|
"tutto",
|
|
"tutti",
|
|
"a",
|
|
"c",
|
|
"e",
|
|
"i",
|
|
"l",
|
|
"o",
|
|
"ho",
|
|
"hai",
|
|
"ha",
|
|
"abbiamo",
|
|
"avete",
|
|
"hanno",
|
|
"abbia",
|
|
"abbiate",
|
|
"abbiano",
|
|
"avrò",
|
|
"avrai",
|
|
"avrà",
|
|
"avremo",
|
|
"avrete",
|
|
"avranno",
|
|
"avrei",
|
|
"avresti",
|
|
"avrebbe",
|
|
"avremmo",
|
|
"avreste",
|
|
"avrebbero",
|
|
"avevo",
|
|
"avevi",
|
|
"aveva",
|
|
"avevamo",
|
|
"avevate",
|
|
"avevano",
|
|
"ebbi",
|
|
"avesti",
|
|
"ebbe",
|
|
"avemmo",
|
|
"aveste",
|
|
"ebbero",
|
|
"avessi",
|
|
"avesse",
|
|
"avessimo",
|
|
"avessero",
|
|
"avendo",
|
|
"avuto",
|
|
"avuta",
|
|
"avuti",
|
|
"avute",
|
|
"sono",
|
|
"sei",
|
|
"è",
|
|
"siamo",
|
|
"siete",
|
|
"sia",
|
|
"siate",
|
|
"siano",
|
|
"sarò",
|
|
"sarai",
|
|
"sarà",
|
|
"saremo",
|
|
"sarete",
|
|
"saranno",
|
|
"sarei",
|
|
"saresti",
|
|
"sarebbe",
|
|
"saremmo",
|
|
"sareste",
|
|
"sarebbero",
|
|
"ero",
|
|
"eri",
|
|
"era",
|
|
"eravamo",
|
|
"eravate",
|
|
"erano",
|
|
"fui",
|
|
"fosti",
|
|
"fu",
|
|
"fummo",
|
|
"foste",
|
|
"furono",
|
|
"fossi",
|
|
"fosse",
|
|
"fossimo",
|
|
"fossero",
|
|
"essendo",
|
|
"faccio",
|
|
"fai",
|
|
"facciamo",
|
|
"fanno",
|
|
"faccia",
|
|
"facciate",
|
|
"facciano",
|
|
"farò",
|
|
"farai",
|
|
"farà",
|
|
"faremo",
|
|
"farete",
|
|
"faranno",
|
|
"farei",
|
|
"faresti",
|
|
"farebbe",
|
|
"faremmo",
|
|
"fareste",
|
|
"farebbero",
|
|
"facevo",
|
|
"facevi",
|
|
"faceva",
|
|
"facevamo",
|
|
"facevate",
|
|
"facevano",
|
|
"feci",
|
|
"facesti",
|
|
"fece",
|
|
"facemmo",
|
|
"faceste",
|
|
"fecero",
|
|
"facessi",
|
|
"facesse",
|
|
"facessimo",
|
|
"facessero",
|
|
"facendo",
|
|
"sto",
|
|
"stai",
|
|
"sta",
|
|
"stiamo",
|
|
"stanno",
|
|
"stia",
|
|
"stiate",
|
|
"stiano",
|
|
"starò",
|
|
"starai",
|
|
"starà",
|
|
"staremo",
|
|
"starete",
|
|
"staranno",
|
|
"starei",
|
|
"staresti",
|
|
"starebbe",
|
|
"staremmo",
|
|
"stareste",
|
|
"starebbero",
|
|
"stavo",
|
|
"stavi",
|
|
"stava",
|
|
"stavamo",
|
|
"stavate",
|
|
"stavano",
|
|
"stetti",
|
|
"stesti",
|
|
"stette",
|
|
"stemmo",
|
|
"steste",
|
|
"stettero",
|
|
"stessi",
|
|
"stesse",
|
|
"stessimo",
|
|
"stessero",
|
|
"stando"
|
|
), true));
|
|
|
|
var mergedSet = new ArrayList<>();
|
|
mergedSet.addAll(ITA_STOP_WORDS_SET);
|
|
mergedSet.addAll(ENGLISH_STOP_WORDS_SET);
|
|
STOP_WORDS_SET = new CharArraySet(mergedSet, true);
|
|
}
|
|
}
|