CavalliumDBEngine/src/main/java/it/cavallium/dbengine/lucene/analyzer/ItaEngStopWords.java
2023-02-22 16:21:13 +01:00

342 lines
5.1 KiB
Java

package it.cavallium.dbengine.lucene.analyzer;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import org.apache.lucene.analysis.CharArraySet;
public class ItaEngStopWords {
/**
* An unmodifiable set containing some common English words that are not usually useful for
* searching.
*/
public static final CharArraySet ENGLISH_STOP_WORDS_SET;
public static final CharArraySet ITA_DEFAULT_ARTICLES;
public static final CharArraySet ITA_STOP_WORDS_SET;
public static final CharArraySet STOP_WORDS_SET;
static {
final List<String> stopWords =
Arrays.asList(
"a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is",
"it", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there",
"these", "they", "this", "to", "was", "will", "with");
final CharArraySet stopSet = new CharArraySet(stopWords, false);
ENGLISH_STOP_WORDS_SET = CharArraySet.unmodifiableSet(stopSet);
ITA_DEFAULT_ARTICLES = CharArraySet.unmodifiableSet(new CharArraySet(Arrays.asList(
"c",
"l",
"all",
"dall",
"dell",
"nell",
"sull",
"coll",
"pell",
"gl",
"agl",
"dagl",
"degl",
"negl",
"sugl",
"un",
"m",
"t",
"s",
"v",
"d"
), true));
ITA_STOP_WORDS_SET = CharArraySet.unmodifiableSet(new CharArraySet(List.of("ad",
"al",
"allo",
"ai",
"agli",
"all",
"agl",
"alla",
"alle",
"con",
"col",
"coi",
"da",
"dal",
"dallo",
"dai",
"dagli",
"dall",
"dagl",
"dalla",
"dalle",
"di",
"del",
"dello",
"dei",
"degli",
"dell",
"degl",
"della",
"delle",
"in",
"nel",
"nello",
"nei",
"negli",
"nell",
"negl",
"nella",
"nelle",
"su",
"sul",
"sullo",
"sui",
"sugli",
"sull",
"sugl",
"sulla",
"sulle",
"per",
"tra",
"contro",
"io",
"tu",
"lui",
"lei",
"noi",
"voi",
"loro",
"mio",
"mia",
"miei",
"mie",
"tuo",
"tua",
"tuoi",
"tue",
"suo",
"sua",
"suoi",
"sue",
"nostro",
"nostra",
"nostri",
"nostre",
"vostro",
"vostra",
"vostri",
"vostre",
"mi",
"ti",
"ci",
"vi",
"lo",
"la",
"li",
"le",
"gli",
"ne",
"il",
"un",
"uno",
"una",
"ma",
"ed",
"se",
"perché",
"anche",
"come",
"dov",
"dove",
"che",
"chi",
"cui",
"non",
"più",
"quale",
"quanto",
"quanti",
"quanta",
"quante",
"quello",
"quelli",
"quella",
"quelle",
"questo",
"questi",
"questa",
"queste",
"si",
"tutto",
"tutti",
"a",
"c",
"e",
"i",
"l",
"o",
"ho",
"hai",
"ha",
"abbiamo",
"avete",
"hanno",
"abbia",
"abbiate",
"abbiano",
"avrò",
"avrai",
"avrà",
"avremo",
"avrete",
"avranno",
"avrei",
"avresti",
"avrebbe",
"avremmo",
"avreste",
"avrebbero",
"avevo",
"avevi",
"aveva",
"avevamo",
"avevate",
"avevano",
"ebbi",
"avesti",
"ebbe",
"avemmo",
"aveste",
"ebbero",
"avessi",
"avesse",
"avessimo",
"avessero",
"avendo",
"avuto",
"avuta",
"avuti",
"avute",
"sono",
"sei",
"è",
"siamo",
"siete",
"sia",
"siate",
"siano",
"sarò",
"sarai",
"sarà",
"saremo",
"sarete",
"saranno",
"sarei",
"saresti",
"sarebbe",
"saremmo",
"sareste",
"sarebbero",
"ero",
"eri",
"era",
"eravamo",
"eravate",
"erano",
"fui",
"fosti",
"fu",
"fummo",
"foste",
"furono",
"fossi",
"fosse",
"fossimo",
"fossero",
"essendo",
"faccio",
"fai",
"facciamo",
"fanno",
"faccia",
"facciate",
"facciano",
"farò",
"farai",
"farà",
"faremo",
"farete",
"faranno",
"farei",
"faresti",
"farebbe",
"faremmo",
"fareste",
"farebbero",
"facevo",
"facevi",
"faceva",
"facevamo",
"facevate",
"facevano",
"feci",
"facesti",
"fece",
"facemmo",
"faceste",
"fecero",
"facessi",
"facesse",
"facessimo",
"facessero",
"facendo",
"sto",
"stai",
"sta",
"stiamo",
"stanno",
"stia",
"stiate",
"stiano",
"starò",
"starai",
"starà",
"staremo",
"starete",
"staranno",
"starei",
"staresti",
"starebbe",
"staremmo",
"stareste",
"starebbero",
"stavo",
"stavi",
"stava",
"stavamo",
"stavate",
"stavano",
"stetti",
"stesti",
"stette",
"stemmo",
"steste",
"stettero",
"stessi",
"stesse",
"stessimo",
"stessero",
"stando"
), true));
var mergedSet = new ArrayList<>();
mergedSet.addAll(ITA_STOP_WORDS_SET);
mergedSet.addAll(ENGLISH_STOP_WORDS_SET);
STOP_WORDS_SET = new CharArraySet(mergedSet, true);
}
}