polystring 0.1.0__py3-none-any.whl
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- polystring/__init__.py +29 -0
- polystring/_analyzer.py +133 -0
- polystring/_detector.py +74 -0
- polystring/_exceptions.py +17 -0
- polystring/_models.py +106 -0
- polystring/_ngram.py +144 -0
- polystring/_pipeline/__init__.py +0 -0
- polystring/_pipeline/stage1_preprocess.py +134 -0
- polystring/_pipeline/stage2_script.py +104 -0
- polystring/_pipeline/stage3_classify.py +176 -0
- polystring/_pipeline/stage4_context.py +108 -0
- polystring/_pipeline/stage5_merge.py +138 -0
- polystring/data/_background_ngram.json +1 -0
- polystring/data/sw_ngram.json +1 -0
- polystring/data/tl_ngram.json +1 -0
- polystring/data/ur_Latn_ngram.json +1 -0
- polystring/lexicons/__init__.py +116 -0
- polystring/lexicons/french.py +113 -0
- polystring/lexicons/german.py +111 -0
- polystring/lexicons/italian.py +113 -0
- polystring/lexicons/portuguese.py +117 -0
- polystring/lexicons/roman_urdu.py +130 -0
- polystring/lexicons/spanish.py +111 -0
- polystring/lexicons/swahili.py +89 -0
- polystring/lexicons/tagalog.py +100 -0
- polystring/lexicons/turkish.py +87 -0
- polystring/py.typed +0 -0
- polystring-0.1.0.dist-info/METADATA +257 -0
- polystring-0.1.0.dist-info/RECORD +31 -0
- polystring-0.1.0.dist-info/WHEEL +4 -0
- polystring-0.1.0.dist-info/licenses/LICENSE +21 -0
|
@@ -0,0 +1,113 @@
|
|
|
1
|
+
ITALIAN: set[str] = {
|
|
2
|
+
# Pronouns — subject
|
|
3
|
+
"io", "lui", "lei", "noi", "voi", "loro",
|
|
4
|
+
# "tu" omitted: in CONFLICT_WORDS
|
|
5
|
+
# Pronouns — clitic / possessive
|
|
6
|
+
"mio", "mia", "miei", "mie",
|
|
7
|
+
"tuo", "tua", "tuoi", "tue",
|
|
8
|
+
"suo", "suoi",
|
|
9
|
+
# "sua" "suo" omitted from CONFLICT_WORDS — but "suo" kept as PT/IT conflict
|
|
10
|
+
# "mi" "la" "le" "lo" "li" "tu" "me" "te" omitted: in CONFLICT_WORDS
|
|
11
|
+
"nostro", "nostra", "nostri", "nostre",
|
|
12
|
+
"vostro", "vostra", "vostri", "vostre",
|
|
13
|
+
"gli",
|
|
14
|
+
|
|
15
|
+
# Articles — definite
|
|
16
|
+
"il", "dello", "della", "degli", "delle",
|
|
17
|
+
# Articles — indefinite
|
|
18
|
+
"uno", "una", "degli",
|
|
19
|
+
# Contracted
|
|
20
|
+
"del", "dei", "dal", "dai", "sul", "sui",
|
|
21
|
+
"nel", "nei", "col", "coi",
|
|
22
|
+
# "de" "la" "le" "un" "al" "con" omitted: in CONFLICT_WORDS
|
|
23
|
+
|
|
24
|
+
# Demonstratives
|
|
25
|
+
"questo", "questa", "questi", "queste",
|
|
26
|
+
"quello", "quella", "quelli", "quelle",
|
|
27
|
+
|
|
28
|
+
# Prepositions
|
|
29
|
+
"senza", "tra", "fra", "verso",
|
|
30
|
+
"durante", "secondo", "fino",
|
|
31
|
+
"dopo", "prima", "presso",
|
|
32
|
+
# "con" "da" omitted: in CONFLICT_WORDS
|
|
33
|
+
|
|
34
|
+
# Conjunctions
|
|
35
|
+
"però", "pero", "eppure", "anzi",
|
|
36
|
+
"perché", "perche", "poiché", "poiche",
|
|
37
|
+
"mentre", "sebbene", "benché",
|
|
38
|
+
"quando", "dove", "anche",
|
|
39
|
+
"oppure",
|
|
40
|
+
# "ma" "come" "si" omitted: in CONFLICT_WORDS
|
|
41
|
+
|
|
42
|
+
# Adverbs
|
|
43
|
+
"molto", "bene", "qui", "qua",
|
|
44
|
+
"adesso", "prima", "dopo",
|
|
45
|
+
"sempre", "mai", "spesso", "ancora",
|
|
46
|
+
"anche", "solo", "solamente",
|
|
47
|
+
"quasi", "forse", "così", "cosi",
|
|
48
|
+
"tanto", "poco", "abbastanza",
|
|
49
|
+
# "già" "gia" "so" "ora" "bene" "do" omitted: in CONFLICT_WORDS
|
|
50
|
+
|
|
51
|
+
# Interrogatives
|
|
52
|
+
"chi", "quale", "quali",
|
|
53
|
+
"quanto", "quanta", "quando", "dove",
|
|
54
|
+
# "che" "come" omitted: in CONFLICT_WORDS
|
|
55
|
+
|
|
56
|
+
# High-frequency verbs — essere / avere / stare / fare
|
|
57
|
+
"sono", "sei", "siamo", "siete",
|
|
58
|
+
"era", "erano",
|
|
59
|
+
"ho", "hai", "abbiamo", "avete", "hanno",
|
|
60
|
+
"aveva", "avevano", "avrei",
|
|
61
|
+
"sto", "stai", "stiamo", "state", "stanno",
|
|
62
|
+
"facendo", "faccio", "fai", "facciamo",
|
|
63
|
+
"fatto", "fece",
|
|
64
|
+
# andare / venire
|
|
65
|
+
"vado", "vai", "andiamo", "andate", "vanno",
|
|
66
|
+
"vengo", "vieni", "veniamo", "venite",
|
|
67
|
+
"andato", "andare",
|
|
68
|
+
# potere / volere / sapere / dovere
|
|
69
|
+
"posso", "puoi", "puo", "possiamo", "potete", "possono",
|
|
70
|
+
"voglio", "vuoi", "vuole", "vogliamo", "volete", "vogliono",
|
|
71
|
+
"sai", "sa", "sappiamo", "sapete", "sanno",
|
|
72
|
+
"devo", "devi", "deve", "dobbiamo", "dovete", "devono",
|
|
73
|
+
# dire / vedere / dare
|
|
74
|
+
"dico", "dici", "dice", "diciamo",
|
|
75
|
+
"disse", "dicevo",
|
|
76
|
+
"vedo", "vedi", "vede", "vediamo",
|
|
77
|
+
"diamo", "danno",
|
|
78
|
+
# other common
|
|
79
|
+
"credo", "credi", "crede",
|
|
80
|
+
"penso", "pensi", "pensa",
|
|
81
|
+
"capisco", "capisce",
|
|
82
|
+
|
|
83
|
+
# Nouns — high-frequency
|
|
84
|
+
"cosa", "cose", "giorno", "giorni", "volta", "volte",
|
|
85
|
+
"gente", "vita", "tempo", "ora", "ore",
|
|
86
|
+
"uomo", "donna", "bambino", "bambini",
|
|
87
|
+
"famiglia", "casa", "paese", "lavoro",
|
|
88
|
+
"problema", "anno", "anni",
|
|
89
|
+
"amico", "amici", "parte", "mondo",
|
|
90
|
+
"settimana", "mese",
|
|
91
|
+
|
|
92
|
+
# Adjectives
|
|
93
|
+
"grande", "grandi", "piccolo", "piccola",
|
|
94
|
+
"buono", "buona", "buoni", "buone",
|
|
95
|
+
"cattivo", "cattiva",
|
|
96
|
+
"nuovo", "nuova", "nuovi", "nuove",
|
|
97
|
+
"stesso", "stessa", "stessi", "stesse",
|
|
98
|
+
"altro", "altra", "altri", "altre",
|
|
99
|
+
"tutto", "tutta", "tutti", "tutte",
|
|
100
|
+
"bello", "bella", "belli", "belle",
|
|
101
|
+
|
|
102
|
+
# Greetings / social
|
|
103
|
+
"ciao", "arrivederci", "grazie", "prego",
|
|
104
|
+
"scusa", "scusi", "buongiorno", "buonasera",
|
|
105
|
+
"buonanotte", "salve",
|
|
106
|
+
|
|
107
|
+
# Discourse / fillers
|
|
108
|
+
"allora", "quindi", "comunque", "insomma",
|
|
109
|
+
"davvero", "ovviamente", "certo", "esatto",
|
|
110
|
+
"dai", "figurati",
|
|
111
|
+
"ecco", "appunto", "magari",
|
|
112
|
+
# "vabbè" "bene" "come" "ma" "da" "do" "so" "ora" "qui" omitted: in CONFLICT_WORDS
|
|
113
|
+
}
|
|
@@ -0,0 +1,117 @@
|
|
|
1
|
+
PORTUGUESE: set[str] = {
|
|
2
|
+
# Pronouns — subject
|
|
3
|
+
"eu", "voce", "ele", "ela", "eles", "elas",
|
|
4
|
+
# "nos" omitted: in CONFLICT_WORDS (FR/PT 2-lexicon overlap)
|
|
5
|
+
"vos",
|
|
6
|
+
# Pronouns — object / clitic
|
|
7
|
+
"lhe", "lhes",
|
|
8
|
+
"mim", "ti",
|
|
9
|
+
# "me" "te" "nos" omitted: in CONFLICT_WORDS (multi-language overlap)
|
|
10
|
+
|
|
11
|
+
# Articles — definite
|
|
12
|
+
"os", "as",
|
|
13
|
+
# "de" "do" "dos" "da" omitted: in CONFLICT_WORDS
|
|
14
|
+
"das", "ao", "aos", "pelo", "pela",
|
|
15
|
+
"pelos", "pelas", "num", "numa", "nuns", "numas",
|
|
16
|
+
"nele", "nela", "neles", "nelas", "nisto", "nisso",
|
|
17
|
+
# "un" "la" "le" "les" omitted: in CONFLICT_WORDS
|
|
18
|
+
|
|
19
|
+
# Demonstratives
|
|
20
|
+
# "este" "esta" omitted: in CONFLICT_WORDS
|
|
21
|
+
"estes", "estas",
|
|
22
|
+
"esse", "essa", "esses", "essas",
|
|
23
|
+
"aquele", "aquela", "aqueles", "aquelas",
|
|
24
|
+
"isto", "isso", "aquilo",
|
|
25
|
+
|
|
26
|
+
# Possessives
|
|
27
|
+
"meu", "minha", "meus", "minhas",
|
|
28
|
+
"teu", "tua", "teus", "tuas",
|
|
29
|
+
"seu", "seus",
|
|
30
|
+
# "sua" omitted: in CONFLICT_WORDS (IT overlap)
|
|
31
|
+
"nosso", "nossa", "nossos", "nossas",
|
|
32
|
+
|
|
33
|
+
# Prepositions
|
|
34
|
+
"com", "sem", "entre", "sob", "sobre", "desde",
|
|
35
|
+
"durante", "segundo", "ate", "apos",
|
|
36
|
+
"perante", "mediante",
|
|
37
|
+
# "por" "de" omitted: in CONFLICT_WORDS
|
|
38
|
+
|
|
39
|
+
# Conjunctions
|
|
40
|
+
"mas", "porem", "todavia", "contudo",
|
|
41
|
+
"porque", "pois", "quando",
|
|
42
|
+
"onde", "embora", "ainda",
|
|
43
|
+
# "como" "que" "si" "ma" omitted: in CONFLICT_WORDS
|
|
44
|
+
|
|
45
|
+
# Adverbs
|
|
46
|
+
"muito", "aqui", "ali",
|
|
47
|
+
"agora", "antes", "depois", "sempre", "nunca",
|
|
48
|
+
"tambem", "somente", "apenas",
|
|
49
|
+
"quase", "talvez", "assim",
|
|
50
|
+
"tao", "tanto", "quanto",
|
|
51
|
+
# "ja" "so" "mal" "bem" "ora" "es" omitted: in CONFLICT_WORDS
|
|
52
|
+
|
|
53
|
+
# Interrogatives
|
|
54
|
+
"quem", "qual", "quais",
|
|
55
|
+
"quanto", "quando", "onde",
|
|
56
|
+
# "que" "como" omitted: in CONFLICT_WORDS
|
|
57
|
+
|
|
58
|
+
# High-frequency verbs — ser / estar / ter / haver
|
|
59
|
+
"sou", "somos", "sao",
|
|
60
|
+
"estou", "estamos", "estao",
|
|
61
|
+
"tenho", "tens", "temos", "tem",
|
|
62
|
+
"tinha", "teve",
|
|
63
|
+
"havia", "houve",
|
|
64
|
+
# "ha" "es" omitted: in CONFLICT_WORDS
|
|
65
|
+
# ir / vir
|
|
66
|
+
"vou", "vai", "vamos", "vao",
|
|
67
|
+
"venho", "vens", "vem", "vimos",
|
|
68
|
+
"fui", "foi", "fomos", "foram",
|
|
69
|
+
# poder / querer / saber / fazer
|
|
70
|
+
"posso", "podes", "pode", "podemos", "podem",
|
|
71
|
+
"quero", "queres", "quer", "queremos", "querem",
|
|
72
|
+
"sei", "sabe", "sabemos", "sabem",
|
|
73
|
+
"faco", "faz", "fazemos", "fazem",
|
|
74
|
+
"fez", "fiz",
|
|
75
|
+
# dizer / ver / dar
|
|
76
|
+
"digo", "diz", "dizemos", "dizem",
|
|
77
|
+
"disse", "dizia",
|
|
78
|
+
"vejo", "vemos", "veem",
|
|
79
|
+
"dou", "damos", "dao",
|
|
80
|
+
# other common
|
|
81
|
+
"acho", "acha", "achamos",
|
|
82
|
+
"penso", "pensa", "pensamos",
|
|
83
|
+
"preciso", "precisa",
|
|
84
|
+
"gosto", "gosta",
|
|
85
|
+
|
|
86
|
+
# Nouns — high-frequency
|
|
87
|
+
"coisa", "coisas", "dia", "dias", "vez",
|
|
88
|
+
"gente", "vida", "tempo", "hora", "horas",
|
|
89
|
+
"homem", "mulher", "crianca", "criancas",
|
|
90
|
+
"familia", "casa", "pais", "trabalho",
|
|
91
|
+
"problema", "pergunta", "ano", "anos",
|
|
92
|
+
"amigo", "amigos", "parte", "mundo",
|
|
93
|
+
"semana", "mes",
|
|
94
|
+
|
|
95
|
+
# Adjectives
|
|
96
|
+
"grande", "grandes", "pequeno", "pequena",
|
|
97
|
+
"bom", "boa", "bons", "boas",
|
|
98
|
+
"mau", "maus",
|
|
99
|
+
"novo", "nova", "novos", "novas",
|
|
100
|
+
"mesmo", "mesma", "mesmos", "mesmas",
|
|
101
|
+
"outro", "outra", "outros", "outras",
|
|
102
|
+
"todo", "toda", "todos", "todas",
|
|
103
|
+
"muito", "muita", "muitos", "muitas",
|
|
104
|
+
"pouco", "pouca", "poucos", "poucas",
|
|
105
|
+
# "ma" omitted: in CONFLICT_WORDS
|
|
106
|
+
|
|
107
|
+
# Greetings / social
|
|
108
|
+
"ola", "obrigado", "obrigada",
|
|
109
|
+
"desculpe", "perdao", "favor",
|
|
110
|
+
"tchau", "boas", "boa", "oi",
|
|
111
|
+
|
|
112
|
+
# Discourse / fillers
|
|
113
|
+
"entao", "pois", "bom", "claro",
|
|
114
|
+
"verdade", "certo", "enfim",
|
|
115
|
+
"veja", "olha", "cara", "mano",
|
|
116
|
+
# "ora" "dos" "do" "da" "es" "ma" "si" "so" omitted: in CONFLICT_WORDS
|
|
117
|
+
}
|
|
@@ -0,0 +1,130 @@
|
|
|
1
|
+
ROMAN_URDU: set[str] = {
|
|
2
|
+
# Copulas & auxiliaries
|
|
3
|
+
"hai", "hain", "tha", "thi", "the", "hy",
|
|
4
|
+
"hona", "hoon", "hoga", "hogi", "honge",
|
|
5
|
+
# "ho" omitted: overlaps Tagalog lexicon
|
|
6
|
+
"hua", "hui", "hue",
|
|
7
|
+
|
|
8
|
+
# Negation
|
|
9
|
+
"nahi", "nhi", "nahin", "naheen", "nai", "mat",
|
|
10
|
+
# "na" omitted: in CONFLICT_WORDS
|
|
11
|
+
|
|
12
|
+
# Question words
|
|
13
|
+
"kya", "kia", "keeya", "kyun", "kyunke", "kyunki",
|
|
14
|
+
"kahan", "kab", "kaun", "kitna", "kitni", "kitne",
|
|
15
|
+
"kaisa", "kaisi", "kaise",
|
|
16
|
+
|
|
17
|
+
# Conjunctions
|
|
18
|
+
"aur", "aor", "lekin", "lkn", "magar", "phir", "phr",
|
|
19
|
+
"bhi", "bi", "toh", "tou", "ab", "abhi", "agar", "jab", "tab",
|
|
20
|
+
"jabke", "jaise", "taake", "warna", "balke", "halanke",
|
|
21
|
+
|
|
22
|
+
# Pronouns
|
|
23
|
+
"main", "mein", "mai", "hum", "ham", "tum", "ap", "aap",
|
|
24
|
+
"woh", "wo", "unn", "unka", "unki", "unke",
|
|
25
|
+
"mera", "meri", "mere", "tera", "teri", "tere",
|
|
26
|
+
"uska", "uski", "uske", "humara", "humari", "humare",
|
|
27
|
+
"tumhara", "tumhari", "tumhare", "apna", "apni", "apne",
|
|
28
|
+
"mujhe", "tujhe", "usse", "hume", "humko", "tumhe", "tumko",
|
|
29
|
+
"inhe", "unhe", "yeh", "inn", "unhone",
|
|
30
|
+
"humein", "mujhko",
|
|
31
|
+
|
|
32
|
+
# Demonstratives
|
|
33
|
+
"yahan", "vahan", "wahan", "idhar", "udhar",
|
|
34
|
+
"iss", "uss", "is", "us",
|
|
35
|
+
# "un" omitted: overlaps French lexicon
|
|
36
|
+
# "in" omitted: in CONFLICT_WORDS
|
|
37
|
+
|
|
38
|
+
# Common verbs (infinitive & conjugated forms)
|
|
39
|
+
"karo", "karna", "karta", "karti", "karte", "kiya", "kar",
|
|
40
|
+
# "ki" omitted: overlaps Turkish lexicon
|
|
41
|
+
"raha", "rahi", "rahe", "rehna", "rehta", "rehti", "rehte",
|
|
42
|
+
"aana", "aata", "aati", "aate", "aaya", "aayi", "aaye", "aa",
|
|
43
|
+
"jaana", "jaata", "jaati", "jaate", "gaya", "gayi", "gaye", "jao",
|
|
44
|
+
"lena", "leta", "leti", "lete", "liya", "liye",
|
|
45
|
+
# "le" omitted: overlaps French lexicon
|
|
46
|
+
"dena", "deta", "deti", "dete", "diya", "diye",
|
|
47
|
+
# "do" omitted: in CONFLICT_WORDS (EN + PT overlap)
|
|
48
|
+
# "de" omitted: in CONFLICT_WORDS (FR/ES/PT/IT preposition overlap)
|
|
49
|
+
"bolna", "bolta", "bolti", "bolte", "bola", "boli", "bolo",
|
|
50
|
+
"sunna", "sunta", "sunti", "sunte", "suna", "suni", "suno",
|
|
51
|
+
"dekhna", "dekhta", "dekhti", "dekhte", "dekha", "dekhi", "dekho",
|
|
52
|
+
"padhna", "padhta", "padhti", "padhte", "padha", "padhi", "padho",
|
|
53
|
+
"likhna", "likhta", "likhti", "likhte", "likha", "likhi",
|
|
54
|
+
"khana", "khaana", "khata", "khati", "khate", "khaya", "khayi",
|
|
55
|
+
"peena", "peeta", "peeti", "peete", "piya", "piyi",
|
|
56
|
+
"sona", "sota", "soti", "sote", "soya", "soyi",
|
|
57
|
+
"uthna", "uthta", "uthti", "uthte", "utha", "uthi", "utho",
|
|
58
|
+
"baithna", "baitha", "baithi", "baitho",
|
|
59
|
+
"chalna", "chalta", "chalti", "chalte", "chala", "chali", "chalo",
|
|
60
|
+
"daurna", "daurta", "daurti", "daurte",
|
|
61
|
+
"hasna", "hasta", "hasti", "haste", "hansa", "hansi",
|
|
62
|
+
"rona", "rota", "roti", "rote", "roya", "royi",
|
|
63
|
+
"samajh", "samjha", "samjhi", "samjho", "samajhna",
|
|
64
|
+
"poochna", "poocha", "poocho",
|
|
65
|
+
"batana", "batao", "bata", "bataya",
|
|
66
|
+
"milna", "milta", "milti", "milte", "mila", "mili",
|
|
67
|
+
"banana", "banata", "banati", "banate", "bana", "bani",
|
|
68
|
+
"todna", "toda", "todi",
|
|
69
|
+
"chhodna", "chhoda", "chhodi", "chhodo",
|
|
70
|
+
"pakadna", "pakda", "pakdo",
|
|
71
|
+
"chalana", "chalao",
|
|
72
|
+
"bhoolna", "bhoola", "bhooli",
|
|
73
|
+
"yaad", "yaadein",
|
|
74
|
+
|
|
75
|
+
# Nouns — people & relationships
|
|
76
|
+
"yaar", "yar", "bhai", "bhaiya", "behan", "amma", "ammi", "abba",
|
|
77
|
+
"abbu", "dost", "ladki", "ladka", "aurat", "mard", "bachcha",
|
|
78
|
+
"bacche", "bacchi", "beta", "beti", "baap", "maa", "dada", "dadi",
|
|
79
|
+
"nana", "nani", "chacha", "chachi", "mama", "mami", "phupho",
|
|
80
|
+
"insaan",
|
|
81
|
+
# "log" omitted: in CONFLICT_WORDS
|
|
82
|
+
|
|
83
|
+
# Nouns — time
|
|
84
|
+
"aaj", "aj", "kal", "parso", "raat", "subah", "subha", "dopahar",
|
|
85
|
+
"shaam", "waqt", "wakt", "hafte", "mahina", "saal",
|
|
86
|
+
"zamana", "daur", "abhi", "pehle", "baad",
|
|
87
|
+
# "din" omitted: in CONFLICT_WORDS
|
|
88
|
+
|
|
89
|
+
# Nouns — place & direction
|
|
90
|
+
"ghar", "daftar", "school", "jagah", "taraf", "darmiyan",
|
|
91
|
+
"upar", "neeche", "andar", "paas", "door", "seedha", "ulta",
|
|
92
|
+
"aage", "peeche", "daayen", "baayen",
|
|
93
|
+
|
|
94
|
+
# Nouns — everyday life
|
|
95
|
+
"kaam", "khatam", "cheez", "cheezon", "paise", "paisa", "khaana",
|
|
96
|
+
"pani", "paani", "mausam", "baarish", "dhoop", "roshni",
|
|
97
|
+
"awaaz", "baat", "baatein", "khabar", "khwaab", "sapna", "sapne",
|
|
98
|
+
"umeed", "dua", "rishta", "maafi", "shukr", "tauba",
|
|
99
|
+
"namaaz", "ibadat", "deen",
|
|
100
|
+
|
|
101
|
+
# Nouns — emotions & states
|
|
102
|
+
"dil", "pyaar", "mohabbat", "ishq", "nafrat", "khushi", "gham",
|
|
103
|
+
"dard", "takleef", "aaraam", "neend", "thakan", "zindagi",
|
|
104
|
+
"mushkil", "mushkilat", "mushkilein", "azaadi", "duniya",
|
|
105
|
+
|
|
106
|
+
# Adjectives
|
|
107
|
+
"acha", "accha", "thik", "theek", "bura", "sahi", "galat",
|
|
108
|
+
"naya", "purana", "bara", "bada", "chota", "tez", "dheere",
|
|
109
|
+
"garam", "thanda", "mehngi", "sasta", "mushkil", "aasaan",
|
|
110
|
+
"thaka", "thaki", "akela", "akeli", "khush", "udaas",
|
|
111
|
+
"majbooran", "zaroor", "zarur",
|
|
112
|
+
|
|
113
|
+
# Adverbs & particles
|
|
114
|
+
"bahut", "bohat", "bohot", "zyada", "ziada", "thoda", "thora",
|
|
115
|
+
"kuch", "sab", "bilkul", "matlab", "ekdum", "haan",
|
|
116
|
+
"han", "haa", "jaldi", "dheere", "phirse", "dobara",
|
|
117
|
+
"sirf", "bas", "hi", "bhi",
|
|
118
|
+
|
|
119
|
+
# Postpositions
|
|
120
|
+
"mein", "pe", "ke", "tak", "liye", "saath", "bina", "jaise", "jaisa",
|
|
121
|
+
# "ko" "ka" omitted: in CONFLICT_WORDS
|
|
122
|
+
# "ki" omitted: overlaps Turkish lexicon
|
|
123
|
+
# "par" "un" "le" omitted: overlap French lexicon
|
|
124
|
+
|
|
125
|
+
# Hinglish social / filler words
|
|
126
|
+
"arey", "arre", "oye", "arrey",
|
|
127
|
+
"wali", "wale",
|
|
128
|
+
# "wala" omitted: overlaps Tagalog lexicon
|
|
129
|
+
# "ho" omitted: overlaps Tagalog lexicon
|
|
130
|
+
}
|
|
@@ -0,0 +1,111 @@
|
|
|
1
|
+
SPANISH: set[str] = {
|
|
2
|
+
# Pronouns — subject
|
|
3
|
+
"yo", "usted", "nosotros", "nosotras",
|
|
4
|
+
"vosotros", "vosotras", "ustedes", "ellos", "ellas",
|
|
5
|
+
# "tu" omitted: in CONFLICT_WORDS
|
|
6
|
+
# Pronouns — object / reflexive
|
|
7
|
+
# "me" "te" "se" "nos" omitted: in CONFLICT_WORDS
|
|
8
|
+
"lo", "los", "li",
|
|
9
|
+
|
|
10
|
+
# Articles
|
|
11
|
+
# "la" "le" "les" "un" "el" omitted: in CONFLICT_WORDS
|
|
12
|
+
"unas", "unos",
|
|
13
|
+
|
|
14
|
+
# Demonstratives
|
|
15
|
+
# "este" "esta" "ese" "esa" omitted: in CONFLICT_WORDS
|
|
16
|
+
"estos", "estas", "esos", "esas",
|
|
17
|
+
"aquel", "aquella", "aquellos", "aquellas",
|
|
18
|
+
"esto", "eso", "aquello",
|
|
19
|
+
|
|
20
|
+
# Possessives
|
|
21
|
+
# "mi" "su" "tu" omitted: in CONFLICT_WORDS
|
|
22
|
+
"mis", "tus", "sus",
|
|
23
|
+
"nuestro", "nuestra", "nuestros", "nuestras",
|
|
24
|
+
"vuestro", "vuestra", "vuestros", "vuestras",
|
|
25
|
+
"mio", "mia", "mios", "mias",
|
|
26
|
+
"tuyo", "tuya", "tuyos", "tuyas",
|
|
27
|
+
|
|
28
|
+
# Prepositions
|
|
29
|
+
# "con" "por" omitted: in CONFLICT_WORDS
|
|
30
|
+
"sin", "bajo", "entre", "hacia", "hasta",
|
|
31
|
+
"desde", "durante", "mediante", "segun",
|
|
32
|
+
"ante", "tras",
|
|
33
|
+
# "de" omitted: in CONFLICT_WORDS
|
|
34
|
+
|
|
35
|
+
# Conjunctions
|
|
36
|
+
"pero", "sino", "aunque", "mientras",
|
|
37
|
+
"porque", "pues", "cuando",
|
|
38
|
+
"donde", "ademas", "tampoco",
|
|
39
|
+
# "como" "que" omitted: in CONFLICT_WORDS
|
|
40
|
+
|
|
41
|
+
# Adverbs
|
|
42
|
+
"muy", "aqui", "ahi", "alla",
|
|
43
|
+
"ahora", "antes", "despues", "siempre", "nunca",
|
|
44
|
+
"todavia", "tambien",
|
|
45
|
+
"casi", "solo", "solamente", "quizas", "acaso",
|
|
46
|
+
"asi", "tan", "tanto", "cuanto",
|
|
47
|
+
# "ya" "bien" "mal" omitted: in CONFLICT_WORDS
|
|
48
|
+
|
|
49
|
+
# Interrogatives
|
|
50
|
+
"quien", "quienes", "cual", "cuales",
|
|
51
|
+
"cuanto", "cuanta", "donde", "cuando",
|
|
52
|
+
# "que" "como" "por" omitted: in CONFLICT_WORDS
|
|
53
|
+
|
|
54
|
+
# High-frequency verbs — ser / estar / haber / tener
|
|
55
|
+
"soy", "eres", "somos", "sois",
|
|
56
|
+
"estoy", "estamos", "estais", "estan",
|
|
57
|
+
"hay", "hubo", "habia",
|
|
58
|
+
"tengo", "tienes", "tenemos", "teneis", "tienen",
|
|
59
|
+
"tenia", "tuvo", "tuve",
|
|
60
|
+
# ir / venir
|
|
61
|
+
"voy", "vas", "vamos", "vais", "van",
|
|
62
|
+
"vengo", "vienes", "venimos", "vienen",
|
|
63
|
+
"fui", "fue", "fueron",
|
|
64
|
+
# poder / querer / saber / hacer
|
|
65
|
+
"puedo", "puedes", "puede", "podemos", "pueden",
|
|
66
|
+
"quiero", "quieres", "quiere", "queremos", "quieren",
|
|
67
|
+
"queria", "quiso",
|
|
68
|
+
"sabe", "sabemos", "saben",
|
|
69
|
+
"hago", "haces", "hace", "hacemos", "hacen",
|
|
70
|
+
"hizo", "hice",
|
|
71
|
+
# decir / ver / dar
|
|
72
|
+
"digo", "dices", "dice", "decimos", "dicen",
|
|
73
|
+
"dijo", "dije",
|
|
74
|
+
"veo", "ves", "vemos", "ven",
|
|
75
|
+
"doy", "das", "damos", "dan",
|
|
76
|
+
# other common
|
|
77
|
+
"creo", "crees", "cree", "creemos",
|
|
78
|
+
"pienso", "piensas", "piensa",
|
|
79
|
+
"necesito", "necesitas", "necesita",
|
|
80
|
+
"gustaria", "gusta", "gusto",
|
|
81
|
+
|
|
82
|
+
# Nouns — high-frequency
|
|
83
|
+
"cosa", "cosas", "dia", "dias", "vez", "veces",
|
|
84
|
+
"gente", "vida", "tiempo", "hora", "horas",
|
|
85
|
+
"hombre", "mujer", "nino", "ninos",
|
|
86
|
+
"familia", "casa", "pais", "trabajo",
|
|
87
|
+
"problema", "pregunta", "ano", "anos",
|
|
88
|
+
"amigo", "amigos", "parte", "mundo",
|
|
89
|
+
"semana", "mes",
|
|
90
|
+
|
|
91
|
+
# Adjectives — common
|
|
92
|
+
"grande", "grandes", "pequeno", "pequena",
|
|
93
|
+
"bueno", "buena", "buenos", "buenas",
|
|
94
|
+
"malo", "mala", "malos", "malas",
|
|
95
|
+
"nuevo", "nueva", "nuevos", "nuevas",
|
|
96
|
+
"mismo", "misma",
|
|
97
|
+
"otro", "otra", "otros", "otras",
|
|
98
|
+
"todo", "toda", "todos", "todas",
|
|
99
|
+
"mucho", "mucha", "muchos", "muchas",
|
|
100
|
+
"poco", "poca", "pocos", "pocas",
|
|
101
|
+
|
|
102
|
+
# Greetings / social
|
|
103
|
+
"hola", "adios", "gracias", "favor",
|
|
104
|
+
"perdon", "disculpe", "bienvenido",
|
|
105
|
+
|
|
106
|
+
# Discourse / fillers
|
|
107
|
+
"pues", "bueno", "claro", "entonces",
|
|
108
|
+
"verdad", "vale", "oye", "mira", "vaya",
|
|
109
|
+
"oiga", "venga",
|
|
110
|
+
# "bien" "mal" "no" "al" "es" "el" "la" omitted: in CONFLICT_WORDS
|
|
111
|
+
}
|
|
@@ -0,0 +1,89 @@
|
|
|
1
|
+
SWAHILI: set[str] = {
|
|
2
|
+
# Core function words / agreement markers
|
|
3
|
+
"wa", "kwa", "za",
|
|
4
|
+
# "la" omitted: in CONFLICT_WORDS (FR/SW 2-lexicon overlap)
|
|
5
|
+
# "ya" omitted: in CONFLICT_WORDS (ES/UR/TR overlap)
|
|
6
|
+
# "na" omitted: in CONFLICT_WORDS (TL/UR/DE overlap)
|
|
7
|
+
# "ni" omitted: in CONFLICT_WORDS (IT/TL/Slavic overlap)
|
|
8
|
+
"katika", "kuwa",
|
|
9
|
+
|
|
10
|
+
# Demonstratives
|
|
11
|
+
"hii", "hizi", "hiyo", "hayo", "hao",
|
|
12
|
+
"ile", "zile", "lile", "yule", "wale",
|
|
13
|
+
"hapa", "huko", "hapo", "pale",
|
|
14
|
+
|
|
15
|
+
# Pronouns
|
|
16
|
+
"mimi", "wewe", "yeye", "sisi", "nyinyi", "wao",
|
|
17
|
+
"mimi", "mwenyewe", "wenyewe",
|
|
18
|
+
"yangu", "yako", "yake", "yetu", "yenu", "yao",
|
|
19
|
+
"wangu", "wako", "wake", "wetu", "wenu", "wao",
|
|
20
|
+
|
|
21
|
+
# Interrogatives
|
|
22
|
+
"nini", "wapi", "lini", "jinsi", "kwa", "vipi", "ngapi",
|
|
23
|
+
|
|
24
|
+
# Conjunctions
|
|
25
|
+
"kama", "lakini", "ingawa", "ijapokuwa", "au",
|
|
26
|
+
"pia", "ama", "bali", "wala",
|
|
27
|
+
|
|
28
|
+
# Prepositions / postpositions
|
|
29
|
+
"kabla", "baada", "juu", "chini", "mbele", "nyuma",
|
|
30
|
+
"ndani", "nje", "karibu", "mbali", "pamoja",
|
|
31
|
+
|
|
32
|
+
# Adverbs / time
|
|
33
|
+
"sasa", "leo", "kesho", "jana", "juzi", "kesho",
|
|
34
|
+
"bado", "tayari", "pia", "zaidi", "kidogo",
|
|
35
|
+
"sana", "haraka", "polepole", "mara", "kila",
|
|
36
|
+
"daima", "wakati",
|
|
37
|
+
|
|
38
|
+
# Affirmation / negation
|
|
39
|
+
"ndiyo", "ndio", "hapana", "sivyo",
|
|
40
|
+
# "la" omitted: in CONFLICT_WORDS (FR/SW 2-lexicon overlap)
|
|
41
|
+
"kweli", "kweli",
|
|
42
|
+
|
|
43
|
+
# Subject / object prefixes (appear as standalone tokens in informal text)
|
|
44
|
+
"ninataka", "unataka", "anataka", "tunataka", "mnataka", "wanataka",
|
|
45
|
+
"ninajua", "unajua", "anajua", "hatujui",
|
|
46
|
+
"ninaenda", "unaenda", "anaenda", "tunaenda",
|
|
47
|
+
"ninapenda", "unapenda", "anapenda",
|
|
48
|
+
"nilisema", "alisema", "walisema",
|
|
49
|
+
"ninafanya", "unafanya", "anafanya",
|
|
50
|
+
"nilikuwa", "ulikuwa", "alikuwa", "tulikuwa",
|
|
51
|
+
"nitakwenda", "utakwenda", "atakwenda",
|
|
52
|
+
"ninaweza", "unaweza", "anaweza",
|
|
53
|
+
|
|
54
|
+
# Common infinitives / verb stems
|
|
55
|
+
"kusema", "kwenda", "kuja", "kuona", "kusikia",
|
|
56
|
+
"kupenda", "kufanya", "kupata", "kutaka", "kujua",
|
|
57
|
+
"kusaidia", "kulala", "kula", "kunywa", "kucheza",
|
|
58
|
+
"kusoma", "kuandika", "kufungua", "kufunga",
|
|
59
|
+
"kuweza", "kulazimika",
|
|
60
|
+
|
|
61
|
+
# Nouns — people & social
|
|
62
|
+
"mtu", "watu", "mtoto", "watoto", "mwanaume", "mwanamke",
|
|
63
|
+
"familia", "ndugu", "kaka", "dada", "mama", "baba",
|
|
64
|
+
"mwalimu", "daktari", "askari", "dereva",
|
|
65
|
+
"marafiki", "adui",
|
|
66
|
+
|
|
67
|
+
# Nouns — time / abstract
|
|
68
|
+
"siku", "wiki", "mwezi", "mwaka", "usiku", "asubuhi",
|
|
69
|
+
"mchana", "jioni", "dakika", "saa",
|
|
70
|
+
|
|
71
|
+
# Nouns — everyday
|
|
72
|
+
"nyumba", "mji", "nchi", "barabara", "shule", "hospitali",
|
|
73
|
+
"chakula", "maji", "fedha", "pesa", "kazi", "biashara",
|
|
74
|
+
"habari", "jambo", "shida", "tatizo", "jibu",
|
|
75
|
+
|
|
76
|
+
# Adjectives
|
|
77
|
+
"nzuri", "mbaya", "kubwa", "ndogo", "mzuri",
|
|
78
|
+
"mpya", "wa", "mrefu", "mfupi", "mzee",
|
|
79
|
+
|
|
80
|
+
# Greetings / social
|
|
81
|
+
"asante", "habari", "jambo", "karibu", "rafiki",
|
|
82
|
+
"pamoja", "tafadhali", "samahani", "hongera",
|
|
83
|
+
"kwaheri", "hujambo", "sijambo", "mambo",
|
|
84
|
+
"salama", "poa", "safi",
|
|
85
|
+
|
|
86
|
+
# Discourse / fillers
|
|
87
|
+
"lakini", "basi", "sawa", "haya", "naam",
|
|
88
|
+
"yaani", "kwa", "hivyo", "hata",
|
|
89
|
+
}
|