polystring 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -0,0 +1,113 @@
1
+ ITALIAN: set[str] = {
2
+ # Pronouns — subject
3
+ "io", "lui", "lei", "noi", "voi", "loro",
4
+ # "tu" omitted: in CONFLICT_WORDS
5
+ # Pronouns — clitic / possessive
6
+ "mio", "mia", "miei", "mie",
7
+ "tuo", "tua", "tuoi", "tue",
8
+ "suo", "suoi",
9
+ # "sua" "suo" omitted from CONFLICT_WORDS — but "suo" kept as PT/IT conflict
10
+ # "mi" "la" "le" "lo" "li" "tu" "me" "te" omitted: in CONFLICT_WORDS
11
+ "nostro", "nostra", "nostri", "nostre",
12
+ "vostro", "vostra", "vostri", "vostre",
13
+ "gli",
14
+
15
+ # Articles — definite
16
+ "il", "dello", "della", "degli", "delle",
17
+ # Articles — indefinite
18
+ "uno", "una", "degli",
19
+ # Contracted
20
+ "del", "dei", "dal", "dai", "sul", "sui",
21
+ "nel", "nei", "col", "coi",
22
+ # "de" "la" "le" "un" "al" "con" omitted: in CONFLICT_WORDS
23
+
24
+ # Demonstratives
25
+ "questo", "questa", "questi", "queste",
26
+ "quello", "quella", "quelli", "quelle",
27
+
28
+ # Prepositions
29
+ "senza", "tra", "fra", "verso",
30
+ "durante", "secondo", "fino",
31
+ "dopo", "prima", "presso",
32
+ # "con" "da" omitted: in CONFLICT_WORDS
33
+
34
+ # Conjunctions
35
+ "però", "pero", "eppure", "anzi",
36
+ "perché", "perche", "poiché", "poiche",
37
+ "mentre", "sebbene", "benché",
38
+ "quando", "dove", "anche",
39
+ "oppure",
40
+ # "ma" "come" "si" omitted: in CONFLICT_WORDS
41
+
42
+ # Adverbs
43
+ "molto", "bene", "qui", "qua",
44
+ "adesso", "prima", "dopo",
45
+ "sempre", "mai", "spesso", "ancora",
46
+ "anche", "solo", "solamente",
47
+ "quasi", "forse", "così", "cosi",
48
+ "tanto", "poco", "abbastanza",
49
+ # "già" "gia" "so" "ora" "bene" "do" omitted: in CONFLICT_WORDS
50
+
51
+ # Interrogatives
52
+ "chi", "quale", "quali",
53
+ "quanto", "quanta", "quando", "dove",
54
+ # "che" "come" omitted: in CONFLICT_WORDS
55
+
56
+ # High-frequency verbs — essere / avere / stare / fare
57
+ "sono", "sei", "siamo", "siete",
58
+ "era", "erano",
59
+ "ho", "hai", "abbiamo", "avete", "hanno",
60
+ "aveva", "avevano", "avrei",
61
+ "sto", "stai", "stiamo", "state", "stanno",
62
+ "facendo", "faccio", "fai", "facciamo",
63
+ "fatto", "fece",
64
+ # andare / venire
65
+ "vado", "vai", "andiamo", "andate", "vanno",
66
+ "vengo", "vieni", "veniamo", "venite",
67
+ "andato", "andare",
68
+ # potere / volere / sapere / dovere
69
+ "posso", "puoi", "puo", "possiamo", "potete", "possono",
70
+ "voglio", "vuoi", "vuole", "vogliamo", "volete", "vogliono",
71
+ "sai", "sa", "sappiamo", "sapete", "sanno",
72
+ "devo", "devi", "deve", "dobbiamo", "dovete", "devono",
73
+ # dire / vedere / dare
74
+ "dico", "dici", "dice", "diciamo",
75
+ "disse", "dicevo",
76
+ "vedo", "vedi", "vede", "vediamo",
77
+ "diamo", "danno",
78
+ # other common
79
+ "credo", "credi", "crede",
80
+ "penso", "pensi", "pensa",
81
+ "capisco", "capisce",
82
+
83
+ # Nouns — high-frequency
84
+ "cosa", "cose", "giorno", "giorni", "volta", "volte",
85
+ "gente", "vita", "tempo", "ora", "ore",
86
+ "uomo", "donna", "bambino", "bambini",
87
+ "famiglia", "casa", "paese", "lavoro",
88
+ "problema", "anno", "anni",
89
+ "amico", "amici", "parte", "mondo",
90
+ "settimana", "mese",
91
+
92
+ # Adjectives
93
+ "grande", "grandi", "piccolo", "piccola",
94
+ "buono", "buona", "buoni", "buone",
95
+ "cattivo", "cattiva",
96
+ "nuovo", "nuova", "nuovi", "nuove",
97
+ "stesso", "stessa", "stessi", "stesse",
98
+ "altro", "altra", "altri", "altre",
99
+ "tutto", "tutta", "tutti", "tutte",
100
+ "bello", "bella", "belli", "belle",
101
+
102
+ # Greetings / social
103
+ "ciao", "arrivederci", "grazie", "prego",
104
+ "scusa", "scusi", "buongiorno", "buonasera",
105
+ "buonanotte", "salve",
106
+
107
+ # Discourse / fillers
108
+ "allora", "quindi", "comunque", "insomma",
109
+ "davvero", "ovviamente", "certo", "esatto",
110
+ "dai", "figurati",
111
+ "ecco", "appunto", "magari",
112
+ # "vabbè" "bene" "come" "ma" "da" "do" "so" "ora" "qui" omitted: in CONFLICT_WORDS
113
+ }
@@ -0,0 +1,117 @@
1
+ PORTUGUESE: set[str] = {
2
+ # Pronouns — subject
3
+ "eu", "voce", "ele", "ela", "eles", "elas",
4
+ # "nos" omitted: in CONFLICT_WORDS (FR/PT 2-lexicon overlap)
5
+ "vos",
6
+ # Pronouns — object / clitic
7
+ "lhe", "lhes",
8
+ "mim", "ti",
9
+ # "me" "te" "nos" omitted: in CONFLICT_WORDS (multi-language overlap)
10
+
11
+ # Articles — definite
12
+ "os", "as",
13
+ # "de" "do" "dos" "da" omitted: in CONFLICT_WORDS
14
+ "das", "ao", "aos", "pelo", "pela",
15
+ "pelos", "pelas", "num", "numa", "nuns", "numas",
16
+ "nele", "nela", "neles", "nelas", "nisto", "nisso",
17
+ # "un" "la" "le" "les" omitted: in CONFLICT_WORDS
18
+
19
+ # Demonstratives
20
+ # "este" "esta" omitted: in CONFLICT_WORDS
21
+ "estes", "estas",
22
+ "esse", "essa", "esses", "essas",
23
+ "aquele", "aquela", "aqueles", "aquelas",
24
+ "isto", "isso", "aquilo",
25
+
26
+ # Possessives
27
+ "meu", "minha", "meus", "minhas",
28
+ "teu", "tua", "teus", "tuas",
29
+ "seu", "seus",
30
+ # "sua" omitted: in CONFLICT_WORDS (IT overlap)
31
+ "nosso", "nossa", "nossos", "nossas",
32
+
33
+ # Prepositions
34
+ "com", "sem", "entre", "sob", "sobre", "desde",
35
+ "durante", "segundo", "ate", "apos",
36
+ "perante", "mediante",
37
+ # "por" "de" omitted: in CONFLICT_WORDS
38
+
39
+ # Conjunctions
40
+ "mas", "porem", "todavia", "contudo",
41
+ "porque", "pois", "quando",
42
+ "onde", "embora", "ainda",
43
+ # "como" "que" "si" "ma" omitted: in CONFLICT_WORDS
44
+
45
+ # Adverbs
46
+ "muito", "aqui", "ali",
47
+ "agora", "antes", "depois", "sempre", "nunca",
48
+ "tambem", "somente", "apenas",
49
+ "quase", "talvez", "assim",
50
+ "tao", "tanto", "quanto",
51
+ # "ja" "so" "mal" "bem" "ora" "es" omitted: in CONFLICT_WORDS
52
+
53
+ # Interrogatives
54
+ "quem", "qual", "quais",
55
+ "quanto", "quando", "onde",
56
+ # "que" "como" omitted: in CONFLICT_WORDS
57
+
58
+ # High-frequency verbs — ser / estar / ter / haver
59
+ "sou", "somos", "sao",
60
+ "estou", "estamos", "estao",
61
+ "tenho", "tens", "temos", "tem",
62
+ "tinha", "teve",
63
+ "havia", "houve",
64
+ # "ha" "es" omitted: in CONFLICT_WORDS
65
+ # ir / vir
66
+ "vou", "vai", "vamos", "vao",
67
+ "venho", "vens", "vem", "vimos",
68
+ "fui", "foi", "fomos", "foram",
69
+ # poder / querer / saber / fazer
70
+ "posso", "podes", "pode", "podemos", "podem",
71
+ "quero", "queres", "quer", "queremos", "querem",
72
+ "sei", "sabe", "sabemos", "sabem",
73
+ "faco", "faz", "fazemos", "fazem",
74
+ "fez", "fiz",
75
+ # dizer / ver / dar
76
+ "digo", "diz", "dizemos", "dizem",
77
+ "disse", "dizia",
78
+ "vejo", "vemos", "veem",
79
+ "dou", "damos", "dao",
80
+ # other common
81
+ "acho", "acha", "achamos",
82
+ "penso", "pensa", "pensamos",
83
+ "preciso", "precisa",
84
+ "gosto", "gosta",
85
+
86
+ # Nouns — high-frequency
87
+ "coisa", "coisas", "dia", "dias", "vez",
88
+ "gente", "vida", "tempo", "hora", "horas",
89
+ "homem", "mulher", "crianca", "criancas",
90
+ "familia", "casa", "pais", "trabalho",
91
+ "problema", "pergunta", "ano", "anos",
92
+ "amigo", "amigos", "parte", "mundo",
93
+ "semana", "mes",
94
+
95
+ # Adjectives
96
+ "grande", "grandes", "pequeno", "pequena",
97
+ "bom", "boa", "bons", "boas",
98
+ "mau", "maus",
99
+ "novo", "nova", "novos", "novas",
100
+ "mesmo", "mesma", "mesmos", "mesmas",
101
+ "outro", "outra", "outros", "outras",
102
+ "todo", "toda", "todos", "todas",
103
+ "muito", "muita", "muitos", "muitas",
104
+ "pouco", "pouca", "poucos", "poucas",
105
+ # "ma" omitted: in CONFLICT_WORDS
106
+
107
+ # Greetings / social
108
+ "ola", "obrigado", "obrigada",
109
+ "desculpe", "perdao", "favor",
110
+ "tchau", "boas", "boa", "oi",
111
+
112
+ # Discourse / fillers
113
+ "entao", "pois", "bom", "claro",
114
+ "verdade", "certo", "enfim",
115
+ "veja", "olha", "cara", "mano",
116
+ # "ora" "dos" "do" "da" "es" "ma" "si" "so" omitted: in CONFLICT_WORDS
117
+ }
@@ -0,0 +1,130 @@
1
+ ROMAN_URDU: set[str] = {
2
+ # Copulas & auxiliaries
3
+ "hai", "hain", "tha", "thi", "the", "hy",
4
+ "hona", "hoon", "hoga", "hogi", "honge",
5
+ # "ho" omitted: overlaps Tagalog lexicon
6
+ "hua", "hui", "hue",
7
+
8
+ # Negation
9
+ "nahi", "nhi", "nahin", "naheen", "nai", "mat",
10
+ # "na" omitted: in CONFLICT_WORDS
11
+
12
+ # Question words
13
+ "kya", "kia", "keeya", "kyun", "kyunke", "kyunki",
14
+ "kahan", "kab", "kaun", "kitna", "kitni", "kitne",
15
+ "kaisa", "kaisi", "kaise",
16
+
17
+ # Conjunctions
18
+ "aur", "aor", "lekin", "lkn", "magar", "phir", "phr",
19
+ "bhi", "bi", "toh", "tou", "ab", "abhi", "agar", "jab", "tab",
20
+ "jabke", "jaise", "taake", "warna", "balke", "halanke",
21
+
22
+ # Pronouns
23
+ "main", "mein", "mai", "hum", "ham", "tum", "ap", "aap",
24
+ "woh", "wo", "unn", "unka", "unki", "unke",
25
+ "mera", "meri", "mere", "tera", "teri", "tere",
26
+ "uska", "uski", "uske", "humara", "humari", "humare",
27
+ "tumhara", "tumhari", "tumhare", "apna", "apni", "apne",
28
+ "mujhe", "tujhe", "usse", "hume", "humko", "tumhe", "tumko",
29
+ "inhe", "unhe", "yeh", "inn", "unhone",
30
+ "humein", "mujhko",
31
+
32
+ # Demonstratives
33
+ "yahan", "vahan", "wahan", "idhar", "udhar",
34
+ "iss", "uss", "is", "us",
35
+ # "un" omitted: overlaps French lexicon
36
+ # "in" omitted: in CONFLICT_WORDS
37
+
38
+ # Common verbs (infinitive & conjugated forms)
39
+ "karo", "karna", "karta", "karti", "karte", "kiya", "kar",
40
+ # "ki" omitted: overlaps Turkish lexicon
41
+ "raha", "rahi", "rahe", "rehna", "rehta", "rehti", "rehte",
42
+ "aana", "aata", "aati", "aate", "aaya", "aayi", "aaye", "aa",
43
+ "jaana", "jaata", "jaati", "jaate", "gaya", "gayi", "gaye", "jao",
44
+ "lena", "leta", "leti", "lete", "liya", "liye",
45
+ # "le" omitted: overlaps French lexicon
46
+ "dena", "deta", "deti", "dete", "diya", "diye",
47
+ # "do" omitted: in CONFLICT_WORDS (EN + PT overlap)
48
+ # "de" omitted: in CONFLICT_WORDS (FR/ES/PT/IT preposition overlap)
49
+ "bolna", "bolta", "bolti", "bolte", "bola", "boli", "bolo",
50
+ "sunna", "sunta", "sunti", "sunte", "suna", "suni", "suno",
51
+ "dekhna", "dekhta", "dekhti", "dekhte", "dekha", "dekhi", "dekho",
52
+ "padhna", "padhta", "padhti", "padhte", "padha", "padhi", "padho",
53
+ "likhna", "likhta", "likhti", "likhte", "likha", "likhi",
54
+ "khana", "khaana", "khata", "khati", "khate", "khaya", "khayi",
55
+ "peena", "peeta", "peeti", "peete", "piya", "piyi",
56
+ "sona", "sota", "soti", "sote", "soya", "soyi",
57
+ "uthna", "uthta", "uthti", "uthte", "utha", "uthi", "utho",
58
+ "baithna", "baitha", "baithi", "baitho",
59
+ "chalna", "chalta", "chalti", "chalte", "chala", "chali", "chalo",
60
+ "daurna", "daurta", "daurti", "daurte",
61
+ "hasna", "hasta", "hasti", "haste", "hansa", "hansi",
62
+ "rona", "rota", "roti", "rote", "roya", "royi",
63
+ "samajh", "samjha", "samjhi", "samjho", "samajhna",
64
+ "poochna", "poocha", "poocho",
65
+ "batana", "batao", "bata", "bataya",
66
+ "milna", "milta", "milti", "milte", "mila", "mili",
67
+ "banana", "banata", "banati", "banate", "bana", "bani",
68
+ "todna", "toda", "todi",
69
+ "chhodna", "chhoda", "chhodi", "chhodo",
70
+ "pakadna", "pakda", "pakdo",
71
+ "chalana", "chalao",
72
+ "bhoolna", "bhoola", "bhooli",
73
+ "yaad", "yaadein",
74
+
75
+ # Nouns — people & relationships
76
+ "yaar", "yar", "bhai", "bhaiya", "behan", "amma", "ammi", "abba",
77
+ "abbu", "dost", "ladki", "ladka", "aurat", "mard", "bachcha",
78
+ "bacche", "bacchi", "beta", "beti", "baap", "maa", "dada", "dadi",
79
+ "nana", "nani", "chacha", "chachi", "mama", "mami", "phupho",
80
+ "insaan",
81
+ # "log" omitted: in CONFLICT_WORDS
82
+
83
+ # Nouns — time
84
+ "aaj", "aj", "kal", "parso", "raat", "subah", "subha", "dopahar",
85
+ "shaam", "waqt", "wakt", "hafte", "mahina", "saal",
86
+ "zamana", "daur", "abhi", "pehle", "baad",
87
+ # "din" omitted: in CONFLICT_WORDS
88
+
89
+ # Nouns — place & direction
90
+ "ghar", "daftar", "school", "jagah", "taraf", "darmiyan",
91
+ "upar", "neeche", "andar", "paas", "door", "seedha", "ulta",
92
+ "aage", "peeche", "daayen", "baayen",
93
+
94
+ # Nouns — everyday life
95
+ "kaam", "khatam", "cheez", "cheezon", "paise", "paisa", "khaana",
96
+ "pani", "paani", "mausam", "baarish", "dhoop", "roshni",
97
+ "awaaz", "baat", "baatein", "khabar", "khwaab", "sapna", "sapne",
98
+ "umeed", "dua", "rishta", "maafi", "shukr", "tauba",
99
+ "namaaz", "ibadat", "deen",
100
+
101
+ # Nouns — emotions & states
102
+ "dil", "pyaar", "mohabbat", "ishq", "nafrat", "khushi", "gham",
103
+ "dard", "takleef", "aaraam", "neend", "thakan", "zindagi",
104
+ "mushkil", "mushkilat", "mushkilein", "azaadi", "duniya",
105
+
106
+ # Adjectives
107
+ "acha", "accha", "thik", "theek", "bura", "sahi", "galat",
108
+ "naya", "purana", "bara", "bada", "chota", "tez", "dheere",
109
+ "garam", "thanda", "mehngi", "sasta", "mushkil", "aasaan",
110
+ "thaka", "thaki", "akela", "akeli", "khush", "udaas",
111
+ "majbooran", "zaroor", "zarur",
112
+
113
+ # Adverbs & particles
114
+ "bahut", "bohat", "bohot", "zyada", "ziada", "thoda", "thora",
115
+ "kuch", "sab", "bilkul", "matlab", "ekdum", "haan",
116
+ "han", "haa", "jaldi", "dheere", "phirse", "dobara",
117
+ "sirf", "bas", "hi", "bhi",
118
+
119
+ # Postpositions
120
+ "mein", "pe", "ke", "tak", "liye", "saath", "bina", "jaise", "jaisa",
121
+ # "ko" "ka" omitted: in CONFLICT_WORDS
122
+ # "ki" omitted: overlaps Turkish lexicon
123
+ # "par" "un" "le" omitted: overlap French lexicon
124
+
125
+ # Hinglish social / filler words
126
+ "arey", "arre", "oye", "arrey",
127
+ "wali", "wale",
128
+ # "wala" omitted: overlaps Tagalog lexicon
129
+ # "ho" omitted: overlaps Tagalog lexicon
130
+ }
@@ -0,0 +1,111 @@
1
+ SPANISH: set[str] = {
2
+ # Pronouns — subject
3
+ "yo", "usted", "nosotros", "nosotras",
4
+ "vosotros", "vosotras", "ustedes", "ellos", "ellas",
5
+ # "tu" omitted: in CONFLICT_WORDS
6
+ # Pronouns — object / reflexive
7
+ # "me" "te" "se" "nos" omitted: in CONFLICT_WORDS
8
+ "lo", "los", "li",
9
+
10
+ # Articles
11
+ # "la" "le" "les" "un" "el" omitted: in CONFLICT_WORDS
12
+ "unas", "unos",
13
+
14
+ # Demonstratives
15
+ # "este" "esta" "ese" "esa" omitted: in CONFLICT_WORDS
16
+ "estos", "estas", "esos", "esas",
17
+ "aquel", "aquella", "aquellos", "aquellas",
18
+ "esto", "eso", "aquello",
19
+
20
+ # Possessives
21
+ # "mi" "su" "tu" omitted: in CONFLICT_WORDS
22
+ "mis", "tus", "sus",
23
+ "nuestro", "nuestra", "nuestros", "nuestras",
24
+ "vuestro", "vuestra", "vuestros", "vuestras",
25
+ "mio", "mia", "mios", "mias",
26
+ "tuyo", "tuya", "tuyos", "tuyas",
27
+
28
+ # Prepositions
29
+ # "con" "por" omitted: in CONFLICT_WORDS
30
+ "sin", "bajo", "entre", "hacia", "hasta",
31
+ "desde", "durante", "mediante", "segun",
32
+ "ante", "tras",
33
+ # "de" omitted: in CONFLICT_WORDS
34
+
35
+ # Conjunctions
36
+ "pero", "sino", "aunque", "mientras",
37
+ "porque", "pues", "cuando",
38
+ "donde", "ademas", "tampoco",
39
+ # "como" "que" omitted: in CONFLICT_WORDS
40
+
41
+ # Adverbs
42
+ "muy", "aqui", "ahi", "alla",
43
+ "ahora", "antes", "despues", "siempre", "nunca",
44
+ "todavia", "tambien",
45
+ "casi", "solo", "solamente", "quizas", "acaso",
46
+ "asi", "tan", "tanto", "cuanto",
47
+ # "ya" "bien" "mal" omitted: in CONFLICT_WORDS
48
+
49
+ # Interrogatives
50
+ "quien", "quienes", "cual", "cuales",
51
+ "cuanto", "cuanta", "donde", "cuando",
52
+ # "que" "como" "por" omitted: in CONFLICT_WORDS
53
+
54
+ # High-frequency verbs — ser / estar / haber / tener
55
+ "soy", "eres", "somos", "sois",
56
+ "estoy", "estamos", "estais", "estan",
57
+ "hay", "hubo", "habia",
58
+ "tengo", "tienes", "tenemos", "teneis", "tienen",
59
+ "tenia", "tuvo", "tuve",
60
+ # ir / venir
61
+ "voy", "vas", "vamos", "vais", "van",
62
+ "vengo", "vienes", "venimos", "vienen",
63
+ "fui", "fue", "fueron",
64
+ # poder / querer / saber / hacer
65
+ "puedo", "puedes", "puede", "podemos", "pueden",
66
+ "quiero", "quieres", "quiere", "queremos", "quieren",
67
+ "queria", "quiso",
68
+ "sabe", "sabemos", "saben",
69
+ "hago", "haces", "hace", "hacemos", "hacen",
70
+ "hizo", "hice",
71
+ # decir / ver / dar
72
+ "digo", "dices", "dice", "decimos", "dicen",
73
+ "dijo", "dije",
74
+ "veo", "ves", "vemos", "ven",
75
+ "doy", "das", "damos", "dan",
76
+ # other common
77
+ "creo", "crees", "cree", "creemos",
78
+ "pienso", "piensas", "piensa",
79
+ "necesito", "necesitas", "necesita",
80
+ "gustaria", "gusta", "gusto",
81
+
82
+ # Nouns — high-frequency
83
+ "cosa", "cosas", "dia", "dias", "vez", "veces",
84
+ "gente", "vida", "tiempo", "hora", "horas",
85
+ "hombre", "mujer", "nino", "ninos",
86
+ "familia", "casa", "pais", "trabajo",
87
+ "problema", "pregunta", "ano", "anos",
88
+ "amigo", "amigos", "parte", "mundo",
89
+ "semana", "mes",
90
+
91
+ # Adjectives — common
92
+ "grande", "grandes", "pequeno", "pequena",
93
+ "bueno", "buena", "buenos", "buenas",
94
+ "malo", "mala", "malos", "malas",
95
+ "nuevo", "nueva", "nuevos", "nuevas",
96
+ "mismo", "misma",
97
+ "otro", "otra", "otros", "otras",
98
+ "todo", "toda", "todos", "todas",
99
+ "mucho", "mucha", "muchos", "muchas",
100
+ "poco", "poca", "pocos", "pocas",
101
+
102
+ # Greetings / social
103
+ "hola", "adios", "gracias", "favor",
104
+ "perdon", "disculpe", "bienvenido",
105
+
106
+ # Discourse / fillers
107
+ "pues", "bueno", "claro", "entonces",
108
+ "verdad", "vale", "oye", "mira", "vaya",
109
+ "oiga", "venga",
110
+ # "bien" "mal" "no" "al" "es" "el" "la" omitted: in CONFLICT_WORDS
111
+ }
@@ -0,0 +1,89 @@
1
+ SWAHILI: set[str] = {
2
+ # Core function words / agreement markers
3
+ "wa", "kwa", "za",
4
+ # "la" omitted: in CONFLICT_WORDS (FR/SW 2-lexicon overlap)
5
+ # "ya" omitted: in CONFLICT_WORDS (ES/UR/TR overlap)
6
+ # "na" omitted: in CONFLICT_WORDS (TL/UR/DE overlap)
7
+ # "ni" omitted: in CONFLICT_WORDS (IT/TL/Slavic overlap)
8
+ "katika", "kuwa",
9
+
10
+ # Demonstratives
11
+ "hii", "hizi", "hiyo", "hayo", "hao",
12
+ "ile", "zile", "lile", "yule", "wale",
13
+ "hapa", "huko", "hapo", "pale",
14
+
15
+ # Pronouns
16
+ "mimi", "wewe", "yeye", "sisi", "nyinyi", "wao",
17
+ "mimi", "mwenyewe", "wenyewe",
18
+ "yangu", "yako", "yake", "yetu", "yenu", "yao",
19
+ "wangu", "wako", "wake", "wetu", "wenu", "wao",
20
+
21
+ # Interrogatives
22
+ "nini", "wapi", "lini", "jinsi", "kwa", "vipi", "ngapi",
23
+
24
+ # Conjunctions
25
+ "kama", "lakini", "ingawa", "ijapokuwa", "au",
26
+ "pia", "ama", "bali", "wala",
27
+
28
+ # Prepositions / postpositions
29
+ "kabla", "baada", "juu", "chini", "mbele", "nyuma",
30
+ "ndani", "nje", "karibu", "mbali", "pamoja",
31
+
32
+ # Adverbs / time
33
+ "sasa", "leo", "kesho", "jana", "juzi", "kesho",
34
+ "bado", "tayari", "pia", "zaidi", "kidogo",
35
+ "sana", "haraka", "polepole", "mara", "kila",
36
+ "daima", "wakati",
37
+
38
+ # Affirmation / negation
39
+ "ndiyo", "ndio", "hapana", "sivyo",
40
+ # "la" omitted: in CONFLICT_WORDS (FR/SW 2-lexicon overlap)
41
+ "kweli", "kweli",
42
+
43
+ # Subject / object prefixes (appear as standalone tokens in informal text)
44
+ "ninataka", "unataka", "anataka", "tunataka", "mnataka", "wanataka",
45
+ "ninajua", "unajua", "anajua", "hatujui",
46
+ "ninaenda", "unaenda", "anaenda", "tunaenda",
47
+ "ninapenda", "unapenda", "anapenda",
48
+ "nilisema", "alisema", "walisema",
49
+ "ninafanya", "unafanya", "anafanya",
50
+ "nilikuwa", "ulikuwa", "alikuwa", "tulikuwa",
51
+ "nitakwenda", "utakwenda", "atakwenda",
52
+ "ninaweza", "unaweza", "anaweza",
53
+
54
+ # Common infinitives / verb stems
55
+ "kusema", "kwenda", "kuja", "kuona", "kusikia",
56
+ "kupenda", "kufanya", "kupata", "kutaka", "kujua",
57
+ "kusaidia", "kulala", "kula", "kunywa", "kucheza",
58
+ "kusoma", "kuandika", "kufungua", "kufunga",
59
+ "kuweza", "kulazimika",
60
+
61
+ # Nouns — people & social
62
+ "mtu", "watu", "mtoto", "watoto", "mwanaume", "mwanamke",
63
+ "familia", "ndugu", "kaka", "dada", "mama", "baba",
64
+ "mwalimu", "daktari", "askari", "dereva",
65
+ "marafiki", "adui",
66
+
67
+ # Nouns — time / abstract
68
+ "siku", "wiki", "mwezi", "mwaka", "usiku", "asubuhi",
69
+ "mchana", "jioni", "dakika", "saa",
70
+
71
+ # Nouns — everyday
72
+ "nyumba", "mji", "nchi", "barabara", "shule", "hospitali",
73
+ "chakula", "maji", "fedha", "pesa", "kazi", "biashara",
74
+ "habari", "jambo", "shida", "tatizo", "jibu",
75
+
76
+ # Adjectives
77
+ "nzuri", "mbaya", "kubwa", "ndogo", "mzuri",
78
+ "mpya", "wa", "mrefu", "mfupi", "mzee",
79
+
80
+ # Greetings / social
81
+ "asante", "habari", "jambo", "karibu", "rafiki",
82
+ "pamoja", "tafadhali", "samahani", "hongera",
83
+ "kwaheri", "hujambo", "sijambo", "mambo",
84
+ "salama", "poa", "safi",
85
+
86
+ # Discourse / fillers
87
+ "lakini", "basi", "sawa", "haya", "naam",
88
+ "yaani", "kwa", "hivyo", "hata",
89
+ }