stemmers 0.0.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +7 -0
- data/.rubocop.yml +13 -0
- data/CHANGELOG.md +5 -0
- data/CODE_OF_CONDUCT.md +132 -0
- data/Cargo.lock +547 -0
- data/Cargo.toml +7 -0
- data/LICENSE.txt +21 -0
- data/README.md +113 -0
- data/Rakefile +23 -0
- data/ext/stemmers/Cargo.toml +16 -0
- data/ext/stemmers/extconf.rb +6 -0
- data/ext/stemmers/src/lib.rs +105 -0
- data/lib/stemmers/stopwords/af.json +53 -0
- data/lib/stemmers/stopwords/ar.json +482 -0
- data/lib/stemmers/stopwords/bg.json +261 -0
- data/lib/stemmers/stopwords/bn.json +400 -0
- data/lib/stemmers/stopwords/br.json +1205 -0
- data/lib/stemmers/stopwords/ca.json +280 -0
- data/lib/stemmers/stopwords/cs.json +425 -0
- data/lib/stemmers/stopwords/da.json +172 -0
- data/lib/stemmers/stopwords/de.json +622 -0
- data/lib/stemmers/stopwords/el.json +849 -0
- data/lib/stemmers/stopwords/en.json +1300 -0
- data/lib/stemmers/stopwords/eo.json +175 -0
- data/lib/stemmers/stopwords/es.json +734 -0
- data/lib/stemmers/stopwords/et.json +37 -0
- data/lib/stemmers/stopwords/eu.json +100 -0
- data/lib/stemmers/stopwords/fa.json +801 -0
- data/lib/stemmers/stopwords/fi.json +849 -0
- data/lib/stemmers/stopwords/fr.json +693 -0
- data/lib/stemmers/stopwords/ga.json +111 -0
- data/lib/stemmers/stopwords/gl.json +162 -0
- data/lib/stemmers/stopwords/gu.json +226 -0
- data/lib/stemmers/stopwords/ha.json +41 -0
- data/lib/stemmers/stopwords/he.json +196 -0
- data/lib/stemmers/stopwords/hi.json +227 -0
- data/lib/stemmers/stopwords/hr.json +181 -0
- data/lib/stemmers/stopwords/hu.json +791 -0
- data/lib/stemmers/stopwords/hy.json +47 -0
- data/lib/stemmers/stopwords/id.json +760 -0
- data/lib/stemmers/stopwords/it.json +634 -0
- data/lib/stemmers/stopwords/ja.json +136 -0
- data/lib/stemmers/stopwords/ko.json +681 -0
- data/lib/stemmers/stopwords/ku.json +64 -0
- data/lib/stemmers/stopwords/la.json +51 -0
- data/lib/stemmers/stopwords/lt.json +476 -0
- data/lib/stemmers/stopwords/lv.json +163 -0
- data/lib/stemmers/stopwords/mr.json +101 -0
- data/lib/stemmers/stopwords/ms.json +477 -0
- data/lib/stemmers/stopwords/nl.json +415 -0
- data/lib/stemmers/stopwords/no.json +223 -0
- data/lib/stemmers/stopwords/pl.json +331 -0
- data/lib/stemmers/stopwords/pt.json +562 -0
- data/lib/stemmers/stopwords/ro.json +436 -0
- data/lib/stemmers/stopwords/ru.json +561 -0
- data/lib/stemmers/stopwords/sk.json +420 -0
- data/lib/stemmers/stopwords/sl.json +448 -0
- data/lib/stemmers/stopwords/so.json +32 -0
- data/lib/stemmers/stopwords/st.json +33 -0
- data/lib/stemmers/stopwords/sv.json +420 -0
- data/lib/stemmers/stopwords/sw.json +76 -0
- data/lib/stemmers/stopwords/th.json +118 -0
- data/lib/stemmers/stopwords/tl.json +149 -0
- data/lib/stemmers/stopwords/tr.json +506 -0
- data/lib/stemmers/stopwords/uk.json +75 -0
- data/lib/stemmers/stopwords/ur.json +519 -0
- data/lib/stemmers/stopwords/vi.json +647 -0
- data/lib/stemmers/stopwords/yo.json +62 -0
- data/lib/stemmers/stopwords/zh.json +796 -0
- data/lib/stemmers/stopwords/zu.json +31 -0
- data/lib/stemmers/version.rb +5 -0
- data/lib/stemmers.rb +91 -0
- data/sig/stemmers.rbs +4 -0
- metadata +131 -0
@@ -0,0 +1,448 @@
|
|
1
|
+
[
|
2
|
+
"a",
|
3
|
+
"ali",
|
4
|
+
"april",
|
5
|
+
"avgust",
|
6
|
+
"b",
|
7
|
+
"bi",
|
8
|
+
"bil",
|
9
|
+
"bila",
|
10
|
+
"bile",
|
11
|
+
"bili",
|
12
|
+
"bilo",
|
13
|
+
"biti",
|
14
|
+
"blizu",
|
15
|
+
"bo",
|
16
|
+
"bodo",
|
17
|
+
"bojo",
|
18
|
+
"bolj",
|
19
|
+
"bom",
|
20
|
+
"bomo",
|
21
|
+
"boste",
|
22
|
+
"bova",
|
23
|
+
"boš",
|
24
|
+
"brez",
|
25
|
+
"c",
|
26
|
+
"cel",
|
27
|
+
"cela",
|
28
|
+
"celi",
|
29
|
+
"celo",
|
30
|
+
"d",
|
31
|
+
"da",
|
32
|
+
"daleč",
|
33
|
+
"dan",
|
34
|
+
"danes",
|
35
|
+
"datum",
|
36
|
+
"december",
|
37
|
+
"deset",
|
38
|
+
"deseta",
|
39
|
+
"deseti",
|
40
|
+
"deseto",
|
41
|
+
"devet",
|
42
|
+
"deveta",
|
43
|
+
"deveti",
|
44
|
+
"deveto",
|
45
|
+
"do",
|
46
|
+
"dober",
|
47
|
+
"dobra",
|
48
|
+
"dobri",
|
49
|
+
"dobro",
|
50
|
+
"dokler",
|
51
|
+
"dol",
|
52
|
+
"dolg",
|
53
|
+
"dolga",
|
54
|
+
"dolgi",
|
55
|
+
"dovolj",
|
56
|
+
"drug",
|
57
|
+
"druga",
|
58
|
+
"drugi",
|
59
|
+
"drugo",
|
60
|
+
"dva",
|
61
|
+
"dve",
|
62
|
+
"e",
|
63
|
+
"eden",
|
64
|
+
"en",
|
65
|
+
"ena",
|
66
|
+
"ene",
|
67
|
+
"eni",
|
68
|
+
"enkrat",
|
69
|
+
"eno",
|
70
|
+
"etc.",
|
71
|
+
"f",
|
72
|
+
"februar",
|
73
|
+
"g",
|
74
|
+
"g.",
|
75
|
+
"ga",
|
76
|
+
"ga.",
|
77
|
+
"gor",
|
78
|
+
"gospa",
|
79
|
+
"gospod",
|
80
|
+
"h",
|
81
|
+
"halo",
|
82
|
+
"i",
|
83
|
+
"idr.",
|
84
|
+
"ii",
|
85
|
+
"iii",
|
86
|
+
"in",
|
87
|
+
"iv",
|
88
|
+
"ix",
|
89
|
+
"iz",
|
90
|
+
"j",
|
91
|
+
"januar",
|
92
|
+
"jaz",
|
93
|
+
"je",
|
94
|
+
"ji",
|
95
|
+
"jih",
|
96
|
+
"jim",
|
97
|
+
"jo",
|
98
|
+
"julij",
|
99
|
+
"junij",
|
100
|
+
"jutri",
|
101
|
+
"k",
|
102
|
+
"kadarkoli",
|
103
|
+
"kaj",
|
104
|
+
"kajti",
|
105
|
+
"kako",
|
106
|
+
"kakor",
|
107
|
+
"kamor",
|
108
|
+
"kamorkoli",
|
109
|
+
"kar",
|
110
|
+
"karkoli",
|
111
|
+
"katerikoli",
|
112
|
+
"kdaj",
|
113
|
+
"kdo",
|
114
|
+
"kdorkoli",
|
115
|
+
"ker",
|
116
|
+
"ki",
|
117
|
+
"kje",
|
118
|
+
"kjer",
|
119
|
+
"kjerkoli",
|
120
|
+
"ko",
|
121
|
+
"koder",
|
122
|
+
"koderkoli",
|
123
|
+
"koga",
|
124
|
+
"komu",
|
125
|
+
"kot",
|
126
|
+
"kratek",
|
127
|
+
"kratka",
|
128
|
+
"kratke",
|
129
|
+
"kratki",
|
130
|
+
"l",
|
131
|
+
"lahka",
|
132
|
+
"lahke",
|
133
|
+
"lahki",
|
134
|
+
"lahko",
|
135
|
+
"le",
|
136
|
+
"lep",
|
137
|
+
"lepa",
|
138
|
+
"lepe",
|
139
|
+
"lepi",
|
140
|
+
"lepo",
|
141
|
+
"leto",
|
142
|
+
"m",
|
143
|
+
"maj",
|
144
|
+
"majhen",
|
145
|
+
"majhna",
|
146
|
+
"majhni",
|
147
|
+
"malce",
|
148
|
+
"malo",
|
149
|
+
"manj",
|
150
|
+
"marec",
|
151
|
+
"me",
|
152
|
+
"med",
|
153
|
+
"medtem",
|
154
|
+
"mene",
|
155
|
+
"mesec",
|
156
|
+
"mi",
|
157
|
+
"midva",
|
158
|
+
"midve",
|
159
|
+
"mnogo",
|
160
|
+
"moj",
|
161
|
+
"moja",
|
162
|
+
"moje",
|
163
|
+
"mora",
|
164
|
+
"morajo",
|
165
|
+
"moram",
|
166
|
+
"moramo",
|
167
|
+
"morate",
|
168
|
+
"moraš",
|
169
|
+
"morem",
|
170
|
+
"mu",
|
171
|
+
"n",
|
172
|
+
"na",
|
173
|
+
"nad",
|
174
|
+
"naj",
|
175
|
+
"najina",
|
176
|
+
"najino",
|
177
|
+
"najmanj",
|
178
|
+
"naju",
|
179
|
+
"največ",
|
180
|
+
"nam",
|
181
|
+
"narobe",
|
182
|
+
"nas",
|
183
|
+
"nato",
|
184
|
+
"nazaj",
|
185
|
+
"naš",
|
186
|
+
"naša",
|
187
|
+
"naše",
|
188
|
+
"ne",
|
189
|
+
"nedavno",
|
190
|
+
"nedelja",
|
191
|
+
"nek",
|
192
|
+
"neka",
|
193
|
+
"nekaj",
|
194
|
+
"nekatere",
|
195
|
+
"nekateri",
|
196
|
+
"nekatero",
|
197
|
+
"nekdo",
|
198
|
+
"neke",
|
199
|
+
"nekega",
|
200
|
+
"neki",
|
201
|
+
"nekje",
|
202
|
+
"neko",
|
203
|
+
"nekoga",
|
204
|
+
"nekoč",
|
205
|
+
"ni",
|
206
|
+
"nikamor",
|
207
|
+
"nikdar",
|
208
|
+
"nikjer",
|
209
|
+
"nikoli",
|
210
|
+
"nič",
|
211
|
+
"nje",
|
212
|
+
"njega",
|
213
|
+
"njegov",
|
214
|
+
"njegova",
|
215
|
+
"njegovo",
|
216
|
+
"njej",
|
217
|
+
"njemu",
|
218
|
+
"njen",
|
219
|
+
"njena",
|
220
|
+
"njeno",
|
221
|
+
"nji",
|
222
|
+
"njih",
|
223
|
+
"njihov",
|
224
|
+
"njihova",
|
225
|
+
"njihovo",
|
226
|
+
"njiju",
|
227
|
+
"njim",
|
228
|
+
"njo",
|
229
|
+
"njun",
|
230
|
+
"njuna",
|
231
|
+
"njuno",
|
232
|
+
"no",
|
233
|
+
"nocoj",
|
234
|
+
"november",
|
235
|
+
"npr.",
|
236
|
+
"o",
|
237
|
+
"ob",
|
238
|
+
"oba",
|
239
|
+
"obe",
|
240
|
+
"oboje",
|
241
|
+
"od",
|
242
|
+
"odprt",
|
243
|
+
"odprta",
|
244
|
+
"odprti",
|
245
|
+
"okoli",
|
246
|
+
"oktober",
|
247
|
+
"on",
|
248
|
+
"onadva",
|
249
|
+
"one",
|
250
|
+
"oni",
|
251
|
+
"onidve",
|
252
|
+
"osem",
|
253
|
+
"osma",
|
254
|
+
"osmi",
|
255
|
+
"osmo",
|
256
|
+
"oz.",
|
257
|
+
"p",
|
258
|
+
"pa",
|
259
|
+
"pet",
|
260
|
+
"peta",
|
261
|
+
"petek",
|
262
|
+
"peti",
|
263
|
+
"peto",
|
264
|
+
"po",
|
265
|
+
"pod",
|
266
|
+
"pogosto",
|
267
|
+
"poleg",
|
268
|
+
"poln",
|
269
|
+
"polna",
|
270
|
+
"polni",
|
271
|
+
"polno",
|
272
|
+
"ponavadi",
|
273
|
+
"ponedeljek",
|
274
|
+
"ponovno",
|
275
|
+
"potem",
|
276
|
+
"povsod",
|
277
|
+
"pozdravljen",
|
278
|
+
"pozdravljeni",
|
279
|
+
"prav",
|
280
|
+
"prava",
|
281
|
+
"prave",
|
282
|
+
"pravi",
|
283
|
+
"pravo",
|
284
|
+
"prazen",
|
285
|
+
"prazna",
|
286
|
+
"prazno",
|
287
|
+
"prbl.",
|
288
|
+
"precej",
|
289
|
+
"pred",
|
290
|
+
"prej",
|
291
|
+
"preko",
|
292
|
+
"pri",
|
293
|
+
"pribl.",
|
294
|
+
"približno",
|
295
|
+
"primer",
|
296
|
+
"pripravljen",
|
297
|
+
"pripravljena",
|
298
|
+
"pripravljeni",
|
299
|
+
"proti",
|
300
|
+
"prva",
|
301
|
+
"prvi",
|
302
|
+
"prvo",
|
303
|
+
"r",
|
304
|
+
"ravno",
|
305
|
+
"redko",
|
306
|
+
"res",
|
307
|
+
"reč",
|
308
|
+
"s",
|
309
|
+
"saj",
|
310
|
+
"sam",
|
311
|
+
"sama",
|
312
|
+
"same",
|
313
|
+
"sami",
|
314
|
+
"samo",
|
315
|
+
"se",
|
316
|
+
"sebe",
|
317
|
+
"sebi",
|
318
|
+
"sedaj",
|
319
|
+
"sedem",
|
320
|
+
"sedma",
|
321
|
+
"sedmi",
|
322
|
+
"sedmo",
|
323
|
+
"sem",
|
324
|
+
"september",
|
325
|
+
"seveda",
|
326
|
+
"si",
|
327
|
+
"sicer",
|
328
|
+
"skoraj",
|
329
|
+
"skozi",
|
330
|
+
"slab",
|
331
|
+
"smo",
|
332
|
+
"so",
|
333
|
+
"sobota",
|
334
|
+
"spet",
|
335
|
+
"sreda",
|
336
|
+
"srednja",
|
337
|
+
"srednji",
|
338
|
+
"sta",
|
339
|
+
"ste",
|
340
|
+
"stran",
|
341
|
+
"stvar",
|
342
|
+
"sva",
|
343
|
+
"t",
|
344
|
+
"ta",
|
345
|
+
"tak",
|
346
|
+
"taka",
|
347
|
+
"take",
|
348
|
+
"taki",
|
349
|
+
"tako",
|
350
|
+
"takoj",
|
351
|
+
"tam",
|
352
|
+
"te",
|
353
|
+
"tebe",
|
354
|
+
"tebi",
|
355
|
+
"tega",
|
356
|
+
"težak",
|
357
|
+
"težka",
|
358
|
+
"težki",
|
359
|
+
"težko",
|
360
|
+
"ti",
|
361
|
+
"tista",
|
362
|
+
"tiste",
|
363
|
+
"tisti",
|
364
|
+
"tisto",
|
365
|
+
"tj.",
|
366
|
+
"tja",
|
367
|
+
"to",
|
368
|
+
"toda",
|
369
|
+
"torek",
|
370
|
+
"tretja",
|
371
|
+
"tretje",
|
372
|
+
"tretji",
|
373
|
+
"tri",
|
374
|
+
"tu",
|
375
|
+
"tudi",
|
376
|
+
"tukaj",
|
377
|
+
"tvoj",
|
378
|
+
"tvoja",
|
379
|
+
"tvoje",
|
380
|
+
"u",
|
381
|
+
"v",
|
382
|
+
"vaju",
|
383
|
+
"vam",
|
384
|
+
"vas",
|
385
|
+
"vaš",
|
386
|
+
"vaša",
|
387
|
+
"vaše",
|
388
|
+
"ve",
|
389
|
+
"vedno",
|
390
|
+
"velik",
|
391
|
+
"velika",
|
392
|
+
"veliki",
|
393
|
+
"veliko",
|
394
|
+
"vendar",
|
395
|
+
"ves",
|
396
|
+
"več",
|
397
|
+
"vi",
|
398
|
+
"vidva",
|
399
|
+
"vii",
|
400
|
+
"viii",
|
401
|
+
"visok",
|
402
|
+
"visoka",
|
403
|
+
"visoke",
|
404
|
+
"visoki",
|
405
|
+
"vsa",
|
406
|
+
"vsaj",
|
407
|
+
"vsak",
|
408
|
+
"vsaka",
|
409
|
+
"vsakdo",
|
410
|
+
"vsake",
|
411
|
+
"vsaki",
|
412
|
+
"vsakomur",
|
413
|
+
"vse",
|
414
|
+
"vsega",
|
415
|
+
"vsi",
|
416
|
+
"vso",
|
417
|
+
"včasih",
|
418
|
+
"včeraj",
|
419
|
+
"x",
|
420
|
+
"z",
|
421
|
+
"za",
|
422
|
+
"zadaj",
|
423
|
+
"zadnji",
|
424
|
+
"zakaj",
|
425
|
+
"zaprta",
|
426
|
+
"zaprti",
|
427
|
+
"zaprto",
|
428
|
+
"zdaj",
|
429
|
+
"zelo",
|
430
|
+
"zunaj",
|
431
|
+
"č",
|
432
|
+
"če",
|
433
|
+
"često",
|
434
|
+
"četrta",
|
435
|
+
"četrtek",
|
436
|
+
"četrti",
|
437
|
+
"četrto",
|
438
|
+
"čez",
|
439
|
+
"čigav",
|
440
|
+
"š",
|
441
|
+
"šest",
|
442
|
+
"šesta",
|
443
|
+
"šesti",
|
444
|
+
"šesto",
|
445
|
+
"štiri",
|
446
|
+
"ž",
|
447
|
+
"že"
|
448
|
+
]
|
@@ -0,0 +1,32 @@
|
|
1
|
+
[
|
2
|
+
"aad",
|
3
|
+
"albaabkii",
|
4
|
+
"atabo",
|
5
|
+
"ay",
|
6
|
+
"ayaa",
|
7
|
+
"ayee",
|
8
|
+
"ayuu",
|
9
|
+
"dhan",
|
10
|
+
"hadana",
|
11
|
+
"in",
|
12
|
+
"inuu",
|
13
|
+
"isku",
|
14
|
+
"jiray",
|
15
|
+
"jirtay",
|
16
|
+
"ka",
|
17
|
+
"kale",
|
18
|
+
"kasoo",
|
19
|
+
"ku",
|
20
|
+
"kuu",
|
21
|
+
"lakin",
|
22
|
+
"markii",
|
23
|
+
"oo",
|
24
|
+
"si",
|
25
|
+
"soo",
|
26
|
+
"uga",
|
27
|
+
"ugu",
|
28
|
+
"uu",
|
29
|
+
"waa",
|
30
|
+
"waxa",
|
31
|
+
"waxuu"
|
32
|
+
]
|
@@ -0,0 +1,33 @@
|
|
1
|
+
[
|
2
|
+
"a",
|
3
|
+
"ba",
|
4
|
+
"bane",
|
5
|
+
"bona",
|
6
|
+
"e",
|
7
|
+
"ea",
|
8
|
+
"eaba",
|
9
|
+
"empa",
|
10
|
+
"ena",
|
11
|
+
"ha",
|
12
|
+
"hae",
|
13
|
+
"hape",
|
14
|
+
"ho",
|
15
|
+
"hore",
|
16
|
+
"ka",
|
17
|
+
"ke",
|
18
|
+
"la",
|
19
|
+
"le",
|
20
|
+
"li",
|
21
|
+
"me",
|
22
|
+
"mo",
|
23
|
+
"moo",
|
24
|
+
"ne",
|
25
|
+
"o",
|
26
|
+
"oa",
|
27
|
+
"re",
|
28
|
+
"sa",
|
29
|
+
"se",
|
30
|
+
"tloha",
|
31
|
+
"tsa",
|
32
|
+
"tse"
|
33
|
+
]
|