keyphrase 0.1.2 → 0.2.0
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/README.md +5 -4
- data/lib/keyphrase/stoplist/afr.rb +14 -0
- data/lib/keyphrase/stoplist/aka.rb +10 -0
- data/lib/keyphrase/stoplist/amh.rb +10 -0
- data/lib/keyphrase/stoplist/ara.rb +490 -0
- data/lib/keyphrase/stoplist/aze.rb +175 -0
- data/lib/keyphrase/stoplist/bel.rb +11 -0
- data/lib/keyphrase/stoplist/ben.rb +408 -0
- data/lib/keyphrase/stoplist/bul.rb +528 -0
- data/lib/keyphrase/stoplist/cat.rb +711 -0
- data/lib/keyphrase/stoplist/ces.rb +560 -0
- data/lib/keyphrase/stoplist/cmn.rb +1119 -0
- data/lib/keyphrase/stoplist/dan.rb +25 -0
- data/lib/keyphrase/stoplist/deu.rb +631 -0
- data/lib/keyphrase/stoplist/ell.rb +275 -0
- data/lib/keyphrase/stoplist/eng.rb +2 -589
- data/lib/keyphrase/stoplist/epo.rb +183 -0
- data/lib/keyphrase/stoplist/est.rb +13 -0
- data/lib/keyphrase/stoplist/fin.rb +857 -0
- data/lib/keyphrase/stoplist/fra.rb +699 -0
- data/lib/keyphrase/stoplist/guj.rb +234 -0
- data/lib/keyphrase/stoplist/heb.rb +204 -0
- data/lib/keyphrase/stoplist/hin.rb +235 -0
- data/lib/keyphrase/stoplist/hrv.rb +25 -0
- data/lib/keyphrase/stoplist/hun.rb +1195 -0
- data/lib/keyphrase/stoplist/hye.rb +55 -0
- data/lib/keyphrase/stoplist/ind.rb +768 -0
- data/lib/keyphrase/stoplist/ita.rb +670 -0
- data/lib/keyphrase/stoplist/jav.rb +10 -0
- data/lib/keyphrase/stoplist/jpn.rb +144 -0
- data/lib/keyphrase/stoplist/kan.rb +92 -0
- data/lib/keyphrase/stoplist/kat.rb +383 -0
- data/lib/keyphrase/stoplist/khm.rb +245 -0
- data/lib/keyphrase/stoplist/kor.rb +610 -0
- data/lib/keyphrase/stoplist/lat.rb +14 -0
- data/lib/keyphrase/stoplist/lav.rb +171 -0
- data/lib/keyphrase/stoplist/lit.rb +484 -0
- data/lib/keyphrase/stoplist/mal.rb +11 -0
- data/lib/keyphrase/stoplist/mar.rb +109 -0
- data/lib/keyphrase/stoplist/mkd.rb +11 -0
- data/lib/keyphrase/stoplist/mya.rb +285 -0
- data/lib/keyphrase/stoplist/nep.rb +265 -0
- data/lib/keyphrase/stoplist/nld.rb +423 -0
- data/lib/keyphrase/stoplist/nob.rb +186 -0
- data/lib/keyphrase/stoplist/ori.rb +11 -0
- data/lib/keyphrase/stoplist/pan.rb +473 -0
- data/lib/keyphrase/stoplist/pes.rb +801 -0
- data/lib/keyphrase/stoplist/pol.rb +338 -0
- data/lib/keyphrase/stoplist/por.rb +570 -0
- data/lib/keyphrase/stoplist/ron.rb +444 -0
- data/lib/keyphrase/stoplist/rus.rb +569 -0
- data/lib/keyphrase/stoplist/sin.rb +10 -0
- data/lib/keyphrase/stoplist/slk.rb +428 -0
- data/lib/keyphrase/stoplist/slv.rb +456 -0
- data/lib/keyphrase/stoplist/sna.rb +11 -0
- data/lib/keyphrase/stoplist/spa.rb +731 -0
- data/lib/keyphrase/stoplist/srp.rb +11 -0
- data/lib/keyphrase/stoplist/swe.rb +428 -0
- data/lib/keyphrase/stoplist/tam.rb +135 -0
- data/lib/keyphrase/stoplist/tel.rb +10 -0
- data/lib/keyphrase/stoplist/tgl.rb +157 -0
- data/lib/keyphrase/stoplist/tha.rb +125 -0
- data/lib/keyphrase/stoplist/tuk.rb +11 -0
- data/lib/keyphrase/stoplist/tur.rb +514 -0
- data/lib/keyphrase/stoplist/ukr.rb +38 -0
- data/lib/keyphrase/stoplist/urd.rb +527 -0
- data/lib/keyphrase/stoplist/uzb.rb +10 -0
- data/lib/keyphrase/stoplist/vie.rb +655 -0
- data/lib/keyphrase/stoplist/yid.rb +204 -0
- data/lib/keyphrase/stoplist/zul.rb +39 -0
- data/lib/keyphrase/stoplist.rb +13 -10
- data/lib/keyphrase/version.rb +1 -1
- data/lib/keyphrase.rb +20 -12
- metadata +71 -3
@@ -0,0 +1,456 @@
|
|
1
|
+
class Keyphrase
|
2
|
+
module Stoplist
|
3
|
+
class Slv
|
4
|
+
def self.stopwords
|
5
|
+
@@stopwords ||= [
|
6
|
+
"a",
|
7
|
+
"ali",
|
8
|
+
"april",
|
9
|
+
"avgust",
|
10
|
+
"b",
|
11
|
+
"bi",
|
12
|
+
"bil",
|
13
|
+
"bila",
|
14
|
+
"bile",
|
15
|
+
"bili",
|
16
|
+
"bilo",
|
17
|
+
"biti",
|
18
|
+
"blizu",
|
19
|
+
"bo",
|
20
|
+
"bodo",
|
21
|
+
"bojo",
|
22
|
+
"bolj",
|
23
|
+
"bom",
|
24
|
+
"bomo",
|
25
|
+
"boste",
|
26
|
+
"bova",
|
27
|
+
"boš",
|
28
|
+
"brez",
|
29
|
+
"c",
|
30
|
+
"cel",
|
31
|
+
"cela",
|
32
|
+
"celi",
|
33
|
+
"celo",
|
34
|
+
"d",
|
35
|
+
"da",
|
36
|
+
"daleč",
|
37
|
+
"dan",
|
38
|
+
"danes",
|
39
|
+
"datum",
|
40
|
+
"december",
|
41
|
+
"deset",
|
42
|
+
"deseta",
|
43
|
+
"deseti",
|
44
|
+
"deseto",
|
45
|
+
"devet",
|
46
|
+
"deveta",
|
47
|
+
"deveti",
|
48
|
+
"deveto",
|
49
|
+
"do",
|
50
|
+
"dober",
|
51
|
+
"dobra",
|
52
|
+
"dobri",
|
53
|
+
"dobro",
|
54
|
+
"dokler",
|
55
|
+
"dol",
|
56
|
+
"dolg",
|
57
|
+
"dolga",
|
58
|
+
"dolgi",
|
59
|
+
"dovolj",
|
60
|
+
"drug",
|
61
|
+
"druga",
|
62
|
+
"drugi",
|
63
|
+
"drugo",
|
64
|
+
"dva",
|
65
|
+
"dve",
|
66
|
+
"e",
|
67
|
+
"eden",
|
68
|
+
"en",
|
69
|
+
"ena",
|
70
|
+
"ene",
|
71
|
+
"eni",
|
72
|
+
"enkrat",
|
73
|
+
"eno",
|
74
|
+
"etc.",
|
75
|
+
"f",
|
76
|
+
"februar",
|
77
|
+
"g",
|
78
|
+
"g.",
|
79
|
+
"ga",
|
80
|
+
"ga.",
|
81
|
+
"gor",
|
82
|
+
"gospa",
|
83
|
+
"gospod",
|
84
|
+
"h",
|
85
|
+
"halo",
|
86
|
+
"i",
|
87
|
+
"idr.",
|
88
|
+
"ii",
|
89
|
+
"iii",
|
90
|
+
"in",
|
91
|
+
"iv",
|
92
|
+
"ix",
|
93
|
+
"iz",
|
94
|
+
"j",
|
95
|
+
"januar",
|
96
|
+
"jaz",
|
97
|
+
"je",
|
98
|
+
"ji",
|
99
|
+
"jih",
|
100
|
+
"jim",
|
101
|
+
"jo",
|
102
|
+
"julij",
|
103
|
+
"junij",
|
104
|
+
"jutri",
|
105
|
+
"k",
|
106
|
+
"kadarkoli",
|
107
|
+
"kaj",
|
108
|
+
"kajti",
|
109
|
+
"kako",
|
110
|
+
"kakor",
|
111
|
+
"kamor",
|
112
|
+
"kamorkoli",
|
113
|
+
"kar",
|
114
|
+
"karkoli",
|
115
|
+
"katerikoli",
|
116
|
+
"kdaj",
|
117
|
+
"kdo",
|
118
|
+
"kdorkoli",
|
119
|
+
"ker",
|
120
|
+
"ki",
|
121
|
+
"kje",
|
122
|
+
"kjer",
|
123
|
+
"kjerkoli",
|
124
|
+
"ko",
|
125
|
+
"koder",
|
126
|
+
"koderkoli",
|
127
|
+
"koga",
|
128
|
+
"komu",
|
129
|
+
"kot",
|
130
|
+
"kratek",
|
131
|
+
"kratka",
|
132
|
+
"kratke",
|
133
|
+
"kratki",
|
134
|
+
"l",
|
135
|
+
"lahka",
|
136
|
+
"lahke",
|
137
|
+
"lahki",
|
138
|
+
"lahko",
|
139
|
+
"le",
|
140
|
+
"lep",
|
141
|
+
"lepa",
|
142
|
+
"lepe",
|
143
|
+
"lepi",
|
144
|
+
"lepo",
|
145
|
+
"leto",
|
146
|
+
"m",
|
147
|
+
"maj",
|
148
|
+
"majhen",
|
149
|
+
"majhna",
|
150
|
+
"majhni",
|
151
|
+
"malce",
|
152
|
+
"malo",
|
153
|
+
"manj",
|
154
|
+
"marec",
|
155
|
+
"me",
|
156
|
+
"med",
|
157
|
+
"medtem",
|
158
|
+
"mene",
|
159
|
+
"mesec",
|
160
|
+
"mi",
|
161
|
+
"midva",
|
162
|
+
"midve",
|
163
|
+
"mnogo",
|
164
|
+
"moj",
|
165
|
+
"moja",
|
166
|
+
"moje",
|
167
|
+
"mora",
|
168
|
+
"morajo",
|
169
|
+
"moram",
|
170
|
+
"moramo",
|
171
|
+
"morate",
|
172
|
+
"moraš",
|
173
|
+
"morem",
|
174
|
+
"mu",
|
175
|
+
"n",
|
176
|
+
"na",
|
177
|
+
"nad",
|
178
|
+
"naj",
|
179
|
+
"najina",
|
180
|
+
"najino",
|
181
|
+
"najmanj",
|
182
|
+
"naju",
|
183
|
+
"največ",
|
184
|
+
"nam",
|
185
|
+
"narobe",
|
186
|
+
"nas",
|
187
|
+
"nato",
|
188
|
+
"nazaj",
|
189
|
+
"naš",
|
190
|
+
"naša",
|
191
|
+
"naše",
|
192
|
+
"ne",
|
193
|
+
"nedavno",
|
194
|
+
"nedelja",
|
195
|
+
"nek",
|
196
|
+
"neka",
|
197
|
+
"nekaj",
|
198
|
+
"nekatere",
|
199
|
+
"nekateri",
|
200
|
+
"nekatero",
|
201
|
+
"nekdo",
|
202
|
+
"neke",
|
203
|
+
"nekega",
|
204
|
+
"neki",
|
205
|
+
"nekje",
|
206
|
+
"neko",
|
207
|
+
"nekoga",
|
208
|
+
"nekoč",
|
209
|
+
"ni",
|
210
|
+
"nikamor",
|
211
|
+
"nikdar",
|
212
|
+
"nikjer",
|
213
|
+
"nikoli",
|
214
|
+
"nič",
|
215
|
+
"nje",
|
216
|
+
"njega",
|
217
|
+
"njegov",
|
218
|
+
"njegova",
|
219
|
+
"njegovo",
|
220
|
+
"njej",
|
221
|
+
"njemu",
|
222
|
+
"njen",
|
223
|
+
"njena",
|
224
|
+
"njeno",
|
225
|
+
"nji",
|
226
|
+
"njih",
|
227
|
+
"njihov",
|
228
|
+
"njihova",
|
229
|
+
"njihovo",
|
230
|
+
"njiju",
|
231
|
+
"njim",
|
232
|
+
"njo",
|
233
|
+
"njun",
|
234
|
+
"njuna",
|
235
|
+
"njuno",
|
236
|
+
"no",
|
237
|
+
"nocoj",
|
238
|
+
"november",
|
239
|
+
"npr.",
|
240
|
+
"o",
|
241
|
+
"ob",
|
242
|
+
"oba",
|
243
|
+
"obe",
|
244
|
+
"oboje",
|
245
|
+
"od",
|
246
|
+
"odprt",
|
247
|
+
"odprta",
|
248
|
+
"odprti",
|
249
|
+
"okoli",
|
250
|
+
"oktober",
|
251
|
+
"on",
|
252
|
+
"onadva",
|
253
|
+
"one",
|
254
|
+
"oni",
|
255
|
+
"onidve",
|
256
|
+
"osem",
|
257
|
+
"osma",
|
258
|
+
"osmi",
|
259
|
+
"osmo",
|
260
|
+
"oz.",
|
261
|
+
"p",
|
262
|
+
"pa",
|
263
|
+
"pet",
|
264
|
+
"peta",
|
265
|
+
"petek",
|
266
|
+
"peti",
|
267
|
+
"peto",
|
268
|
+
"po",
|
269
|
+
"pod",
|
270
|
+
"pogosto",
|
271
|
+
"poleg",
|
272
|
+
"poln",
|
273
|
+
"polna",
|
274
|
+
"polni",
|
275
|
+
"polno",
|
276
|
+
"ponavadi",
|
277
|
+
"ponedeljek",
|
278
|
+
"ponovno",
|
279
|
+
"potem",
|
280
|
+
"povsod",
|
281
|
+
"pozdravljen",
|
282
|
+
"pozdravljeni",
|
283
|
+
"prav",
|
284
|
+
"prava",
|
285
|
+
"prave",
|
286
|
+
"pravi",
|
287
|
+
"pravo",
|
288
|
+
"prazen",
|
289
|
+
"prazna",
|
290
|
+
"prazno",
|
291
|
+
"prbl.",
|
292
|
+
"precej",
|
293
|
+
"pred",
|
294
|
+
"prej",
|
295
|
+
"preko",
|
296
|
+
"pri",
|
297
|
+
"pribl.",
|
298
|
+
"približno",
|
299
|
+
"primer",
|
300
|
+
"pripravljen",
|
301
|
+
"pripravljena",
|
302
|
+
"pripravljeni",
|
303
|
+
"proti",
|
304
|
+
"prva",
|
305
|
+
"prvi",
|
306
|
+
"prvo",
|
307
|
+
"r",
|
308
|
+
"ravno",
|
309
|
+
"redko",
|
310
|
+
"res",
|
311
|
+
"reč",
|
312
|
+
"s",
|
313
|
+
"saj",
|
314
|
+
"sam",
|
315
|
+
"sama",
|
316
|
+
"same",
|
317
|
+
"sami",
|
318
|
+
"samo",
|
319
|
+
"se",
|
320
|
+
"sebe",
|
321
|
+
"sebi",
|
322
|
+
"sedaj",
|
323
|
+
"sedem",
|
324
|
+
"sedma",
|
325
|
+
"sedmi",
|
326
|
+
"sedmo",
|
327
|
+
"sem",
|
328
|
+
"september",
|
329
|
+
"seveda",
|
330
|
+
"si",
|
331
|
+
"sicer",
|
332
|
+
"skoraj",
|
333
|
+
"skozi",
|
334
|
+
"slab",
|
335
|
+
"smo",
|
336
|
+
"so",
|
337
|
+
"sobota",
|
338
|
+
"spet",
|
339
|
+
"sreda",
|
340
|
+
"srednja",
|
341
|
+
"srednji",
|
342
|
+
"sta",
|
343
|
+
"ste",
|
344
|
+
"stran",
|
345
|
+
"stvar",
|
346
|
+
"sva",
|
347
|
+
"t",
|
348
|
+
"ta",
|
349
|
+
"tak",
|
350
|
+
"taka",
|
351
|
+
"take",
|
352
|
+
"taki",
|
353
|
+
"tako",
|
354
|
+
"takoj",
|
355
|
+
"tam",
|
356
|
+
"te",
|
357
|
+
"tebe",
|
358
|
+
"tebi",
|
359
|
+
"tega",
|
360
|
+
"težak",
|
361
|
+
"težka",
|
362
|
+
"težki",
|
363
|
+
"težko",
|
364
|
+
"ti",
|
365
|
+
"tista",
|
366
|
+
"tiste",
|
367
|
+
"tisti",
|
368
|
+
"tisto",
|
369
|
+
"tj.",
|
370
|
+
"tja",
|
371
|
+
"to",
|
372
|
+
"toda",
|
373
|
+
"torek",
|
374
|
+
"tretja",
|
375
|
+
"tretje",
|
376
|
+
"tretji",
|
377
|
+
"tri",
|
378
|
+
"tu",
|
379
|
+
"tudi",
|
380
|
+
"tukaj",
|
381
|
+
"tvoj",
|
382
|
+
"tvoja",
|
383
|
+
"tvoje",
|
384
|
+
"u",
|
385
|
+
"v",
|
386
|
+
"vaju",
|
387
|
+
"vam",
|
388
|
+
"vas",
|
389
|
+
"vaš",
|
390
|
+
"vaša",
|
391
|
+
"vaše",
|
392
|
+
"ve",
|
393
|
+
"vedno",
|
394
|
+
"velik",
|
395
|
+
"velika",
|
396
|
+
"veliki",
|
397
|
+
"veliko",
|
398
|
+
"vendar",
|
399
|
+
"ves",
|
400
|
+
"več",
|
401
|
+
"vi",
|
402
|
+
"vidva",
|
403
|
+
"vii",
|
404
|
+
"viii",
|
405
|
+
"visok",
|
406
|
+
"visoka",
|
407
|
+
"visoke",
|
408
|
+
"visoki",
|
409
|
+
"vsa",
|
410
|
+
"vsaj",
|
411
|
+
"vsak",
|
412
|
+
"vsaka",
|
413
|
+
"vsakdo",
|
414
|
+
"vsake",
|
415
|
+
"vsaki",
|
416
|
+
"vsakomur",
|
417
|
+
"vse",
|
418
|
+
"vsega",
|
419
|
+
"vsi",
|
420
|
+
"vso",
|
421
|
+
"včasih",
|
422
|
+
"včeraj",
|
423
|
+
"x",
|
424
|
+
"z",
|
425
|
+
"za",
|
426
|
+
"zadaj",
|
427
|
+
"zadnji",
|
428
|
+
"zakaj",
|
429
|
+
"zaprta",
|
430
|
+
"zaprti",
|
431
|
+
"zaprto",
|
432
|
+
"zdaj",
|
433
|
+
"zelo",
|
434
|
+
"zunaj",
|
435
|
+
"č",
|
436
|
+
"če",
|
437
|
+
"često",
|
438
|
+
"četrta",
|
439
|
+
"četrtek",
|
440
|
+
"četrti",
|
441
|
+
"četrto",
|
442
|
+
"čez",
|
443
|
+
"čigav",
|
444
|
+
"š",
|
445
|
+
"šest",
|
446
|
+
"šesta",
|
447
|
+
"šesti",
|
448
|
+
"šesto",
|
449
|
+
"štiri",
|
450
|
+
"ž",
|
451
|
+
"že",
|
452
|
+
]
|
453
|
+
end
|
454
|
+
end
|
455
|
+
end
|
456
|
+
end
|