keyphrase 0.1.2 → 0.2.0
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/README.md +5 -4
- data/lib/keyphrase/stoplist/afr.rb +14 -0
- data/lib/keyphrase/stoplist/aka.rb +10 -0
- data/lib/keyphrase/stoplist/amh.rb +10 -0
- data/lib/keyphrase/stoplist/ara.rb +490 -0
- data/lib/keyphrase/stoplist/aze.rb +175 -0
- data/lib/keyphrase/stoplist/bel.rb +11 -0
- data/lib/keyphrase/stoplist/ben.rb +408 -0
- data/lib/keyphrase/stoplist/bul.rb +528 -0
- data/lib/keyphrase/stoplist/cat.rb +711 -0
- data/lib/keyphrase/stoplist/ces.rb +560 -0
- data/lib/keyphrase/stoplist/cmn.rb +1119 -0
- data/lib/keyphrase/stoplist/dan.rb +25 -0
- data/lib/keyphrase/stoplist/deu.rb +631 -0
- data/lib/keyphrase/stoplist/ell.rb +275 -0
- data/lib/keyphrase/stoplist/eng.rb +2 -589
- data/lib/keyphrase/stoplist/epo.rb +183 -0
- data/lib/keyphrase/stoplist/est.rb +13 -0
- data/lib/keyphrase/stoplist/fin.rb +857 -0
- data/lib/keyphrase/stoplist/fra.rb +699 -0
- data/lib/keyphrase/stoplist/guj.rb +234 -0
- data/lib/keyphrase/stoplist/heb.rb +204 -0
- data/lib/keyphrase/stoplist/hin.rb +235 -0
- data/lib/keyphrase/stoplist/hrv.rb +25 -0
- data/lib/keyphrase/stoplist/hun.rb +1195 -0
- data/lib/keyphrase/stoplist/hye.rb +55 -0
- data/lib/keyphrase/stoplist/ind.rb +768 -0
- data/lib/keyphrase/stoplist/ita.rb +670 -0
- data/lib/keyphrase/stoplist/jav.rb +10 -0
- data/lib/keyphrase/stoplist/jpn.rb +144 -0
- data/lib/keyphrase/stoplist/kan.rb +92 -0
- data/lib/keyphrase/stoplist/kat.rb +383 -0
- data/lib/keyphrase/stoplist/khm.rb +245 -0
- data/lib/keyphrase/stoplist/kor.rb +610 -0
- data/lib/keyphrase/stoplist/lat.rb +14 -0
- data/lib/keyphrase/stoplist/lav.rb +171 -0
- data/lib/keyphrase/stoplist/lit.rb +484 -0
- data/lib/keyphrase/stoplist/mal.rb +11 -0
- data/lib/keyphrase/stoplist/mar.rb +109 -0
- data/lib/keyphrase/stoplist/mkd.rb +11 -0
- data/lib/keyphrase/stoplist/mya.rb +285 -0
- data/lib/keyphrase/stoplist/nep.rb +265 -0
- data/lib/keyphrase/stoplist/nld.rb +423 -0
- data/lib/keyphrase/stoplist/nob.rb +186 -0
- data/lib/keyphrase/stoplist/ori.rb +11 -0
- data/lib/keyphrase/stoplist/pan.rb +473 -0
- data/lib/keyphrase/stoplist/pes.rb +801 -0
- data/lib/keyphrase/stoplist/pol.rb +338 -0
- data/lib/keyphrase/stoplist/por.rb +570 -0
- data/lib/keyphrase/stoplist/ron.rb +444 -0
- data/lib/keyphrase/stoplist/rus.rb +569 -0
- data/lib/keyphrase/stoplist/sin.rb +10 -0
- data/lib/keyphrase/stoplist/slk.rb +428 -0
- data/lib/keyphrase/stoplist/slv.rb +456 -0
- data/lib/keyphrase/stoplist/sna.rb +11 -0
- data/lib/keyphrase/stoplist/spa.rb +731 -0
- data/lib/keyphrase/stoplist/srp.rb +11 -0
- data/lib/keyphrase/stoplist/swe.rb +428 -0
- data/lib/keyphrase/stoplist/tam.rb +135 -0
- data/lib/keyphrase/stoplist/tel.rb +10 -0
- data/lib/keyphrase/stoplist/tgl.rb +157 -0
- data/lib/keyphrase/stoplist/tha.rb +125 -0
- data/lib/keyphrase/stoplist/tuk.rb +11 -0
- data/lib/keyphrase/stoplist/tur.rb +514 -0
- data/lib/keyphrase/stoplist/ukr.rb +38 -0
- data/lib/keyphrase/stoplist/urd.rb +527 -0
- data/lib/keyphrase/stoplist/uzb.rb +10 -0
- data/lib/keyphrase/stoplist/vie.rb +655 -0
- data/lib/keyphrase/stoplist/yid.rb +204 -0
- data/lib/keyphrase/stoplist/zul.rb +39 -0
- data/lib/keyphrase/stoplist.rb +13 -10
- data/lib/keyphrase/version.rb +1 -1
- data/lib/keyphrase.rb +20 -12
- metadata +71 -3
@@ -0,0 +1,444 @@
|
|
1
|
+
class Keyphrase
|
2
|
+
module Stoplist
|
3
|
+
class Ron
|
4
|
+
def self.stopwords
|
5
|
+
@@stopwords ||= [
|
6
|
+
"a",
|
7
|
+
"abia",
|
8
|
+
"acea",
|
9
|
+
"aceasta",
|
10
|
+
"această",
|
11
|
+
"aceea",
|
12
|
+
"aceeasi",
|
13
|
+
"acei",
|
14
|
+
"aceia",
|
15
|
+
"acel",
|
16
|
+
"acela",
|
17
|
+
"acelasi",
|
18
|
+
"acele",
|
19
|
+
"acelea",
|
20
|
+
"acest",
|
21
|
+
"acesta",
|
22
|
+
"aceste",
|
23
|
+
"acestea",
|
24
|
+
"acestei",
|
25
|
+
"acestia",
|
26
|
+
"acestui",
|
27
|
+
"aceşti",
|
28
|
+
"aceştia",
|
29
|
+
"acolo",
|
30
|
+
"acord",
|
31
|
+
"acum",
|
32
|
+
"adica",
|
33
|
+
"ai",
|
34
|
+
"aia",
|
35
|
+
"aibă",
|
36
|
+
"aici",
|
37
|
+
"aiurea",
|
38
|
+
"al",
|
39
|
+
"ala",
|
40
|
+
"alaturi",
|
41
|
+
"ale",
|
42
|
+
"alea",
|
43
|
+
"alt",
|
44
|
+
"alta",
|
45
|
+
"altceva",
|
46
|
+
"altcineva",
|
47
|
+
"alte",
|
48
|
+
"altfel",
|
49
|
+
"alti",
|
50
|
+
"altii",
|
51
|
+
"altul",
|
52
|
+
"am",
|
53
|
+
"anume",
|
54
|
+
"apoi",
|
55
|
+
"ar",
|
56
|
+
"are",
|
57
|
+
"as",
|
58
|
+
"asa",
|
59
|
+
"asemenea",
|
60
|
+
"asta",
|
61
|
+
"astazi",
|
62
|
+
"astea",
|
63
|
+
"astfel",
|
64
|
+
"astăzi",
|
65
|
+
"asupra",
|
66
|
+
"atare",
|
67
|
+
"atat",
|
68
|
+
"atata",
|
69
|
+
"atatea",
|
70
|
+
"atatia",
|
71
|
+
"ati",
|
72
|
+
"atit",
|
73
|
+
"atita",
|
74
|
+
"atitea",
|
75
|
+
"atitia",
|
76
|
+
"atunci",
|
77
|
+
"au",
|
78
|
+
"avea",
|
79
|
+
"avem",
|
80
|
+
"aveţi",
|
81
|
+
"avut",
|
82
|
+
"azi",
|
83
|
+
"aş",
|
84
|
+
"aşadar",
|
85
|
+
"aţi",
|
86
|
+
"b",
|
87
|
+
"ba",
|
88
|
+
"bine",
|
89
|
+
"bucur",
|
90
|
+
"bună",
|
91
|
+
"c",
|
92
|
+
"ca",
|
93
|
+
"cam",
|
94
|
+
"cand",
|
95
|
+
"capat",
|
96
|
+
"care",
|
97
|
+
"careia",
|
98
|
+
"carora",
|
99
|
+
"caruia",
|
100
|
+
"cat",
|
101
|
+
"catre",
|
102
|
+
"caut",
|
103
|
+
"ce",
|
104
|
+
"cea",
|
105
|
+
"ceea",
|
106
|
+
"cei",
|
107
|
+
"ceilalti",
|
108
|
+
"cel",
|
109
|
+
"cele",
|
110
|
+
"celor",
|
111
|
+
"ceva",
|
112
|
+
"chiar",
|
113
|
+
"ci",
|
114
|
+
"cinci",
|
115
|
+
"cind",
|
116
|
+
"cine",
|
117
|
+
"cineva",
|
118
|
+
"cit",
|
119
|
+
"cita",
|
120
|
+
"cite",
|
121
|
+
"citeva",
|
122
|
+
"citi",
|
123
|
+
"citiva",
|
124
|
+
"conform",
|
125
|
+
"contra",
|
126
|
+
"cu",
|
127
|
+
"cui",
|
128
|
+
"cum",
|
129
|
+
"cumva",
|
130
|
+
"curând",
|
131
|
+
"curînd",
|
132
|
+
"când",
|
133
|
+
"cât",
|
134
|
+
"câte",
|
135
|
+
"câtva",
|
136
|
+
"câţi",
|
137
|
+
"cînd",
|
138
|
+
"cît",
|
139
|
+
"cîte",
|
140
|
+
"cîtva",
|
141
|
+
"cîţi",
|
142
|
+
"că",
|
143
|
+
"căci",
|
144
|
+
"cărei",
|
145
|
+
"căror",
|
146
|
+
"cărui",
|
147
|
+
"către",
|
148
|
+
"d",
|
149
|
+
"da",
|
150
|
+
"daca",
|
151
|
+
"dacă",
|
152
|
+
"dar",
|
153
|
+
"dat",
|
154
|
+
"datorită",
|
155
|
+
"dată",
|
156
|
+
"dau",
|
157
|
+
"de",
|
158
|
+
"deasupra",
|
159
|
+
"deci",
|
160
|
+
"decit",
|
161
|
+
"degraba",
|
162
|
+
"deja",
|
163
|
+
"deoarece",
|
164
|
+
"departe",
|
165
|
+
"desi",
|
166
|
+
"despre",
|
167
|
+
"deşi",
|
168
|
+
"din",
|
169
|
+
"dinaintea",
|
170
|
+
"dintr",
|
171
|
+
"dintr-",
|
172
|
+
"dintre",
|
173
|
+
"doar",
|
174
|
+
"doi",
|
175
|
+
"doilea",
|
176
|
+
"două",
|
177
|
+
"drept",
|
178
|
+
"dupa",
|
179
|
+
"după",
|
180
|
+
"dă",
|
181
|
+
"e",
|
182
|
+
"ea",
|
183
|
+
"ei",
|
184
|
+
"el",
|
185
|
+
"ele",
|
186
|
+
"era",
|
187
|
+
"eram",
|
188
|
+
"este",
|
189
|
+
"eu",
|
190
|
+
"exact",
|
191
|
+
"eşti",
|
192
|
+
"f",
|
193
|
+
"face",
|
194
|
+
"fara",
|
195
|
+
"fata",
|
196
|
+
"fel",
|
197
|
+
"fi",
|
198
|
+
"fie",
|
199
|
+
"fiecare",
|
200
|
+
"fii",
|
201
|
+
"fim",
|
202
|
+
"fiu",
|
203
|
+
"fiţi",
|
204
|
+
"foarte",
|
205
|
+
"fost",
|
206
|
+
"frumos",
|
207
|
+
"fără",
|
208
|
+
"g",
|
209
|
+
"geaba",
|
210
|
+
"graţie",
|
211
|
+
"h",
|
212
|
+
"halbă",
|
213
|
+
"i",
|
214
|
+
"ia",
|
215
|
+
"iar",
|
216
|
+
"ieri",
|
217
|
+
"ii",
|
218
|
+
"il",
|
219
|
+
"imi",
|
220
|
+
"in",
|
221
|
+
"inainte",
|
222
|
+
"inapoi",
|
223
|
+
"inca",
|
224
|
+
"incit",
|
225
|
+
"insa",
|
226
|
+
"intr",
|
227
|
+
"intre",
|
228
|
+
"isi",
|
229
|
+
"iti",
|
230
|
+
"j",
|
231
|
+
"k",
|
232
|
+
"l",
|
233
|
+
"la",
|
234
|
+
"le",
|
235
|
+
"li",
|
236
|
+
"lor",
|
237
|
+
"lui",
|
238
|
+
"lângă",
|
239
|
+
"lîngă",
|
240
|
+
"m",
|
241
|
+
"ma",
|
242
|
+
"mai",
|
243
|
+
"mare",
|
244
|
+
"mea",
|
245
|
+
"mei",
|
246
|
+
"mele",
|
247
|
+
"mereu",
|
248
|
+
"meu",
|
249
|
+
"mi",
|
250
|
+
"mie",
|
251
|
+
"mine",
|
252
|
+
"mod",
|
253
|
+
"mult",
|
254
|
+
"multa",
|
255
|
+
"multe",
|
256
|
+
"multi",
|
257
|
+
"multă",
|
258
|
+
"mulţi",
|
259
|
+
"mulţumesc",
|
260
|
+
"mâine",
|
261
|
+
"mîine",
|
262
|
+
"mă",
|
263
|
+
"n",
|
264
|
+
"ne",
|
265
|
+
"nevoie",
|
266
|
+
"ni",
|
267
|
+
"nici",
|
268
|
+
"niciodata",
|
269
|
+
"nicăieri",
|
270
|
+
"nimeni",
|
271
|
+
"nimeri",
|
272
|
+
"nimic",
|
273
|
+
"niste",
|
274
|
+
"nişte",
|
275
|
+
"noastre",
|
276
|
+
"noastră",
|
277
|
+
"noi",
|
278
|
+
"noroc",
|
279
|
+
"nostri",
|
280
|
+
"nostru",
|
281
|
+
"nou",
|
282
|
+
"noua",
|
283
|
+
"nouă",
|
284
|
+
"noştri",
|
285
|
+
"nu",
|
286
|
+
"numai",
|
287
|
+
"o",
|
288
|
+
"opt",
|
289
|
+
"or",
|
290
|
+
"ori",
|
291
|
+
"oricare",
|
292
|
+
"orice",
|
293
|
+
"oricine",
|
294
|
+
"oricum",
|
295
|
+
"oricând",
|
296
|
+
"oricât",
|
297
|
+
"oricînd",
|
298
|
+
"oricît",
|
299
|
+
"oriunde",
|
300
|
+
"p",
|
301
|
+
"pai",
|
302
|
+
"parca",
|
303
|
+
"patra",
|
304
|
+
"patru",
|
305
|
+
"patrulea",
|
306
|
+
"pe",
|
307
|
+
"pentru",
|
308
|
+
"peste",
|
309
|
+
"pic",
|
310
|
+
"pina",
|
311
|
+
"plus",
|
312
|
+
"poate",
|
313
|
+
"pot",
|
314
|
+
"prea",
|
315
|
+
"prima",
|
316
|
+
"primul",
|
317
|
+
"prin",
|
318
|
+
"printr-",
|
319
|
+
"putini",
|
320
|
+
"puţin",
|
321
|
+
"puţina",
|
322
|
+
"puţină",
|
323
|
+
"până",
|
324
|
+
"pînă",
|
325
|
+
"r",
|
326
|
+
"rog",
|
327
|
+
"s",
|
328
|
+
"sa",
|
329
|
+
"sa-mi",
|
330
|
+
"sa-ti",
|
331
|
+
"sai",
|
332
|
+
"sale",
|
333
|
+
"sau",
|
334
|
+
"se",
|
335
|
+
"si",
|
336
|
+
"sint",
|
337
|
+
"sintem",
|
338
|
+
"spate",
|
339
|
+
"spre",
|
340
|
+
"sub",
|
341
|
+
"sunt",
|
342
|
+
"suntem",
|
343
|
+
"sunteţi",
|
344
|
+
"sus",
|
345
|
+
"sută",
|
346
|
+
"sînt",
|
347
|
+
"sîntem",
|
348
|
+
"sînteţi",
|
349
|
+
"să",
|
350
|
+
"săi",
|
351
|
+
"său",
|
352
|
+
"t",
|
353
|
+
"ta",
|
354
|
+
"tale",
|
355
|
+
"te",
|
356
|
+
"ti",
|
357
|
+
"timp",
|
358
|
+
"tine",
|
359
|
+
"toata",
|
360
|
+
"toate",
|
361
|
+
"toată",
|
362
|
+
"tocmai",
|
363
|
+
"tot",
|
364
|
+
"toti",
|
365
|
+
"totul",
|
366
|
+
"totusi",
|
367
|
+
"totuşi",
|
368
|
+
"toţi",
|
369
|
+
"trei",
|
370
|
+
"treia",
|
371
|
+
"treilea",
|
372
|
+
"tu",
|
373
|
+
"tuturor",
|
374
|
+
"tăi",
|
375
|
+
"tău",
|
376
|
+
"u",
|
377
|
+
"ul",
|
378
|
+
"ului",
|
379
|
+
"un",
|
380
|
+
"una",
|
381
|
+
"unde",
|
382
|
+
"undeva",
|
383
|
+
"unei",
|
384
|
+
"uneia",
|
385
|
+
"unele",
|
386
|
+
"uneori",
|
387
|
+
"unii",
|
388
|
+
"unor",
|
389
|
+
"unora",
|
390
|
+
"unu",
|
391
|
+
"unui",
|
392
|
+
"unuia",
|
393
|
+
"unul",
|
394
|
+
"v",
|
395
|
+
"va",
|
396
|
+
"vi",
|
397
|
+
"voastre",
|
398
|
+
"voastră",
|
399
|
+
"voi",
|
400
|
+
"vom",
|
401
|
+
"vor",
|
402
|
+
"vostru",
|
403
|
+
"vouă",
|
404
|
+
"voştri",
|
405
|
+
"vreme",
|
406
|
+
"vreo",
|
407
|
+
"vreun",
|
408
|
+
"vă",
|
409
|
+
"x",
|
410
|
+
"z",
|
411
|
+
"zece",
|
412
|
+
"zero",
|
413
|
+
"zi",
|
414
|
+
"zice",
|
415
|
+
"îi",
|
416
|
+
"îl",
|
417
|
+
"îmi",
|
418
|
+
"împotriva",
|
419
|
+
"în",
|
420
|
+
"înainte",
|
421
|
+
"înaintea",
|
422
|
+
"încotro",
|
423
|
+
"încât",
|
424
|
+
"încît",
|
425
|
+
"între",
|
426
|
+
"întrucât",
|
427
|
+
"întrucît",
|
428
|
+
"îţi",
|
429
|
+
"ăla",
|
430
|
+
"ălea",
|
431
|
+
"ăsta",
|
432
|
+
"ăstea",
|
433
|
+
"ăştia",
|
434
|
+
"şapte",
|
435
|
+
"şase",
|
436
|
+
"şi",
|
437
|
+
"ştiu",
|
438
|
+
"ţi",
|
439
|
+
"ţie",
|
440
|
+
]
|
441
|
+
end
|
442
|
+
end
|
443
|
+
end
|
444
|
+
end
|