keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,528 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Bul
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "ð°",
7
+ "ð°ð²ñ‚ðµð½ñ‚ð¸ñ‡ðµð½",
8
+ "ð°ð·",
9
+ "ð°ðºð¾",
10
+ "ð°ð»ð°",
11
+ "ð±ðµ",
12
+ "ð±ðµð·",
13
+ "ð±ðµñˆðµ",
14
+ "ð±ð¸",
15
+ "ð±ð¸ð²ñˆ",
16
+ "ð±ð¸ð²ñˆð°",
17
+ "ð±ð¸ð²ñˆð¾",
18
+ "ð±ð¸ð»",
19
+ "ð±ð¸ð»ð°",
20
+ "ð±ð¸ð»ð¸",
21
+ "ð±ð¸ð»ð¾",
22
+ "ð±ð»ð°ð³ð¾ð´ð°ñ€ñ",
23
+ "ð±ð»ð¸ð·ð¾",
24
+ "ð±ññ…ð°",
25
+ "ð±ñšð´ð°ñ‚",
26
+ "ð±ñšð´ðµ",
27
+ "ð²",
28
+ "ð²ð°ñ",
29
+ "ð²ð°ñˆ",
30
+ "ð²ð°ñˆð°",
31
+ "ð²ðµñ‡ðµ",
32
+ "ð²ðµñ€ð¾ññ‚ð½ð¾",
33
+ "ð²ð·ðµð¼ð°",
34
+ "ð²ð¸",
35
+ "ð²ð¸ðµ",
36
+ "ð²ð¸ð½ð°ð³ð¸",
37
+ "ð²ð½ð¸ð¼ð°ð²ð°",
38
+ "ð²ñðµ",
39
+ "ð²ñðµðºð¸",
40
+ "ð²ñð¸ñ‡ðºð¸",
41
+ "ð²ñð¸ñ‡ðºð¾",
42
+ "ð²ññðºð°",
43
+ "ð²ñšð²",
44
+ "ð²ñšð¿ñ€ðµðºð¸",
45
+ "ð²ñšñ€ñ…ñƒ",
46
+ "ð²ñ€ðµð¼ðµ",
47
+ "ð³",
48
+ "ð³ð¸",
49
+ "ð³ð»ð°ð²ðµð½",
50
+ "ð³ð»ð°ð²ð½ð°",
51
+ "ð³ð»ð°ð²ð½ð¾",
52
+ "ð³ð»ð°ñ",
53
+ "ð³ð¾",
54
+ "ð³ð¾ð´ð¸ð½ð°",
55
+ "ð³ð¾ð´ð¸ð½ð¸",
56
+ "ð³ð¾ð´ð¸ñˆðµð½",
57
+ "ð´",
58
+ "ð´ð°",
59
+ "ð´ð°ð»ð¸",
60
+ "ð´ð²ð°",
61
+ "ð´ð²ð°ð¼ð°",
62
+ "ð´ð²ð°ð¼ð°ñ‚ð°",
63
+ "ð´ð²ðµ",
64
+ "ð´ð²ðµñ‚ðµ",
65
+ "ð´ðµð½",
66
+ "ð´ð½ðµñ",
67
+ "ð´ð½ð¸",
68
+ "ð´ð¾",
69
+ "ð´ð¾ð±ñšñ€",
70
+ "ð´ð¾ð±ñ€ð°",
71
+ "ð´ð¾ð±ñ€ðµ",
72
+ "ð´ð¾ð±ñ€ð¾",
73
+ "ð´ð¾ðºð°ñ‚ð¾",
74
+ "ð´ð¾ðºð¾ð³ð°",
75
+ "ð´ð¾ñðµð³ð°",
76
+ "ð´ð¾ññ‚ð°",
77
+ "ð´ð¾ñ€ð¸",
78
+ "ð´ñ€ñƒð³",
79
+ "ð´ñ€ñƒð³ð°",
80
+ "ð´ñ€ñƒð³ð¸",
81
+ "ðµ",
82
+ "ðµð²ñ‚ð¸ð½",
83
+ "ðµð´ð²ð°",
84
+ "ðµð´ð¸ð½",
85
+ "ðµð´ð½ð°",
86
+ "ðµð´ð½ð°ðºð²ð°",
87
+ "ðµð´ð½ð°ðºð²ð¸",
88
+ "ðµð´ð½ð°ðºñšð²",
89
+ "ðµð´ð½ð¾",
90
+ "ðµðºð¸ð¿",
91
+ "ðµñ‚ð¾",
92
+ "ð¶ð¸ð²ð¾ñ‚",
93
+ "ð·ð°",
94
+ "ð·ð°ð±ð°ð²ñð¼",
95
+ "ð·ð°ð´",
96
+ "ð·ð°ðµð´ð½ð¾",
97
+ "ð·ð°ñðµð³ð°",
98
+ "ð·ð°ñð¿ð°ð»",
99
+ "ð·ð°ñ‚ð¾ð²ð°",
100
+ "ð·ð°ñ‰ð¾",
101
+ "ð·ð°ñ‰ð¾ñ‚ð¾",
102
+ "ð·ð°ñ€ð°ð´ð¸",
103
+ "ð¸",
104
+ "ð¸ð·",
105
+ "ð¸ð»ð¸",
106
+ "ð¸ð¼",
107
+ "ð¸ð¼ð°",
108
+ "ð¸ð¼ð°ñ‚",
109
+ "ð¸ñðºð°",
110
+ "ð¹",
111
+ "ðºð°ð·ð°",
112
+ "ðºð°ðº",
113
+ "ðºð°ðºð²ð°",
114
+ "ðºð°ðºð²ð¾",
115
+ "ðºð°ðºñšð²",
116
+ "ðºð°ðºñ‚ð¾",
117
+ "ðºð°ñ‚ð¾",
118
+ "ðºð¾ð³ð°",
119
+ "ðºð¾ð³ð°ñ‚ð¾",
120
+ "ðºð¾ðµñ‚ð¾",
121
+ "ðºð¾ð¸ñ‚ð¾",
122
+ "ðºð¾ð¹",
123
+ "ðºð¾ð¹ñ‚ð¾",
124
+ "ðºð¾ð»ðºð¾",
125
+ "ðºð¾ññ‚ð¾",
126
+ "ðºñšð´ðµ",
127
+ "ðºñšð´ðµñ‚ð¾",
128
+ "ðºñšð¼",
129
+ "ð»ðµñðµð½",
130
+ "ð»ðµñð½ð¾",
131
+ "ð»ð¸",
132
+ "ð»ð¾ñˆ",
133
+ "ð¼",
134
+ "ð¼ð°ð¹",
135
+ "ð¼ð°ð»ðºð¾",
136
+ "ð¼ðµ",
137
+ "ð¼ðµð¶ð´ñƒ",
138
+ "ð¼ðµðº",
139
+ "ð¼ðµð½",
140
+ "ð¼ðµñðµñ†",
141
+ "ð¼ð¸",
142
+ "ð¼ð½ð¾ð³ð¾",
143
+ "ð¼ð½ð¾ð·ð¸ð½ð°",
144
+ "ð¼ð¾ð³ð°",
145
+ "ð¼ð¾ð³ð°ñ‚",
146
+ "ð¼ð¾ð¶ðµ",
147
+ "ð¼ð¾ðºñšñ€",
148
+ "ð¼ð¾ð»ñ",
149
+ "ð¼ð¾ð¼ðµð½ñ‚ð°",
150
+ "ð¼ñƒ",
151
+ "ð½",
152
+ "ð½ð°",
153
+ "ð½ð°ð´",
154
+ "ð½ð°ð·ð°ð´",
155
+ "ð½ð°ð¹",
156
+ "ð½ð°ð¿ñ€ð°ð²ð¸",
157
+ "ð½ð°ð¿ñ€ðµð´",
158
+ "ð½ð°ð¿ñ€ð¸ð¼ðµñ€",
159
+ "ð½ð°ñ",
160
+ "ð½ðµ",
161
+ "ð½ðµð³ð¾",
162
+ "ð½ðµñ",
163
+ "ð½ðµñ‰ð¾",
164
+ "ð½ð¸",
165
+ "ð½ð¸ðµ",
166
+ "ð½ð¸ðºð¾ð¹",
167
+ "ð½ð¸ñ‚ð¾",
168
+ "ð½ð¸ñ‰ð¾",
169
+ "ð½ð¾",
170
+ "ð½ð¾ð²",
171
+ "ð½ð¾ð²ð°",
172
+ "ð½ð¾ð²ð¸",
173
+ "ð½ð¾ð²ð¸ð½ð°",
174
+ "ð½ñðºð¾ð¸",
175
+ "ð½ñðºð¾ð¹",
176
+ "ð½ñðºð¾ð»ðºð¾",
177
+ "ð½ñð¼ð°",
178
+ "ð¾ð±ð°ñ‡ðµ",
179
+ "ð¾ðºð¾ð»ð¾",
180
+ "ð¾ñð²ðµð½",
181
+ "ð¾ñð¾ð±ðµð½ð¾",
182
+ "ð¾ñ‚",
183
+ "ð¾ñ‚ð³ð¾ñ€ðµ",
184
+ "ð¾ñ‚ð½ð¾ð²ð¾",
185
+ "ð¾ñ‰ðµ",
186
+ "ð¿ð°ðº",
187
+ "ð¿ð¾",
188
+ "ð¿ð¾ð²ðµñ‡ðµ",
189
+ "ð¿ð¾ð²ðµñ‡ðµñ‚ð¾",
190
+ "ð¿ð¾ð´",
191
+ "ð¿ð¾ð½ðµ",
192
+ "ð¿ð¾ñð»ðµ",
193
+ "ð¿ð¾ñ‡ñ‚ð¸",
194
+ "ð¿ð¾ñ€ð°ð´ð¸",
195
+ "ð¿ñšðº",
196
+ "ð¿ñšñ‚ð¸",
197
+ "ð¿ñšñ€ð²ð°ñ‚ð°",
198
+ "ð¿ñšñ€ð²ð¸",
199
+ "ð¿ñšñ€ð²ð¾",
200
+ "ð¿ñ€ð°ð²ð¸",
201
+ "ð¿ñ€ðµð´",
202
+ "ð¿ñ€ðµð´ð¸",
203
+ "ð¿ñ€ðµð·",
204
+ "ð¿ñ€ð¸",
205
+ "ñ",
206
+ "ñð°",
207
+ "ñð°ð¼",
208
+ "ñð°ð¼ð¾",
209
+ "ñðµ",
210
+ "ñðµð³ð°",
211
+ "ñð¸",
212
+ "ñð¸ð½",
213
+ "ñðºð¾ñ€ð¾",
214
+ "ñð»ðµð´",
215
+ "ñð»ðµð´ð²ð°ñ‰",
216
+ "ñð¼ðµ",
217
+ "ñð¼ññ…",
218
+ "ñð¿ð¾ñ€ðµð´",
219
+ "ññšð¼",
220
+ "ññšñ",
221
+ "ññšñ‰ð¾",
222
+ "ññ‚ðµ",
223
+ "ññ€ðµð´",
224
+ "ññ€ðµñ‰ñƒ",
225
+ "ñ",
226
+ "ñðº",
227
+ "ñžð¼ñ€ñƒðº",
228
+ "ñƒ",
229
+ "ñƒñ‚ñ€ðµ",
230
+ "ñ‚",
231
+ "ñ‚.ð½.",
232
+ "ñ‚ð°ð·ð¸",
233
+ "ñ‚ð°ðºð°",
234
+ "ñ‚ð°ðºð¸ð²ð°",
235
+ "ñ‚ð°ðºñšð²",
236
+ "ñ‚ð°ð¼",
237
+ "ñ‚ð²ð¾ð¹",
238
+ "ñ‚ðµ",
239
+ "ñ‚ðµð·ð¸",
240
+ "ñ‚ð¸",
241
+ "ñ‚ð¾",
242
+ "ñ‚ð¾ð²ð°",
243
+ "ñ‚ð¾ð³ð°ð²ð°",
244
+ "ñ‚ð¾ð·ð¸",
245
+ "ñ‚ð¾ð¹",
246
+ "ñ‚ð¾ð»ðºð¾ð²ð°",
247
+ "ñ‚ð¾ñ‡ð½ð¾",
248
+ "ñ‚ñ",
249
+ "ñ‚ññ…",
250
+ "ñ‚ñšð¹",
251
+ "ñ‚ñƒðº",
252
+ "ñ‚ñ€ð¸",
253
+ "ñ‚ñ€ñð±ð²ð°",
254
+ "ñ‡",
255
+ "ñ‡ð°ñð°",
256
+ "ñ‡ðµ",
257
+ "ñ‡ðµññ‚ð¾",
258
+ "ñ‡ñ€ðµð·",
259
+ "ñ…ð°ñ€ðµñð²ð°",
260
+ "ñ…ð¸ð»ñð´ð¸",
261
+ "ñ‰ðµ",
262
+ "ñ‰ð¾ð¼",
263
+ "ñ€ð°ð²ðµð½",
264
+ "ñ€ð°ð²ð½ð°",
265
+ "а",
266
+ "автентичен",
267
+ "аз",
268
+ "ако",
269
+ "ала",
270
+ "бе",
271
+ "без",
272
+ "беше",
273
+ "би",
274
+ "бивш",
275
+ "бивша",
276
+ "бившо",
277
+ "бил",
278
+ "била",
279
+ "били",
280
+ "било",
281
+ "благодаря",
282
+ "близо",
283
+ "бъдат",
284
+ "бъде",
285
+ "бяха",
286
+ "в",
287
+ "вас",
288
+ "ваш",
289
+ "ваша",
290
+ "вероятно",
291
+ "вече",
292
+ "взема",
293
+ "ви",
294
+ "вие",
295
+ "винаги",
296
+ "внимава",
297
+ "време",
298
+ "все",
299
+ "всеки",
300
+ "всички",
301
+ "всичко",
302
+ "всяка",
303
+ "във",
304
+ "въпреки",
305
+ "върху",
306
+ "г",
307
+ "ги",
308
+ "главен",
309
+ "главна",
310
+ "главно",
311
+ "глас",
312
+ "го",
313
+ "година",
314
+ "години",
315
+ "годишен",
316
+ "д",
317
+ "да",
318
+ "дали",
319
+ "два",
320
+ "двама",
321
+ "двамата",
322
+ "две",
323
+ "двете",
324
+ "ден",
325
+ "днес",
326
+ "дни",
327
+ "до",
328
+ "добра",
329
+ "добре",
330
+ "добро",
331
+ "добър",
332
+ "докато",
333
+ "докога",
334
+ "дори",
335
+ "досега",
336
+ "доста",
337
+ "друг",
338
+ "друга",
339
+ "други",
340
+ "е",
341
+ "евтин",
342
+ "едва",
343
+ "един",
344
+ "една",
345
+ "еднаква",
346
+ "еднакви",
347
+ "еднакъв",
348
+ "едно",
349
+ "екип",
350
+ "ето",
351
+ "живот",
352
+ "за",
353
+ "забавям",
354
+ "зад",
355
+ "заедно",
356
+ "заради",
357
+ "засега",
358
+ "заспал",
359
+ "затова",
360
+ "защо",
361
+ "защото",
362
+ "и",
363
+ "из",
364
+ "или",
365
+ "им",
366
+ "има",
367
+ "имат",
368
+ "иска",
369
+ "й",
370
+ "каза",
371
+ "как",
372
+ "каква",
373
+ "какво",
374
+ "както",
375
+ "какъв",
376
+ "като",
377
+ "кога",
378
+ "когато",
379
+ "което",
380
+ "които",
381
+ "кой",
382
+ "който",
383
+ "колко",
384
+ "която",
385
+ "къде",
386
+ "където",
387
+ "към",
388
+ "лесен",
389
+ "лесно",
390
+ "ли",
391
+ "лош",
392
+ "м",
393
+ "май",
394
+ "малко",
395
+ "ме",
396
+ "между",
397
+ "мек",
398
+ "мен",
399
+ "месец",
400
+ "ми",
401
+ "много",
402
+ "мнозина",
403
+ "мога",
404
+ "могат",
405
+ "може",
406
+ "мокър",
407
+ "моля",
408
+ "момента",
409
+ "му",
410
+ "н",
411
+ "на",
412
+ "над",
413
+ "назад",
414
+ "най",
415
+ "направи",
416
+ "напред",
417
+ "например",
418
+ "нас",
419
+ "не",
420
+ "него",
421
+ "нещо",
422
+ "нея",
423
+ "ни",
424
+ "ние",
425
+ "никой",
426
+ "нито",
427
+ "нищо",
428
+ "но",
429
+ "нов",
430
+ "нова",
431
+ "нови",
432
+ "новина",
433
+ "някои",
434
+ "някой",
435
+ "няколко",
436
+ "няма",
437
+ "обаче",
438
+ "около",
439
+ "освен",
440
+ "особено",
441
+ "от",
442
+ "отгоре",
443
+ "отново",
444
+ "още",
445
+ "пак",
446
+ "по",
447
+ "повече",
448
+ "повечето",
449
+ "под",
450
+ "поне",
451
+ "поради",
452
+ "после",
453
+ "почти",
454
+ "прави",
455
+ "пред",
456
+ "преди",
457
+ "през",
458
+ "при",
459
+ "пък",
460
+ "първата",
461
+ "първи",
462
+ "първо",
463
+ "пъти",
464
+ "равен",
465
+ "равна",
466
+ "с",
467
+ "са",
468
+ "сам",
469
+ "само",
470
+ "се",
471
+ "сега",
472
+ "си",
473
+ "син",
474
+ "скоро",
475
+ "след",
476
+ "следващ",
477
+ "сме",
478
+ "смях",
479
+ "според",
480
+ "сред",
481
+ "срещу",
482
+ "сте",
483
+ "съм",
484
+ "със",
485
+ "също",
486
+ "т",
487
+ "т.н.",
488
+ "тази",
489
+ "така",
490
+ "такива",
491
+ "такъв",
492
+ "там",
493
+ "твой",
494
+ "те",
495
+ "тези",
496
+ "ти",
497
+ "то",
498
+ "това",
499
+ "тогава",
500
+ "този",
501
+ "той",
502
+ "толкова",
503
+ "точно",
504
+ "три",
505
+ "трябва",
506
+ "тук",
507
+ "тъй",
508
+ "тя",
509
+ "тях",
510
+ "у",
511
+ "утре",
512
+ "харесва",
513
+ "хиляди",
514
+ "ч",
515
+ "часа",
516
+ "че",
517
+ "често",
518
+ "чрез",
519
+ "ще",
520
+ "щом",
521
+ "юмрук",
522
+ "я",
523
+ "як",
524
+ ]
525
+ end
526
+ end
527
+ end
528
+ end