keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,514 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Tur
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "acaba",
7
+ "acep",
8
+ "adamakıllı",
9
+ "adeta",
10
+ "ait",
11
+ "altmýþ",
12
+ "altmış",
13
+ "altý",
14
+ "altı",
15
+ "ama",
16
+ "amma",
17
+ "anca",
18
+ "ancak",
19
+ "arada",
20
+ "artýk",
21
+ "aslında",
22
+ "aynen",
23
+ "ayrıca",
24
+ "az",
25
+ "açıkça",
26
+ "açıkçası",
27
+ "bana",
28
+ "bari",
29
+ "bazen",
30
+ "bazý",
31
+ "bazı",
32
+ "başkası",
33
+ "baţka",
34
+ "belki",
35
+ "ben",
36
+ "benden",
37
+ "beni",
38
+ "benim",
39
+ "beri",
40
+ "beriki",
41
+ "beþ",
42
+ "beş",
43
+ "beţ",
44
+ "bilcümle",
45
+ "bile",
46
+ "bin",
47
+ "binaen",
48
+ "binaenaleyh",
49
+ "bir",
50
+ "biraz",
51
+ "birazdan",
52
+ "birbiri",
53
+ "birden",
54
+ "birdenbire",
55
+ "biri",
56
+ "birice",
57
+ "birileri",
58
+ "birisi",
59
+ "birkaç",
60
+ "birkaçı",
61
+ "birkez",
62
+ "birlikte",
63
+ "birçok",
64
+ "birçoğu",
65
+ "birþey",
66
+ "birþeyi",
67
+ "birşey",
68
+ "birşeyi",
69
+ "birţey",
70
+ "bitevi",
71
+ "biteviye",
72
+ "bittabi",
73
+ "biz",
74
+ "bizatihi",
75
+ "bizce",
76
+ "bizcileyin",
77
+ "bizden",
78
+ "bize",
79
+ "bizi",
80
+ "bizim",
81
+ "bizimki",
82
+ "bizzat",
83
+ "boşuna",
84
+ "bu",
85
+ "buna",
86
+ "bunda",
87
+ "bundan",
88
+ "bunlar",
89
+ "bunları",
90
+ "bunların",
91
+ "bunu",
92
+ "bunun",
93
+ "buracıkta",
94
+ "burada",
95
+ "buradan",
96
+ "burası",
97
+ "böyle",
98
+ "böylece",
99
+ "böylecene",
100
+ "böylelikle",
101
+ "böylemesine",
102
+ "böylesine",
103
+ "büsbütün",
104
+ "bütün",
105
+ "cuk",
106
+ "cümlesi",
107
+ "da",
108
+ "daha",
109
+ "dahi",
110
+ "dahil",
111
+ "dahilen",
112
+ "daima",
113
+ "dair",
114
+ "dayanarak",
115
+ "de",
116
+ "defa",
117
+ "dek",
118
+ "demin",
119
+ "demincek",
120
+ "deminden",
121
+ "denli",
122
+ "derakap",
123
+ "derhal",
124
+ "derken",
125
+ "deđil",
126
+ "değil",
127
+ "değin",
128
+ "diye",
129
+ "diđer",
130
+ "diğer",
131
+ "diğeri",
132
+ "doksan",
133
+ "dokuz",
134
+ "dolayı",
135
+ "dolayısıyla",
136
+ "doğru",
137
+ "dört",
138
+ "edecek",
139
+ "eden",
140
+ "ederek",
141
+ "edilecek",
142
+ "ediliyor",
143
+ "edilmesi",
144
+ "ediyor",
145
+ "elbet",
146
+ "elbette",
147
+ "elli",
148
+ "emme",
149
+ "en",
150
+ "enikonu",
151
+ "epey",
152
+ "epeyce",
153
+ "epeyi",
154
+ "esasen",
155
+ "esnasında",
156
+ "etmesi",
157
+ "etraflı",
158
+ "etraflıca",
159
+ "etti",
160
+ "ettiği",
161
+ "ettiğini",
162
+ "evleviyetle",
163
+ "evvel",
164
+ "evvela",
165
+ "evvelce",
166
+ "evvelden",
167
+ "evvelemirde",
168
+ "evveli",
169
+ "eđer",
170
+ "eğer",
171
+ "fakat",
172
+ "filanca",
173
+ "gah",
174
+ "gayet",
175
+ "gayetle",
176
+ "gayri",
177
+ "gayrı",
178
+ "gelgelelim",
179
+ "gene",
180
+ "gerek",
181
+ "gerçi",
182
+ "geçende",
183
+ "geçenlerde",
184
+ "gibi",
185
+ "gibilerden",
186
+ "gibisinden",
187
+ "gine",
188
+ "göre",
189
+ "gırla",
190
+ "hakeza",
191
+ "halbuki",
192
+ "halen",
193
+ "halihazırda",
194
+ "haliyle",
195
+ "handiyse",
196
+ "hangi",
197
+ "hangisi",
198
+ "hani",
199
+ "hariç",
200
+ "hasebiyle",
201
+ "hasılı",
202
+ "hatta",
203
+ "hele",
204
+ "hem",
205
+ "henüz",
206
+ "hep",
207
+ "hepsi",
208
+ "her",
209
+ "herhangi",
210
+ "herkes",
211
+ "herkesin",
212
+ "hiç",
213
+ "hiçbir",
214
+ "hiçbiri",
215
+ "hoş",
216
+ "hulasaten",
217
+ "iken",
218
+ "iki",
219
+ "ila",
220
+ "ile",
221
+ "ilen",
222
+ "ilgili",
223
+ "ilk",
224
+ "illa",
225
+ "illaki",
226
+ "imdi",
227
+ "indinde",
228
+ "inen",
229
+ "insermi",
230
+ "ise",
231
+ "ister",
232
+ "itibaren",
233
+ "itibariyle",
234
+ "itibarıyla",
235
+ "iyi",
236
+ "iyice",
237
+ "iyicene",
238
+ "için",
239
+ "iş",
240
+ "işte",
241
+ "iţte",
242
+ "kadar",
243
+ "kaffesi",
244
+ "kah",
245
+ "kala",
246
+ "kanýmca",
247
+ "karşın",
248
+ "katrilyon",
249
+ "kaynak",
250
+ "kaçı",
251
+ "kelli",
252
+ "kendi",
253
+ "kendilerine",
254
+ "kendini",
255
+ "kendisi",
256
+ "kendisine",
257
+ "kendisini",
258
+ "kere",
259
+ "kez",
260
+ "keza",
261
+ "kezalik",
262
+ "keşke",
263
+ "keţke",
264
+ "ki",
265
+ "kim",
266
+ "kimden",
267
+ "kime",
268
+ "kimi",
269
+ "kimisi",
270
+ "kimse",
271
+ "kimsecik",
272
+ "kimsecikler",
273
+ "külliyen",
274
+ "kýrk",
275
+ "kýsaca",
276
+ "kırk",
277
+ "kısaca",
278
+ "lakin",
279
+ "leh",
280
+ "lütfen",
281
+ "maada",
282
+ "madem",
283
+ "mademki",
284
+ "mamafih",
285
+ "mebni",
286
+ "međer",
287
+ "meğer",
288
+ "meğerki",
289
+ "meğerse",
290
+ "milyar",
291
+ "milyon",
292
+ "mu",
293
+ "mü",
294
+ "mý",
295
+ "mı",
296
+ "nasýl",
297
+ "nasıl",
298
+ "nasılsa",
299
+ "nazaran",
300
+ "naşi",
301
+ "ne",
302
+ "neden",
303
+ "nedeniyle",
304
+ "nedenle",
305
+ "nedense",
306
+ "nerde",
307
+ "nerden",
308
+ "nerdeyse",
309
+ "nere",
310
+ "nerede",
311
+ "nereden",
312
+ "neredeyse",
313
+ "neresi",
314
+ "nereye",
315
+ "netekim",
316
+ "neye",
317
+ "neyi",
318
+ "neyse",
319
+ "nice",
320
+ "nihayet",
321
+ "nihayetinde",
322
+ "nitekim",
323
+ "niye",
324
+ "niçin",
325
+ "o",
326
+ "olan",
327
+ "olarak",
328
+ "oldu",
329
+ "olduklarını",
330
+ "oldukça",
331
+ "olduğu",
332
+ "olduğunu",
333
+ "olmadı",
334
+ "olmadığı",
335
+ "olmak",
336
+ "olması",
337
+ "olmayan",
338
+ "olmaz",
339
+ "olsa",
340
+ "olsun",
341
+ "olup",
342
+ "olur",
343
+ "olursa",
344
+ "oluyor",
345
+ "on",
346
+ "ona",
347
+ "onca",
348
+ "onculayın",
349
+ "onda",
350
+ "ondan",
351
+ "onlar",
352
+ "onlardan",
353
+ "onlari",
354
+ "onlarýn",
355
+ "onları",
356
+ "onların",
357
+ "onu",
358
+ "onun",
359
+ "oracık",
360
+ "oracıkta",
361
+ "orada",
362
+ "oradan",
363
+ "oranca",
364
+ "oranla",
365
+ "oraya",
366
+ "otuz",
367
+ "oysa",
368
+ "oysaki",
369
+ "pek",
370
+ "pekala",
371
+ "peki",
372
+ "pekçe",
373
+ "peyderpey",
374
+ "rağmen",
375
+ "sadece",
376
+ "sahi",
377
+ "sahiden",
378
+ "sana",
379
+ "sanki",
380
+ "sekiz",
381
+ "seksen",
382
+ "sen",
383
+ "senden",
384
+ "seni",
385
+ "senin",
386
+ "siz",
387
+ "sizden",
388
+ "sizi",
389
+ "sizin",
390
+ "sonra",
391
+ "sonradan",
392
+ "sonraları",
393
+ "sonunda",
394
+ "tabii",
395
+ "tam",
396
+ "tamam",
397
+ "tamamen",
398
+ "tamamıyla",
399
+ "tarafından",
400
+ "tek",
401
+ "trilyon",
402
+ "tüm",
403
+ "var",
404
+ "vardı",
405
+ "vasıtasıyla",
406
+ "ve",
407
+ "velev",
408
+ "velhasıl",
409
+ "velhasılıkelam",
410
+ "veya",
411
+ "veyahut",
412
+ "ya",
413
+ "yahut",
414
+ "yakinen",
415
+ "yakında",
416
+ "yakından",
417
+ "yakınlarda",
418
+ "yalnız",
419
+ "yalnızca",
420
+ "yani",
421
+ "yapacak",
422
+ "yapmak",
423
+ "yaptı",
424
+ "yaptıkları",
425
+ "yaptığı",
426
+ "yaptığını",
427
+ "yapılan",
428
+ "yapılması",
429
+ "yapıyor",
430
+ "yedi",
431
+ "yeniden",
432
+ "yenilerde",
433
+ "yerine",
434
+ "yetmiþ",
435
+ "yetmiş",
436
+ "yetmiţ",
437
+ "yine",
438
+ "yirmi",
439
+ "yok",
440
+ "yoksa",
441
+ "yoluyla",
442
+ "yüz",
443
+ "yüzünden",
444
+ "zarfında",
445
+ "zaten",
446
+ "zati",
447
+ "zira",
448
+ "çabuk",
449
+ "çabukça",
450
+ "çeşitli",
451
+ "çok",
452
+ "çokları",
453
+ "çoklarınca",
454
+ "çokluk",
455
+ "çoklukla",
456
+ "çokça",
457
+ "çoğu",
458
+ "çoğun",
459
+ "çoğunca",
460
+ "çoğunlukla",
461
+ "çünkü",
462
+ "öbür",
463
+ "öbürkü",
464
+ "öbürü",
465
+ "önce",
466
+ "önceden",
467
+ "önceleri",
468
+ "öncelikle",
469
+ "öteki",
470
+ "ötekisi",
471
+ "öyle",
472
+ "öylece",
473
+ "öylelikle",
474
+ "öylemesine",
475
+ "öz",
476
+ "üzere",
477
+ "üç",
478
+ "þey",
479
+ "þeyden",
480
+ "þeyi",
481
+ "þeyler",
482
+ "þu",
483
+ "þuna",
484
+ "þunda",
485
+ "þundan",
486
+ "þunu",
487
+ "şayet",
488
+ "şey",
489
+ "şeyden",
490
+ "şeyi",
491
+ "şeyler",
492
+ "şu",
493
+ "şuna",
494
+ "şuncacık",
495
+ "şunda",
496
+ "şundan",
497
+ "şunlar",
498
+ "şunları",
499
+ "şunu",
500
+ "şunun",
501
+ "şura",
502
+ "şuracık",
503
+ "şuracıkta",
504
+ "şurası",
505
+ "şöyle",
506
+ "ţayet",
507
+ "ţimdi",
508
+ "ţu",
509
+ "ţöyle",
510
+ ]
511
+ end
512
+ end
513
+ end
514
+ end
@@ -0,0 +1,38 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Ukr
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "але",
7
+ "ви",
8
+ "вона",
9
+ "вони",
10
+ "воно",
11
+ "він",
12
+ "в╡д",
13
+ "з",
14
+ "й",
15
+ "коли",
16
+ "ми",
17
+ "нам",
18
+ "про",
19
+ "та",
20
+ "ти",
21
+ "хоча",
22
+ "це",
23
+ "цей",
24
+ "чи",
25
+ "чого",
26
+ "що",
27
+ "як",
28
+ "яко╞",
29
+ "із",
30
+ "інших",
31
+ "╙",
32
+ "╞х",
33
+ "╡",
34
+ ]
35
+ end
36
+ end
37
+ end
38
+ end