keyphrase 0.1.3 → 0.2.1
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/README.md +5 -4
- data/lib/keyphrase/stoplist/afr.rb +14 -0
- data/lib/keyphrase/stoplist/aka.rb +10 -0
- data/lib/keyphrase/stoplist/amh.rb +10 -0
- data/lib/keyphrase/stoplist/ara.rb +490 -0
- data/lib/keyphrase/stoplist/aze.rb +175 -0
- data/lib/keyphrase/stoplist/bel.rb +11 -0
- data/lib/keyphrase/stoplist/ben.rb +408 -0
- data/lib/keyphrase/stoplist/bul.rb +528 -0
- data/lib/keyphrase/stoplist/cat.rb +711 -0
- data/lib/keyphrase/stoplist/ces.rb +560 -0
- data/lib/keyphrase/stoplist/cmn.rb +1119 -0
- data/lib/keyphrase/stoplist/dan.rb +25 -0
- data/lib/keyphrase/stoplist/deu.rb +631 -0
- data/lib/keyphrase/stoplist/ell.rb +275 -0
- data/lib/keyphrase/stoplist/eng.rb +2 -591
- data/lib/keyphrase/stoplist/epo.rb +183 -0
- data/lib/keyphrase/stoplist/est.rb +13 -0
- data/lib/keyphrase/stoplist/fin.rb +857 -0
- data/lib/keyphrase/stoplist/fra.rb +699 -0
- data/lib/keyphrase/stoplist/guj.rb +234 -0
- data/lib/keyphrase/stoplist/heb.rb +204 -0
- data/lib/keyphrase/stoplist/hin.rb +235 -0
- data/lib/keyphrase/stoplist/hrv.rb +25 -0
- data/lib/keyphrase/stoplist/hun.rb +1195 -0
- data/lib/keyphrase/stoplist/hye.rb +55 -0
- data/lib/keyphrase/stoplist/ind.rb +768 -0
- data/lib/keyphrase/stoplist/ita.rb +670 -0
- data/lib/keyphrase/stoplist/jav.rb +10 -0
- data/lib/keyphrase/stoplist/jpn.rb +144 -0
- data/lib/keyphrase/stoplist/kan.rb +92 -0
- data/lib/keyphrase/stoplist/kat.rb +383 -0
- data/lib/keyphrase/stoplist/khm.rb +245 -0
- data/lib/keyphrase/stoplist/kor.rb +610 -0
- data/lib/keyphrase/stoplist/lat.rb +14 -0
- data/lib/keyphrase/stoplist/lav.rb +171 -0
- data/lib/keyphrase/stoplist/lit.rb +484 -0
- data/lib/keyphrase/stoplist/mal.rb +11 -0
- data/lib/keyphrase/stoplist/mar.rb +109 -0
- data/lib/keyphrase/stoplist/mkd.rb +11 -0
- data/lib/keyphrase/stoplist/mya.rb +285 -0
- data/lib/keyphrase/stoplist/nep.rb +265 -0
- data/lib/keyphrase/stoplist/nld.rb +423 -0
- data/lib/keyphrase/stoplist/nob.rb +186 -0
- data/lib/keyphrase/stoplist/ori.rb +11 -0
- data/lib/keyphrase/stoplist/pan.rb +462 -0
- data/lib/keyphrase/stoplist/pes.rb +801 -0
- data/lib/keyphrase/stoplist/pol.rb +338 -0
- data/lib/keyphrase/stoplist/por.rb +570 -0
- data/lib/keyphrase/stoplist/ron.rb +444 -0
- data/lib/keyphrase/stoplist/rus.rb +569 -0
- data/lib/keyphrase/stoplist/sin.rb +10 -0
- data/lib/keyphrase/stoplist/slk.rb +428 -0
- data/lib/keyphrase/stoplist/slv.rb +456 -0
- data/lib/keyphrase/stoplist/sna.rb +11 -0
- data/lib/keyphrase/stoplist/spa.rb +731 -0
- data/lib/keyphrase/stoplist/srp.rb +11 -0
- data/lib/keyphrase/stoplist/swe.rb +428 -0
- data/lib/keyphrase/stoplist/tam.rb +135 -0
- data/lib/keyphrase/stoplist/tel.rb +10 -0
- data/lib/keyphrase/stoplist/tgl.rb +157 -0
- data/lib/keyphrase/stoplist/tha.rb +125 -0
- data/lib/keyphrase/stoplist/tuk.rb +11 -0
- data/lib/keyphrase/stoplist/tur.rb +514 -0
- data/lib/keyphrase/stoplist/ukr.rb +38 -0
- data/lib/keyphrase/stoplist/urd.rb +527 -0
- data/lib/keyphrase/stoplist/uzb.rb +10 -0
- data/lib/keyphrase/stoplist/vie.rb +655 -0
- data/lib/keyphrase/stoplist/yid.rb +204 -0
- data/lib/keyphrase/stoplist/zul.rb +39 -0
- data/lib/keyphrase/stoplist.rb +13 -10
- data/lib/keyphrase/version.rb +1 -1
- data/lib/keyphrase.rb +20 -12
- metadata +71 -3
@@ -0,0 +1,514 @@
|
|
1
|
+
class Keyphrase
|
2
|
+
module Stoplist
|
3
|
+
class Tur
|
4
|
+
def self.stopwords
|
5
|
+
@@stopwords ||= [
|
6
|
+
"acaba",
|
7
|
+
"acep",
|
8
|
+
"adamakıllı",
|
9
|
+
"adeta",
|
10
|
+
"ait",
|
11
|
+
"altmýþ",
|
12
|
+
"altmış",
|
13
|
+
"altý",
|
14
|
+
"altı",
|
15
|
+
"ama",
|
16
|
+
"amma",
|
17
|
+
"anca",
|
18
|
+
"ancak",
|
19
|
+
"arada",
|
20
|
+
"artýk",
|
21
|
+
"aslında",
|
22
|
+
"aynen",
|
23
|
+
"ayrıca",
|
24
|
+
"az",
|
25
|
+
"açıkça",
|
26
|
+
"açıkçası",
|
27
|
+
"bana",
|
28
|
+
"bari",
|
29
|
+
"bazen",
|
30
|
+
"bazý",
|
31
|
+
"bazı",
|
32
|
+
"başkası",
|
33
|
+
"baţka",
|
34
|
+
"belki",
|
35
|
+
"ben",
|
36
|
+
"benden",
|
37
|
+
"beni",
|
38
|
+
"benim",
|
39
|
+
"beri",
|
40
|
+
"beriki",
|
41
|
+
"beþ",
|
42
|
+
"beş",
|
43
|
+
"beţ",
|
44
|
+
"bilcümle",
|
45
|
+
"bile",
|
46
|
+
"bin",
|
47
|
+
"binaen",
|
48
|
+
"binaenaleyh",
|
49
|
+
"bir",
|
50
|
+
"biraz",
|
51
|
+
"birazdan",
|
52
|
+
"birbiri",
|
53
|
+
"birden",
|
54
|
+
"birdenbire",
|
55
|
+
"biri",
|
56
|
+
"birice",
|
57
|
+
"birileri",
|
58
|
+
"birisi",
|
59
|
+
"birkaç",
|
60
|
+
"birkaçı",
|
61
|
+
"birkez",
|
62
|
+
"birlikte",
|
63
|
+
"birçok",
|
64
|
+
"birçoğu",
|
65
|
+
"birþey",
|
66
|
+
"birþeyi",
|
67
|
+
"birşey",
|
68
|
+
"birşeyi",
|
69
|
+
"birţey",
|
70
|
+
"bitevi",
|
71
|
+
"biteviye",
|
72
|
+
"bittabi",
|
73
|
+
"biz",
|
74
|
+
"bizatihi",
|
75
|
+
"bizce",
|
76
|
+
"bizcileyin",
|
77
|
+
"bizden",
|
78
|
+
"bize",
|
79
|
+
"bizi",
|
80
|
+
"bizim",
|
81
|
+
"bizimki",
|
82
|
+
"bizzat",
|
83
|
+
"boşuna",
|
84
|
+
"bu",
|
85
|
+
"buna",
|
86
|
+
"bunda",
|
87
|
+
"bundan",
|
88
|
+
"bunlar",
|
89
|
+
"bunları",
|
90
|
+
"bunların",
|
91
|
+
"bunu",
|
92
|
+
"bunun",
|
93
|
+
"buracıkta",
|
94
|
+
"burada",
|
95
|
+
"buradan",
|
96
|
+
"burası",
|
97
|
+
"böyle",
|
98
|
+
"böylece",
|
99
|
+
"böylecene",
|
100
|
+
"böylelikle",
|
101
|
+
"böylemesine",
|
102
|
+
"böylesine",
|
103
|
+
"büsbütün",
|
104
|
+
"bütün",
|
105
|
+
"cuk",
|
106
|
+
"cümlesi",
|
107
|
+
"da",
|
108
|
+
"daha",
|
109
|
+
"dahi",
|
110
|
+
"dahil",
|
111
|
+
"dahilen",
|
112
|
+
"daima",
|
113
|
+
"dair",
|
114
|
+
"dayanarak",
|
115
|
+
"de",
|
116
|
+
"defa",
|
117
|
+
"dek",
|
118
|
+
"demin",
|
119
|
+
"demincek",
|
120
|
+
"deminden",
|
121
|
+
"denli",
|
122
|
+
"derakap",
|
123
|
+
"derhal",
|
124
|
+
"derken",
|
125
|
+
"deđil",
|
126
|
+
"değil",
|
127
|
+
"değin",
|
128
|
+
"diye",
|
129
|
+
"diđer",
|
130
|
+
"diğer",
|
131
|
+
"diğeri",
|
132
|
+
"doksan",
|
133
|
+
"dokuz",
|
134
|
+
"dolayı",
|
135
|
+
"dolayısıyla",
|
136
|
+
"doğru",
|
137
|
+
"dört",
|
138
|
+
"edecek",
|
139
|
+
"eden",
|
140
|
+
"ederek",
|
141
|
+
"edilecek",
|
142
|
+
"ediliyor",
|
143
|
+
"edilmesi",
|
144
|
+
"ediyor",
|
145
|
+
"elbet",
|
146
|
+
"elbette",
|
147
|
+
"elli",
|
148
|
+
"emme",
|
149
|
+
"en",
|
150
|
+
"enikonu",
|
151
|
+
"epey",
|
152
|
+
"epeyce",
|
153
|
+
"epeyi",
|
154
|
+
"esasen",
|
155
|
+
"esnasında",
|
156
|
+
"etmesi",
|
157
|
+
"etraflı",
|
158
|
+
"etraflıca",
|
159
|
+
"etti",
|
160
|
+
"ettiği",
|
161
|
+
"ettiğini",
|
162
|
+
"evleviyetle",
|
163
|
+
"evvel",
|
164
|
+
"evvela",
|
165
|
+
"evvelce",
|
166
|
+
"evvelden",
|
167
|
+
"evvelemirde",
|
168
|
+
"evveli",
|
169
|
+
"eđer",
|
170
|
+
"eğer",
|
171
|
+
"fakat",
|
172
|
+
"filanca",
|
173
|
+
"gah",
|
174
|
+
"gayet",
|
175
|
+
"gayetle",
|
176
|
+
"gayri",
|
177
|
+
"gayrı",
|
178
|
+
"gelgelelim",
|
179
|
+
"gene",
|
180
|
+
"gerek",
|
181
|
+
"gerçi",
|
182
|
+
"geçende",
|
183
|
+
"geçenlerde",
|
184
|
+
"gibi",
|
185
|
+
"gibilerden",
|
186
|
+
"gibisinden",
|
187
|
+
"gine",
|
188
|
+
"göre",
|
189
|
+
"gırla",
|
190
|
+
"hakeza",
|
191
|
+
"halbuki",
|
192
|
+
"halen",
|
193
|
+
"halihazırda",
|
194
|
+
"haliyle",
|
195
|
+
"handiyse",
|
196
|
+
"hangi",
|
197
|
+
"hangisi",
|
198
|
+
"hani",
|
199
|
+
"hariç",
|
200
|
+
"hasebiyle",
|
201
|
+
"hasılı",
|
202
|
+
"hatta",
|
203
|
+
"hele",
|
204
|
+
"hem",
|
205
|
+
"henüz",
|
206
|
+
"hep",
|
207
|
+
"hepsi",
|
208
|
+
"her",
|
209
|
+
"herhangi",
|
210
|
+
"herkes",
|
211
|
+
"herkesin",
|
212
|
+
"hiç",
|
213
|
+
"hiçbir",
|
214
|
+
"hiçbiri",
|
215
|
+
"hoş",
|
216
|
+
"hulasaten",
|
217
|
+
"iken",
|
218
|
+
"iki",
|
219
|
+
"ila",
|
220
|
+
"ile",
|
221
|
+
"ilen",
|
222
|
+
"ilgili",
|
223
|
+
"ilk",
|
224
|
+
"illa",
|
225
|
+
"illaki",
|
226
|
+
"imdi",
|
227
|
+
"indinde",
|
228
|
+
"inen",
|
229
|
+
"insermi",
|
230
|
+
"ise",
|
231
|
+
"ister",
|
232
|
+
"itibaren",
|
233
|
+
"itibariyle",
|
234
|
+
"itibarıyla",
|
235
|
+
"iyi",
|
236
|
+
"iyice",
|
237
|
+
"iyicene",
|
238
|
+
"için",
|
239
|
+
"iş",
|
240
|
+
"işte",
|
241
|
+
"iţte",
|
242
|
+
"kadar",
|
243
|
+
"kaffesi",
|
244
|
+
"kah",
|
245
|
+
"kala",
|
246
|
+
"kanýmca",
|
247
|
+
"karşın",
|
248
|
+
"katrilyon",
|
249
|
+
"kaynak",
|
250
|
+
"kaçı",
|
251
|
+
"kelli",
|
252
|
+
"kendi",
|
253
|
+
"kendilerine",
|
254
|
+
"kendini",
|
255
|
+
"kendisi",
|
256
|
+
"kendisine",
|
257
|
+
"kendisini",
|
258
|
+
"kere",
|
259
|
+
"kez",
|
260
|
+
"keza",
|
261
|
+
"kezalik",
|
262
|
+
"keşke",
|
263
|
+
"keţke",
|
264
|
+
"ki",
|
265
|
+
"kim",
|
266
|
+
"kimden",
|
267
|
+
"kime",
|
268
|
+
"kimi",
|
269
|
+
"kimisi",
|
270
|
+
"kimse",
|
271
|
+
"kimsecik",
|
272
|
+
"kimsecikler",
|
273
|
+
"külliyen",
|
274
|
+
"kýrk",
|
275
|
+
"kýsaca",
|
276
|
+
"kırk",
|
277
|
+
"kısaca",
|
278
|
+
"lakin",
|
279
|
+
"leh",
|
280
|
+
"lütfen",
|
281
|
+
"maada",
|
282
|
+
"madem",
|
283
|
+
"mademki",
|
284
|
+
"mamafih",
|
285
|
+
"mebni",
|
286
|
+
"međer",
|
287
|
+
"meğer",
|
288
|
+
"meğerki",
|
289
|
+
"meğerse",
|
290
|
+
"milyar",
|
291
|
+
"milyon",
|
292
|
+
"mu",
|
293
|
+
"mü",
|
294
|
+
"mý",
|
295
|
+
"mı",
|
296
|
+
"nasýl",
|
297
|
+
"nasıl",
|
298
|
+
"nasılsa",
|
299
|
+
"nazaran",
|
300
|
+
"naşi",
|
301
|
+
"ne",
|
302
|
+
"neden",
|
303
|
+
"nedeniyle",
|
304
|
+
"nedenle",
|
305
|
+
"nedense",
|
306
|
+
"nerde",
|
307
|
+
"nerden",
|
308
|
+
"nerdeyse",
|
309
|
+
"nere",
|
310
|
+
"nerede",
|
311
|
+
"nereden",
|
312
|
+
"neredeyse",
|
313
|
+
"neresi",
|
314
|
+
"nereye",
|
315
|
+
"netekim",
|
316
|
+
"neye",
|
317
|
+
"neyi",
|
318
|
+
"neyse",
|
319
|
+
"nice",
|
320
|
+
"nihayet",
|
321
|
+
"nihayetinde",
|
322
|
+
"nitekim",
|
323
|
+
"niye",
|
324
|
+
"niçin",
|
325
|
+
"o",
|
326
|
+
"olan",
|
327
|
+
"olarak",
|
328
|
+
"oldu",
|
329
|
+
"olduklarını",
|
330
|
+
"oldukça",
|
331
|
+
"olduğu",
|
332
|
+
"olduğunu",
|
333
|
+
"olmadı",
|
334
|
+
"olmadığı",
|
335
|
+
"olmak",
|
336
|
+
"olması",
|
337
|
+
"olmayan",
|
338
|
+
"olmaz",
|
339
|
+
"olsa",
|
340
|
+
"olsun",
|
341
|
+
"olup",
|
342
|
+
"olur",
|
343
|
+
"olursa",
|
344
|
+
"oluyor",
|
345
|
+
"on",
|
346
|
+
"ona",
|
347
|
+
"onca",
|
348
|
+
"onculayın",
|
349
|
+
"onda",
|
350
|
+
"ondan",
|
351
|
+
"onlar",
|
352
|
+
"onlardan",
|
353
|
+
"onlari",
|
354
|
+
"onlarýn",
|
355
|
+
"onları",
|
356
|
+
"onların",
|
357
|
+
"onu",
|
358
|
+
"onun",
|
359
|
+
"oracık",
|
360
|
+
"oracıkta",
|
361
|
+
"orada",
|
362
|
+
"oradan",
|
363
|
+
"oranca",
|
364
|
+
"oranla",
|
365
|
+
"oraya",
|
366
|
+
"otuz",
|
367
|
+
"oysa",
|
368
|
+
"oysaki",
|
369
|
+
"pek",
|
370
|
+
"pekala",
|
371
|
+
"peki",
|
372
|
+
"pekçe",
|
373
|
+
"peyderpey",
|
374
|
+
"rağmen",
|
375
|
+
"sadece",
|
376
|
+
"sahi",
|
377
|
+
"sahiden",
|
378
|
+
"sana",
|
379
|
+
"sanki",
|
380
|
+
"sekiz",
|
381
|
+
"seksen",
|
382
|
+
"sen",
|
383
|
+
"senden",
|
384
|
+
"seni",
|
385
|
+
"senin",
|
386
|
+
"siz",
|
387
|
+
"sizden",
|
388
|
+
"sizi",
|
389
|
+
"sizin",
|
390
|
+
"sonra",
|
391
|
+
"sonradan",
|
392
|
+
"sonraları",
|
393
|
+
"sonunda",
|
394
|
+
"tabii",
|
395
|
+
"tam",
|
396
|
+
"tamam",
|
397
|
+
"tamamen",
|
398
|
+
"tamamıyla",
|
399
|
+
"tarafından",
|
400
|
+
"tek",
|
401
|
+
"trilyon",
|
402
|
+
"tüm",
|
403
|
+
"var",
|
404
|
+
"vardı",
|
405
|
+
"vasıtasıyla",
|
406
|
+
"ve",
|
407
|
+
"velev",
|
408
|
+
"velhasıl",
|
409
|
+
"velhasılıkelam",
|
410
|
+
"veya",
|
411
|
+
"veyahut",
|
412
|
+
"ya",
|
413
|
+
"yahut",
|
414
|
+
"yakinen",
|
415
|
+
"yakında",
|
416
|
+
"yakından",
|
417
|
+
"yakınlarda",
|
418
|
+
"yalnız",
|
419
|
+
"yalnızca",
|
420
|
+
"yani",
|
421
|
+
"yapacak",
|
422
|
+
"yapmak",
|
423
|
+
"yaptı",
|
424
|
+
"yaptıkları",
|
425
|
+
"yaptığı",
|
426
|
+
"yaptığını",
|
427
|
+
"yapılan",
|
428
|
+
"yapılması",
|
429
|
+
"yapıyor",
|
430
|
+
"yedi",
|
431
|
+
"yeniden",
|
432
|
+
"yenilerde",
|
433
|
+
"yerine",
|
434
|
+
"yetmiþ",
|
435
|
+
"yetmiş",
|
436
|
+
"yetmiţ",
|
437
|
+
"yine",
|
438
|
+
"yirmi",
|
439
|
+
"yok",
|
440
|
+
"yoksa",
|
441
|
+
"yoluyla",
|
442
|
+
"yüz",
|
443
|
+
"yüzünden",
|
444
|
+
"zarfında",
|
445
|
+
"zaten",
|
446
|
+
"zati",
|
447
|
+
"zira",
|
448
|
+
"çabuk",
|
449
|
+
"çabukça",
|
450
|
+
"çeşitli",
|
451
|
+
"çok",
|
452
|
+
"çokları",
|
453
|
+
"çoklarınca",
|
454
|
+
"çokluk",
|
455
|
+
"çoklukla",
|
456
|
+
"çokça",
|
457
|
+
"çoğu",
|
458
|
+
"çoğun",
|
459
|
+
"çoğunca",
|
460
|
+
"çoğunlukla",
|
461
|
+
"çünkü",
|
462
|
+
"öbür",
|
463
|
+
"öbürkü",
|
464
|
+
"öbürü",
|
465
|
+
"önce",
|
466
|
+
"önceden",
|
467
|
+
"önceleri",
|
468
|
+
"öncelikle",
|
469
|
+
"öteki",
|
470
|
+
"ötekisi",
|
471
|
+
"öyle",
|
472
|
+
"öylece",
|
473
|
+
"öylelikle",
|
474
|
+
"öylemesine",
|
475
|
+
"öz",
|
476
|
+
"üzere",
|
477
|
+
"üç",
|
478
|
+
"þey",
|
479
|
+
"þeyden",
|
480
|
+
"þeyi",
|
481
|
+
"þeyler",
|
482
|
+
"þu",
|
483
|
+
"þuna",
|
484
|
+
"þunda",
|
485
|
+
"þundan",
|
486
|
+
"þunu",
|
487
|
+
"şayet",
|
488
|
+
"şey",
|
489
|
+
"şeyden",
|
490
|
+
"şeyi",
|
491
|
+
"şeyler",
|
492
|
+
"şu",
|
493
|
+
"şuna",
|
494
|
+
"şuncacık",
|
495
|
+
"şunda",
|
496
|
+
"şundan",
|
497
|
+
"şunlar",
|
498
|
+
"şunları",
|
499
|
+
"şunu",
|
500
|
+
"şunun",
|
501
|
+
"şura",
|
502
|
+
"şuracık",
|
503
|
+
"şuracıkta",
|
504
|
+
"şurası",
|
505
|
+
"şöyle",
|
506
|
+
"ţayet",
|
507
|
+
"ţimdi",
|
508
|
+
"ţu",
|
509
|
+
"ţöyle",
|
510
|
+
]
|
511
|
+
end
|
512
|
+
end
|
513
|
+
end
|
514
|
+
end
|
@@ -0,0 +1,38 @@
|
|
1
|
+
class Keyphrase
|
2
|
+
module Stoplist
|
3
|
+
class Ukr
|
4
|
+
def self.stopwords
|
5
|
+
@@stopwords ||= [
|
6
|
+
"але",
|
7
|
+
"ви",
|
8
|
+
"вона",
|
9
|
+
"вони",
|
10
|
+
"воно",
|
11
|
+
"він",
|
12
|
+
"в╡д",
|
13
|
+
"з",
|
14
|
+
"й",
|
15
|
+
"коли",
|
16
|
+
"ми",
|
17
|
+
"нам",
|
18
|
+
"про",
|
19
|
+
"та",
|
20
|
+
"ти",
|
21
|
+
"хоча",
|
22
|
+
"це",
|
23
|
+
"цей",
|
24
|
+
"чи",
|
25
|
+
"чого",
|
26
|
+
"що",
|
27
|
+
"як",
|
28
|
+
"яко╞",
|
29
|
+
"із",
|
30
|
+
"інших",
|
31
|
+
"╙",
|
32
|
+
"╞х",
|
33
|
+
"╡",
|
34
|
+
]
|
35
|
+
end
|
36
|
+
end
|
37
|
+
end
|
38
|
+
end
|