keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,560 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Ces
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "a",
7
+ "aby",
8
+ "ahoj",
9
+ "aj",
10
+ "ale",
11
+ "anebo",
12
+ "ani",
13
+ "aniž",
14
+ "ano",
15
+ "asi",
16
+ "aspoåˆ",
17
+ "aspoň",
18
+ "atd",
19
+ "atp",
20
+ "az",
21
+ "aäkoli",
22
+ "ačkoli",
23
+ "až",
24
+ "bez",
25
+ "beze",
26
+ "blã\u{AD}zko",
27
+ "blízko",
28
+ "bohuå¾el",
29
+ "bohužel",
30
+ "brzo",
31
+ "bude",
32
+ "budem",
33
+ "budeme",
34
+ "budes",
35
+ "budete",
36
+ "budeå¡",
37
+ "budeš",
38
+ "budou",
39
+ "budu",
40
+ "by",
41
+ "byl",
42
+ "byla",
43
+ "byli",
44
+ "bylo",
45
+ "byly",
46
+ "bys",
47
+ "byt",
48
+ "bä›hem",
49
+ "být",
50
+ "během",
51
+ "chce",
52
+ "chceme",
53
+ "chcete",
54
+ "chceå¡",
55
+ "chceš",
56
+ "chci",
57
+ "chtã\u{AD}t",
58
+ "chtä›jã\u{AD}",
59
+ "chtít",
60
+ "chtějí",
61
+ "chut'",
62
+ "chuti",
63
+ "ci",
64
+ "clanek",
65
+ "clanku",
66
+ "clanky",
67
+ "co",
68
+ "coz",
69
+ "což",
70
+ "cz",
71
+ "daleko",
72
+ "dalsi",
73
+ "další",
74
+ "den",
75
+ "deset",
76
+ "design",
77
+ "devatenáct",
78
+ "devatenã¡ct",
79
+ "devä›t",
80
+ "devět",
81
+ "dnes",
82
+ "do",
83
+ "dobrã½",
84
+ "dobrý",
85
+ "docela",
86
+ "dva",
87
+ "dvacet",
88
+ "dvanáct",
89
+ "dvanã¡ct",
90
+ "dvä›",
91
+ "dvě",
92
+ "dál",
93
+ "dále",
94
+ "dã¡l",
95
+ "dã¡le",
96
+ "dä›kovat",
97
+ "dä›kujeme",
98
+ "dä›kuji",
99
+ "děkovat",
100
+ "děkujeme",
101
+ "děkuji",
102
+ "email",
103
+ "ho",
104
+ "hodnä›",
105
+ "hodně",
106
+ "i",
107
+ "jak",
108
+ "jakmile",
109
+ "jako",
110
+ "jakož",
111
+ "jde",
112
+ "je",
113
+ "jeden",
114
+ "jedenáct",
115
+ "jedenã¡ct",
116
+ "jedna",
117
+ "jedno",
118
+ "jednou",
119
+ "jedou",
120
+ "jeho",
121
+ "jehož",
122
+ "jej",
123
+ "jeji",
124
+ "jejich",
125
+ "jejã\u{AD}",
126
+ "její",
127
+ "jelikož",
128
+ "jemu",
129
+ "jen",
130
+ "jenom",
131
+ "jenž",
132
+ "jeste",
133
+ "jestli",
134
+ "jestliå¾e",
135
+ "jestliže",
136
+ "jeå¡tä›",
137
+ "ještě",
138
+ "jež",
139
+ "ji",
140
+ "jich",
141
+ "jimi",
142
+ "jinak",
143
+ "jine",
144
+ "jiné",
145
+ "jiz",
146
+ "již",
147
+ "jsem",
148
+ "jses",
149
+ "jseš",
150
+ "jsi",
151
+ "jsme",
152
+ "jsou",
153
+ "jste",
154
+ "já",
155
+ "jã¡",
156
+ "jã\u{AD}",
157
+ "jã\u{AD}m",
158
+ "jí",
159
+ "jím",
160
+ "jíž",
161
+ "jšte",
162
+ "k",
163
+ "kam",
164
+ "každý",
165
+ "kde",
166
+ "kdo",
167
+ "kdy",
168
+ "kdyz",
169
+ "kdyå¾",
170
+ "když",
171
+ "ke",
172
+ "kolik",
173
+ "kromä›",
174
+ "kromě",
175
+ "ktera",
176
+ "ktere",
177
+ "kteri",
178
+ "kterou",
179
+ "ktery",
180
+ "která",
181
+ "kterã¡",
182
+ "kterã©",
183
+ "kterã½",
184
+ "které",
185
+ "který",
186
+ "kteå™ã\u{AD}",
187
+ "kteři",
188
+ "kteří",
189
+ "ku",
190
+ "kvå¯li",
191
+ "kvůli",
192
+ "ma",
193
+ "majã\u{AD}",
194
+ "mají",
195
+ "mate",
196
+ "me",
197
+ "mezi",
198
+ "mi",
199
+ "mit",
200
+ "mne",
201
+ "mnou",
202
+ "mnä›",
203
+ "mně",
204
+ "moc",
205
+ "mohl",
206
+ "mohou",
207
+ "moje",
208
+ "moji",
209
+ "moå¾nã¡",
210
+ "možná",
211
+ "muj",
212
+ "musã\u{AD}",
213
+ "musí",
214
+ "muze",
215
+ "my",
216
+ "má",
217
+ "málo",
218
+ "mám",
219
+ "máme",
220
+ "máte",
221
+ "máš",
222
+ "mã¡",
223
+ "mã¡lo",
224
+ "mã¡m",
225
+ "mã¡me",
226
+ "mã¡te",
227
+ "mã¡å¡",
228
+ "mã©",
229
+ "mã\u{AD}",
230
+ "mã\u{AD}t",
231
+ "mä›",
232
+ "må¯j",
233
+ "må¯å¾e",
234
+ "mé",
235
+ "mí",
236
+ "mít",
237
+ "mě",
238
+ "můj",
239
+ "může",
240
+ "na",
241
+ "nad",
242
+ "nade",
243
+ "nam",
244
+ "napiste",
245
+ "napište",
246
+ "naproti",
247
+ "nas",
248
+ "nasi",
249
+ "naå¡e",
250
+ "naå¡i",
251
+ "načež",
252
+ "naše",
253
+ "naši",
254
+ "ne",
255
+ "nebo",
256
+ "nebyl",
257
+ "nebyla",
258
+ "nebyli",
259
+ "nebyly",
260
+ "nechť",
261
+ "nedä›lajã\u{AD}",
262
+ "nedä›lã¡",
263
+ "nedä›lã¡m",
264
+ "nedä›lã¡me",
265
+ "nedä›lã¡te",
266
+ "nedä›lã¡å¡",
267
+ "nedělají",
268
+ "nedělá",
269
+ "nedělám",
270
+ "neděláme",
271
+ "neděláte",
272
+ "neděláš",
273
+ "neg",
274
+ "nejsi",
275
+ "nejsou",
276
+ "nemajã\u{AD}",
277
+ "nemají",
278
+ "nemáme",
279
+ "nemáte",
280
+ "nemã¡me",
281
+ "nemã¡te",
282
+ "nemä›l",
283
+ "neměl",
284
+ "neni",
285
+ "nenã\u{AD}",
286
+ "není",
287
+ "nestaäã\u{AD}",
288
+ "nestačí",
289
+ "nevadã\u{AD}",
290
+ "nevadí",
291
+ "nez",
292
+ "neå¾",
293
+ "než",
294
+ "nic",
295
+ "nich",
296
+ "nimi",
297
+ "nove",
298
+ "novy",
299
+ "nové",
300
+ "nový",
301
+ "nula",
302
+ "ná",
303
+ "nám",
304
+ "námi",
305
+ "nás",
306
+ "náš",
307
+ "nã¡m",
308
+ "nã¡mi",
309
+ "nã¡s",
310
+ "nã¡å¡",
311
+ "nã\u{AD}m",
312
+ "nä›",
313
+ "nä›co",
314
+ "nä›jak",
315
+ "nä›kde",
316
+ "nä›kdo",
317
+ "nä›mu",
318
+ "ní",
319
+ "ním",
320
+ "ně",
321
+ "něco",
322
+ "nějak",
323
+ "někde",
324
+ "někdo",
325
+ "němu",
326
+ "němuž",
327
+ "o",
328
+ "od",
329
+ "ode",
330
+ "on",
331
+ "ona",
332
+ "oni",
333
+ "ono",
334
+ "ony",
335
+ "osm",
336
+ "osmnáct",
337
+ "osmnã¡ct",
338
+ "pak",
339
+ "patnáct",
340
+ "patnã¡ct",
341
+ "po",
342
+ "pod",
343
+ "podle",
344
+ "pokud",
345
+ "potom",
346
+ "pouze",
347
+ "pozdä›",
348
+ "pozdě",
349
+ "poå™ã¡d",
350
+ "pořád",
351
+ "prave",
352
+ "pravé",
353
+ "pred",
354
+ "pres",
355
+ "pri",
356
+ "pro",
357
+ "proc",
358
+ "prostä›",
359
+ "prostě",
360
+ "prosã\u{AD}m",
361
+ "prosím",
362
+ "proti",
363
+ "proto",
364
+ "protoze",
365
+ "protoå¾e",
366
+ "protože",
367
+ "proä",
368
+ "proč",
369
+ "prvni",
370
+ "první",
371
+ "práve",
372
+ "pta",
373
+ "pä›t",
374
+ "på™ed",
375
+ "på™es",
376
+ "på™ese",
377
+ "pět",
378
+ "před",
379
+ "přede",
380
+ "přes",
381
+ "přese",
382
+ "při",
383
+ "přičemž",
384
+ "re",
385
+ "rovnä›",
386
+ "rovně",
387
+ "s",
388
+ "se",
389
+ "sedm",
390
+ "sedmnáct",
391
+ "sedmnã¡ct",
392
+ "si",
393
+ "sice",
394
+ "skoro",
395
+ "smã\u{AD}",
396
+ "smä›jã\u{AD}",
397
+ "smí",
398
+ "smějí",
399
+ "snad",
400
+ "spolu",
401
+ "sta",
402
+ "sto",
403
+ "strana",
404
+ "stã©",
405
+ "sté",
406
+ "sve",
407
+ "svych",
408
+ "svym",
409
+ "svymi",
410
+ "své",
411
+ "svých",
412
+ "svým",
413
+ "svými",
414
+ "svůj",
415
+ "ta",
416
+ "tady",
417
+ "tak",
418
+ "take",
419
+ "takhle",
420
+ "taky",
421
+ "takze",
422
+ "také",
423
+ "takže",
424
+ "tam",
425
+ "tamhle",
426
+ "tamhleto",
427
+ "tamto",
428
+ "tato",
429
+ "te",
430
+ "tebe",
431
+ "tebou",
432
+ "ted'",
433
+ "tedy",
434
+ "tema",
435
+ "ten",
436
+ "tento",
437
+ "teto",
438
+ "ti",
439
+ "tim",
440
+ "timto",
441
+ "tipy",
442
+ "tisã\u{AD}c",
443
+ "tisã\u{AD}ce",
444
+ "tisíc",
445
+ "tisíce",
446
+ "to",
447
+ "tobä›",
448
+ "tobě",
449
+ "tohle",
450
+ "toho",
451
+ "tohoto",
452
+ "tom",
453
+ "tomto",
454
+ "tomu",
455
+ "tomuto",
456
+ "toto",
457
+ "troå¡ku",
458
+ "trošku",
459
+ "tu",
460
+ "tuto",
461
+ "tvoje",
462
+ "tvá",
463
+ "tvã¡",
464
+ "tvã©",
465
+ "två¯j",
466
+ "tvé",
467
+ "tvůj",
468
+ "ty",
469
+ "tyto",
470
+ "tä›",
471
+ "tå™eba",
472
+ "tå™i",
473
+ "tå™inã¡ct",
474
+ "téma",
475
+ "této",
476
+ "tím",
477
+ "tímto",
478
+ "tě",
479
+ "těm",
480
+ "těma",
481
+ "těmu",
482
+ "třeba",
483
+ "tři",
484
+ "třináct",
485
+ "u",
486
+ "uräitä›",
487
+ "určitě",
488
+ "uz",
489
+ "uå¾",
490
+ "už",
491
+ "v",
492
+ "vam",
493
+ "vas",
494
+ "vase",
495
+ "vaå¡e",
496
+ "vaå¡i",
497
+ "vaše",
498
+ "vaši",
499
+ "ve",
500
+ "vedle",
501
+ "veäer",
502
+ "večer",
503
+ "vice",
504
+ "vlastnä›",
505
+ "vlastně",
506
+ "vsak",
507
+ "vy",
508
+ "vám",
509
+ "vámi",
510
+ "vás",
511
+ "váš",
512
+ "vã¡m",
513
+ "vã¡mi",
514
+ "vã¡s",
515
+ "vã¡å¡",
516
+ "vå¡echno",
517
+ "vå¡ichni",
518
+ "vå¯bec",
519
+ "vå¾dy",
520
+ "více",
521
+ "však",
522
+ "všechen",
523
+ "všechno",
524
+ "všichni",
525
+ "vůbec",
526
+ "vždy",
527
+ "z",
528
+ "za",
529
+ "zatã\u{AD}mco",
530
+ "zatímco",
531
+ "zaä",
532
+ "zač",
533
+ "zda",
534
+ "zde",
535
+ "ze",
536
+ "zpet",
537
+ "zpravy",
538
+ "zprávy",
539
+ "zpět",
540
+ "äau",
541
+ "ätrnã¡ct",
542
+ "ätyå™i",
543
+ "å¡est",
544
+ "å¡estnã¡ct",
545
+ "å¾e",
546
+ "čau",
547
+ "či",
548
+ "článek",
549
+ "článku",
550
+ "články",
551
+ "čtrnáct",
552
+ "čtyři",
553
+ "šest",
554
+ "šestnáct",
555
+ "že",
556
+ ]
557
+ end
558
+ end
559
+ end
560
+ end