keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,25 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Dan
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "ad", "af", "aldrig", "alle", "alt", "anden", "andet", "andre", "at", "bare", "begge", "blev",
7
+ "blive", "bliver", "da", "de", "dem", "den", "denne", "der", "deres", "det", "dette", "dig",
8
+ "din", "dine", "disse", "dit", "dog", "du", "efter", "ej", "eller", "en", "end", "ene",
9
+ "eneste", "enhver", "er", "et", "far", "fem", "fik", "fire", "flere", "fleste", "for", "fordi",
10
+ "forrige", "fra", "få", "får", "før", "god", "godt", "ham", "han", "hans", "har", "havde",
11
+ "have", "hej", "helt", "hende", "hendes", "her", "hos", "hun", "hvad", "hvem", "hver",
12
+ "hvilken", "hvis", "hvor", "hvordan", "hvorfor", "hvornår", "i", "ikke", "ind", "ingen",
13
+ "intet", "ja", "jeg", "jer", "jeres", "jo", "kan", "kom", "komme", "kommer", "kun", "kunne",
14
+ "lad", "lav", "lidt", "lige", "lille", "man", "mand", "mange", "med", "meget", "men", "mens",
15
+ "mere", "mig", "min", "mine", "mit", "mod", "må", "ned", "nej", "ni", "nogen", "noget",
16
+ "nogle", "nu", "ny", "nyt", "når", "nær", "næste", "næsten", "og", "også", "okay", "om", "op",
17
+ "os", "otte", "over", "på", "se", "seks", "selv", "ser", "ses", "sig", "sige", "sin", "sine",
18
+ "sit", "skal", "skulle", "som", "stor", "store", "syv", "så", "sådan", "tag", "tage", "thi",
19
+ "ti", "til", "to", "tre", "ud", "under", "var", "ved", "vi", "vil", "ville", "vor", "vores",
20
+ "være", "været",
21
+ ]
22
+ end
23
+ end
24
+ end
25
+ end
@@ -0,0 +1,631 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Deu
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "a",
7
+ "ab",
8
+ "aber",
9
+ "ach",
10
+ "acht",
11
+ "achte",
12
+ "achten",
13
+ "achter",
14
+ "achtes",
15
+ "ag",
16
+ "alle",
17
+ "allein",
18
+ "allem",
19
+ "allen",
20
+ "aller",
21
+ "allerdings",
22
+ "alles",
23
+ "allgemeinen",
24
+ "als",
25
+ "also",
26
+ "am",
27
+ "an",
28
+ "ander",
29
+ "andere",
30
+ "anderem",
31
+ "anderen",
32
+ "anderer",
33
+ "anderes",
34
+ "anderm",
35
+ "andern",
36
+ "anderr",
37
+ "anders",
38
+ "au",
39
+ "auch",
40
+ "auf",
41
+ "aus",
42
+ "ausser",
43
+ "ausserdem",
44
+ "außer",
45
+ "außerdem",
46
+ "b",
47
+ "bald",
48
+ "bei",
49
+ "beide",
50
+ "beiden",
51
+ "beim",
52
+ "beispiel",
53
+ "bekannt",
54
+ "bereits",
55
+ "besonders",
56
+ "besser",
57
+ "besten",
58
+ "bin",
59
+ "bis",
60
+ "bisher",
61
+ "bist",
62
+ "c",
63
+ "d",
64
+ "d.h",
65
+ "da",
66
+ "dabei",
67
+ "dadurch",
68
+ "dafür",
69
+ "dagegen",
70
+ "daher",
71
+ "dahin",
72
+ "dahinter",
73
+ "damals",
74
+ "damit",
75
+ "danach",
76
+ "daneben",
77
+ "dank",
78
+ "dann",
79
+ "daran",
80
+ "darauf",
81
+ "daraus",
82
+ "darf",
83
+ "darfst",
84
+ "darin",
85
+ "darum",
86
+ "darunter",
87
+ "darüber",
88
+ "das",
89
+ "dasein",
90
+ "daselbst",
91
+ "dass",
92
+ "dasselbe",
93
+ "davon",
94
+ "davor",
95
+ "dazu",
96
+ "dazwischen",
97
+ "daß",
98
+ "dein",
99
+ "deine",
100
+ "deinem",
101
+ "deinen",
102
+ "deiner",
103
+ "deines",
104
+ "dem",
105
+ "dementsprechend",
106
+ "demgegenüber",
107
+ "demgemäss",
108
+ "demgemäß",
109
+ "demselben",
110
+ "demzufolge",
111
+ "den",
112
+ "denen",
113
+ "denn",
114
+ "denselben",
115
+ "der",
116
+ "deren",
117
+ "derer",
118
+ "derjenige",
119
+ "derjenigen",
120
+ "dermassen",
121
+ "dermaßen",
122
+ "derselbe",
123
+ "derselben",
124
+ "des",
125
+ "deshalb",
126
+ "desselben",
127
+ "dessen",
128
+ "deswegen",
129
+ "dich",
130
+ "die",
131
+ "diejenige",
132
+ "diejenigen",
133
+ "dies",
134
+ "diese",
135
+ "dieselbe",
136
+ "dieselben",
137
+ "diesem",
138
+ "diesen",
139
+ "dieser",
140
+ "dieses",
141
+ "dir",
142
+ "doch",
143
+ "dort",
144
+ "drei",
145
+ "drin",
146
+ "dritte",
147
+ "dritten",
148
+ "dritter",
149
+ "drittes",
150
+ "du",
151
+ "durch",
152
+ "durchaus",
153
+ "durfte",
154
+ "durften",
155
+ "dürfen",
156
+ "dürft",
157
+ "e",
158
+ "eben",
159
+ "ebenso",
160
+ "ehrlich",
161
+ "ei",
162
+ "ei,",
163
+ "eigen",
164
+ "eigene",
165
+ "eigenen",
166
+ "eigener",
167
+ "eigenes",
168
+ "ein",
169
+ "einander",
170
+ "eine",
171
+ "einem",
172
+ "einen",
173
+ "einer",
174
+ "eines",
175
+ "einig",
176
+ "einige",
177
+ "einigem",
178
+ "einigen",
179
+ "einiger",
180
+ "einiges",
181
+ "einmal",
182
+ "eins",
183
+ "elf",
184
+ "en",
185
+ "ende",
186
+ "endlich",
187
+ "entweder",
188
+ "er",
189
+ "ernst",
190
+ "erst",
191
+ "erste",
192
+ "ersten",
193
+ "erster",
194
+ "erstes",
195
+ "es",
196
+ "etwa",
197
+ "etwas",
198
+ "euch",
199
+ "euer",
200
+ "eure",
201
+ "eurem",
202
+ "euren",
203
+ "eurer",
204
+ "eures",
205
+ "f",
206
+ "folgende",
207
+ "früher",
208
+ "fünf",
209
+ "fünfte",
210
+ "fünften",
211
+ "fünfter",
212
+ "fünftes",
213
+ "für",
214
+ "g",
215
+ "gab",
216
+ "ganz",
217
+ "ganze",
218
+ "ganzen",
219
+ "ganzer",
220
+ "ganzes",
221
+ "gar",
222
+ "gedurft",
223
+ "gegen",
224
+ "gegenüber",
225
+ "gehabt",
226
+ "gehen",
227
+ "geht",
228
+ "gekannt",
229
+ "gekonnt",
230
+ "gemacht",
231
+ "gemocht",
232
+ "gemusst",
233
+ "genug",
234
+ "gerade",
235
+ "gern",
236
+ "gesagt",
237
+ "geschweige",
238
+ "gewesen",
239
+ "gewollt",
240
+ "geworden",
241
+ "gibt",
242
+ "ging",
243
+ "gleich",
244
+ "gott",
245
+ "gross",
246
+ "grosse",
247
+ "grossen",
248
+ "grosser",
249
+ "grosses",
250
+ "groß",
251
+ "große",
252
+ "großen",
253
+ "großer",
254
+ "großes",
255
+ "gut",
256
+ "gute",
257
+ "guter",
258
+ "gutes",
259
+ "h",
260
+ "hab",
261
+ "habe",
262
+ "haben",
263
+ "habt",
264
+ "hast",
265
+ "hat",
266
+ "hatte",
267
+ "hatten",
268
+ "hattest",
269
+ "hattet",
270
+ "heisst",
271
+ "her",
272
+ "heute",
273
+ "hier",
274
+ "hin",
275
+ "hinter",
276
+ "hoch",
277
+ "hätte",
278
+ "hätten",
279
+ "i",
280
+ "ich",
281
+ "ihm",
282
+ "ihn",
283
+ "ihnen",
284
+ "ihr",
285
+ "ihre",
286
+ "ihrem",
287
+ "ihren",
288
+ "ihrer",
289
+ "ihres",
290
+ "im",
291
+ "immer",
292
+ "in",
293
+ "indem",
294
+ "infolgedessen",
295
+ "ins",
296
+ "irgend",
297
+ "ist",
298
+ "j",
299
+ "ja",
300
+ "jahr",
301
+ "jahre",
302
+ "jahren",
303
+ "je",
304
+ "jede",
305
+ "jedem",
306
+ "jeden",
307
+ "jeder",
308
+ "jedermann",
309
+ "jedermanns",
310
+ "jedes",
311
+ "jedoch",
312
+ "jemand",
313
+ "jemandem",
314
+ "jemanden",
315
+ "jene",
316
+ "jenem",
317
+ "jenen",
318
+ "jener",
319
+ "jenes",
320
+ "jetzt",
321
+ "k",
322
+ "kam",
323
+ "kann",
324
+ "kannst",
325
+ "kaum",
326
+ "kein",
327
+ "keine",
328
+ "keinem",
329
+ "keinen",
330
+ "keiner",
331
+ "keines",
332
+ "kleine",
333
+ "kleinen",
334
+ "kleiner",
335
+ "kleines",
336
+ "kommen",
337
+ "kommt",
338
+ "konnte",
339
+ "konnten",
340
+ "kurz",
341
+ "können",
342
+ "könnt",
343
+ "könnte",
344
+ "l",
345
+ "lang",
346
+ "lange",
347
+ "leicht",
348
+ "leide",
349
+ "lieber",
350
+ "los",
351
+ "m",
352
+ "machen",
353
+ "macht",
354
+ "machte",
355
+ "mag",
356
+ "magst",
357
+ "mahn",
358
+ "mal",
359
+ "man",
360
+ "manche",
361
+ "manchem",
362
+ "manchen",
363
+ "mancher",
364
+ "manches",
365
+ "mann",
366
+ "mehr",
367
+ "mein",
368
+ "meine",
369
+ "meinem",
370
+ "meinen",
371
+ "meiner",
372
+ "meines",
373
+ "mensch",
374
+ "menschen",
375
+ "mich",
376
+ "mir",
377
+ "mit",
378
+ "mittel",
379
+ "mochte",
380
+ "mochten",
381
+ "morgen",
382
+ "muss",
383
+ "musst",
384
+ "musste",
385
+ "mussten",
386
+ "muß",
387
+ "mußt",
388
+ "möchte",
389
+ "mögen",
390
+ "möglich",
391
+ "mögt",
392
+ "müssen",
393
+ "müsst",
394
+ "müßt",
395
+ "n",
396
+ "na",
397
+ "nach",
398
+ "nachdem",
399
+ "nahm",
400
+ "natürlich",
401
+ "neben",
402
+ "nein",
403
+ "neue",
404
+ "neuen",
405
+ "neun",
406
+ "neunte",
407
+ "neunten",
408
+ "neunter",
409
+ "neuntes",
410
+ "nicht",
411
+ "nichts",
412
+ "nie",
413
+ "niemand",
414
+ "niemandem",
415
+ "niemanden",
416
+ "noch",
417
+ "nun",
418
+ "nur",
419
+ "o",
420
+ "ob",
421
+ "oben",
422
+ "oder",
423
+ "offen",
424
+ "oft",
425
+ "ohne",
426
+ "ordnung",
427
+ "p",
428
+ "q",
429
+ "r",
430
+ "recht",
431
+ "rechte",
432
+ "rechten",
433
+ "rechter",
434
+ "rechtes",
435
+ "richtig",
436
+ "rund",
437
+ "s",
438
+ "sa",
439
+ "sache",
440
+ "sagt",
441
+ "sagte",
442
+ "sah",
443
+ "satt",
444
+ "schlecht",
445
+ "schluss",
446
+ "schon",
447
+ "sechs",
448
+ "sechste",
449
+ "sechsten",
450
+ "sechster",
451
+ "sechstes",
452
+ "sehr",
453
+ "sei",
454
+ "seid",
455
+ "seien",
456
+ "sein",
457
+ "seine",
458
+ "seinem",
459
+ "seinen",
460
+ "seiner",
461
+ "seines",
462
+ "seit",
463
+ "seitdem",
464
+ "selbst",
465
+ "sich",
466
+ "sie",
467
+ "sieben",
468
+ "siebente",
469
+ "siebenten",
470
+ "siebenter",
471
+ "siebentes",
472
+ "sind",
473
+ "so",
474
+ "solang",
475
+ "solche",
476
+ "solchem",
477
+ "solchen",
478
+ "solcher",
479
+ "solches",
480
+ "soll",
481
+ "sollen",
482
+ "sollst",
483
+ "sollt",
484
+ "sollte",
485
+ "sollten",
486
+ "sondern",
487
+ "sonst",
488
+ "soweit",
489
+ "sowie",
490
+ "später",
491
+ "startseite",
492
+ "statt",
493
+ "steht",
494
+ "suche",
495
+ "t",
496
+ "tag",
497
+ "tage",
498
+ "tagen",
499
+ "tat",
500
+ "teil",
501
+ "tel",
502
+ "tritt",
503
+ "trotzdem",
504
+ "tun",
505
+ "u",
506
+ "uhr",
507
+ "um",
508
+ "und",
509
+ "und?",
510
+ "uns",
511
+ "unse",
512
+ "unsem",
513
+ "unsen",
514
+ "unser",
515
+ "unsere",
516
+ "unserer",
517
+ "unses",
518
+ "unter",
519
+ "v",
520
+ "vergangenen",
521
+ "viel",
522
+ "viele",
523
+ "vielem",
524
+ "vielen",
525
+ "vielleicht",
526
+ "vier",
527
+ "vierte",
528
+ "vierten",
529
+ "vierter",
530
+ "viertes",
531
+ "vom",
532
+ "von",
533
+ "vor",
534
+ "w",
535
+ "wahr?",
536
+ "wann",
537
+ "war",
538
+ "waren",
539
+ "warst",
540
+ "wart",
541
+ "warum",
542
+ "was",
543
+ "weg",
544
+ "wegen",
545
+ "weil",
546
+ "weit",
547
+ "weiter",
548
+ "weitere",
549
+ "weiteren",
550
+ "weiteres",
551
+ "welche",
552
+ "welchem",
553
+ "welchen",
554
+ "welcher",
555
+ "welches",
556
+ "wem",
557
+ "wen",
558
+ "wenig",
559
+ "wenige",
560
+ "weniger",
561
+ "weniges",
562
+ "wenigstens",
563
+ "wenn",
564
+ "wer",
565
+ "werde",
566
+ "werden",
567
+ "werdet",
568
+ "weshalb",
569
+ "wessen",
570
+ "wie",
571
+ "wieder",
572
+ "wieso",
573
+ "will",
574
+ "willst",
575
+ "wir",
576
+ "wird",
577
+ "wirklich",
578
+ "wirst",
579
+ "wissen",
580
+ "wo",
581
+ "woher",
582
+ "wohin",
583
+ "wohl",
584
+ "wollen",
585
+ "wollt",
586
+ "wollte",
587
+ "wollten",
588
+ "worden",
589
+ "wurde",
590
+ "wurden",
591
+ "während",
592
+ "währenddem",
593
+ "währenddessen",
594
+ "wäre",
595
+ "würde",
596
+ "würden",
597
+ "x",
598
+ "y",
599
+ "z",
600
+ "z.b",
601
+ "zehn",
602
+ "zehnte",
603
+ "zehnten",
604
+ "zehnter",
605
+ "zehntes",
606
+ "zeit",
607
+ "zu",
608
+ "zuerst",
609
+ "zugleich",
610
+ "zum",
611
+ "zunächst",
612
+ "zur",
613
+ "zurück",
614
+ "zusammen",
615
+ "zwanzig",
616
+ "zwar",
617
+ "zwei",
618
+ "zweite",
619
+ "zweiten",
620
+ "zweiter",
621
+ "zweites",
622
+ "zwischen",
623
+ "zwölf",
624
+ "über",
625
+ "überhaupt",
626
+ "übrigens",
627
+ ]
628
+ end
629
+ end
630
+ end
631
+ end