keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,699 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Fra
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "a",
7
+ "abord",
8
+ "absolument",
9
+ "afin",
10
+ "ah",
11
+ "ai",
12
+ "aie",
13
+ "aient",
14
+ "aies",
15
+ "ailleurs",
16
+ "ainsi",
17
+ "ait",
18
+ "allaient",
19
+ "allo",
20
+ "allons",
21
+ "allô",
22
+ "alors",
23
+ "anterieur",
24
+ "anterieure",
25
+ "anterieures",
26
+ "apres",
27
+ "après",
28
+ "as",
29
+ "assez",
30
+ "attendu",
31
+ "au",
32
+ "aucun",
33
+ "aucune",
34
+ "aucuns",
35
+ "aujourd",
36
+ "aujourd'hui",
37
+ "aupres",
38
+ "auquel",
39
+ "aura",
40
+ "aurai",
41
+ "auraient",
42
+ "aurais",
43
+ "aurait",
44
+ "auras",
45
+ "aurez",
46
+ "auriez",
47
+ "aurions",
48
+ "aurons",
49
+ "auront",
50
+ "aussi",
51
+ "autre",
52
+ "autrefois",
53
+ "autrement",
54
+ "autres",
55
+ "autrui",
56
+ "aux",
57
+ "auxquelles",
58
+ "auxquels",
59
+ "avaient",
60
+ "avais",
61
+ "avait",
62
+ "avant",
63
+ "avec",
64
+ "avez",
65
+ "aviez",
66
+ "avions",
67
+ "avoir",
68
+ "avons",
69
+ "ayant",
70
+ "ayez",
71
+ "ayons",
72
+ "b",
73
+ "bah",
74
+ "bas",
75
+ "basee",
76
+ "bat",
77
+ "beau",
78
+ "beaucoup",
79
+ "bien",
80
+ "bigre",
81
+ "bon",
82
+ "boum",
83
+ "bravo",
84
+ "brrr",
85
+ "c",
86
+ "car",
87
+ "ce",
88
+ "ceci",
89
+ "cela",
90
+ "celle",
91
+ "celle-ci",
92
+ "celle-là",
93
+ "celles",
94
+ "celles-ci",
95
+ "celles-là",
96
+ "celui",
97
+ "celui-ci",
98
+ "celui-là",
99
+ "celà",
100
+ "cent",
101
+ "cependant",
102
+ "certain",
103
+ "certaine",
104
+ "certaines",
105
+ "certains",
106
+ "certes",
107
+ "ces",
108
+ "cet",
109
+ "cette",
110
+ "ceux",
111
+ "ceux-ci",
112
+ "ceux-là",
113
+ "chacun",
114
+ "chacune",
115
+ "chaque",
116
+ "cher",
117
+ "chers",
118
+ "chez",
119
+ "chiche",
120
+ "chut",
121
+ "chère",
122
+ "chères",
123
+ "ci",
124
+ "cinq",
125
+ "cinquantaine",
126
+ "cinquante",
127
+ "cinquantième",
128
+ "cinquième",
129
+ "clac",
130
+ "clic",
131
+ "combien",
132
+ "comme",
133
+ "comment",
134
+ "comparable",
135
+ "comparables",
136
+ "compris",
137
+ "concernant",
138
+ "contre",
139
+ "couic",
140
+ "crac",
141
+ "d",
142
+ "da",
143
+ "dans",
144
+ "de",
145
+ "debout",
146
+ "dedans",
147
+ "dehors",
148
+ "deja",
149
+ "delà",
150
+ "depuis",
151
+ "dernier",
152
+ "derniere",
153
+ "derriere",
154
+ "derrière",
155
+ "des",
156
+ "desormais",
157
+ "desquelles",
158
+ "desquels",
159
+ "dessous",
160
+ "dessus",
161
+ "deux",
162
+ "deuxième",
163
+ "deuxièmement",
164
+ "devant",
165
+ "devers",
166
+ "devra",
167
+ "devrait",
168
+ "different",
169
+ "differentes",
170
+ "differents",
171
+ "différent",
172
+ "différente",
173
+ "différentes",
174
+ "différents",
175
+ "dire",
176
+ "directe",
177
+ "directement",
178
+ "dit",
179
+ "dite",
180
+ "dits",
181
+ "divers",
182
+ "diverse",
183
+ "diverses",
184
+ "dix",
185
+ "dix-huit",
186
+ "dix-neuf",
187
+ "dix-sept",
188
+ "dixième",
189
+ "doit",
190
+ "doivent",
191
+ "donc",
192
+ "dont",
193
+ "dos",
194
+ "douze",
195
+ "douzième",
196
+ "dring",
197
+ "droite",
198
+ "du",
199
+ "duquel",
200
+ "durant",
201
+ "dès",
202
+ "début",
203
+ "désormais",
204
+ "e",
205
+ "effet",
206
+ "egale",
207
+ "egalement",
208
+ "egales",
209
+ "eh",
210
+ "elle",
211
+ "elle-même",
212
+ "elles",
213
+ "elles-mêmes",
214
+ "en",
215
+ "encore",
216
+ "enfin",
217
+ "entre",
218
+ "envers",
219
+ "environ",
220
+ "es",
221
+ "essai",
222
+ "est",
223
+ "et",
224
+ "etant",
225
+ "etc",
226
+ "etre",
227
+ "eu",
228
+ "eue",
229
+ "eues",
230
+ "euh",
231
+ "eurent",
232
+ "eus",
233
+ "eusse",
234
+ "eussent",
235
+ "eusses",
236
+ "eussiez",
237
+ "eussions",
238
+ "eut",
239
+ "eux",
240
+ "eux-mêmes",
241
+ "exactement",
242
+ "excepté",
243
+ "extenso",
244
+ "exterieur",
245
+ "eûmes",
246
+ "eût",
247
+ "eûtes",
248
+ "f",
249
+ "fais",
250
+ "faisaient",
251
+ "faisant",
252
+ "fait",
253
+ "faites",
254
+ "façon",
255
+ "feront",
256
+ "fi",
257
+ "flac",
258
+ "floc",
259
+ "fois",
260
+ "font",
261
+ "force",
262
+ "furent",
263
+ "fus",
264
+ "fusse",
265
+ "fussent",
266
+ "fusses",
267
+ "fussiez",
268
+ "fussions",
269
+ "fut",
270
+ "fûmes",
271
+ "fût",
272
+ "fûtes",
273
+ "g",
274
+ "gens",
275
+ "h",
276
+ "ha",
277
+ "haut",
278
+ "hein",
279
+ "hem",
280
+ "hep",
281
+ "hi",
282
+ "ho",
283
+ "holà",
284
+ "hop",
285
+ "hormis",
286
+ "hors",
287
+ "hou",
288
+ "houp",
289
+ "hue",
290
+ "hui",
291
+ "huit",
292
+ "huitième",
293
+ "hum",
294
+ "hurrah",
295
+ "hé",
296
+ "hélas",
297
+ "i",
298
+ "ici",
299
+ "il",
300
+ "ils",
301
+ "importe",
302
+ "j",
303
+ "je",
304
+ "jusqu",
305
+ "jusque",
306
+ "juste",
307
+ "k",
308
+ "l",
309
+ "la",
310
+ "laisser",
311
+ "laquelle",
312
+ "las",
313
+ "le",
314
+ "lequel",
315
+ "les",
316
+ "lesquelles",
317
+ "lesquels",
318
+ "leur",
319
+ "leurs",
320
+ "longtemps",
321
+ "lors",
322
+ "lorsque",
323
+ "lui",
324
+ "lui-meme",
325
+ "lui-même",
326
+ "là",
327
+ "lès",
328
+ "m",
329
+ "ma",
330
+ "maint",
331
+ "maintenant",
332
+ "mais",
333
+ "malgre",
334
+ "malgré",
335
+ "maximale",
336
+ "me",
337
+ "meme",
338
+ "memes",
339
+ "merci",
340
+ "mes",
341
+ "mien",
342
+ "mienne",
343
+ "miennes",
344
+ "miens",
345
+ "mille",
346
+ "mince",
347
+ "mine",
348
+ "minimale",
349
+ "moi",
350
+ "moi-meme",
351
+ "moi-même",
352
+ "moindres",
353
+ "moins",
354
+ "mon",
355
+ "mot",
356
+ "moyennant",
357
+ "multiple",
358
+ "multiples",
359
+ "même",
360
+ "mêmes",
361
+ "n",
362
+ "na",
363
+ "naturel",
364
+ "naturelle",
365
+ "naturelles",
366
+ "ne",
367
+ "neanmoins",
368
+ "necessaire",
369
+ "necessairement",
370
+ "neuf",
371
+ "neuvième",
372
+ "ni",
373
+ "nombreuses",
374
+ "nombreux",
375
+ "nommés",
376
+ "non",
377
+ "nos",
378
+ "notamment",
379
+ "notre",
380
+ "nous",
381
+ "nous-mêmes",
382
+ "nouveau",
383
+ "nouveaux",
384
+ "nul",
385
+ "néanmoins",
386
+ "nôtre",
387
+ "nôtres",
388
+ "o",
389
+ "oh",
390
+ "ohé",
391
+ "ollé",
392
+ "olé",
393
+ "on",
394
+ "ont",
395
+ "onze",
396
+ "onzième",
397
+ "ore",
398
+ "ou",
399
+ "ouf",
400
+ "ouias",
401
+ "oust",
402
+ "ouste",
403
+ "outre",
404
+ "ouvert",
405
+ "ouverte",
406
+ "ouverts",
407
+ "o|",
408
+ "où",
409
+ "p",
410
+ "paf",
411
+ "pan",
412
+ "par",
413
+ "parce",
414
+ "parfois",
415
+ "parle",
416
+ "parlent",
417
+ "parler",
418
+ "parmi",
419
+ "parole",
420
+ "parseme",
421
+ "partant",
422
+ "particulier",
423
+ "particulière",
424
+ "particulièrement",
425
+ "pas",
426
+ "passé",
427
+ "pendant",
428
+ "pense",
429
+ "permet",
430
+ "personne",
431
+ "personnes",
432
+ "peu",
433
+ "peut",
434
+ "peuvent",
435
+ "peux",
436
+ "pff",
437
+ "pfft",
438
+ "pfut",
439
+ "pif",
440
+ "pire",
441
+ "pièce",
442
+ "plein",
443
+ "plouf",
444
+ "plupart",
445
+ "plus",
446
+ "plusieurs",
447
+ "plutôt",
448
+ "possessif",
449
+ "possessifs",
450
+ "possible",
451
+ "possibles",
452
+ "pouah",
453
+ "pour",
454
+ "pourquoi",
455
+ "pourrais",
456
+ "pourrait",
457
+ "pouvait",
458
+ "prealable",
459
+ "precisement",
460
+ "premier",
461
+ "première",
462
+ "premièrement",
463
+ "pres",
464
+ "probable",
465
+ "probante",
466
+ "procedant",
467
+ "proche",
468
+ "près",
469
+ "psitt",
470
+ "pu",
471
+ "puis",
472
+ "puisque",
473
+ "pur",
474
+ "pure",
475
+ "q",
476
+ "qu",
477
+ "quand",
478
+ "quant",
479
+ "quant-à-soi",
480
+ "quanta",
481
+ "quarante",
482
+ "quatorze",
483
+ "quatre",
484
+ "quatre-vingt",
485
+ "quatrième",
486
+ "quatrièmement",
487
+ "que",
488
+ "quel",
489
+ "quelconque",
490
+ "quelle",
491
+ "quelles",
492
+ "quelqu'un",
493
+ "quelque",
494
+ "quelques",
495
+ "quels",
496
+ "qui",
497
+ "quiconque",
498
+ "quinze",
499
+ "quoi",
500
+ "quoique",
501
+ "r",
502
+ "rare",
503
+ "rarement",
504
+ "rares",
505
+ "relative",
506
+ "relativement",
507
+ "remarquable",
508
+ "rend",
509
+ "rendre",
510
+ "restant",
511
+ "reste",
512
+ "restent",
513
+ "restrictif",
514
+ "retour",
515
+ "revoici",
516
+ "revoilà",
517
+ "rien",
518
+ "s",
519
+ "sa",
520
+ "sacrebleu",
521
+ "sait",
522
+ "sans",
523
+ "sapristi",
524
+ "sauf",
525
+ "se",
526
+ "sein",
527
+ "seize",
528
+ "selon",
529
+ "semblable",
530
+ "semblaient",
531
+ "semble",
532
+ "semblent",
533
+ "sent",
534
+ "sept",
535
+ "septième",
536
+ "sera",
537
+ "serai",
538
+ "seraient",
539
+ "serais",
540
+ "serait",
541
+ "seras",
542
+ "serez",
543
+ "seriez",
544
+ "serions",
545
+ "serons",
546
+ "seront",
547
+ "ses",
548
+ "seul",
549
+ "seule",
550
+ "seulement",
551
+ "si",
552
+ "sien",
553
+ "sienne",
554
+ "siennes",
555
+ "siens",
556
+ "sinon",
557
+ "six",
558
+ "sixième",
559
+ "soi",
560
+ "soi-même",
561
+ "soient",
562
+ "sois",
563
+ "soit",
564
+ "soixante",
565
+ "sommes",
566
+ "son",
567
+ "sont",
568
+ "sous",
569
+ "souvent",
570
+ "soyez",
571
+ "soyons",
572
+ "specifique",
573
+ "specifiques",
574
+ "speculatif",
575
+ "stop",
576
+ "strictement",
577
+ "subtiles",
578
+ "suffisant",
579
+ "suffisante",
580
+ "suffit",
581
+ "suis",
582
+ "suit",
583
+ "suivant",
584
+ "suivante",
585
+ "suivantes",
586
+ "suivants",
587
+ "suivre",
588
+ "sujet",
589
+ "superpose",
590
+ "sur",
591
+ "surtout",
592
+ "t",
593
+ "ta",
594
+ "tac",
595
+ "tandis",
596
+ "tant",
597
+ "tardive",
598
+ "te",
599
+ "tel",
600
+ "telle",
601
+ "tellement",
602
+ "telles",
603
+ "tels",
604
+ "tenant",
605
+ "tend",
606
+ "tenir",
607
+ "tente",
608
+ "tes",
609
+ "tic",
610
+ "tien",
611
+ "tienne",
612
+ "tiennes",
613
+ "tiens",
614
+ "toc",
615
+ "toi",
616
+ "toi-même",
617
+ "ton",
618
+ "touchant",
619
+ "toujours",
620
+ "tous",
621
+ "tout",
622
+ "toute",
623
+ "toutefois",
624
+ "toutes",
625
+ "treize",
626
+ "trente",
627
+ "tres",
628
+ "trois",
629
+ "troisième",
630
+ "troisièmement",
631
+ "trop",
632
+ "très",
633
+ "tsoin",
634
+ "tsouin",
635
+ "tu",
636
+ "té",
637
+ "u",
638
+ "un",
639
+ "une",
640
+ "unes",
641
+ "uniformement",
642
+ "unique",
643
+ "uniques",
644
+ "uns",
645
+ "v",
646
+ "va",
647
+ "vais",
648
+ "valeur",
649
+ "vas",
650
+ "vers",
651
+ "via",
652
+ "vif",
653
+ "vifs",
654
+ "vingt",
655
+ "vivat",
656
+ "vive",
657
+ "vives",
658
+ "vlan",
659
+ "voici",
660
+ "voie",
661
+ "voient",
662
+ "voilà",
663
+ "vont",
664
+ "vos",
665
+ "votre",
666
+ "vous",
667
+ "vous-mêmes",
668
+ "vu",
669
+ "vé",
670
+ "vôtre",
671
+ "vôtres",
672
+ "w",
673
+ "x",
674
+ "y",
675
+ "z",
676
+ "zut",
677
+ "à",
678
+ "â",
679
+ "ça",
680
+ "ès",
681
+ "étaient",
682
+ "étais",
683
+ "était",
684
+ "étant",
685
+ "état",
686
+ "étiez",
687
+ "étions",
688
+ "été",
689
+ "étée",
690
+ "étées",
691
+ "étés",
692
+ "êtes",
693
+ "être",
694
+ "ô",
695
+ ]
696
+ end
697
+ end
698
+ end
699
+ end