keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,711 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Cat
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "a",
7
+ "abans",
8
+ "abans-d'ahir",
9
+ "abintestat",
10
+ "ací",
11
+ "adesiara",
12
+ "adés",
13
+ "adéu",
14
+ "adàgio",
15
+ "ah",
16
+ "ahir",
17
+ "ai",
18
+ "aitambé",
19
+ "aitampoc",
20
+ "aitan",
21
+ "aitant",
22
+ "aitantost",
23
+ "aixà",
24
+ "això",
25
+ "així",
26
+ "aleshores",
27
+ "algun",
28
+ "alguna",
29
+ "algunes",
30
+ "alguns",
31
+ "algú",
32
+ "alhora",
33
+ "allà",
34
+ "allèn",
35
+ "allò",
36
+ "allí",
37
+ "almenys",
38
+ "alto",
39
+ "altra",
40
+ "altre",
41
+ "altres",
42
+ "altresí",
43
+ "altri",
44
+ "alça",
45
+ "al·legro",
46
+ "amargament",
47
+ "amb",
48
+ "ambdues",
49
+ "ambdós",
50
+ "amunt",
51
+ "amén",
52
+ "anc",
53
+ "andante",
54
+ "andantino",
55
+ "anit",
56
+ "ans",
57
+ "antany",
58
+ "apa",
59
+ "aprés",
60
+ "aqueix",
61
+ "aqueixa",
62
+ "aqueixes",
63
+ "aqueixos",
64
+ "aqueixs",
65
+ "aquell",
66
+ "aquella",
67
+ "aquelles",
68
+ "aquells",
69
+ "aquest",
70
+ "aquesta",
71
+ "aquestes",
72
+ "aquests",
73
+ "aquèn",
74
+ "aquí",
75
+ "ara",
76
+ "arran",
77
+ "arrera",
78
+ "arrere",
79
+ "arreu",
80
+ "arri",
81
+ "arruix",
82
+ "atxim",
83
+ "au",
84
+ "avall",
85
+ "avant",
86
+ "aviat",
87
+ "avui",
88
+ "açò",
89
+ "bah",
90
+ "baix",
91
+ "baldament",
92
+ "ballmanetes",
93
+ "banzim-banzam",
94
+ "bastant",
95
+ "bastants",
96
+ "ben",
97
+ "bis",
98
+ "bitllo-bitllo",
99
+ "bo",
100
+ "bé",
101
+ "ca",
102
+ "cada",
103
+ "cal",
104
+ "cap",
105
+ "car",
106
+ "caram",
107
+ "catorze",
108
+ "cent",
109
+ "centes",
110
+ "cents",
111
+ "cerca",
112
+ "cert",
113
+ "certa",
114
+ "certes",
115
+ "certs",
116
+ "cinc",
117
+ "cinquanta",
118
+ "cinquena",
119
+ "cinquenes",
120
+ "cinquens",
121
+ "cinquè",
122
+ "com",
123
+ "comsevulla",
124
+ "contra",
125
+ "cordons",
126
+ "corrents",
127
+ "cric-crac",
128
+ "d",
129
+ "daixonses",
130
+ "daixò",
131
+ "dallonses",
132
+ "dallò",
133
+ "dalt",
134
+ "daltabaix",
135
+ "damunt",
136
+ "darrera",
137
+ "darrere",
138
+ "davall",
139
+ "davant",
140
+ "de",
141
+ "debades",
142
+ "dedins",
143
+ "defora",
144
+ "dejorn",
145
+ "dejús",
146
+ "dellà",
147
+ "dementre",
148
+ "dempeus",
149
+ "demés",
150
+ "demà",
151
+ "des",
152
+ "desena",
153
+ "desenes",
154
+ "desens",
155
+ "després",
156
+ "dessobre",
157
+ "dessota",
158
+ "dessús",
159
+ "desè",
160
+ "deu",
161
+ "devers",
162
+ "devora",
163
+ "deçà",
164
+ "diferents",
165
+ "dinou",
166
+ "dins",
167
+ "dintre",
168
+ "disset",
169
+ "divers",
170
+ "diversa",
171
+ "diverses",
172
+ "diversos",
173
+ "divuit",
174
+ "doncs",
175
+ "dos",
176
+ "dotze",
177
+ "dues",
178
+ "durant",
179
+ "ecs",
180
+ "eh",
181
+ "el",
182
+ "ela",
183
+ "elis",
184
+ "ell",
185
+ "ella",
186
+ "elles",
187
+ "ells",
188
+ "els",
189
+ "em",
190
+ "emperò",
191
+ "en",
192
+ "enans",
193
+ "enant",
194
+ "encara",
195
+ "encontinent",
196
+ "endalt",
197
+ "endarrera",
198
+ "endarrere",
199
+ "endavant",
200
+ "endebades",
201
+ "endemig",
202
+ "endemés",
203
+ "endemà",
204
+ "endins",
205
+ "endintre",
206
+ "enfora",
207
+ "engir",
208
+ "enguany",
209
+ "enguanyasses",
210
+ "enjús",
211
+ "enlaire",
212
+ "enlloc",
213
+ "enllà",
214
+ "enrera",
215
+ "enrere",
216
+ "ens",
217
+ "ensems",
218
+ "ensota",
219
+ "ensús",
220
+ "entorn",
221
+ "entre",
222
+ "entremig",
223
+ "entretant",
224
+ "entrò",
225
+ "envers",
226
+ "envides",
227
+ "environs",
228
+ "enviró",
229
+ "ençà",
230
+ "ep",
231
+ "ep",
232
+ "era",
233
+ "eren",
234
+ "eres",
235
+ "ergo",
236
+ "es",
237
+ "escar",
238
+ "essent",
239
+ "esser",
240
+ "est",
241
+ "esta",
242
+ "estada",
243
+ "estades",
244
+ "estan",
245
+ "estant",
246
+ "estar",
247
+ "estaran",
248
+ "estarem",
249
+ "estareu",
250
+ "estaria",
251
+ "estarien",
252
+ "estaries",
253
+ "estaré",
254
+ "estarà",
255
+ "estaràs",
256
+ "estaríem",
257
+ "estaríeu",
258
+ "estat",
259
+ "estats",
260
+ "estava",
261
+ "estaven",
262
+ "estaves",
263
+ "estem",
264
+ "estes",
265
+ "esteu",
266
+ "estic",
267
+ "estiguem",
268
+ "estigueren",
269
+ "estigueres",
270
+ "estigues",
271
+ "estiguessis",
272
+ "estigueu",
273
+ "estigui",
274
+ "estiguin",
275
+ "estiguis",
276
+ "estigué",
277
+ "estiguérem",
278
+ "estiguéreu",
279
+ "estigués",
280
+ "estiguí",
281
+ "estos",
282
+ "està",
283
+ "estàs",
284
+ "estàvem",
285
+ "estàveu",
286
+ "et",
287
+ "etc",
288
+ "etcètera",
289
+ "ets",
290
+ "excepte",
291
+ "fins",
292
+ "fora",
293
+ "foren",
294
+ "fores",
295
+ "força",
296
+ "fos",
297
+ "fossin",
298
+ "fossis",
299
+ "fou",
300
+ "fra",
301
+ "fui",
302
+ "fóra",
303
+ "fórem",
304
+ "fóreu",
305
+ "fóreu",
306
+ "fóssim",
307
+ "fóssiu",
308
+ "gaire",
309
+ "gairebé",
310
+ "gaires",
311
+ "gens",
312
+ "girientorn",
313
+ "gratis",
314
+ "ha",
315
+ "hagi",
316
+ "hagin",
317
+ "hagis",
318
+ "haguda",
319
+ "hagudes",
320
+ "hagueren",
321
+ "hagueres",
322
+ "haguessin",
323
+ "haguessis",
324
+ "hagut",
325
+ "haguts",
326
+ "hagué",
327
+ "haguérem",
328
+ "haguéreu",
329
+ "hagués",
330
+ "haguéssim",
331
+ "haguéssiu",
332
+ "haguí",
333
+ "hala",
334
+ "han",
335
+ "has",
336
+ "hauran",
337
+ "haurem",
338
+ "haureu",
339
+ "hauria",
340
+ "haurien",
341
+ "hauries",
342
+ "hauré",
343
+ "haurà",
344
+ "hauràs",
345
+ "hauríem",
346
+ "hauríeu",
347
+ "havem",
348
+ "havent",
349
+ "haver",
350
+ "haveu",
351
+ "havia",
352
+ "havien",
353
+ "havies",
354
+ "havíem",
355
+ "havíeu",
356
+ "he",
357
+ "hem",
358
+ "heu",
359
+ "hi",
360
+ "ho",
361
+ "hom",
362
+ "hui",
363
+ "hàgim",
364
+ "hàgiu",
365
+ "i",
366
+ "igual",
367
+ "iguals",
368
+ "inclusive",
369
+ "ja",
370
+ "jamai",
371
+ "jo",
372
+ "l",
373
+ "la",
374
+ "leri-leri",
375
+ "les",
376
+ "li",
377
+ "lla",
378
+ "llavors",
379
+ "llevat",
380
+ "lluny",
381
+ "llur",
382
+ "llurs",
383
+ "lo",
384
+ "los",
385
+ "ls",
386
+ "m",
387
+ "ma",
388
+ "mai",
389
+ "mal",
390
+ "malament",
391
+ "malgrat",
392
+ "manco",
393
+ "mant",
394
+ "manta",
395
+ "mantes",
396
+ "mantinent",
397
+ "mants",
398
+ "massa",
399
+ "mateix",
400
+ "mateixa",
401
+ "mateixes",
402
+ "mateixos",
403
+ "me",
404
+ "mentre",
405
+ "mentrestant",
406
+ "menys",
407
+ "mes",
408
+ "meu",
409
+ "meua",
410
+ "meues",
411
+ "meus",
412
+ "meva",
413
+ "meves",
414
+ "mi",
415
+ "mig",
416
+ "mil",
417
+ "mitges",
418
+ "mitja",
419
+ "mitjançant",
420
+ "mitjos",
421
+ "moixoni",
422
+ "molt",
423
+ "molta",
424
+ "moltes",
425
+ "molts",
426
+ "mon",
427
+ "mos",
428
+ "més",
429
+ "n",
430
+ "na",
431
+ "ne",
432
+ "ni",
433
+ "ningú",
434
+ "no",
435
+ "nogensmenys",
436
+ "només",
437
+ "noranta",
438
+ "nos",
439
+ "nosaltres",
440
+ "nostra",
441
+ "nostre",
442
+ "nostres",
443
+ "nou",
444
+ "novena",
445
+ "novenes",
446
+ "novens",
447
+ "novè",
448
+ "ns",
449
+ "nòs",
450
+ "nós",
451
+ "o",
452
+ "oh",
453
+ "oi",
454
+ "oidà",
455
+ "on",
456
+ "onsevulga",
457
+ "onsevulla",
458
+ "onze",
459
+ "pas",
460
+ "pengim-penjam",
461
+ "per",
462
+ "perquè",
463
+ "pertot",
464
+ "però",
465
+ "piano",
466
+ "pla",
467
+ "poc",
468
+ "poca",
469
+ "pocs",
470
+ "poques",
471
+ "potser",
472
+ "prest",
473
+ "primer",
474
+ "primera",
475
+ "primeres",
476
+ "primers",
477
+ "pro",
478
+ "prompte",
479
+ "prop",
480
+ "prou",
481
+ "puix",
482
+ "pus",
483
+ "pàssim",
484
+ "qual",
485
+ "quals",
486
+ "qualsevol",
487
+ "qualsevulla",
488
+ "qualssevol",
489
+ "qualssevulla",
490
+ "quan",
491
+ "quant",
492
+ "quanta",
493
+ "quantes",
494
+ "quants",
495
+ "quaranta",
496
+ "quart",
497
+ "quarta",
498
+ "quartes",
499
+ "quarts",
500
+ "quasi",
501
+ "quatre",
502
+ "que",
503
+ "quelcom",
504
+ "qui",
505
+ "quin",
506
+ "quina",
507
+ "quines",
508
+ "quins",
509
+ "quinze",
510
+ "quisvulla",
511
+ "què",
512
+ "ran",
513
+ "re",
514
+ "rebé",
515
+ "renoi",
516
+ "rera",
517
+ "rere",
518
+ "res",
519
+ "retruc",
520
+ "s",
521
+ "sa",
522
+ "salvament",
523
+ "salvant",
524
+ "salvat",
525
+ "se",
526
+ "segon",
527
+ "segona",
528
+ "segones",
529
+ "segons",
530
+ "seguida",
531
+ "seixanta",
532
+ "sempre",
533
+ "sengles",
534
+ "sens",
535
+ "sense",
536
+ "ser",
537
+ "seran",
538
+ "serem",
539
+ "sereu",
540
+ "seria",
541
+ "serien",
542
+ "series",
543
+ "seré",
544
+ "serà",
545
+ "seràs",
546
+ "seríem",
547
+ "seríeu",
548
+ "ses",
549
+ "set",
550
+ "setanta",
551
+ "setena",
552
+ "setenes",
553
+ "setens",
554
+ "setze",
555
+ "setè",
556
+ "seu",
557
+ "seua",
558
+ "seues",
559
+ "seus",
560
+ "seva",
561
+ "seves",
562
+ "si",
563
+ "sia",
564
+ "siau",
565
+ "sic",
566
+ "siguem",
567
+ "sigues",
568
+ "sigueu",
569
+ "sigui",
570
+ "siguin",
571
+ "siguis",
572
+ "sinó",
573
+ "sis",
574
+ "sisena",
575
+ "sisenes",
576
+ "sisens",
577
+ "sisè",
578
+ "sobre",
579
+ "sobretot",
580
+ "sol",
581
+ "sola",
582
+ "solament",
583
+ "soles",
584
+ "sols",
585
+ "som",
586
+ "son",
587
+ "sos",
588
+ "sota",
589
+ "sots",
590
+ "sou",
591
+ "sovint",
592
+ "suara",
593
+ "sí",
594
+ "sóc",
595
+ "són",
596
+ "t",
597
+ "ta",
598
+ "tal",
599
+ "tals",
600
+ "també",
601
+ "tampoc",
602
+ "tan",
603
+ "tanmateix",
604
+ "tant",
605
+ "tanta",
606
+ "tantes",
607
+ "tantost",
608
+ "tants",
609
+ "te",
610
+ "tercer",
611
+ "tercera",
612
+ "terceres",
613
+ "tercers",
614
+ "tes",
615
+ "teu",
616
+ "teua",
617
+ "teues",
618
+ "teus",
619
+ "teva",
620
+ "teves",
621
+ "ton",
622
+ "tos",
623
+ "tost",
624
+ "tostemps",
625
+ "tot",
626
+ "tota",
627
+ "total",
628
+ "totes",
629
+ "tothom",
630
+ "tothora",
631
+ "tots",
632
+ "trenta",
633
+ "tres",
634
+ "tret",
635
+ "tretze",
636
+ "tu",
637
+ "tururut",
638
+ "u",
639
+ "uf",
640
+ "ui",
641
+ "uix",
642
+ "ultra",
643
+ "un",
644
+ "una",
645
+ "unes",
646
+ "uns",
647
+ "up",
648
+ "upa",
649
+ "us",
650
+ "va",
651
+ "vagi",
652
+ "vagin",
653
+ "vagis",
654
+ "vaig",
655
+ "vair",
656
+ "vam",
657
+ "van",
658
+ "vares",
659
+ "vas",
660
+ "vau",
661
+ "vem",
662
+ "verbigràcia",
663
+ "vers",
664
+ "vet",
665
+ "veu",
666
+ "vint",
667
+ "vora",
668
+ "vos",
669
+ "vosaltres",
670
+ "vostra",
671
+ "vostre",
672
+ "vostres",
673
+ "vostè",
674
+ "vostès",
675
+ "vuit",
676
+ "vuitanta",
677
+ "vuitena",
678
+ "vuitenes",
679
+ "vuitens",
680
+ "vuitè",
681
+ "vés",
682
+ "vàreig",
683
+ "vàrem",
684
+ "vàreu",
685
+ "vós",
686
+ "xano-xano",
687
+ "xau-xau",
688
+ "xec",
689
+ "érem",
690
+ "éreu",
691
+ "és",
692
+ "ésser",
693
+ "àdhuc",
694
+ "àlies",
695
+ "ça",
696
+ "ço",
697
+ "òlim",
698
+ "ídem",
699
+ "últim",
700
+ "última",
701
+ "últimes",
702
+ "últims",
703
+ "únic",
704
+ "única",
705
+ "únics",
706
+ "úniques",
707
+ ]
708
+ end
709
+ end
710
+ end
711
+ end