keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,423 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Nld
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "aan",
7
+ "aangaande",
8
+ "aangezien",
9
+ "achte",
10
+ "achter",
11
+ "achterna",
12
+ "af",
13
+ "afgelopen",
14
+ "al",
15
+ "aldaar",
16
+ "aldus",
17
+ "alhoewel",
18
+ "alias",
19
+ "alle",
20
+ "allebei",
21
+ "alleen",
22
+ "alles",
23
+ "als",
24
+ "alsnog",
25
+ "altijd",
26
+ "altoos",
27
+ "ander",
28
+ "andere",
29
+ "anders",
30
+ "anderszins",
31
+ "beetje",
32
+ "behalve",
33
+ "behoudens",
34
+ "beide",
35
+ "beiden",
36
+ "ben",
37
+ "beneden",
38
+ "bent",
39
+ "bepaald",
40
+ "betreffende",
41
+ "bij",
42
+ "bijna",
43
+ "bijv",
44
+ "binnen",
45
+ "binnenin",
46
+ "blijkbaar",
47
+ "blijken",
48
+ "boven",
49
+ "bovenal",
50
+ "bovendien",
51
+ "bovengenoemd",
52
+ "bovenstaand",
53
+ "bovenvermeld",
54
+ "buiten",
55
+ "bv",
56
+ "daar",
57
+ "daardoor",
58
+ "daarheen",
59
+ "daarin",
60
+ "daarna",
61
+ "daarnet",
62
+ "daarom",
63
+ "daarop",
64
+ "daaruit",
65
+ "daarvanlangs",
66
+ "dan",
67
+ "dat",
68
+ "de",
69
+ "deden",
70
+ "deed",
71
+ "der",
72
+ "derde",
73
+ "derhalve",
74
+ "dertig",
75
+ "deze",
76
+ "dhr",
77
+ "die",
78
+ "dikwijls",
79
+ "dit",
80
+ "doch",
81
+ "doe",
82
+ "doen",
83
+ "doet",
84
+ "door",
85
+ "doorgaand",
86
+ "drie",
87
+ "duizend",
88
+ "dus",
89
+ "echter",
90
+ "een",
91
+ "eens",
92
+ "eer",
93
+ "eerdat",
94
+ "eerder",
95
+ "eerlang",
96
+ "eerst",
97
+ "eerste",
98
+ "eigen",
99
+ "eigenlijk",
100
+ "elk",
101
+ "elke",
102
+ "en",
103
+ "enig",
104
+ "enige",
105
+ "enigszins",
106
+ "enkel",
107
+ "er",
108
+ "erdoor",
109
+ "erg",
110
+ "ergens",
111
+ "etc",
112
+ "etcetera",
113
+ "even",
114
+ "eveneens",
115
+ "evenwel",
116
+ "gauw",
117
+ "ge",
118
+ "gedurende",
119
+ "geen",
120
+ "gehad",
121
+ "gekund",
122
+ "geleden",
123
+ "gelijk",
124
+ "gemoeten",
125
+ "gemogen",
126
+ "genoeg",
127
+ "geweest",
128
+ "gewoon",
129
+ "gewoonweg",
130
+ "haar",
131
+ "haarzelf",
132
+ "had",
133
+ "hadden",
134
+ "hare",
135
+ "heb",
136
+ "hebben",
137
+ "hebt",
138
+ "hedden",
139
+ "heeft",
140
+ "heel",
141
+ "hem",
142
+ "hemzelf",
143
+ "hen",
144
+ "het",
145
+ "hetzelfde",
146
+ "hier",
147
+ "hierbeneden",
148
+ "hierboven",
149
+ "hierin",
150
+ "hierna",
151
+ "hierom",
152
+ "hij",
153
+ "hijzelf",
154
+ "hoe",
155
+ "hoewel",
156
+ "honderd",
157
+ "hun",
158
+ "hunne",
159
+ "ieder",
160
+ "iedere",
161
+ "iedereen",
162
+ "iemand",
163
+ "iets",
164
+ "ik",
165
+ "ikzelf",
166
+ "in",
167
+ "inderdaad",
168
+ "inmiddels",
169
+ "intussen",
170
+ "inzake",
171
+ "is",
172
+ "ja",
173
+ "je",
174
+ "jezelf",
175
+ "jij",
176
+ "jijzelf",
177
+ "jou",
178
+ "jouw",
179
+ "jouwe",
180
+ "juist",
181
+ "jullie",
182
+ "kan",
183
+ "klaar",
184
+ "kon",
185
+ "konden",
186
+ "krachtens",
187
+ "kun",
188
+ "kunnen",
189
+ "kunt",
190
+ "laatst",
191
+ "later",
192
+ "liever",
193
+ "lijken",
194
+ "lijkt",
195
+ "maak",
196
+ "maakt",
197
+ "maakte",
198
+ "maakten",
199
+ "maar",
200
+ "mag",
201
+ "maken",
202
+ "me",
203
+ "meer",
204
+ "meest",
205
+ "meestal",
206
+ "men",
207
+ "met",
208
+ "mevr",
209
+ "mezelf",
210
+ "mij",
211
+ "mijn",
212
+ "mijnent",
213
+ "mijner",
214
+ "mijzelf",
215
+ "minder",
216
+ "miss",
217
+ "misschien",
218
+ "missen",
219
+ "mits",
220
+ "mocht",
221
+ "mochten",
222
+ "moest",
223
+ "moesten",
224
+ "moet",
225
+ "moeten",
226
+ "mogen",
227
+ "mr",
228
+ "mrs",
229
+ "mw",
230
+ "na",
231
+ "naar",
232
+ "nadat",
233
+ "nam",
234
+ "namelijk",
235
+ "nee",
236
+ "neem",
237
+ "negen",
238
+ "nemen",
239
+ "nergens",
240
+ "net",
241
+ "niemand",
242
+ "niet",
243
+ "niets",
244
+ "niks",
245
+ "noch",
246
+ "nochtans",
247
+ "nog",
248
+ "nogal",
249
+ "nooit",
250
+ "nu",
251
+ "nv",
252
+ "of",
253
+ "ofschoon",
254
+ "om",
255
+ "omdat",
256
+ "omhoog",
257
+ "omlaag",
258
+ "omstreeks",
259
+ "omtrent",
260
+ "omver",
261
+ "ondanks",
262
+ "onder",
263
+ "ondertussen",
264
+ "ongeveer",
265
+ "ons",
266
+ "onszelf",
267
+ "onze",
268
+ "onzeker",
269
+ "ooit",
270
+ "ook",
271
+ "op",
272
+ "opnieuw",
273
+ "opzij",
274
+ "over",
275
+ "overal",
276
+ "overeind",
277
+ "overige",
278
+ "overigens",
279
+ "paar",
280
+ "pas",
281
+ "per",
282
+ "precies",
283
+ "recent",
284
+ "redelijk",
285
+ "reeds",
286
+ "rond",
287
+ "rondom",
288
+ "samen",
289
+ "sedert",
290
+ "sinds",
291
+ "sindsdien",
292
+ "slechts",
293
+ "sommige",
294
+ "spoedig",
295
+ "steeds",
296
+ "tamelijk",
297
+ "te",
298
+ "tegen",
299
+ "tegenover",
300
+ "tenzij",
301
+ "terwijl",
302
+ "thans",
303
+ "tien",
304
+ "tiende",
305
+ "tijdens",
306
+ "tja",
307
+ "toch",
308
+ "toe",
309
+ "toen",
310
+ "toenmaals",
311
+ "toenmalig",
312
+ "tot",
313
+ "totdat",
314
+ "tussen",
315
+ "twee",
316
+ "tweede",
317
+ "u",
318
+ "uit",
319
+ "uitgezonderd",
320
+ "uw",
321
+ "vaak",
322
+ "vaakwat",
323
+ "van",
324
+ "vanaf",
325
+ "vandaan",
326
+ "vanuit",
327
+ "vanwege",
328
+ "veel",
329
+ "veeleer",
330
+ "veertig",
331
+ "verder",
332
+ "verscheidene",
333
+ "verschillende",
334
+ "vervolgens",
335
+ "via",
336
+ "vier",
337
+ "vierde",
338
+ "vijf",
339
+ "vijfde",
340
+ "vijftig",
341
+ "vol",
342
+ "volgend",
343
+ "volgens",
344
+ "voor",
345
+ "vooraf",
346
+ "vooral",
347
+ "vooralsnog",
348
+ "voorbij",
349
+ "voordat",
350
+ "voordezen",
351
+ "voordien",
352
+ "voorheen",
353
+ "voorop",
354
+ "voorts",
355
+ "vooruit",
356
+ "vrij",
357
+ "vroeg",
358
+ "waar",
359
+ "waarom",
360
+ "waarschijnlijk",
361
+ "wanneer",
362
+ "want",
363
+ "waren",
364
+ "was",
365
+ "wat",
366
+ "we",
367
+ "wederom",
368
+ "weer",
369
+ "weg",
370
+ "wegens",
371
+ "weinig",
372
+ "wel",
373
+ "weldra",
374
+ "welk",
375
+ "welke",
376
+ "werd",
377
+ "werden",
378
+ "werder",
379
+ "wezen",
380
+ "whatever",
381
+ "wie",
382
+ "wiens",
383
+ "wier",
384
+ "wij",
385
+ "wijzelf",
386
+ "wil",
387
+ "wilden",
388
+ "willen",
389
+ "word",
390
+ "worden",
391
+ "wordt",
392
+ "zal",
393
+ "ze",
394
+ "zei",
395
+ "zeker",
396
+ "zelf",
397
+ "zelfde",
398
+ "zelfs",
399
+ "zes",
400
+ "zeven",
401
+ "zich",
402
+ "zichzelf",
403
+ "zij",
404
+ "zijn",
405
+ "zijne",
406
+ "zijzelf",
407
+ "zo",
408
+ "zoals",
409
+ "zodat",
410
+ "zodra",
411
+ "zonder",
412
+ "zou",
413
+ "zouden",
414
+ "zowat",
415
+ "zulk",
416
+ "zulke",
417
+ "zullen",
418
+ "zult",
419
+ ]
420
+ end
421
+ end
422
+ end
423
+ end
@@ -0,0 +1,186 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Nob
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "og",
7
+ "i",
8
+ "jeg",
9
+ "det",
10
+ "at",
11
+ "en",
12
+ "et",
13
+ "den",
14
+ "til",
15
+ "er",
16
+ "som",
17
+ "på",
18
+ "de",
19
+ "med",
20
+ "han",
21
+ "av",
22
+ "ikke",
23
+ "ikkje",
24
+ "der",
25
+ "så",
26
+ "var",
27
+ "meg",
28
+ "seg",
29
+ "men",
30
+ "ett",
31
+ "har",
32
+ "om",
33
+ "vi",
34
+ "min",
35
+ "mitt",
36
+ "ha",
37
+ "hadde",
38
+ "hun",
39
+ "nå",
40
+ "over",
41
+ "da",
42
+ "ved",
43
+ "fra",
44
+ "du",
45
+ "ut",
46
+ "sin",
47
+ "dem",
48
+ "oss",
49
+ "opp",
50
+ "man",
51
+ "kan",
52
+ "hans",
53
+ "hvor",
54
+ "eller",
55
+ "hva",
56
+ "skal",
57
+ "selv",
58
+ "sjøl",
59
+ "her",
60
+ "alle",
61
+ "vil",
62
+ "bli",
63
+ "ble",
64
+ "blei",
65
+ "blitt",
66
+ "kunne",
67
+ "inn",
68
+ "når",
69
+ "være",
70
+ "kom",
71
+ "noen",
72
+ "noe",
73
+ "ville",
74
+ "dere",
75
+ "som",
76
+ "deres",
77
+ "kun",
78
+ "ja",
79
+ "etter",
80
+ "ned",
81
+ "skulle",
82
+ "denne",
83
+ "for",
84
+ "deg",
85
+ "si",
86
+ "sine",
87
+ "sitt",
88
+ "mot",
89
+ "å",
90
+ "meget",
91
+ "hvorfor",
92
+ "dette",
93
+ "disse",
94
+ "uten",
95
+ "hvordan",
96
+ "ingen",
97
+ "din",
98
+ "ditt",
99
+ "blir",
100
+ "samme",
101
+ "hvilken",
102
+ "hvilke",
103
+ "sånn",
104
+ "inni",
105
+ "mellom",
106
+ "vår",
107
+ "hver",
108
+ "hvem",
109
+ "vors",
110
+ "hvis",
111
+ "både",
112
+ "bare",
113
+ "enn",
114
+ "fordi",
115
+ "før",
116
+ "mange",
117
+ "også",
118
+ "slik",
119
+ "vært",
120
+ "være",
121
+ "båe",
122
+ "begge",
123
+ "siden",
124
+ "dykk",
125
+ "dykkar",
126
+ "dei",
127
+ "deira",
128
+ "deires",
129
+ "deim",
130
+ "di",
131
+ "då",
132
+ "eg",
133
+ "ein",
134
+ "eit",
135
+ "eitt",
136
+ "elles",
137
+ "honom",
138
+ "hjå",
139
+ "ho",
140
+ "hoe",
141
+ "henne",
142
+ "hennar",
143
+ "hennes",
144
+ "hoss",
145
+ "hossen",
146
+ "ikkje",
147
+ "ingi",
148
+ "inkje",
149
+ "korleis",
150
+ "korso",
151
+ "kva",
152
+ "kvar",
153
+ "kvarhelst",
154
+ "kven",
155
+ "kvi",
156
+ "kvifor",
157
+ "me",
158
+ "medan",
159
+ "mi",
160
+ "mine",
161
+ "mykje",
162
+ "no",
163
+ "nokon",
164
+ "noka",
165
+ "nokor",
166
+ "noko",
167
+ "nokre",
168
+ "si",
169
+ "sia",
170
+ "sidan",
171
+ "so",
172
+ "somt",
173
+ "somme",
174
+ "um",
175
+ "upp",
176
+ "vere",
177
+ "vore",
178
+ "verte",
179
+ "vort",
180
+ "varte",
181
+ "vart",
182
+ ]
183
+ end
184
+ end
185
+ end
186
+ end
@@ -0,0 +1,11 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Ori
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+
7
+ ]
8
+ end
9
+ end
10
+ end
11
+ end