keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,655 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Vie
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "a ha",
7
+ "a-lô",
8
+ "ai",
9
+ "ai ai",
10
+ "ai nấy",
11
+ "alô",
12
+ "amen",
13
+ "anh",
14
+ "bao giờ",
15
+ "bao lâu",
16
+ "bao nhiêu",
17
+ "bao nả",
18
+ "bay biến",
19
+ "biết",
20
+ "biết bao",
21
+ "biết bao nhiêu",
22
+ "biết chừng nào",
23
+ "biết mấy",
24
+ "biết đâu",
25
+ "biết đâu chừng",
26
+ "biết đâu đấy",
27
+ "bà",
28
+ "bài",
29
+ "bác",
30
+ "bây bẩy",
31
+ "bây chừ",
32
+ "bây giờ",
33
+ "bây nhiêu",
34
+ "bèn",
35
+ "béng",
36
+ "bông",
37
+ "bạn",
38
+ "bản",
39
+ "bất chợt",
40
+ "bất cứ",
41
+ "bất giác",
42
+ "bất kì",
43
+ "bất kể",
44
+ "bất kỳ",
45
+ "bất luận",
46
+ "bất nhược",
47
+ "bất quá",
48
+ "bất thình lình",
49
+ "bất tử",
50
+ "bất đồ",
51
+ "bấy",
52
+ "bấy chầy",
53
+ "bấy chừ",
54
+ "bấy giờ",
55
+ "bấy lâu",
56
+ "bấy lâu nay",
57
+ "bấy nay",
58
+ "bấy nhiêu",
59
+ "bập bà bập bõm",
60
+ "bập bõm",
61
+ "bắt đầu từ",
62
+ "bằng",
63
+ "bằng không",
64
+ "bằng nấy",
65
+ "bằng ấy",
66
+ "bển",
67
+ "bệt",
68
+ "bị",
69
+ "bỏ mẹ",
70
+ "bỗng",
71
+ "bỗng chốc",
72
+ "bỗng dưng",
73
+ "bỗng không",
74
+ "bỗng nhiên",
75
+ "bỗng đâu",
76
+ "bộ",
77
+ "bội phần",
78
+ "bớ",
79
+ "bởi",
80
+ "bởi chưng",
81
+ "bởi nhưng",
82
+ "bởi thế",
83
+ "bởi vì",
84
+ "bởi vậy",
85
+ "bức",
86
+ "cao",
87
+ "cha",
88
+ "cha chả",
89
+ "chao ôi",
90
+ "chiếc",
91
+ "cho",
92
+ "cho nên",
93
+ "cho tới",
94
+ "cho tới khi",
95
+ "cho đến",
96
+ "cho đến khi",
97
+ "choa",
98
+ "chu cha",
99
+ "chui cha",
100
+ "chung cục",
101
+ "chung qui",
102
+ "chung quy",
103
+ "chung quy lại",
104
+ "chuyện",
105
+ "chành chạnh",
106
+ "chí chết",
107
+ "chính",
108
+ "chính là",
109
+ "chính thị",
110
+ "chùn chùn",
111
+ "chùn chũn",
112
+ "chú",
113
+ "chú mày",
114
+ "chú mình",
115
+ "chúng mình",
116
+ "chúng ta",
117
+ "chúng tôi",
118
+ "chăn chắn",
119
+ "chăng",
120
+ "chưa",
121
+ "chầm chập",
122
+ "chậc",
123
+ "chắc",
124
+ "chắc hẳn",
125
+ "chẳng lẽ",
126
+ "chẳng những",
127
+ "chẳng nữa",
128
+ "chẳng phải",
129
+ "chết nỗi",
130
+ "chết thật",
131
+ "chết tiệt",
132
+ "chỉ",
133
+ "chỉn",
134
+ "chốc chốc",
135
+ "chớ",
136
+ "chớ chi",
137
+ "chợt",
138
+ "chủn",
139
+ "chứ",
140
+ "chứ lị",
141
+ "coi bộ",
142
+ "coi mòi",
143
+ "con",
144
+ "cu cậu",
145
+ "cuốn",
146
+ "cuộc",
147
+ "càng",
148
+ "các",
149
+ "cái",
150
+ "cây",
151
+ "còn",
152
+ "có",
153
+ "có chăng là",
154
+ "có dễ",
155
+ "có thể",
156
+ "có vẻ",
157
+ "cóc khô",
158
+ "cô",
159
+ "cô mình",
160
+ "công nhiên",
161
+ "cùng",
162
+ "cùng cực",
163
+ "cùng nhau",
164
+ "cùng với",
165
+ "căn",
166
+ "căn cắt",
167
+ "cũng",
168
+ "cũng như",
169
+ "cũng vậy",
170
+ "cũng vậy thôi",
171
+ "cơ",
172
+ "cơ chừng",
173
+ "cơ hồ",
174
+ "cơ mà",
175
+ "cơn",
176
+ "cả",
177
+ "cả thảy",
178
+ "cả thể",
179
+ "cảm ơn",
180
+ "cần",
181
+ "cật lực",
182
+ "cật sức",
183
+ "cậu",
184
+ "cổ lai",
185
+ "của",
186
+ "cứ",
187
+ "cứ việc",
188
+ "cực lực",
189
+ "do",
190
+ "do vì",
191
+ "do vậy",
192
+ "do đó",
193
+ "duy",
194
+ "dào",
195
+ "dì",
196
+ "dù cho",
197
+ "dù rằng",
198
+ "dưới",
199
+ "dạ",
200
+ "dần dà",
201
+ "dần dần",
202
+ "dầu sao",
203
+ "dẫu",
204
+ "dẫu sao",
205
+ "dễ sợ",
206
+ "dễ thường",
207
+ "dở chừng",
208
+ "dữ",
209
+ "em",
210
+ "giữa",
211
+ "gì",
212
+ "hay",
213
+ "hoàn toàn",
214
+ "hoặc",
215
+ "hơn",
216
+ "hầu hết",
217
+ "họ",
218
+ "hỏi",
219
+ "khi",
220
+ "khác",
221
+ "không",
222
+ "luôn",
223
+ "là",
224
+ "làm",
225
+ "lên",
226
+ "lúc",
227
+ "lại",
228
+ "lần",
229
+ "lớn",
230
+ "muốn",
231
+ "mà",
232
+ "mình",
233
+ "mỗi",
234
+ "một",
235
+ "một cách",
236
+ "mới",
237
+ "mợ",
238
+ "ngay",
239
+ "ngay cả",
240
+ "ngay khi",
241
+ "ngay lúc",
242
+ "ngay lập tức",
243
+ "ngay tức khắc",
244
+ "ngay từ",
245
+ "nghe chừng",
246
+ "nghe đâu",
247
+ "nghen",
248
+ "nghiễm nhiên",
249
+ "nghỉm",
250
+ "ngoài",
251
+ "ngoài ra",
252
+ "ngoải",
253
+ "ngày",
254
+ "ngày càng",
255
+ "ngày ngày",
256
+ "ngày xưa",
257
+ "ngày xửa",
258
+ "ngôi",
259
+ "ngõ hầu",
260
+ "ngăn ngắt",
261
+ "ngươi",
262
+ "người",
263
+ "ngọn",
264
+ "ngọt",
265
+ "ngộ nhỡ",
266
+ "nh",
267
+ "nhau",
268
+ "nhiên hậu",
269
+ "nhiều",
270
+ "nhiệt liệt",
271
+ "nhung nhăng",
272
+ "nhà",
273
+ "nhân dịp",
274
+ "nhân tiện",
275
+ "nhé",
276
+ "nhón nhén",
277
+ "như",
278
+ "như chơi",
279
+ "như không",
280
+ "như quả",
281
+ "như thể",
282
+ "như tuồng",
283
+ "như vậy",
284
+ "nhưng",
285
+ "nhưng mà",
286
+ "nhược bằng",
287
+ "nhất",
288
+ "nhất loạt",
289
+ "nhất luật",
290
+ "nhất mực",
291
+ "nhất nhất",
292
+ "nhất quyết",
293
+ "nhất sinh",
294
+ "nhất thiết",
295
+ "nhất tâm",
296
+ "nhất tề",
297
+ "nhất đán",
298
+ "nhất định",
299
+ "nhận",
300
+ "nhỉ",
301
+ "nhỡ ra",
302
+ "những",
303
+ "những ai",
304
+ "những như",
305
+ "nào",
306
+ "này",
307
+ "nên",
308
+ "nên chi",
309
+ "nó",
310
+ "nóc",
311
+ "nói",
312
+ "năm",
313
+ "nơi",
314
+ "nấy",
315
+ "nếu",
316
+ "nếu như",
317
+ "nền",
318
+ "nọ",
319
+ "nớ",
320
+ "nức nở",
321
+ "nữa",
322
+ "oai oái",
323
+ "oái",
324
+ "pho",
325
+ "phè",
326
+ "phóc",
327
+ "phót",
328
+ "phăn phắt",
329
+ "phương chi",
330
+ "phải",
331
+ "phải chi",
332
+ "phải chăng",
333
+ "phắt",
334
+ "phỉ phui",
335
+ "phỏng",
336
+ "phỏng như",
337
+ "phốc",
338
+ "phụt",
339
+ "phứt",
340
+ "qua",
341
+ "qua quít",
342
+ "qua quýt",
343
+ "quyết",
344
+ "quyết nhiên",
345
+ "quyển",
346
+ "quá",
347
+ "quá chừng",
348
+ "quá lắm",
349
+ "quá sá",
350
+ "quá thể",
351
+ "quá trời",
352
+ "quá xá",
353
+ "quá đỗi",
354
+ "quá độ",
355
+ "quá ư",
356
+ "quý hồ",
357
+ "quả",
358
+ "quả là",
359
+ "quả tang",
360
+ "quả thật",
361
+ "quả tình",
362
+ "quả vậy",
363
+ "quả đúng",
364
+ "ra",
365
+ "ra phết",
366
+ "ra sao",
367
+ "ra trò",
368
+ "ren rén",
369
+ "riu ríu",
370
+ "riêng",
371
+ "riệt",
372
+ "rày",
373
+ "ráo",
374
+ "ráo trọi",
375
+ "rén",
376
+ "rích",
377
+ "rón rén",
378
+ "rút cục",
379
+ "răng",
380
+ "rất",
381
+ "rằng",
382
+ "rằng là",
383
+ "rốt cuộc",
384
+ "rốt cục",
385
+ "rồi",
386
+ "rứa",
387
+ "sa sả",
388
+ "sao",
389
+ "sau",
390
+ "sau chót",
391
+ "sau cuối",
392
+ "sau cùng",
393
+ "sau đó",
394
+ "so",
395
+ "song le",
396
+ "suýt",
397
+ "sì",
398
+ "sạch",
399
+ "sất",
400
+ "sắp",
401
+ "sẽ",
402
+ "số",
403
+ "số là",
404
+ "sốt sột",
405
+ "sở dĩ",
406
+ "sự",
407
+ "tanh",
408
+ "tha hồ",
409
+ "than ôi",
410
+ "thanh",
411
+ "theo",
412
+ "thi thoảng",
413
+ "thoạt",
414
+ "thoạt nhiên",
415
+ "thoắt",
416
+ "thuần",
417
+ "thà",
418
+ "thà là",
419
+ "thà rằng",
420
+ "thành ra",
421
+ "thành thử",
422
+ "thái quá",
423
+ "tháng",
424
+ "thì",
425
+ "thì thôi",
426
+ "thình lình",
427
+ "thím",
428
+ "thôi",
429
+ "thúng thắng",
430
+ "thương ôi",
431
+ "thường",
432
+ "thảo hèn",
433
+ "thảo nào",
434
+ "thấy",
435
+ "thẩy",
436
+ "thậm",
437
+ "thậm chí",
438
+ "thật lực",
439
+ "thật ra",
440
+ "thật vậy",
441
+ "thế",
442
+ "thế là",
443
+ "thế mà",
444
+ "thế nào",
445
+ "thế nên",
446
+ "thế ra",
447
+ "thế thì",
448
+ "thế à",
449
+ "thếch",
450
+ "thỉnh thoảng",
451
+ "thỏm",
452
+ "thốc",
453
+ "thốc tháo",
454
+ "thốt",
455
+ "thốt nhiên",
456
+ "thộc",
457
+ "thời gian",
458
+ "thục mạng",
459
+ "thửa",
460
+ "thực ra",
461
+ "thực sự",
462
+ "thực vậy",
463
+ "tiếp theo",
464
+ "tiếp đó",
465
+ "tiện thể",
466
+ "toà",
467
+ "toé khói",
468
+ "toẹt",
469
+ "trong",
470
+ "trên",
471
+ "trước",
472
+ "trước kia",
473
+ "trước nay",
474
+ "trước tiên",
475
+ "trước đây",
476
+ "trước đó",
477
+ "trếu tráo",
478
+ "trển",
479
+ "trệt",
480
+ "trệu trạo",
481
+ "trỏng",
482
+ "trời đất ơi",
483
+ "trừ phi",
484
+ "tuy",
485
+ "tuy nhiên",
486
+ "tuy rằng",
487
+ "tuy thế",
488
+ "tuy vậy",
489
+ "tuyệt nhiên",
490
+ "tuần tự",
491
+ "tuốt luốt",
492
+ "tuốt tuồn tuột",
493
+ "tuốt tuột",
494
+ "tà tà",
495
+ "tênh",
496
+ "tít mù",
497
+ "tò te",
498
+ "tôi",
499
+ "tông tốc",
500
+ "tù tì",
501
+ "tăm tắp",
502
+ "tại",
503
+ "tại vì",
504
+ "tấm",
505
+ "tấn",
506
+ "tất cả",
507
+ "tất thảy",
508
+ "tất tần tật",
509
+ "tất tật",
510
+ "tắp",
511
+ "tắp lự",
512
+ "tọt",
513
+ "tỏ ra",
514
+ "tỏ vẻ",
515
+ "tốc tả",
516
+ "tối ư",
517
+ "tột",
518
+ "tớ",
519
+ "tới",
520
+ "tức thì",
521
+ "tức tốc",
522
+ "từ",
523
+ "từng",
524
+ "tự vì",
525
+ "tựu trung",
526
+ "veo",
527
+ "veo veo",
528
+ "việc",
529
+ "vung thiên địa",
530
+ "vung tàn tán",
531
+ "vung tán tàn",
532
+ "và",
533
+ "vào",
534
+ "vâng",
535
+ "vèo",
536
+ "vì",
537
+ "vì chưng",
538
+ "vì thế",
539
+ "vì vậy",
540
+ "ví bằng",
541
+ "ví dù",
542
+ "ví phỏng",
543
+ "ví thử",
544
+ "vô hình trung",
545
+ "vô kể",
546
+ "vô luận",
547
+ "vô vàn",
548
+ "văng tê",
549
+ "vạn nhất",
550
+ "vả chăng",
551
+ "vả lại",
552
+ "vẫn",
553
+ "vậy",
554
+ "vậy là",
555
+ "vậy thì",
556
+ "về",
557
+ "vị tất",
558
+ "vốn dĩ",
559
+ "với",
560
+ "với lại",
561
+ "vở",
562
+ "vụt",
563
+ "vừa",
564
+ "vừa mới",
565
+ "xa xả",
566
+ "xiết bao",
567
+ "xon xón",
568
+ "xoành xoạch",
569
+ "xoét",
570
+ "xoẳn",
571
+ "xoẹt",
572
+ "xuất kì bất ý",
573
+ "xuất kỳ bất ý",
574
+ "xuể",
575
+ "xuống",
576
+ "xăm xúi",
577
+ "xăm xăm",
578
+ "xăm xắm",
579
+ "xềnh xệch",
580
+ "xệp",
581
+ "à",
582
+ "à ơi",
583
+ "ào",
584
+ "á",
585
+ "á à",
586
+ "ái",
587
+ "ái chà",
588
+ "ái dà",
589
+ "áng",
590
+ "âu là",
591
+ "ô hay",
592
+ "ô hô",
593
+ "ô kê",
594
+ "ô kìa",
595
+ "ôi chao",
596
+ "ôi thôi",
597
+ "ông",
598
+ "úi",
599
+ "úi chà",
600
+ "úi dào",
601
+ "ý",
602
+ "ý chừng",
603
+ "ý da",
604
+ "đang",
605
+ "đi",
606
+ "điều",
607
+ "đành đạch",
608
+ "đáng lí",
609
+ "đáng lý",
610
+ "đáng lẽ",
611
+ "đánh đùng",
612
+ "đáo để",
613
+ "đây",
614
+ "đã",
615
+ "đó",
616
+ "được",
617
+ "đại loại",
618
+ "đại nhân",
619
+ "đại phàm",
620
+ "đại để",
621
+ "đến",
622
+ "đến nỗi",
623
+ "đều",
624
+ "để",
625
+ "ơ",
626
+ "ơ hay",
627
+ "ơ kìa",
628
+ "ơi",
629
+ "ư",
630
+ "ạ",
631
+ "ạ ơi",
632
+ "ấy",
633
+ "ầu ơ",
634
+ "ắt",
635
+ "ắt hẳn",
636
+ "ắt là",
637
+ "ối dào",
638
+ "ối giời",
639
+ "ối giời ơi",
640
+ "ồ",
641
+ "ổng",
642
+ "ớ",
643
+ "ờ",
644
+ "ở",
645
+ "ở trên",
646
+ "ủa",
647
+ "ứ hự",
648
+ "ứ ừ",
649
+ "ừ",
650
+ "ử",
651
+ ]
652
+ end
653
+ end
654
+ end
655
+ end