keyphrase 0.1.3 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (75) hide show
  1. checksums.yaml +4 -4
  2. data/README.md +5 -4
  3. data/lib/keyphrase/stoplist/afr.rb +14 -0
  4. data/lib/keyphrase/stoplist/aka.rb +10 -0
  5. data/lib/keyphrase/stoplist/amh.rb +10 -0
  6. data/lib/keyphrase/stoplist/ara.rb +490 -0
  7. data/lib/keyphrase/stoplist/aze.rb +175 -0
  8. data/lib/keyphrase/stoplist/bel.rb +11 -0
  9. data/lib/keyphrase/stoplist/ben.rb +408 -0
  10. data/lib/keyphrase/stoplist/bul.rb +528 -0
  11. data/lib/keyphrase/stoplist/cat.rb +711 -0
  12. data/lib/keyphrase/stoplist/ces.rb +560 -0
  13. data/lib/keyphrase/stoplist/cmn.rb +1119 -0
  14. data/lib/keyphrase/stoplist/dan.rb +25 -0
  15. data/lib/keyphrase/stoplist/deu.rb +631 -0
  16. data/lib/keyphrase/stoplist/ell.rb +275 -0
  17. data/lib/keyphrase/stoplist/eng.rb +2 -589
  18. data/lib/keyphrase/stoplist/epo.rb +183 -0
  19. data/lib/keyphrase/stoplist/est.rb +13 -0
  20. data/lib/keyphrase/stoplist/fin.rb +857 -0
  21. data/lib/keyphrase/stoplist/fra.rb +699 -0
  22. data/lib/keyphrase/stoplist/guj.rb +234 -0
  23. data/lib/keyphrase/stoplist/heb.rb +204 -0
  24. data/lib/keyphrase/stoplist/hin.rb +235 -0
  25. data/lib/keyphrase/stoplist/hrv.rb +25 -0
  26. data/lib/keyphrase/stoplist/hun.rb +1195 -0
  27. data/lib/keyphrase/stoplist/hye.rb +55 -0
  28. data/lib/keyphrase/stoplist/ind.rb +768 -0
  29. data/lib/keyphrase/stoplist/ita.rb +670 -0
  30. data/lib/keyphrase/stoplist/jav.rb +10 -0
  31. data/lib/keyphrase/stoplist/jpn.rb +144 -0
  32. data/lib/keyphrase/stoplist/kan.rb +92 -0
  33. data/lib/keyphrase/stoplist/kat.rb +383 -0
  34. data/lib/keyphrase/stoplist/khm.rb +245 -0
  35. data/lib/keyphrase/stoplist/kor.rb +610 -0
  36. data/lib/keyphrase/stoplist/lat.rb +14 -0
  37. data/lib/keyphrase/stoplist/lav.rb +171 -0
  38. data/lib/keyphrase/stoplist/lit.rb +484 -0
  39. data/lib/keyphrase/stoplist/mal.rb +11 -0
  40. data/lib/keyphrase/stoplist/mar.rb +109 -0
  41. data/lib/keyphrase/stoplist/mkd.rb +11 -0
  42. data/lib/keyphrase/stoplist/mya.rb +285 -0
  43. data/lib/keyphrase/stoplist/nep.rb +265 -0
  44. data/lib/keyphrase/stoplist/nld.rb +423 -0
  45. data/lib/keyphrase/stoplist/nob.rb +186 -0
  46. data/lib/keyphrase/stoplist/ori.rb +11 -0
  47. data/lib/keyphrase/stoplist/pan.rb +473 -0
  48. data/lib/keyphrase/stoplist/pes.rb +801 -0
  49. data/lib/keyphrase/stoplist/pol.rb +338 -0
  50. data/lib/keyphrase/stoplist/por.rb +570 -0
  51. data/lib/keyphrase/stoplist/ron.rb +444 -0
  52. data/lib/keyphrase/stoplist/rus.rb +569 -0
  53. data/lib/keyphrase/stoplist/sin.rb +10 -0
  54. data/lib/keyphrase/stoplist/slk.rb +428 -0
  55. data/lib/keyphrase/stoplist/slv.rb +456 -0
  56. data/lib/keyphrase/stoplist/sna.rb +11 -0
  57. data/lib/keyphrase/stoplist/spa.rb +731 -0
  58. data/lib/keyphrase/stoplist/srp.rb +11 -0
  59. data/lib/keyphrase/stoplist/swe.rb +428 -0
  60. data/lib/keyphrase/stoplist/tam.rb +135 -0
  61. data/lib/keyphrase/stoplist/tel.rb +10 -0
  62. data/lib/keyphrase/stoplist/tgl.rb +157 -0
  63. data/lib/keyphrase/stoplist/tha.rb +125 -0
  64. data/lib/keyphrase/stoplist/tuk.rb +11 -0
  65. data/lib/keyphrase/stoplist/tur.rb +514 -0
  66. data/lib/keyphrase/stoplist/ukr.rb +38 -0
  67. data/lib/keyphrase/stoplist/urd.rb +527 -0
  68. data/lib/keyphrase/stoplist/uzb.rb +10 -0
  69. data/lib/keyphrase/stoplist/vie.rb +655 -0
  70. data/lib/keyphrase/stoplist/yid.rb +204 -0
  71. data/lib/keyphrase/stoplist/zul.rb +39 -0
  72. data/lib/keyphrase/stoplist.rb +13 -10
  73. data/lib/keyphrase/version.rb +1 -1
  74. data/lib/keyphrase.rb +20 -12
  75. metadata +71 -3
@@ -0,0 +1,610 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Kor
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "。",
7
+ "〈",
8
+ "〉",
9
+ "《",
10
+ "》",
11
+ "가",
12
+ "가까스로",
13
+ "가령",
14
+ "각",
15
+ "각각",
16
+ "각자",
17
+ "각종",
18
+ "갖고말하자면",
19
+ "같다",
20
+ "같이",
21
+ "개의치않고",
22
+ "거니와",
23
+ "거바",
24
+ "거의",
25
+ "것",
26
+ "것과 같이",
27
+ "것들",
28
+ "게다가",
29
+ "게우다",
30
+ "겨우",
31
+ "견지에서",
32
+ "결과에 이르다",
33
+ "결국",
34
+ "결론을 낼 수 있다",
35
+ "겸사겸사",
36
+ "고려하면",
37
+ "고로",
38
+ "곧",
39
+ "공동으로",
40
+ "과",
41
+ "과연",
42
+ "관계가 있다",
43
+ "관계없이",
44
+ "관련이 있다",
45
+ "관하여",
46
+ "관한",
47
+ "관해서는",
48
+ "구",
49
+ "구체적으로",
50
+ "구토하다",
51
+ "그",
52
+ "그들",
53
+ "그때",
54
+ "그래",
55
+ "그래도",
56
+ "그래서",
57
+ "그러나",
58
+ "그러니",
59
+ "그러니까",
60
+ "그러면",
61
+ "그러므로",
62
+ "그러한즉",
63
+ "그런 까닭에",
64
+ "그런데",
65
+ "그런즉",
66
+ "그럼",
67
+ "그럼에도 불구하고",
68
+ "그렇게 함으로써",
69
+ "그렇지",
70
+ "그렇지 않다면",
71
+ "그렇지 않으면",
72
+ "그렇지만",
73
+ "그렇지않으면",
74
+ "그리고",
75
+ "그리하여",
76
+ "그만이다",
77
+ "그에 따르는",
78
+ "그위에",
79
+ "그저",
80
+ "그중에서",
81
+ "그치지 않다",
82
+ "근거로",
83
+ "근거하여",
84
+ "기대여",
85
+ "기점으로",
86
+ "기준으로",
87
+ "기타",
88
+ "까닭으로",
89
+ "까악",
90
+ "까지",
91
+ "까지 미치다",
92
+ "까지도",
93
+ "꽈당",
94
+ "끙끙",
95
+ "끼익",
96
+ "나",
97
+ "나머지는",
98
+ "남들",
99
+ "남짓",
100
+ "너",
101
+ "너희",
102
+ "너희들",
103
+ "네",
104
+ "넷",
105
+ "년",
106
+ "논하지 않다",
107
+ "놀라다",
108
+ "누가 알겠는가",
109
+ "누구",
110
+ "다른",
111
+ "다른 방면으로",
112
+ "다만",
113
+ "다섯",
114
+ "다소",
115
+ "다수",
116
+ "다시 말하자면",
117
+ "다시말하면",
118
+ "다음",
119
+ "다음에",
120
+ "다음으로",
121
+ "단지",
122
+ "답다",
123
+ "당신",
124
+ "당장",
125
+ "대로 하다",
126
+ "대하면",
127
+ "대하여",
128
+ "대해 말하자면",
129
+ "대해서",
130
+ "댕그",
131
+ "더구나",
132
+ "더군다나",
133
+ "더라도",
134
+ "더불어",
135
+ "더욱더",
136
+ "더욱이는",
137
+ "도달하다",
138
+ "도착하다",
139
+ "동시에",
140
+ "동안",
141
+ "된바에야",
142
+ "된이상",
143
+ "두번째로",
144
+ "둘",
145
+ "둥둥",
146
+ "뒤따라",
147
+ "뒤이어",
148
+ "든간에",
149
+ "들",
150
+ "등",
151
+ "등등",
152
+ "딩동",
153
+ "따라",
154
+ "따라서",
155
+ "따위",
156
+ "따지지 않다",
157
+ "딱",
158
+ "때",
159
+ "때가 되어",
160
+ "때문에",
161
+ "또",
162
+ "또한",
163
+ "뚝뚝",
164
+ "라 해도",
165
+ "령",
166
+ "로",
167
+ "로 인하여",
168
+ "로부터",
169
+ "로써",
170
+ "륙",
171
+ "를",
172
+ "마음대로",
173
+ "마저",
174
+ "마저도",
175
+ "마치",
176
+ "막론하고",
177
+ "만 못하다",
178
+ "만약",
179
+ "만약에",
180
+ "만은 아니다",
181
+ "만이 아니다",
182
+ "만일",
183
+ "만큼",
184
+ "말하자면",
185
+ "말할것도 없고",
186
+ "매",
187
+ "매번",
188
+ "메쓰겁다",
189
+ "몇",
190
+ "모",
191
+ "모두",
192
+ "무렵",
193
+ "무릎쓰고",
194
+ "무슨",
195
+ "무엇",
196
+ "무엇때문에",
197
+ "물론",
198
+ "및",
199
+ "바꾸어말하면",
200
+ "바꾸어말하자면",
201
+ "바꾸어서 말하면",
202
+ "바꾸어서 한다면",
203
+ "바꿔 말하면",
204
+ "바로",
205
+ "바와같이",
206
+ "밖에 안된다",
207
+ "반대로",
208
+ "반대로 말하자면",
209
+ "반드시",
210
+ "버금",
211
+ "보는데서",
212
+ "보다더",
213
+ "보드득",
214
+ "본대로",
215
+ "봐",
216
+ "봐라",
217
+ "부류의 사람들",
218
+ "부터",
219
+ "불구하고",
220
+ "불문하고",
221
+ "붕붕",
222
+ "비걱거리다",
223
+ "비교적",
224
+ "비길수 없다",
225
+ "비로소",
226
+ "비록",
227
+ "비슷하다",
228
+ "비추어 보아",
229
+ "비하면",
230
+ "뿐만 아니라",
231
+ "뿐만아니라",
232
+ "뿐이다",
233
+ "삐걱",
234
+ "삐걱거리다",
235
+ "사",
236
+ "삼",
237
+ "상대적으로 말하자면",
238
+ "생각한대로",
239
+ "설령",
240
+ "설마",
241
+ "설사",
242
+ "셋",
243
+ "소생",
244
+ "소인",
245
+ "솨",
246
+ "쉿",
247
+ "습니까",
248
+ "습니다",
249
+ "시각",
250
+ "시간",
251
+ "시작하여",
252
+ "시초에",
253
+ "시키다",
254
+ "실로",
255
+ "심지어",
256
+ "아",
257
+ "아니",
258
+ "아니나다를가",
259
+ "아니라면",
260
+ "아니면",
261
+ "아니었다면",
262
+ "아래윗",
263
+ "아무거나",
264
+ "아무도",
265
+ "아야",
266
+ "아울러",
267
+ "아이",
268
+ "아이고",
269
+ "아이구",
270
+ "아이야",
271
+ "아이쿠",
272
+ "아하",
273
+ "아홉",
274
+ "안 그러면",
275
+ "않기 위하여",
276
+ "않기 위해서",
277
+ "알 수 있다",
278
+ "알았어",
279
+ "앗",
280
+ "앞에서",
281
+ "앞의것",
282
+ "야",
283
+ "약간",
284
+ "양자",
285
+ "어",
286
+ "어기여차",
287
+ "어느",
288
+ "어느 년도",
289
+ "어느것",
290
+ "어느곳",
291
+ "어느때",
292
+ "어느쪽",
293
+ "어느해",
294
+ "어디",
295
+ "어때",
296
+ "어떠한",
297
+ "어떤",
298
+ "어떤것",
299
+ "어떤것들",
300
+ "어떻게",
301
+ "어떻해",
302
+ "어이",
303
+ "어째서",
304
+ "어쨋든",
305
+ "어쩔수 없다",
306
+ "어찌",
307
+ "어찌됏든",
308
+ "어찌됏어",
309
+ "어찌하든지",
310
+ "어찌하여",
311
+ "언제",
312
+ "언젠가",
313
+ "얼마",
314
+ "얼마 안 되는 것",
315
+ "얼마간",
316
+ "얼마나",
317
+ "얼마든지",
318
+ "얼마만큼",
319
+ "얼마큼",
320
+ "엉엉",
321
+ "에",
322
+ "에 가서",
323
+ "에 달려 있다",
324
+ "에 대해",
325
+ "에 있다",
326
+ "에 한하다",
327
+ "에게",
328
+ "에서",
329
+ "여",
330
+ "여기",
331
+ "여덟",
332
+ "여러분",
333
+ "여보시오",
334
+ "여부",
335
+ "여섯",
336
+ "여전히",
337
+ "여차",
338
+ "연관되다",
339
+ "연이서",
340
+ "영",
341
+ "영차",
342
+ "옆사람",
343
+ "예",
344
+ "예를 들면",
345
+ "예를 들자면",
346
+ "예컨대",
347
+ "예하면",
348
+ "오",
349
+ "오로지",
350
+ "오르다",
351
+ "오자마자",
352
+ "오직",
353
+ "오호",
354
+ "오히려",
355
+ "와",
356
+ "와 같은 사람들",
357
+ "와르르",
358
+ "와아",
359
+ "왜",
360
+ "왜냐하면",
361
+ "외에도",
362
+ "요만큼",
363
+ "요만한 것",
364
+ "요만한걸",
365
+ "요컨대",
366
+ "우르르",
367
+ "우리",
368
+ "우리들",
369
+ "우선",
370
+ "우에 종합한것과같이",
371
+ "운운",
372
+ "월",
373
+ "위에서 서술한바와같이",
374
+ "위하여",
375
+ "위해서",
376
+ "윙윙",
377
+ "육",
378
+ "으로",
379
+ "으로 인하여",
380
+ "으로서",
381
+ "으로써",
382
+ "을",
383
+ "응",
384
+ "응당",
385
+ "의",
386
+ "의거하여",
387
+ "의지하여",
388
+ "의해",
389
+ "의해되다",
390
+ "의해서",
391
+ "이",
392
+ "이 되다",
393
+ "이 때문에",
394
+ "이 밖에",
395
+ "이 외에",
396
+ "이 정도의",
397
+ "이것",
398
+ "이곳",
399
+ "이때",
400
+ "이라면",
401
+ "이래",
402
+ "이러이러하다",
403
+ "이러한",
404
+ "이런",
405
+ "이럴정도로",
406
+ "이렇게 많은 것",
407
+ "이렇게되면",
408
+ "이렇게말하자면",
409
+ "이렇구나",
410
+ "이로 인하여",
411
+ "이르기까지",
412
+ "이리하여",
413
+ "이만큼",
414
+ "이번",
415
+ "이봐",
416
+ "이상",
417
+ "이어서",
418
+ "이었다",
419
+ "이와 같다",
420
+ "이와 같은",
421
+ "이와 반대로",
422
+ "이와같다면",
423
+ "이외에도",
424
+ "이용하여",
425
+ "이유만으로",
426
+ "이젠",
427
+ "이지만",
428
+ "이쪽",
429
+ "이천구",
430
+ "이천육",
431
+ "이천칠",
432
+ "이천팔",
433
+ "인 듯하다",
434
+ "인젠",
435
+ "일",
436
+ "일것이다",
437
+ "일곱",
438
+ "일단",
439
+ "일때",
440
+ "일반적으로",
441
+ "일지라도",
442
+ "임에 틀림없다",
443
+ "입각하여",
444
+ "입장에서",
445
+ "잇따라",
446
+ "있다",
447
+ "자",
448
+ "자기",
449
+ "자기집",
450
+ "자마자",
451
+ "자신",
452
+ "잠깐",
453
+ "잠시",
454
+ "저",
455
+ "저것",
456
+ "저것만큼",
457
+ "저기",
458
+ "저쪽",
459
+ "저희",
460
+ "전부",
461
+ "전자",
462
+ "전후",
463
+ "점에서 보아",
464
+ "정도에 이르다",
465
+ "제",
466
+ "제각기",
467
+ "제외하고",
468
+ "조금",
469
+ "조차",
470
+ "조차도",
471
+ "졸졸",
472
+ "좀",
473
+ "좋아",
474
+ "좍좍",
475
+ "주룩주룩",
476
+ "주저하지 않고",
477
+ "줄은 몰랏다",
478
+ "줄은모른다",
479
+ "중에서",
480
+ "중의하나",
481
+ "즈음하여",
482
+ "즉",
483
+ "즉시",
484
+ "지든지",
485
+ "지만",
486
+ "지말고",
487
+ "진짜로",
488
+ "쪽으로",
489
+ "차라리",
490
+ "참",
491
+ "참나",
492
+ "첫번째로",
493
+ "쳇",
494
+ "총적으로",
495
+ "총적으로 말하면",
496
+ "총적으로 보면",
497
+ "칠",
498
+ "콸콸",
499
+ "쾅쾅",
500
+ "쿵",
501
+ "타다",
502
+ "타인",
503
+ "탕탕",
504
+ "토하다",
505
+ "통하여",
506
+ "툭",
507
+ "퉤",
508
+ "틈타",
509
+ "팍",
510
+ "팔",
511
+ "퍽",
512
+ "펄렁",
513
+ "하",
514
+ "하게될것이다",
515
+ "하게하다",
516
+ "하겠는가",
517
+ "하고 있다",
518
+ "하고있었다",
519
+ "하곤하였다",
520
+ "하구나",
521
+ "하기 때문에",
522
+ "하기 위하여",
523
+ "하기는한데",
524
+ "하기만 하면",
525
+ "하기보다는",
526
+ "하기에",
527
+ "하나",
528
+ "하느니",
529
+ "하는 김에",
530
+ "하는 편이 낫다",
531
+ "하는것도",
532
+ "하는것만 못하다",
533
+ "하는것이 낫다",
534
+ "하는바",
535
+ "하더라도",
536
+ "하도다",
537
+ "하도록시키다",
538
+ "하도록하다",
539
+ "하든지",
540
+ "하려고하다",
541
+ "하마터면",
542
+ "하면 할수록",
543
+ "하면된다",
544
+ "하면서",
545
+ "하물며",
546
+ "하여금",
547
+ "하여야",
548
+ "하자마자",
549
+ "하지 않는다면",
550
+ "하지 않도록",
551
+ "하지마",
552
+ "하지마라",
553
+ "하지만",
554
+ "하하",
555
+ "한 까닭에",
556
+ "한 이유는",
557
+ "한 후",
558
+ "한다면",
559
+ "한다면 몰라도",
560
+ "한데",
561
+ "한마디",
562
+ "한적이있다",
563
+ "한켠으로는",
564
+ "한항목",
565
+ "할 따름이다",
566
+ "할 생각이다",
567
+ "할 줄 안다",
568
+ "할 지경이다",
569
+ "할 힘이 있다",
570
+ "할때",
571
+ "할만하다",
572
+ "할망정",
573
+ "할뿐",
574
+ "할수있다",
575
+ "할수있어",
576
+ "할줄알다",
577
+ "할지라도",
578
+ "할지언정",
579
+ "함께",
580
+ "해도된다",
581
+ "해도좋다",
582
+ "해봐요",
583
+ "해서는 안된다",
584
+ "해야한다",
585
+ "해요",
586
+ "했어요",
587
+ "향하다",
588
+ "향하여",
589
+ "향해서",
590
+ "허",
591
+ "허걱",
592
+ "허허",
593
+ "헉",
594
+ "헉헉",
595
+ "헐떡헐떡",
596
+ "형식으로 쓰여",
597
+ "혹시",
598
+ "혹은",
599
+ "혼자",
600
+ "훨씬",
601
+ "휘익",
602
+ "휴",
603
+ "흐흐",
604
+ "흥",
605
+ "힘입어",
606
+ ]
607
+ end
608
+ end
609
+ end
610
+ end
@@ -0,0 +1,14 @@
1
+ class Keyphrase
2
+ module Stoplist
3
+ class Lat
4
+ def self.stopwords
5
+ @@stopwords ||= [
6
+ "a", "ab", "ac", "ad", "at", "atque", "aut", "autem", "cum", "de", "dum", "e", "erant", "erat",
7
+ "est", "et", "etiam", "ex", "haec", "hic", "hoc", "in", "ita", "me", "nec", "neque", "non",
8
+ "per", "qua", "quae", "quam", "qui", "quibus", "quidem", "quo", "quod", "re", "rebus", "rem",
9
+ "res", "sed", "si", "sic", "sunt", "tamen", "tandem", "te", "ut", "vel",
10
+ ]
11
+ end
12
+ end
13
+ end
14
+ end