scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 4182
2
- 2541
3
- 1799
4
- _ 881
5
- 745
6
- 743
7
- 685
8
- 665
9
- _� 608
10
- 600
11
- 594
12
- 569
13
- 550
14
- 527
15
- 474
16
- 431
17
- 397
18
- 392
19
- 387
20
- 371
21
- 351
22
- 347
23
- 340
24
- 312
25
- 301
26
- _ 283
27
- _� 267
28
- _� 266
29
- 263
30
- 252
31
- 250
32
- _� 232
33
- 224
34
- 214
35
- �_ 211
36
- 209
37
- 207
38
- 199
39
- 196
40
- 195
41
- 194
42
- 192
43
- _ 188
44
- �� 185
45
- 181
46
- 178
47
- �_ 177
48
- 175
49
- 173
50
- �� 173
51
- � 170
52
- ��_ 162
53
- �� 161
54
- � 159
55
- �_ 158
56
- � 157
57
- � 154
58
- �� 153
59
- �� 153
60
- 이 153
61
- � 149
62
- � 149
63
- � 147
64
- � 147
65
- �� 146
66
- 하 145
67
- �_ 144
68
- � 142
69
- �� 140
70
- �� 140
71
- 로 140
72
- � 140
73
- � 136
74
- �_ 135
75
- � 133
76
- �� 133
77
- 한 133
78
- � 133
79
- �_ 132
80
- � 132
81
- 는 129
82
- �� 129
83
- �� 128
84
- 의 128
85
- ��_ 125
86
- ��_ 125
87
- � 124
88
- � 122
89
- �� 117
90
- � 117
91
- �� 116
92
- �� 115
93
- 시 115
94
- �� 112
95
- � 111
96
- �_ 110
97
- ��_ 108
98
- � 108
99
- ��_ 108
100
- �� 108
101
- _� 108
102
- � 107
103
- �� 104
104
- � 104
105
- � 104
106
- �� 101
107
- 도 101
108
- �� 100
109
- � 99
110
- ��� 97
111
- 은 96
112
- �� 96
113
- ��_ 96
114
- �� 95
115
- 국 94
116
- �� 94
117
- 고 93
118
- �� 93
119
- 지 92
120
- �� 92
121
- 를 90
122
- ��_ 90
123
- � 90
124
- �� 90
125
- � 89
126
- �� 88
127
- � 88
128
- � 88
129
- ��_ 88
130
- �� 88
131
- 을 88
132
- �� 88
133
- � 87
134
- � 83
135
- �_ 82
136
- �� 81
137
- ��� 81
138
- 으 81
139
- �_ 79
140
- �� 79
141
- 서 78
142
- �� 78
143
- �� 78
144
- �� 78
145
- � 74
146
- 역 71
147
- �_ 71
148
- �� 71
149
- _� 70
150
- _� 69
151
- � 69
152
- � 69
153
- � 69
154
- �� 68
155
- �� 67
156
- �� 66
157
- �� 66
158
- _� 66
159
- � 65
160
- ��� 64
161
- � 63
162
- 구 62
163
- �� 62
164
- �� 61
165
- �� 61
166
- � 61
167
- 였 61
168
- _� 61
169
- � 60
170
- �� 60
171
- � 60
172
- ��_ 59
173
- �� 59
174
- �� 58
175
- � 58
176
- 대 58
177
- � 58
178
- �� 58
179
- ��_ 58
180
- � 58
181
- ��_ 57
182
- �� 57
183
- 기 57
184
- � 57
185
- �� 57
186
- � 56
187
- �� 56
188
- � 56
189
- _� 55
190
- � 55
191
- 가 55
192
- � 54
193
- _� 54
194
- � 54
195
- 라 54
196
- � 53
197
- �� 53
198
- � 53
199
- � 53
200
- � 52
201
- ��� 52
202
- �� 52
203
- _� 52
204
- _� 51
205
- �� 51
206
- �� 51
207
- 주 51
208
- _� 51
209
- �� 50
210
- �� 50
211
- �� 50
212
- 되 50
213
- 동 50
214
- 부 49
215
- �� 49
216
- �� 49
217
- _� 49
218
- � 49
219
- ��� 49
220
- � 49
221
- �� 48
222
- �� 48
223
- �� 48
1
+ _ 4316
2
+ 185
3
+ 179
4
+ _ 165
5
+ 160
6
+ 147
7
+ 144
8
+ 134
9
+ 129
10
+ 로_ 129
11
+ 126
12
+ 는_ 122
13
+ 119
14
+ 의_ 109
15
+ 에_ 109
16
+ 은_ 99
17
+ 99
18
+ 97
19
+ 96
20
+ 92
21
+ 92
22
+ 를_ 92
23
+ 90
24
+ 을_ 90
25
+ 88
26
+ _ 87
27
+ 80
28
+ 80
29
+ 73
30
+ _한 67
31
+ 64
32
+ 62
33
+ 이_ 60
34
+ 하였 60
35
+ 으로 59
36
+ 고_ 57
37
+ 57
38
+ 56
39
+ _에 56
40
+ 56
41
+ 55
42
+ 도_ 55
43
+ 으로_ 53
44
+ 하였다 53
45
+ 53
46
+ 였다_ 53
47
+ 였다 53
48
+ 52
49
+ 52
50
+ 49
224
51
  정 48
225
- �� 47
226
- �� 47
227
- �� 47
52
+ 시_ 47
228
53
  와 47
229
- �� 47
230
- �_ 46
231
- �� 46
232
- ��� 45
233
- 45
234
- �� 45
235
- 45
236
- �� 45
237
- �� 45
238
- ��� 45
239
- �_ 45
240
- ��_ 44
241
- ��_ 44
242
- ��_ 44
243
- �� 43
244
- �_ 43
245
- �� 42
246
- �� 42
247
- 42
248
- �� 42
249
- ��� 42
250
- _� 42
251
- 41
252
- �� 41
253
- ��� 41
254
- � 41
255
- 리 41
256
- �� 40
257
- 조 40
258
- �� 40
259
- 군 40
260
- 과 40
261
- �� 40
262
- �� 40
263
- �� 40
264
- � 40
265
- 어 40
266
- 자 39
267
- �� 39
268
- � 39
269
- � 39
270
- � 39
271
- �� 39
272
- ��_ 39
273
- � 38
274
- �� 38
275
- � 38
276
- _� 38
277
- _� 38
278
- �� 38
279
- �� 37
280
- � 37
281
- ��_ 37
282
- ��� 37
283
- _� 37
284
- �� 37
285
- � 37
286
- �� 36
287
- �� 36
288
- ��� 36
289
- 전 36
54
+ 47
55
+ 46
56
+ 한_ 45
57
+ _은_ 44
58
+ _은 44
59
+ 44
60
+ 와_ 44
61
+ 43
62
+ 42
63
+ 42
64
+ 41
65
+ _ 41
66
+ 41
67
+ _에_ 40
68
+ 지역 40
69
+ 40
70
+ _지 39
71
+ 에서 39
72
+ 39
73
+ 서_ 38
74
+ _일 38
75
+ 38
76
+ _대 37
77
+ 여_ 37
290
78
  직 36
291
79
  제 36
292
- �� 36
293
- �� 36
294
- �� 35
295
- �� 35
296
- � 35
80
+ 36
81
+ 한국 36
82
+ 36
83
+ _고 35
297
84
  선 35
298
- 35
299
- �� 35
300
- �� 35
301
- � 35
302
- ��� 35
303
- � 35
304
- 었 35
305
- ��_ 35
306
- ��_ 35
85
+ _있 35
86
+ 35
87
+ 가_ 35
307
88
  있 35
308
- �� 34
309
- � 34
310
- �� 34
311
- �� 34
312
- _� 34
313
- 특 34
314
- �� 34
315
- 남 34
316
- 개 34
317
- �� 33
318
- �� 33
89
+ 35
319
90
  나 33
320
- ��� 33
321
- �� 33
322
- �� 33
323
91
  만 33
324
- �� 33
325
- 32
326
- � 32
327
- �� 32
328
- �� 32
329
- ��� 32
330
- _� 32
331
- � 32
332
- �� 32
333
- _� 31
334
- �� 31
335
- 할 31
336
- �� 31
92
+ 하여 32
93
+ 하여_ 32
337
94
  성 31
338
- _ 31
339
- �� 31
340
- 30
341
- ��� 30
342
- 30
343
- �� 30
344
- �� 30
345
- ��� 29
346
- _� 29
347
- �� 28
348
- �� 28
349
- 며 28
350
- _� 28
351
- � 28
352
- �� 28
353
- �� 28
354
- �� 28
355
- ��� 28
356
- 계 28
357
- �� 28
358
- ��� 28
359
- �� 28
360
- ��_ 28
361
- ��� 27
362
- 명 27
363
- _� 27
364
- _� 27
365
- �� 27
95
+ _한국 31
96
+ 31
97
+ 31
98
+ _의 31
99
+ 29
100
+ _개 29
101
+ _동 29
102
+ 직할 28
103
+ 할시 28
104
+ 직할시 28
366
105
  세 27
367
- �� 27
368
- �� 27
369
- �� 26
370
- ��� 26
371
- _� 26
372
- 26
373
- �� 26
374
- �� 26
375
- �� 26
376
- _� 26
377
- � 26
106
+ 27
107
+ 며_ 27
108
+ 27
109
+ 27
110
+ 27
111
+ 26
112
+ 26
113
+ 26
114
+ _를 26
378
115
  단 26
379
- _ 26
380
- 26
381
- �� 25
382
- 25
383
- ��� 25
384
- �� 25
385
- �� 25
386
- 25
387
- _ 25
388
- ��� 25
389
- ��� 25
390
- �� 25
391
- �� 25
392
- 25
393
- �� 25
394
- �� 25
395
- _� 25
396
- 25
397
- �� 25
398
- _ 24
399
- �� 24
400
- ��� 24
116
+ _를_ 26
117
+ 에서_ 25
118
+ 되었 25
119
+ 25
120
+ 25
121
+ _로 25
122
+ _년 25
123
+ _남 25
124
+ _ 24
125
+ 24
126
+ 었다_ 24
127
+ 에는_ 24
128
+ 에는 24
129
+ 었다 24
130
+ 역_ 23
131
+ _로_ 23
132
+ 23
133
+ 조선 23
134
+ 23
135
+ _이_ 22
136
+ 22
137
+ _만 22
138
+ 구_ 22
139
+ _세 22
140
+ 별 21
141
+ 산 21
142
+ _특 21
143
+ 적 21
144
+ _의_ 21
145
+ _지역 21
146
+ 치 21
147
+ 반 21
148
+ _등 21
149
+ 분 21
150
+ 만_ 21
151
+ _문 20
152
+ _을_ 20
153
+ _을 20
154
+ _도 20
155
+ 특별 20
156
+ 해_ 20
157
+ 군_ 20
158
+ _인 20
159
+ _신 20
160
+ _전 19
161
+ _중 19
162
+ _가 19
163
+ 행 19
164
+ 행정 19
165
+ 후 19
166
+ 인_ 19
167
+ 면 19
168
+ 된 19
169
+ 중 19
170
+ 원 19
171
+ _명 18
172
+ 국_ 18
173
+ 편 18
174
+ _행정 18
175
+ _북 18
176
+ _주 18
177
+ _부 18
178
+ _행 18
179
+ 하고_ 18
180
+ 하고 18
181
+ 설 18
182
+ 영 18
183
+ 이다 18
184
+ _영 17
185
+ 통 17
186
+ _경 17
187
+ 이다_ 17
188
+ 되었다 17
189
+ _그 17
190
+ 용 17
191
+ 그 17
192
+ _직 16
193
+ 지역_ 16
194
+ 라_ 16
195
+ 장 16
196
+ 있다 16
197
+ 나_ 16
198
+ 쪽 16
199
+ 상 16
200
+ _있다 16
201
+ 어_ 16
202
+ 최 15
203
+ _사 15
204
+ 공 15
205
+ 유 15
206
+ _시 15
207
+ _조선 15
208
+ 기_ 15
209
+ 체 15
210
+ _제 15
211
+ 문화 15
212
+ _과_ 15
213
+ 있다_ 15
214
+ _최 15
215
+ 발 15
216
+ _와 15
217
+ _과 15
218
+ _발 14
219
+ _분 14
220
+ _합 14
221
+ 수 14
222
+ _문화 14
223
+ _다 14
224
+ _정 14
225
+ 나라 14
226
+ 포 14
227
+ _고려 14
228
+ _되 14
229
+ 진 14
230
+ _라 14
231
+ 승 14
232
+ 년_ 14
233
+ 고려 14
234
+ 국에 13
235
+ 할시_ 13
236
+ _특별 13
237
+ 아 13
238
+ _에서 13
239
+ 반도 13
240
+ _서 13
241
+ 강 13
242
+ _와_ 13
243
+ _통 13
244
+ 단지 13
245
+ _만_ 13
246
+ 정구 13
247
+ 시로 13
248
+ 행정구 13
249
+ _하 13
250
+ _년_ 13
251
+ 시로_ 13
252
+ 현 13
253
+ 게_ 12
254
+ _한반 12
255
+ _국 12
256
+ 단지역 12
257
+ 함 12
258
+ 게 12
259
+ 급 12
260
+ _으로 12
261
+ 별자 12
262
+ 한반 12
263
+ 특별자 12
264
+ 한반도 12
265
+ 광 12
266
+ 또 12
267
+ _승 12
268
+ _현 12
269
+ 건 12
270
+ 된_ 12
271
+ _으 12
272
+ 세기 12
273
+ _대한 12
274
+ 지_ 12
275
+ 구역 12
276
+ 대한 12
277
+ 했 12
278
+ 서는_ 12
279
+ 서는 12
280
+ _또 12
281
+ 기에 12
282
+ 내 11
283
+ 속 11
284
+ 방 11
285
+ 쳐_ 11
286
+ _사용 11
287
+ 정구역 11
288
+ 그_ 11
289
+ 사용 11
290
+ 쳐 11
291
+ 시를_ 11
292
+ 시를 11
293
+ 권 11
294
+ 본 11
295
+ 력 11
296
+ _수 11
297
+ _기 11
298
+ _그_ 11
299
+ 국의_ 11
300
+ 국의 11
301
+ 격 11
302
+ 리_ 11
303
+ _후 11
304
+ _세기 11
305
+ 당 11
306
+ 부_ 11
307
+ 시와 10
308
+ 한다_ 10
309
+ 한다 10
310
+ _광 10
311
+ 같 10
312
+ 시와_ 10
313
+ _군 10
314
+ _같 10
315
+ 으나_ 10
316
+ _단 10
317
+ 으며 10
318
+ _및 10
319
+ 음 10
320
+ 으나 10
321
+ 되어 10
322
+ 후_ 10
323
+ _및_ 10
324
+ 및 10
325
+ 형 10
326
+ 되어_ 10
327
+ _나 10
328
+ 및_ 10
329
+ 격하 10
330
+ 승격하 10
331
+ 승격 10
332
+ 면_ 10
333
+ 에서는 10
334
+ 보 10
335
+ _승격 10
336
+ 재 10
337
+ 안 10
338
+ _도_ 10
339
+ 기도 10
340
+ _되었 10
341
+ 위 10
342
+ 입 10
343
+ 으며_ 10
344
+ _개성 10
345
+ 바 10
346
+ _구 10
347
+ 청 10
348
+ _바 10
349
+ 개성 10
350
+ 신설 10
351
+ 족 9
352
+ 르 9
353
+ 특급 9
354
+ _직할 9
355
+ 라는 9
356
+ 라는_ 9
357
+ _유 9
358
+ _해 9
359
+ 특급시 9
360
+ _자 9
361
+ 급시 9
362
+ 명_ 9
363
+ 하는 9
364
+ 기도_ 9
365
+ 또한_ 9
366
+ _신설 9
367
+ 소 9
368
+ 하는_ 9
369
+ 또한 9
370
+ _또한 9
371
+ _건 9
372
+ 도에 9
373
+ 제_ 9
374
+ 국에서 9
375
+ 삼 9
376
+ 합쳐_ 9
377
+ 북도 9
378
+ _합쳐 9
379
+ 세력 9
380
+ 천 9
381
+ 일부 9
382
+ _일부 9
383
+ 글 9
384
+ 자_ 9
385
+ _체 9
386
+ _형 9
387
+ _편 9
388
+ 합쳐 9
389
+ 독 8
390
+ 역은_ 8
391
+ 역은 8
392
+ 한민 8
393
+ 역시 8
394
+ 외 8
395
+ _함 8
396
+ 호 8
397
+ 쓰 8
398
+ · 8
399
+ 초 8
400
+ _쓰 8