scylla 0.9.3 → 1.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (86) hide show
  1. checksums.yaml +7 -0
  2. data/README.rdoc +3 -12
  3. data/bin/scylla +1 -1
  4. data/lib/scylla/classifier.rb +3 -2
  5. data/lib/scylla/generator.rb +11 -4
  6. data/lib/scylla/lms/arabic.lm +400 -400
  7. data/lib/scylla/lms/bulgarian.lm +400 -400
  8. data/lib/scylla/lms/catalan.lm +400 -400
  9. data/lib/scylla/lms/chinese.lm +395 -395
  10. data/lib/scylla/lms/czech.lm +397 -397
  11. data/lib/scylla/lms/danish.lm +372 -372
  12. data/lib/scylla/lms/dutch.lm +382 -382
  13. data/lib/scylla/lms/english.lm +378 -378
  14. data/lib/scylla/lms/finnish.lm +388 -388
  15. data/lib/scylla/lms/french.lm +392 -392
  16. data/lib/scylla/lms/german.lm +396 -396
  17. data/lib/scylla/lms/greek.lm +400 -400
  18. data/lib/scylla/lms/hebrew.lm +400 -400
  19. data/lib/scylla/lms/hindi.lm +399 -399
  20. data/lib/scylla/lms/icelandic.lm +225 -225
  21. data/lib/scylla/lms/indonesian.lm +391 -391
  22. data/lib/scylla/lms/italian.lm +382 -382
  23. data/lib/scylla/lms/japanese.lm +400 -400
  24. data/lib/scylla/lms/kannada.lm +392 -392
  25. data/lib/scylla/lms/korean.lm +391 -391
  26. data/lib/scylla/lms/marathi.lm +388 -388
  27. data/lib/scylla/lms/norwegian.lm +375 -375
  28. data/lib/scylla/lms/persian.lm +399 -399
  29. data/lib/scylla/lms/polish.lm +399 -399
  30. data/lib/scylla/lms/portuguese.lm +390 -390
  31. data/lib/scylla/lms/romanian.lm +353 -353
  32. data/lib/scylla/lms/russian.lm +400 -400
  33. data/lib/scylla/lms/slovak.lm +361 -361
  34. data/lib/scylla/lms/slovenian.lm +273 -273
  35. data/lib/scylla/lms/spanish.lm +371 -371
  36. data/lib/scylla/lms/swedish.lm +400 -400
  37. data/lib/scylla/lms/tagalog.lm +295 -295
  38. data/lib/scylla/lms/thai.lm +400 -400
  39. data/lib/scylla/lms/turkish.lm +377 -377
  40. data/lib/scylla/lms/vietnamese.lm +400 -400
  41. data/lib/scylla/lms/welsh.lm +311 -311
  42. data/lib/scylla/loader.rb +1 -1
  43. data/test/classifier_test.rb +6 -4
  44. data/test/fixtures/lms/arabic.lm +400 -0
  45. data/test/fixtures/lms/bulgarian.lm +400 -0
  46. data/test/fixtures/lms/catalan.lm +400 -0
  47. data/test/fixtures/lms/chinese.lm +400 -0
  48. data/test/fixtures/lms/czech.lm +400 -0
  49. data/test/fixtures/lms/danish.lm +399 -399
  50. data/test/fixtures/lms/dutch.lm +400 -0
  51. data/test/fixtures/lms/english.lm +400 -400
  52. data/test/fixtures/lms/finnish.lm +400 -0
  53. data/test/fixtures/lms/french.lm +397 -397
  54. data/test/fixtures/lms/german.lm +400 -400
  55. data/test/fixtures/lms/greek.lm +400 -0
  56. data/test/fixtures/lms/hebrew.lm +400 -0
  57. data/test/fixtures/lms/hindi.lm +400 -400
  58. data/test/fixtures/lms/icelandic.lm +400 -0
  59. data/test/fixtures/lms/indonesian.lm +400 -0
  60. data/test/fixtures/lms/italian.lm +400 -400
  61. data/test/fixtures/lms/japanese.lm +400 -400
  62. data/test/fixtures/lms/kannada.lm +400 -0
  63. data/test/fixtures/lms/korean.lm +400 -0
  64. data/test/fixtures/lms/marathi.lm +400 -0
  65. data/test/fixtures/lms/norwegian.lm +399 -399
  66. data/test/fixtures/lms/persian.lm +400 -0
  67. data/test/fixtures/lms/polish.lm +400 -0
  68. data/test/fixtures/lms/portuguese.lm +400 -0
  69. data/test/fixtures/lms/romanian.lm +400 -0
  70. data/test/fixtures/lms/russian.lm +400 -0
  71. data/test/fixtures/lms/slovak.lm +400 -0
  72. data/test/fixtures/lms/slovenian.lm +400 -0
  73. data/test/fixtures/lms/spanish.lm +400 -400
  74. data/test/fixtures/lms/swedish.lm +400 -0
  75. data/test/fixtures/lms/tagalog.lm +400 -0
  76. data/test/fixtures/lms/thai.lm +400 -0
  77. data/test/fixtures/lms/turkish.lm +400 -0
  78. data/test/fixtures/lms/vietnamese.lm +400 -0
  79. data/test/fixtures/lms/welsh.lm +400 -0
  80. data/test/fixtures/test_languages/japanese +149 -67
  81. data/test/generator_test.rb +2 -44
  82. data/test/helper.rb +3 -3
  83. data/test/language_test.rb +6 -2
  84. data/test/loader_test.rb +2 -2
  85. data/test/scylla_test.rb +7 -7
  86. metadata +144 -95
@@ -1,400 +1,400 @@
1
- _ 4182
2
- 2541
3
- 1799
4
- _ 881
5
- 745
6
- 743
7
- 685
8
- 665
9
- _� 608
10
- � 600
11
- � 594
12
- � 569
13
- � 550
14
- � 527
15
- � 474
16
- � 431
17
- � 397
18
- � 392
19
- � 387
20
- � 371
21
- � 351
22
- � 347
23
- � 340
24
- � 312
25
- � 301
26
- �_ 283
27
- _� 267
28
- _� 266
29
- � 263
30
- � 252
31
- � 250
32
- _� 232
33
- � 224
34
- � 214
35
- �_ 211
36
- � 209
37
- � 207
38
- � 199
39
- � 196
40
- � 195
41
- � 194
42
- � 192
43
- �_ 188
44
- �� 185
45
- 다 181
46
- � 178
47
- �_ 177
48
- � 175
49
- 에 173
50
- �� 173
51
- � 170
52
- ��_ 162
53
- �� 161
54
- � 159
55
- �_ 158
56
- � 157
57
- � 154
58
- �� 153
59
- �� 153
60
- 이 153
61
- � 149
62
- � 149
63
- � 147
64
- � 147
65
- �� 146
66
- 하 145
67
- �_ 144
68
- � 142
69
- �� 140
70
- �� 140
71
- 로 140
72
- � 140
73
- � 136
74
- �_ 135
75
- � 133
76
- �� 133
77
- 한 133
78
- � 133
79
- �_ 132
80
- � 132
1
+ _ 4200
2
+ 180
3
+ 176
4
+ _ 159
5
+ 152
6
+ 150
7
+ 142
8
+ 139
81
9
  는 129
82
- �� 129
83
- �� 128
84
- 128
85
- ��_ 125
86
- ��_ 125
87
- 124
88
- 122
89
- �� 117
90
- 117
91
- �� 116
92
- �� 115
93
- 시 115
94
- �� 112
95
- � 111
96
- �_ 110
97
- ��_ 108
98
- � 108
99
- ��_ 108
100
- �� 108
101
- _� 108
102
- � 107
103
- �� 104
104
- � 104
105
- � 104
106
- �� 101
107
- 도 101
108
- �� 100
109
- � 99
110
- ��� 97
111
- 은 96
112
- �� 96
113
- ��_ 96
114
- �� 95
10
+ 로_ 126
11
+ 는_ 125
12
+ 123
13
+ 113
14
+ _ 105
15
+ 의_ 103
16
+ 97
17
+ 은_ 97
18
+ 95
19
+ 94
115
20
  국 94
116
- �� 94
117
- 93
118
- �� 93
119
- 92
120
- �� 92
121
- 90
122
- ��_ 90
123
- � 90
124
- �� 90
125
- � 89
126
- �� 88
127
- � 88
128
- � 88
129
- ��_ 88
130
- �� 88
131
- 을 88
132
- �� 88
133
- � 87
134
- � 83
135
- �_ 82
136
- �� 81
137
- ��� 81
138
- 으 81
139
- �_ 79
140
- �� 79
21
+ 를_ 94
22
+ 91
23
+ 을_ 87
24
+ 87
25
+ 87
26
+ _이 86
141
27
  서 78
142
- �� 78
143
- �� 78
144
- �� 78
145
- 74
146
- 71
147
- �_ 71
148
- �� 71
149
- _� 70
150
- _ 69
151
- 69
152
- 69
153
- � 69
154
- �� 68
155
- �� 67
156
- �� 66
157
- �� 66
158
- _� 66
159
- � 65
160
- ��� 64
161
- � 63
162
- 구 62
163
- �� 62
164
- �� 61
165
- �� 61
166
- � 61
167
- 였 61
168
- _� 61
169
- � 60
170
- �� 60
171
- � 60
172
- ��_ 59
173
- �� 59
174
- �� 58
175
- � 58
176
- 대 58
177
- � 58
178
- �� 58
179
- ��_ 58
180
- � 58
181
- ��_ 57
182
- �� 57
183
- 기 57
184
- � 57
185
- �� 57
186
- � 56
187
- �� 56
188
- � 56
189
- _� 55
190
- � 55
28
+ 77
29
+ 70
30
+ _한 69
31
+ 64
32
+ 63
33
+ 하였 61
34
+ 으로 58
35
+ 57
36
+ _ 56
37
+ 55
38
+ 55
191
39
  가 55
192
- 54
193
- _ 54
194
- 54
195
- 54
196
- 53
197
- �� 53
198
- 53
199
- 53
200
- 52
201
- ��� 52
202
- �� 52
203
- _� 52
204
- _� 51
205
- �� 51
206
- �� 51
207
- 주 51
208
- _� 51
209
- �� 50
210
- �� 50
211
- �� 50
212
- 되 50
213
- 동 50
214
- 부 49
215
- �� 49
216
- �� 49
217
- _� 49
218
- � 49
219
- ��� 49
220
- � 49
221
- �� 48
222
- �� 48
223
- �� 48
224
- 정 48
225
- �� 47
226
- �� 47
227
- �� 47
40
+ 이_ 55
41
+ _ 55
42
+ 였다_ 53
43
+ 하였다 53
44
+ 였다 53
45
+ 으로_ 51
46
+ 도_ 51
47
+ 50
48
+ 49
49
+ 48
50
+ 48
51
+ 48
52
+ 47
228
53
  와 47
229
- �� 47
230
- _ 46
231
- �� 46
232
- ��� 45
233
- 45
234
- �� 45
235
- 45
236
- �� 45
237
- �� 45
238
- ��� 45
239
- �_ 45
240
- ��_ 44
241
- ��_ 44
242
- ��_ 44
243
- �� 43
244
- �_ 43
245
- �� 42
246
- �� 42
247
- 해 42
248
- �� 42
249
- ��� 42
250
- _� 42
251
- 일 41
252
- �� 41
253
- ��� 41
254
- � 41
255
- 리 41
256
- �� 40
54
+ 한_ 47
55
+ _ 47
56
+ 47
57
+ 와_ 44
58
+ 43
59
+ _은_ 43
60
+ 43
61
+ _은 43
62
+ 42
257
63
  조 40
258
- �� 40
259
- 40
260
- 40
261
- �� 40
262
- �� 40
263
- �� 40
264
- 40
265
- 40
266
- 39
267
- �� 39
268
- 39
269
- 39
270
- 39
271
- �� 39
272
- ��_ 39
273
- � 38
274
- �� 38
275
- � 38
276
- _� 38
277
- _� 38
278
- �� 38
279
- �� 37
280
- � 37
281
- ��_ 37
282
- ��� 37
283
- _� 37
284
- �� 37
285
- � 37
286
- �� 36
287
- �� 36
288
- ��� 36
289
- 전 36
64
+ 39
65
+ _에_ 39
66
+ 39
67
+ 여_ 39
68
+ 에서 38
69
+ 38
70
+ _의 38
71
+ 지역 38
72
+ 과_ 38
73
+ 37
74
+ 서_ 37
75
+ 37
76
+ _일 37
77
+ 36
78
+ _ 36
290
79
  직 36
291
- 36
292
- �� 36
293
- �� 36
294
- �� 35
295
- �� 35
296
- � 35
297
- 선 35
298
- � 35
299
- �� 35
300
- �� 35
301
- � 35
302
- ��� 35
303
- � 35
80
+ _지 36
81
+ 36
304
82
  었 35
305
- ��_ 35
306
- ��_ 35
307
- 35
308
- �� 34
309
- 34
310
- �� 34
311
- �� 34
312
- _ 34
313
- 34
314
- �� 34
315
- 34
316
- 개 34
317
- �� 33
318
- �� 33
319
- 나 33
320
- ��� 33
321
- �� 33
322
- �� 33
323
- 만 33
324
- �� 33
325
- 북 32
326
- � 32
327
- �� 32
328
- �� 32
329
- ��� 32
330
- _� 32
331
- � 32
332
- �� 32
333
- _� 31
334
- �� 31
335
- 할 31
336
- �� 31
83
+ 35
84
+ 한국 35
85
+ 34
86
+ _고 34
87
+ 하여 33
88
+ 33
89
+ 하여_ 33
90
+ _ 32
91
+ 가_ 32
92
+ 32
93
+ 32
337
94
  성 31
338
- _� 31
339
- �� 31
340
- 30
341
- ��� 30
342
- 30
343
- �� 30
344
- �� 30
345
- ��� 29
346
- _� 29
347
- �� 28
348
- �� 28
349
- 28
350
- _ 28
351
- 28
352
- �� 28
353
- �� 28
354
- �� 28
355
- ��� 28
356
- 28
357
- �� 28
358
- ��� 28
359
- �� 28
360
- ��_ 28
361
- ��� 27
362
- 27
363
- _� 27
364
- _� 27
365
- �� 27
366
- 27
367
- �� 27
368
- �� 27
369
- �� 26
370
- ��� 26
371
- _ 26
372
- 26
373
- �� 26
374
- �� 26
375
- �� 26
376
- _ 26
377
- 26
378
- 26
379
- _� 26
380
- 26
381
- �� 25
382
- 25
383
- ��� 25
384
- �� 25
385
- �� 25
386
- 25
387
- _ 25
388
- ��� 25
389
- ��� 25
390
- �� 25
391
- �� 25
392
- 25
393
- �� 25
394
- �� 25
395
- _ 25
396
- 25
397
- �� 25
398
- _ 24
399
- �� 24
400
- ��� 24
95
+ 31
96
+ 30
97
+ _한국 30
98
+ 30
99
+ 29
100
+ 29
101
+ _개 29
102
+ 직할시 28
103
+ 할시 28
104
+ 직할 28
105
+ _동 28
106
+ _를 27
107
+ _를_ 27
108
+ _의_ 27
109
+ 에는_ 26
110
+ 26
111
+ 26
112
+ 26
113
+ 26
114
+ 에는 26
115
+ 며_ 26
116
+ 26
117
+ 에서_ 25
118
+ 25
119
+ 25
120
+ 되었 24
121
+ 24
122
+ 었다_ 24
123
+ 24
124
+ _로 24
125
+ 었다 24
126
+ 23
127
+ 23
128
+ _ 23
129
+ _조 23
130
+ 22
131
+ 22
132
+ _로_ 22
133
+ _ 22
134
+ _년 22
135
+ _남 22
136
+ 21
137
+ _특 21
138
+ 조선 21
139
+ _만 21
140
+ 만_ 21
141
+ _인 21
142
+ 21
143
+ _등 21
144
+ _ 21
145
+ 21
146
+ 20
147
+ 인_ 20
148
+ 어_ 20
149
+ _을_ 20
150
+ 하고 20
151
+ _문 20
152
+ _ 20
153
+ _이_ 20
154
+ 특별 20
155
+ _ 20
156
+ _신 19
157
+ 군_ 19
158
+ 용 19
159
+ 된 19
160
+ 편 19
161
+ 해_ 19
162
+ 원 19
163
+ _전 19
164
+ 치 19
165
+ 하고_ 19
166
+ 행 19
167
+ 행정 19
168
+ _지역 19
169
+ _가 19
170
+ _부 18
171
+ 면 18
172
+ 국_ 18
173
+ _행 18
174
+ 반 18
175
+ 적 18
176
+ _행정 18
177
+ _중 18
178
+ 중 18
179
+ 통 17
180
+ 설 17
181
+ _경 17
182
+ 이다 17
183
+ 되었다 17
184
+ _사 17
185
+ _직 16
186
+ 장 16
187
+ 이다_ 16
188
+ _명 16
189
+ 체 16
190
+ 지역_ 16
191
+ 라_ 16
192
+ _주 16
193
+ _제 16
194
+ _있다 15
195
+ _다 15
196
+ 문화 15
197
+ 쪽 15
198
+ · 15
199
+ _와 15
200
+ 발 15
201
+ _되 15
202
+ 있다 15
203
+ _그 14
204
+ 포 14
205
+ 분 14
206
+ 최 14
207
+ 유 14
208
+ 진 14
209
+ 그 14
210
+ 영 14
211
+ _문화 14
212
+ _통 14
213
+ _정 14
214
+ _최 14
215
+ 천 14
216
+ 상 14
217
+ 나라 14
218
+ _발 14
219
+ 승 14
220
+ 아 13
221
+ 글 13
222
+ _북 13
223
+ 고려 13
224
+ 서는_ 13
225
+ 서는 13
226
+ 수 13
227
+ _에서 13
228
+ 국에 13
229
+ 있다_ 13
230
+ _시 13
231
+ 시로_ 13
232
+ _라 13
233
+ 시로 13
234
+ _합 13
235
+ 나_ 13
236
+ _사용 13
237
+ 대한 13
238
+ 사용 13
239
+ _대한 13
240
+ _와_ 13
241
+ 할시_ 13
242
+ 단지 13
243
+ 행정구 13
244
+ 지_ 13
245
+ _국 13
246
+ _고려 13
247
+ _과 13
248
+ 정구 13
249
+ _과_ 13
250
+ _특별 13
251
+ _조선 13
252
+ _영 12
253
+ 구역 12
254
+ 세기 12
255
+ 급 12
256
+ _승 12
257
+ 기_ 12
258
+ 특별자 12
259
+ 기에 12
260
+ 게 12
261
+ 별자 12
262
+ 공 12
263
+ 게_ 12
264
+ 현 12
265
+ 년_ 12
266
+ 함 12
267
+ 단지역 12
268
+ 광 12
269
+ _기 12
270
+ 강 12
271
+ 격 11
272
+ 족 11
273
+ _만_ 11
274
+ 시를 11
275
+ 시를_ 11
276
+ 반도 11
277
+ _나 11
278
+ 에서는 11
279
+ 한다_ 11
280
+ _해 11
281
+ 한민 11
282
+ 한다 11
283
+ _도_ 11
284
+ 음 11
285
+ _수 11
286
+ _하 11
287
+ 권 11
288
+ _년_ 11
289
+ 하는 11
290
+ 외 11
291
+ 정구역 11
292
+ 건 11
293
+ 된_ 11
294
+ 후_ 11
295
+ _현 11
296
+ _세기 11
297
+ 속 11
298
+ _후 11
299
+ _서 11
300
+ 하는_ 11
301
+ 기도 11
302
+ 쳐_ 10
303
+ 내 10
304
+ 격하 10
305
+ 재 10
306
+ 승격하 10
307
+ 승격 10
308
+ _승격 10
309
+ 형 10
310
+ _또 10
311
+ _그_ 10
312
+ 그_ 10
313
+ 바 10
314
+ _단 10
315
+ 소 10
316
+ 국의_ 10
317
+ 국의 10
318
+ 안 10
319
+ 도에 10
320
+ _광 10
321
+ 기도_ 10
322
+ 되어 10
323
+ _편 10
324
+ 또 10
325
+ 청 10
326
+ _으로 10
327
+ 당 10
328
+ 명_ 10
329
+ 한반도 10
330
+ 한반 10
331
+ _한반 10
332
+ 쳐 10
333
+ _으 10
334
+ 되어_ 10
335
+ _개성 10
336
+ 시와_ 10
337
+ 시와 10
338
+ 개성 10
339
+ _일부 10
340
+ 신설 10
341
+ 일부 10
342
+ _되었 10
343
+ 본 10
344
+ 력 10
345
+ _바 10
346
+ 인구 9
347
+ 리_ 9
348
+ _구 9
349
+ 라는 9
350
+ 으며_ 9
351
+ 으며 9
352
+ 라는_ 9
353
+ _군 9
354
+ 두 9
355
+ _형 9
356
+ 부_ 9
357
+ 면_ 9
358
+ 했 9
359
+ 국에서 9
360
+ 추 9
361
+ _자 9
362
+ _직할 9
363
+ 특급 9
364
+ 삼 9
365
+ _같 9
366
+ 같 9
367
+ 특급시 9
368
+ 급시 9
369
+ 입 9
370
+ _체 9
371
+ 이라 9
372
+ 북도 9
373
+ _신설 9
374
+ 으나_ 9
375
+ 으나 9
376
+ 세력 9
377
+ _및 9
378
+ _및_ 9
379
+ 및 9
380
+ 및_ 9
381
+ 한민국 8
382
+ 따 8
383
+ _건 8
384
+ _건국 8
385
+ 건국 8
386
+ 구려 8
387
+ 고구려 8
388
+ 제_ 8
389
+ 른 8
390
+ _신라 8
391
+ 라고 8
392
+ 신라 8
393
+ 고구 8
394
+ _발전 8
395
+ 년에 8
396
+ _고구 8
397
+ 합쳐_ 8
398
+ 도에_ 8
399
+ 제주 8
400
+ 합쳐 8