scylla 0.9.3 → 1.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (86) hide show
  1. checksums.yaml +7 -0
  2. data/README.rdoc +3 -12
  3. data/bin/scylla +1 -1
  4. data/lib/scylla/classifier.rb +3 -2
  5. data/lib/scylla/generator.rb +11 -4
  6. data/lib/scylla/lms/arabic.lm +400 -400
  7. data/lib/scylla/lms/bulgarian.lm +400 -400
  8. data/lib/scylla/lms/catalan.lm +400 -400
  9. data/lib/scylla/lms/chinese.lm +395 -395
  10. data/lib/scylla/lms/czech.lm +397 -397
  11. data/lib/scylla/lms/danish.lm +372 -372
  12. data/lib/scylla/lms/dutch.lm +382 -382
  13. data/lib/scylla/lms/english.lm +378 -378
  14. data/lib/scylla/lms/finnish.lm +388 -388
  15. data/lib/scylla/lms/french.lm +392 -392
  16. data/lib/scylla/lms/german.lm +396 -396
  17. data/lib/scylla/lms/greek.lm +400 -400
  18. data/lib/scylla/lms/hebrew.lm +400 -400
  19. data/lib/scylla/lms/hindi.lm +399 -399
  20. data/lib/scylla/lms/icelandic.lm +225 -225
  21. data/lib/scylla/lms/indonesian.lm +391 -391
  22. data/lib/scylla/lms/italian.lm +382 -382
  23. data/lib/scylla/lms/japanese.lm +400 -400
  24. data/lib/scylla/lms/kannada.lm +392 -392
  25. data/lib/scylla/lms/korean.lm +391 -391
  26. data/lib/scylla/lms/marathi.lm +388 -388
  27. data/lib/scylla/lms/norwegian.lm +375 -375
  28. data/lib/scylla/lms/persian.lm +399 -399
  29. data/lib/scylla/lms/polish.lm +399 -399
  30. data/lib/scylla/lms/portuguese.lm +390 -390
  31. data/lib/scylla/lms/romanian.lm +353 -353
  32. data/lib/scylla/lms/russian.lm +400 -400
  33. data/lib/scylla/lms/slovak.lm +361 -361
  34. data/lib/scylla/lms/slovenian.lm +273 -273
  35. data/lib/scylla/lms/spanish.lm +371 -371
  36. data/lib/scylla/lms/swedish.lm +400 -400
  37. data/lib/scylla/lms/tagalog.lm +295 -295
  38. data/lib/scylla/lms/thai.lm +400 -400
  39. data/lib/scylla/lms/turkish.lm +377 -377
  40. data/lib/scylla/lms/vietnamese.lm +400 -400
  41. data/lib/scylla/lms/welsh.lm +311 -311
  42. data/lib/scylla/loader.rb +1 -1
  43. data/test/classifier_test.rb +6 -4
  44. data/test/fixtures/lms/arabic.lm +400 -0
  45. data/test/fixtures/lms/bulgarian.lm +400 -0
  46. data/test/fixtures/lms/catalan.lm +400 -0
  47. data/test/fixtures/lms/chinese.lm +400 -0
  48. data/test/fixtures/lms/czech.lm +400 -0
  49. data/test/fixtures/lms/danish.lm +399 -399
  50. data/test/fixtures/lms/dutch.lm +400 -0
  51. data/test/fixtures/lms/english.lm +400 -400
  52. data/test/fixtures/lms/finnish.lm +400 -0
  53. data/test/fixtures/lms/french.lm +397 -397
  54. data/test/fixtures/lms/german.lm +400 -400
  55. data/test/fixtures/lms/greek.lm +400 -0
  56. data/test/fixtures/lms/hebrew.lm +400 -0
  57. data/test/fixtures/lms/hindi.lm +400 -400
  58. data/test/fixtures/lms/icelandic.lm +400 -0
  59. data/test/fixtures/lms/indonesian.lm +400 -0
  60. data/test/fixtures/lms/italian.lm +400 -400
  61. data/test/fixtures/lms/japanese.lm +400 -400
  62. data/test/fixtures/lms/kannada.lm +400 -0
  63. data/test/fixtures/lms/korean.lm +400 -0
  64. data/test/fixtures/lms/marathi.lm +400 -0
  65. data/test/fixtures/lms/norwegian.lm +399 -399
  66. data/test/fixtures/lms/persian.lm +400 -0
  67. data/test/fixtures/lms/polish.lm +400 -0
  68. data/test/fixtures/lms/portuguese.lm +400 -0
  69. data/test/fixtures/lms/romanian.lm +400 -0
  70. data/test/fixtures/lms/russian.lm +400 -0
  71. data/test/fixtures/lms/slovak.lm +400 -0
  72. data/test/fixtures/lms/slovenian.lm +400 -0
  73. data/test/fixtures/lms/spanish.lm +400 -400
  74. data/test/fixtures/lms/swedish.lm +400 -0
  75. data/test/fixtures/lms/tagalog.lm +400 -0
  76. data/test/fixtures/lms/thai.lm +400 -0
  77. data/test/fixtures/lms/turkish.lm +400 -0
  78. data/test/fixtures/lms/vietnamese.lm +400 -0
  79. data/test/fixtures/lms/welsh.lm +400 -0
  80. data/test/fixtures/test_languages/japanese +149 -67
  81. data/test/generator_test.rb +2 -44
  82. data/test/helper.rb +3 -3
  83. data/test/language_test.rb +6 -2
  84. data/test/loader_test.rb +2 -2
  85. data/test/scylla_test.rb +7 -7
  86. metadata +144 -95
@@ -0,0 +1,400 @@
1
+ _ 13166
2
+ a 3942
3
+ e 3779
4
+ l 2410
5
+ s 2334
6
+ i 2265
7
+ t 2187
8
+ n 2072
9
+ r 1870
10
+ a_ 1452
11
+ c 1355
12
+ s_ 1346
13
+ o 1335
14
+ d 1286
15
+ u 1132
16
+ _d 936
17
+ m 838
18
+ _e 814
19
+ es 802
20
+ l_ 787
21
+ de 779
22
+ p 759
23
+ _l 723
24
+ _de 690
25
+ e_ 669
26
+ el 640
27
+ _a 638
28
+ al 607
29
+ ta 602
30
+ _c 586
31
+ en 566
32
+ la 511
33
+ es_ 482
34
+ at 455
35
+ er 453
36
+ t_ 442
37
+ de_ 434
38
+ _p 411
39
+ el_ 408
40
+ n_ 401
41
+ nt 394
42
+ i_ 388
43
+ g 387
44
+ ca 386
45
+ _i 378
46
+ an 377
47
+ la_ 369
48
+ _el 364
49
+ re 355
50
+ ci 354
51
+ b 353
52
+ _la 352
53
+ un 335
54
+ ra 329
55
+ v 321
56
+ on 318
57
+ st 311
58
+ _s 308
59
+ it 295
60
+ _i_ 283
61
+ co 272
62
+ ar 265
63
+ or 264
64
+ na 250
65
+ ri 248
66
+ _ca 246
67
+ _co 246
68
+ _t 245
69
+ te 242
70
+ _m 236
71
+ r_ 233
72
+ le 232
73
+ ls 224
74
+ q 222
75
+ qu 222
76
+ ls_ 220
77
+ f 220
78
+ tal 218
79
+ ent 217
80
+ in 207
81
+ se 204
82
+ en_ 200
83
+ y 200
84
+ ns 197
85
+ ó 197
86
+ me 194
87
+ ue 194
88
+ ic 191
89
+ ny 190
90
+ cat 189
91
+ _es 188
92
+ tr 185
93
+ al_ 183
94
+ ata 182
95
+ nt_ 182
96
+ ac 181
97
+ _a_ 179
98
+ é 177
99
+ pe 171
100
+ del 169
101
+ _en 168
102
+ om 167
103
+ ia 167
104
+ d_ 164
105
+ est 164
106
+ x 163
107
+ _l_ 163
108
+ que 163
109
+ ti 161
110
+ lu 159
111
+ am 158
112
+ _u 154
113
+ ya 153
114
+ nya 152
115
+ à 149
116
+ ya_ 148
117
+ ó_ 148
118
+ ts 147
119
+ ts_ 146
120
+ tat 144
121
+ les 143
122
+ pr 141
123
+ _qu 140
124
+ _q 140
125
+ _se 139
126
+ na_ 139
127
+ _un 139
128
+ ió 138
129
+ mb 138
130
+ at_ 137
131
+ li 137
132
+ ni 137
133
+ és 135
134
+ to 135
135
+ lun 135
136
+ ne 135
137
+ po 135
138
+ els 134
139
+ ió_ 134
140
+ és_ 134
141
+ alu 133
142
+ uny 132
143
+ pa 131
144
+ di 129
145
+ ns_ 129
146
+ tu 128
147
+ _le 128
148
+ res 127
149
+ _d_ 125
150
+ va 125
151
+ _f 124
152
+ h 124
153
+ ad 123
154
+ _r 122
155
+ is 118
156
+ sta 118
157
+ io 118
158
+ men 116
159
+ _al 115
160
+ per 115
161
+ aci 115
162
+ _v 113
163
+ _g 112
164
+ ma 112
165
+ _h 111
166
+ _pe 110
167
+ amb 109
168
+ com 109
169
+ _pr 108
170
+ er_ 107
171
+ nc 106
172
+ ció 105
173
+ ita 105
174
+ ro 105
175
+ con 104
176
+ ia_ 104
177
+ _re 103
178
+ ant 102
179
+ si 101
180
+ da 100
181
+ rr 100
182
+ _o 100
183
+ os 99
184
+ ue_ 98
185
+ ol 97
186
+ ter 96
187
+ ve 96
188
+ ons 96
189
+ ion 96
190
+ rt 95
191
+ í 94
192
+ no 94
193
+ _n 94
194
+ ll 93
195
+ ei 93
196
+ ona 92
197
+ ur 91
198
+ eg 90
199
+ ix 89
200
+ ua 89
201
+ des 88
202
+ b_ 88
203
+ _am 87
204
+ mi 86
205
+ tre 85
206
+ fi 84
207
+ ge 83
208
+ ec 82
209
+ ce 81
210
+ ra_ 80
211
+ ut 80
212
+ mb_ 80
213
+ ta_ 79
214
+ m_ 79
215
+ ò 77
216
+ im 77
217
+ als 76
218
+ _te 75
219
+ sp 75
220
+ err 74
221
+ era 74
222
+ ran 74
223
+ _po 73
224
+ cio 73
225
+ ral 72
226
+ lt 72
227
+ vi 71
228
+ ba 71
229
+ _é 70
230
+ va_ 70
231
+ _és 70
232
+ lo 70
233
+ ot 69
234
+ à_ 69
235
+ ir 68
236
+ ct 67
237
+ pi 67
238
+ ica 67
239
+ da_ 66
240
+ tor 66
241
+ ca_ 66
242
+ ar_ 65
243
+ nci 65
244
+ eix 64
245
+ esp 64
246
+ _b 64
247
+ gu 64
248
+ _in 64
249
+ cia 63
250
+ iv 63
251
+ lit 63
252
+ ici 62
253
+ ues 61
254
+ _di 61
255
+ ist 61
256
+ tan 61
257
+ re_ 61
258
+ rc 59
259
+ _va 58
260
+ un_ 58
261
+ eu 58
262
+ ie 58
263
+ sti 57
264
+ _pa 57
265
+ una 56
266
+ més 56
267
+ mé 56
268
+ _no 56
269
+ ori 56
270
+ us 56
271
+ gr 55
272
+ j 54
273
+ rs 54
274
+ so 54
275
+ om_ 54
276
+ mp 54
277
+ il 54
278
+ ada 53
279
+ et 53
280
+ tra 53
281
+ ov 52
282
+ sa 52
283
+ as 51
284
+ em 51
285
+ ha 51
286
+ _ta 51
287
+ op 51
288
+ o_ 51
289
+ any 51
290
+ nts 50
291
+ _mé 50
292
+ ntr 50
293
+ ala 50
294
+ id 48
295
+ an_ 48
296
+ go 48
297
+ itu 48
298
+ ats 48
299
+ _ha 48
300
+ è 48
301
+ hi 47
302
+ fe 47
303
+ u_ 47
304
+ _ba 47
305
+ ga 47
306
+ _ac 47
307
+ oc 47
308
+ _tr 47
309
+ alt 46
310
+ _hi 46
311
+ _ma 46
312
+ mu 46
313
+ ali 46
314
+ pre 46
315
+ _to 46
316
+ ura 45
317
+ lan 45
318
+ x_ 45
319
+ ito 45
320
+ ort 45
321
+ bl 44
322
+ por 44
323
+ uni 44
324
+ su 44
325
+ ss 44
326
+ au 43
327
+ ob 43
328
+ c_ 43
329
+ ial 43
330
+ ip 43
331
+ ix_ 43
332
+ _ge 42
333
+ ón 42
334
+ rit 42
335
+ ón_ 42
336
+ _ll 42
337
+ nal 42
338
+ tur 42
339
+ fo 41
340
+ str 41
341
+ os_ 41
342
+ rm 41
343
+ pri 41
344
+ nom 41
345
+ ans 41
346
+ ui 40
347
+ iu 40
348
+ pro 40
349
+ nta 40
350
+ par 40
351
+ xe 40
352
+ ul 40
353
+ tit 40
354
+ tes 40
355
+ ual 40
356
+ ser 40
357
+ ria 39
358
+ _ar 39
359
+ lle 39
360
+ do 39
361
+ ste 39
362
+ nd 39
363
+ é_ 39
364
+ gi 38
365
+ pl 38
366
+ seg 38
367
+ _só 38
368
+ ig 38
369
+ só 38
370
+ nte 38
371
+ ex 37
372
+ ev 37
373
+ arc 37
374
+ ame 37
375
+ gen 37
376
+ rce 37
377
+ ver 37
378
+ mun 37
379
+ són 37
380
+ rra 37
381
+ _fo 36
382
+ rri 36
383
+ tot 36
384
+ us_ 36
385
+ ab 36
386
+ ud 36
387
+ _su 36
388
+ cel 36
389
+ tic 36
390
+ ed 36
391
+ bar 36
392
+ cu 36
393
+ rd 36
394
+ ap 35
395
+ cip 35
396
+ up 35
397
+ art 35
398
+ ies 35
399
+ _an 35
400
+ lon 35
@@ -0,0 +1,400 @@
1
+ _ 1426
2
+ , 1372
3
+ 的 934
4
+ 中 735
5
+ 国 698
6
+ 、 670
7
+ 。 635
8
+ 中国 388
9
+ 和 284
10
+ 、、 273
11
+ 民 265
12
+ 在 233
13
+ 。_ 217
14
+ 一 214
15
+ 以 205
16
+ 为 204
17
+ 年 192
18
+ 人 186
19
+ 了 185
20
+ 是 185
21
+ 有 183
22
+ 、、、 183
23
+ 代 172
24
+ 大 161
25
+ 文 159
26
+ 地 156
27
+ ” 149
28
+ “ 149
29
+ 时 144
30
+ 政 138
31
+ 朝 136
32
+ 后 134
33
+ 日 132
34
+ 之 132
35
+ 國 129
36
+ 等 129
37
+ 华 128
38
+ 成 115
39
+ 族 114
40
+ _年 113
41
+ 》 110
42
+ 《 109
43
+ 上 105
44
+ 中华 103
45
+ 方 103
46
+ : 103
47
+ 史 101
48
+ 立 100
49
+ 发 99
50
+ ,中 99
51
+ 于 98
52
+ 期 98
53
+ 共 96
54
+ 分 93
55
+ 经 93
56
+ 化 93
57
+ ) 92
58
+ ( 92
59
+ 而 92
60
+ 历 91
61
+ 不 91
62
+ 月 88
63
+ 其 87
64
+ 主 86
65
+ 家 85
66
+ 建 84
67
+ 到 82
68
+ 前 80
69
+ 统 80
70
+ 世 79
71
+ 外 78
72
+ 也 77
73
+ 个 76
74
+ 自 76
75
+ 最 76
76
+ 治 75
77
+ 出 74
78
+ 汉 74
79
+ 称 73
80
+ 多 72
81
+ 学 72
82
+ 行 71
83
+ 古 71
84
+ 制 71
85
+ 民族 69
86
+ 文化 69
87
+ 并 69
88
+ _中 68
89
+ 现 68
90
+ 天 68
91
+ 及 66
92
+ 与 65
93
+ 区 65
94
+ 人民 65
95
+ 入 64
96
+ 法 63
97
+ 战 63
98
+ 」 63
99
+ 「 63
100
+ 共和 62
101
+ 开 62
102
+ 三 61
103
+ ,中国 61
104
+ 要 60
105
+ 来 60
106
+ 府 60
107
+ 政府 59
108
+ ; 59
109
+ 和国 58
110
+ 用 58
111
+ 民共和 57
112
+ 对 57
113
+ 人民共 57
114
+ 民共 57
115
+ 界 57
116
+ 西 56
117
+ 历史 56
118
+ 本 56
119
+ 明 56
120
+ 字 56
121
+ 华人 55
122
+ 共和国 55
123
+ 教 55
124
+ 国家 54
125
+ 华人民 54
126
+ 中华人 54
127
+ 十 53
128
+ 世界 53
129
+ 传 53
130
+ 《》 52
131
+ 各 52
132
+ 北 51
133
+ 第 51
134
+ 展 50
135
+ 国的 50
136
+ 。中 49
137
+ 清 49
138
+ 建立 49
139
+ 地区 49
140
+ 被 49
141
+ 定 49
142
+ 同 49
143
+ 所 48
144
+ 重 48
145
+ 為 48
146
+ 始 47
147
+ 二 47
148
+ ,并 47
149
+ 会 46
150
+ 度 46
151
+ 如 46
152
+ 作 45
153
+ 系 45
154
+ 台 45
155
+ 王 45
156
+ 交 45
157
+ 下 44
158
+ 、等 44
159
+ 部 43
160
+ 过 43
161
+ 但 43
162
+ 南 43
163
+ 关 42
164
+ 平 42
165
+ 次 42
166
+ 中國 42
167
+ 生 42
168
+ 至 42
169
+ 初 42
170
+ 内 42
171
+ 体 42
172
+ 四 41
173
+ _中国 41
174
+ ,以 41
175
+ 时期 40
176
+ 此 40
177
+ 进 40
178
+ 发展 40
179
+ ,_ 40
180
+ 夏 40
181
+ 正 39
182
+ 义 39
183
+ 華 39
184
+ 的, 39
185
+ 社 39
186
+ 由 39
187
+ 实 39
188
+ _: 38
189
+ 数 38
190
+ 使 38
191
+ 长 38
192
+ 领 38
193
+ 起 38
194
+ 都 38
195
+ 民国 37
196
+ 还 37
197
+ 中华民 37
198
+ 得 37
199
+ 。中国 37
200
+ 华民 37
201
+ 目 37
202
+ 面 37
203
+ 权 37
204
+ 的中 37
205
+ 东 36
206
+ 济 36
207
+ _月 36
208
+ 经济 36
209
+ 日本 35
210
+ 开始 35
211
+ 当 35
212
+ 国, 35
213
+ 着 35
214
+ 全 35
215
+ 名 35
216
+ 中国的 35
217
+ 原 35
218
+ ,其 34
219
+ ,在 34
220
+ 周 34
221
+ 力 34
222
+ 古代 34
223
+ 近 33
224
+ ”, 33
225
+ 已 33
226
+ 五 33
227
+ 又 33
228
+ 后, 33
229
+ 今 33
230
+ 西方 33
231
+ 军 32
232
+ 帝 32
233
+ 两 32
234
+ 、、等 32
235
+ 中華 32
236
+ 高 32
237
+ 华民国 32
238
+ 口 31
239
+ “中 31
240
+ 间 31
241
+ 表 31
242
+ 通 31
243
+ 日, 31
244
+ 约 31
245
+ 事 31
246
+ 元 30
247
+ “” 30
248
+ _日 30
249
+ 湾 30
250
+ 公 30
251
+ ,但 30
252
+ 党 30
253
+ 台湾 30
254
+ 形 30
255
+ 域 29
256
+ 直 29
257
+ 节 29
258
+ 子 29
259
+ 土 29
260
+ 或 29
261
+ 认 29
262
+ 主要 29
263
+ _, 28
264
+ 受 28
265
+ 逐 28
266
+ 则 28
267
+ 王朝 28
268
+ 强 28
269
+ 这 28
270
+ 流 28
271
+ 然 27
272
+ 史上 27
273
+ 代中 27
274
+ 月_ 27
275
+ 目前 27
276
+ 取 27
277
+ 理 27
278
+ 陆 27
279
+ _月_ 27
280
+ 期, 27
281
+ 际 27
282
+ 》, 27
283
+ 、和 27
284
+ 文字 27
285
+ 从 26
286
+ 他 26
287
+ 社会 26
288
+ 据 26
289
+ 动 26
290
+ 位 26
291
+ 新 26
292
+ 影 26
293
+ 合 26
294
+ 早 26
295
+ 思 26
296
+ 种 26
297
+ ,而 26
298
+ 一个 26
299
+ 少 25
300
+ 以及 25
301
+ 渐 25
302
+ 接 25
303
+ 人口 25
304
+ 布 25
305
+ 「」 25
306
+ 式 25
307
+ 八 24
308
+ 假 24
309
+ 中華民 24
310
+ ,《 24
311
+ 常 24
312
+ 传统 24
313
+ 代表 24
314
+ 想 24
315
+ 華民 24
316
+ 争 24
317
+ 皇 23
318
+ 道 23
319
+ 夷 23
320
+ 華民國 23
321
+ 就 23
322
+ 思想 23
323
+ 书 23
324
+ 相 23
325
+ 千 23
326
+ 产 23
327
+ 加 23
328
+ 推 23
329
+ 汉族 23
330
+ 民國 23
331
+ 在中 23
332
+ 政治 22
333
+ 海 22
334
+ 可 22
335
+ 导 22
336
+ 放 22
337
+ 科 22
338
+ 即 22
339
+ 影响 22
340
+ 改 22
341
+ 部分 22
342
+ 特 22
343
+ 列 22
344
+ ), 22
345
+ 者 22
346
+ 第一 22
347
+ 以后 22
348
+ 是中 22
349
+ 响 22
350
+ 稱 21
351
+ 先 21
352
+ 大陆 21
353
+ 商 21
354
+ 成立 21
355
+ 後 21
356
+ 国际 21
357
+ 年的 21
358
+ 礼 21
359
+ 等。 21
360
+ 時 21
361
+ 总 21
362
+ 。在 21
363
+ 达 21
364
+ 逐渐 21
365
+ 成为 21
366
+ 组 21
367
+ 岸 21
368
+ 制度 21
369
+ 除 21
370
+ 因 21
371
+ 较 20
372
+ 之一 20
373
+ 代中国 20
374
+ 出现 20
375
+ 源 20
376
+ 均 20
377
+ 别 20
378
+ 於 20
379
+ 历史上 20
380
+ 月初 20
381
+ 年, 20
382
+ 六 20
383
+ 国” 20
384
+ 美 20
385
+ 包 20
386
+ 中国, 20
387
+ 河 19
388
+ ,中华 19
389
+ “中国 19
390
+ 持 19
391
+ 服 19
392
+ 版 19
393
+ 术 19
394
+ 居 19
395
+ 年代 19
396
+ 技 19
397
+ :_ 19
398
+ 非 19
399
+ 少数 19
400
+ 业 19