scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -0,0 +1,400 @@
1
+ _ 13166
2
+ a 3942
3
+ e 3779
4
+ l 2410
5
+ s 2334
6
+ i 2265
7
+ t 2187
8
+ n 2072
9
+ r 1870
10
+ a_ 1452
11
+ c 1355
12
+ s_ 1346
13
+ o 1335
14
+ d 1286
15
+ u 1132
16
+ _d 936
17
+ m 838
18
+ _e 814
19
+ es 802
20
+ l_ 787
21
+ de 779
22
+ p 759
23
+ _l 723
24
+ _de 690
25
+ e_ 669
26
+ el 640
27
+ _a 638
28
+ al 607
29
+ ta 602
30
+ _c 586
31
+ en 566
32
+ la 511
33
+ es_ 482
34
+ at 455
35
+ er 453
36
+ t_ 442
37
+ de_ 434
38
+ _p 411
39
+ el_ 408
40
+ n_ 401
41
+ nt 394
42
+ i_ 388
43
+ g 387
44
+ ca 386
45
+ _i 378
46
+ an 377
47
+ la_ 369
48
+ _el 364
49
+ re 355
50
+ ci 354
51
+ b 353
52
+ _la 352
53
+ un 335
54
+ ra 329
55
+ v 321
56
+ on 318
57
+ st 311
58
+ _s 308
59
+ it 295
60
+ _i_ 283
61
+ co 272
62
+ ar 265
63
+ or 264
64
+ na 250
65
+ ri 248
66
+ _ca 246
67
+ _co 246
68
+ _t 245
69
+ te 242
70
+ _m 236
71
+ r_ 233
72
+ le 232
73
+ ls 224
74
+ q 222
75
+ qu 222
76
+ ls_ 220
77
+ f 220
78
+ tal 218
79
+ ent 217
80
+ in 207
81
+ se 204
82
+ en_ 200
83
+ y 200
84
+ ns 197
85
+ ó 197
86
+ me 194
87
+ ue 194
88
+ ic 191
89
+ ny 190
90
+ cat 189
91
+ _es 188
92
+ tr 185
93
+ al_ 183
94
+ ata 182
95
+ nt_ 182
96
+ ac 181
97
+ _a_ 179
98
+ é 177
99
+ pe 171
100
+ del 169
101
+ _en 168
102
+ om 167
103
+ ia 167
104
+ d_ 164
105
+ est 164
106
+ x 163
107
+ _l_ 163
108
+ que 163
109
+ ti 161
110
+ lu 159
111
+ am 158
112
+ _u 154
113
+ ya 153
114
+ nya 152
115
+ à 149
116
+ ya_ 148
117
+ ó_ 148
118
+ ts 147
119
+ ts_ 146
120
+ tat 144
121
+ les 143
122
+ pr 141
123
+ _qu 140
124
+ _q 140
125
+ _se 139
126
+ na_ 139
127
+ _un 139
128
+ ió 138
129
+ mb 138
130
+ at_ 137
131
+ li 137
132
+ ni 137
133
+ és 135
134
+ to 135
135
+ lun 135
136
+ ne 135
137
+ po 135
138
+ els 134
139
+ ió_ 134
140
+ és_ 134
141
+ alu 133
142
+ uny 132
143
+ pa 131
144
+ di 129
145
+ ns_ 129
146
+ tu 128
147
+ _le 128
148
+ res 127
149
+ _d_ 125
150
+ va 125
151
+ _f 124
152
+ h 124
153
+ ad 123
154
+ _r 122
155
+ is 118
156
+ sta 118
157
+ io 118
158
+ men 116
159
+ _al 115
160
+ per 115
161
+ aci 115
162
+ _v 113
163
+ _g 112
164
+ ma 112
165
+ _h 111
166
+ _pe 110
167
+ amb 109
168
+ com 109
169
+ _pr 108
170
+ er_ 107
171
+ nc 106
172
+ ció 105
173
+ ita 105
174
+ ro 105
175
+ con 104
176
+ ia_ 104
177
+ _re 103
178
+ ant 102
179
+ si 101
180
+ da 100
181
+ rr 100
182
+ _o 100
183
+ os 99
184
+ ue_ 98
185
+ ol 97
186
+ ter 96
187
+ ve 96
188
+ ons 96
189
+ ion 96
190
+ rt 95
191
+ í 94
192
+ no 94
193
+ _n 94
194
+ ll 93
195
+ ei 93
196
+ ona 92
197
+ ur 91
198
+ eg 90
199
+ ix 89
200
+ ua 89
201
+ des 88
202
+ b_ 88
203
+ _am 87
204
+ mi 86
205
+ tre 85
206
+ fi 84
207
+ ge 83
208
+ ec 82
209
+ ce 81
210
+ ra_ 80
211
+ ut 80
212
+ mb_ 80
213
+ ta_ 79
214
+ m_ 79
215
+ ò 77
216
+ im 77
217
+ als 76
218
+ _te 75
219
+ sp 75
220
+ err 74
221
+ era 74
222
+ ran 74
223
+ _po 73
224
+ cio 73
225
+ ral 72
226
+ lt 72
227
+ vi 71
228
+ ba 71
229
+ _é 70
230
+ va_ 70
231
+ _és 70
232
+ lo 70
233
+ ot 69
234
+ à_ 69
235
+ ir 68
236
+ ct 67
237
+ pi 67
238
+ ica 67
239
+ da_ 66
240
+ tor 66
241
+ ca_ 66
242
+ ar_ 65
243
+ nci 65
244
+ eix 64
245
+ esp 64
246
+ _b 64
247
+ gu 64
248
+ _in 64
249
+ cia 63
250
+ iv 63
251
+ lit 63
252
+ ici 62
253
+ ues 61
254
+ _di 61
255
+ ist 61
256
+ tan 61
257
+ re_ 61
258
+ rc 59
259
+ _va 58
260
+ un_ 58
261
+ eu 58
262
+ ie 58
263
+ sti 57
264
+ _pa 57
265
+ una 56
266
+ més 56
267
+ mé 56
268
+ _no 56
269
+ ori 56
270
+ us 56
271
+ gr 55
272
+ j 54
273
+ rs 54
274
+ so 54
275
+ om_ 54
276
+ mp 54
277
+ il 54
278
+ ada 53
279
+ et 53
280
+ tra 53
281
+ ov 52
282
+ sa 52
283
+ as 51
284
+ em 51
285
+ ha 51
286
+ _ta 51
287
+ op 51
288
+ o_ 51
289
+ any 51
290
+ nts 50
291
+ _mé 50
292
+ ntr 50
293
+ ala 50
294
+ id 48
295
+ an_ 48
296
+ go 48
297
+ itu 48
298
+ ats 48
299
+ _ha 48
300
+ è 48
301
+ hi 47
302
+ fe 47
303
+ u_ 47
304
+ _ba 47
305
+ ga 47
306
+ _ac 47
307
+ oc 47
308
+ _tr 47
309
+ alt 46
310
+ _hi 46
311
+ _ma 46
312
+ mu 46
313
+ ali 46
314
+ pre 46
315
+ _to 46
316
+ ura 45
317
+ lan 45
318
+ x_ 45
319
+ ito 45
320
+ ort 45
321
+ bl 44
322
+ por 44
323
+ uni 44
324
+ su 44
325
+ ss 44
326
+ au 43
327
+ ob 43
328
+ c_ 43
329
+ ial 43
330
+ ip 43
331
+ ix_ 43
332
+ _ge 42
333
+ ón 42
334
+ rit 42
335
+ ón_ 42
336
+ _ll 42
337
+ nal 42
338
+ tur 42
339
+ fo 41
340
+ str 41
341
+ os_ 41
342
+ rm 41
343
+ pri 41
344
+ nom 41
345
+ ans 41
346
+ ui 40
347
+ iu 40
348
+ pro 40
349
+ nta 40
350
+ par 40
351
+ xe 40
352
+ ul 40
353
+ tit 40
354
+ tes 40
355
+ ual 40
356
+ ser 40
357
+ ria 39
358
+ _ar 39
359
+ lle 39
360
+ do 39
361
+ ste 39
362
+ nd 39
363
+ é_ 39
364
+ gi 38
365
+ pl 38
366
+ seg 38
367
+ _só 38
368
+ ig 38
369
+ só 38
370
+ nte 38
371
+ ex 37
372
+ ev 37
373
+ arc 37
374
+ ame 37
375
+ gen 37
376
+ rce 37
377
+ ver 37
378
+ mun 37
379
+ són 37
380
+ rra 37
381
+ _fo 36
382
+ rri 36
383
+ tot 36
384
+ us_ 36
385
+ ab 36
386
+ ud 36
387
+ _su 36
388
+ cel 36
389
+ tic 36
390
+ ed 36
391
+ bar 36
392
+ cu 36
393
+ rd 36
394
+ ap 35
395
+ cip 35
396
+ up 35
397
+ art 35
398
+ ies 35
399
+ _an 35
400
+ lon 35
@@ -0,0 +1,400 @@
1
+ _ 1426
2
+ , 1372
3
+ 的 934
4
+ 中 735
5
+ 国 698
6
+ 、 670
7
+ 。 635
8
+ 中国 388
9
+ 和 284
10
+ 、、 273
11
+ 民 265
12
+ 在 233
13
+ 。_ 217
14
+ 一 214
15
+ 以 205
16
+ 为 204
17
+ 年 192
18
+ 人 186
19
+ 了 185
20
+ 是 185
21
+ 有 183
22
+ 、、、 183
23
+ 代 172
24
+ 大 161
25
+ 文 159
26
+ 地 156
27
+ ” 149
28
+ “ 149
29
+ 时 144
30
+ 政 138
31
+ 朝 136
32
+ 后 134
33
+ 日 132
34
+ 之 132
35
+ 國 129
36
+ 等 129
37
+ 华 128
38
+ 成 115
39
+ 族 114
40
+ _年 113
41
+ 》 110
42
+ 《 109
43
+ 上 105
44
+ 中华 103
45
+ 方 103
46
+ : 103
47
+ 史 101
48
+ 立 100
49
+ 发 99
50
+ ,中 99
51
+ 于 98
52
+ 期 98
53
+ 共 96
54
+ 分 93
55
+ 经 93
56
+ 化 93
57
+ ) 92
58
+ ( 92
59
+ 而 92
60
+ 历 91
61
+ 不 91
62
+ 月 88
63
+ 其 87
64
+ 主 86
65
+ 家 85
66
+ 建 84
67
+ 到 82
68
+ 前 80
69
+ 统 80
70
+ 世 79
71
+ 外 78
72
+ 也 77
73
+ 个 76
74
+ 自 76
75
+ 最 76
76
+ 治 75
77
+ 出 74
78
+ 汉 74
79
+ 称 73
80
+ 多 72
81
+ 学 72
82
+ 行 71
83
+ 古 71
84
+ 制 71
85
+ 民族 69
86
+ 文化 69
87
+ 并 69
88
+ _中 68
89
+ 现 68
90
+ 天 68
91
+ 及 66
92
+ 与 65
93
+ 区 65
94
+ 人民 65
95
+ 入 64
96
+ 法 63
97
+ 战 63
98
+ 」 63
99
+ 「 63
100
+ 共和 62
101
+ 开 62
102
+ 三 61
103
+ ,中国 61
104
+ 要 60
105
+ 来 60
106
+ 府 60
107
+ 政府 59
108
+ ; 59
109
+ 和国 58
110
+ 用 58
111
+ 民共和 57
112
+ 对 57
113
+ 人民共 57
114
+ 民共 57
115
+ 界 57
116
+ 西 56
117
+ 历史 56
118
+ 本 56
119
+ 明 56
120
+ 字 56
121
+ 华人 55
122
+ 共和国 55
123
+ 教 55
124
+ 国家 54
125
+ 华人民 54
126
+ 中华人 54
127
+ 十 53
128
+ 世界 53
129
+ 传 53
130
+ 《》 52
131
+ 各 52
132
+ 北 51
133
+ 第 51
134
+ 展 50
135
+ 国的 50
136
+ 。中 49
137
+ 清 49
138
+ 建立 49
139
+ 地区 49
140
+ 被 49
141
+ 定 49
142
+ 同 49
143
+ 所 48
144
+ 重 48
145
+ 為 48
146
+ 始 47
147
+ 二 47
148
+ ,并 47
149
+ 会 46
150
+ 度 46
151
+ 如 46
152
+ 作 45
153
+ 系 45
154
+ 台 45
155
+ 王 45
156
+ 交 45
157
+ 下 44
158
+ 、等 44
159
+ 部 43
160
+ 过 43
161
+ 但 43
162
+ 南 43
163
+ 关 42
164
+ 平 42
165
+ 次 42
166
+ 中國 42
167
+ 生 42
168
+ 至 42
169
+ 初 42
170
+ 内 42
171
+ 体 42
172
+ 四 41
173
+ _中国 41
174
+ ,以 41
175
+ 时期 40
176
+ 此 40
177
+ 进 40
178
+ 发展 40
179
+ ,_ 40
180
+ 夏 40
181
+ 正 39
182
+ 义 39
183
+ 華 39
184
+ 的, 39
185
+ 社 39
186
+ 由 39
187
+ 实 39
188
+ _: 38
189
+ 数 38
190
+ 使 38
191
+ 长 38
192
+ 领 38
193
+ 起 38
194
+ 都 38
195
+ 民国 37
196
+ 还 37
197
+ 中华民 37
198
+ 得 37
199
+ 。中国 37
200
+ 华民 37
201
+ 目 37
202
+ 面 37
203
+ 权 37
204
+ 的中 37
205
+ 东 36
206
+ 济 36
207
+ _月 36
208
+ 经济 36
209
+ 日本 35
210
+ 开始 35
211
+ 当 35
212
+ 国, 35
213
+ 着 35
214
+ 全 35
215
+ 名 35
216
+ 中国的 35
217
+ 原 35
218
+ ,其 34
219
+ ,在 34
220
+ 周 34
221
+ 力 34
222
+ 古代 34
223
+ 近 33
224
+ ”, 33
225
+ 已 33
226
+ 五 33
227
+ 又 33
228
+ 后, 33
229
+ 今 33
230
+ 西方 33
231
+ 军 32
232
+ 帝 32
233
+ 两 32
234
+ 、、等 32
235
+ 中華 32
236
+ 高 32
237
+ 华民国 32
238
+ 口 31
239
+ “中 31
240
+ 间 31
241
+ 表 31
242
+ 通 31
243
+ 日, 31
244
+ 约 31
245
+ 事 31
246
+ 元 30
247
+ “” 30
248
+ _日 30
249
+ 湾 30
250
+ 公 30
251
+ ,但 30
252
+ 党 30
253
+ 台湾 30
254
+ 形 30
255
+ 域 29
256
+ 直 29
257
+ 节 29
258
+ 子 29
259
+ 土 29
260
+ 或 29
261
+ 认 29
262
+ 主要 29
263
+ _, 28
264
+ 受 28
265
+ 逐 28
266
+ 则 28
267
+ 王朝 28
268
+ 强 28
269
+ 这 28
270
+ 流 28
271
+ 然 27
272
+ 史上 27
273
+ 代中 27
274
+ 月_ 27
275
+ 目前 27
276
+ 取 27
277
+ 理 27
278
+ 陆 27
279
+ _月_ 27
280
+ 期, 27
281
+ 际 27
282
+ 》, 27
283
+ 、和 27
284
+ 文字 27
285
+ 从 26
286
+ 他 26
287
+ 社会 26
288
+ 据 26
289
+ 动 26
290
+ 位 26
291
+ 新 26
292
+ 影 26
293
+ 合 26
294
+ 早 26
295
+ 思 26
296
+ 种 26
297
+ ,而 26
298
+ 一个 26
299
+ 少 25
300
+ 以及 25
301
+ 渐 25
302
+ 接 25
303
+ 人口 25
304
+ 布 25
305
+ 「」 25
306
+ 式 25
307
+ 八 24
308
+ 假 24
309
+ 中華民 24
310
+ ,《 24
311
+ 常 24
312
+ 传统 24
313
+ 代表 24
314
+ 想 24
315
+ 華民 24
316
+ 争 24
317
+ 皇 23
318
+ 道 23
319
+ 夷 23
320
+ 華民國 23
321
+ 就 23
322
+ 思想 23
323
+ 书 23
324
+ 相 23
325
+ 千 23
326
+ 产 23
327
+ 加 23
328
+ 推 23
329
+ 汉族 23
330
+ 民國 23
331
+ 在中 23
332
+ 政治 22
333
+ 海 22
334
+ 可 22
335
+ 导 22
336
+ 放 22
337
+ 科 22
338
+ 即 22
339
+ 影响 22
340
+ 改 22
341
+ 部分 22
342
+ 特 22
343
+ 列 22
344
+ ), 22
345
+ 者 22
346
+ 第一 22
347
+ 以后 22
348
+ 是中 22
349
+ 响 22
350
+ 稱 21
351
+ 先 21
352
+ 大陆 21
353
+ 商 21
354
+ 成立 21
355
+ 後 21
356
+ 国际 21
357
+ 年的 21
358
+ 礼 21
359
+ 等。 21
360
+ 時 21
361
+ 总 21
362
+ 。在 21
363
+ 达 21
364
+ 逐渐 21
365
+ 成为 21
366
+ 组 21
367
+ 岸 21
368
+ 制度 21
369
+ 除 21
370
+ 因 21
371
+ 较 20
372
+ 之一 20
373
+ 代中国 20
374
+ 出现 20
375
+ 源 20
376
+ 均 20
377
+ 别 20
378
+ 於 20
379
+ 历史上 20
380
+ 月初 20
381
+ 年, 20
382
+ 六 20
383
+ 国” 20
384
+ 美 20
385
+ 包 20
386
+ 中国, 20
387
+ 河 19
388
+ ,中华 19
389
+ “中国 19
390
+ 持 19
391
+ 服 19
392
+ 版 19
393
+ 术 19
394
+ 居 19
395
+ 年代 19
396
+ 技 19
397
+ :_ 19
398
+ 非 19
399
+ 少数 19
400
+ 业 19