scylla 0.9.3 → 1.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (86) hide show
  1. checksums.yaml +7 -0
  2. data/README.rdoc +3 -12
  3. data/bin/scylla +1 -1
  4. data/lib/scylla/classifier.rb +3 -2
  5. data/lib/scylla/generator.rb +11 -4
  6. data/lib/scylla/lms/arabic.lm +400 -400
  7. data/lib/scylla/lms/bulgarian.lm +400 -400
  8. data/lib/scylla/lms/catalan.lm +400 -400
  9. data/lib/scylla/lms/chinese.lm +395 -395
  10. data/lib/scylla/lms/czech.lm +397 -397
  11. data/lib/scylla/lms/danish.lm +372 -372
  12. data/lib/scylla/lms/dutch.lm +382 -382
  13. data/lib/scylla/lms/english.lm +378 -378
  14. data/lib/scylla/lms/finnish.lm +388 -388
  15. data/lib/scylla/lms/french.lm +392 -392
  16. data/lib/scylla/lms/german.lm +396 -396
  17. data/lib/scylla/lms/greek.lm +400 -400
  18. data/lib/scylla/lms/hebrew.lm +400 -400
  19. data/lib/scylla/lms/hindi.lm +399 -399
  20. data/lib/scylla/lms/icelandic.lm +225 -225
  21. data/lib/scylla/lms/indonesian.lm +391 -391
  22. data/lib/scylla/lms/italian.lm +382 -382
  23. data/lib/scylla/lms/japanese.lm +400 -400
  24. data/lib/scylla/lms/kannada.lm +392 -392
  25. data/lib/scylla/lms/korean.lm +391 -391
  26. data/lib/scylla/lms/marathi.lm +388 -388
  27. data/lib/scylla/lms/norwegian.lm +375 -375
  28. data/lib/scylla/lms/persian.lm +399 -399
  29. data/lib/scylla/lms/polish.lm +399 -399
  30. data/lib/scylla/lms/portuguese.lm +390 -390
  31. data/lib/scylla/lms/romanian.lm +353 -353
  32. data/lib/scylla/lms/russian.lm +400 -400
  33. data/lib/scylla/lms/slovak.lm +361 -361
  34. data/lib/scylla/lms/slovenian.lm +273 -273
  35. data/lib/scylla/lms/spanish.lm +371 -371
  36. data/lib/scylla/lms/swedish.lm +400 -400
  37. data/lib/scylla/lms/tagalog.lm +295 -295
  38. data/lib/scylla/lms/thai.lm +400 -400
  39. data/lib/scylla/lms/turkish.lm +377 -377
  40. data/lib/scylla/lms/vietnamese.lm +400 -400
  41. data/lib/scylla/lms/welsh.lm +311 -311
  42. data/lib/scylla/loader.rb +1 -1
  43. data/test/classifier_test.rb +6 -4
  44. data/test/fixtures/lms/arabic.lm +400 -0
  45. data/test/fixtures/lms/bulgarian.lm +400 -0
  46. data/test/fixtures/lms/catalan.lm +400 -0
  47. data/test/fixtures/lms/chinese.lm +400 -0
  48. data/test/fixtures/lms/czech.lm +400 -0
  49. data/test/fixtures/lms/danish.lm +399 -399
  50. data/test/fixtures/lms/dutch.lm +400 -0
  51. data/test/fixtures/lms/english.lm +400 -400
  52. data/test/fixtures/lms/finnish.lm +400 -0
  53. data/test/fixtures/lms/french.lm +397 -397
  54. data/test/fixtures/lms/german.lm +400 -400
  55. data/test/fixtures/lms/greek.lm +400 -0
  56. data/test/fixtures/lms/hebrew.lm +400 -0
  57. data/test/fixtures/lms/hindi.lm +400 -400
  58. data/test/fixtures/lms/icelandic.lm +400 -0
  59. data/test/fixtures/lms/indonesian.lm +400 -0
  60. data/test/fixtures/lms/italian.lm +400 -400
  61. data/test/fixtures/lms/japanese.lm +400 -400
  62. data/test/fixtures/lms/kannada.lm +400 -0
  63. data/test/fixtures/lms/korean.lm +400 -0
  64. data/test/fixtures/lms/marathi.lm +400 -0
  65. data/test/fixtures/lms/norwegian.lm +399 -399
  66. data/test/fixtures/lms/persian.lm +400 -0
  67. data/test/fixtures/lms/polish.lm +400 -0
  68. data/test/fixtures/lms/portuguese.lm +400 -0
  69. data/test/fixtures/lms/romanian.lm +400 -0
  70. data/test/fixtures/lms/russian.lm +400 -0
  71. data/test/fixtures/lms/slovak.lm +400 -0
  72. data/test/fixtures/lms/slovenian.lm +400 -0
  73. data/test/fixtures/lms/spanish.lm +400 -400
  74. data/test/fixtures/lms/swedish.lm +400 -0
  75. data/test/fixtures/lms/tagalog.lm +400 -0
  76. data/test/fixtures/lms/thai.lm +400 -0
  77. data/test/fixtures/lms/turkish.lm +400 -0
  78. data/test/fixtures/lms/vietnamese.lm +400 -0
  79. data/test/fixtures/lms/welsh.lm +400 -0
  80. data/test/fixtures/test_languages/japanese +149 -67
  81. data/test/generator_test.rb +2 -44
  82. data/test/helper.rb +3 -3
  83. data/test/language_test.rb +6 -2
  84. data/test/loader_test.rb +2 -2
  85. data/test/scylla_test.rb +7 -7
  86. metadata +144 -95
@@ -1,400 +1,400 @@
1
- _ 8136
2
- a 4662
3
- n 2659
4
- i 2220
5
- e 2125
6
- d 1389
7
- r 1214
8
- s 1194
9
- an 1176
10
- u 1091
11
- t 1070
12
- k 966
13
- m 924
14
- a_ 868
15
- g 868
16
- l 847
17
- n_ 820
18
- p 700
19
- _d 674
20
- an_ 664
21
- i_ 633
22
- b 621
23
- o 601
24
- h 578
25
- da 559
26
- ng 548
27
- er 486
28
- in 439
29
- y 422
30
- _m 411
31
- en 398
32
- _p 397
33
- di 390
34
- ya 373
35
- si 368
36
- ar 364
37
- la 356
38
- _s 349
39
- ta 341
40
- me 328
41
- ga 328
42
- ra 323
43
- _b 311
44
- ang 299
45
- _da 298
46
- g_ 290
47
- ah 289
48
- ng_ 288
49
- ka 286
50
- nd 282
51
- ia 280
52
- _me 279
53
- se 273
54
- _t 272
55
- h_ 270
56
- _i 269
57
- _di 264
58
- es 263
59
- _k 254
60
- on 250
61
- al 239
62
- be 236
63
- _se 232
64
- as 232
65
- pe 230
66
- ne 229
67
- _a 229
68
- j 228
69
- sa 228
70
- ba 224
71
- ad 222
72
- _in 218
73
- at 213
74
- dan 207
75
- ak 207
76
- pa 205
77
- ia_ 197
78
- k_ 195
79
- ma 194
80
- te 194
81
- ri 191
82
- un 188
83
- ind 185
84
- ke 184
85
- _pe 183
86
- _y 178
87
- ah_ 177
88
- _be 175
89
- esi 174
90
- _ya 174
91
- r_ 168
92
- na 167
93
- kan 167
94
- em 167
95
- do 165
96
- di_ 162
97
- men 161
98
- ndo 160
99
- el 160
100
- sia 159
101
- nes 159
102
- one 157
103
- don 157
104
- am 156
105
- ny 156
106
- yan 155
107
- _ke 154
108
- ai 150
109
- t_ 145
110
- ti 144
111
- is 144
112
- nya 138
113
- ada 137
114
- ja 135
115
- nt 135
116
- ara 133
117
- ber 131
118
- ha 131
119
- tu 130
120
- _te 130
121
- eng 130
122
- li 129
123
- ya_ 128
124
- s_ 125
125
- u_ 123
126
- ik 122
127
- ag 121
128
- de 121
129
- nga 120
130
- ek 118
131
- l_ 117
132
- il 115
133
- da_ 114
134
- eb 113
135
- gan 112
136
- _pa 111
137
- ua 111
138
- uk 110
139
- ri_ 108
140
- _l 107
141
- w 106
142
- c 106
143
- ter 106
144
- it 104
145
- ni 104
146
- era 103
147
- ela 101
148
- du 98
149
- ra_ 96
150
- per 96
151
- at_ 95
152
- aga 93
153
- us 93
154
- _n 92
155
- ul 91
156
- ala 91
157
- mi 88
158
- le 87
159
- _ba 87
160
- m_ 86
161
- lah 86
162
- asi 82
163
- _h 82
164
- bu 82
165
- ing 81
166
- si_ 80
167
- pad 79
168
- pu 79
169
- ut 79
170
- ari 79
171
- ru 79
172
- pen 78
173
- al_ 77
174
- mu 76
175
- _de 76
176
- rt 76
177
- un_ 75
178
- ap 75
179
- _o 75
180
- ki 74
181
- _j 74
182
- ai_ 74
183
- ama 74
184
- et 73
185
- ol 73
186
- asa 72
187
- ar_ 72
188
- lu 71
189
- wa 71
190
- aka 70
191
- e_ 70
192
- ju 69
193
- ir 68
194
- ak_ 68
195
- _ta 68
196
- _ma 68
197
- nta 68
198
- ay 67
199
- au 67
200
- re 66
201
- dar 66
202
- den 66
203
- hu 65
204
- seb 65
205
- or 64
206
- ga_ 64
207
- uk_ 64
208
- st 64
209
- tah 64
210
- bag 62
211
- mb 62
212
- ur 61
213
- ku 61
214
- nj 60
215
- tan 59
216
- mer 59
217
- ngg 58
218
- gg 58
219
- end 57
220
- f 57
221
- aa 57
222
- ata 57
223
- ta_ 56
224
- hi 56
225
- ko 56
226
- mp 55
227
- su 55
228
- eg 54
229
- ma_ 53
230
- ud 53
1
+ _ 9050
2
+ a 5286
3
+ n 2944
4
+ i 2449
5
+ e 2351
6
+ d 1552
7
+ r 1349
8
+ s 1336
9
+ an 1300
10
+ u 1221
11
+ t 1205
12
+ k 1065
13
+ a_ 1006
14
+ m 985
15
+ g 962
16
+ l 936
17
+ n_ 893
18
+ p 794
19
+ _d 730
20
+ an_ 716
21
+ b 692
22
+ i_ 686
23
+ h 671
24
+ o 660
25
+ da 640
26
+ ng 601
27
+ er 546
28
+ in 487
29
+ y 472
30
+ _p 465
31
+ _m 437
32
+ di 432
33
+ en 431
34
+ ya 418
35
+ ar 412
36
+ la 405
37
+ si 402
38
+ ta 391
39
+ _s 384
40
+ ga 361
41
+ ra 360
42
+ me 357
43
+ _b 352
44
+ ah 351
45
+ ang 329
46
+ _da 322
47
+ nd 319
48
+ g_ 314
49
+ ka 314
50
+ ng_ 312
51
+ ia 311
52
+ _t 310
53
+ _i 303
54
+ se 303
55
+ h_ 301
56
+ _me 301
57
+ es 292
58
+ _di 291
59
+ _k 284
60
+ on 275
61
+ al 274
62
+ ad 271
63
+ j 269
64
+ as 267
65
+ _a 263
66
+ be 261
67
+ ne 260
68
+ sa 260
69
+ pe 255
70
+ pa 254
71
+ ba 254
72
+ _se 252
73
+ _in 245
74
+ ak 240
75
+ at 235
76
+ ri 225
77
+ dan 217
78
+ te 217
79
+ ia_ 217
80
+ un 215
81
+ k_ 212
82
+ ke 208
83
+ ind 206
84
+ _pe 205
85
+ ah_ 202
86
+ ma 201
87
+ _y 194
88
+ _be 193
89
+ esi 192
90
+ _ya 190
91
+ r_ 186
92
+ kan 184
93
+ na 183
94
+ do 183
95
+ ada 181
96
+ em 181
97
+ ndo 179
98
+ el 178
99
+ ny 178
100
+ sia 178
101
+ nes 177
102
+ _ke 177
103
+ one 176
104
+ don 176
105
+ men 174
106
+ di_ 174
107
+ yan 169
108
+ ja 168
109
+ ha 165
110
+ t_ 164
111
+ am 164
112
+ ai 162
113
+ is 160
114
+ nya 159
115
+ da_ 156
116
+ ti 156
117
+ ara 155
118
+ tu 152
119
+ ber 150
120
+ nt 149
121
+ ya_ 149
122
+ _pa 147
123
+ s_ 146
124
+ _te 144
125
+ eng 139
126
+ li 138
127
+ u_ 137
128
+ ik 136
129
+ l_ 132
130
+ de 131
131
+ c 130
132
+ nga 127
133
+ ag 127
134
+ ua 126
135
+ il 124
136
+ ek 124
137
+ ri_ 122
138
+ eb 121
139
+ ter 121
140
+ it 120
141
+ gan 118
142
+ uk 117
143
+ pad 115
144
+ era 115
145
+ w 114
146
+ _l 113
147
+ ni 113
148
+ ela 112
149
+ ra_ 109
150
+ _ba 109
151
+ _n 106
152
+ per 104
153
+ ala 104
154
+ ul 103
155
+ du 102
156
+ us 101
157
+ at_ 100
158
+ lah 98
159
+ aga 97
160
+ ari 96
161
+ _j 94
162
+ mi 94
163
+ asa 94
164
+ pu 94
165
+ _h 93
166
+ le 93
167
+ ut 92
168
+ m_ 92
169
+ ing 91
170
+ asi 91
171
+ un_ 90
172
+ al_ 89
173
+ _ta 87
174
+ pen 86
175
+ bu 86
176
+ ru 85
177
+ si_ 84
178
+ ap 83
179
+ tah 82
180
+ _de 82
181
+ hu 81
182
+ ai_ 81
183
+ _o 81
184
+ rt 80
185
+ ki 80
186
+ e_ 79
187
+ et 79
188
+ aka 79
189
+ mu 78
190
+ ak_ 77
191
+ au 77
192
+ ama 77
193
+ ol 77
194
+ lu 76
195
+ ar_ 75
196
+ wa 75
197
+ ju 75
198
+ nta 75
199
+ dar 74
200
+ ir 74
201
+ ay 74
202
+ ur 73
203
+ re 72
204
+ ngg 71
205
+ gg 71
206
+ seb 70
207
+ st 70
208
+ ga_ 70
209
+ _ma 70
210
+ uk_ 69
211
+ tan 69
212
+ mb 68
213
+ den 68
214
+ mer 67
215
+ bag 67
216
+ ku 66
217
+ nj 66
218
+ ta_ 65
219
+ or 65
220
+ ata 64
221
+ eg 64
222
+ f 63
223
+ su 62
224
+ hi 62
225
+ end 62
226
+ aa 62
227
+ ahu 61
228
+ gar 61
229
+ hun 60
230
+ aha 60
231
+ ula 60
232
+ ko 59
233
+ adi 57
234
+ id 57
235
+ lan 57
236
+ ud 57
237
+ mp 57
238
+ gi 56
239
+ eri 56
240
+ _an 56
241
+ ma_ 55
242
+ _la 55
243
+ ert 54
244
+ _r 54
245
+ ab 53
246
+ dia 53
247
+ tar 53
231
248
  pr 53
232
- adi 52
233
- _la 51
234
- _r 51
235
- tar 51
236
- ert 51
237
- id 50
238
- mas 50
239
- gi 50
240
- eh 50
241
- gar 50
242
- _e 49
243
- mem 48
244
- ni_ 48
245
- ik_ 48
246
- ula 47
247
- eba 47
248
- rd 47
249
- ab 47
250
- dal 47
251
- ban 47
252
- lan 46
253
- hun 46
254
- sar 46
255
- eri 46
256
- lam 46
257
- _an 46
258
- aya 46
259
- aan 46
260
- ahu 46
261
- ih 45
262
- um 45
263
- as_ 45
264
- lai 44
265
- bi 44
266
- _sa 44
267
- eka 44
268
- ant 44
269
- dia 44
270
- san 43
249
+ dal 53
250
+ aya 52
251
+ ni_ 52
252
+ bi 52
253
+ _e 52
254
+ eh 52
255
+ mem 51
256
+ han 51
257
+ ep 51
258
+ ik_ 51
259
+ eba 51
260
+ lam 50
261
+ ega 50
262
+ aan 50
263
+ _ne 50
264
+ pul 50
265
+ _sa 50
266
+ ran 50
267
+ um 50
268
+ ban 50
269
+ sar 49
270
+ rd 49
271
+ mas 49
272
+ any 48
273
+ nda 48
274
+ _ad 48
275
+ tu_ 48
276
+ _u 48
277
+ io 47
278
+ po 47
279
+ ant 47
280
+ sa_ 47
281
+ ca 47
282
+ neg 47
283
+ lai 46
284
+ ih 46
285
+ eka 46
286
+ nja 46
287
+ as_ 46
288
+ om 46
289
+ aj 45
290
+ ndi 45
291
+ aw 45
292
+ _ha 45
293
+ san 45
294
+ enj 45
295
+ ain 44
296
+ rb 44
297
+ ian 44
298
+ awa 44
299
+ in_ 44
300
+ _ju 44
301
+ _w 44
302
+ erd 43
303
+ eme 43
304
+ erb 43
305
+ nal 43
306
+ ali 43
271
307
  esa 43
272
- po 43
273
- ep 43
274
- ran 43
275
- _ad 42
276
- _w 42
277
- om 42
278
- _u 42
279
- no 41
308
+ _ti 42
309
+ jad 42
310
+ emb 42
311
+ _ol 42
312
+ gai 42
280
313
  bes 41
281
- tu_ 41
282
- pul 41
283
- ain 41
284
- nda 41
285
- erd 41
286
- aw 41
287
- _ol 41
288
- awa 40
289
- ndi 40
290
- ega 40
291
- _ne 40
292
- nja 40
293
- in_ 40
294
- io 39
295
- aha 39
296
- _ti 39
297
- gai 39
298
- jad 39
299
- ca 39
300
- han 39
301
- any 39
302
- nal 39
303
- ian 39
304
- enj 39
305
- eh_ 38
306
- v 38
307
- apa 38
308
- ali 38
309
- eme 38
314
+ apa 41
315
+ au_ 41
316
+ v 41
317
+ _c 41
318
+ itu 40
319
+ lau 40
320
+ d_ 40
321
+ eh_ 40
322
+ ip 40
323
+ ila 40
324
+ and 40
325
+ no 40
326
+ ntu 40
327
+ _ja 40
328
+ ent 39
329
+ rn 39
330
+ ed 39
331
+ has 39
332
+ ion 38
333
+ p_ 38
334
+ gu 38
310
335
  _pr 38
311
- _ha 38
312
- ip 37
313
- ila 37
314
- neg 37
315
- aj 37
316
- _ju 37
317
- p_ 37
318
- rb 37
319
- emb 37
320
- ini 37
321
- ent 36
322
- erb 36
323
- isi 36
324
- ntu 36
325
- tr 36
336
+ isi 38
337
+ bah 38
338
+ rah 38
339
+ ini 38
340
+ _ka 38
341
+ rin 37
342
+ tr 37
343
+ dis 37
344
+ up 37
345
+ ole 37
346
+ leh 37
347
+ emi 36
348
+ am_ 36
349
+ sel 36
350
+ rk 36
326
351
  im 36
327
- man 35
328
- dis 35
329
- ole 35
330
- itu 35
352
+ lay 36
353
+ ana 36
354
+ mel 36
355
+ man 36
356
+ uh 36
357
+ _pu 35
358
+ nu 35
359
+ ena 35
360
+ mba 35
361
+ ut_ 35
362
+ is_ 35
363
+ eru 35
364
+ rs 35
331
365
  rta 35
332
- _c 35
333
- leh 35
334
- d_ 35
335
- gu 35
336
- au_ 35
366
+ _na 34
367
+ gga 34
368
+ ej 34
369
+ lo 34
370
+ gk 34
337
371
  ngk 34
338
- rk 34
339
- pi 34
372
+ _mu 34
340
373
  iri 34
341
- up 34
342
- ed 34
343
- gk 34
344
- ana 34
345
- mel 34
346
- am_ 34
347
- lay 34
348
- rn 34
349
- ion 33
350
- eru 33
374
+ uas 34
375
+ aja 34
376
+ mi_ 33
377
+ kh 33
378
+ ndu 33
351
379
  ro 33
352
- rs 33
353
- _ka 33
354
- lau 33
355
- rah 33
356
- _mu 33
357
- mba 33
358
- uh 33
359
- rin 32
360
- sel 32
361
- lo 32
362
- ndu 32
363
- ena 32
364
- mi_ 32
365
- _na 31
366
- uas 31
367
- emi 31
368
- sa_ 31
369
- to 31
370
- tel 30
371
- usa 30
372
- _bu 30
373
- ut_ 30
374
- gga 30
375
- and 29
376
- nny 29
377
- _pu 29
378
- nn 29
379
- tas 29
380
- ika 29
381
- ili 29
382
- _ja 29
383
- ih_ 29
384
- is_ 28
385
- _ek 28
386
- ke_ 28
387
- ej 28
388
- kat 28
389
- kh 28
390
- ung 28
391
- pat 28
392
- _re 28
393
- dir 28
394
- ita 28
395
- duk 28
396
- ebe 28
397
- ers 28
398
- uta 27
399
- yak 27
400
- int 27
380
+ pi 33
381
+ ika 33
382
+ to 33
383
+ int 32
384
+ ks 32
385
+ ung 32
386
+ ili 32
387
+ bel 32
388
+ nny 31
389
+ nn 31
390
+ tel 31
391
+ tas 31
392
+ nc 31
393
+ usa 31
394
+ _re 31
395
+ yak 31
396
+ ita 30
397
+ duk 30
398
+ _po 30
399
+ ke_ 30
400
+ tuk 30