scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 1796
2
- a 547
3
- e 412
4
- i 393
5
- o 344
6
- l 286
7
- n 248
8
- r 246
9
- a_ 240
10
- s 208
11
- c 206
12
- e_ 185
13
- t 184
14
- d 170
15
- o_ 151
16
- i_ 131
17
- u 124
18
- v 121
19
- p 105
20
- m 103
21
- _c 97
22
- _s 96
23
- _d 93
24
- _a 84
25
- l_ 67
26
- la 65
27
- _p 62
28
- g 61
29
- ar 59
30
- er 59
31
- an 57
32
- _l 55
33
- h 54
34
- co 53
35
- ri 52
36
- re 51
37
- ll 51
38
- la_ 51
39
- _i 51
40
- _m 50
41
- no 47
42
- ra 46
43
- ch 46
44
- di 46
45
- _e 45
46
- el 45
47
- to 44
48
- va 43
49
- se 43
50
- n_ 43
51
- b 43
52
- _di 42
53
- ia 42
54
- _v 42
55
- _n 41
56
- f 41
57
- in 40
58
- av 38
59
- _co 38
60
- al 38
61
- do 37
62
- to_ 36
63
- on 36
64
- or 35
65
- re_ 35
66
- na 35
67
- ca 34
68
- li 34
69
- ta 34
70
- en 34
71
- pe 33
72
- si 32
73
- ma 31
74
- va_ 31
75
- ve 31
76
- ol 30
77
- de 30
78
- sa 30
79
- da 30
80
- lla 30
81
- le 30
82
- cc 29
83
- lla_ 28
84
- _f 28
85
- io 28
86
- as 28
87
- _e_ 27
88
- _u 27
89
- il 27
90
- no_ 26
91
- _pe 26
92
- ne 26
93
- nd 26
94
- tt 26
95
- ia_ 26
96
- il_ 25
97
- _il_ 25
98
- gli 25
99
- st 25
100
- gl 25
101
- _il 25
102
- nt 25
103
- _ch 25
104
- _se 24
105
- ra_ 24
106
- ell 24
107
- na_ 24
108
- _de 24
109
- che 23
110
- _qu 23
111
- he 23
112
- _ca 23
113
- le_ 23
114
- io_ 23
115
- he_ 23
116
- at 23
117
- om 23
118
- che_ 23
119
- q 23
120
- me 23
121
- se_ 23
122
- _q 23
123
- qu 23
124
- ti 23
125
- _b 23
126
- di_ 22
127
- _un 22
128
- un 22
129
- ci 22
130
- lo 22
131
- _di_ 22
132
- vi 22
133
- _che 22
134
- _ma 22
135
- _la 21
136
- pa 21
137
- te 21
138
- si_ 21
139
- z 20
140
- _del 20
141
- _g 20
142
- del 20
143
- vo 20
144
- ava 20
145
- r_ 19
146
- per 19
147
- _si 19
148
- _t 19
149
- ss 19
150
- _per 19
151
- ev 18
152
- et 18
153
- es 18
154
- and 18
155
- _no 18
156
- _r 18
157
- is 18
158
- _la_ 17
159
- hi 17
160
- _in 17
161
- era 17
162
- po 17
163
- ne_ 16
164
- li_ 16
165
- _al 16
166
- os 16
167
- _vi 16
168
- ua 16
169
- chi 16
170
- el_ 16
171
- sc 16
172
- _a_ 16
173
- ie 16
174
- _su 15
175
- sa_ 15
176
- ro 15
177
- eva 15
178
- mo 15
179
- are 15
180
- ic 15
181
- su 15
182
- com 15
183
- ava_ 15
184
- lo_ 15
185
- all 15
186
- tto 15
187
- tr 15
188
- _com 15
189
- it 15
190
- era_ 14
191
- ano 14
192
- ndo 14
193
- ta_ 14
194
- per_ 14
195
- er_ 14
196
- fa 14
197
- ad 14
198
- are_ 14
199
- in_ 14
200
- gli_ 14
201
- ano_ 14
202
- ac 14
203
- _in_ 14
204
- on_ 14
205
- _non 13
206
- mp 13
207
- qua 13
208
- oc 13
209
- mi 13
210
- tto_ 13
211
- _av 13
212
- tu 13
213
- _do 13
214
- non 13
215
- un_ 13
216
- te_ 13
217
- _si_ 13
218
- do_ 13
219
- _qua 13
220
- ari 13
221
- so 13
222
- ella 13
223
- ur 13
224
- _un_ 13
225
- 12
226
- ut 12
227
- _ve 12
228
- eva_ 12
229
- _er 12
230
- _gl 12
231
- _o 12
232
- uo 12
233
- col 12
234
- me_ 12
235
- _gli 12
236
- sse 12
237
- _l_ 12
238
- ce 12
239
- non_ 12
240
- da_ 12
241
- id 12
242
- ni 12
243
- be 12
244
- _tu 12
245
- pr 12
246
- ue 12
247
- �_ 12
248
- ti_ 12
249
- pi 11
250
- _ave 11
251
- _era 11
252
- _da 11
253
- fi 11
254
- _col 11
255
- cch 11
256
- ul 11
257
- _cas 11
258
- ave 11
259
- _ri 11
260
- ig 11
261
- _fa 11
262
- acc 11
263
- gn 11
264
- _sa 11
265
- ome 11
266
- dd 11
267
- _ne 11
268
- cas 11
269
- cchi 10
270
- man 10
271
- _que 10
272
- _all 10
273
- zi 10
274
- _st 10
275
- casa 10
276
- ale 10
277
- _mo 10
278
- ent 10
279
- dell 10
280
- ato 10
281
- rr 10
282
- am 10
283
- asa_ 10
284
- ndo_ 10
285
- ome_ 10
286
- que 10
287
- _vo 10
288
- asa 10
289
- og 10
290
- _pa 10
291
- sse_ 9
292
- van 9
293
- u_ 9
294
- sta 9
295
- ato_ 9
296
- uri 9
297
- bi 9
298
- 9
299
- anda 9
300
- rid 9
301
- del_ 9
302
- ess 9
303
- _me 9
304
- ot 9
305
- _an 9
306
- oi 9
307
- ale_ 9
308
- come 9
309
- _le 9
310
- _be 9
311
- far 9
312
- �_ 9
313
- iv 9
314
- nda 9
315
- par 9
316
- ando 9
317
- una_ 8
318
- vano 8
319
- hi_ 8
320
- occ 8
321
- ina 8
322
- _pi 8
323
- ir 8
324
- ora 8
325
- ene 8
326
- _pr 8
327
- _lo 8
328
- ant 8
329
- con 8
330
- _una 8
331
- oi_ 8
332
- cco 8
333
- nz 8
334
- ba 8
335
- ridd 8
336
- _i_ 8
337
- _se_ 8
338
- uel 8
339
- _le_ 8
340
- ap 8
341
- idd 8
342
- una 8
343
- ser 8
344
- zia 7
345
- _tur 7
346
- cia 7
347
- nto 7
348
- pre 7
349
- alla 7
350
- dav 7
351
- _far 7
352
- _con 7
353
- rv 7
354
- ola 7
355
- coll 7
356
- tur 7
357
- ere 7
358
- so_ 7
359
- gi 7
360
- rc 7
361
- em 7
362
- ett 7
363
- ogl 7
364
- utt 7
365
- llo 7
366
- oll 7
367
- tra 7
368
- quel 7
369
- _ar 7
370
- ogli 7
371
- mpa 7
372
- dava 7
373
- co_ 7
374
- _ad 7
375
- sp 7
376
- za 7
377
- chi_ 7
378
- turi 7
379
- sin 6
380
- _sc 6
381
- po_ 6
382
- du_ 6
383
- h�_ 6
384
- esse 6
385
- rre 6
386
- rm 6
387
- i�_ 6
388
- quan 6
389
- pp 6
390
- nte 6
391
- _fu 6
392
- iddu 6
393
- cci 6
394
- _san 6
395
- riv 6
396
- avev 6
397
- ai 6
398
- ddu 6
399
- �_ 6
400
- i� 6
1
+ _ 25018
2
+ i 7890
3
+ e 7568
4
+ a 6866
5
+ o 5447
6
+ l 5169
7
+ n 4735
8
+ t 4383
9
+ r 3741
10
+ e_ 3023
11
+ s 2828
12
+ d 2654
13
+ c 2619
14
+ a_ 2556
15
+ i_ 2309
16
+ o_ 1909
17
+ p 1868
18
+ _d 1766
19
+ u 1736
20
+ m 1497
21
+ l_ 1419
22
+ _i 1292
23
+ on 1109
24
+ _s 1098
25
+ _a 1095
26
+ al 1081
27
+ _c 1073
28
+ el 1027
29
+ _e 1005
30
+ g 964
31
+ de 933
32
+ co 915
33
+ ta 900
34
+ _p 899
35
+ ri 894
36
+ _l 887
37
+ la 876
38
+ en 849
39
+ an 839
40
+ v 828
41
+ li 817
42
+ nt 811
43
+ di 802
44
+ te 788
45
+ in 787
46
+ ne 787
47
+ ll 784
48
+ ti 777
49
+ _de 757
50
+ er 757
51
+ la_ 715
52
+ no 707
53
+ it 706
54
+ re 699
55
+ ra 688
56
+ to 665
57
+ io 644
58
+ le 638
59
+ at 632
60
+ _e_ 632
61
+ del 616
62
+ z 608
63
+ f 603
64
+ or 599
65
+ _di 589
66
+ ia 575
67
+ il 571
68
+ st 558
69
+ _n 541
70
+ si 538
71
+ ell 535
72
+ ic 534
73
+ _co 530
74
+ le_ 505
75
+ di_ 503
76
+ ni 502
77
+ me 499
78
+ no_ 485
79
+ ar 477
80
+ es 473
81
+ ent 473
82
+ n_ 467
83
+ tr 459
84
+ na 456
85
+ to_ 450
86
+ ol 439
87
+ ca 438
88
+ se 423
89
+ tt 420
90
+ _m 418
91
+ el_ 414
92
+ _in 411
93
+ po 407
94
+ is 400
95
+ _r 400
96
+ pe 387
97
+ il_ 385
98
+ _la 381
99
+ _il 380
100
+ ion 377
101
+ h 377
102
+ ro 376
103
+ te_ 365
104
+ ne_ 363
105
+ pr 362
106
+ ali 358
107
+ da 357
108
+ ci 355
109
+ b 350
110
+ con 344
111
+ ti_ 344
112
+ re_ 342
113
+ lla 333
114
+ so 333
115
+ _t 331
116
+ _ne 328
117
+ zi 327
118
+ ita 323
119
+ un 323
120
+ _al 320
121
+ ch 318
122
+ ma 302
123
+ pa 296
124
+ om 296
125
+ _u 291
126
+ tal 285
127
+ _f 284
128
+ ia_ 284
129
+ nd 279
130
+ ta_ 277
131
+ li_ 277
132
+ nel 274
133
+ nte 273
134
+ do 270
135
+ lo 267
136
+ rt 265
137
+ zio 265
138
+ he 257
139
+ one 256
140
+ che 255
141
+ _da 253
142
+ _pr 252
143
+ ni_ 251
144
+ im 250
145
+ he_ 247
146
+ lia 244
147
+ _l_ 242
148
+ os 242
149
+ ce 241
150
+ vi 241
151
+ per 238
152
+ ve 237
153
+ _g 236
154
+ si_ 236
155
+ _un 235
156
+ et 234
157
+ mi 232
158
+ _se 228
159
+ tu 225
160
+ ono 224
161
+ men 222
162
+ _it 221
163
+ ur 221
164
+ op 220
165
+ va 211
166
+ iv 209
167
+ na_ 209
168
+ ec 207
169
+ ss 207
170
+ in_ 204
171
+ ale 203
172
+ gi 202
173
+ ll_ 202
174
+ sc 201
175
+ all 201
176
+ _si 200
177
+ ie 197
178
+ _v 196
179
+ eg 195
180
+ _o 193
181
+ fi 190
182
+ pi 190
183
+ az 187
184
+ ra_ 187
185
+ ica 186
186
+ _ri 185
187
+ azi 184
188
+ ca_ 183
189
+ sti 182
190
+ lo_ 180
191
+ ist 179
192
+ _ch 177
193
+ _pe 177
194
+ su 175
195
+ ano 173
196
+ as 172
197
+ _so 171
198
+ nti 170
199
+ ori 169
200
+ _pa 169
201
+ mp 169
202
+ mo 167
203
+ tra 167
204
+ com 165
205
+ lt 165
206
+ ter 164
207
+ ato 164
208
+ _po 163
209
+ q 156
210
+ qu 156
211
+ al_ 155
212
+ _le 155
213
+ lle 155
214
+ ian 153
215
+ _a_ 153
216
+ _i_ 152
217
+ tor 152
218
+ ri_ 151
219
+ è 151
220
+ è_ 151
221
+ _su 151
222
+ ant 151
223
+ _è_ 150
224
+ 150
225
+ em 148
226
+ ui 148
227
+ ati 147
228
+ ico 147
229
+ ue 146
230
+ am 145
231
+ d_ 145
232
+ nc 145
233
+ gl 144
234
+ sp 144
235
+ za 144
236
+ ett 143
237
+ col 143
238
+ gli 142
239
+ do_ 139
240
+ ua 138
241
+ _st 138
242
+ nn 137
243
+ à_ 135
244
+ pre 135
245
+ ut 135
246
+ à 135
247
+ io_ 135
248
+ _ca 134
249
+ nta 133
250
+ tic 133
251
+ oni 132
252
+ _an 132
253
+ me_ 131
254
+ sa 131
255
+ nz 130
256
+ ed 129
257
+ cu 128
258
+ dal 128
259
+ on_ 128
260
+ ag 128
261
+ _q 127
262
+ _qu 127
263
+ pp 126
264
+ eco 126
265
+ ndo 125
266
+ ad 125
267
+ rat 124
268
+ att 123
269
+ _tr 121
270
+ ot 121
271
+ fo 120
272
+ olo 120
273
+ art 120
274
+ ran 120
275
+ ge 119
276
+ ov 119
277
+ ap 119
278
+ r_ 118
279
+ oc 118
280
+ ntr 117
281
+ sta 116
282
+ 115
283
+ tà_ 115
284
+ ond 115
285
+ _me 115
286
+ cc 114
287
+ eri 114
288
+ da_ 114
289
+ ort 112
290
+ tto 112
291
+ gu 112
292
+ gr 112
293
+ _re 111
294
+ ess 110
295
+ par 110
296
+ pro 110
297
+ ito 110
298
+ nto 109
299
+ _ma 109
300
+ ese 108
301
+ ome 108
302
+ _es 108
303
+ un_ 106
304
+ res 106
305
+ est 105
306
+ iz 105
307
+ _te 105
308
+ ari 105
309
+ er_ 105
310
+ co_ 105
311
+ tat 104
312
+ ro_ 103
313
+ ei 103
314
+ du 103
315
+ tan 102
316
+ id 101
317
+ por 100
318
+ str 99
319
+ ric 99
320
+ ost 98
321
+ son 98
322
+ ma_ 98
323
+ _pi 97
324
+ ani 97
325
+ se_ 97
326
+ rio 97
327
+ era 97
328
+ ura 97
329
+ _mo 97
330
+ ei_ 97
331
+ rr 96
332
+ so_ 96
333
+ _no 96
334
+ og 96
335
+ pri 95
336
+ ann 95
337
+ ig 94
338
+ ata 94
339
+ oli 93
340
+ are 93
341
+ ici 93
342
+ sec 92
343
+ av 92
344
+ bi 92
345
+ od 91
346
+ tte 91
347
+ rd 91
348
+ ul 91
349
+ vo 91
350
+ za_ 91
351
+ cen 90
352
+ _fi 90
353
+ ir 89
354
+ tri 89
355
+ uo 89
356
+ ris 89
357
+ ona 88
358
+ nal 88
359
+ tre 88
360
+ lu 87
361
+ ont 87
362
+ ola 86
363
+ gg 86
364
+ gio 86
365
+ ssi 86
366
+ ope 85
367
+ gra 85
368
+ int 85
369
+ ili 85
370
+ enz 84
371
+ ini 83
372
+ nza 83
373
+ ev 82
374
+ _ar 82
375
+ rit 82
376
+ rm 82
377
+ _fo 82
378
+ rn 81
379
+ rs 81
380
+ x 81
381
+ opo 81
382
+ ver 80
383
+ una 80
384
+ nu 80
385
+ _b 79
386
+ pol 79
387
+ _do 79
388
+ tta 78
389
+ ste 78
390
+ us 76
391
+ rti 76
392
+ ana 76
393
+ rim 75
394
+ _ci 75
395
+ ore 74
396
+ tur 74
397
+ ien 74
398
+ tro 74
399
+ eu 74
400
+ app 74