scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 17188
2
- a 7968
3
- i 6792
4
- t 5717
5
- s 5599
6
- n 5405
7
- e 4930
8
- u 4121
9
- l 4107
10
- o 3824
11
- k 3088
12
- n_ 2738
13
- a_ 2558
14
- 2481
15
- m 2391
16
- 2172
17
- ä 2172
18
- v 1717
19
- r 1436
20
- en 1411
21
- j 1367
22
- is 1320
23
- ta 1192
24
- in 1117
25
- _s 1105
26
- st 1059
27
- y 1007
28
- en_ 968
29
- p 957
30
- h 919
31
- al 907
32
- _k 862
33
- an 859
34
- li 837
35
- si 837
36
- i_ 834
37
- _j 811
38
- uo 798
39
- ll 768
40
- sa 753
41
- ja 735
42
- se 730
43
- aa 729
44
- va 721
45
- _m 706
46
- ä_ 694
47
- �_ 694
48
- _v 685
49
- t_ 683
50
- it 674
51
- tt 671
52
- su 663
53
- ai 661
54
- ma 656
55
- la 651
56
- _o 641
57
- ti 627
58
- ka 625
59
- on 616
60
- te 611
61
- ja_ 576
62
- in_ 571
63
- ta_ 564
64
- tu 563
65
- _t 554
66
- _l 542
1
+ _ 17794
2
+ a 8212
3
+ i 7011
4
+ t 5906
5
+ s 5775
6
+ n 5574
7
+ e 5070
8
+ u 4250
9
+ l 4246
10
+ o 3954
11
+ k 3187
12
+ n_ 2826
13
+ a_ 2652
14
+ m 2465
15
+ ä 2237
16
+ v 1765
17
+ r 1465
18
+ en 1456
19
+ j 1420
20
+ is 1368
21
+ ta 1233
22
+ in 1154
23
+ _s 1143
24
+ st 1103
25
+ y 1051
26
+ en_ 1004
27
+ p 998
28
+ h 956
29
+ al 934
30
+ _k 907
31
+ i_ 880
32
+ an 874
33
+ si 871
34
+ li 849
35
+ _j 847
36
+ uo 829
37
+ ll 794
38
+ sa 773
39
+ ja 766
40
+ se 753
41
+ aa 748
42
+ va 745
43
+ _m 730
44
+ _v 708
45
+ ä_ 704
46
+ t_ 702
47
+ tt 690
48
+ ma 686
49
+ it 683
50
+ ai 682
51
+ la 675
52
+ su 672
53
+ _o 666
54
+ ti 647
55
+ on 641
56
+ ka 640
57
+ te 640
58
+ ja_ 598
59
+ ta_ 590
60
+ in_ 590
61
+ tu 575
62
+ _t 575
63
+ _l 560
64
+ el 544
65
+ _su 536
66
+ _ja 535
67
67
  d 533
68
- el 532
69
- _su 524
70
- es 524
71
- _ja 515
72
- om 514
73
- oi 498
74
- at 485
75
- t� 485
76
- _a 480
77
- me 476
78
- ss 468
79
- et 466
80
- as 456
81
- uu 455
82
- ist 448
83
- ku 447
84
- ko 443
85
- mi 441
86
- an_ 436
87
- suo 429
88
- lu 428
89
- _p 423
90
- uom 415
91
- 414
92
- il 412
93
- nt 407
94
- un 401
95
- on_ 394
96
- us 394
97
- ik 392
98
- ki 389
99
- ii 387
100
- ut 385
101
- sa_ 385
102
- _e 384
103
- sta 383
104
- ne 382
105
- ks 371
106
- to 369
107
- ke 369
108
- os 366
109
- ssa 358
110
- ol 354
111
- nn 345
112
- le 344
113
- ei 341
114
- na 337
115
- ri 328
116
- ee 326
117
- jo 312
118
- er 308
119
- 307
120
- ö 307
121
- ul 306
122
- ise 301
123
- _va 300
124
- _n 299
125
- vu 291
126
- ty 289
127
- de 288
128
- im 284
129
- lli 284
130
- _on 284
131
- lis 281
132
- ia 279
133
- l� 269
134
- ome 265
135
- at_ 263
136
- s_ 262
137
- 258
138
- �� 258
139
- �ä 258
140
- ä� 258
141
- mu 256
142
- _h 251
143
- ie 245
144
- aan 245
145
- ot 245
146
- ak 245
147
- s� 238
148
- lla 237
149
- 235
150
- la_ 234
151
- vi 232
152
- _ka 230
153
- sen 227
154
- e_ 226
155
- ais 225
156
- all 224
157
- _al 220
158
- ni 220
159
- ur 219
160
- uv 216
161
- lt 211
162
- _ma 210
163
- maa 208
164
- est 207
165
- ksi 205
166
- si_ 201
167
- _jo 200
68
+ om 531
69
+ es 530
70
+ oi 521
71
+ at 502
72
+ _a 494
73
+ me 489
74
+ et 480
75
+ ss 474
76
+ as 473
77
+ ist 470
78
+ ku 469
79
+ uu 464
80
+ ko 460
81
+ mi 454
82
+ lu 451
83
+ suo 440
84
+ an_ 440
85
+ _p 438
86
+ uom 426
87
+ nt 421
88
+ 418
89
+ un 418
90
+ il 418
91
+ ii 409
92
+ on_ 408
93
+ us 402
94
+ sta 402
95
+ ik 399
96
+ ut 397
97
+ ki 395
98
+ sa_ 392
99
+ _e 390
100
+ ne 390
101
+ to 389
102
+ ks 386
103
+ ke 374
104
+ os 370
105
+ ol 370
106
+ le 369
107
+ ssa 365
108
+ nn 361
109
+ ei 352
110
+ na 346
111
+ ee 345
112
+ ri 339
113
+ jo 323
114
+ ul 320
115
+ _va 315
116
+ ise 314
117
+ ö 314
118
+ er 313
119
+ vu 303
120
+ _n 298
121
+ _on 295
122
+ ty 295
123
+ im 292
124
+ lli 289
125
+ ia 288
126
+ de 285
127
+ lis 283
128
+ s_ 274
129
+ ome 271
130
+ at_ 271
131
+ ää 264
132
+ ak 263
133
+ _h 263
134
+ 261
135
+ mu 257
136
+ ot 254
137
+ la_ 249
138
+ lla 248
139
+ aan 246
140
+ 245
141
+ ie 241
142
+ _ka 238
143
+ e_ 236
144
+ sen 235
145
+ vi 235
146
+ all 234
147
+ ais 230
148
+ _al 226
149
+ ni 225
150
+ ur 224
151
+ _ma 221
152
+ maa 220
153
+ uv 220
154
+ ksi 217
155
+ lt 215
156
+ _ku 214
157
+ si_ 213
158
+ est 212
159
+ _jo 209
160
+ tä_ 208
161
+ pi 203
162
+ än 202
163
+ 201
164
+ sk 201
165
+ vat 201
168
166
  ra 199
169
- vat 196
170
- uk 196
171
- _mu 195
172
- _ku 195
167
+ _mu 198
168
+ uk 198
169
+ _r 196
170
+ tta 196
171
+ ns 195
172
+ een 195
173
173
  pa 194
174
- sk 194
175
- 193
176
- v� 193
177
- än 192
178
- �n 192
179
- ns 191
180
- ok 190
181
- _r 189
182
- tta 189
183
- ar 189
184
- pi 188
185
- itt 183
186
- men 183
187
- een 182
188
- ht 181
189
- ia_ 178
190
- ui 177
191
- ha 177
192
- val 177
193
- au 177
194
- lo 176
195
- kk 175
196
- no 174
197
- aa_ 174
198
- mm 173
199
- k� 172
174
+ ok 193
175
+ ht 191
176
+ men 189
177
+ ui 189
178
+ ar 188
179
+ ia_ 185
180
+ itt 184
181
+ val 183
182
+ lo 182
183
+ au 181
184
+ ti_ 179
185
+ aa_ 179
186
+ _y 178
187
+ mm 177
188
+ kk 176
189
+ ha 175
190
+ no 175
191
+ tti 175
192
+ isi 173
193
+ ala 171
200
194
  ill 171
201
- isi 170
202
- ala 170
203
- st� 169
204
- ti_ 168
205
- tti 168
206
- suu 167
207
- _y 167
208
- lai 161
195
+ iin 170
196
+ suu 168
197
+ o_ 164
198
+ am 163
199
+ 163
200
+ lai 162
201
+ _ko 161
202
+ _sa 160
203
+ na_ 160
204
+ av 159
209
205
  den 159
210
- iin 157
211
- _ko 157
212
- o_ 156
213
- av 156
214
- am 156
215
- 155
216
- na_ 154
217
- _sa 154
218
- oli 153
219
- m� 152
220
- nen 152
221
- 151
222
- ine 150
223
- vuo 148
224
- g 147
225
- et_ 147
226
- _ta 145
227
- 145
228
- iv 144
229
- pu 144
206
+ oli 158
207
+ 156
208
+ g 156
209
+ pu 156
210
+ nen 154
211
+ vuo 153
212
+ ine 152
213
+ _ta 150
214
+ iv 150
215
+ et_ 149
216
+ sti 148
217
+ ell 148
218
+ ts 147
219
+ nk 147
220
+ _lu 146
221
+ _tu 145
222
+ aj 145
223
+ so 145
224
+ _vu 144
225
+ ast 144
226
+ lk 144
227
+ he 143
228
+ eu 142
230
229
  ess 142
231
- nk 141
232
- y� 141
233
- sti 141
234
- ell 140
235
- rk 140
236
- lk 140
237
- so 140
238
- aj 139
239
- _vu 139
240
- _lu 139
241
- _tu 138
242
- eu 137
243
- _se 137
244
- j� 137
245
- he 136
246
- oma 136
230
+ _se 141
231
+ oma 140
232
+ kan 137
233
+ ste 137
234
+ rk 137
247
235
  ro 136
248
- kan 134
249
- ts 134
250
- ast 133
251
- ve 132
252
- ste 132
253
- io 132
254
- _ke 131
255
- 128
256
- _ol 127
257
- u_ 126
258
- lle 126
259
- 126
260
- un_ 126
261
- äl 125
262
- nna 125
263
- �l 125
264
- vo 125
265
- _� 124
266
- ain 123
267
- lm 123
268
- ett 122
269
- 121
270
-   121
271
- ek 121
272
- �i 120
273
- ru 120
274
- _  120
275
- ent 120
276
- �t 120
277
- ät 120
278
- taa 120
279
- eis 120
280
- äi 120
281
- ou 119
282
- ois 119
283
- alu 119
284
- n� 118
285
- kun 117
286
- utt 117
287
- ten 117
288
- ir 117
289
- em 116
290
- kse 116
291
- _i 116
292
- or 116
293
- op 116
294
- mis 115
295
- tel 112
296
- yt 112
297
- od 112
298
- _u 111
299
- sin 111
236
+ un_ 136
237
+ io 135
238
+ ve 134
239
+ _ol 134
240
+ lle 134
241
+ nna 132
242
+ 132
243
+ _ke 132
244
+ äl 131
245
+ eis 130
246
+ stä 129
247
+ ois 129
248
+ ät 129
249
+ alu 128
250
+ 127
251
+ ek 127
252
+ ain 126
253
+ ten 126
254
+ ou 126
255
+ lm 126
256
+ u_ 125
257
+ ett 124
258
+ vo 124
259
+ or 123
260
+ utt 123
261
+ ru 122
262
+ ir 122
263
+ taa 122
264
+ ent 122
265
+ äi 121
266
+ kun 121
267
+ mis 119
268
+ ue 118
269
+ _  118
270
+   118
271
+ tel 117
272
+ _i 117
273
+ op 117
274
+ em 117
275
+ yt 116
276
+ sin 115
277
+ kse 115
278
+ le_ 115
279
+ oh 114
280
+ än_ 114
281
+ od 114
282
+ _me 112
300
283
  ust 111
301
- li_ 110
302
- �n_ 110
303
- oh 109
304
- oit 109
305
- ue 109
306
- tt� 109
307
- id 109
308
- aik 108
309
- _me 108
310
- le_ 108
284
+ oit 111
285
+ li_ 111
286
+ aik 111
287
+ _u 110
288
+ lue 110
289
+ nta 110
290
+ uot 110
291
+ po 109
292
+ lin 107
311
293
  mal 106
312
- uot 105
313
- nta 105
294
+ id 106
295
+ ov 106
314
296
  nä 105
315
- ali 104
297
+ hi 105
298
+ _si 105
299
+ yh 105
300
+ alt 105
301
+ sto 105
302
+ ses 105
316
303
  _ha 104
317
- ov 104
318
- yk 103
319
- alt 102
320
- ien 102
321
- po 102
322
- iss 102
323
- ses 101
324
- lii 101
304
+ lii 104
305
+ ali 104
306
+ luv 104
307
+ ien 103
308
+ oll 103
309
+ yk 102
310
+ _la 102
311
+ je 102
312
+ mat 101
325
313
  lta 101
326
- _la 101
327
- _si 101
328
- lin 101
329
- oll 100
330
- je 100
331
- lue 100
332
- är 99
333
- �r 99
334
- yh 99
335
- ans 99
336
- luv 98
337
- pe 97
338
- hi 96
339
- mat 96
314
+ iss 101
315
+ är 101
316
+ ans 100
317
+ omi 100
318
+ ka_ 99
319
+ int 98
320
+ ud 98
321
+ lä_ 97
322
+ kuu 97
323
+ ttä 96
340
324
  ap 96
341
- ka_ 96
342
- int 96
325
+ pe 96
326
+ sä_ 96
327
+ ita 96
328
+ f 96
329
+ uvu 95
330
+ toi 95
331
+ unn 95
343
332
  uks 95
344
- ud 95
345
- sto 95
346
- ita 94
347
- omi 94
348
- p� 93
349
- ost 92
350
- ttu 92
333
+ äm 94
334
+ ttu 93
335
+ uur 93
336
+ ost 93
337
+ kaa 92
351
338
  nsa 92
352
- uur 92
353
- f 91
354
-  _ 91
355
- uvu 91
356
- �_ 91
357
- unn 91
358
- kuu 90
359
- tai 90
360
- kaa 90
361
- eh 89
362
- mes 89
363
- toi 88
364
- �m 88
365
- tet 88
366
- ika 88
367
- äm 88
368
- ova 88
369
- eli 87
370
- kes 87
371
- ava 87
372
- _to 86
373
- stu 86
374
- min 86
375
- ass 86
376
- utu 85
377
- joi 85
378
- tii 85
379
- my 85
339
+ tii 91
340
+ eh 91
341
+ tai 91
342
+ ova 90
343
+ _to 90
344
+ tet 90
345
+ ass 90
346
+ mes 90
347
+ _ _ 89
348
+  _ 89
349
+ ika 89
350
+ _li 89
351
+ min 88
352
+ ava 88
353
+ my 88
354
+ joi 88
355
+ utu 87
356
+ tei 87
357
+ stu 87
358
+ kes 86
359
+ uri 86
360
+ _ov 85
361
+ ään 85
362
+ _vä 85
380
363
  re 84
381
- _li 84
382
- uri 84
383
- tei 84
384
- ll� 83
385
- ide 83
386
- _ov 83
387
- i� 82
388
- oin 81
389
- _v� 81
390
- äk 81
391
- �k 81
364
+ yl 84
365
+ oin 84
366
+ eli 83
367
+ 83
368
+ mi_ 83
369
+ uon 83
370
+ sii 83
371
+ uus 83
372
+ ös 82
373
+ mp 82
374
+ ull 81
375
+ äh 81
376
+ ij 81
377
+ ide 81
378
+ tal 81
379
+ llä 81
392
380
  uva 80
381
+ äk 80
393
382
  osi 80
394
- ss� 79
395
- imm 79
383
+ _my 80
384
+ nu 80
385
+ imm 80
396
386
  ude 79
397
- _l� 79
398
- sii 79
399
- yl 79
400
- uus 78
387
+ tav 79
388
+ saa 78
389
+ sia 78
390
+ _po 78
391
+ us_ 78
392
+ ikk 78
393
+ ih 78
394
+ kau 78
395
+ myö 77
396
+ ssä 77
397
+ voi 77
398
+ ama 77
399
+ onn 77
400
+ ys 77