scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 28558
2
- e 9262
3
- a 8041
4
- o 5890
5
- n 5306
6
- s 5294
7
- i 4666
8
- r 4326
9
- l 4228
10
- d 3782
11
- t 3197
12
- c 3096
13
- a_ 2745
14
- s_ 2607
15
- e_ 2536
16
- u 2376
17
- _e 2165
18
- de 2022
19
- _d 1991
20
- p 1980
21
- 1910
22
- m 1872
23
- _de 1726
24
- o_ 1723
25
- n_ 1706
26
- en 1645
27
- es 1471
28
- _l 1443
29
- la 1316
30
- de_ 1298
31
- l_ 1200
32
- _c 1135
33
- os 1077
34
- _p 1052
35
- el 1042
36
- on 979
37
- os_ 966
38
- _la 965
39
- _a 963
40
- er 957
41
- as 891
42
- co 886
43
- _s 880
44
- el_ 848
45
- la_ 843
46
- ci 827
47
- te 821
48
- re 801
49
- nt 792
50
- g 775
51
- an 748
52
- ra 735
53
- b 732
54
- al 714
55
- _en 713
56
- en_ 698
57
- as_ 687
1
+ _ 28730
2
+ e 9319
3
+ a 8074
4
+ o 5889
5
+ n 5309
6
+ s 5298
7
+ i 4672
8
+ r 4349
9
+ l 4265
10
+ d 3819
11
+ t 3186
12
+ c 3100
13
+ a_ 2764
14
+ s_ 2599
15
+ e_ 2560
16
+ u 2374
17
+ _e 2190
18
+ de 2048
19
+ _d 2014
20
+ p 1986
21
+ m 1873
22
+ _de 1745
23
+ o_ 1729
24
+ n_ 1722
25
+ en 1646
26
+ es 1468
27
+ _l 1453
28
+ la 1334
29
+ de_ 1318
30
+ l_ 1220
31
+ _c 1143
32
+ os 1065
33
+ _p 1060
34
+ el 1057
35
+ on 980
36
+ _la 980
37
+ _a 970
38
+ er 960
39
+ os_ 955
40
+ as 893
41
+ co 891
42
+ _s 884
43
+ la_ 859
44
+ el_ 859
45
+ ci 829
46
+ te 820
47
+ re 804
48
+ g 784
49
+ nt 781
50
+ an 741
51
+ ra 736
52
+ _en 726
53
+ b 726
54
+ al 719
55
+ en_ 706
56
+ as_ 691
58
57
  or 686
59
- y 681
60
- es_ 679
61
- ta 669
62
- _co 657
63
- ad 643
64
- _el 639
65
- do 633
66
- pa 615
67
- ar 605
68
- ro 581
69
- _m 581
70
- ri 580
71
- st 577
72
- 577
73
- ó 576
74
- y_ 569
75
- ue 563
76
- in 547
77
- v 546
78
- f 532
79
- to 526
80
- ca 524
81
- lo 523
82
- _y 522
83
- _es 518
84
- na 515
85
- _y_ 505
86
- r_ 489
87
- da 483
58
+ y 682
59
+ es_ 678
60
+ ta 667
61
+ _co 663
62
+ ad 653
63
+ _el 650
64
+ do 638
65
+ pa 617
66
+ ar 614
67
+ ó 589
68
+ ri 587
69
+ _m 586
70
+ ro 584
71
+ st 573
72
+ y_ 572
73
+ ue 557
74
+ v 551
75
+ in 551
76
+ f 526
77
+ _y 524
78
+ na 520
79
+ _es 520
80
+ ca 520
81
+ lo 518
82
+ to 516
83
+ _y_ 510
84
+ r_ 490
85
+ da 485
88
86
  un 483
89
- _t 475
90
- se 471
91
- ent 461
92
- no 459
93
- ic 451
94
- con 448
95
- po 433
96
- ia 426
97
- ti 421
98
- í 420
99
- 420
100
- io 413
101
- _r 412
102
- le 400
87
+ se 476
88
+ _t 476
89
+ no 457
90
+ ent 455
91
+ con 451
92
+ ic 450
93
+ po 432
94
+ ia 425
95
+ í 423
96
+ ti 417
97
+ _r 416
98
+ io 408
99
+ le 405
100
+ tr 399
103
101
  do_ 399
104
- tr 396
105
- q 393
106
- qu 393
107
- i� 385
108
- nte 380
109
- a� 374
110
- om 367
111
- h 365
112
- te_ 362
113
- si 361
114
- me 359
102
+ qu 389
103
+ q 389
104
+ nte 375
105
+ om 371
106
+ si 367
107
+ h 364
108
+ te_ 363
115
109
  ac 358
116
- ue_ 354
117
- is 350
118
- ie 349
119
- ón 348
120
- �n 348
121
- _re 347
122
- sp 346
123
- 343
124
- nd 341
110
+ me 355
111
+ ón 353
112
+ ie 352
113
+ _re 352
114
+ ue_ 351
115
+ is 351
116
+ 345
117
+ sp 344
118
+ nd 343
119
+ _se 341
125
120
  ma 336
126
- _se 335
127
- _lo 335
128
- _i 335
129
- ñ 333
130
- 333
131
- que 332
132
- pr 331
133
- �n_ 326
134
- id 323
135
- ne 317
136
- al_ 314
137
- mi 310
138
- 308
139
- _qu 308
140
- _u 308
141
- _q 308
142
- los 307
143
- ni 305
144
- _po 303
145
- á 300
121
+ ñ 336
122
+ pr 333
123
+ _lo 331
124
+ ón_ 330
125
+ que 329
126
+ _i 326
127
+ id 322
128
+ ne 321
129
+ al_ 319
130
+ mi 311
131
+ _u 311
132
+ 311
133
+ _q 306
134
+ _qu 306
135
+ los 303
136
+ _po 302
137
+ ni 301
146
138
  di 300
147
- 300
148
- ec 294
149
- _f 290
150
- _pr 289
139
+ á 300
140
+ ec 300
141
+ _pr 293
142
+ ión 290
151
143
  on_ 288
152
- su 285
153
- _h 285
154
- nc 284
155
- pa� 283
156
- _un 279
157
- spa 278
158
- pe 275
159
- li 275
144
+ su 286
145
+ _f 286
146
+ _h 283
147
+ nc 280
148
+ pe 280
149
+ li 279
150
+ _un 277
151
+ spa 276
152
+ mo 270
160
153
  _o 270
161
- it 269
162
154
  esp 268
163
- mo 266
164
- del 261
165
- or_ 261
166
- _a_ 247
155
+ it 267
156
+ or_ 263
157
+ del 262
158
+ rt 250
159
+ _a_ 250
167
160
  est 247
168
- rt 245
169
- ado 240
170
- por 238
171
- ci� 237
172
- _n 234
173
- aci 234
174
- las 232
175
- ce 224
176
- _ca 222
177
- _pa 218
178
- so 217
179
- se_ 216
180
- _su 215
161
+ ado 245
162
+ por 239
163
+ aci 236
164
+ ció 235
165
+ las 234
166
+ _n 231
167
+ pañ 227
168
+ ce 225
169
+ so 222
170
+ se_ 221
171
+ _pa 219
172
+ _ca 218
173
+ _su 213
181
174
  sta 213
182
- ia_ 204
183
- am 203
184
- tu 202
185
- ur 200
186
- com 200
187
- ab 200
175
+ com 203
176
+ ur 202
177
+ tu 200
188
178
  ol 199
179
+ ia_ 198
180
+ na_ 197
181
+ am 197
182
+ ab 196
189
183
  ra_ 196
190
- na_ 196
191
- im 195
192
- men 194
193
- ter 192
184
+ im 193
185
+ tra 191
194
186
  no_ 190
195
- to_ 189
196
- tra 189
197
- da_ 188
198
- cia 188
199
- 186
200
- em 186
201
- é 186
202
- ns 185
187
+ men 190
188
+ da_ 190
189
+ ter 189
190
+ ns 188
191
+ em 188
192
+ cia 187
193
+ z 185
203
194
  ña 185
204
- �a 185
205
- z 184
206
- r� 184
207
- _al 183
208
- ía 180
209
- �a 180
195
+ to_ 184
196
+ _al 181
197
+ é 180
210
198
  ien 179
211
- _in 179
199
+ ía 179
212
200
  ica 177
213
- ant 176
214
- cu 174
215
- _v 173
216
- res 172
217
- m� 171
218
- j 170
219
- �a_ 168
220
- des 167
221
- _g 167
222
- ed 166
201
+ _v 176
202
+ cu 175
203
+ _in 175
204
+ ant 172
205
+ des 172
206
+ aña 170
207
+ j 169
208
+ ña_ 169
209
+ _g 168
210
+ res 168
211
+ ed 168
212
+ pro 167
213
+ ul 165
214
+ ct 165
223
215
  od 165
224
- pro 164
225
- ct 164
226
- ha 162
227
- mo_ 162
228
- ul 162
216
+ mo_ 164
217
+ ig 163
218
+ vi 163
229
219
  one 162
230
- nci 161
231
- ig 161
232
- vi 160
233
- dad 159
220
+ ll 161
221
+ dad 161
222
+ ha 160
223
+ nci 160
234
224
  les 159
235
- ll 158
236
- ada 158
237
225
  _si 158
238
- at 156
226
+ era 158
227
+ ada 158
239
228
  cio 156
240
- sa 155
241
- era 155
229
+ ion 155
242
230
  oc 155
243
- ion 154
244
- bi 153
245
- nes 153
231
+ nes 154
232
+ at 154
233
+ sa 154
234
+ va 150
246
235
  rr 150
247
- dos 149
248
- ist 148
249
- ndo 148
250
- ran 147
251
- mp 147
252
- d_ 146
253
- eg 145
254
- va 144
236
+ bi 149
237
+ d_ 149
238
+ eg 149
239
+ dos 148
240
+ ist 147
241
+ _pe 147
242
+ ndo 147
243
+ mp 146
244
+ ran 145
245
+ ño 145
255
246
  an_ 144
256
- _pe 144
257
- ño 142
258
- _ha 142
259
- �o 142
260
- ida 142
261
- par 142
262
- ó_ 138
263
- �_ 138
264
- gu 138
247
+ ida 143
248
+ par 143
249
+ _ha 140
250
+ ó_ 140
251
+ gu 140
252
+ año 139
253
+ fi 137
265
254
  ron 136
266
- �a_ 134
255
+ ale 135
256
+ ía_ 135
257
+ us 134
258
+ br 134
267
259
  ero 134
268
- ale 133
269
- fi 133
270
- br 133
271
- x 132
272
- mu 131
273
- 131
274
- tor 130
275
- us 129
276
- _mi 129
277
- rio 128
260
+ mu 133
261
+ _mi 132
262
+ 129
263
+ tor 129
264
+ x 129
265
+ iv 128
278
266
  ona 127
279
- iv 126
280
- ua 126
267
+ rio 127
281
268
  ntr 126
282
- mb 124
283
- ta_ 124
284
- ot 123
285
- ori 123
286
- io_ 123
287
- bl 123
269
+ ua 125
270
+ bl 124
271
+ ot 124
272
+ ba 123
288
273
  ve 123
274
+ il 123
275
+ ici 123
289
276
  una 123
290
- ba 123
291
277
  _di 122
292
- t� 121
293
- du 120
294
- rm 120
278
+ ori 122
279
+ ta_ 122
280
+ mb 121
281
+ go 121
282
+ io_ 121
295
283
  lo_ 120
296
- go 120
297
- ici 120
298
- il 120
299
- _no 118
300
- uc 118
301
- _te 117
284
+ du 120
285
+ _te 119
286
+ ca_ 118
287
+ omo 118
288
+ rec 117
302
289
  ob 117
303
- ca_ 117
304
- rec 116
290
+ _no 116
305
291
  un_ 116
306
- n� 114
292
+ rm 116
293
+ ina 115
294
+ ad_ 114
295
+ uc 114
307
296
  nto 114
308
297
  ás 113
309
- ina 113
310
- �s 113
311
- omo 113
312
- ad_ 112
298
+ re_ 112
299
+ za 112
313
300
  per 111
314
- s_ 110
315
- za 110
316
- re_ 110
317
- ico 108
301
+ ás_ 110
302
+ et 107
303
+ _ma 107
318
304
  op 106
319
- _ma 105
320
- u_ 105
321
- pu 105
322
- hi 105
323
- et 104
305
+ pu 106
306
+ ial 106
307
+ ga 106
308
+ ico 105
309
+ ras 105
310
+ u_ 104
311
+ más 104
324
312
  err 104
325
- ga 104
326
- ras 103
327
- ar_ 102
328
- ir 102
329
- ial 102
313
+ hi 104
314
+ ar_ 103
315
+ _tr 103
316
+ ir 101
330
317
  ex 101
318
+ fu 101
331
319
  gr 101
332
- _tr 101
333
- _me 100
334
- ido 100
335
- fu 100
336
- su_ 100
337
- ier 100
338
- sti 99
339
- min 99
340
- ura 99
341
- _so 98
342
- tan 98
343
- art 98
344
- tes 98
345
- 98
346
- ita 98
347
- ro_ 97
348
- _hi 96
349
- enc 96
350
- _b 96
351
- fe 95
352
- ste 95
353
- _mu 95
354
- eri 94
355
- nta 93
356
- rte 93
357
- _m� 93
358
- end 93
359
- ú 91
360
- nom 91
361
- _fu 91
362
- pre 91
363
- ria 90
320
+ ier 101
321
+ ura 100
322
+ min 100
323
+ art 100
324
+ ro_ 99
325
+ ido 99
326
+ ita 99
327
+ _so 99
328
+ su_ 99
329
+ _b 98
330
+ _me 98
331
+ sti 97
332
+ _mu 97
333
+ tan 97
334
+ rte 96
335
+ _hi 95
336
+ ú 94
337
+ tes 94
338
+ enc 94
339
+ ste 94
340
+ nom 92
341
+ _fu 92
342
+ fe 92
343
+ eri 92
344
+ ara 91
345
+ tal 91
346
+ nta 90
364
347
  rc 90
365
348
  _ex 90
366
- nos 90
367
- ara 90
368
- tal 89
369
- ui 89
370
- tic 87
371
- _to 87
372
- co_ 87
373
- ut 86
349
+ end 90
350
+ ria 89
351
+ _má 88
352
+ ui 88
353
+ gi 88
354
+ nos 88
355
+ der 87
356
+ pre 87
357
+ co_ 86
374
358
  pi 86
375
- gi 85
376
- ten 85
359
+ ten 86
360
+ tur 85
361
+ ali 85
362
+ ut 85
363
+ _to 85
377
364
  and 85
378
- tur 84
379
- g� 84
365
+ ort 85
366
+ tad 85
367
+ tro 84
368
+ ip 84
380
369
  tos 84
381
- 84
382
- der 84
383
- ali 83
384
- ort 83
385
- tro 83
386
- inc 83
387
- ios 83
388
- tad 83
389
- ip 82
390
- ep 81
391
- den 81
392
- ito 80
393
- vo 79
394
- cr 79
395
- und 79
396
- nal 78
397
- er_ 78
398
- ade 77
399
- man 77
400
- �s 76
370
+ inc 84
371
+ tic 83
372
+ und 82
373
+ ios 82
374
+ 81
375
+ nal 80
376
+ ade 79
377
+ ep 79
378
+ den 79
379
+ ís 79
380
+ man 78
381
+ cr 78
382
+ ula 78
383
+ ito 77
384
+ rn 76
385
+ sig 76
386
+ ene 76
387
+ er_ 75
388
+ uer 75
389
+ lt 75
390
+ vo 75
391
+ ano 74
392
+ eci 73
393
+ rá 73
394
+ ons 73
395
+ _ci 73
396
+ au 73
397
+ cos 73
398
+ ros 73
399
+ ont 72
400
+ ma_ 72