scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 28724
2
- e 8526
3
- i 8352
4
- a 8090
5
- r 5701
6
- t 5163
7
- n 5141
8
- u 3858
9
- l 3852
10
- o 3688
11
- c 3555
12
- e_ 3400
13
- d 2894
1
+ _ 28742
2
+ e 8540
3
+ i 8396
4
+ a 8094
5
+ r 5707
6
+ t 5166
7
+ n 5138
8
+ u 3874
9
+ l 3870
10
+ o 3696
11
+ c 3575
12
+ e_ 3398
13
+ d 2898
14
14
  s 2766
15
- m 2509
16
- a_ 2395
17
- i_ 2245
18
- _d 1978
19
- p 1960
15
+ m 2507
16
+ a_ 2393
17
+ i_ 2249
18
+ _d 1971
19
+ p 1965
20
20
  _a 1818
21
- � 1731
22
- � 1599
23
- � 1597
24
21
  ă 1597
25
- 1517
26
- de 1383
27
- re 1287
22
+ de 1377
23
+ re 1284
28
24
  at 1273
29
- _c 1194
30
- _de 1177
31
- ri 1145
25
+ _c 1193
26
+ _de 1168
27
+ ri 1147
32
28
  n_ 1141
33
- in 1134
34
- �_ 1034
29
+ in 1130
35
30
  ă_ 1034
36
31
  _p 1003
37
- te 1000
38
- t_ 998
39
- de_ 985
32
+ t_ 1002
33
+ te 999
34
+ de_ 976
40
35
  or 941
41
- ar 936
42
- st 900
43
- ni 891
44
- 880
45
- ș 877
46
- _s 874
47
- _r 859
48
- 856
49
- ț 854
50
- _l 827
51
- 820
52
- î 820
53
- _� 815
54
- l_ 812
55
- _î 811
56
- ul 799
57
- f 785
58
- �n 770
59
- în 770
60
- ce 759
36
+ ar 935
37
+ st 897
38
+ ni 887
39
+ ș 881
40
+ _s 872
41
+ ț 857
42
+ _r 856
43
+ _l 830
44
+ î 819
45
+ l_ 813
46
+ 810
47
+ ul 807
48
+ f 789
49
+ în 769
50
+ _în 765
51
+ ce 761
61
52
  ro 743
62
- v 738
53
+ v 742
63
54
  al 737
64
- la 731
65
- ta 718
66
- er 713
67
- nt 705
68
- le 700
69
- es 687
70
- _� 669
71
- â 651
72
- 651
73
- om 648
74
- _m 642
75
- g 637
76
- �i 616
77
- și 615
78
- ia 599
79
- ti 598
80
- en 597
81
- b 596
82
- ra 595
83
- �i_ 589
84
- 585
85
- un 575
86
- ea 571
87
- �n_ 567
88
- it 565
89
- ân 558
90
- �n 558
91
- di 558
92
- �i 554
93
- ți 554
55
+ la 733
56
+ er 716
57
+ ta 712
58
+ nt 704
59
+ le 702
60
+ es 690
61
+ â 649
62
+ om 646
63
+ _m 641
64
+ g 634
65
+ și 616
66
+ ia 601
67
+ en 601
68
+ b 599
69
+ ti 599
70
+ ra 598
71
+ și_ 590
72
+ 588
73
+ un 574
74
+ it 570
75
+ în_ 568
76
+ ea 568
77
+ di 567
78
+ ți 557
79
+ ân 556
80
+ _și 551
94
81
  tr 544
95
- an 540
96
- ma 539
97
- _e 532
98
- cu 517
99
- te_ 517
100
- ie 516
101
- ur 497
102
- _la 492
103
- ic 488
104
- la_ 487
105
- r_ 486
106
- u_ 483
107
- rom 482
108
- ul_ 477
109
- le_ 476
110
- _ro 474
111
- pr 474
112
- m� 473
113
- on 471
114
- _i 470
115
- el 468
116
- 464
117
- ac 462
118
- ii 457
119
- z 456
120
- re_ 456
121
- ne 455
122
- tu 454
123
- at_ 447
124
- li 446
125
- _f 439
126
- _a_ 423
127
- om� 415
82
+ an 538
83
+ _e 537
84
+ ma 534
85
+ ie 525
86
+ cu 521
87
+ te_ 515
88
+ ur 505
89
+ ic 496
90
+ _la 493
91
+ la_ 488
92
+ r_ 485
93
+ u_ 484
94
+ rom 481
95
+ _i 480
96
+ ul_ 478
97
+ le_ 478
98
+ _ro 473
99
+ pr 473
100
+ on 472
101
+ el 467
102
+ ac 467
103
+ 463
104
+ mân 463
105
+ ii 460
106
+ z 459
107
+ tu 459
108
+ li 455
109
+ re_ 454
110
+ ne 453
111
+ at_ 449
112
+ _f 442
113
+ _a_ 421
114
+ omâ 412
128
115
  to 406
129
- co 405
130
- pe 399
131
- il 387
132
- lo 385
133
- ca 369
134
- are 366
135
- _t 361
136
- _di 361
137
- _ac 360
116
+ pe 404
117
+ co 402
118
+ il 391
119
+ lo 389
120
+ ca 370
121
+ _t 364
122
+ _ac 363
123
+ are 363
124
+ _di 362
138
125
  lu 359
139
- da 359
140
- ea_ 357
141
- _pr 351
142
- _u 351
126
+ da 358
127
+ ea_ 353
128
+ _pr 350
129
+ _u 350
143
130
  me 349
144
- ia_ 348
145
- ec 339
146
- na 338
147
- sa 337
131
+ ia_ 349
132
+ na 343
133
+ ec 340
134
+ sa 339
148
135
  is 331
149
- din 330
150
- ii_ 320
151
- in_ 316
152
- ei 313
153
- _n 310
154
- 309
155
- t� 309
156
- �ni 308
157
- im 305
158
- ci 300
159
- _o 298
160
- nd 297
161
- ei_ 294
162
- _co 291
163
- ru 290
164
- mi 290
165
- a� 287
166
- se 286
167
- ta_ 286
168
- _da 283
169
- ces 282
136
+ din 331
137
+ ii_ 322
138
+ in_ 315
139
+ ei 311
140
+ 310
141
+ _n 309
142
+ âni 308
143
+ im 306
144
+ ci 304
145
+ nd 298
146
+ _o 297
147
+ mi 293
148
+ ru 292
149
+ ei_ 292
150
+ _co 287
151
+ ces 285
152
+ se 285
153
+ ta_ 282
154
+ _da 282
170
155
  ui 282
171
- ori 281
156
+ ori 282
172
157
  _re 276
173
- dat 272
174
- tor 271
175
158
  est 271
159
+ tor 271
160
+ dat 270
176
161
  po 266
177
- ate 265
178
- _ma 260
162
+ ate 264
163
+ _ma 258
179
164
  or_ 251
180
- cc 246
165
+ cc 249
166
+ nu 244
181
167
  as 244
182
- nu 243
183
- ata 243
184
- _al 241
185
- pa 240
186
- c� 240
168
+ 243
169
+ cce 241
170
+ _al 240
171
+ ata 240
172
+ fo 240
173
+ pa 239
187
174
  um 239
188
- 239
189
- fo 238
190
- cce 238
191
- _un 237
192
- sat 235
193
- 235
194
- acc 234
195
- _cu 231
196
- ent 231
197
- rt 229
198
- al_ 228
199
- esa 228
200
- _ca 223
175
+ 238
176
+ sat 238
177
+ acc 237
178
+ _un 236
179
+ _cu 232
180
+ ent 232
181
+ ie_ 231
182
+ esa 231
183
+ al_ 229
184
+ rt 228
185
+ _ca 224
186
+ fi 222
201
187
  _pe 222
202
- ie_ 221
203
- fi 221
188
+ tă_ 219
204
189
  s_ 218
205
- 217
206
- ist 216
207
- 215
208
- 215
209
- su 215
210
- sc 215
190
+ iu 217
191
+ sc 217
192
+ ați 216
193
+ ele 216
194
+ ist 215
211
195
  ve 215
212
- ele 215
213
- lor 213
214
- ntr 212
215
- iu 212
196
+ su 215
216
197
  ri_ 212
198
+ lor 212
199
+ ntr 211
217
200
  nia 210
218
- con 209
219
- ste 208
220
- iv 207
221
- ol 206
201
+ iv 209
202
+ ste 207
203
+ con 206
204
+ ol 205
222
205
  _ce 203
223
- au 203
224
- io 200
225
- h 200
226
- ns 199
206
+ io 203
207
+ au 202
208
+ h 201
227
209
  ale 199
228
- ui_ 197
229
- mu 197
230
- pri 197
231
- �r 197
232
- ăr 197
233
- em 196
210
+ ăr 199
211
+ ui_ 198
234
212
  o_ 196
213
+ mu 196
214
+ ns 196
235
215
  _v 196
236
- rea 195
237
- _fo 193
216
+ _fo 195
217
+ em 195
218
+ pri 195
238
219
  _in 193
220
+ int 192
239
221
  ai 191
240
- int 191
241
- nc 187
242
- 187
243
- r� 187
222
+ rea 191
223
+ tur 188
224
+ nc 188
244
225
  d_ 187
245
- ter 185
246
- e� 184
247
- tur 184
248
- rm 184
249
- oc 184
250
- lui 180
251
- du 180
252
- tat 178
226
+ ter 187
227
+ 186
228
+ că_ 185
229
+ oc 183
230
+ rm 183
231
+ lui 181
232
+ du 179
233
+ tat 177
253
234
  ut 176
254
- _se 172
235
+ șt 174
236
+ _b 173
237
+ si 172
255
238
  oa 172
256
- _b 172
257
- șt 171
258
- �t 171
259
- si 171
239
+ _se 172
260
240
  eri 170
261
- _su 168
241
+ _su 169
242
+ op 169
243
+ pu 167
262
244
  lt 166
263
- ne_ 165
264
- pu 164
265
- op 164
266
- os 160
267
- n� 159
245
+ ne_ 163
246
+ os 162
268
247
  no 157
269
- iei 157
248
+ iei 156
249
+ vi 155
250
+ pre 155
270
251
  nț 155
271
- pre 154
272
- cu_ 153
273
- tra 153
252
+ tra 154
274
253
  ct 153
275
- vi 153
276
- ulu 152
254
+ cu_ 153
255
+ ulu 153
256
+ mp 151
277
257
  ai_ 151
278
- mp 150
279
258
  uri 149
280
259
  sp 149
281
- ani 149
282
- ce_ 148
283
260
  tre 148
284
- ge 148
285
- st_ 147
286
- x 147
287
- nte 146
261
+ ce_ 148
262
+ st_ 148
263
+ ge 147
264
+ nte 147
265
+ ani 146
266
+ x 146
288
267
  _es 146
268
+ nt_ 144
289
269
  c_ 143
290
- _� 143
291
- nt_ 143
270
+ 143
271
+ ed 142
292
272
  _au 142
293
- _g 141
294
- eș 141
295
- et 141
296
- _� 141
297
273
  mai 140
298
- j 140
274
+ _g 140
299
275
  tul 140
300
- uni 139
301
- uc 137
302
- m_ 136
303
- ile 136
304
- car 135
305
- eg 135
306
- ed 135
276
+ et 140
277
+ uc 138
278
+ j 138
279
+ uni 138
280
+ ile 137
281
+ m_ 137
282
+ car 136
307
283
  men 134
284
+ eg 134
308
285
  se_ 133
309
- str 132
286
+ do 132
287
+ str 131
310
288
  va 130
311
- au_ 130
312
- sta 129
313
- do 129
289
+ au_ 129
314
290
  _po 129
315
291
  mo 128
316
- ad 127
292
+ sta 128
293
+ ita 127
317
294
  ar_ 127
318
- _st 127
319
295
  gi 127
296
+ ad 127
320
297
  ep 126
321
- n� 126
322
- ita 126
323
- nă 125
324
- nd_ 125
298
+ _st 126
299
+ ona 126
325
300
  _pa 125
326
- ni_ 124
327
- ona 123
328
- ilo 123
301
+ nd_ 125
302
+ 124
329
303
  ap 123
330
- nie 123
331
- ez 121
332
- am 120
304
+ ilo 123
305
+ ni_ 123
306
+ am 122
307
+ nie 122
308
+ ez 122
309
+ rii 121
310
+ _tr 119
333
311
  zi 119
334
- rii 118
335
- _tr 118
336
- ot 117
312
+ ști 119
313
+ eșt 118
337
314
  par 117
338
- p� 116
315
+ ot 117
339
316
  pă 116
340
317
  _ar 116
341
- �ti 116
342
- �ie 115
343
- ion 114
344
- i� 112
345
- rat 111
318
+ ție 115
319
+ ion 115
320
+ ră_ 115
346
321
  up 111
322
+ _mi 111
323
+ era 111
324
+ rat 110
325
+ ra_ 110
347
326
  tru 110
348
- _o_ 110
349
- rin 110
350
- era 110
351
- _mi 110
352
- pe_ 109
327
+ cl 110
328
+ _o_ 109
353
329
  mat 109
354
- un_ 108
355
- ț� 108
356
- us 108
357
- �� 108
330
+ nal 109
331
+ rin 108
332
+ pe_ 108
358
333
  _nu 108
359
- nal 108
360
- �ă 108
361
- ra_ 106
362
- ost 106
363
- cl 106
334
+ ost 107
335
+ ță 107
336
+ us 107
337
+ un_ 107
364
338
  mb 105
365
339
  ir 105
366
- s� 105
367
- să 105
368
- ini 104
369
340
  ere 104
341
+ cur 104
342
+ nă_ 104
343
+ tiv 104
344
+ ini 104
345
+ să 103
370
346
  tic 103
371
- rma 103
347
+ iz 103
348
+ ări 103
372
349
  _fi 103
373
- �ri 103
374
- tiv 103
375
- _mo 102
350
+ bu 102
376
351
  por 102
352
+ _mo 102
377
353
  num 102
378
- mar 101
379
- cur 101
380
- iz 101
354
+ rma 102
381
355
  cr 101
382
- re� 101
383
- bu 101
384
- l� 100
385
- hi 100
386
- ene 100
387
356
  lă 100
388
- art 100
389
- ch 99
390
- rit 99
357
+ ch 100
358
+ itu 100
391
359
  ga 99
360
+ hi 99
361
+ mar 99
362
+ art 99
392
363
  for 99
364
+ ene 99
365
+ za 99
366
+ rit 99
367
+ ică 99
393
368
  ace 97
369
+ fe 97
370
+ bi 97
394
371
  ice 97
395
- za 97
396
- itu 97
397
- mul 96
372
+ pi 96
373
+ ici 96
398
374
  pro 96
399
- fe 96
400
- bi 96
375
+ mul 95
376
+ ati 95
377
+ lit 94
378
+ ba 94
379
+ ort 94
380
+ ito 94
381
+ ud 94
382
+ ind 94
383
+ ine 94
384
+ rn 94
385
+ fos 93
386
+ ții 93
387
+ _an 92
388
+ nea 92
389
+ tar 92
390
+ reș 92
391
+ loc 92
392
+ mă 92
393
+ „ 91
394
+ ”_ 91
395
+ _„ 91
396
+ _lo 91
397
+ ” 91
398
+ sti 90
399
+ _li 90
400
+ ăt 89