scylla 0.9.3 → 1.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (86) hide show
  1. checksums.yaml +7 -0
  2. data/README.rdoc +3 -12
  3. data/bin/scylla +1 -1
  4. data/lib/scylla/classifier.rb +3 -2
  5. data/lib/scylla/generator.rb +11 -4
  6. data/lib/scylla/lms/arabic.lm +400 -400
  7. data/lib/scylla/lms/bulgarian.lm +400 -400
  8. data/lib/scylla/lms/catalan.lm +400 -400
  9. data/lib/scylla/lms/chinese.lm +395 -395
  10. data/lib/scylla/lms/czech.lm +397 -397
  11. data/lib/scylla/lms/danish.lm +372 -372
  12. data/lib/scylla/lms/dutch.lm +382 -382
  13. data/lib/scylla/lms/english.lm +378 -378
  14. data/lib/scylla/lms/finnish.lm +388 -388
  15. data/lib/scylla/lms/french.lm +392 -392
  16. data/lib/scylla/lms/german.lm +396 -396
  17. data/lib/scylla/lms/greek.lm +400 -400
  18. data/lib/scylla/lms/hebrew.lm +400 -400
  19. data/lib/scylla/lms/hindi.lm +399 -399
  20. data/lib/scylla/lms/icelandic.lm +225 -225
  21. data/lib/scylla/lms/indonesian.lm +391 -391
  22. data/lib/scylla/lms/italian.lm +382 -382
  23. data/lib/scylla/lms/japanese.lm +400 -400
  24. data/lib/scylla/lms/kannada.lm +392 -392
  25. data/lib/scylla/lms/korean.lm +391 -391
  26. data/lib/scylla/lms/marathi.lm +388 -388
  27. data/lib/scylla/lms/norwegian.lm +375 -375
  28. data/lib/scylla/lms/persian.lm +399 -399
  29. data/lib/scylla/lms/polish.lm +399 -399
  30. data/lib/scylla/lms/portuguese.lm +390 -390
  31. data/lib/scylla/lms/romanian.lm +353 -353
  32. data/lib/scylla/lms/russian.lm +400 -400
  33. data/lib/scylla/lms/slovak.lm +361 -361
  34. data/lib/scylla/lms/slovenian.lm +273 -273
  35. data/lib/scylla/lms/spanish.lm +371 -371
  36. data/lib/scylla/lms/swedish.lm +400 -400
  37. data/lib/scylla/lms/tagalog.lm +295 -295
  38. data/lib/scylla/lms/thai.lm +400 -400
  39. data/lib/scylla/lms/turkish.lm +377 -377
  40. data/lib/scylla/lms/vietnamese.lm +400 -400
  41. data/lib/scylla/lms/welsh.lm +311 -311
  42. data/lib/scylla/loader.rb +1 -1
  43. data/test/classifier_test.rb +6 -4
  44. data/test/fixtures/lms/arabic.lm +400 -0
  45. data/test/fixtures/lms/bulgarian.lm +400 -0
  46. data/test/fixtures/lms/catalan.lm +400 -0
  47. data/test/fixtures/lms/chinese.lm +400 -0
  48. data/test/fixtures/lms/czech.lm +400 -0
  49. data/test/fixtures/lms/danish.lm +399 -399
  50. data/test/fixtures/lms/dutch.lm +400 -0
  51. data/test/fixtures/lms/english.lm +400 -400
  52. data/test/fixtures/lms/finnish.lm +400 -0
  53. data/test/fixtures/lms/french.lm +397 -397
  54. data/test/fixtures/lms/german.lm +400 -400
  55. data/test/fixtures/lms/greek.lm +400 -0
  56. data/test/fixtures/lms/hebrew.lm +400 -0
  57. data/test/fixtures/lms/hindi.lm +400 -400
  58. data/test/fixtures/lms/icelandic.lm +400 -0
  59. data/test/fixtures/lms/indonesian.lm +400 -0
  60. data/test/fixtures/lms/italian.lm +400 -400
  61. data/test/fixtures/lms/japanese.lm +400 -400
  62. data/test/fixtures/lms/kannada.lm +400 -0
  63. data/test/fixtures/lms/korean.lm +400 -0
  64. data/test/fixtures/lms/marathi.lm +400 -0
  65. data/test/fixtures/lms/norwegian.lm +399 -399
  66. data/test/fixtures/lms/persian.lm +400 -0
  67. data/test/fixtures/lms/polish.lm +400 -0
  68. data/test/fixtures/lms/portuguese.lm +400 -0
  69. data/test/fixtures/lms/romanian.lm +400 -0
  70. data/test/fixtures/lms/russian.lm +400 -0
  71. data/test/fixtures/lms/slovak.lm +400 -0
  72. data/test/fixtures/lms/slovenian.lm +400 -0
  73. data/test/fixtures/lms/spanish.lm +400 -400
  74. data/test/fixtures/lms/swedish.lm +400 -0
  75. data/test/fixtures/lms/tagalog.lm +400 -0
  76. data/test/fixtures/lms/thai.lm +400 -0
  77. data/test/fixtures/lms/turkish.lm +400 -0
  78. data/test/fixtures/lms/vietnamese.lm +400 -0
  79. data/test/fixtures/lms/welsh.lm +400 -0
  80. data/test/fixtures/test_languages/japanese +149 -67
  81. data/test/generator_test.rb +2 -44
  82. data/test/helper.rb +3 -3
  83. data/test/language_test.rb +6 -2
  84. data/test/loader_test.rb +2 -2
  85. data/test/scylla_test.rb +7 -7
  86. metadata +144 -95
@@ -1,400 +1,400 @@
1
- _ 28724
2
- e 8526
3
- i 8352
4
- a 8090
5
- r 5701
6
- t 5163
7
- n 5141
8
- u 3858
9
- l 3852
10
- o 3688
11
- c 3555
12
- e_ 3400
13
- d 2894
14
- s 2766
15
- m 2509
16
- a_ 2395
17
- i_ 2245
18
- _d 1978
19
- p 1960
20
- _a 1818
21
- 1731
22
- 1599
23
- 1597
24
- ă 1597
25
- 1517
26
- de 1383
27
- re 1287
28
- at 1273
29
- _c 1194
30
- _de 1177
31
- ri 1145
32
- n_ 1141
33
- in 1134
34
- �_ 1034
35
- ă_ 1034
36
- _p 1003
1
+ _ 28802
2
+ e 8551
3
+ i 8426
4
+ a 8101
5
+ r 5717
6
+ t 5173
7
+ n 5144
8
+ l 3885
9
+ u 3883
10
+ o 3712
11
+ c 3584
12
+ e_ 3406
13
+ d 2904
14
+ s 2774
15
+ m 2510
16
+ a_ 2389
17
+ i_ 2260
18
+ _d 1974
19
+ p 1963
20
+ _a 1824
21
+ ă 1599
22
+ de 1379
23
+ re 1286
24
+ at 1272
25
+ _c 1198
26
+ _de 1170
27
+ ri 1147
28
+ n_ 1145
29
+ in 1130
30
+ ă_ 1033
31
+ t_ 1002
32
+ _p 1002
37
33
  te 1000
38
- t_ 998
39
- de_ 985
40
- or 941
41
- ar 936
42
- st 900
43
- ni 891
44
- 880
45
- ș 877
46
- _s 874
47
- _r 859
48
- 856
49
- ț 854
50
- _l 827
51
- 820
52
- î 820
53
- _� 815
54
- l_ 812
55
- 811
56
- ul 799
57
- f 785
58
- �n 770
59
- în 770
60
- ce 759
61
- ro 743
62
- v 738
63
- al 737
64
- la 731
65
- ta 718
66
- er 713
67
- nt 705
68
- le 700
69
- es 687
70
- _� 669
34
+ de_ 978
35
+ or 947
36
+ ar 940
37
+ st 898
38
+ ni 889
39
+ ș 884
40
+ _s 875
41
+ ț 859
42
+ _r 856
43
+ _l 832
44
+ î 821
45
+ l_ 816
46
+ 812
47
+ ul 812
48
+ f 790
49
+ în 771
50
+ _în 767
51
+ ce 761
52
+ ro 745
53
+ al 743
54
+ v 743
55
+ la 733
56
+ er 716
57
+ ta 713
58
+ le 705
59
+ nt 704
60
+ es 688
71
61
  â 651
72
- � 651
73
62
  om 648
74
- _m 642
75
- g 637
76
- �i 616
77
- și 615
78
- ia 599
79
- ti 598
80
- en 597
81
- b 596
82
- ra 595
83
- �i_ 589
84
- 585
85
- un 575
86
- ea 571
87
- �n_ 567
88
- it 565
63
+ _m 638
64
+ g 632
65
+ și 618
66
+ en 603
67
+ ia 602
68
+ ti 601
69
+ b 599
70
+ ra 599
71
+ și_ 592
72
+ 590
73
+ un 574
74
+ it 573
75
+ în_ 570
76
+ di 568
77
+ ea 567
78
+ ți 559
89
79
  ân 558
90
- �n 558
91
- di 558
92
- �i 554
93
- ți 554
80
+ _și 553
94
81
  tr 544
95
- an 540
96
- ma 539
97
- _e 532
98
- cu 517
99
- te_ 517
100
- ie 516
101
- ur 497
102
- _la 492
103
- ic 488
104
- la_ 487
105
- r_ 486
106
- u_ 483
82
+ _e 537
83
+ an 535
84
+ ma 534
85
+ ie 525
86
+ cu 523
87
+ te_ 515
88
+ ur 507
89
+ ic 496
90
+ _la 493
91
+ r_ 489
92
+ la_ 488
93
+ u_ 486
107
94
  rom 482
108
- ul_ 477
109
- le_ 476
95
+ _i 482
96
+ ul_ 481
97
+ le_ 480
98
+ on 475
110
99
  _ro 474
111
- pr 474
112
- m� 473
113
- on 471
114
- _i 470
115
- el 468
100
+ pr 470
101
+ el 467
102
+ ac 467
103
+ mân 464
116
104
  mâ 464
117
- ac 462
118
- ii 457
119
- z 456
120
- re_ 456
121
- ne 455
122
- tu 454
123
- at_ 447
124
- li 446
125
- _f 439
126
- _a_ 423
127
- om� 415
128
- to 406
129
- co 405
130
- pe 399
131
- il 387
132
- lo 385
133
- ca 369
134
- are 366
135
- _t 361
136
- _di 361
137
- _ac 360
138
- lu 359
139
- da 359
140
- ea_ 357
141
- _pr 351
142
- _u 351
143
- me 349
144
- ia_ 348
145
- ec 339
146
- na 338
147
- sa 337
148
- is 331
149
- din 330
150
- ii_ 320
105
+ ii 464
106
+ tu 460
107
+ li 459
108
+ z 459
109
+ re_ 458
110
+ ne 453
111
+ at_ 449
112
+ _f 443
113
+ _a_ 421
114
+ omâ 413
115
+ to 408
116
+ pe 405
117
+ co 404
118
+ il 394
119
+ lo 394
120
+ ca 370
121
+ are 369
122
+ _t 366
123
+ _ac 363
124
+ _di 362
125
+ lu 360
126
+ da 358
127
+ ea_ 353
128
+ _u 352
129
+ me 350
130
+ _pr 348
131
+ ia_ 347
132
+ na 343
133
+ ec 340
134
+ sa 339
135
+ is 334
136
+ din 332
137
+ ii_ 326
151
138
  in_ 316
152
- ei 313
153
- _n 310
154
- 309
155
- t� 309
156
- �ni 308
157
- im 305
158
- ci 300
159
- _o 298
160
- nd 297
161
- ei_ 294
162
- _co 291
163
- ru 290
164
- mi 290
165
- a� 287
166
- se 286
167
- ta_ 286
168
- _da 283
169
- ces 282
170
- ui 282
171
- ori 281
172
- _re 276
173
- dat 272
174
- tor 271
175
- est 271
176
- po 266
177
- ate 265
178
- _ma 260
179
- or_ 251
180
- cc 246
139
+ ei 311
140
+ 310
141
+ _n 309
142
+ ci 309
143
+ âni 309
144
+ im 306
145
+ nd 298
146
+ mi 294
147
+ _o 294
148
+ ei_ 292
149
+ ru 291
150
+ _co 289
151
+ se 285
152
+ ces 285
153
+ ori 284
154
+ ui 283
155
+ _da 282
156
+ ta_ 282
157
+ _re 274
158
+ tor 272
159
+ est 270
160
+ dat 270
161
+ po 267
162
+ ate 264
163
+ _ma 259
164
+ or_ 255
165
+ cc 249
166
+ nu 244
181
167
  as 244
182
- nu 243
183
- ata 243
168
+ 243
184
169
  _al 241
185
- pa 240
186
- c� 240
170
+ cce 241
171
+ fo 241
172
+ ata 240
187
173
  um 239
188
- 239
189
- fo 238
190
- cce 238
191
- _un 237
192
- sat 235
193
- 235
194
- acc 234
195
- _cu 231
196
- ent 231
174
+ pa 238
175
+ sat 238
176
+ 237
177
+ acc 237
178
+ _un 236
179
+ _cu 234
180
+ ent 232
181
+ al_ 231
182
+ esa 231
183
+ ie_ 230
197
184
  rt 229
198
- al_ 228
199
- esa 228
200
- _ca 223
185
+ _ca 224
201
186
  _pe 222
202
- ie_ 221
203
- fi 221
204
- s_ 218
205
- 217
187
+ fi 222
188
+ s_ 219
189
+ iu 219
190
+ sc 218
191
+ tă_ 218
192
+ lor 217
206
193
  ist 216
207
- 215
208
- 215
194
+ ele 216
195
+ ați 215
209
196
  su 215
210
- sc 215
211
197
  ve 215
212
- ele 215
213
- lor 213
214
- ntr 212
215
- iu 212
216
198
  ri_ 212
217
- nia 210
218
- con 209
199
+ nia 211
200
+ ntr 211
201
+ iv 210
202
+ con 208
219
203
  ste 208
220
- iv 207
221
- ol 206
204
+ ol 205
222
205
  _ce 203
206
+ io 203
207
+ h 203
223
208
  au 203
224
- io 200
225
- h 200
226
- ns 199
227
- ale 199
228
- ui_ 197
229
- mu 197
230
- pri 197
231
- �r 197
232
- ăr 197
233
- em 196
234
- o_ 196
235
- _v 196
236
- rea 195
237
- _fo 193
209
+ ale 200
210
+ ăr 199
211
+ ui_ 199
212
+ _v 197
213
+ ns 197
214
+ mu 196
215
+ _fo 196
216
+ em 195
217
+ o_ 195
238
218
  _in 193
239
- ai 191
240
- int 191
241
- nc 187
219
+ pri 193
220
+ int 192
221
+ rea 191
222
+ ai 190
223
+ tur 189
224
+ nc 188
242
225
  ră 187
243
- r� 187
226
+ ter 187
244
227
  d_ 187
245
- ter 185
246
- e� 184
247
- tur 184
248
- rm 184
249
- oc 184
250
- lui 180
251
- du 180
252
- tat 178
253
- ut 176
254
- _se 172
255
- oa 172
256
- _b 172
257
- șt 171
258
- �t 171
259
- si 171
260
- eri 170
261
- _su 168
262
- lt 166
263
- ne_ 165
264
- pu 164
265
- op 164
266
- os 160
267
- n� 159
228
+ oc 186
229
+ că_ 185
230
+ rm 183
231
+ lui 182
232
+ du 178
233
+ ut 177
234
+ tat 175
235
+ _b 174
236
+ oa 174
237
+ șt 174
238
+ si 172
239
+ eri 172
240
+ _se 171
241
+ _su 169
242
+ lt 167
243
+ pu 167
244
+ op 167
245
+ os 163
246
+ ne_ 163
268
247
  no 157
269
- iei 157
248
+ vi 157
249
+ iei 156
250
+ ulu 155
251
+ tra 155
270
252
  nț 155
253
+ cu_ 154
271
254
  pre 154
272
- cu_ 153
273
- tra 153
274
- ct 153
275
- vi 153
276
- ulu 152
255
+ ct 152
256
+ mp 151
277
257
  ai_ 151
278
- mp 150
258
+ st_ 151
259
+ sp 150
279
260
  uri 149
280
- sp 149
281
- ani 149
282
261
  ce_ 148
262
+ x 148
283
263
  tre 148
284
- ge 148
285
- st_ 147
286
- x 147
287
- nte 146
264
+ nte 147
265
+ ge 147
288
266
  _es 146
289
- c_ 143
290
- _� 143
291
- nt_ 143
292
- _au 142
293
- _g 141
294
- 141
295
- et 141
296
- _� 141
297
- mai 140
298
- j 140
267
+ 144
268
+ ani 144
269
+ nt_ 144
270
+ c_ 144
271
+ _au 144
272
+ ed 142
299
273
  tul 140
300
- uni 139
274
+ _g 140
275
+ et 140
276
+ mai 140
277
+ ile 139
278
+ j 138
279
+ uni 138
280
+ m_ 137
301
281
  uc 137
302
- m_ 136
303
- ile 136
304
- car 135
305
- eg 135
306
- ed 135
307
- men 134
282
+ car 136
283
+ men 135
284
+ eg 134
285
+ do 134
308
286
  se_ 133
309
- str 132
310
- va 130
311
- au_ 130
312
- sta 129
313
- do 129
314
- _po 129
315
- mo 128
316
- ad 127
317
- ar_ 127
318
- _st 127
287
+ str 130
288
+ _po 130
289
+ va 129
290
+ ad 129
291
+ au_ 129
292
+ ita 129
293
+ sta 128
294
+ ar_ 128
319
295
  gi 127
320
- ep 126
321
- n� 126
322
- ita 126
323
- 125
324
- nd_ 125
296
+ mo 127
297
+ ona 127
298
+ _st 126
299
+ ap 125
325
300
  _pa 125
326
- ni_ 124
327
- ona 123
301
+ ep 125
302
+ nd_ 125
303
+ nă 124
304
+ ni_ 123
305
+ ez 123
328
306
  ilo 123
329
- ap 123
330
- nie 123
331
- ez 121
332
- am 120
307
+ rii 122
308
+ nie 122
309
+ am 122
310
+ _tr 120
311
+ ști 119
333
312
  zi 119
334
- rii 118
335
- _tr 118
336
- ot 117
313
+ _ar 118
314
+ eșt 118
337
315
  par 117
338
- p� 116
339
- 116
340
- _ar 116
341
- �ti 116
342
- �ie 115
343
- ion 114
344
- i� 112
345
- rat 111
346
- up 111
347
- tru 110
348
- _o_ 110
349
- rin 110
350
- era 110
351
- _mi 110
352
- pe_ 109
316
+ ot 116
317
+ ră_ 115
318
+ ion 115
319
+ 115
320
+ ție 114
321
+ _mi 112
322
+ era 111
323
+ rat 110
324
+ up 110
325
+ ra_ 110
326
+ cl 110
327
+ nal 110
353
328
  mat 109
354
- un_ 108
355
- ț� 108
356
- us 108
357
- �� 108
329
+ tru 109
358
330
  _nu 108
359
- nal 108
360
- �ă 108
361
- ra_ 106
362
- ost 106
363
- cl 106
364
- mb 105
365
- ir 105
366
- s� 105
367
- 105
368
- ini 104
369
- ere 104
370
- tic 103
371
- rma 103
331
+ us 108
332
+ un_ 108
333
+ pe_ 108
334
+ _o_ 108
335
+ ost 108
336
+ rin 107
337
+ ță 107
338
+ mb 106
339
+ ir 106
340
+ ini 105
341
+ cur 104
342
+ tic 104
343
+ nă_ 104
344
+ tiv 104
345
+ să 103
346
+ ări 103
372
347
  _fi 103
373
- �ri 103
374
- tiv 103
375
- _mo 102
376
- por 102
348
+ ere 102
349
+ bu 102
350
+ iz 102
377
351
  num 102
378
- mar 101
379
- cur 101
380
- iz 101
381
- cr 101
382
- re� 101
383
- bu 101
384
- l� 100
385
- hi 100
386
- ene 100
352
+ rma 102
353
+ por 102
354
+ _mo 101
355
+ ch 101
356
+ rit 101
387
357
  lă 100
388
- art 100
389
- ch 99
390
- rit 99
391
- ga 99
358
+ hi 100
359
+ cr 100
360
+ itu 100
361
+ mar 100
362
+ art 99
363
+ ică 99
392
364
  for 99
393
- ace 97
365
+ ene 99
366
+ za 98
367
+ bi 97
368
+ fe 97
394
369
  ice 97
395
- za 97
396
- itu 97
397
- mul 96
398
- pro 96
399
- fe 96
400
- bi 96
370
+ pro 97
371
+ ace 97
372
+ lit 96
373
+ _lo 96
374
+ ici 96
375
+ ga 96
376
+ pi 96
377
+ ort 95
378
+ mul 95
379
+ tar 95
380
+ ati 95
381
+ ții 95
382
+ ba 95
383
+ rn 94
384
+ ind 94
385
+ fos 94
386
+ ud 94
387
+ ine 94
388
+ ito 94
389
+ reș 93
390
+ nea 92
391
+ loc 92
392
+ mă 92
393
+ ”_ 91
394
+ ” 91
395
+ „ 91
396
+ _an 91
397
+ _„ 91
398
+ _li 90
399
+ sti 90
400
+ ăt 89