scylla 0.9.3 → 1.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (86) hide show
  1. checksums.yaml +7 -0
  2. data/README.rdoc +3 -12
  3. data/bin/scylla +1 -1
  4. data/lib/scylla/classifier.rb +3 -2
  5. data/lib/scylla/generator.rb +11 -4
  6. data/lib/scylla/lms/arabic.lm +400 -400
  7. data/lib/scylla/lms/bulgarian.lm +400 -400
  8. data/lib/scylla/lms/catalan.lm +400 -400
  9. data/lib/scylla/lms/chinese.lm +395 -395
  10. data/lib/scylla/lms/czech.lm +397 -397
  11. data/lib/scylla/lms/danish.lm +372 -372
  12. data/lib/scylla/lms/dutch.lm +382 -382
  13. data/lib/scylla/lms/english.lm +378 -378
  14. data/lib/scylla/lms/finnish.lm +388 -388
  15. data/lib/scylla/lms/french.lm +392 -392
  16. data/lib/scylla/lms/german.lm +396 -396
  17. data/lib/scylla/lms/greek.lm +400 -400
  18. data/lib/scylla/lms/hebrew.lm +400 -400
  19. data/lib/scylla/lms/hindi.lm +399 -399
  20. data/lib/scylla/lms/icelandic.lm +225 -225
  21. data/lib/scylla/lms/indonesian.lm +391 -391
  22. data/lib/scylla/lms/italian.lm +382 -382
  23. data/lib/scylla/lms/japanese.lm +400 -400
  24. data/lib/scylla/lms/kannada.lm +392 -392
  25. data/lib/scylla/lms/korean.lm +391 -391
  26. data/lib/scylla/lms/marathi.lm +388 -388
  27. data/lib/scylla/lms/norwegian.lm +375 -375
  28. data/lib/scylla/lms/persian.lm +399 -399
  29. data/lib/scylla/lms/polish.lm +399 -399
  30. data/lib/scylla/lms/portuguese.lm +390 -390
  31. data/lib/scylla/lms/romanian.lm +353 -353
  32. data/lib/scylla/lms/russian.lm +400 -400
  33. data/lib/scylla/lms/slovak.lm +361 -361
  34. data/lib/scylla/lms/slovenian.lm +273 -273
  35. data/lib/scylla/lms/spanish.lm +371 -371
  36. data/lib/scylla/lms/swedish.lm +400 -400
  37. data/lib/scylla/lms/tagalog.lm +295 -295
  38. data/lib/scylla/lms/thai.lm +400 -400
  39. data/lib/scylla/lms/turkish.lm +377 -377
  40. data/lib/scylla/lms/vietnamese.lm +400 -400
  41. data/lib/scylla/lms/welsh.lm +311 -311
  42. data/lib/scylla/loader.rb +1 -1
  43. data/test/classifier_test.rb +6 -4
  44. data/test/fixtures/lms/arabic.lm +400 -0
  45. data/test/fixtures/lms/bulgarian.lm +400 -0
  46. data/test/fixtures/lms/catalan.lm +400 -0
  47. data/test/fixtures/lms/chinese.lm +400 -0
  48. data/test/fixtures/lms/czech.lm +400 -0
  49. data/test/fixtures/lms/danish.lm +399 -399
  50. data/test/fixtures/lms/dutch.lm +400 -0
  51. data/test/fixtures/lms/english.lm +400 -400
  52. data/test/fixtures/lms/finnish.lm +400 -0
  53. data/test/fixtures/lms/french.lm +397 -397
  54. data/test/fixtures/lms/german.lm +400 -400
  55. data/test/fixtures/lms/greek.lm +400 -0
  56. data/test/fixtures/lms/hebrew.lm +400 -0
  57. data/test/fixtures/lms/hindi.lm +400 -400
  58. data/test/fixtures/lms/icelandic.lm +400 -0
  59. data/test/fixtures/lms/indonesian.lm +400 -0
  60. data/test/fixtures/lms/italian.lm +400 -400
  61. data/test/fixtures/lms/japanese.lm +400 -400
  62. data/test/fixtures/lms/kannada.lm +400 -0
  63. data/test/fixtures/lms/korean.lm +400 -0
  64. data/test/fixtures/lms/marathi.lm +400 -0
  65. data/test/fixtures/lms/norwegian.lm +399 -399
  66. data/test/fixtures/lms/persian.lm +400 -0
  67. data/test/fixtures/lms/polish.lm +400 -0
  68. data/test/fixtures/lms/portuguese.lm +400 -0
  69. data/test/fixtures/lms/romanian.lm +400 -0
  70. data/test/fixtures/lms/russian.lm +400 -0
  71. data/test/fixtures/lms/slovak.lm +400 -0
  72. data/test/fixtures/lms/slovenian.lm +400 -0
  73. data/test/fixtures/lms/spanish.lm +400 -400
  74. data/test/fixtures/lms/swedish.lm +400 -0
  75. data/test/fixtures/lms/tagalog.lm +400 -0
  76. data/test/fixtures/lms/thai.lm +400 -0
  77. data/test/fixtures/lms/turkish.lm +400 -0
  78. data/test/fixtures/lms/vietnamese.lm +400 -0
  79. data/test/fixtures/lms/welsh.lm +400 -0
  80. data/test/fixtures/test_languages/japanese +149 -67
  81. data/test/generator_test.rb +2 -44
  82. data/test/helper.rb +3 -3
  83. data/test/language_test.rb +6 -2
  84. data/test/loader_test.rb +2 -2
  85. data/test/scylla_test.rb +7 -7
  86. metadata +144 -95
@@ -1,400 +1,400 @@
1
- _ 20786
2
- e 10748
3
- n 5728
4
- d 3982
5
- a 3786
6
- r 3636
7
- i 3528
8
- t 3355
9
- o 3185
10
- n_ 2897
11
- e_ 2435
12
- en 2373
13
- de 2277
14
- l 2188
15
- s 2116
16
- en_ 1832
17
- _d 1624
18
- er 1620
19
- g 1610
20
- v 1373
21
- de_ 1300
22
- t_ 1300
23
- an 1293
24
- h 1261
25
- _de 1171
26
- k 1088
27
- _e 1061
28
- m 1014
29
- _v 943
30
- u 871
31
- te 866
32
- nd 860
33
- w 859
34
- in 842
35
- ee 839
36
- ge 783
37
- r_ 761
38
- b 750
39
- et 708
40
- _h 706
41
- j 705
42
- s_ 700
43
- p 694
44
- he 692
45
- c 671
46
- d_ 669
47
- or 667
48
- el 634
49
- st 623
50
- et_ 621
51
- ij 609
52
- aa 596
53
- oo 595
54
- _i 592
55
- ie 569
56
- z 560
57
- _o 546
58
- an_ 542
59
- _he 540
60
- la 529
61
- va 528
62
- _en 506
63
- _w 493
64
- van 477
65
- het 466
66
- _va 464
67
- _b 462
68
- _g 460
69
- der 451
70
- _n 445
71
- and 437
72
- on 432
73
- ed 432
74
- me 429
75
- _in 412
76
- rd 411
77
- nde 410
78
- _m 405
79
- lan 402
80
- oor 395
81
- re 389
82
- ch 387
83
- al 387
84
- er_ 385
85
- _z 381
86
- _a 377
87
- ng 375
88
- _t 374
89
- be 365
90
- le 365
91
- ar 359
92
- _s 350
93
- is 344
94
- in_ 342
95
- li 342
96
- we 341
97
- ve 339
98
- ke 339
99
- ne 332
100
- f 331
101
- den 328
102
- ro 324
103
- g_ 324
104
- een 322
105
- _ee 321
106
- ri 320
107
- ede 320
108
- vo 319
109
- ti 313
110
- _ge 307
111
- _be 297
112
- at 295
113
- it 293
114
- l_ 279
115
- ste 267
116
- na 259
117
- nd_ 256
118
- di 256
119
- _l 255
120
- rl 254
121
- te_ 251
122
- es 249
123
- aar 248
124
- k_ 246
125
- ra 232
126
- ui 228
127
- ing 226
128
- op 226
129
- _me 225
130
- zi 224
131
- ver 224
132
- _vo 223
133
- nt 220
134
- ijk 219
135
- jk 219
136
- erd 218
137
- erl 217
138
- wa 213
139
- ter 210
140
- or_ 207
141
- _k 206
142
- _ne 206
143
- ten 206
144
- ie_ 204
145
- ei 201
146
- gen 199
147
- _p 199
148
- da 199
149
- gr 195
150
- rla 195
151
- rs 189
152
- ned 188
153
- _we 188
154
- oe 188
155
- se 187
156
- ond 185
157
- is_ 184
158
- _ve 179
159
- _zi 177
160
- eg 176
161
- id 174
162
- sc 172
163
- ig 172
164
- ot 171
165
- sch 170
166
- eer 168
167
- ni 168
168
- _wa 166
169
- ng_ 166
170
- _r 165
171
- ta 165
172
- _on 164
173
- ord 161
174
- _is 158
175
- ere 158
176
- ur 158
177
- voo 157
178
- rde 157
179
- bi 156
180
- lij 155
181
- ol 154
182
- _op 154
183
- ev 153
184
- cht 152
185
- ht 152
186
- ers 151
187
- ds 151
188
- p_ 148
189
- om 148
1
+ _ 21570
2
+ e 11162
3
+ n 5980
4
+ d 4146
5
+ a 3933
6
+ r 3760
7
+ i 3690
8
+ t 3480
9
+ o 3314
10
+ n_ 3008
11
+ e_ 2525
12
+ en 2481
13
+ de 2363
14
+ l 2286
15
+ s 2203
16
+ en_ 1909
17
+ _d 1685
18
+ g 1676
19
+ er 1676
20
+ v 1418
21
+ an 1346
22
+ t_ 1341
23
+ de_ 1340
24
+ h 1309
25
+ _de 1208
26
+ k 1136
27
+ _e 1098
28
+ m 1036
29
+ _v 967
30
+ nd 909
31
+ u 906
32
+ te 897
33
+ in 880
34
+ w 877
35
+ ee 865
36
+ ge 806
37
+ b 785
38
+ r_ 777
39
+ p 731
40
+ et 731
41
+ _h 727
42
+ j 724
43
+ s_ 724
44
+ he 714
45
+ c 709
46
+ d_ 698
47
+ or 684
48
+ el 657
49
+ st 644
50
+ et_ 639
51
+ aa 626
52
+ ij 625
53
+ _i 617
54
+ oo 612
55
+ _o 593
56
+ ie 592
57
+ z 590
58
+ la 557
59
+ _he 553
60
+ an_ 553
61
+ va 537
62
+ _en 526
63
+ _w 499
64
+ _b 485
65
+ van 484
66
+ het 478
67
+ _va 470
68
+ der 470
69
+ _g 469
70
+ _n 463
71
+ and 460
72
+ on 456
73
+ ed 447
74
+ me 437
75
+ nde 432
76
+ _in 432
77
+ lan 426
78
+ rd 424
79
+ _m 416
80
+ re 410
81
+ ch 409
82
+ oor 404
83
+ ng 399
84
+ al 398
85
+ _z 398
86
+ er_ 397
87
+ _t 396
88
+ _a 392
89
+ le 384
90
+ be 383
91
+ ar 370
92
+ _s 367
93
+ ve 361
94
+ li 361
95
+ is 360
96
+ in_ 359
97
+ f 352
98
+ ke 352
99
+ g_ 351
100
+ we 348
101
+ ne 348
102
+ den 346
103
+ ro 335
104
+ ri 334
105
+ een 331
106
+ _ee 330
107
+ ede 328
108
+ ti 324
109
+ vo 324
110
+ _be 314
111
+ _ge 312
112
+ at 310
113
+ it 301
114
+ l_ 288
115
+ ste 277
116
+ di 276
117
+ nd_ 273
118
+ rl 268
119
+ na 266
120
+ _l 262
121
+ es 261
122
+ k_ 260
123
+ te_ 259
124
+ aar 251
125
+ op 244
126
+ ui 243
127
+ ra 238
128
+ ing 237
129
+ nt 234
130
+ _me 232
131
+ ver 231
132
+ zi 229
133
+ ijk 229
134
+ _vo 229
135
+ jk 229
136
+ erl 228
137
+ erd 224
138
+ _ne 218
139
+ ten 215
140
+ wa 214
141
+ ter 213
142
+ ei 213
143
+ _k 213
144
+ or_ 211
145
+ ie_ 210
146
+ da 209
147
+ rla 206
148
+ _p 205
149
+ gr 203
150
+ gen 203
151
+ rs 199
152
+ ned 198
153
+ oe 195
154
+ ond 193
155
+ _we 192
156
+ se 192
157
+ sc 191
158
+ is_ 190
159
+ sch 188
160
+ eg 187
161
+ _ve 186
162
+ _zi 182
163
+ ig 182
164
+ eer 179
165
+ id 179
166
+ ot 178
167
+ ng_ 178
168
+ _on 177
169
+ ta 174
170
+ ni 172
171
+ _r 170
172
+ _op 170
173
+ rde 167
174
+ ord 167
175
+ ze 166
176
+ _wa 165
177
+ ev 164
178
+ p_ 164
179
+ lij 163
180
+ _is 163
181
+ bi 163
182
+ voo 162
183
+ ere 162
184
+ ur 162
185
+ ers 160
186
+ ol 160
187
+ ds 158
188
+ to 156
189
+ _di 155
190
+ aan 154
191
+ cht 153
192
+ ht 153
193
+ om 153
194
+ _te 151
195
+ wo 149
196
+ el_ 149
197
+ est 147
190
198
  do 147
191
- ze 146
192
- _te 146
193
- to 146
194
- _di 145
195
- el_ 145
196
- wo 144
197
- ls 144
198
- aan 143
199
+ _la 146
200
+ pe 146
201
+ ls 146
202
+ ma 144
203
+ end 144
204
+ ek 143
199
205
  rt 142
200
- est 142
201
- _la 142
202
- ma 140
203
- pe 140
204
- jn 137
205
- ijn 137
206
- ek 137
207
- wer 135
206
+ ijn 139
207
+ jn 139
208
+ wer 138
209
+ ns 138
210
+ uit 137
211
+ _da 137
212
+ nge 137
213
+ eu 134
214
+ tie 134
215
+ am 134
208
216
  met 134
209
- eu 133
217
+ ls_ 134
218
+ ts 133
210
219
  doo 133
211
- am 133
212
- ls_ 132
213
- ns 132
214
- _al 131
215
- uit 131
216
- end 131
217
- _da 130
218
- ken 129
219
- zij 129
220
- mi 128
221
- nge 127
222
- tie 127
220
+ eli 133
221
+ _al 132
222
+ mi 132
223
+ ken 132
224
+ ren 131
225
+ zij 131
226
+ op_ 129
227
+ no 129
228
+ rij 128
223
229
  _do 127
224
- eli 127
225
- ts 126
226
- no 125
227
- jn_ 124
228
- zo 123
229
- rij 123
230
- ren 122
231
- m_ 121
232
- gro 121
233
- eel 120
234
- lo 120
230
+ zo 127
231
+ ic 126
232
+ _st 126
233
+ jn_ 126
234
+ gro 125
235
+ _gr 123
236
+ lo 123
237
+ tr 122
238
+ m_ 122
239
+ as 121
240
+ eel 121
241
+ nds 121
235
242
  rd_ 120
243
+ ha 120
236
244
  men 119
237
- a_ 119
238
- ic 118
239
- _gr 118
240
- ar_ 118
241
- tr 117
242
- als 117
245
+ als 119
246
+ ang 118
247
+ a_ 118
248
+ die 118
249
+ og 118
243
250
  _na 117
244
- ha 116
245
- nds 116
246
- _st 116
251
+ ar_ 117
252
+ ke_ 116
247
253
  em 116
248
- as 116
249
- op_ 115
250
- og 114
251
- se_ 111
252
- ang 111
253
- ke_ 110
254
- die 110
255
- _aa 108
256
- it_ 107
257
- wi 104
258
- tu 103
259
- le_ 103
260
- _u 103
261
- wor 102
262
- mee 102
263
- vi 101
264
- _wo 100
265
- ho 99
266
- ind 98
267
- eid 98
268
- al_ 98
269
- eb 98
270
- ege 98
271
- ec 97
272
- _oo 96
273
- _zo 96
274
- ld 95
275
- sta 94
276
- _to 94
277
- _ui 92
278
- ele 92
254
+ se_ 115
255
+ _aa 114
256
+ it_ 110
257
+ le_ 109
258
+ wi 107
259
+ ho 107
260
+ tu 106
261
+ _u 106
262
+ wor 105
263
+ mee 105
264
+ vi 104
265
+ ind 103
266
+ ege 103
267
+ _to 103
268
+ _wo 103
269
+ al_ 102
270
+ _oo 102
271
+ ld 100
272
+ eid 100
273
+ eb 100
274
+ _zo 100
275
+ ec 98
276
+ sta 98
277
+ f_ 97
278
+ _ui 95
279
+ ele 95
280
+ jke 94
281
+ ich 92
282
+ ok 92
279
283
  rk 91
280
- jke 91
281
- f_ 90
282
- ich 89
283
- ok 88
284
- rm 88
285
- st_ 87
286
- j_ 87
287
- ak 87
288
- ij_ 86
289
- erk 85
290
- waa 85
291
- uw 85
292
- at_ 84
293
- _f 84
294
- _ma 83
295
- kt 83
296
- ko 83
297
- _c 83
298
- ge_ 83
299
- ag 83
300
- nk 82
301
- ll 81
302
- jk_ 81
303
- pr 80
304
- del 80
305
- geb 79
306
- _er 79
307
- ot_ 79
284
+ st_ 90
285
+ rm 90
286
+ at_ 89
287
+ ak 89
288
+ uw 88
289
+ jk_ 88
290
+ _c 88
291
+ nk 88
292
+ _f 87
293
+ ko 87
294
+ kt 87
295
+ _ma 86
296
+ ll 86
297
+ il 86
298
+ ag 85
299
+ ge_ 85
300
+ del 84
301
+ waa 84
302
+ erk 84
303
+ j_ 83
304
+ ot_ 83
305
+ len 82
306
+ ij_ 82
307
+ _er 82
308
+ geb 81
309
+ pr 81
310
+ re_ 80
311
+ af 80
312
+ ent 80
313
+ eri 80
314
+ aat 80
315
+ ela 79
316
+ hi 78
308
317
  pa 78
309
- af 76
310
- eri 76
311
- ela 76
312
- bij 76
313
- ov 76
314
- po 75
315
- il 75
316
- re_ 75
317
- aat 75
318
- ent 74
319
- gel 74
320
- eld 74
321
- ch_ 73
322
- hi 73
318
+ ov 78
319
+ po 77
320
+ ch_ 77
321
+ h_ 77
322
+ gel 77
323
+ eld 77
324
+ gi 75
325
+ bij 75
326
+ ens 75
327
+ bel 75
328
+ id_ 75
329
+ _re 74
330
+ ac 74
331
+ ati 74
332
+ dt 74
333
+ ale 73
334
+ si 73
335
+ ez 73
323
336
  dt_ 73
324
- gi 73
325
- len 73
326
- bel 73
327
- dt 73
328
- id_ 73
329
- h_ 73
330
- ens 72
331
- ati 72
332
- _re 72
333
- rg 71
337
+ uu 73
338
+ rg 72
339
+ ok_ 72
340
+ uur 72
341
+ _ze 71
342
+ _no 71
334
343
  _bi 71
335
- uu 71
336
- ac 71
337
- ale 71
338
- uur 70
339
- _mi 69
340
- vol 69
341
- _no 69
342
- ok_ 68
343
- nte 68
344
- si 68
344
+ isc 70
345
+ ook 70
346
+ vol 70
347
+ _mi 70
348
+ lle 70
349
+ ite 69
350
+ taa 69
351
+ nte 69
352
+ tot 69
353
+ ru 68
354
+ eke 68
355
+ tw 67
356
+ rs_ 67
345
357
  ran 67
346
- ez 67
347
- ook 66
348
- ort 66
349
- ied 66
350
- lle 65
351
- eke 65
352
- tw 65
353
- rs_ 65
358
+ ort 67
359
+ du 67
360
+ ied 67
361
+ dee 66
362
+ ijd 66
363
+ jd 66
364
+ ier 65
354
365
  maa 65
355
- ru 64
356
- ist 64
357
- ite 64
358
- dee 64
359
- io 64
360
- tot 63
361
- taa 63
366
+ ad 65
367
+ io 65
368
+ _ko 64
369
+ so 64
370
+ gev 64
371
+ che 64
372
+ ep 64
373
+ un 64
374
+ sp 63
375
+ ige 63
362
376
  as_ 63
363
- un 63
364
- jd 63
365
- ier 63
366
- _ze 63
367
- ijd 63
368
- ad 63
369
- ige 62
370
- gev 62
371
- so 62
377
+ per 63
378
+ ist 63
379
+ ed_ 62
380
+ tij 62
381
+ od 62
372
382
  euw 62
373
- isc 62
374
- sp 62
375
- ep 61
376
- per 61
377
- du 61
378
- 61
379
- tij 61
380
- tuu 61
381
- ed_ 60
382
- od 60
383
- _ko 60
384
- ame 59
383
+ tuu 62
384
+ ou 62
385
+ of 61
386
+ naa 61
387
+ zic 61
388
+ ame 60
389
+ eve 60
390
+ pro 60
391
+ orm 60
392
+ _j 60
393
+ kel 60
394
+ ove 59
395
+ ew 59
385
396
  rdt 59
386
- pro 59
387
- ht_ 58
388
- ew 58
389
- _j 58
390
- zic 58
391
- orm 58
392
- naa 57
393
- ove 57
394
- kel 57
395
- che 57
396
- evo 57
397
- roo 57
398
- ou 57
399
- _ho 56
400
- ef 56
397
+ ach 58
398
+ _ho 58
399
+ tst 58
400
+ evo 58