scylla 0.9.3 → 1.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (86) hide show
  1. checksums.yaml +7 -0
  2. data/README.rdoc +3 -12
  3. data/bin/scylla +1 -1
  4. data/lib/scylla/classifier.rb +3 -2
  5. data/lib/scylla/generator.rb +11 -4
  6. data/lib/scylla/lms/arabic.lm +400 -400
  7. data/lib/scylla/lms/bulgarian.lm +400 -400
  8. data/lib/scylla/lms/catalan.lm +400 -400
  9. data/lib/scylla/lms/chinese.lm +395 -395
  10. data/lib/scylla/lms/czech.lm +397 -397
  11. data/lib/scylla/lms/danish.lm +372 -372
  12. data/lib/scylla/lms/dutch.lm +382 -382
  13. data/lib/scylla/lms/english.lm +378 -378
  14. data/lib/scylla/lms/finnish.lm +388 -388
  15. data/lib/scylla/lms/french.lm +392 -392
  16. data/lib/scylla/lms/german.lm +396 -396
  17. data/lib/scylla/lms/greek.lm +400 -400
  18. data/lib/scylla/lms/hebrew.lm +400 -400
  19. data/lib/scylla/lms/hindi.lm +399 -399
  20. data/lib/scylla/lms/icelandic.lm +225 -225
  21. data/lib/scylla/lms/indonesian.lm +391 -391
  22. data/lib/scylla/lms/italian.lm +382 -382
  23. data/lib/scylla/lms/japanese.lm +400 -400
  24. data/lib/scylla/lms/kannada.lm +392 -392
  25. data/lib/scylla/lms/korean.lm +391 -391
  26. data/lib/scylla/lms/marathi.lm +388 -388
  27. data/lib/scylla/lms/norwegian.lm +375 -375
  28. data/lib/scylla/lms/persian.lm +399 -399
  29. data/lib/scylla/lms/polish.lm +399 -399
  30. data/lib/scylla/lms/portuguese.lm +390 -390
  31. data/lib/scylla/lms/romanian.lm +353 -353
  32. data/lib/scylla/lms/russian.lm +400 -400
  33. data/lib/scylla/lms/slovak.lm +361 -361
  34. data/lib/scylla/lms/slovenian.lm +273 -273
  35. data/lib/scylla/lms/spanish.lm +371 -371
  36. data/lib/scylla/lms/swedish.lm +400 -400
  37. data/lib/scylla/lms/tagalog.lm +295 -295
  38. data/lib/scylla/lms/thai.lm +400 -400
  39. data/lib/scylla/lms/turkish.lm +377 -377
  40. data/lib/scylla/lms/vietnamese.lm +400 -400
  41. data/lib/scylla/lms/welsh.lm +311 -311
  42. data/lib/scylla/loader.rb +1 -1
  43. data/test/classifier_test.rb +6 -4
  44. data/test/fixtures/lms/arabic.lm +400 -0
  45. data/test/fixtures/lms/bulgarian.lm +400 -0
  46. data/test/fixtures/lms/catalan.lm +400 -0
  47. data/test/fixtures/lms/chinese.lm +400 -0
  48. data/test/fixtures/lms/czech.lm +400 -0
  49. data/test/fixtures/lms/danish.lm +399 -399
  50. data/test/fixtures/lms/dutch.lm +400 -0
  51. data/test/fixtures/lms/english.lm +400 -400
  52. data/test/fixtures/lms/finnish.lm +400 -0
  53. data/test/fixtures/lms/french.lm +397 -397
  54. data/test/fixtures/lms/german.lm +400 -400
  55. data/test/fixtures/lms/greek.lm +400 -0
  56. data/test/fixtures/lms/hebrew.lm +400 -0
  57. data/test/fixtures/lms/hindi.lm +400 -400
  58. data/test/fixtures/lms/icelandic.lm +400 -0
  59. data/test/fixtures/lms/indonesian.lm +400 -0
  60. data/test/fixtures/lms/italian.lm +400 -400
  61. data/test/fixtures/lms/japanese.lm +400 -400
  62. data/test/fixtures/lms/kannada.lm +400 -0
  63. data/test/fixtures/lms/korean.lm +400 -0
  64. data/test/fixtures/lms/marathi.lm +400 -0
  65. data/test/fixtures/lms/norwegian.lm +399 -399
  66. data/test/fixtures/lms/persian.lm +400 -0
  67. data/test/fixtures/lms/polish.lm +400 -0
  68. data/test/fixtures/lms/portuguese.lm +400 -0
  69. data/test/fixtures/lms/romanian.lm +400 -0
  70. data/test/fixtures/lms/russian.lm +400 -0
  71. data/test/fixtures/lms/slovak.lm +400 -0
  72. data/test/fixtures/lms/slovenian.lm +400 -0
  73. data/test/fixtures/lms/spanish.lm +400 -400
  74. data/test/fixtures/lms/swedish.lm +400 -0
  75. data/test/fixtures/lms/tagalog.lm +400 -0
  76. data/test/fixtures/lms/thai.lm +400 -0
  77. data/test/fixtures/lms/turkish.lm +400 -0
  78. data/test/fixtures/lms/vietnamese.lm +400 -0
  79. data/test/fixtures/lms/welsh.lm +400 -0
  80. data/test/fixtures/test_languages/japanese +149 -67
  81. data/test/generator_test.rb +2 -44
  82. data/test/helper.rb +3 -3
  83. data/test/language_test.rb +6 -2
  84. data/test/loader_test.rb +2 -2
  85. data/test/scylla_test.rb +7 -7
  86. metadata +144 -95
@@ -1,400 +1,400 @@
1
- _ 12268
2
- e 3780
3
- r 3229
4
- a 3063
5
- n 2901
6
- t 2760
7
- s 2287
8
- i 2141
9
- l 1753
10
- d 1620
11
- 1529
12
- o 1405
13
- g 1168
14
- m 1045
15
- r_ 1031
16
- k 1026
17
- v 982
18
- er 919
19
- _s 844
20
- t_ 803
21
- en 798
22
- de 777
23
- n_ 772
24
- ä 647
25
- 647
26
- a_ 646
27
- f 607
28
- e_ 600
29
- h 600
30
- u 577
31
- ar 573
32
- p 550
33
- an 511
34
- en_ 504
35
- st 489
36
- c 475
37
- å 457
38
- 457
39
- _i 455
40
- in 455
41
- nd 438
42
- et 432
43
- ri 432
44
- 420
45
- ö 420
46
- _a 397
47
- ge 392
48
- _d 389
49
- ra 386
50
- er_ 384
51
- te 380
52
- _o 373
53
- ti 372
54
- _f 355
55
- ig 349
56
- _m 348
57
- oc 335
58
- _e 331
59
- s_ 330
60
- ve 325
61
- b 318
62
- ta 318
63
- _� 311
64
- re 304
65
- ll 303
66
- i_ 301
67
- om 294
68
- la 291
69
- at 282
70
- _de 281
71
- na 281
72
- ar_ 277
73
- _t 274
74
- sv 273
75
- _oc 269
76
- �r 261
77
- är 261
78
- ch 257
79
- _i_ 256
80
- h_ 252
81
- et_ 251
82
- ch_ 250
83
- sk 249
84
- och 248
85
- al 246
86
- ka 243
87
- ng 241
88
- _h 240
89
- sve 238
90
- _sv 238
91
- d_ 236
92
- eri 234
93
- de_ 231
94
- or 231
95
- and 230
96
- ver 230
97
- m_ 228
98
- tt 227
99
- _v 224
100
- ns 222
101
- me 220
102
- el 220
103
- _p 216
104
- nde 213
105
- li 206
106
- �r 203
107
- ör 203
108
- rig 203
109
- le 200
110
- ed 199
111
- v_ 197
112
- av 197
113
- ige 197
114
- _k 194
115
- _b 194
116
- y 190
117
- es 188
118
- f� 188
119
- _l 187
120
- il 185
121
- _r 185
122
- _av 182
123
- om_ 181
124
- _u 179
125
- da 179
126
- l_ 178
127
- on 177
128
- _in 177
129
- va 176
130
- 176
131
- av_ 176
132
- nt 173
133
- _me 172
134
- j 172
135
- ha 168
136
- 167
137
- g_ 167
138
- ter 166
139
- ga 163
140
- �r_ 160
141
- se 159
142
- is 159
143
- _n 156
144
- _ha 155
145
- ing 154
146
- ad 152
147
- so 151
148
- r� 151
149
- ge_ 150
150
- _st 149
151
- un 147
152
- _en 146
153
- ik 144
154
- rn 143
155
- ne 140
156
- sta 138
157
- _f� 136
158
- it 136
159
- ni 134
160
- der 134
161
- den 133
162
- v� 132
163
- _ti 131
164
- tt_ 127
165
- _so 125
166
- å_ 124
167
- �_ 124
168
- ska 123
169
- ut 122
170
- rs 122
171
- som 122
172
- ån 121
173
- �n 121
174
- ag 119
175
- ka_ 119
176
- ol 118
177
- med 118
178
- _g 117
179
- kt 116
180
- gen 115
181
- har 114
182
- ill 114
183
- tr 113
184
- na_ 113
185
- ra_ 113
186
- ts 113
187
- an_ 112
188
- no 112
189
- det 112
190
- sa 111
191
- lan 111
192
- �n 111
193
- än 111
194
- ro 110
195
- io 110
196
- ma 110
197
- til 109
198
- to 109
199
- ade 108
200
- be 108
201
- rna 108
202
- am 105
203
- ll_ 104
204
- re_ 103
205
- k_ 102
206
- ion 102
207
- t� 101
208
- pe 101
209
- era 100
210
- fr 99
211
- es_ 99
212
- vi 98
213
- l� 98
214
- ko 97
215
- 97
216
- lt 96
217
- dr 95
218
- gs 95
219
- s� 95
220
- _va 93
221
- var 92
222
- �r 92
223
- år 92
224
- ng_ 90
225
- ens 90
226
- pr 90
227
- ed_ 89
228
- nn 89
229
- as 89
230
- rt 87
231
- ent 86
232
- ck 86
233
- _fr 86
234
- ke 85
235
- _re 85
236
- tio 85
237
- und 85
238
- ta_ 83
239
- mi 83
240
- del 83
241
- ell 83
242
- att 83
243
- gr 81
244
- 81
245
- ern 79
246
- are 79
247
- 77
248
- nsk 77
249
- ks 76
250
- �r_ 75
251
- ati 75
252
- rk 75
253
- p� 75
254
- 74
255
- em 74
256
- _p� 74
257
- di 74
258
- nte 73
259
- tal 73
260
- id 73
261
- lig 72
262
- st� 72
263
- _l� 72
264
- ven 72
265
- ru 71
266
- ld 71
267
- nin 71
268
- _se 71
269
- _an 70
270
- _ut 70
271
- ten 69
272
- m� 69
273
- 69
274
- rd 68
275
- he 67
276
- ot 66
277
- _un 66
278
- dra 66
279
- kr 66
280
- ett 65
281
- _be 65
282
- eg 65
283
- si 65
284
- _vi 65
285
- rin 64
286
- lla 64
287
- gar 63
288
- one 63
289
- rad 63
290
- ur 63
291
- ss 62
292
- �r_ 62
293
- ce 62
294
- ns_ 62
295
- fr� 62
296
- h� 62
297
- n� 62
298
- rik 62
299
- ste 61
300
- nd_ 61
301
- ie 61
302
- ner 60
303
- _v� 59
304
- isk 59
305
- sam 59
306
- pp 59
307
- ndr 58
308
- fo 58
309
- j� 57
310
- nga 57
311
- _la 57
312
- ler 57
313
- �t 56
314
- nor 56
315
- �rs 56
316
- tor 56
317
- ät 56
318
- te_ 56
319
- ale 56
320
- _sa 56
321
- st_ 56
322
- ger 56
323
- ef 55
324
- des 55
325
- gt 55
326
- iga 55
327
- po 55
328
- lt_ 55
329
- ga_ 54
330
- nv 54
331
- 54
332
- sto 54
333
- ku 54
334
- up 54
335
- 53
336
- rl 53
337
- �n_ 53
338
- per 52
339
- ete 51
340
- _j 51
341
- fi 51
342
- ls 51
343
- �l 51
344
- _om 51
345
- _et 51
346
- 51
347
- äl 51
348
- all 51
349
- gt_ 51
350
- ft 51
351
- lit 50
352
- lk 50
353
- at_ 50
354
- �nd 50
355
- sl 50
356
- _no 49
357
- int 49
358
- fa 49
359
- dan 49
360
- _mi 49
361
- pa 49
362
- reg 49
363
- upp 49
364
- tu 49
365
- yg 49
366
- _pr 49
367
- la_ 48
368
- sen 48
369
- sp 48
370
- 47
371
- _s� 47
372
- tan 47
373
- lag 47
374
- _n� 47
375
- ist 47
376
- ds 47
377
- _at 47
378
- cen 47
379
- do 47
380
- het 46
381
- ges 46
382
- _h� 46
383
- nar 46
384
- _ri 46
385
- nk 46
386
- oli 46
387
- iti 46
388
- 46
389
- min 46
390
- nge 45
391
- ul 45
392
- ans 45
393
- nt_ 45
394
- let 45
395
- ock 45
396
- mo 45
397
- age 45
398
- eda 45
399
- sd 44
400
- iv 44
1
+ _ 14894
2
+ e 4532
3
+ r 3843
4
+ a 3731
5
+ n 3524
6
+ t 3391
7
+ s 2769
8
+ i 2547
9
+ l 2164
10
+ d 1972
11
+ o 1727
12
+ g 1383
13
+ k 1251
14
+ m 1232
15
+ r_ 1194
16
+ v 1185
17
+ er 1068
18
+ _s 1026
19
+ t_ 994
20
+ en 988
21
+ n_ 978
22
+ de 969
23
+ a_ 775
24
+ f 773
25
+ ä 767
26
+ e_ 719
27
+ h 709
28
+ u 697
29
+ p 678
30
+ ar 661
31
+ en_ 637
32
+ an 629
33
+ st 584
34
+ c 563
35
+ å 561
36
+ et 536
37
+ ö 534
38
+ nd 534
39
+ in 532
40
+ _i 527
41
+ _a 500
42
+ ra 494
43
+ ri 490
44
+ _d 465
45
+ ti 459
46
+ er_ 452
47
+ _f 451
48
+ _o 443
49
+ ge 442
50
+ te 441
51
+ s_ 416
52
+ _e 412
53
+ ta 408
54
+ ig 407
55
+ b 404
56
+ _m 404
57
+ oc 403
58
+ ll 388
59
+ ve 367
60
+ _t 365
61
+ re 358
62
+ om 351
63
+ la 348
64
+ i_ 344
65
+ _de 341
66
+ at 339
67
+ na 337
68
+ _oc 318
69
+ et_ 318
70
+ ar_ 316
71
+ sv 311
72
+ al 309
73
+ sk 304
74
+ ch 303
75
+ h_ 300
76
+ ch_ 297
77
+ och 295
78
+ _i_ 293
79
+ de_ 293
80
+ ka 290
81
+ ns 288
82
+ d_ 288
83
+ är 283
84
+ _p 282
85
+ _h 281
86
+ tt 280
87
+ or 280
88
+ and 278
89
+ ng 277
90
+ _v 274
91
+ le 271
92
+ _sv 270
93
+ me 269
94
+ nde 268
95
+ ör 267
96
+ sve 267
97
+ m_ 263
98
+ eri 257
99
+ el 257
100
+ ver 257
101
+ v_ 252
102
+ _b 251
103
+ av 248
104
+ li 246
105
+ on 244
106
+ _k 234
107
+ _l 232
108
+ _av 229
109
+ il 229
110
+ _u 228
111
+ rig 224
112
+ ed 223
113
+ av_ 221
114
+ l_ 221
115
+ ige 218
116
+ y 218
117
+ es 214
118
+ nt 213
119
+ 213
120
+ g_ 208
121
+ om_ 208
122
+ _in 207
123
+ j 206
124
+ _r 206
125
+ _me 205
126
+ ad 202
127
+ va 201
128
+ da 198
129
+ 197
130
+ för 193
131
+ ha 193
132
+ is 192
133
+ ga 191
134
+ se 188
135
+ _st 187
136
+ ter 186
137
+ _en 180
138
+ un 180
139
+ _n 178
140
+ so 177
141
+ ik 177
142
+ _ha 174
143
+ ing 174
144
+ ne 171
145
+ ge_ 170
146
+ är_ 169
147
+ den 169
148
+ _fö 166
149
+ der 165
150
+ å_ 165
151
+ _ti 162
152
+ tt_ 161
153
+ rn 160
154
+ sta 157
155
+ it 156
156
+ io 155
157
+ tr 155
158
+ ut 153
159
+ ni 153
160
+ ko 150
161
+ kt 148
162
+ ill 146
163
+ _so 145
164
+ _är 145
165
+ rs 145
166
+ ade 145
167
+ ra_ 144
168
+ ska 144
169
+ ion 143
170
+ ol 143
171
+ an_ 143
172
+ som 142
173
+ sa 141
174
+ än 140
175
+ ka_ 140
176
+ ån 138
177
+ ma 138
178
+ det 137
179
+ ro 136
180
+ til 136
181
+ med 135
182
+ _g 135
183
+ no 135
184
+ ts 134
185
+ lan 132
186
+ ll_ 132
187
+ ag 131
188
+ na_ 128
189
+ k_ 128
190
+ gen 127
191
+ to 127
192
+ era 126
193
+ re_ 125
194
+ be 125
195
+ vi 125
196
+ fr 125
197
+ pr 123
198
+ am 123
199
+ har 122
200
+ rna 121
201
+ as 120
202
+ es_ 119
203
+ ens 117
204
+ var 115
205
+ 115
206
+ tal 114
207
+ pe 113
208
+ und 111
209
+ _va 110
210
+ dr 110
211
+ lt 109
212
+ tio 108
213
+ ent 108
214
+ år 107
215
+ rt 107
216
+ nn 106
217
+ _fr 106
218
+ ng_ 106
219
+ ke 105
220
+ gs 103
221
+ att 103
222
+ ed_ 101
223
+ 101
224
+ ck 101
225
+ gr 101
226
+ _på 100
227
+ del 99
228
+ ell 98
229
+ mi 98
230
+ eg 95
231
+ på_ 95
232
+ ta_ 94
233
+ id 94
234
+ 93
235
+ _ut 91
236
+ 90
237
+ _re 90
238
+ ss 89
239
+ ör_ 89
240
+ ati 89
241
+ are 89
242
+ nsk 88
243
+ ern 88
244
+ one 88
245
+ lig 88
246
+ 88
247
+ ale 88
248
+ 87
249
+ ten 87
250
+ _un 87
251
+ em 86
252
+ _an 86
253
+ nin 85
254
+ di 84
255
+ rd 84
256
+ ns_ 84
257
+ rk 84
258
+ _vi 83
259
+ år_ 83
260
+ ks 83
261
+ ven 83
262
+ dra 82
263
+ let 82
264
+ _ta 82
265
+ nte 82
266
+ _se 81
267
+ ru 81
268
+ _be 79
269
+ kr 79
270
+ ett 79
271
+ fi 78
272
+ ce 78
273
+ si 77
274
+ lla 77
275
+ rad 76
276
+ ot 75
277
+ ld 75
278
+ _pr 75
279
+ _år 75
280
+ ur 74
281
+ des 73
282
+ ga_ 73
283
+ he 73
284
+ rin 72
285
+ iga 71
286
+ tra 71
287
+ ste 70
288
+ sam 70
289
+ ner 70
290
+ ler 70
291
+ nd_ 70
292
+ pp 69
293
+ nor 69
294
+ sto 69
295
+ 69
296
+ _sa 69
297
+ isk 68
298
+ reg 68
299
+ po 68
300
+ st_ 68
301
+ äl 67
302
+ tor 67
303
+ pa 67
304
+ gar 67
305
+ rik 67
306
+ _lä 67
307
+ gt 66
308
+ ft 66
309
+ ie 66
310
+ all 66
311
+ ndr 66
312
+ ät 66
313
+ _vä 66
314
+ af 65
315
+ fo 65
316
+ nt_ 65
317
+ lt_ 65
318
+ tu 64
319
+ str 64
320
+ ls 64
321
+ ek 63
322
+ örs 63
323
+ _la 63
324
+ te_ 63
325
+ cen 63
326
+ pro 62
327
+ _at 62
328
+ _sk 62
329
+ rl 62
330
+ sp 62
331
+ gt_ 61
332
+ _et 61
333
+ _ko 61
334
+ _om 61
335
+ per 61
336
+ as_ 60
337
+ _  60
338
+ do 60
339
+ rr 60
340
+ dan 60
341
+ ån_ 60
342
+ ger 60
343
+   60
344
+ ef 60
345
+ frå 60
346
+ lle 60
347
+ rån 59
348
+ fa 59
349
+ up 59
350
+ _j 59
351
+ sl 59
352
+ nge 58
353
+ nga 58
354
+ lk 58
355
+ län 58
356
+ _no 58
357
+ x 58
358
+ ans 58
359
+ iv 57
360
+ at_ 57
361
+ sen 57
362
+ nat 57
363
+ la_ 56
364
+ tat 56
365
+ int 55
366
+ nv 55
367
+ ku 55
368
+ nom 55
369
+ ist 55
370
+ gi 55
371
+ ete 55
372
+ mm 54
373
+ upp 54
374
+ tan 54
375
+ 54
376
+ lit 54
377
+ ds 53
378
+ lag 53
379
+ min 53
380
+ mo 53
381
+ änd 53
382
+ _mi 52
383
+ iti 52
384
+ ms 52
385
+ nk 52
386
+ ran 52
387
+ _ri 51
388
+ äg 51
389
+ nar 50
390
+ raf 50
391
+ het 50
392
+ yg 50
393
+ 50
394
+ ock 50
395
+ men 50
396
+ eda 50
397
+ tet 50
398
+ fl 49
399
+ ak 49
400
+ ap 49