scylla 0.9.3 → 1.0.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 12268
2
- e 3780
3
- r 3229
4
- a 3063
5
- n 2901
6
- t 2760
7
- s 2287
8
- i 2141
9
- l 1753
10
- d 1620
11
- 1529
12
- o 1405
13
- g 1168
14
- m 1045
15
- r_ 1031
16
- k 1026
17
- v 982
18
- er 919
19
- _s 844
20
- t_ 803
21
- en 798
22
- de 777
23
- n_ 772
24
- ä 647
25
- 647
26
- a_ 646
27
- f 607
28
- e_ 600
29
- h 600
30
- u 577
31
- ar 573
32
- p 550
33
- an 511
34
- en_ 504
35
- st 489
36
- c 475
37
- å 457
38
- 457
39
- _i 455
40
- in 455
41
- nd 438
42
- et 432
43
- ri 432
44
- 420
45
- ö 420
46
- _a 397
47
- ge 392
48
- _d 389
49
- ra 386
50
- er_ 384
51
- te 380
52
- _o 373
53
- ti 372
54
- _f 355
55
- ig 349
56
- _m 348
57
- oc 335
58
- _e 331
59
- s_ 330
60
- ve 325
61
- b 318
62
- ta 318
63
- _� 311
64
- re 304
65
- ll 303
66
- i_ 301
67
- om 294
68
- la 291
69
- at 282
70
- _de 281
71
- na 281
72
- ar_ 277
73
- _t 274
74
- sv 273
75
- _oc 269
76
- �r 261
77
- är 261
78
- ch 257
79
- _i_ 256
80
- h_ 252
81
- et_ 251
82
- ch_ 250
83
- sk 249
84
- och 248
85
- al 246
86
- ka 243
87
- ng 241
88
- _h 240
89
- sve 238
90
- _sv 238
91
- d_ 236
92
- eri 234
93
- de_ 231
94
- or 231
95
- and 230
96
- ver 230
97
- m_ 228
98
- tt 227
99
- _v 224
100
- ns 222
101
- me 220
102
- el 220
103
- _p 216
104
- nde 213
105
- li 206
106
- �r 203
107
- ör 203
108
- rig 203
109
- le 200
110
- ed 199
111
- v_ 197
112
- av 197
113
- ige 197
114
- _k 194
115
- _b 194
116
- y 190
117
- es 188
118
- f� 188
119
- _l 187
120
- il 185
121
- _r 185
122
- _av 182
123
- om_ 181
124
- _u 179
125
- da 179
126
- l_ 178
127
- on 177
128
- _in 177
129
- va 176
130
- 176
131
- av_ 176
132
- nt 173
133
- _me 172
134
- j 172
135
- ha 168
136
- 167
137
- g_ 167
138
- ter 166
139
- ga 163
140
- �r_ 160
141
- se 159
142
- is 159
143
- _n 156
144
- _ha 155
145
- ing 154
146
- ad 152
147
- so 151
148
- r� 151
149
- ge_ 150
150
- _st 149
151
- un 147
152
- _en 146
153
- ik 144
154
- rn 143
155
- ne 140
156
- sta 138
157
- _f� 136
158
- it 136
159
- ni 134
160
- der 134
161
- den 133
162
- v� 132
163
- _ti 131
164
- tt_ 127
165
- _so 125
166
- å_ 124
167
- �_ 124
168
- ska 123
169
- ut 122
170
- rs 122
171
- som 122
172
- ån 121
173
- �n 121
174
- ag 119
175
- ka_ 119
176
- ol 118
177
- med 118
178
- _g 117
179
- kt 116
180
- gen 115
181
- har 114
182
- ill 114
183
- tr 113
184
- na_ 113
185
- ra_ 113
186
- ts 113
187
- an_ 112
188
- no 112
189
- det 112
190
- sa 111
191
- lan 111
192
- �n 111
193
- än 111
194
- ro 110
195
- io 110
196
- ma 110
197
- til 109
198
- to 109
199
- ade 108
200
- be 108
201
- rna 108
202
- am 105
203
- ll_ 104
204
- re_ 103
205
- k_ 102
206
- ion 102
207
- t� 101
208
- pe 101
209
- era 100
210
- fr 99
211
- es_ 99
212
- vi 98
213
- l� 98
214
- ko 97
215
- 97
216
- lt 96
217
- dr 95
218
- gs 95
219
- s� 95
220
- _va 93
221
- var 92
222
- �r 92
223
- år 92
224
- ng_ 90
225
- ens 90
226
- pr 90
227
- ed_ 89
228
- nn 89
229
- as 89
230
- rt 87
231
- ent 86
232
- ck 86
233
- _fr 86
234
- ke 85
235
- _re 85
236
- tio 85
237
- und 85
238
- ta_ 83
239
- mi 83
240
- del 83
241
- ell 83
242
- att 83
243
- gr 81
244
- 81
245
- ern 79
246
- are 79
247
- 77
248
- nsk 77
249
- ks 76
250
- �r_ 75
251
- ati 75
252
- rk 75
253
- p� 75
254
- 74
255
- em 74
256
- _p� 74
257
- di 74
258
- nte 73
259
- tal 73
260
- id 73
261
- lig 72
262
- st� 72
263
- _l� 72
264
- ven 72
265
- ru 71
266
- ld 71
267
- nin 71
268
- _se 71
269
- _an 70
270
- _ut 70
271
- ten 69
272
- m� 69
273
- 69
274
- rd 68
275
- he 67
276
- ot 66
277
- _un 66
278
- dra 66
279
- kr 66
280
- ett 65
281
- _be 65
282
- eg 65
283
- si 65
284
- _vi 65
285
- rin 64
286
- lla 64
287
- gar 63
288
- one 63
289
- rad 63
290
- ur 63
291
- ss 62
292
- �r_ 62
293
- ce 62
294
- ns_ 62
295
- fr� 62
296
- h� 62
297
- n� 62
298
- rik 62
299
- ste 61
300
- nd_ 61
301
- ie 61
302
- ner 60
303
- _v� 59
304
- isk 59
305
- sam 59
306
- pp 59
307
- ndr 58
308
- fo 58
309
- j� 57
310
- nga 57
311
- _la 57
312
- ler 57
313
- �t 56
314
- nor 56
315
- �rs 56
316
- tor 56
317
- ät 56
318
- te_ 56
319
- ale 56
320
- _sa 56
321
- st_ 56
322
- ger 56
323
- ef 55
324
- des 55
325
- gt 55
326
- iga 55
327
- po 55
328
- lt_ 55
329
- ga_ 54
330
- nv 54
331
- 54
332
- sto 54
333
- ku 54
334
- up 54
335
- 53
336
- rl 53
337
- �n_ 53
338
- per 52
339
- ete 51
340
- _j 51
341
- fi 51
342
- ls 51
343
- �l 51
344
- _om 51
345
- _et 51
346
- 51
347
- äl 51
348
- all 51
349
- gt_ 51
350
- ft 51
351
- lit 50
352
- lk 50
353
- at_ 50
354
- �nd 50
355
- sl 50
356
- _no 49
357
- int 49
358
- fa 49
359
- dan 49
360
- _mi 49
361
- pa 49
362
- reg 49
363
- upp 49
364
- tu 49
365
- yg 49
366
- _pr 49
367
- la_ 48
368
- sen 48
369
- sp 48
370
- 47
371
- _s� 47
372
- tan 47
373
- lag 47
374
- _n� 47
375
- ist 47
376
- ds 47
377
- _at 47
378
- cen 47
379
- do 47
380
- het 46
381
- ges 46
382
- _h� 46
383
- nar 46
384
- _ri 46
385
- nk 46
386
- oli 46
387
- iti 46
388
- 46
389
- min 46
390
- nge 45
391
- ul 45
392
- ans 45
393
- nt_ 45
394
- let 45
395
- ock 45
396
- mo 45
397
- age 45
398
- eda 45
399
- sd 44
400
- iv 44
1
+ _ 14836
2
+ e 4518
3
+ r 3830
4
+ a 3718
5
+ n 3511
6
+ t 3375
7
+ s 2753
8
+ i 2535
9
+ l 2157
10
+ d 1968
11
+ o 1722
12
+ g 1380
13
+ k 1247
14
+ m 1226
15
+ r_ 1189
16
+ v 1185
17
+ er 1068
18
+ _s 1017
19
+ t_ 990
20
+ en 984
21
+ n_ 975
22
+ de 967
23
+ a_ 772
24
+ f 769
25
+ ä 764
26
+ e_ 717
27
+ h 706
28
+ u 696
29
+ p 675
30
+ ar 657
31
+ en_ 634
32
+ an 628
33
+ st 581
34
+ c 562
35
+ å 556
36
+ nd 533
37
+ ö 533
38
+ et 530
39
+ in 528
40
+ _i 526
41
+ _a 499
42
+ ra 492
43
+ ri 489
44
+ _d 463
45
+ ti 455
46
+ er_ 452
47
+ _f 451
48
+ _o 442
49
+ ge 441
50
+ te 438
51
+ s_ 413
52
+ _e 409
53
+ ta 407
54
+ ig 407
55
+ b 403
56
+ oc 403
57
+ _m 401
58
+ ll 385
59
+ ve 367
60
+ _t 365
61
+ re 358
62
+ om 348
63
+ la 347
64
+ i_ 344
65
+ _de 339
66
+ at 335
67
+ na 333
68
+ _oc 318
69
+ et_ 316
70
+ ar_ 312
71
+ sv 311
72
+ al 308
73
+ sk 305
74
+ ch 303
75
+ h_ 300
76
+ ch_ 297
77
+ och 295
78
+ _i_ 293
79
+ de_ 292
80
+ ka 290
81
+ ns 288
82
+ d_ 286
83
+ _p 281
84
+ är 281
85
+ or 279
86
+ tt 279
87
+ _h 278
88
+ and 277
89
+ ng 275
90
+ _v 274
91
+ le 272
92
+ _sv 270
93
+ nde 268
94
+ me 268
95
+ sve 267
96
+ ör 266
97
+ m_ 260
98
+ ver 257
99
+ eri 257
100
+ el 255
101
+ v_ 252
102
+ _b 250
103
+ av 248
104
+ li 244
105
+ on 243
106
+ _k 235
107
+ _l 231
108
+ il 229
109
+ _av 229
110
+ _u 228
111
+ rig 225
112
+ ed 224
113
+ av_ 221
114
+ l_ 220
115
+ ige 219
116
+ y 218
117
+ 213
118
+ nt 213
119
+ es 213
120
+ g_ 207
121
+ _in 206
122
+ j 206
123
+ _r 206
124
+ om_ 205
125
+ _me 204
126
+ ad 202
127
+ va 201
128
+ da 198
129
+ 197
130
+ is 193
131
+ för 193
132
+ ha 190
133
+ ga 190
134
+ ter 186
135
+ se 186
136
+ _st 185
137
+ un 180
138
+ _en 179
139
+ _n 177
140
+ ik 176
141
+ so 174
142
+ ing 172
143
+ _ha 171
144
+ ge_ 170
145
+ ne 170
146
+ är_ 169
147
+ den 169
148
+ _fö 166
149
+ der 165
150
+ å_ 164
151
+ _ti 161
152
+ rn 160
153
+ tt_ 160
154
+ sta 156
155
+ tr 155
156
+ ut 153
157
+ io 153
158
+ it 153
159
+ ni 152
160
+ ko 150
161
+ kt 148
162
+ ill 146
163
+ _är 145
164
+ rs 145
165
+ ade 145
166
+ ska 144
167
+ ol 144
168
+ an_ 143
169
+ ra_ 143
170
+ _so 142
171
+ sa 142
172
+ ion 141
173
+ än 140
174
+ ka_ 140
175
+ som 139
176
+ ma 138
177
+ ån 138
178
+ til 136
179
+ ro 136
180
+ det 136
181
+ med 135
182
+ _g 135
183
+ no 133
184
+ lan 132
185
+ ag 131
186
+ ts 131
187
+ ll_ 131
188
+ to 128
189
+ na_ 128
190
+ gen 127
191
+ k_ 127
192
+ era 126
193
+ vi 125
194
+ fr 125
195
+ re_ 125
196
+ be 125
197
+ am 124
198
+ rna 121
199
+ pr 120
200
+ as 119
201
+ har 119
202
+ es_ 118
203
+ ens 117
204
+ var 115
205
+ 115
206
+ tal 114
207
+ pe 113
208
+ und 111
209
+ _va 110
210
+ lt 109
211
+ dr 109
212
+ rt 108
213
+ ent 108
214
+ nn 106
215
+ _fr 106
216
+ tio 106
217
+ år 106
218
+ ng_ 105
219
+ att 103
220
+ gs 103
221
+ ke 103
222
+ ed_ 101
223
+ ck 101
224
+ gr 101
225
+ 100
226
+ del 99
227
+ _på 99
228
+ mi 97
229
+ ell 96
230
+ ta_ 94
231
+ eg 94
232
+ på_ 94
233
+ id 93
234
+ _ut 91
235
+ _re 90
236
+ 90
237
+ ör_ 89
238
+ are 89
239
+ 89
240
+ ten 88
241
+ ern 88
242
+ lig 88
243
+ ale 88
244
+ nsk 88
245
+ 87
246
+ ss 87
247
+ 87
248
+ _un 87
249
+ ati 87
250
+ one 87
251
+ em 86
252
+ _an 85
253
+ rd 84
254
+ nin 84
255
+ ns_ 84
256
+ di 84
257
+ ks 83
258
+ _vi 83
259
+ ven 83
260
+ rk 83
261
+ let 82
262
+ år_ 82
263
+ _ta 82
264
+ nte 82
265
+ ru 81
266
+ dra 81
267
+ _be 79
268
+ _se 79
269
+ kr 79
270
+ ce 78
271
+ ett 78
272
+ si 77
273
+ fi 77
274
+ lla 76
275
+ rad 76
276
+ _pr 75
277
+ ld 75
278
+ ot 75
279
+ ur 74
280
+ _år 74
281
+ des 73
282
+ he 73
283
+ ga_ 72
284
+ rin 72
285
+ sam 71
286
+ tra 71
287
+ nd_ 70
288
+ _sa 70
289
+ ner 70
290
+ ler 70
291
+ iga 70
292
+ sto 69
293
+ ste 69
294
+ 69
295
+ isk 69
296
+ po 69
297
+ pp 69
298
+ reg 68
299
+ st_ 68
300
+ tor 68
301
+ rik 67
302
+ _lä 67
303
+ ät 67
304
+ gar 67
305
+ pa 67
306
+ nor 67
307
+ _vä 66
308
+ gt 66
309
+ äl 66
310
+ all 66
311
+ lt_ 65
312
+ nt_ 65
313
+ fo 65
314
+ ndr 65
315
+ ft 65
316
+ ie 65
317
+ af 64
318
+ str 64
319
+ ls 64
320
+ cen 63
321
+ tu 63
322
+ örs 63
323
+ _la 63
324
+ ek 63
325
+ pro 62
326
+ _at 62
327
+ rl 62
328
+ te_ 62
329
+ _sk 62
330
+ _ko 61
331
+ gt_ 61
332
+ per 61
333
+ _om 61
334
+ do 60
335
+ ef 60
336
+ as_ 60
337
+ ger 60
338
+ ån_ 60
339
+ dan 60
340
+ _et 60
341
+ frå 60
342
+ rr 60
343
+ lle 60
344
+ sp 59
345
+ sl 59
346
+ up 59
347
+ fa 59
348
+ _j 59
349
+ rån 59
350
+ ans 58
351
+ nga 58
352
+ lk 58
353
+ x 58
354
+ län 58
355
+ _  58
356
+   58
357
+ _no 58
358
+ iv 57
359
+ nge 57
360
+ at_ 56
361
+ sen 56
362
+ ku 55
363
+ int 55
364
+ gi 55
365
+ tat 55
366
+ la_ 55
367
+ ist 55
368
+ nv 55
369
+ nat 55
370
+ nom 55
371
+ ete 55
372
+ mm 54
373
+ 54
374
+ tan 54
375
+ upp 54
376
+ lag 53
377
+ mo 53
378
+ lit 53
379
+ änd 53
380
+ ds 53
381
+ nk 53
382
+ ran 52
383
+ iti 52
384
+ ms 52
385
+ äg 51
386
+ min 51
387
+ _ri 51
388
+ yg 50
389
+ ap 50
390
+ ock 50
391
+ het 50
392
+ _mi 50
393
+ 50
394
+ eda 50
395
+  _ 49
396
+ oli 49
397
+ fl 49
398
+ _ _ 49
399
+ ak 49
400
+ öv 49