scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 12268
2
- e 3780
3
- r 3229
4
- a 3063
5
- n 2901
6
- t 2760
7
- s 2287
8
- i 2141
9
- l 1753
10
- d 1620
11
- 1529
12
- o 1405
13
- g 1168
14
- m 1045
15
- r_ 1031
16
- k 1026
17
- v 982
18
- er 919
19
- _s 844
20
- t_ 803
21
- en 798
22
- de 777
23
- n_ 772
24
- ä 647
25
- 647
26
- a_ 646
27
- f 607
28
- e_ 600
29
- h 600
30
- u 577
31
- ar 573
32
- p 550
33
- an 511
34
- en_ 504
35
- st 489
36
- c 475
37
- å 457
38
- 457
39
- _i 455
40
- in 455
41
- nd 438
42
- et 432
43
- ri 432
44
- 420
45
- ö 420
46
- _a 397
47
- ge 392
48
- _d 389
49
- ra 386
50
- er_ 384
51
- te 380
52
- _o 373
53
- ti 372
54
- _f 355
55
- ig 349
56
- _m 348
57
- oc 335
58
- _e 331
59
- s_ 330
60
- ve 325
61
- b 318
62
- ta 318
63
- _� 311
64
- re 304
65
- ll 303
66
- i_ 301
67
- om 294
68
- la 291
69
- at 282
70
- _de 281
71
- na 281
72
- ar_ 277
73
- _t 274
74
- sv 273
75
- _oc 269
76
- �r 261
77
- är 261
78
- ch 257
79
- _i_ 256
80
- h_ 252
81
- et_ 251
82
- ch_ 250
83
- sk 249
84
- och 248
85
- al 246
86
- ka 243
87
- ng 241
88
- _h 240
89
- sve 238
90
- _sv 238
91
- d_ 236
92
- eri 234
93
- de_ 231
94
- or 231
95
- and 230
96
- ver 230
97
- m_ 228
98
- tt 227
99
- _v 224
100
- ns 222
101
- me 220
102
- el 220
103
- _p 216
104
- nde 213
105
- li 206
106
- �r 203
107
- ör 203
108
- rig 203
109
- le 200
110
- ed 199
111
- v_ 197
112
- av 197
113
- ige 197
114
- _k 194
115
- _b 194
116
- y 190
117
- es 188
118
- f� 188
119
- _l 187
120
- il 185
121
- _r 185
122
- _av 182
123
- om_ 181
124
- _u 179
125
- da 179
126
- l_ 178
127
- on 177
128
- _in 177
129
- va 176
130
- 176
131
- av_ 176
132
- nt 173
133
- _me 172
134
- j 172
135
- ha 168
136
- 167
137
- g_ 167
138
- ter 166
139
- ga 163
140
- �r_ 160
141
- se 159
142
- is 159
143
- _n 156
144
- _ha 155
145
- ing 154
146
- ad 152
147
- so 151
148
- r� 151
149
- ge_ 150
150
- _st 149
151
- un 147
152
- _en 146
153
- ik 144
154
- rn 143
155
- ne 140
156
- sta 138
157
- _f� 136
158
- it 136
159
- ni 134
160
- der 134
161
- den 133
162
- v� 132
163
- _ti 131
164
- tt_ 127
165
- _so 125
166
- å_ 124
167
- �_ 124
168
- ska 123
169
- ut 122
170
- rs 122
171
- som 122
172
- ån 121
173
- �n 121
174
- ag 119
175
- ka_ 119
176
- ol 118
177
- med 118
178
- _g 117
179
- kt 116
180
- gen 115
181
- har 114
182
- ill 114
183
- tr 113
184
- na_ 113
185
- ra_ 113
186
- ts 113
187
- an_ 112
188
- no 112
189
- det 112
190
- sa 111
191
- lan 111
192
- �n 111
193
- än 111
194
- ro 110
195
- io 110
196
- ma 110
197
- til 109
198
- to 109
199
- ade 108
200
- be 108
201
- rna 108
202
- am 105
203
- ll_ 104
204
- re_ 103
205
- k_ 102
206
- ion 102
207
- t� 101
208
- pe 101
209
- era 100
210
- fr 99
211
- es_ 99
212
- vi 98
213
- l� 98
214
- ko 97
215
- 97
216
- lt 96
217
- dr 95
218
- gs 95
219
- s� 95
220
- _va 93
221
- var 92
222
- �r 92
223
- år 92
224
- ng_ 90
225
- ens 90
226
- pr 90
227
- ed_ 89
228
- nn 89
229
- as 89
230
- rt 87
231
- ent 86
232
- ck 86
233
- _fr 86
234
- ke 85
235
- _re 85
236
- tio 85
237
- und 85
238
- ta_ 83
239
- mi 83
240
- del 83
241
- ell 83
242
- att 83
243
- gr 81
244
- 81
245
- ern 79
246
- are 79
247
- 77
248
- nsk 77
249
- ks 76
250
- �r_ 75
251
- ati 75
252
- rk 75
253
- p� 75
254
- 74
255
- em 74
256
- _p� 74
257
- di 74
258
- nte 73
259
- tal 73
260
- id 73
261
- lig 72
262
- st� 72
263
- _l� 72
264
- ven 72
265
- ru 71
266
- ld 71
267
- nin 71
268
- _se 71
269
- _an 70
270
- _ut 70
271
- ten 69
272
- m� 69
273
- 69
274
- rd 68
275
- he 67
276
- ot 66
277
- _un 66
278
- dra 66
279
- kr 66
280
- ett 65
281
- _be 65
282
- eg 65
283
- si 65
284
- _vi 65
285
- rin 64
286
- lla 64
287
- gar 63
288
- one 63
289
- rad 63
290
- ur 63
291
- ss 62
292
- �r_ 62
293
- ce 62
294
- ns_ 62
295
- fr� 62
296
- h� 62
297
- n� 62
298
- rik 62
299
- ste 61
300
- nd_ 61
301
- ie 61
302
- ner 60
303
- _v� 59
304
- isk 59
305
- sam 59
306
- pp 59
307
- ndr 58
308
- fo 58
309
- j� 57
310
- nga 57
311
- _la 57
312
- ler 57
313
- �t 56
314
- nor 56
315
- �rs 56
316
- tor 56
317
- ät 56
318
- te_ 56
319
- ale 56
320
- _sa 56
321
- st_ 56
322
- ger 56
323
- ef 55
324
- des 55
325
- gt 55
326
- iga 55
327
- po 55
328
- lt_ 55
329
- ga_ 54
330
- nv 54
331
- 54
332
- sto 54
333
- ku 54
334
- up 54
335
- 53
336
- rl 53
337
- �n_ 53
338
- per 52
339
- ete 51
340
- _j 51
341
- fi 51
342
- ls 51
343
- �l 51
344
- _om 51
345
- _et 51
346
- 51
347
- äl 51
348
- all 51
349
- gt_ 51
350
- ft 51
351
- lit 50
352
- lk 50
353
- at_ 50
354
- �nd 50
355
- sl 50
356
- _no 49
357
- int 49
358
- fa 49
359
- dan 49
360
- _mi 49
361
- pa 49
362
- reg 49
363
- upp 49
364
- tu 49
365
- yg 49
366
- _pr 49
367
- la_ 48
368
- sen 48
369
- sp 48
370
- 47
371
- _s� 47
372
- tan 47
373
- lag 47
374
- _n� 47
375
- ist 47
376
- ds 47
377
- _at 47
378
- cen 47
379
- do 47
380
- het 46
381
- ges 46
382
- _h� 46
383
- nar 46
384
- _ri 46
385
- nk 46
386
- oli 46
387
- iti 46
388
- 46
389
- min 46
390
- nge 45
391
- ul 45
392
- ans 45
393
- nt_ 45
394
- let 45
395
- ock 45
396
- mo 45
397
- age 45
398
- eda 45
399
- sd 44
400
- iv 44
1
+ _ 14836
2
+ e 4518
3
+ r 3830
4
+ a 3718
5
+ n 3511
6
+ t 3375
7
+ s 2753
8
+ i 2535
9
+ l 2157
10
+ d 1968
11
+ o 1722
12
+ g 1380
13
+ k 1247
14
+ m 1226
15
+ r_ 1189
16
+ v 1185
17
+ er 1068
18
+ _s 1017
19
+ t_ 990
20
+ en 984
21
+ n_ 975
22
+ de 967
23
+ a_ 772
24
+ f 769
25
+ ä 764
26
+ e_ 717
27
+ h 706
28
+ u 696
29
+ p 675
30
+ ar 657
31
+ en_ 634
32
+ an 628
33
+ st 581
34
+ c 562
35
+ å 556
36
+ nd 533
37
+ ö 533
38
+ et 530
39
+ in 528
40
+ _i 526
41
+ _a 499
42
+ ra 492
43
+ ri 489
44
+ _d 463
45
+ ti 455
46
+ er_ 452
47
+ _f 451
48
+ _o 442
49
+ ge 441
50
+ te 438
51
+ s_ 413
52
+ _e 409
53
+ ta 407
54
+ ig 407
55
+ b 403
56
+ oc 403
57
+ _m 401
58
+ ll 385
59
+ ve 367
60
+ _t 365
61
+ re 358
62
+ om 348
63
+ la 347
64
+ i_ 344
65
+ _de 339
66
+ at 335
67
+ na 333
68
+ _oc 318
69
+ et_ 316
70
+ ar_ 312
71
+ sv 311
72
+ al 308
73
+ sk 305
74
+ ch 303
75
+ h_ 300
76
+ ch_ 297
77
+ och 295
78
+ _i_ 293
79
+ de_ 292
80
+ ka 290
81
+ ns 288
82
+ d_ 286
83
+ _p 281
84
+ är 281
85
+ or 279
86
+ tt 279
87
+ _h 278
88
+ and 277
89
+ ng 275
90
+ _v 274
91
+ le 272
92
+ _sv 270
93
+ nde 268
94
+ me 268
95
+ sve 267
96
+ ör 266
97
+ m_ 260
98
+ ver 257
99
+ eri 257
100
+ el 255
101
+ v_ 252
102
+ _b 250
103
+ av 248
104
+ li 244
105
+ on 243
106
+ _k 235
107
+ _l 231
108
+ il 229
109
+ _av 229
110
+ _u 228
111
+ rig 225
112
+ ed 224
113
+ av_ 221
114
+ l_ 220
115
+ ige 219
116
+ y 218
117
+ 213
118
+ nt 213
119
+ es 213
120
+ g_ 207
121
+ _in 206
122
+ j 206
123
+ _r 206
124
+ om_ 205
125
+ _me 204
126
+ ad 202
127
+ va 201
128
+ da 198
129
+ 197
130
+ is 193
131
+ för 193
132
+ ha 190
133
+ ga 190
134
+ ter 186
135
+ se 186
136
+ _st 185
137
+ un 180
138
+ _en 179
139
+ _n 177
140
+ ik 176
141
+ so 174
142
+ ing 172
143
+ _ha 171
144
+ ge_ 170
145
+ ne 170
146
+ är_ 169
147
+ den 169
148
+ _fö 166
149
+ der 165
150
+ å_ 164
151
+ _ti 161
152
+ rn 160
153
+ tt_ 160
154
+ sta 156
155
+ tr 155
156
+ ut 153
157
+ io 153
158
+ it 153
159
+ ni 152
160
+ ko 150
161
+ kt 148
162
+ ill 146
163
+ _är 145
164
+ rs 145
165
+ ade 145
166
+ ska 144
167
+ ol 144
168
+ an_ 143
169
+ ra_ 143
170
+ _so 142
171
+ sa 142
172
+ ion 141
173
+ än 140
174
+ ka_ 140
175
+ som 139
176
+ ma 138
177
+ ån 138
178
+ til 136
179
+ ro 136
180
+ det 136
181
+ med 135
182
+ _g 135
183
+ no 133
184
+ lan 132
185
+ ag 131
186
+ ts 131
187
+ ll_ 131
188
+ to 128
189
+ na_ 128
190
+ gen 127
191
+ k_ 127
192
+ era 126
193
+ vi 125
194
+ fr 125
195
+ re_ 125
196
+ be 125
197
+ am 124
198
+ rna 121
199
+ pr 120
200
+ as 119
201
+ har 119
202
+ es_ 118
203
+ ens 117
204
+ var 115
205
+ 115
206
+ tal 114
207
+ pe 113
208
+ und 111
209
+ _va 110
210
+ lt 109
211
+ dr 109
212
+ rt 108
213
+ ent 108
214
+ nn 106
215
+ _fr 106
216
+ tio 106
217
+ år 106
218
+ ng_ 105
219
+ att 103
220
+ gs 103
221
+ ke 103
222
+ ed_ 101
223
+ ck 101
224
+ gr 101
225
+ 100
226
+ del 99
227
+ _på 99
228
+ mi 97
229
+ ell 96
230
+ ta_ 94
231
+ eg 94
232
+ på_ 94
233
+ id 93
234
+ _ut 91
235
+ _re 90
236
+ 90
237
+ ör_ 89
238
+ are 89
239
+ 89
240
+ ten 88
241
+ ern 88
242
+ lig 88
243
+ ale 88
244
+ nsk 88
245
+ 87
246
+ ss 87
247
+ 87
248
+ _un 87
249
+ ati 87
250
+ one 87
251
+ em 86
252
+ _an 85
253
+ rd 84
254
+ nin 84
255
+ ns_ 84
256
+ di 84
257
+ ks 83
258
+ _vi 83
259
+ ven 83
260
+ rk 83
261
+ let 82
262
+ år_ 82
263
+ _ta 82
264
+ nte 82
265
+ ru 81
266
+ dra 81
267
+ _be 79
268
+ _se 79
269
+ kr 79
270
+ ce 78
271
+ ett 78
272
+ si 77
273
+ fi 77
274
+ lla 76
275
+ rad 76
276
+ _pr 75
277
+ ld 75
278
+ ot 75
279
+ ur 74
280
+ _år 74
281
+ des 73
282
+ he 73
283
+ ga_ 72
284
+ rin 72
285
+ sam 71
286
+ tra 71
287
+ nd_ 70
288
+ _sa 70
289
+ ner 70
290
+ ler 70
291
+ iga 70
292
+ sto 69
293
+ ste 69
294
+ 69
295
+ isk 69
296
+ po 69
297
+ pp 69
298
+ reg 68
299
+ st_ 68
300
+ tor 68
301
+ rik 67
302
+ _lä 67
303
+ ät 67
304
+ gar 67
305
+ pa 67
306
+ nor 67
307
+ _vä 66
308
+ gt 66
309
+ äl 66
310
+ all 66
311
+ lt_ 65
312
+ nt_ 65
313
+ fo 65
314
+ ndr 65
315
+ ft 65
316
+ ie 65
317
+ af 64
318
+ str 64
319
+ ls 64
320
+ cen 63
321
+ tu 63
322
+ örs 63
323
+ _la 63
324
+ ek 63
325
+ pro 62
326
+ _at 62
327
+ rl 62
328
+ te_ 62
329
+ _sk 62
330
+ _ko 61
331
+ gt_ 61
332
+ per 61
333
+ _om 61
334
+ do 60
335
+ ef 60
336
+ as_ 60
337
+ ger 60
338
+ ån_ 60
339
+ dan 60
340
+ _et 60
341
+ frå 60
342
+ rr 60
343
+ lle 60
344
+ sp 59
345
+ sl 59
346
+ up 59
347
+ fa 59
348
+ _j 59
349
+ rån 59
350
+ ans 58
351
+ nga 58
352
+ lk 58
353
+ x 58
354
+ län 58
355
+ _  58
356
+   58
357
+ _no 58
358
+ iv 57
359
+ nge 57
360
+ at_ 56
361
+ sen 56
362
+ ku 55
363
+ int 55
364
+ gi 55
365
+ tat 55
366
+ la_ 55
367
+ ist 55
368
+ nv 55
369
+ nat 55
370
+ nom 55
371
+ ete 55
372
+ mm 54
373
+ 54
374
+ tan 54
375
+ upp 54
376
+ lag 53
377
+ mo 53
378
+ lit 53
379
+ änd 53
380
+ ds 53
381
+ nk 53
382
+ ran 52
383
+ iti 52
384
+ ms 52
385
+ äg 51
386
+ min 51
387
+ _ri 51
388
+ yg 50
389
+ ap 50
390
+ ock 50
391
+ het 50
392
+ _mi 50
393
+ 50
394
+ eda 50
395
+  _ 49
396
+ oli 49
397
+ fl 49
398
+ _ _ 49
399
+ ak 49
400
+ öv 49