scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 1388
2
- e 658
3
- n 392
4
- i 323
5
- r 318
6
- t 265
7
- s 249
8
- a 216
9
- d 203
10
- h 197
11
- u 172
12
- l 148
13
- n_ 146
14
- er 141
15
- en 140
16
- e_ 132
17
- c 129
18
- o 125
19
- g 116
20
- ch 112
21
- m 110
22
- _d 105
23
- r_ 97
24
- en_ 92
25
- k 83
26
- in 80
27
- te 79
28
- b 79
29
- de 78
30
- ei 74
31
- f 73
32
- _s 71
33
- er_ 70
34
- _e 67
35
- un 65
36
- t_ 64
37
- ie 54
38
- ge 53
39
- w 53
40
- _a 52
41
- s_ 50
42
- nd 49
43
- st 46
44
- ng 43
45
- z 42
46
- _de 42
47
- der 42
48
- v 41
49
- _i 40
50
- m_ 39
51
- re 39
52
- ne 38
53
- sc 38
54
- sch 38
55
- di 38
56
- he 37
57
- d_ 36
58
- be 36
59
- le 35
60
- au 35
61
- ie_ 35
62
- es 34
63
- der_ 34
64
- _w 33
65
- h_ 33
66
- it 33
67
- ein 32
68
- p 31
69
- ch_ 30
70
- ti 30
71
- _u 30
72
- _di 29
73
- ic 29
74
- 29
75
- _f 28
76
- _b 28
77
- 28
78
- an 27
79
- _der 27
80
- _die 27
81
- _k 27
82
- die 27
83
- nd_ 27
84
- te_ 27
85
- or 26
86
- _v 26
87
- nt 26
88
- in_ 26
89
- _g 26
90
- ung 26
91
- si 26
92
- el 25
93
- is 25
94
- _un 25
95
- al 25
96
- die_ 25
97
- ich 25
98
- _h 25
99
- _ei 24
100
- _ein 24
101
- che 23
102
- und 23
103
- on 23
104
- li 22
105
- se 22
106
- ra 22
107
- me 22
108
- _in 22
109
- rt 22
110
- at 22
111
- _er 21
112
- ht 21
113
- em 21
114
- ten 21
115
- ke 20
116
- _au 20
117
- hr 20
118
- _z 20
119
- _n 19
120
- ur 19
121
- da 19
122
- ll 19
123
- ar 18
124
- we 18
125
- ine 18
126
- im 18
127
- g_ 18
128
- und_ 17
129
- ri 17
130
- ter 17
131
- eine 17
132
- ns 17
133
- _be 17
134
- ten_ 17
135
- eit 17
136
- gen 17
137
- _da 17
138
- nge 16
139
- zu 16
140
- den 16
141
- _ge 15
142
- fe 15
143
- ig 15
144
- ve 15
145
- vo 15
146
- us 15
147
- on_ 15
148
- _si 15
149
- ab 15
150
- _m 15
151
- ha 15
152
- ht_ 15
153
- _in_ 15
154
- cht 15
155
- _l 15
156
- eu 15
157
- _t 15
158
- _und 15
159
- _sch 14
160
- o_ 14
161
- _sc 14
162
- ac 14
163
- rs 14
164
- mm 14
165
- ach 14
166
- et 14
167
- nde 13
168
- es_ 13
169
- ver 13
170
- ze 13
171
- 13
172
- _r 13
173
- 13
174
- la 13
175
- ls 13
176
- l_ 13
177
- he_ 13
178
- den_ 13
179
- ng_ 13
180
- _zu 13
181
- wi 13
182
- ru 13
183
- ent 13
184
- em_ 13
185
- �r 13
186
- men 13
187
- eh 13
188
- am 12
189
- f� 12
190
- ko 12
191
- tr 12
192
- rn 12
193
- lic 12
194
- ste 12
195
- ge_ 12
196
- na 12
197
- lle 12
198
- it_ 12
199
- ers 12
200
- _o 12
201
- _vo 12
202
- as 12
203
- tt 11
204
- ren 11
205
- f�r 11
206
- nte 11
207
- ta 11
208
- ni 11
209
- so 11
210
- f�r_ 11
211
- ck 11
212
- _f�r 11
213
- k_ 11
214
- che_ 11
215
- _ha 11
216
- rk 11
217
- �r_ 11
218
- hl 11
219
- nn 11
220
- no 11
221
- _ver 11
222
- uf 11
223
- lich 11
224
- _ve 11
225
- auf 11
226
- um 11
227
- _f� 11
228
- rte 11
229
- ut 10
230
- _se 10
231
- ung_ 10
232
- ls_ 10
233
- bei 10
234
- isc 10
235
- als 10
236
- isch 10
237
- ma 10
238
- hi 10
239
- _st 10
240
- rd 10
241
- gs 10
242
- sp 10
243
- ts 10
244
- sin 10
245
- rc 10
246
- le_ 9
247
- hen 9
248
- om 9
249
- nder 9
250
- _al 9
251
- _ko 9
252
- _le 9
253
- als_ 9
254
- ind 9
255
- u_ 9
256
- rch 9
257
- _we 9
258
- _wi 9
259
- ne_ 9
260
- ich_ 9
261
- ba 9
262
- ungs 9
263
- cht_ 9
264
- sa 9
265
- gen_ 9
266
- um_ 9
267
- lt 9
268
- hre 9
269
- ren_ 9
270
- ngs 9
271
- das 9
272
- _das 9
273
- ere 9
274
- nen 9
275
- il 9
276
- ein_ 9
277
- im_ 9
278
- ik 9
279
- mi 9
280
- nen_ 8
281
- aus 8
282
- das_ 8
283
- tig 8
284
- _re 8
285
- ner 8
286
- sich 8
287
- as_ 8
288
- ute 8
289
- f_ 8
290
- _j 8
291
- du 8
292
- ber 8
293
- hen_ 8
294
- eit_ 8
295
- do 8
296
- wo 8
297
- chen 8
298
- urc 8
299
- _p 8
300
- ter_ 8
301
- leu 8
302
- th 8
303
- _auf 8
304
- tra 8
305
- mme 8
306
- kei 8
307
- sic 8
308
- ol 8
309
- ute_ 8
310
- sti 8
311
- erk 8
312
- run 8
313
- ad 8
314
- ir 8
315
- ft 8
316
- rei 8
317
- j 8
318
- uc 8
319
- us_ 7
320
- keit 7
321
- rt_ 7
322
- _en 7
323
- and 7
324
- to 7
325
- od 7
326
- ka 7
327
- _er_ 7
328
- _ih 7
329
- von_ 7
330
- _hat 7
331
- von 7
332
- gr 7
333
- men_ 7
334
- end 7
335
- ing 7
336
- ert 7
337
- eut 7
338
- rde 7
339
- ges 7
340
- _leu 7
341
- _so 7
342
- _dur 7
343
- zu_ 7
344
- icht 7
345
- unge 7
346
- ens 7
347
- _ers 7
348
- br 7
349
- des 7
350
- ho 7
351
- tte 7
352
- _bei 7
353
- de_ 7
354
- io 7
355
- hat 7
356
- _du 7
357
- vor 7
358
- _im 7
359
- r� 7
360
- dur 7
361
- _von 7
362
- �_ 7
363
- bi 7
364
- len 7
365
- uch 7
366
- _im_ 7
367
- eute 7
368
- durc 7
369
- dr 7
370
- hu 7
371
- _als 7
372
- ih 7
373
- ag 7
374
- y 7
375
- urch 7
376
- or_ 6
377
- wei 6
378
- auc 6
379
- ind_ 6
380
- auch 6
381
- hw 6
382
- of 6
383
- fr 6
384
- auf_ 6
385
- _sp 6
386
- nge_ 6
387
- x 6
388
- mu 6
389
- _zu_ 6
390
- no_ 6
391
- lte 6
392
- mmen 6
393
- ei_ 6
394
- nter 6
395
- eb 6
396
- sind 6
397
- chl 6
398
- ner_ 6
399
- ns_ 6
400
- wer 6
1
+ _ 39198
2
+ e 19964
3
+ n 11815
4
+ i 9360
5
+ r 8753
6
+ t 8129
7
+ d 7567
8
+ s 7517
9
+ a 6131
10
+ u 5253
11
+ h 5027
12
+ n_ 4597
13
+ l 4388
14
+ en 4282
15
+ er 4223
16
+ _d 3842
17
+ de 3742
18
+ g 3601
19
+ c 3372
20
+ e_ 3289
21
+ ch 3188
22
+ en_ 3155
23
+ m 2854
24
+ o 2691
25
+ r_ 2564
26
+ b 2427
27
+ nd 2426
28
+ te 2279
29
+ _de 2176
30
+ ie 2108
31
+ t_ 2066
32
+ un 2012
33
+ er_ 2010
34
+ ei 1972
35
+ in 1799
36
+ f 1687
37
+ w 1622
38
+ ge 1612
39
+ st 1584
40
+ _a 1557
41
+ der 1493
42
+ _s 1485
43
+ d_ 1477
44
+ s_ 1450
45
+ z 1437
46
+ he 1379
47
+ nd_ 1358
48
+ es 1342
49
+ sc 1317
50
+ k 1312
51
+ sch 1312
52
+ re 1267
53
+ _e 1262
54
+ an 1255
55
+ _i 1248
56
+ di 1171
57
+ be 1168
58
+ und 1131
59
+ ie_ 1128
60
+ v 1099
61
+ _b 1087
62
+ _di 1064
63
+ p 1055
64
+ die 1050
65
+ it 1041
66
+ m_ 1029
67
+ _u 1027
68
+ ic 966
69
+ che 963
70
+ is 958
71
+ _w 950
72
+ _un 925
73
+ ne 924
74
+ li 924
75
+ ich 920
76
+ ng 841
77
+ _g 838
78
+ _v 831
79
+ ts 812
80
+ nde 790
81
+ h_ 779
82
+ eu 776
83
+ ch_ 774
84
+ on 769
85
+ se 743
86
+ le 736
87
+ au 735
88
+ ten 709
89
+ ein 708
90
+ ä 705
91
+ al 702
92
+ ut 700
93
+ in_ 679
94
+ _in 643
95
+ ti 632
96
+ g_ 629
97
+ el 628
98
+ _z 623
99
+ nt 623
100
+ ur 622
101
+ et 621
102
+ den 619
103
+ ü 609
104
+ eut 606
105
+ _be 600
106
+ te_ 591
107
+ _n 588
108
+ ung 588
109
+ and 581
110
+ la 581
111
+ _m 571
112
+ tsc 569
113
+ rt 563
114
+ hen 559
115
+ deu 557
116
+ at 553
117
+ hr 546
118
+ si 526
119
+ we 525
120
+ _ge 525
121
+ uts 523
122
+ _ei 521
123
+ _au 519
124
+ em 509
125
+ zu 508
126
+ me 495
127
+ hl 490
128
+ es_ 488
129
+ ig 478
130
+ ra 471
131
+ ve 467
132
+ na 463
133
+ des 463
134
+ mi 456
135
+ wi 449
136
+ ht 448
137
+ rd 447
138
+ vo 447
139
+ eit 440
140
+ ri 439
141
+ ste 433
142
+ or 432
143
+ ta 431
144
+   426
145
+ ar 425
146
+ _h 419
147
+ im 418
148
+ _f 418
149
+ _zu 413
150
+ lan 413
151
+ _vo 412
152
+ ver 411
153
+ da 410
154
+ _k 410
155
+ _r 406
156
+ ter 406
157
+ gen 402
158
+ ng_ 402
159
+ ru 400
160
+ eh 396
161
+ ni 395
162
+ cht 394
163
+ us 392
164
+ _st 390
165
+ il 382
166
+ _da 380
167
+ as 378
168
+ _  377
169
+ ö 374
170
+ it_ 370
171
+ chl 369
172
+ lt 367
173
+ eg 365
174
+ ns 365
175
+ ze 360
176
+ rs 359
177
+ on_ 359
178
+ ha 347
179
+ am 346
180
+ ll 345
181
+ _si 342
182
+ ine 341
183
+ _im 336
184
+ lic 336
185
+ sta 334
186
+ gr 333
187
+ ss 332
188
+ isc 330
189
+ he_ 329
190
+ _l 328
191
+ eb 325
192
+ im_ 323
193
+ uf 322
194
+ ist 322
195
+ _ve 321
196
+ rei 319
197
+ j 317
198
+ _al 314
199
+ ber 314
200
+ rde 311
201
+ pr 309
202
+ em_ 307
203
+ ah 307
204
+ hla 304
205
+ nen 302
206
+ _we 300
207
+ nte 299
208
+ tr 299
209
+ io 298
210
+ ren 298
211
+ _an 296
212
+ st_ 294
213
+ ro 292
214
+ ion 289
215
+ so 288
216
+ ac 287
217
+ l_ 287
218
+ _p 285
219
+ ls 282
220
+ ach 282
221
+ mit 281
222
+ _er 276
223
+ bu 275
224
+ ert 274
225
+ ed 273
226
+ ol 271
227
+ ere 270
228
+ _mi 269
229
+ end 269
230
+ ent 267
231
+ ab 266
232
+ ers 261
233
+ tz 260
234
+ wa 257
235
+ _wi 253
236
+ von 252
237
+ _t 251
238
+ bi 250
239
+ de_ 247
240
+ as_ 247
241
+ eic 246
242
+ ß 245
243
+ sp 245
244
+ run 244
245
+ _re 244
246
+ das 244
247
+ ke 242
248
+ um 242
249
+ ges 241
250
+ nge 240
251
+ nn 235
252
+ auf 235
253
+ ne_ 229
254
+ bun 229
255
+ tl 228
256
+ du 227
257
+ ft 227
258
+ fe 226
259
+ est 222
260
+ sa 221
261
+ ier 220
262
+ ma 218
263
+ _na 217
264
+ tt 216
265
+ ind 216
266
+ aus 216
267
+ _se 215
268
+ rt_ 215
269
+ dem 214
270
+ u_ 214
271
+ gs 213
272
+ _j 212
273
+ _bu 210
274
+ f_ 208
275
+ ige 207
276
+ _o 205
277
+ tu 204
278
+ ls_ 202
279
+ als 201
280
+ wu 201
281
+ wei 200
282
+ _wu 198
283
+ wur 196
284
+ ete 196
285
+ hi 196
286
+ urd 196
287
+ om 193
288
+ _gr 192
289
+ ben 191
290
+ men 189
291
+ 189
292
+ her 187
293
+ ht_ 187
294
+ rte 187
295
+ rn 184
296
+ _so 184
297
+ wie 182
298
+ nz 179
299
+ ger 179
300
+ ede 178
301
+ eru 177
302
+ ahr 176
303
+ rc 175
304
+ ag 175
305
+ tli 175
306
+ ati 174
307
+ gi 174
308
+ _ab 173
309
+ ern 173
310
+ tio 170
311
+ le_ 169
312
+ ja 169
313
+ um_ 168
314
+ af 168
315
+ tei 167
316
+ rh 167
317
+ än 167
318
+ ge_ 166
319
+ uc 166
320
+ rch 166
321
+ po 166
322
+ ied 165
323
+ ese 164
324
+ ite 163
325
+ _is 162
326
+ rg 162
327
+ hs 162
328
+ ec 161
329
+ kt 158
330
+ len 158
331
+ chs 158
332
+ hre 157
333
+ bei 157
334
+ k_ 156
335
+ uch 156
336
+ sen 155
337
+ _en 153
338
+ geb 153
339
+ eil 153
340
+ hn 153
341
+ i_ 151
342
+ zu_ 151
343
+ ner 150
344
+ uf_ 149
345
+ ik 149
346
+ jah 149
347
+ hr_ 149
348
+ ka 148
349
+ gt 148
350
+ ko 148
351
+ mm 148
352
+ ir 148
353
+ eis 147
354
+ bes 146
355
+ ngs 146
356
+ rl 145
357
+ et_ 144
358
+ rk 144
359
+ aa 144
360
+ sin 143
361
+ _ha 142
362
+ sic 142
363
+ zen 142
364
+ ef 142
365
+ 142
366
+ _am 140
367
+ hei 139
368
+ elt 139
369
+ nac 138
370
+ fo 138
371
+ aat 138
372
+ taa 138
373
+ no 138
374
+ am_ 137
375
+ rb 137
376
+ ehr 136
377
+ tis 136
378
+ sei 135
379
+ lle 135
380
+ fa 134
381
+ ür 134
382
+ _me 133
383
+ kr 133
384
+ iel 133
385
+ _fü 131
386
+ _te 131
387
+ dur 130
388
+ etz 130
389
+ urc 130
390
+ ep 129
391
+ ech 128
392
+ tte 128
393
+ lie 127
394
+ unt 127
395
+ ene 127
396
+ ens 127
397
+ sse 126
398
+ üb 126
399
+ a_ 126
400
+ _du 125