scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 38544
2
- e 19678
3
- n 11581
4
- i 9160
5
- r 8612
6
- t 8045
7
- d 7418
8
- s 7398
9
- a 6002
10
- u 5115
11
- h 4953
12
- n_ 4525
13
- l 4327
14
- en 4218
15
- er 4174
16
- _d 3775
17
- de 3676
18
- g 3531
19
- c 3344
20
- e_ 3250
21
- ch 3155
22
- en_ 3097
23
- m 2779
24
- o 2647
25
- r_ 2540
26
- b 2383
27
- nd 2364
28
- te 2277
29
- _de 2148
30
- ie 2076
31
- t_ 2041
32
- er_ 2006
33
- un 1955
34
- ei 1927
35
- 1899
36
- in 1751
37
- f 1627
38
- w 1587
39
- ge 1567
40
- st 1567
1
+ _ 39198
2
+ e 19964
3
+ n 11815
4
+ i 9360
5
+ r 8753
6
+ t 8129
7
+ d 7567
8
+ s 7517
9
+ a 6131
10
+ u 5253
11
+ h 5027
12
+ n_ 4597
13
+ l 4388
14
+ en 4282
15
+ er 4223
16
+ _d 3842
17
+ de 3742
18
+ g 3601
19
+ c 3372
20
+ e_ 3289
21
+ ch 3188
22
+ en_ 3155
23
+ m 2854
24
+ o 2691
25
+ r_ 2564
26
+ b 2427
27
+ nd 2426
28
+ te 2279
29
+ _de 2176
30
+ ie 2108
31
+ t_ 2066
32
+ un 2012
33
+ er_ 2010
34
+ ei 1972
35
+ in 1799
36
+ f 1687
37
+ w 1622
38
+ ge 1612
39
+ st 1584
41
40
  _a 1557
42
- _s 1496
43
- der 1462
44
- d_ 1439
45
- s_ 1435
46
- z 1415
47
- he 1362
48
- nd_ 1324
49
- es 1319
50
- sc 1298
51
- sch 1293
52
- k 1292
53
- re 1242
54
- _e 1230
55
- an 1230
56
- _i 1220
57
- be 1151
58
- di 1145
59
- ie_ 1100
60
- und 1098
61
- v 1089
62
- _b 1069
63
- _di 1038
64
- p 1027
65
- die 1025
66
- it 1021
67
- _u 1009
68
- m_ 1002
69
- che 953
70
- ic 946
71
- is 940
72
- _w 934
73
- li 914
74
- _un 911
75
- ich 903
76
- ne 888
77
- _g 829
78
- _v 819
79
- ng 813
80
- ts 796
81
- h_ 784
82
- ch_ 776
83
- nde 766
84
- eu 754
85
- le 747
86
- on 738
87
- se 735
88
- au 715
89
- al 703
90
- ten 702
91
- ut 689
92
- ein 686
93
- 683
94
- ä 683
95
- in_ 669
96
- _in 633
97
- nt 631
98
- g_ 623
99
- el 621
100
- ti 617
101
- ur 616
102
- _z 613
103
- et 612
104
- _m 611
105
- den 609
106
- 597
107
- ü 597
108
- eut 597
109
- _n 592
110
- _be 588
111
- te_ 581
112
- ung 571
113
- la 567
114
- and 567
115
- tsc 559
116
- rt 558
117
- hen 551
118
- deu 549
119
- at 543
120
- hr 530
121
- _au 518
122
- we 516
123
- _ge 515
124
- uts 515
125
- si 515
126
- _ei 507
127
- em 505
128
- zu 497
129
- ig 490
130
- es_ 486
131
- hl 481
132
- me 480
133
- ve 470
134
- ra 457
135
- na 455
136
- des 451
137
- ht 440
138
- rd 439
139
- eit 438
140
- mi 437
141
- wi 437
142
- ste 435
143
- ri 431
144
- vo 429
145
- or 427
146
- ta 423
147
- ter 419
148
- _f 417
149
- ar 416
150
- _h 413
151
- ver 409
152
- lan 407
153
- im 407
154
- _zu 406
155
- _k 404
156
- da 402
157
- _st 402
158
- _vo 395
159
- _r 395
160
- ng_ 395
161
- eh 393
162
- gen 392
163
- cht 385
164
- ru 384
165
- ni 384
166
- ö 373
167
- 373
168
- us 373
169
- as 371
170
- _da 370
171
- it_ 364
172
- il 361
173
- ze 361
174
- chl 361
175
- lt 360
176
- eg 359
177
- ns 358
178
- rs 354
179
- on_ 342
180
- ha 337
181
- am 334
182
- _p 334
183
- _si 333
184
- lic 332
185
- ll 332
186
- ine 330
187
- _im 329
188
- gr 328
189
- isc 327
190
- _al 326
191
- he_ 326
192
- sta 325
193
- _l 322
41
+ der 1493
42
+ _s 1485
43
+ d_ 1477
44
+ s_ 1450
45
+ z 1437
46
+ he 1379
47
+ nd_ 1358
48
+ es 1342
49
+ sc 1317
50
+ k 1312
51
+ sch 1312
52
+ re 1267
53
+ _e 1262
54
+ an 1255
55
+ _i 1248
56
+ di 1171
57
+ be 1168
58
+ und 1131
59
+ ie_ 1128
60
+ v 1099
61
+ _b 1087
62
+ _di 1064
63
+ p 1055
64
+ die 1050
65
+ it 1041
66
+ m_ 1029
67
+ _u 1027
68
+ ic 966
69
+ che 963
70
+ is 958
71
+ _w 950
72
+ _un 925
73
+ ne 924
74
+ li 924
75
+ ich 920
76
+ ng 841
77
+ _g 838
78
+ _v 831
79
+ ts 812
80
+ nde 790
81
+ h_ 779
82
+ eu 776
83
+ ch_ 774
84
+ on 769
85
+ se 743
86
+ le 736
87
+ au 735
88
+ ten 709
89
+ ein 708
90
+ ä 705
91
+ al 702
92
+ ut 700
93
+ in_ 679
94
+ _in 643
95
+ ti 632
96
+ g_ 629
97
+ el 628
98
+ _z 623
99
+ nt 623
100
+ ur 622
101
+ et 621
102
+ den 619
103
+ ü 609
104
+ eut 606
105
+ _be 600
106
+ te_ 591
107
+ _n 588
108
+ ung 588
109
+ and 581
110
+ la 581
111
+ _m 571
112
+ tsc 569
113
+ rt 563
114
+ hen 559
115
+ deu 557
116
+ at 553
117
+ hr 546
118
+ si 526
119
+ we 525
120
+ _ge 525
121
+ uts 523
122
+ _ei 521
123
+ _au 519
124
+ em 509
125
+ zu 508
126
+ me 495
127
+ hl 490
128
+ es_ 488
129
+ ig 478
130
+ ra 471
131
+ ve 467
132
+ na 463
133
+ des 463
134
+ mi 456
135
+ wi 449
136
+ ht 448
137
+ rd 447
138
+ vo 447
139
+ eit 440
140
+ ri 439
141
+ ste 433
142
+ or 432
143
+ ta 431
144
+   426
145
+ ar 425
146
+ _h 419
147
+ im 418
148
+ _f 418
149
+ _zu 413
150
+ lan 413
151
+ _vo 412
152
+ ver 411
153
+ da 410
154
+ _k 410
155
+ _r 406
156
+ ter 406
157
+ gen 402
158
+ ng_ 402
159
+ ru 400
160
+ eh 396
161
+ ni 395
162
+ cht 394
163
+ us 392
164
+ _st 390
165
+ il 382
166
+ _da 380
167
+ as 378
168
+ _  377
169
+ ö 374
170
+ it_ 370
171
+ chl 369
172
+ lt 367
173
+ eg 365
174
+ ns 365
175
+ ze 360
176
+ rs 359
177
+ on_ 359
178
+ ha 347
179
+ am 346
180
+ ll 345
181
+ _si 342
182
+ ine 341
183
+ _im 336
184
+ lic 336
185
+ sta 334
186
+ gr 333
187
+ ss 332
188
+ isc 330
189
+ he_ 329
190
+ _l 328
191
+ eb 325
192
+ im_ 323
193
+ uf 322
194
+ ist 322
194
195
  _ve 321
195
- ss 320
196
- ber 318
197
- eb 316
198
- rei 315
199
- im_ 315
200
- nte 311
201
- ist 308
202
- uf 307
203
- _mi 307
204
- rde 305
205
- em_ 303
206
- pr 303
207
- j 300
208
- hla 298
209
- ah 295
210
- ren 295
211
- _we 294
212
- tr 293
213
- _an 292
214
- r� 292
215
- ac 289
216
- nen 289
217
- io 287
218
- ro 287
219
- ach 284
220
- so 282
221
- ent 280
222
- ls 279
223
- 278
224
- ion 275
225
- st_ 275
226
- l_ 274
227
- _er 272
228
- ert 271
229
- ed 270
230
- ol 270
231
- 269
232
- 269
233
- mit 269
234
- end 268
235
- bu 265
236
- ere 265
237
- ab 259
238
- tz 258
239
- _t 256
240
- ers 255
241
- _j 251
242
- wa 251
243
- _wi 246
244
- bi 246
196
+ rei 319
197
+ j 317
198
+ _al 314
199
+ ber 314
200
+ rde 311
201
+ pr 309
202
+ em_ 307
203
+ ah 307
204
+ hla 304
205
+ nen 302
206
+ _we 300
207
+ nte 299
208
+ tr 299
209
+ io 298
210
+ ren 298
211
+ _an 296
212
+ st_ 294
213
+ ro 292
214
+ ion 289
215
+ so 288
216
+ ac 287
217
+ l_ 287
218
+ _p 285
219
+ ls 282
220
+ ach 282
221
+ mit 281
222
+ _er 276
223
+ bu 275
224
+ ert 274
225
+ ed 273
226
+ ol 271
227
+ ere 270
228
+ _mi 269
229
+ end 269
230
+ ent 267
231
+ ab 266
232
+ ers 261
233
+ tz 260
234
+ wa 257
235
+ _wi 253
236
+ von 252
237
+ _t 251
238
+ bi 250
239
+ de_ 247
240
+ as_ 247
241
+ eic 246
242
+ ß 245
245
243
  sp 245
246
- de_ 245
247
- as_ 243
248
- 243
249
- ß 243
250
- ke 243
251
- eic 242
252
- _re 240
253
- von 240
254
- das 239
255
- um 237
256
- ges 236
257
- run 233
258
- nn 232
259
- nge 230
260
- tl 230
244
+ run 244
245
+ _re 244
246
+ das 244
247
+ ke 242
248
+ um 242
249
+ ges 241
250
+ nge 240
251
+ nn 235
252
+ auf 235
253
+ ne_ 229
254
+ bun 229
255
+ tl 228
261
256
  du 227
262
- auf 225
263
- ne_ 224
257
+ ft 227
258
+ fe 226
264
259
  est 222
265
- fe 221
266
- bun 220
267
- ft 219
268
- _se 219
269
- ier 219
270
- sa 217
271
- aus 214
272
- _na 214
273
- rt_ 213
274
- u_ 210
275
- dem 210
276
- ma 210
277
- tt 210
278
- _o 207
279
- ind 206
280
- f� 205
281
- gs 205
282
- ige 204
283
- wu 203
284
- _bu 201
285
- _wu 200
260
+ sa 221
261
+ ier 220
262
+ ma 218
263
+ _na 217
264
+ tt 216
265
+ ind 216
266
+ aus 216
267
+ _se 215
268
+ rt_ 215
269
+ dem 214
270
+ u_ 214
271
+ gs 213
272
+ _j 212
273
+ _bu 210
274
+ f_ 208
275
+ ige 207
276
+ _o 205
277
+ tu 204
278
+ ls_ 202
279
+ als 201
280
+ wu 201
286
281
  wei 200
287
- f_ 199
288
- ls_ 199
289
- urd 198
290
- wur 198
291
- als 197
292
- ete 197
293
- tu 196
294
- hi 194
295
- _gr 191
296
- le_ 190
297
- ht_ 189
298
- her 189
299
- om 188
282
+ _wu 198
283
+ wur 196
284
+ ete 196
285
+ hi 196
286
+ urd 196
287
+ om 193
288
+ _gr 192
289
+ ben 191
290
+ men 189
291
+ 189
292
+ her 187
293
+ ht_ 187
300
294
  rte 187
301
- ben 184
302
- 181
303
- men 181
304
- _so 180
305
- rn 179
306
- nz 178
307
- wie 177
308
- ede 176
309
- tli 176
295
+ rn 184
296
+ _so 184
297
+ wie 182
298
+ nz 179
299
+ ger 179
300
+ ede 178
301
+ eru 177
302
+ ahr 176
310
303
  rc 175
311
- gi 175
304
+ ag 175
305
+ tli 175
306
+ ati 174
307
+ gi 174
312
308
  _ab 173
313
- eru 171
314
- ahr 168
315
- ern 168
316
- ger 167
317
- t� 167
318
- uc 167
319
- um_ 167
309
+ ern 173
310
+ tio 170
311
+ le_ 169
312
+ ja 169
313
+ um_ 168
314
+ af 168
315
+ tei 167
316
+ rh 167
317
+ än 167
318
+ ge_ 166
319
+ uc 166
320
320
  rch 166
321
- ag 166
322
321
  po 166
323
- ati 166
324
- tio 165
322
+ ied 165
325
323
  ese 164
326
- af 164
327
- _� 163
328
- ied 163
329
- än 162
330
- ite 162
331
- rh 162
332
- �n 162
333
- ge_ 162
334
- tei 161
335
- kt 161
336
- rg 160
337
- hs 160
338
- 159
339
- ec 158
340
- uch 157
341
- chs 156
342
- ja 156
343
- _� 156
344
- len 154
345
-   153
346
- _is 153
347
- 153
348
- _pr 153
349
- sen 153
350
- bei 152
351
- _en 151
352
- zu_ 150
353
- hre 150
354
- geb 150
355
- ka 149
324
+ ite 163
325
+ _is 162
326
+ rg 162
327
+ hs 162
328
+ ec 161
329
+ kt 158
330
+ len 158
331
+ chs 158
332
+ hre 157
333
+ bei 157
334
+ k_ 156
335
+ uch 156
336
+ sen 155
337
+ _en 153
338
+ geb 153
339
+ eil 153
340
+ hn 153
341
+ i_ 151
342
+ zu_ 151
343
+ ner 150
344
+ uf_ 149
345
+ ik 149
346
+ jah 149
347
+ hr_ 149
348
+ ka 148
349
+ gt 148
356
350
  ko 148
357
- hn 148
358
- bes 147
359
- _� 147
360
- i_ 146
361
- rl 146
362
- mm 145
363
- eis 145
364
- k_ 145
365
- eil 145
366
- ir 145
367
- l� 145
368
- h� 144
369
- gt 144
370
- _te 144
351
+ mm 148
352
+ ir 148
353
+ eis 147
354
+ bes 146
355
+ ngs 146
356
+ rl 145
357
+ et_ 144
371
358
  rk 144
372
- hr_ 143
373
- _ja 142
374
- uf_ 142
359
+ aa 144
360
+ sin 143
361
+ _ha 142
362
+ sic 142
375
363
  zen 142
376
- ner 142
377
- aa 141
378
- 141
379
- jah 141
380
- sic 140
381
- ik 140
382
- ngs 139
383
- rb 139
384
- et_ 138
385
- ef 138
386
- _ha 138
364
+ ef 142
365
+ 142
366
+ _am 140
367
+ hei 139
368
+ elt 139
387
369
  nac 138
388
370
  fo 138
389
- sin 137
371
+ aat 138
372
+ taa 138
373
+ no 138
374
+ am_ 137
375
+ rb 137
390
376
  ehr 136
391
- elt 136
392
- no 136
393
- taa 135
394
- hei 135
395
- aat 135
396
- iel 135
397
- _am 133
398
- sei 133
399
- lle 133
400
- tis 132
377
+ tis 136
378
+ sei 135
379
+ lle 135
380
+ fa 134
381
+ ür 134
382
+ _me 133
383
+ kr 133
384
+ iel 133
385
+ _fü 131
386
+ _te 131
387
+ dur 130
388
+ etz 130
389
+ urc 130
390
+ ep 129
391
+ ech 128
392
+ tte 128
393
+ lie 127
394
+ unt 127
395
+ ene 127
396
+ ens 127
397
+ sse 126
398
+ üb 126
399
+ a_ 126
400
+ _du 125