scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (79) hide show
  1. data/lib/scylla/lms/arabic.lm +399 -399
  2. data/lib/scylla/lms/bulgarian.lm +400 -400
  3. data/lib/scylla/lms/catalan.lm +323 -323
  4. data/lib/scylla/lms/chinese.lm +389 -389
  5. data/lib/scylla/lms/czech.lm +377 -377
  6. data/lib/scylla/lms/danish.lm +383 -383
  7. data/lib/scylla/lms/dutch.lm +398 -398
  8. data/lib/scylla/lms/english.lm +355 -355
  9. data/lib/scylla/lms/finnish.lm +381 -381
  10. data/lib/scylla/lms/french.lm +379 -379
  11. data/lib/scylla/lms/german.lm +382 -382
  12. data/lib/scylla/lms/greek.lm +400 -400
  13. data/lib/scylla/lms/hebrew.lm +400 -400
  14. data/lib/scylla/lms/hindi.lm +400 -400
  15. data/lib/scylla/lms/icelandic.lm +219 -219
  16. data/lib/scylla/lms/indonesian.lm +364 -364
  17. data/lib/scylla/lms/italian.lm +381 -381
  18. data/lib/scylla/lms/japanese.lm +400 -400
  19. data/lib/scylla/lms/kannada.lm +392 -392
  20. data/lib/scylla/lms/korean.lm +389 -389
  21. data/lib/scylla/lms/marathi.lm +364 -364
  22. data/lib/scylla/lms/norwegian.lm +325 -325
  23. data/lib/scylla/lms/persian.lm +397 -397
  24. data/lib/scylla/lms/polish.lm +380 -380
  25. data/lib/scylla/lms/portuguese.lm +375 -375
  26. data/lib/scylla/lms/romanian.lm +318 -318
  27. data/lib/scylla/lms/russian.lm +398 -398
  28. data/lib/scylla/lms/slovak.lm +358 -358
  29. data/lib/scylla/lms/slovenian.lm +256 -256
  30. data/lib/scylla/lms/spanish.lm +353 -353
  31. data/lib/scylla/lms/swedish.lm +400 -400
  32. data/lib/scylla/lms/tagalog.lm +245 -245
  33. data/lib/scylla/lms/thai.lm +400 -400
  34. data/lib/scylla/lms/turkish.lm +379 -379
  35. data/lib/scylla/lms/vietnamese.lm +373 -373
  36. data/lib/scylla/lms/welsh.lm +293 -293
  37. data/test/classifier_test.rb +5 -3
  38. data/test/fixtures/lms/arabic.lm +400 -0
  39. data/test/fixtures/lms/bulgarian.lm +400 -0
  40. data/test/fixtures/lms/catalan.lm +400 -0
  41. data/test/fixtures/lms/chinese.lm +400 -0
  42. data/test/fixtures/lms/czech.lm +400 -0
  43. data/test/fixtures/lms/danish.lm +399 -399
  44. data/test/fixtures/lms/dutch.lm +400 -0
  45. data/test/fixtures/lms/english.lm +400 -400
  46. data/test/fixtures/lms/finnish.lm +400 -0
  47. data/test/fixtures/lms/french.lm +397 -397
  48. data/test/fixtures/lms/german.lm +400 -400
  49. data/test/fixtures/lms/greek.lm +400 -0
  50. data/test/fixtures/lms/hebrew.lm +400 -0
  51. data/test/fixtures/lms/hindi.lm +400 -400
  52. data/test/fixtures/lms/icelandic.lm +400 -0
  53. data/test/fixtures/lms/indonesian.lm +400 -0
  54. data/test/fixtures/lms/italian.lm +400 -400
  55. data/test/fixtures/lms/japanese.lm +400 -400
  56. data/test/fixtures/lms/kannada.lm +400 -0
  57. data/test/fixtures/lms/korean.lm +400 -0
  58. data/test/fixtures/lms/marathi.lm +400 -0
  59. data/test/fixtures/lms/norwegian.lm +399 -399
  60. data/test/fixtures/lms/persian.lm +400 -0
  61. data/test/fixtures/lms/polish.lm +400 -0
  62. data/test/fixtures/lms/portuguese.lm +400 -0
  63. data/test/fixtures/lms/romanian.lm +400 -0
  64. data/test/fixtures/lms/russian.lm +400 -0
  65. data/test/fixtures/lms/slovak.lm +400 -0
  66. data/test/fixtures/lms/slovenian.lm +400 -0
  67. data/test/fixtures/lms/spanish.lm +400 -400
  68. data/test/fixtures/lms/swedish.lm +400 -0
  69. data/test/fixtures/lms/tagalog.lm +400 -0
  70. data/test/fixtures/lms/thai.lm +400 -0
  71. data/test/fixtures/lms/turkish.lm +400 -0
  72. data/test/fixtures/lms/vietnamese.lm +400 -0
  73. data/test/fixtures/lms/welsh.lm +400 -0
  74. data/test/fixtures/test_languages/japanese +149 -67
  75. data/test/generator_test.rb +1 -43
  76. data/test/language_test.rb +5 -1
  77. data/test/loader_test.rb +1 -1
  78. data/test/scylla_test.rb +4 -4
  79. metadata +105 -63
@@ -1,400 +1,400 @@
1
- _ 21942
2
- a 5484
3
- i 5468
4
- o 5224
5
- e 4856
6
- n 3797
7
- z 3574
8
- w 3545
9
- r 3166
10
- s 3010
11
- t 2639
12
- c 2630
13
- y 2433
14
- p 2308
15
- k 2258
16
- 2181
17
- d 1882
18
- l 1659
19
- _p 1595
20
- m 1564
21
- j 1534
22
- u 1522
23
- ie 1492
24
- a_ 1459
25
- _w 1438
26
- 1384
27
- e_ 1365
28
- i_ 1277
29
- ni 1177
30
- 1157
31
- ł 1157
32
- po 1079
33
- w_ 967
34
- _po 844
35
- na 826
36
- o_ 824
37
- st 821
38
- g 814
39
- ow 755
40
- _s 748
41
- h 748
42
- y_ 727
43
- _z 711
44
- cz 704
45
- ch 685
46
- _i 671
47
- 669
48
- 666
49
- ó 666
50
- ze 665
51
- _w_ 661
52
- ą 657
53
- 657
54
- _n 654
55
- b 642
56
- ę 615
57
- 615
58
- rz 613
59
- ra 603
60
- _o 601
61
- pr 561
62
- an 555
63
- wa 547
64
- wi 544
65
- ie_ 541
66
- ol 522
67
- m_ 522
68
- ro 512
69
- ki 507
70
- nie 499
71
- a� 481
72
- _d 481
73
- _r 481
74
- ch_ 480
75
- h_ 480
76
- za 479
77
- _na 478
78
- _t 475
79
- mi 475
80
- zy 471
81
- _k 471
82
- sk 467
83
- ta 464
84
- ia 451
85
- sz 449
86
- ej 449
87
- _pr 448
88
- u_ 441
89
- _i_ 440
90
- yc 433
91
- 425
92
- ś 425
93
- od 421
94
- i� 417
95
- _m 411
96
- pol 410
97
- ar 405
98
- or 389
99
- o� 388
100
- on 380
101
- 380
102
- ż 380
103
- z_ 379
104
- ny 376
105
- li 376
106
- dz 374
107
- ko 361
108
- ty 359
109
- ne 355
110
- na_ 354
111
- re 350
112
- wy 349
113
- ła 349
114
- �a 349
115
- en 347
116
- �w 345
117
- ów 345
118
- do 343
119
- ac 341
120
- ą_ 339
121
- �_ 339
122
- rze 338
123
- ic 335
124
- je 333
125
- j_ 325
126
- ls 323
127
- er 322
128
- ci 320
129
- 318
130
- 316
131
- no 314
132
- ka 314
133
- te 313
134
- zn 311
135
- si 308
136
- at 308
137
- ols 306
138
- os 303
139
- ej_ 303
140
- to 300
141
- prz 292
142
- aj 292
143
- em 290
144
- ych 282
145
- ad 282
146
- wo 281
147
- ski 276
148
- ę_ 273
149
- �_ 273
150
- �w_ 271
151
- zi 270
152
- eg 270
153
- es 267
154
- wie 259
1
+ _ 22532
2
+ a 5637
3
+ i 5625
4
+ o 5339
5
+ e 4970
6
+ n 3896
7
+ z 3690
8
+ w 3632
9
+ r 3252
10
+ s 3088
11
+ t 2692
12
+ c 2689
13
+ y 2488
14
+ p 2380
15
+ k 2321
16
+ d 1945
17
+ l 1696
18
+ _p 1642
19
+ m 1594
20
+ j 1580
21
+ u 1556
22
+ ie 1536
23
+ a_ 1497
24
+ _w 1466
25
+ e_ 1390
26
+ i_ 1302
27
+ ni 1210
28
+ ł 1196
29
+ po 1101
30
+ w_ 989
31
+ _po 857
32
+ o_ 852
33
+ st 848
34
+ na 847
35
+ g 831
36
+ ow 778
37
+ h 770
38
+ _s 761
39
+ y_ 751
40
+ _z 737
41
+ cz 714
42
+ ch 705
43
+ ze 689
44
+ _i 684
45
+ ó 684
46
+ _w_ 679
47
+ ą 675
48
+ _n 670
49
+ b 663
50
+ rz 638
51
+ ę 630
52
+ ra 624
53
+ _o 620
54
+ pr 577
55
+ an 571
56
+ wi 567
57
+ wa 561
58
+ ie_ 557
59
+ m_ 538
60
+ ol 532
61
+ ro 519
62
+ ki 518
63
+ nie 515
64
+ _d 494
65
+ _na 491
66
+ _r 490
67
+ za 489
68
+ _k 488
69
+ zy 488
70
+ h_ 488
71
+ ch_ 488
72
+ mi 485
73
+ _t 484
74
+ sk 479
75
+ ta 479
76
+ ia 466
77
+ ej 461
78
+ sz 460
79
+ _pr 459
80
+ u_ 455
81
+ _i_ 447
82
+ ś 438
83
+ yc 435
84
+ od 433
85
+ pol 420
86
+ _m 416
87
+ ar 415
88
+ z_ 400
89
+ or 396
90
+ ż 393
91
+ on 391
92
+ dz 390
93
+ li 387
94
+ ny 385
95
+ ko 365
96
+ ła 363
97
+ ty 360
98
+ na_ 359
99
+ ne 359
100
+ re 358
101
+ en 355
102
+ wy 352
103
+ rze 350
104
+ ów 350
105
+ do 349
106
+ ac 347
107
+ ą_ 346
108
+ ic 341
109
+ je 339
110
+ j_ 338
111
+ ci 333
112
+ ls 330
113
+ 327
114
+ er 327
115
+ no 324
116
+ 323
117
+ ka 322
118
+ te 318
119
+ zn 317
120
+ ej_ 316
121
+ si 315
122
+ at 314
123
+ ols 313
124
+ os 311
125
+ to 310
126
+ prz 305
127
+ aj 302
128
+ em 297
129
+ ad 295
130
+ ski 286
131
+ ych 283
132
+ wo 283
133
+ zi 279
134
+ eg 278
135
+ ę_ 277
136
+ ów_ 275
137
+ es 270
138
+ wie 266
139
+ ło 256
140
+ _j 255
155
141
  al 254
156
- _j 245
157
- go 245
158
- owa 244
159
- j� 243
160
- sta 242
161
- ło 242
162
- �o 242
163
- _za 239
164
- _c 236
165
- lsk 231
166
- in 230
167
- ec 228
168
- e� 228
169
- ani 227
170
- f 227
171
- la 226
172
- dzi 226
173
- _g 225
174
- czn 224
175
- ak 219
176
- ce 219
177
- _l 219
178
- ym 218
179
- tu 215
180
- ia_ 211
181
- t_ 209
182
- le 209
183
- _wy 208
184
- si� 205
185
- _do 204
186
- aw 204
187
- ku 202
188
- ne_ 202
189
- _a 202
190
- ki_ 201
191
- ws 200
142
+ sta 254
143
+ go 252
144
+ _c 249
145
+ owa 248
146
+ _za 245
147
+ lsk 237
148
+ in 236
149
+ ec 235
150
+ dzi 234
151
+ la 232
152
+ f 232
153
+ _l 230
154
+ ani 229
155
+ _g 227
156
+ czn 227
157
+ ym 225
158
+ ak 223
159
+ ce 222
160
+ tu 217
161
+ ia_ 217
162
+ le 215
163
+ _do 211
164
+ aw 209
165
+ _wy 209
166
+ ws 208
167
+ t_ 207
168
+ _a 206
169
+ ki_ 205
170
+ ne_ 204
171
+ ku 204
172
+ kie 202
173
+ _u 202
192
174
  ok 199
193
- _u 198
194
- kie 198
195
- we 196
196
- 191
197
- ego 190
198
- tr 190
199
- go_ 190
200
- ys 189
201
- _z_ 189
202
- zo 188
203
- iej 187
204
- tw 186
205
- 185
175
+ 198
176
+ we 198
177
+ dn 196
178
+ tr 196
179
+ _z_ 196
180
+ go_ 195
181
+ ego 194
182
+ zo 193
183
+ ed 192
184
+ tw 192
185
+ iej 192
186
+ ek 190
187
+ ys 190
188
+ as 190
189
+ się 189
190
+ d_ 188
191
+ ją 187
192
+ _b 187
193
+ kr 186
206
194
  _si 185
207
- dn 184
208
- ed 184
209
- as 181
210
- d_ 180
211
- ek 180
212
- el 180
213
- _b 180
214
- kr 179
215
- sp 177
216
- oz 176
217
- cy 176
218
- _ro 176
219
- nia 174
220
- _� 174
221
- ma 173
222
- 171
223
- 171
224
- _je 171
225
- 171
226
- pa 170
227
- io 170
228
- cj 168
229
- ln 166
230
- ez 164
231
- em_ 164
232
- 162
233
- �ci 162
234
- śc 162
235
- �c 162
236
- ń 162
237
- az 161
238
- kt 161
239
- �a_ 159
240
- _wi 159
241
- ry 158
242
- ob 157
195
+ el 184
196
+ pa 183
197
+ sp 180
198
+ _je 179
199
+ oz 178
200
+ nia 178
201
+ cy 178
202
+ ez 176
203
+ ma 174
204
+ io 173
205
+ _ro 173
206
+ cj 173
207
+ ię_ 170
208
+ kt 169
209
+ ń 168
210
+ ści 168
211
+ śc 168
212
+ ln 168
213
+ em_ 167
214
+ ry 167
215
+ az 167
216
+ ła_ 163
217
+ ł_ 162
218
+ ob 161
219
+ _wi 160
220
+ nyc 158
221
+ da 157
222
+ sc 156
243
223
  ku_ 156
244
- nyc 156
245
- sc 155
246
- da 154
247
- y� 154
248
- _st 153
249
- z� 152
250
- �_ 152
251
- ł_ 152
252
- icz 152
253
- am 151
224
+ _st 155
225
+ icz 154
226
+ am 152
227
+ op 152
228
+ de 151
229
+ rzy 150
254
230
  _ko 150
255
- _� 148
256
- _� 148
257
- de 148
258
- _mi 146
259
- op 146
260
- rzy 146
261
- wan 145
262
- ym_ 143
231
+ k_ 149
232
+ ier 148
233
+ ym_ 147
234
+ _mi 147
235
+ by 147
236
+ it 146
237
+ wan 146
238
+ ły 144
239
+ do_ 144
263
240
  ce_ 143
264
- it 143
265
- ły 142
266
- ier 142
267
- �y 142
268
- k_ 141
269
- by 140
270
- do_ 139
271
- ąc 138
272
- �c 138
273
- 137
274
- mie 137
275
- r� 137
276
- ka_ 136
277
- ny_ 135
278
- wn 134
279
- pi 134
280
- 133
281
- cze 132
282
- ach 132
283
- oc 131
284
- _in 131
285
- 129
241
+ pi 142
242
+ ka_ 141
243
+ mie 140
244
+ 140
245
+ ny_ 137
246
+ zie 137
247
+ ąc 137
248
+ _pa 136
249
+ ach 135
250
+ wn 133
251
+ _in 133
252
+ eni 133
253
+ cze 133
254
+ wa_ 132
255
+ is 132
256
+ zw 131
257
+ ja 131
258
+ 131
259
+ ii 130
260
+ ośc 130
261
+ mi_ 130
262
+ gr 129
286
263
  – 129
287
- ja 129
288
- �� 129
289
- mi_ 128
290
- is 128
291
- wa_ 128
292
- zie 128
264
+ pow 129
265
+ nt 128
293
266
  om 128
294
- gr 128
295
- �_ 127
296
- ��_ 127
297
- eni 127
298
- zw 127
299
- nt 126
300
- _ni 126
301
- _pa 125
302
- ii 124
303
- _od 124
304
- uj 123
267
+ oc 128
268
+ _ni 128
269
+ _od 127
270
+ –_ 127
271
+ _– 127
272
+ _cz 127
273
+ _–_ 127
274
+ zy_ 125
275
+ ze_ 125
276
+ uj 124
277
+ ły_ 123
305
278
  nic 122
306
- _cz 121
307
- pow 121
279
+ ur 122
280
+ 121
308
281
  ru 121
309
- �y_ 121
310
- i� 120
311
- ur 119
312
- lo 118
313
- owe 118
314
- ze_ 118
315
- zy_ 117
316
- 115
317
- t� 115
318
- ska 115
319
- est 115
320
- _te 114
321
- ci_ 113
322
- je_ 113
323
- dni 113
324
- n_ 113
282
+ owe 121
283
+ n_ 120
284
+ owi 120
285
+ dni 118
286
+ _te 118
287
+ ńs 117
288
+ lo 117
289
+ stw 116
290
+ ci_ 116
291
+ ska 116
292
+ ło_ 115
293
+ ała 115
294
+ pod 114
295
+ _e 113
325
296
  st_ 112
326
- _e 112
327
- 112
328
- ć 112
329
- 111
330
- owi 111
331
- ć_ 110
332
- pod 110
333
- _ty 110
334
- _ 110
335
- stw 109
336
- fi 109
337
- że 108
338
- �e 108
339
- ńs 107
340
- �s 107
341
- mo 107
342
- ud 106
343
- yw 106
344
- _ma 105
345
- js 105
346
- �o_ 105
347
- tyc 104
348
- _dz 104
349
- x 104
297
+ je_ 112
298
+ 112
299
+ est 112
300
+ ć 111
301
+ _ty 111
302
+ fi 111
303
+ że 110
304
+ yw 109
305
+ ć_ 109
306
+ raz 108
307
+ ór 107
308
+ js 107
309
+ 107
310
+ _f 106
311
+ ii_ 106
312
+ _ma 106
313
+ x 106
314
+ ud 105
315
+ mo 105
316
+ _kr 105
317
+ _dz 105
318
+ 105
350
319
  ycz 104
351
- _f 103
352
- raz 103
353
- 102
354
- un 102
355
- ga 101
356
- spo 101
357
- ii_ 101
358
- pra 101
359
- yn 101
360
- ór 100
361
- �r 100
362
- _re 100
320
+ _re 104
321
+ naj 103
322
+ un 103
323
+ szy 103
324
+ tyc 103
325
+ spo 103
326
+ 103
327
+ s_ 102
328
+ yn 102
329
+ pra 102
330
+ ost 101
331
+ ik 100
363
332
  sce 100
364
- naj 99
365
- wi� 99
366
- 98
367
- _kr 98
368
- dow 98
369
- szy 98
370
- s_ 98
371
- ań 97
333
+ ga 100
334
+ lic 99
335
+ _or 98
372
336
  ami 97
373
- wa� 97
374
- aj� 97
375
- lic 96
337
+ ona 97
338
+ oli 97
339
+ sze 97
376
340
  yk 96
377
- ost 95
378
- ik 95
379
- oli 95
380
- ona 95
381
- owy 94
382
- _or 94
383
- sze 94
384
- kra 93
385
- oj 93
341
+ oj 96
342
+ dow 96
343
+ kra 95
344
+ ji 95
345
+ ora 95
346
+ ji_ 95
347
+ 95
348
+ owy 95
349
+ któ 94
350
+ od_ 94
351
+ _ob 94
352
+ ają 94
353
+ iem 93
354
+ az_ 93
386
355
  cy_ 92
387
- ji_ 92
388
- ji 92
389
- _ob 91
390
- aln 91
391
356
  tn 91
392
- od_ 91
393
- ora 91
394
357
  zne 91
358
+ aln 91
359
+ _ok 91
395
360
  roz 90
396
- ot 90
397
- rt 90
361
+ yt 90
398
362
  kow 90
399
- yt 89
400
- iem 89
363
+ im 90
364
+ rt 90
365
+ to_ 89
366
+ nk 89
367
+ za_ 89
368
+ ot 89
369
+ ją_ 88
370
+ nym 88
371
+ ran 88
372
+ ew 88
373
+ iel 88
374
+ czy 87
375
+ lu 87
376
+ tór 87
377
+ jes 87
378
+ se 86
379
+ jn 86
380
+ _by 86
381
+ rs 86
382
+ ańs 86
383
+ ił 86
384
+ lsc 85
385
+ ńst 85
386
+ ast 85
387
+ adz 85
388
+ jąc 85
389
+ cie 85
390
+ lit 85
391
+ _sp 85
392
+ _li 84
393
+ ks 84
394
+ il 84
395
+ ho 84
396
+ _kt 84
397
+ ład 84
398
+ pie 83
399
+ zna 83
400
+ eż 82