scylla 0.4.3 → 0.5.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (94) hide show
  1. data/Gemfile +1 -0
  2. data/Gemfile.lock +10 -0
  3. data/VERSION +1 -1
  4. data/lib/scylla/generator.rb +1 -1
  5. data/lib/scylla/lms/13375P33K.lm +156 -156
  6. data/lib/scylla/lms/arabic.lm +133 -133
  7. data/lib/scylla/lms/bulgarian.lm +122 -122
  8. data/lib/scylla/lms/catalan.lm +151 -151
  9. data/lib/scylla/lms/danish.lm +137 -137
  10. data/lib/scylla/lms/english.lm +207 -207
  11. data/lib/scylla/lms/french.lm +400 -400
  12. data/lib/scylla/lms/japanese.lm +400 -400
  13. data/lib/scylla/lms/korean.lm +233 -233
  14. data/lib/scylla/lms/norwegian.lm +398 -398
  15. data/lib/scylla/lms/spanish.lm +98 -98
  16. data/lib/scylla/lms/swedish.lm +123 -123
  17. data/lib/scylla/lms/tagalog.lm +223 -223
  18. data/lib/scylla/lms/welsh.lm +234 -234
  19. data/lib/scylla/resources.rb +10 -10
  20. data/scylla.gemspec +17 -40
  21. data/source_texts/catalan.txt +28 -28
  22. data/source_texts/danish.txt +62 -62
  23. data/source_texts/english.txt +10 -10
  24. data/source_texts/french.txt +470 -77
  25. data/source_texts/japanese.txt +453 -199
  26. data/source_texts/norwegian.txt +96 -63
  27. data/source_texts/spanish.txt +269 -269
  28. data/test/classifier_test.rb +2 -2
  29. data/test/fixtures/lms/13375p33k.lm +156 -156
  30. data/test/fixtures/lms/danish.lm +137 -137
  31. data/test/fixtures/lms/english.lm +207 -207
  32. data/test/fixtures/lms/french.lm +400 -400
  33. data/test/fixtures/lms/hindi.lm +400 -0
  34. data/test/fixtures/lms/italian.lm +400 -0
  35. data/test/fixtures/lms/japanese.lm +400 -400
  36. data/test/fixtures/lms/norwegian.lm +400 -0
  37. data/test/fixtures/lms/spanish.lm +98 -98
  38. data/test/fixtures/source_texts/danish.txt +62 -62
  39. data/test/fixtures/source_texts/english.txt +10 -10
  40. data/test/fixtures/source_texts/french.txt +470 -77
  41. data/test/fixtures/source_texts/hindi.txt +199 -0
  42. data/test/fixtures/source_texts/italian.txt +120 -0
  43. data/test/fixtures/source_texts/japanese.txt +453 -199
  44. data/test/fixtures/source_texts/norwegian.txt +190 -0
  45. data/test/fixtures/source_texts/spanish.txt +269 -269
  46. data/test/fixtures/test_languages/english +61 -0
  47. data/test/fixtures/test_languages/french +0 -0
  48. data/test/fixtures/test_languages/german +29 -0
  49. data/test/fixtures/test_languages/hindi +3 -0
  50. data/test/fixtures/test_languages/italian +6 -0
  51. data/test/fixtures/test_languages/japanese +79 -0
  52. data/test/fixtures/test_languages/norwegian +14 -0
  53. data/test/fixtures/test_languages/spanish +22 -0
  54. data/test/generator_test.rb +0 -1
  55. data/test/language_test.rb +28 -0
  56. metadata +20 -43
  57. data/lib/scylla/lms/esperanto.lm +0 -400
  58. data/lib/scylla/lms/hungarian.lm +0 -400
  59. data/lib/scylla/lms/irish.lm +0 -400
  60. data/lib/scylla/lms/kannada.lm +0 -400
  61. data/lib/scylla/lms/latin.lm +0 -400
  62. data/lib/scylla/lms/malay.lm +0 -400
  63. data/lib/scylla/lms/marathi.lm +0 -400
  64. data/lib/scylla/lms/mingo.lm +0 -400
  65. data/lib/scylla/lms/nepali.lm +0 -400
  66. data/lib/scylla/lms/quechua.lm +0 -400
  67. data/lib/scylla/lms/rumantsch.lm +0 -400
  68. data/lib/scylla/lms/sanskrit.lm +0 -400
  69. data/lib/scylla/lms/scots_gaelic.lm +0 -400
  70. data/lib/scylla/lms/serbian.lm +0 -400
  71. data/lib/scylla/lms/swahili.lm +0 -400
  72. data/lib/scylla/lms/tamil.lm +0 -400
  73. data/lib/scylla/lms/ukrainian.lm +0 -400
  74. data/lib/scylla/lms/yiddish.lm +0 -400
  75. data/source_texts/esperanto.txt +0 -199
  76. data/source_texts/hungarian.txt +0 -102
  77. data/source_texts/irish.txt +0 -209
  78. data/source_texts/kannada.txt +0 -283
  79. data/source_texts/latin.txt +0 -120
  80. data/source_texts/malay.txt +0 -108
  81. data/source_texts/marathi.txt +0 -100
  82. data/source_texts/mingo.txt +0 -146
  83. data/source_texts/nepali.txt +0 -131
  84. data/source_texts/quechua.txt +0 -108
  85. data/source_texts/rumantsch.txt +0 -110
  86. data/source_texts/sanskrit.txt +0 -135
  87. data/source_texts/scots_gaelic.txt +0 -93
  88. data/source_texts/serbian.txt +0 -121
  89. data/source_texts/swahili.txt +0 -120
  90. data/source_texts/tamil.txt +0 -167
  91. data/source_texts/ukrainian.txt +0 -214
  92. data/source_texts/yiddish-utf.txt +0 -83
  93. data/test/fixtures/lms/kannada.lm +0 -400
  94. data/test/fixtures/source_texts/kannada.txt +0 -283
@@ -1,400 +1,400 @@
1
- _ 1548
2
- e 554
3
- s 334
4
- i 300
5
- n 282
6
- r 280
7
- a 268
8
- t 252
9
- o 214
10
- u 206
11
- l 182
12
- e_ 180
13
- d 175
14
- s_ 139
15
- c 130
16
- 127
17
- p 125
18
- _d 121
19
- es 99
20
- m 93
21
- _l 79
22
- on 78
23
- de 76
24
- le 70
25
- re 68
26
- en 67
27
- _de 67
28
- es_ 65
29
- , 63
30
- t_ 60
31
- ,_ 59
32
- f 57
33
- nt 53
34
- __ 52
35
- _p 50
36
- de_ 50
37
- v 48
38
- er 46
39
- _de_ 46
40
- g 45
41
- n_ 45
42
- _s 43
43
- an 43
44
- _a 42
45
- _e 41
46
- q 40
47
- _c 40
48
- _le 40
49
- ai 40
50
- qu 40
51
- h 39
52
- ' 39
53
- ou 38
54
- it 38
55
- is 38
56
- ns 37
57
- te 35
58
- ra 35
59
- r_ 35
60
- io 35
61
- a_ 34
62
- ti 34
63
- se 34
64
- co 33
65
- ion 32
66
- in 30
67
- ie 30
68
- ur 29
69
- la 28
70
- le_ 28
71
- les 28
72
- . 28
73
- pr 27
74
- tr 26
75
- ent 26
76
- di 25
77
- me 25
78
- et 25
79
- ar 25
80
- u_ 24
81
- _m 24
82
- 24
83
- ui 24
84
- nd 23
85
- au 23
86
- �_ 23
87
- ce 23
88
- ir 23
89
- _q 23
90
- _qu 23
91
- eu 22
92
- les_ 22
93
- po 22
94
- or 22
95
- ue 22
96
- at 22
97
- ro 22
98
- pa 22
99
- tio 21
100
- ._ 21
101
- _t 21
102
- nc 21
103
- _r 21
104
- tion 21
105
- _f 21
106
- nt_ 21
107
- b 21
108
- ts 20
109
- ons 20
110
- on_ 20
111
- ne 20
112
- _le_ 20
113
- si 20
114
- st 20
115
- ns_ 19
116
- _co 19
117
- que 19
118
- d� 19
119
- ch 19
120
- ve 19
121
- ss 19
122
- el 19
123
- un 18
124
- _pa 18
125
- e, 18
126
- t� 18
127
- _la 18
128
- e,_ 18
129
- r� 17
130
- sa 17
131
- ion_ 17
132
- L 17
133
- re_ 17
134
- _les 17
135
- i_ 16
136
- ec 16
137
- x 16
138
- la_ 16
139
- _la_ 16
140
- _n 15
141
- il 15
142
- �_ 15
143
- _et 15
144
- ap 15
145
- li 15
146
- 15
147
- ri 15
148
- ut 15
149
- _� 15
150
- ci 15
151
- _i 15
152
- et_ 15
153
- _�_ 15
154
- om 15
155
- pe 14
156
- em 14
157
- rt 14
158
- _en 14
159
- con 14
160
- _L 14
161
- �r 14
162
- he 14
163
- ont 14
164
- A 14
165
- l' 14
166
- par 14
167
- ait 14
168
- _se 14
169
- _d14
170
- oi 14
171
- as 14
172
- _par 13
173
- ma 13
174
- s, 13
175
- su 13
176
- ts_ 13
177
- _pr 13
178
- it_ 13
179
- d' 13
180
- mi 13
181
- ue_ 13
182
- ire 13
183
- mp 13
184
- _les_ 13
185
- _l' 13
186
- �s 13
187
- is_ 12
188
- our 12
189
- fi 12
190
- so 12
191
- j 12
192
- _d' 12
193
- ur_ 12
194
- ta 12
195
- �s 12
196
- _et_ 12
197
- vi 12
198
- y 12
199
- ni 12
200
- ge 12
201
- s,_ 12
202
- mo 11
203
- _M 11
204
- est 11
205
- que_ 11
206
- - 11
207
- er_ 11
208
- bl 11
209
- des 11
210
- ais 11
211
- n� 11
212
- _su 11
213
- che 11
214
- M 11
215
- te_ 11
216
- �t 11
217
- ons_ 11
218
- _des 11
219
- en_ 11
220
- res 11
221
- av 11
222
- ne_ 11
223
- rs 11
224
- tion_ 11
225
- " 11
226
- up 10
227
- _re 10
228
- ions 10
229
- ans 10
230
- iq 10
231
- ic 10
232
- t�_ 10
233
- tre 10
234
- _o 10
235
- �e 10
236
- us 10
237
- s� 10
238
- pp 10
239
- pro 10
240
- _di 10
241
- ati 10
242
- _des_ 10
243
- des_ 10
244
- _" 10
245
- ien 10
246
- ui_ 10
247
- ux 10
248
- du 10
249
- l_ 10
250
- _av 10
251
- iqu 10
252
- ces 10
253
- �c 10
254
- ent_ 10
255
- ation 9
256
- nte 9
257
- _con 9
258
- ll 9
259
- ait_ 9
260
- com 9
261
- fo 9
262
- t, 9
263
- _j 9
264
- _au 9
265
- qui 9
266
- al 9
267
- r� 9
268
- nn 9
269
- _g 9
270
- _so 9
271
- se_ 9
272
- _ce 9
273
- qui_ 9
274
- ces_ 9
275
- _in 9
276
- pl 9
277
- dr 9
278
- anc 9
279
- atio 9
280
- id 9
281
- men 9
282
- D 9
283
- r�s 9
284
- un_ 9
285
- ique 9
286
- 'a 9
287
- pu 8
288
- app 8
289
- _u 8
290
- g 8
291
- Le 8
292
- oup 8
293
- rs_ 8
294
- ement 8
295
- ig 8
296
- da 8
297
- _qui 8
298
- au_ 8
299
- ier 8
300
- rec 8
301
- e. 8
302
- ca 8
303
- it� 8
304
- _un 8
305
- to 8
306
- if 8
307
- ions_ 8
308
- do 8
309
- ff 8
310
- _tr 8
311
- sp 8
312
- ha 8
313
- G 8
314
- _qui_ 8
315
- 8
316
- ndi 8
317
- l� 8
318
- ct 8
319
- emen 8
320
- na 8
321
- ment 8
322
- ser 8
323
- �e_ 8
324
- �s_ 8
325
- m� 8
326
- ndr 8
327
- no 8
328
- _mo 8
329
- eme 8
330
- La 7
331
- va 7
332
- ont_ 7
333
- im 7
334
- rc 7
335
- _"_ 7
336
- _h 7
337
- _pro 7
338
- ble 7
339
- t,_ 7
340
- sion 7
341
- end 7
342
- ell 7
343
- �l 7
344
- lle 7
345
- ect 7
346
- omp 7
347
- tions 7
348
- um 7
349
- gr 7
350
- ans_ 7
351
- du_ 7
352
- x_ 7
353
- ce_ 7
354
- _ch 7
355
- for 7
356
- B 7
357
- os 7
358
- eur 7
359
- _Le 7
360
- "_ 7
361
- C 7
362
- sio 7
363
- F 7
364
- _fo 7
365
- ire_ 7
366
- uis 7
367
- ort 7
368
- rs 7
369
- rai 7
370
- u' 6
371
- r, 6
372
- aire 6
373
- pas 6
374
- qu' 6
375
- iss 6
376
- _do 6
377
- 'i 6
378
- lu 6
379
- ues 6
380
- ja 6
381
- _to 6
382
- _du 6
383
- ess 6
384
- ist 6
385
- s. 6
386
- _ma 6
387
- ac 6
388
- _que 6
389
- urs 6
390
- st_ 6
391
- enc 6
392
- �s_ 6
393
- lo 6
394
- _au_ 6
395
- ng 6
396
- ea 6
397
- cou 6
398
- _ap 6
399
- ass 6
400
- mai 6
1
+ _ 32320
2
+ e 11820
3
+ s 6385
4
+ a 6245
5
+ i 6160
6
+ n 6115
7
+ t 5635
8
+ r 5480
9
+ l 4711
10
+ e_ 4327
11
+ u 4260
12
+ o 4196
13
+ 3243
14
+ d 3178
15
+ s_ 2972
16
+ c 2591
17
+ p 2396
18
+ _d 2355
19
+ m 2162
20
+ es 2138
21
+ é 2115
22
+ 2115
23
+ _l 1860
24
+ t_ 1784
25
+ de 1585
26
+ le 1533
27
+ es_ 1525
28
+ en 1498
29
+ on 1429
30
+ _de 1338
31
+ _e 1312
32
+ nt 1258
33
+ an 1256
34
+ , 1245
35
+ _p 1244
36
+ ,_ 1207
37
+ re 1163
38
+ n_ 1085
39
+ ti 1028
40
+ is 981
41
+ de_ 975
42
+ la 900
43
+ ra 900
44
+ _de_ 879
45
+ a_ 863
46
+ g 846
47
+ _s 831
48
+ v 796
49
+ f 777
50
+ _c 765
51
+ _a 740
52
+ ai 735
53
+ te 723
54
+ ent 708
55
+ 698
56
+ 688
57
+ 687
58
+ q 683
59
+ _le 679
60
+ qu 672
61
+ ar 672
62
+ le_ 664
63
+ in 664
64
+ nt_ 663
65
+ et 662
66
+ _la 661
67
+ me 657
68
+ se 657
69
+ it 656
70
+ 652
71
+ �� 652
72
+ 652
73
+ ur 643
74
+ ce 639
75
+ la_ 638
76
+ ne 632
77
+ b 630
78
+ _la_ 625
79
+ er 620
80
+ ue 613
81
+ io 600
82
+ ns 600
83
+ . 599
84
+ u_ 577
85
+ ion 572
86
+ et_ 555
87
+ st 545
88
+ _� 544
89
+ r_ 541
90
+ ie 538
91
+ _m 537
92
+ ri 535
93
+ pa 531
94
+ _et 529
95
+ ran 527
96
+ at 525
97
+ au 525
98
+ co 521
99
+ _et_ 520
100
+ nc 519
101
+ les 515
102
+ ou 510
103
+ li 508
104
+ tr 498
105
+ al 479
106
+ ta 468
107
+ ro 467
108
+ h 459
109
+ les_ 456
110
+ que 452
111
+ tio 431
112
+ eu 429
113
+ tion 429
114
+ r� 428
115
+ _f 424
116
+ re_ 421
117
+ on_ 420
118
+ em 413
119
+ x 410
120
+ _r 409
121
+ _en 406
122
+ _pa 403
123
+ or 400
124
+ rt 400
125
+ po 397
126
+ ll 386
127
+ si 382
128
+ des 379
129
+ __ 379
130
+ oi 378
131
+ pr 375
132
+ anc 374
133
+ un 373
134
+ ent_ 371
135
+ en_ 368
136
+ nce 366
137
+ des_ 363
138
+ _t 362
139
+ ._ 361
140
+ è 359
141
+ 359
142
+ ne_ 356
143
+ ir 352
144
+ par 352
145
+ e,_ 351
146
+ e, 351
147
+ _des 347
148
+ _co 344
149
+ ce_ 343
150
+ _le_ 340
151
+ du 339
152
+ _des_ 338
153
+ ns_ 335
154
+ el 330
155
+ l’ 328
156
+ l� 328
157
+ l� 328
158
+ _l� 326
159
+ _l� 326
160
+ _l’ 326
161
+ us 325
162
+ ui 325
163
+ F 324
164
+ 322
165
+ nd 321
166
+ ati 321
167
+ ance 311
168
+ t� 311
169
+ n307
170
+ ve 307
171
+ ion_ 306
172
+ _F 305
173
+ L 305
174
+ om 305
175
+ _en_ 304
176
+ so 304
177
+ is_ 302
178
+ _les 302
179
+ é_ 299
180
+ �_ 299
181
+ ue_ 298
182
+ iq 296
183
+ iqu 296
184
+ �e 294
185
+ ée 294
186
+ _les_ 294
187
+ _par 293
188
+ ma 293
189
+ men 291
190
+ à 288
191
+ 288
192
+ Fr 287
193
+ ique 286
194
+ il 284
195
+ Fra 283
196
+ est 283
197
+ _Fr 282
198
+ à_ 280
199
+ i_ 280
200
+ Fran 280
201
+ _ 280
202
+ mi 279
203
+ _Fra 278
204
+ pl 278
205
+ 276
206
+ _Fran 275
207
+ _u 274
208
+ 273
209
+ _à_ 272
210
+ ranc 272
211
+ ment 270
212
+ di 270
213
+ ut 269
214
+ na 269
215
+ ss 268
216
+ _. 267
217
+ ci 267
218
+ _du 264
219
+ �s 263
220
+ és 263
221
+ ais 262
222
+ du_ 259
223
+ ation 258
224
+ atio 258
225
+ _au 257
226
+ _un 257
227
+ _pr 256
228
+ _du_ 256
229
+ y 255
230
+ lu 255
231
+ nce_ 255
232
+ _n 255
233
+ ol 252
234
+ Franc 252
235
+ que_ 252
236
+ rs 251
237
+ rance 251
238
+ tion_ 250
239
+ lle 250
240
+ pe 248
241
+ con 244
242
+ te_ 243
243
+ s, 241
244
+ _, 240
245
+ ont 240
246
+ ire 240
247
+ d� 239
248
+ res 239
249
+ no 239
250
+ s,_ 238
251
+ _so 238
252
+ ic 238
253
+ ons 238
254
+ mo 236
255
+ - 232
256
+ 232
257
+ i� 231
258
+ eur 230
259
+ ance_ 228
260
+ nn 227
261
+ _qu 226
262
+ ant 226
263
+ _q 226
264
+ ct 223
265
+ st_ 219
266
+ est_ 219
267
+ _,_ 217
268
+ ni 216
269
+ ux 215
270
+ _po 213
271
+ lo 213
272
+ ch 213
273
+ vi 212
274
+ me_ 210
275
+ 208
276
+ eme 208
277
+ _L 206
278
+ emen 205
279
+ ement 205
280
+ sa 203
281
+ _es 202
282
+ ec 202
283
+ pu 202
284
+ ét 202
285
+ �t 202
286
+ se_ 201
287
+ d� 201
288
+ d� 201
289
+ d’ 201
290
+ _d200
291
+ ur_ 196
292
+ to 196
293
+ ale 196
294
+ _dé 195
295
+ _d’ 193
296
+ _d� 193
297
+ _o 193
298
+ _d� 193
299
+ _est 192
300
+ tre 191
301
+ A 191
302
+ op 191
303
+ _pl 190
304
+ da 190
305
+ au_ 190
306
+ ul 189
307
+ _est_ 187
308
+ fr 185
309
+ ment_ 185
310
+ _re 184
311
+ x_ 184
312
+ bl 184
313
+ _i 184
314
+ mp 184
315
+ _._ 182
316
+ ts 180
317
+ ac 180
318
+ �r 180
319
+ tu 180
320
+ ér 180
321
+ rti 179
322
+ _se 176
323
+ ise 174
324
+ art 173
325
+ 172
326
+ ans 171
327
+ ç 170
328
+ 170
329
+ ia 170
330
+ _mo 169
331
+ ar_ 168
332
+ ux_ 168
333
+ an� 167
334
+ _con 167
335
+ l_ 167
336
+ gr 167
337
+ P 166
338
+ ran� 166
339
+ lus 166
340
+ 165
341
+ im 164
342
+ ont_ 164
343
+ une 163
344
+ _fr 163
345
+ son 162
346
+ rs_ 162
347
+ un_ 161
348
+ anç 161
349
+ _g 161
350
+ ranç 160
351
+ C 160
352
+ su 160
353
+ us_ 160
354
+ _v 159
355
+ ill 159
356
+ cl 158
357
+ plu 158
358
+ par_ 158
359
+ _plu 158
360
+ as 157
361
+ nça 156
362
+ �a 156
363
+ ça 156
364
+ _par_ 156
365
+ ança 153
366
+ mm 153
367
+ ique_ 153
368
+ ais 152
369
+ plus 152
370
+ nçai 152
371
+ çai 152
372
+ �ai 152
373
+ çais 152
374
+ _plus 152
375
+ rr 152
376
+ fra 151
377
+ ge 150
378
+ _au_ 150
379
+ l� 149
380
+ m� 149
381
+ une_ 148
382
+ ag 147
383
+ ell 146
384
+ ions 146
385
+ fi 146
386
+ iv 145
387
+ dan 144
388
+ ien 144
389
+ ie_ 144
390
+ _fra 143
391
+ our 143
392
+ ain 143
393
+ té_ 143
394
+ ans_ 143
395
+ elle 142
396
+ fran 142
397
+ ep 142
398
+ _fran 142
399
+ ( 141
400
+ ) 141