scylla 0.4.3 → 0.5.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (94) hide show
  1. data/Gemfile +1 -0
  2. data/Gemfile.lock +10 -0
  3. data/VERSION +1 -1
  4. data/lib/scylla/generator.rb +1 -1
  5. data/lib/scylla/lms/13375P33K.lm +156 -156
  6. data/lib/scylla/lms/arabic.lm +133 -133
  7. data/lib/scylla/lms/bulgarian.lm +122 -122
  8. data/lib/scylla/lms/catalan.lm +151 -151
  9. data/lib/scylla/lms/danish.lm +137 -137
  10. data/lib/scylla/lms/english.lm +207 -207
  11. data/lib/scylla/lms/french.lm +400 -400
  12. data/lib/scylla/lms/japanese.lm +400 -400
  13. data/lib/scylla/lms/korean.lm +233 -233
  14. data/lib/scylla/lms/norwegian.lm +398 -398
  15. data/lib/scylla/lms/spanish.lm +98 -98
  16. data/lib/scylla/lms/swedish.lm +123 -123
  17. data/lib/scylla/lms/tagalog.lm +223 -223
  18. data/lib/scylla/lms/welsh.lm +234 -234
  19. data/lib/scylla/resources.rb +10 -10
  20. data/scylla.gemspec +17 -40
  21. data/source_texts/catalan.txt +28 -28
  22. data/source_texts/danish.txt +62 -62
  23. data/source_texts/english.txt +10 -10
  24. data/source_texts/french.txt +470 -77
  25. data/source_texts/japanese.txt +453 -199
  26. data/source_texts/norwegian.txt +96 -63
  27. data/source_texts/spanish.txt +269 -269
  28. data/test/classifier_test.rb +2 -2
  29. data/test/fixtures/lms/13375p33k.lm +156 -156
  30. data/test/fixtures/lms/danish.lm +137 -137
  31. data/test/fixtures/lms/english.lm +207 -207
  32. data/test/fixtures/lms/french.lm +400 -400
  33. data/test/fixtures/lms/hindi.lm +400 -0
  34. data/test/fixtures/lms/italian.lm +400 -0
  35. data/test/fixtures/lms/japanese.lm +400 -400
  36. data/test/fixtures/lms/norwegian.lm +400 -0
  37. data/test/fixtures/lms/spanish.lm +98 -98
  38. data/test/fixtures/source_texts/danish.txt +62 -62
  39. data/test/fixtures/source_texts/english.txt +10 -10
  40. data/test/fixtures/source_texts/french.txt +470 -77
  41. data/test/fixtures/source_texts/hindi.txt +199 -0
  42. data/test/fixtures/source_texts/italian.txt +120 -0
  43. data/test/fixtures/source_texts/japanese.txt +453 -199
  44. data/test/fixtures/source_texts/norwegian.txt +190 -0
  45. data/test/fixtures/source_texts/spanish.txt +269 -269
  46. data/test/fixtures/test_languages/english +61 -0
  47. data/test/fixtures/test_languages/french +0 -0
  48. data/test/fixtures/test_languages/german +29 -0
  49. data/test/fixtures/test_languages/hindi +3 -0
  50. data/test/fixtures/test_languages/italian +6 -0
  51. data/test/fixtures/test_languages/japanese +79 -0
  52. data/test/fixtures/test_languages/norwegian +14 -0
  53. data/test/fixtures/test_languages/spanish +22 -0
  54. data/test/generator_test.rb +0 -1
  55. data/test/language_test.rb +28 -0
  56. metadata +20 -43
  57. data/lib/scylla/lms/esperanto.lm +0 -400
  58. data/lib/scylla/lms/hungarian.lm +0 -400
  59. data/lib/scylla/lms/irish.lm +0 -400
  60. data/lib/scylla/lms/kannada.lm +0 -400
  61. data/lib/scylla/lms/latin.lm +0 -400
  62. data/lib/scylla/lms/malay.lm +0 -400
  63. data/lib/scylla/lms/marathi.lm +0 -400
  64. data/lib/scylla/lms/mingo.lm +0 -400
  65. data/lib/scylla/lms/nepali.lm +0 -400
  66. data/lib/scylla/lms/quechua.lm +0 -400
  67. data/lib/scylla/lms/rumantsch.lm +0 -400
  68. data/lib/scylla/lms/sanskrit.lm +0 -400
  69. data/lib/scylla/lms/scots_gaelic.lm +0 -400
  70. data/lib/scylla/lms/serbian.lm +0 -400
  71. data/lib/scylla/lms/swahili.lm +0 -400
  72. data/lib/scylla/lms/tamil.lm +0 -400
  73. data/lib/scylla/lms/ukrainian.lm +0 -400
  74. data/lib/scylla/lms/yiddish.lm +0 -400
  75. data/source_texts/esperanto.txt +0 -199
  76. data/source_texts/hungarian.txt +0 -102
  77. data/source_texts/irish.txt +0 -209
  78. data/source_texts/kannada.txt +0 -283
  79. data/source_texts/latin.txt +0 -120
  80. data/source_texts/malay.txt +0 -108
  81. data/source_texts/marathi.txt +0 -100
  82. data/source_texts/mingo.txt +0 -146
  83. data/source_texts/nepali.txt +0 -131
  84. data/source_texts/quechua.txt +0 -108
  85. data/source_texts/rumantsch.txt +0 -110
  86. data/source_texts/sanskrit.txt +0 -135
  87. data/source_texts/scots_gaelic.txt +0 -93
  88. data/source_texts/serbian.txt +0 -121
  89. data/source_texts/swahili.txt +0 -120
  90. data/source_texts/tamil.txt +0 -167
  91. data/source_texts/ukrainian.txt +0 -214
  92. data/source_texts/yiddish-utf.txt +0 -83
  93. data/test/fixtures/lms/kannada.lm +0 -400
  94. data/test/fixtures/source_texts/kannada.txt +0 -283
@@ -1,400 +1,400 @@
1
- _ 1780
2
- e 577
3
- n 391
4
- r 299
5
- t 268
6
- a 248
7
- s 208
8
- o 194
9
- l 175
10
- i 173
11
- n_ 158
12
- g 152
13
- k 150
14
- r_ 145
15
- en 135
16
- e_ 128
17
- m 126
18
- d 120
19
- h 117
20
- er 116
21
- _h 101
22
- t_ 98
23
- v 96
24
- an 89
25
- er_ 85
26
- _s 81
27
- u 80
28
- en_ 76
29
- f 68
30
- . 67
31
- g_ 65
32
- 63
33
- p 62
34
- ha 62
35
- te 59
36
- _ha 59
37
- _. 58
38
- et 57
39
- or 54
40
- de 54
41
- , 53
42
- _o 52
43
- ne 52
44
- _e 51
45
- _, 51
46
- ,_ 49
47
- _,_ 47
48
- an_ 47
49
- et_ 45
50
- nn 44
51
- _f 44
52
- ke 43
53
- _d 42
54
- _i 41
55
- re 39
56
- �_ 39
57
- b 39
58
- st 38
59
- me 38
60
- og 37
61
- ar 37
62
- om 37
63
- m_ 37
64
- se 36
65
- el 34
66
- _m 34
67
- ge 34
68
- _og 34
69
- _v 33
70
- in 32
71
- og_ 32
72
- ng 32
73
- _og_ 31
74
- _t 31
75
- 30
76
- fo 30
77
- han 30
78
- _han 30
79
- _a 30
80
- _k 29
81
- _de 29
82
- for 29
83
- il 29
84
- le 28
85
- H 28
86
- sk 28
87
- un 28
88
- _b 27
89
- l_ 27
90
- i_ 27
91
- _er 26
92
- j 26
93
- ve 25
94
- _for 25
95
- kk 25
96
- _fo 25
97
- al 25
98
- om_ 24
99
- ne_ 24
100
- ti 24
101
- _er_ 23
102
- li 23
103
- _g 23
104
- han_ 23
105
- _han_ 23
106
- kke 22
107
- tt 22
108
- nne 22
109
- va 21
110
- is 21
111
- rt 21
112
- at 21
113
- y 21
1
+ _ 4750
2
+ e 1600
3
+ r 1018
4
+ n 1012
5
+ t 924
6
+ a 857
7
+ s 711
8
+ i 662
9
+ o 640
10
+ l 548
11
+ g 500
12
+ k 479
13
+ d 416
14
+ m 398
15
+ 323
16
+ e_ 305
17
+ r_ 305
18
+ t_ 291
19
+ er 290
20
+ en 287
21
+ v 284
22
+ n_ 275
23
+ _s 215
24
+ et 214
25
+ an 213
26
+ g_ 205
27
+ or 203
28
+ 194
29
+ å 194
30
+ de 191
31
+ f 188
32
+ u 188
33
+ h 172
34
+ p 166
35
+ er_ 164
36
+ te 162
37
+ . 161
38
+ re 160
39
+ en_ 158
40
+ _o 156
41
+ ar 145
42
+ _e 144
43
+ st 143
44
+ _h 142
45
+ et_ 138
46
+ , 134
47
+ _d 132
48
+ in 130
49
+ ,_ 130
50
+ sk 129
51
+ i_ 122
52
+ ng 117
53
+ ke 117
54
+ _i 117
55
+ ne 117
56
+ ti 110
57
+ le 110
58
+ _f 109
59
+ om 109
60
+ og 108
61
+ _m 105
62
+ me 105
63
+ j 104
64
+ b 103
65
+ _og 101
66
+ og_ 100
67
+ la 99
68
+ _og_ 97
69
+ _de 94
70
+ _a 94
71
+ m_ 94
72
+ ha 94
73
+ ei 93
74
+ ø 92
75
+ 92
76
+ se 88
77
+ a_ 88
78
+ å_ 88
79
+ �_ 88
80
+ _t 87
81
+ nd 84
82
+ _v 84
83
+ el 84
84
+ ri 84
85
+ ge 84
86
+ eg 84
87
+ _ha 84
88
+ tt 83
89
+ is 80
90
+ nn 80
91
+ y 79
92
+ ta 79
93
+ av 78
94
+ _i_ 77
95
+ _n 77
96
+ ._ 77
97
+ al 75
98
+ om_ 74
99
+ rs 74
100
+ il 74
101
+ no 73
102
+ _k 73
103
+ on 71
104
+ _b 70
105
+ v_ 70
106
+ l_ 70
107
+ rt 69
108
+ _me 69
109
+ d_ 68
110
+ ve 67
111
+ ar_ 66
112
+ _. 66
113
+ va 65
114
+ ing 63
115
+ _, 62
116
+ det 59
117
+ _p 59
118
+ at 59
119
+ _g 59
120
+ fo 58
121
+ _,_ 58
122
+ ll 58
123
+ ke_ 57
124
+ av_ 57
125
+ un 57
126
+ an_ 56
127
+ k_ 56
128
+ ik 55
129
+ _av 55
130
+ _er 54
131
+ N 54
132
+ so 54
133
+ li 53
134
+ _l 53
135
+ am 52
136
+ nor 52
137
+ je 52
138
+ lan 51
139
+ ed 50
140
+ ors 50
141
+ ns 50
142
+ _er_ 50
143
+ r� 50
144
+ eg_ 49
145
+ _ti 49
146
+ es 49
147
+ ter 49
148
+ ne_ 48
149
+ D 48
150
+ for 48
151
+ til 48
152
+ rsk 48
153
+ _av_ 47
154
+ and 47
155
+ nde 47
156
+ ra 46
157
+ H 46
158
+ it 46
159
+ _r 46
160
+ ka 46
161
+ _N 45
162
+ ske 45
163
+ _til 45
164
+ ga 44
165
+ te_ 44
166
+ orsk 44
167
+ _so 43
168
+ S 43
169
+ som 43
170
+ No 43
171
+ ko 43
172
+ na 43
173
+ nge 42
174
+ det_ 42
175
+ Nor 42
176
+ _fo 42
177
+ ste 42
178
+ _som 41
179
+ _no 41
180
+ il_ 41
181
+ p� 40
182
+ _No 40
183
+ tte 40
184
+ som_ 40
185
+ rå 40
186
+ nt 39
187
+ _Nor 39
188
+ ett 39
189
+ _som_ 39
190
+ på 38
191
+ rd 38
192
+ kk 38
193
+ da 38
194
+ em 38
195
+ _� 38
196
+ ma 38
197
+ ig 38
198
+ De 37
199
+ �r 37
200
+ _ei 37
201
+ ør 37
202
+ han 37
203
+ sa 37
204
+ _u 37
205
+ ten 37
206
+ norsk 36
207
+ ed_ 36
208
+ _han 36
209
+ nors 36
210
+ _p� 36
211
+ _på 36
212
+ gj 36
213
+ vi 36
214
+ den 35
215
+ kt 35
216
+ til_ 35
217
+ reg 35
218
+ ske_ 35
219
+ _for 35
220
+ på_ 35
221
+ re_ 34
222
+ rt_ 34
223
+ _va 34
224
+ med 34
225
+ _på_ 34
226
+ _til_ 34
227
+ ore 33
228
+ lle 33
229
+ _nor 33
230
+ var 33
231
+ de_ 32
232
+ m� 32
233
+ _det 32
234
+ _S 32
235
+ kr 31
236
+ _med 31
237
+ _se 31
238
+ pe 31
239
+ or_ 31
240
+ tr 31
241
+ to 31
242
+ den_ 31
243
+ sp 31
244
+ ag 31
245
+ land 31
246
+ _st 31
247
+ ol 30
248
+ sk_ 30
249
+ ell 30
250
+ fr 29
251
+ le_ 29
252
+ pr 29
253
+ s_ 29
254
+ må 29
255
+ har 29
256
+ ak 29
257
+ ni 29
258
+ med_ 29
259
+ rk 28
260
+ _har 28
261
+ der 28
262
+ si 28
263
+ ss 28
264
+ ek 28
265
+ har_ 28
266
+ mi 28
267
+ _D 28
268
+ _med_ 27
269
+ _re 27
270
+ �l 27
271
+ _ko 27
272
+ æ 27
273
+ �r 27
274
+ år 27
275
+ ål 27
276
+ as 27
277
+ _fr 27
278
+ ks 27
279
+ ie 27
280
+ _la 27
281
+ � 27
282
+ ei_ 27
283
+ _har_ 27
284
+ men 26
285
+ _den 26
286
+ tin 26
287
+ ut 26
288
+ _var 26
289
+ nne 26
290
+ enn 26
291
+ ng_ 26
292
+ ord 26
293
+ ande 26
294
+ ans 26
295
+ - 26
296
+ _han_ 25
297
+ Nore 25
298
+ mål 25
299
+ _den_ 25
300
+ Noreg 25
301
+ oreg 25
302
+ _ve 25
303
+ han_ 25
304
+ ere 25
305
+ ru 25
306
+ ver 25
307
+ ette 25
308
+ eri 25
309
+ gje 25
310
+ A 24
311
+ ts 24
312
+ sj 24
313
+ gen 24
314
+ E 24
315
+ ting 23
316
+ tt_ 23
317
+ __ 23
318
+ ter_ 23
319
+ nga 23
320
+ _å 23
321
+ ten_ 23
322
+ lo 23
323
+ Ha 23
324
+ bl 23
325
+ kke 23
326
+ he 23
327
+ ene 23
328
+ isk 22
329
+ _det_ 22
330
+ _om 22
331
+ s� 22
332
+ kon 22
333
+ ds 22
334
+ ong 22
335
+ sta 22
336
+ _Nore 22
114
337
  " 21
115
- ar_ 21
116
- _p 20
117
- _n 20
118
- _me 20
119
- or_ 20
120
- d_ 19
121
- eg 19
122
- ed 19
123
- te_ 19
338
+ _H 21
339
+ ok 21
340
+ ane 21
341
+ øy 21
342
+ rm 21
343
+ �r 21
344
+ gr 21
345
+ kri 21
346
+ ir 21
347
+ us 21
348
+ �y 21
349
+ ær 21
350
+ art 20
351
+ for_ 20
352
+ _A 20
353
+ _nors 20
354
+ _bl 20
355
+ ad 20
356
+ sl 20
357
+ ld 20
358
+ ist 20
359
+ ndet 20
360
+ _E 19
361
+ orske 19
362
+ _lan 19
363
+ rsk_ 19
364
+ sam 19
365
+ oreg_ 19
366
+ inga 19
367
+ ret 19
368
+ _ka 19
369
+ _ut 19
370
+ f� 19
371
+ orsk_ 19
372
+ _s� 19
373
+ lt 19
374
+ hu 19
375
+ jo 19
376
+ seg 19
377
+ andet 19
378
+ ort 19
379
+ fa 19
380
+ id 19
381
+ ale 19
382
+ _De 19
124
383
  un_ 19
125
- ke_ 18
126
- �r 18
127
- _l 18
128
- vi 18
129
- so 18
130
- he 18
131
- Ha 18
132
- nge 18
133
- es 18
134
- ka 18
135
- ll 17
136
- det 17
137
- il_ 17
138
- pe 17
139
- la 16
140
- som 16
141
- Han 16
142
- ter 16
143
- _so 16
144
- hu 16
145
- D 16
146
- ig 16
147
- ste 16
148
- Han_ 15
149
- s_ 15
150
- for_ 15
151
- _se 15
152
- _som 15
153
- til 15
154
- ik 15
155
- nd 15
156
- am 15
157
- "_ 15
158
- ns 15
159
- har 15
160
- _ti 15
161
- ten 14
162
- har_ 14
163
- enn 14
164
- ikk 14
165
- _har 14
166
- ene 14
167
- _� 14
168
- det_ 14
169
- _i_ 14
170
- p� 14
171
- gen 14
172
- av 14
173
- nt 14
174
- _til 14
175
- _som_ 13
176
- hun 13
177
- �r 13
178
- _r 13
179
- re_ 13
180
- de_ 13
181
- a_ 13
182
- _ka 13
183
- ut 13
184
- _p� 13
185
- mm 13
186
- p�_ 13
187
- v_ 13
188
- _har_ 13
189
- mme 13
190
- som_ 13
191
- eg_ 13
192
- on 13
193
- je 13
194
- _hu 13
195
- ta 13
196
- hun_ 13
197
- _ik 12
198
- hen 12
199
- no 12
200
- kke_ 12
201
- ko 12
202
- De 12
203
- _av 12
204
- lig 12
205
- til_ 12
206
- ikke 12
207
- _p�_ 12
208
- _ikk 12
209
- em 12
210
- enne 12
211
- _he 12
212
- _hun 12
213
- _hun_ 12
214
- _ikke 12
215
- _for_ 12
216
- pen 11
217
- tte 11
218
- _en 11
219
- lo 11
220
- den_ 11
221
- ni 11
222
- _vi 11
223
- S 11
224
- den 11
225
- nne_ 11
226
- _til_ 11
227
- ei 11
228
- ham 11
229
- tr 11
230
- ing 11
231
- _det 11
232
- �r_ 11
233
- ed_ 10
234
- _hen 10
235
- _" 10
236
- inn 10
237
- pen_ 10
238
- ere 10
239
- ten_ 10
240
- ans 10
241
- be 10
242
- � 10
243
- _u 10
244
- _ham 10
245
- _at 10
246
- _st 10
247
- am_ 10
248
- k_ 10
249
- it 10
250
- ste_ 10
251
- �r 10
252
- ham_ 10
253
- ikke_ 10
254
- s� 9
255
- rd 9
256
- le_ 9
257
- ra 9
258
- da 9
259
- _den 9
260
- _et 9
261
- _ve 9
262
- av_ 9
263
- els 9
264
- _kan 9
265
- _.H 9
266
- men 9
267
- rs 9
268
- at_ 9
269
- ord 9
270
- ig_ 9
271
- du 9
272
- kan 9
273
- s�_ 9
274
- ak 9
275
- _den_ 9
276
- E 9
277
- lt 9
278
- ls 9
279
- seg 9
280
- .H 9
281
- ang 9
282
- oe 9
283
- _ham_ 9
284
- hv 9
285
- ser 9
286
- nni 9
287
- est 9
288
- eng 9
289
- ld 9
290
- med 9
291
- .. 9
292
- enne_ 8
293
- rt_ 8
294
- Unn 8
295
- ske 8
296
- Unni 8
297
- ser_ 8
298
- _in 8
299
- _s� 8
300
- ng_ 8
301
- gan 8
302
- _s�_ 8
303
- _va 8
304
- henne 8
305
- nde 8
306
- U 8
307
- ga 8
308
- _henn 8
309
- sv 8
310
- ss 8
311
- _det_ 8
312
- _kan_ 8
313
- _be 8
314
- ngen 8
315
- sp 8
316
- kan_ 8
317
- ie 8
318
- _med 8
319
- lle 8
320
- sa 8
321
- kt 8
322
- pp 8
323
- _om 8
324
- end 8
325
- _�_ 8
326
- _av_ 8
327
- _at_ 8
328
- Un 8
329
- der 8
330
- tt_ 8
331
- henn 8
332
- gen_ 7
333
- mer_ 7
334
- _.Ha 7
335
- F 7
336
- lan 7
337
- ger 7
338
- Hu 7
339
- ek 7
340
- inge 7
341
- .Han_ 7
342
- ner 7
343
- ene_ 7
344
- .Ha 7
345
- ann 7
346
- ._ 7
347
- _.Han 7
348
- .Han 7
349
- si 7
350
- var 7
351
- sl 7
352
- noe 7
353
- vo 7
354
- ro 7
355
- lig_ 7
356
- _seg 7
357
- lv 7
358
- o_ 7
359
- ri 7
360
- mer 7
361
- ker 7
362
- _no 7
363
- bl 7
364
- ort 7
365
- _du 7
366
- _hv 7
367
- _med_ 7
368
- gj 7
369
- der_ 7
370
- med_ 7
371
- seg_ 7
372
- men_ 7
373
- _et_ 7
374
- _om_ 7
375
- ger_ 6
376
- j� 6
377
- nk 6
378
- nen_ 6
379
- mel 6
380
- eli 6
381
- dd 6
382
- _tr 6
383
- �r_ 6
384
- nn_ 6
385
- sva 6
386
- ter_ 6
387
- ell 6
388
- ma 6
389
- O 6
390
- rg 6
391
- _men 6
392
- oen 6
393
- ver 6
394
- _ser 6
395
- vet 6
396
- gu 6
397
- att 6
398
- vil 6
399
- g� 6
400
- ye 6
384
+ rske 19
385
+ reg_ 19
386
+ ert 19
387
+ _et 18
388
+ ikk 18
389
+ tor 18
390
+ gs 18
391
+ n� 18
392
+ tter 18
393
+ est 18
394
+ _sa 18
395
+ inge 18
396
+ _vi 18
397
+ ov 18
398
+ mn 18
399
+ ro 18
400
+ rin 18