scylla 0.5.0 → 0.6.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- data/Gemfile +4 -2
- data/Gemfile.lock +16 -1
- data/lib/scylla/classifier.rb +1 -1
- data/lib/scylla/generator.rb +16 -4
- data/lib/scylla/lms/afrikaans.lm +232 -232
- data/lib/scylla/lms/arabic.lm +175 -175
- data/lib/scylla/lms/bulgarian.lm +225 -225
- data/lib/scylla/lms/catalan.lm +309 -309
- data/lib/scylla/lms/danish.lm +167 -167
- data/lib/scylla/lms/english.lm +398 -398
- data/lib/scylla/lms/finnish.lm +237 -237
- data/lib/scylla/lms/french.lm +148 -148
- data/lib/scylla/lms/german.lm +258 -258
- data/lib/scylla/lms/greek.lm +236 -236
- data/lib/scylla/lms/hebrew.lm +154 -154
- data/lib/scylla/lms/hindi.lm +139 -139
- data/lib/scylla/lms/icelandic.lm +239 -239
- data/lib/scylla/lms/indonesian.lm +244 -244
- data/lib/scylla/lms/italian.lm +248 -248
- data/lib/scylla/lms/japanese.lm +90 -90
- data/lib/scylla/lms/korean.lm +306 -306
- data/lib/scylla/lms/norwegian.lm +193 -193
- data/lib/scylla/lms/polish.lm +241 -241
- data/lib/scylla/lms/portuguese.lm +232 -232
- data/lib/scylla/lms/romanian.lm +246 -246
- data/lib/scylla/lms/slovak.lm +242 -242
- data/lib/scylla/lms/slovenian.lm +229 -229
- data/lib/scylla/lms/spanish.lm +164 -164
- data/lib/scylla/lms/swedish.lm +157 -157
- data/lib/scylla/lms/tagalog.lm +247 -247
- data/lib/scylla/lms/thai.lm +252 -252
- data/lib/scylla/lms/turkish.lm +285 -285
- data/lib/scylla/lms/vietnamese.lm +250 -250
- data/lib/scylla/lms/welsh.lm +248 -248
- data/lib/scylla/resources.rb +1 -9
- data/lib/scylla.rb +4 -0
- data/scylla.gemspec +2 -120
- data/source_texts/english.txt +62 -27
- data/test/classifier_test.rb +1 -3
- data/test/fixtures/lms/danish.lm +173 -173
- data/test/fixtures/lms/english.lm +220 -220
- data/test/fixtures/lms/french.lm +175 -175
- data/test/fixtures/lms/german.lm +254 -254
- data/test/fixtures/lms/hindi.lm +139 -139
- data/test/fixtures/lms/italian.lm +236 -236
- data/test/fixtures/lms/japanese.lm +88 -88
- data/test/fixtures/lms/norwegian.lm +182 -182
- data/test/fixtures/lms/spanish.lm +164 -164
- data/test/fixtures/test_languages/spanish +0 -1
- data/test/generator_test.rb +13 -0
- data/test/helper.rb +2 -0
- metadata +18 -25
- data/.document +0 -5
- data/lib/scylla/lms/13375P33K.lm +0 -400
- data/scylla-0.1.0.gem +0 -0
- data/source_texts/13375P33K.txt +0 -199
- data/test/fixtures/lms/13375p33k.lm +0 -400
- data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -12,15 +12,15 @@ m 162
|
|
12
12
|
o_ 147
|
13
13
|
u 144
|
14
14
|
c 130
|
15
|
-
a_
|
15
|
+
a_ 119
|
16
16
|
e_ 103
|
17
17
|
p 100
|
18
|
-
s_
|
18
|
+
s_ 97
|
19
19
|
_d 96
|
20
20
|
l 94
|
21
21
|
de 77
|
22
22
|
os 67
|
23
|
-
_a
|
23
|
+
_a 66
|
24
24
|
es 65
|
25
25
|
, 62
|
26
26
|
do 61
|
@@ -28,373 +28,373 @@ ra 60
|
|
28
28
|
nt 59
|
29
29
|
,_ 54
|
30
30
|
_de 52
|
31
|
-
_p
|
31
|
+
_p 50
|
32
32
|
v 49
|
33
33
|
re 48
|
34
34
|
os_ 48
|
35
35
|
to 47
|
36
36
|
ar 46
|
37
|
-
ta 45
|
38
37
|
or 45
|
38
|
+
ta 45
|
39
39
|
. 45
|
40
|
-
te 44
|
41
|
-
en 44
|
42
40
|
de_ 44
|
41
|
+
en 44
|
42
|
+
te 44
|
43
43
|
g 43
|
44
|
+
_c 42
|
44
45
|
co 42
|
45
|
-
_c 41
|
46
46
|
_s 41
|
47
47
|
er 39
|
48
|
-
ri 38
|
49
48
|
f 38
|
50
|
-
|
49
|
+
ri 38
|
51
50
|
as 37
|
52
|
-
|
53
|
-
|
51
|
+
se 37
|
52
|
+
_m 36
|
54
53
|
b 36
|
55
|
-
_e 36
|
56
54
|
_n 36
|
55
|
+
do_ 36
|
56
|
+
_e 36
|
57
|
+
da 36
|
57
58
|
ad 35
|
58
|
-
r_ 35
|
59
|
-
_m 35
|
60
59
|
m_ 35
|
60
|
+
r_ 35
|
61
61
|
ma 34
|
62
|
-
q 33
|
63
|
-
qu 33
|
64
|
-
st 33
|
65
62
|
_t 33
|
66
|
-
|
63
|
+
st 33
|
64
|
+
qu 33
|
65
|
+
q 33
|
67
66
|
� 32
|
68
|
-
�o 32
|
69
67
|
� 32
|
68
|
+
no 32
|
69
|
+
�o 32
|
70
70
|
_o 31
|
71
71
|
_de_ 31
|
72
72
|
ia 30
|
73
73
|
is 30
|
74
|
+
_co 29
|
74
75
|
an 29
|
75
|
-
pa 28
|
76
|
-
me 28
|
77
76
|
__ 28
|
78
|
-
|
77
|
+
me 28
|
79
78
|
ue 28
|
80
|
-
|
81
|
-
io 27
|
82
|
-
on 27
|
79
|
+
pa 28
|
83
80
|
al 27
|
81
|
+
in 27
|
84
82
|
h 27
|
85
|
-
|
86
|
-
|
83
|
+
on 27
|
84
|
+
io 27
|
87
85
|
�o_ 26
|
88
86
|
que 26
|
87
|
+
ti 26
|
89
88
|
am 26
|
90
|
-
|
91
|
-
om 25
|
89
|
+
nte 26
|
92
90
|
_do 25
|
91
|
+
om 25
|
92
|
+
ent 25
|
93
93
|
ca 24
|
94
|
-
po 24
|
95
94
|
_qu 24
|
96
|
-
em 24
|
97
95
|
_q 24
|
96
|
+
em 24
|
97
|
+
po 24
|
98
98
|
_se 23
|
99
99
|
_f 22
|
100
|
-
_que 21
|
101
|
-
� 21
|
102
100
|
_a_ 21
|
101
|
+
� 21
|
102
|
+
_que 21
|
103
103
|
ci 21
|
104
|
-
ec 20
|
105
104
|
as_ 20
|
106
105
|
ei 20
|
106
|
+
ec 20
|
107
|
+
tr 19
|
107
108
|
to_ 19
|
108
|
-
ic 19
|
109
109
|
o, 19
|
110
|
-
|
110
|
+
ic 19
|
111
|
+
u_ 18
|
112
|
+
_pa 18
|
113
|
+
na 18
|
114
|
+
ra_ 18
|
115
|
+
a� 18
|
111
116
|
ou 18
|
117
|
+
ss 18
|
118
|
+
._ 18
|
112
119
|
ue_ 18
|
113
120
|
que_ 18
|
114
|
-
ado 18
|
115
|
-
ss 18
|
116
|
-
_pa 18
|
117
|
-
a� 18
|
118
|
-
ra_ 18
|
119
|
-
na 18
|
120
121
|
ce 18
|
121
|
-
|
122
|
+
ado 18
|
123
|
+
_do_ 17
|
124
|
+
id 17
|
125
|
+
nd 17
|
122
126
|
par 17
|
123
|
-
._ 17
|
124
127
|
si 17
|
125
|
-
u_ 17
|
126
128
|
_r 17
|
127
129
|
mi 17
|
128
|
-
_do_ 17
|
129
|
-
nd 17
|
130
|
-
id 17
|
131
130
|
nto 17
|
131
|
+
li 17
|
132
|
+
es_ 17
|
132
133
|
_no 17
|
133
|
-
|
134
|
-
men 16
|
135
|
-
es_ 16
|
134
|
+
_que_ 16
|
136
135
|
um 16
|
137
|
-
o,_ 16
|
138
136
|
S 16
|
139
137
|
im 16
|
140
|
-
|
141
|
-
em_ 16
|
142
|
-
� 16
|
143
|
-
s, 16
|
138
|
+
men 16
|
144
139
|
pr 16
|
145
|
-
|
146
|
-
�
|
140
|
+
s, 16
|
141
|
+
� 16
|
142
|
+
o,_ 16
|
143
|
+
_da 16
|
144
|
+
em_ 16
|
147
145
|
it 15
|
146
|
+
rt 15
|
147
|
+
el 15
|
148
148
|
mo 15
|
149
149
|
sa 15
|
150
|
-
_re 15
|
151
150
|
res 15
|
152
|
-
|
153
|
-
|
154
|
-
|
151
|
+
� 15
|
152
|
+
_re 15
|
153
|
+
te_ 15
|
154
|
+
da_ 14
|
155
|
+
ro 14
|
156
|
+
so 14
|
157
|
+
ara 14
|
158
|
+
��o 14
|
159
|
+
ac 14
|
155
160
|
.. 14
|
161
|
+
�� 14
|
162
|
+
ma_ 14
|
156
163
|
_po 14
|
157
|
-
ara 14
|
158
164
|
s,_ 14
|
159
165
|
ve 14
|
160
|
-
�� 14
|
161
|
-
��o 14
|
162
|
-
" 14
|
163
|
-
da_ 14
|
164
166
|
ant 14
|
165
|
-
|
166
|
-
|
167
|
-
so 14
|
168
|
-
_par 13
|
167
|
+
� 13
|
168
|
+
la 13
|
169
169
|
ment 13
|
170
|
-
|
171
|
-
ont 13
|
170
|
+
il 13
|
172
171
|
fo 13
|
173
|
-
ir 13
|
174
172
|
dos 13
|
175
|
-
|
176
|
-
|
173
|
+
_par 13
|
174
|
+
ont 13
|
175
|
+
ir 13
|
176
|
+
con 13
|
177
|
+
_� 13
|
177
178
|
ai 13
|
178
179
|
no_ 13
|
179
|
-
_� 13
|
180
180
|
��o_ 13
|
181
181
|
com 13
|
182
|
-
� 13
|
183
|
-
pe 12
|
184
|
-
tu 12
|
185
|
-
di 12
|
186
|
-
uma 12
|
187
|
-
sta 12
|
188
|
-
uma_ 12
|
189
182
|
dos_ 12
|
183
|
+
pe 12
|
190
184
|
_o_ 12
|
185
|
+
tu 12
|
191
186
|
ho 12
|
192
|
-
|
187
|
+
sta 12
|
193
188
|
est 12
|
189
|
+
uma_ 12
|
190
|
+
di 12
|
191
|
+
uma 12
|
192
|
+
_com 12
|
194
193
|
� 12
|
194
|
+
lh 12
|
195
|
+
_um 11
|
195
196
|
tra 11
|
196
|
-
|
197
|
+
gu 11
|
198
|
+
_u 11
|
199
|
+
_S 11
|
200
|
+
_b 11
|
197
201
|
I 11
|
198
|
-
|
199
|
-
at 11
|
202
|
+
er_ 11
|
200
203
|
ep 11
|
201
|
-
|
202
|
-
|
204
|
+
at 11
|
205
|
+
vo 11
|
203
206
|
ente 11
|
204
|
-
|
205
|
-
|
206
|
-
|
207
|
-
|
208
|
-
_u 11
|
209
|
-
gu 11
|
210
|
-
_um 11
|
207
|
+
l_ 11
|
208
|
+
ni 11
|
209
|
+
rio 11
|
210
|
+
_l 11
|
211
211
|
or_ 11
|
212
|
-
|
212
|
+
ap 11
|
213
|
+
tos 11
|
213
214
|
ol 10
|
214
|
-
|
215
|
-
|
216
|
-
|
215
|
+
_pr 10
|
216
|
+
nto_ 10
|
217
|
+
E 10
|
218
|
+
ist 10
|
217
219
|
x 10
|
218
|
-
|
220
|
+
ia_ 10
|
221
|
+
ua 10
|
222
|
+
nte_ 10
|
223
|
+
ria 10
|
224
|
+
gr 10
|
225
|
+
a��o 10
|
219
226
|
lo 10
|
220
|
-
_l 10
|
221
|
-
mu 10
|
222
|
-
ist 10
|
223
227
|
ica 10
|
224
228
|
nc 10
|
225
|
-
a��o 10
|
226
|
-
ria 10
|
227
|
-
E 10
|
228
|
-
_uma 10
|
229
|
-
nte_ 10
|
230
229
|
_uma_ 10
|
231
|
-
|
230
|
+
ar_ 10
|
231
|
+
ou_ 10
|
232
232
|
a�� 10
|
233
|
-
_S 10
|
234
233
|
va 10
|
234
|
+
_uma 10
|
235
|
+
dad 10
|
236
|
+
mu 10
|
237
|
+
vi 10
|
238
|
+
� 9
|
239
|
+
le 9
|
240
|
+
ida 9
|
241
|
+
sen 9
|
235
242
|
mp 9
|
236
|
-
|
237
|
-
|
238
|
-
|
239
|
-
ara_ 9
|
240
|
-
am_ 9
|
243
|
+
ui 9
|
244
|
+
ne 9
|
245
|
+
des 9
|
241
246
|
para 9
|
242
|
-
|
243
|
-
� 9
|
247
|
+
ara_ 9
|
244
248
|
iv 9
|
245
|
-
l_ 9
|
246
|
-
des 9
|
247
|
-
�a 9
|
248
|
-
ida 9
|
249
|
-
rec 9
|
250
|
-
_ap 9
|
251
|
-
A 9
|
252
|
-
_fo 9
|
253
249
|
_ta 9
|
254
|
-
|
255
|
-
|
256
|
-
|
257
|
-
ne 9
|
250
|
+
rec 9
|
251
|
+
�e 9
|
252
|
+
am_ 9
|
258
253
|
�es 9
|
259
|
-
ui 9
|
260
254
|
_i 9
|
255
|
+
ul 9
|
261
256
|
a��o_ 9
|
262
|
-
|
263
|
-
|
264
|
-
|
265
|
-
|
266
|
-
|
257
|
+
ur 9
|
258
|
+
A 9
|
259
|
+
_ap 9
|
260
|
+
ct 9
|
261
|
+
�a 9
|
262
|
+
eg 9
|
263
|
+
_fo 9
|
264
|
+
os, 8
|
267
265
|
tes 8
|
266
|
+
_ma 8
|
268
267
|
ter 8
|
269
|
-
|
270
|
-
|
268
|
+
ov 8
|
269
|
+
_v 8
|
270
|
+
_mu 8
|
271
|
+
rr 8
|
272
|
+
omo 8
|
273
|
+
ed 8
|
274
|
+
ade 8
|
271
275
|
_con 8
|
272
|
-
|
276
|
+
io_ 8
|
273
277
|
_no_ 8
|
274
|
-
|
275
|
-
|
276
|
-
_me 8
|
277
|
-
_v 8
|
278
|
-
ba 8
|
279
|
-
ns 8
|
278
|
+
tado 8
|
279
|
+
cont 8
|
280
280
|
C 8
|
281
|
+
para_ 8
|
281
282
|
gi 8
|
282
|
-
|
283
|
-
omo 8
|
284
|
-
oc 8
|
283
|
+
ns 8
|
285
284
|
_na 8
|
286
|
-
gra 8
|
287
|
-
tado 8
|
288
|
-
ab 8
|
289
|
-
_os 8
|
290
|
-
io_ 8
|
291
|
-
ed 8
|
292
285
|
ime 8
|
293
|
-
|
286
|
+
oc 8
|
287
|
+
_me 8
|
288
|
+
ba 8
|
289
|
+
_os 8
|
294
290
|
_os_ 8
|
295
|
-
|
296
|
-
|
291
|
+
fi 8
|
292
|
+
e, 8
|
297
293
|
_da_ 8
|
294
|
+
ab 8
|
295
|
+
_e_ 8
|
298
296
|
tad 8
|
299
|
-
|
300
|
-
|
301
|
-
|
297
|
+
tiv 8
|
298
|
+
z 8
|
299
|
+
nta 8
|
300
|
+
gra 8
|
301
|
+
br 7
|
302
|
+
un 7
|
303
|
+
ece 7
|
304
|
+
eu 7
|
305
|
+
cia 7
|
302
306
|
ito 7
|
303
|
-
|
307
|
+
ndo 7
|
304
308
|
min 7
|
305
|
-
|
309
|
+
sc 7
|
310
|
+
ort 7
|
311
|
+
is_ 7
|
312
|
+
mento 7
|
313
|
+
va_ 7
|
306
314
|
mo_ 7
|
307
|
-
|
308
|
-
_mi 7
|
315
|
+
ado_ 7
|
309
316
|
_pe 7
|
310
|
-
mento 7
|
311
317
|
das 7
|
312
318
|
_te 7
|
313
319
|
idad 7
|
314
|
-
|
320
|
+
ut 7
|
315
321
|
ento 7
|
316
|
-
|
322
|
+
od 7
|
323
|
+
dade 7
|
324
|
+
_para 7
|
325
|
+
_mi 7
|
317
326
|
os,_ 7
|
318
|
-
|
319
|
-
|
320
|
-
ado_ 7
|
327
|
+
M 7
|
328
|
+
a, 7
|
321
329
|
str 7
|
322
|
-
|
330
|
+
al_ 7
|
323
331
|
_das_ 7
|
324
|
-
|
325
|
-
|
326
|
-
_em 7
|
327
|
-
dade 7
|
328
|
-
cia 7
|
332
|
+
R 7
|
333
|
+
dep 7
|
329
334
|
tan 7
|
330
|
-
av 7
|
331
|
-
ut 7
|
332
|
-
ort 7
|
333
|
-
is_ 7
|
334
|
-
_ma 7
|
335
335
|
� 7
|
336
|
-
br 7
|
337
|
-
tar 7
|
338
336
|
nos 7
|
339
|
-
|
340
|
-
|
341
|
-
|
342
|
-
|
337
|
+
av 7
|
338
|
+
tar 7
|
339
|
+
o. 7
|
340
|
+
omo_ 7
|
341
|
+
... 7
|
342
|
+
�es_ 7
|
343
|
+
das_ 7
|
343
344
|
ess 7
|
345
|
+
_em 7
|
344
346
|
j 7
|
345
|
-
|
346
|
-
�ri 6
|
347
|
-
tant 6
|
348
|
-
o. 6
|
349
|
-
ao 6
|
350
|
-
rte 6
|
351
|
-
sti 6
|
352
|
-
eri 6
|
353
|
-
ori 6
|
347
|
+
_das 7
|
354
348
|
ig 6
|
355
|
-
_dep 6
|
356
|
-
como 6
|
357
|
-
_tr 6
|
358
349
|
�rio 6
|
350
|
+
P 6
|
351
|
+
nos_ 6
|
352
|
+
por 6
|
353
|
+
iment 6
|
359
354
|
se_ 6
|
355
|
+
eri 6
|
360
356
|
_des 6
|
361
357
|
pu 6
|
362
|
-
muit 6
|
363
|
-
ram 6
|
364
|
-
P 6
|
365
358
|
_muit 6
|
366
|
-
|
367
|
-
|
368
|
-
esta 6
|
369
|
-
af 6
|
370
|
-
eu_ 6
|
371
|
-
ntes 6
|
372
|
-
anto 6
|
373
|
-
al_ 6
|
374
|
-
imen 6
|
375
|
-
- 6
|
376
|
-
ect 6
|
377
|
-
ios 6
|
359
|
+
_dep 6
|
360
|
+
ao 6
|
378
361
|
tic 6
|
379
|
-
|
362
|
+
_mui 6
|
380
363
|
ome 6
|
381
|
-
|
382
|
-
�a_ 6
|
383
|
-
us 6
|
384
|
-
e,_ 6
|
364
|
+
_como 6
|
385
365
|
a,_ 6
|
386
|
-
|
387
|
-
|
366
|
+
rn 6
|
367
|
+
esta 6
|
368
|
+
_in 6
|
369
|
+
ge 6
|
370
|
+
como_ 6
|
388
371
|
T 6
|
389
|
-
|
390
|
-
|
391
|
-
|
392
|
-
|
372
|
+
mui 6
|
373
|
+
�ri 6
|
374
|
+
ntes 6
|
375
|
+
e,_ 6
|
376
|
+
ios 6
|
377
|
+
- 6
|
378
|
+
_em_ 6
|
379
|
+
ram 6
|
380
|
+
�a_ 6
|
381
|
+
anto 6
|
393
382
|
ser 6
|
394
|
-
ali 6
|
395
|
-
ente_ 6
|
396
383
|
D 6
|
384
|
+
ori 6
|
385
|
+
como 6
|
386
|
+
ente_ 6
|
387
|
+
_ao 6
|
388
|
+
muit 6
|
389
|
+
eu_ 6
|
390
|
+
af 6
|
391
|
+
ect 6
|
392
|
+
lho 6
|
393
|
+
tor 6
|
397
394
|
nh 6
|
398
|
-
|
399
|
-
|
400
|
-
|
395
|
+
imen 6
|
396
|
+
us 6
|
397
|
+
rte 6
|
398
|
+
ndo_ 6
|
399
|
+
ali 6
|
400
|
+
cor 6
|