scylla 0.7.5 → 0.8.0
Sign up to get free protection for your applications and to get access to all the features.
- data/lib/scylla/classifier.rb +1 -1
- data/scylla.gemspec +1 -1
- data/test/fixtures/lms/danish.lm +168 -168
- data/test/fixtures/lms/english.lm +217 -217
- data/test/fixtures/lms/french.lm +216 -216
- data/test/fixtures/lms/german.lm +274 -274
- data/test/fixtures/lms/hindi.lm +241 -241
- data/test/fixtures/lms/italian.lm +280 -280
- data/test/fixtures/lms/japanese.lm +110 -110
- data/test/fixtures/lms/norwegian.lm +239 -239
- data/test/fixtures/lms/spanish.lm +188 -188
- data/test/generator_test.rb +1 -1
- metadata +4 -4
@@ -1,4 +1,4 @@
|
|
1
|
-
_
|
1
|
+
_ 1798
|
2
2
|
a 542
|
3
3
|
e 410
|
4
4
|
i 389
|
@@ -6,395 +6,395 @@ o 341
|
|
6
6
|
l 278
|
7
7
|
n 244
|
8
8
|
r 243
|
9
|
+
a_ 206
|
9
10
|
c 205
|
10
11
|
s 200
|
11
|
-
a_ 186
|
12
12
|
t 176
|
13
13
|
d 168
|
14
|
-
e_
|
14
|
+
e_ 165
|
15
15
|
u 123
|
16
|
+
o_ 120
|
17
|
+
i_ 119
|
16
18
|
v 115
|
17
|
-
o_ 114
|
18
|
-
i_ 104
|
19
19
|
p 99
|
20
20
|
m 98
|
21
|
-
_c
|
22
|
-
_d
|
23
|
-
_s
|
21
|
+
_c 96
|
22
|
+
_d 91
|
23
|
+
_s 88
|
24
|
+
_a 79
|
24
25
|
, 74
|
25
|
-
|
26
|
-
|
27
|
-
|
28
|
-
ar 60
|
26
|
+
,_ 74
|
27
|
+
l_ 67
|
28
|
+
la 62
|
29
29
|
g 60
|
30
|
-
|
30
|
+
ar 59
|
31
31
|
er 59
|
32
|
+
an 57
|
33
|
+
_p 56
|
32
34
|
h 54
|
33
|
-
ll 52
|
34
|
-
co 52
|
35
35
|
ri 52
|
36
|
-
|
36
|
+
co 52
|
37
|
+
ll 51
|
37
38
|
re 49
|
39
|
+
_l 47
|
40
|
+
_i 47
|
38
41
|
ch 46
|
39
42
|
ra 46
|
40
|
-
to 45
|
41
|
-
_i 45
|
42
43
|
el 45
|
43
|
-
_m
|
44
|
+
_m 45
|
44
45
|
di 44
|
46
|
+
to 44
|
45
47
|
no 44
|
46
|
-
|
47
|
-
|
48
|
+
la_ 44
|
49
|
+
_e 43
|
48
50
|
b 43
|
49
|
-
|
50
|
-
|
51
|
+
n_ 43
|
52
|
+
va 43
|
51
53
|
ia 42
|
52
|
-
|
53
|
-
|
54
|
-
|
55
|
-
av 39
|
54
|
+
se 41
|
55
|
+
_di 40
|
56
|
+
in 39
|
56
57
|
f 39
|
58
|
+
av 38
|
59
|
+
_n 37
|
60
|
+
_co 37
|
57
61
|
do 37
|
58
|
-
|
62
|
+
_v 36
|
59
63
|
on 36
|
60
|
-
al
|
61
|
-
|
62
|
-
|
63
|
-
li 34
|
64
|
+
al 34
|
65
|
+
re_ 34
|
66
|
+
ta 34
|
64
67
|
en 34
|
68
|
+
li 34
|
65
69
|
na 34
|
66
|
-
|
67
|
-
da 33
|
68
|
-
re_ 33
|
70
|
+
ca 34
|
69
71
|
or 33
|
70
|
-
lla 33
|
71
72
|
si 32
|
72
|
-
_n 32
|
73
|
-
_co 32
|
74
|
-
le 32
|
75
73
|
to_ 31
|
74
|
+
da 30
|
76
75
|
ol 30
|
77
76
|
de 30
|
78
|
-
|
77
|
+
le 30
|
78
|
+
lla 30
|
79
|
+
va_ 29
|
79
80
|
pe 29
|
80
81
|
cc 29
|
81
|
-
il 28
|
82
|
-
ma 28
|
83
82
|
ve 28
|
84
|
-
|
85
|
-
|
83
|
+
ma 28
|
84
|
+
as 28
|
85
|
+
il 27
|
86
|
+
._ 27
|
86
87
|
o, 27
|
87
|
-
|
88
|
+
io 27
|
88
89
|
. 27
|
89
|
-
|
90
|
+
o,_ 27
|
91
|
+
_e_ 26
|
90
92
|
ne 26
|
93
|
+
nd 26
|
94
|
+
_u 26
|
91
95
|
tt 26
|
96
|
+
_f 26
|
97
|
+
_il 25
|
98
|
+
_ch 25
|
92
99
|
nt 25
|
100
|
+
gli 25
|
93
101
|
gl 25
|
102
|
+
il_ 25
|
103
|
+
lla_ 25
|
104
|
+
_il_ 25
|
94
105
|
st 25
|
95
|
-
gli 25
|
96
|
-
ell 24
|
97
|
-
o,_ 24
|
98
|
-
_se 24
|
99
|
-
che 24
|
100
|
-
ti 24
|
101
106
|
sa 24
|
102
|
-
|
103
|
-
|
104
|
-
|
107
|
+
ell 24
|
108
|
+
_de 24
|
109
|
+
che 23
|
110
|
+
_b 23
|
105
111
|
at 23
|
106
|
-
me 23
|
107
112
|
om 23
|
108
|
-
|
109
|
-
|
110
|
-
|
111
|
-
|
113
|
+
he 23
|
114
|
+
me 23
|
115
|
+
_ca 23
|
116
|
+
ti 23
|
112
117
|
a, 22
|
118
|
+
qu 22
|
119
|
+
q 22
|
113
120
|
_q 22
|
114
|
-
ci 22
|
115
121
|
_qu 22
|
116
|
-
|
117
|
-
|
118
|
-
|
119
|
-
|
120
|
-
|
121
|
-
|
122
|
+
che_ 22
|
123
|
+
ra_ 22
|
124
|
+
_che 22
|
125
|
+
_che_ 22
|
126
|
+
a,_ 22
|
127
|
+
_pe 22
|
128
|
+
_di_ 22
|
129
|
+
_se 22
|
130
|
+
ci 22
|
131
|
+
he_ 22
|
132
|
+
di_ 22
|
122
133
|
vi 21
|
123
|
-
|
124
|
-
lla_ 21
|
125
|
-
_il_ 21
|
134
|
+
_un 21
|
126
135
|
un 21
|
127
|
-
|
128
|
-
z 20
|
129
|
-
_che 20
|
130
|
-
di_ 20
|
131
|
-
he_ 20
|
136
|
+
te 21
|
132
137
|
pa 20
|
133
|
-
|
134
|
-
_di_ 20
|
138
|
+
si_ 20
|
135
139
|
del 20
|
140
|
+
z 20
|
136
141
|
ava 20
|
137
|
-
|
138
|
-
|
139
|
-
lo 19
|
140
|
-
no_ 19
|
142
|
+
_del 20
|
143
|
+
ia_ 19
|
141
144
|
ss 19
|
142
|
-
|
143
|
-
|
144
|
-
|
145
|
-
|
146
|
-
|
147
|
-
|
148
|
-
|
149
|
-
_ma 18
|
150
|
-
is 18
|
145
|
+
r_ 19
|
146
|
+
se_ 19
|
147
|
+
no_ 19
|
148
|
+
_ma 19
|
149
|
+
_g 19
|
150
|
+
_si 19
|
151
|
+
le_ 19
|
151
152
|
et 18
|
153
|
+
ev 18
|
154
|
+
is 18
|
155
|
+
es 18
|
156
|
+
vo 18
|
157
|
+
lo 18
|
152
158
|
and 18
|
153
|
-
|
154
|
-
ia_ 17
|
159
|
+
_la 18
|
155
160
|
hi 17
|
156
|
-
_un 17
|
157
|
-
era 17
|
158
|
-
si_ 17
|
159
161
|
na_ 17
|
160
|
-
|
161
|
-
sc 16
|
162
|
-
po 16
|
162
|
+
era 17
|
163
163
|
chi 16
|
164
|
+
_a_ 16
|
164
165
|
io_ 16
|
165
|
-
|
166
|
-
|
166
|
+
el_ 16
|
167
|
+
os 16
|
168
|
+
_in 16
|
169
|
+
_per 16
|
167
170
|
ua 16
|
168
|
-
|
171
|
+
li_ 16
|
172
|
+
ie 16
|
173
|
+
sc 16
|
169
174
|
per 16
|
175
|
+
po 16
|
176
|
+
_no 15
|
177
|
+
it 15
|
178
|
+
ic 15
|
179
|
+
ava_ 15
|
170
180
|
tr 15
|
171
|
-
|
172
|
-
_si 15
|
181
|
+
tto 15
|
173
182
|
su 15
|
183
|
+
eva 15
|
174
184
|
com 15
|
185
|
+
_vi 15
|
186
|
+
_com 15
|
187
|
+
_su 15
|
175
188
|
are 15
|
176
|
-
|
177
|
-
se_ 15
|
178
|
-
ac 15
|
179
|
-
ava_ 15
|
180
|
-
_per 15
|
181
|
-
ad 15
|
182
|
-
it 15
|
183
|
-
_in 15
|
184
|
-
e, 14
|
185
|
-
are_ 14
|
189
|
+
_r 15
|
186
190
|
e,_ 14
|
191
|
+
ac 14
|
192
|
+
e, 14
|
193
|
+
fa 14
|
187
194
|
_la_ 14
|
188
|
-
|
189
|
-
|
190
|
-
|
195
|
+
ad 14
|
196
|
+
er_ 14
|
197
|
+
gli_ 14
|
198
|
+
are_ 14
|
191
199
|
mo 14
|
200
|
+
ano 14
|
192
201
|
ndo 14
|
193
|
-
ari 14
|
194
|
-
_su 14
|
195
|
-
_r 14
|
196
|
-
_a_ 14
|
197
|
-
fa 14
|
198
202
|
ro 14
|
199
|
-
|
200
|
-
|
201
|
-
in_ 13
|
202
|
-
_in_ 13
|
203
|
-
on_ 13
|
203
|
+
on_ 14
|
204
|
+
_si_ 13
|
204
205
|
ella 13
|
205
|
-
|
206
|
+
_in_ 13
|
207
|
+
mp 13
|
208
|
+
_un_ 13
|
209
|
+
oc 13
|
210
|
+
era_ 13
|
211
|
+
_do 13
|
212
|
+
ari 13
|
213
|
+
_av 13
|
206
214
|
ur 13
|
207
215
|
so 13
|
208
|
-
id 13
|
209
|
-
el_ 13
|
210
216
|
un_ 13
|
211
|
-
|
212
|
-
|
213
|
-
|
217
|
+
in_ 13
|
218
|
+
all 13
|
219
|
+
tto_ 12
|
220
|
+
_gli_ 12
|
221
|
+
_per_ 12
|
222
|
+
ce 12
|
223
|
+
ella_ 12
|
214
224
|
a. 12
|
225
|
+
_gl 12
|
215
226
|
col 12
|
216
|
-
|
217
|
-
|
218
|
-
|
219
|
-
|
227
|
+
be 12
|
228
|
+
uo 12
|
229
|
+
qua 12
|
230
|
+
� 12
|
231
|
+
a._ 12
|
232
|
+
�_ 12
|
233
|
+
mi 12
|
234
|
+
sse 12
|
220
235
|
ue 12
|
236
|
+
_l_ 12
|
237
|
+
me_ 12
|
221
238
|
ni 12
|
239
|
+
id 12
|
240
|
+
pr 12
|
222
241
|
ut 12
|
242
|
+
sa_ 12
|
243
|
+
_gli 12
|
244
|
+
per_ 12
|
245
|
+
_al 12
|
246
|
+
_er 12
|
223
247
|
_qua 12
|
224
|
-
qua 12
|
225
|
-
be 12
|
226
|
-
ave 12
|
227
|
-
sse 12
|
228
|
-
uo 12
|
229
|
-
mi 12
|
230
|
-
tto_ 12
|
231
|
-
ul 11
|
232
|
-
iv 11
|
233
|
-
_vi 11
|
234
|
-
asa 11
|
235
|
-
_gli 11
|
236
|
-
_t 11
|
237
|
-
_col 11
|
238
|
-
acc 11
|
239
|
-
ne_ 11
|
240
|
-
_al 11
|
241
|
-
�_ 11
|
242
|
-
_gl 11
|
243
248
|
pi 11
|
244
|
-
|
245
|
-
|
246
|
-
|
249
|
+
ta_ 11
|
250
|
+
ti_ 11
|
251
|
+
gn 11
|
247
252
|
ano_ 11
|
248
|
-
|
253
|
+
acc 11
|
254
|
+
_fa 11
|
255
|
+
_col 11
|
256
|
+
_t 11
|
257
|
+
eva_ 11
|
258
|
+
_ri 11
|
249
259
|
_cas 11
|
250
|
-
|
251
|
-
|
252
|
-
|
260
|
+
da_ 11
|
261
|
+
_era 11
|
262
|
+
ul 11
|
263
|
+
ne_ 11
|
253
264
|
dd 11
|
254
|
-
|
255
|
-
|
256
|
-
|
257
|
-
|
258
|
-
|
259
|
-
|
260
|
-
|
261
|
-
|
262
|
-
|
265
|
+
_da 11
|
266
|
+
_ave 11
|
267
|
+
do_ 11
|
268
|
+
ave 11
|
269
|
+
ome 11
|
270
|
+
_ne 11
|
271
|
+
cas 11
|
272
|
+
cch 11
|
273
|
+
ig 11
|
274
|
+
_st 10
|
275
|
+
_casa 10
|
276
|
+
am 10
|
263
277
|
zi 10
|
278
|
+
man 10
|
279
|
+
ato 10
|
264
280
|
og 10
|
265
|
-
|
266
|
-
|
267
|
-
|
268
|
-
_do 10
|
269
|
-
_casa 10
|
270
|
-
ent 10
|
281
|
+
cchi 10
|
282
|
+
_era_ 10
|
283
|
+
que 10
|
271
284
|
_que 10
|
285
|
+
_non 10
|
286
|
+
rr 10
|
287
|
+
ent 10
|
272
288
|
ale 10
|
273
|
-
|
289
|
+
casa 10
|
290
|
+
dell 10
|
291
|
+
non 10
|
292
|
+
ome_ 10
|
293
|
+
asa 10
|
274
294
|
_dell 10
|
275
|
-
|
276
|
-
|
277
|
-
|
278
|
-
|
279
|
-
|
280
|
-
|
281
|
-
|
282
|
-
|
295
|
+
come_ 9
|
296
|
+
iv 9
|
297
|
+
_ve 9
|
298
|
+
_come 9
|
299
|
+
sta 9
|
300
|
+
ndo_ 9
|
301
|
+
�_ 9
|
302
|
+
anda 9
|
303
|
+
del_ 9
|
304
|
+
_non_ 9
|
305
|
+
� 9
|
306
|
+
nda 9
|
307
|
+
par 9
|
283
308
|
rid 9
|
284
309
|
fi 9
|
310
|
+
lo_ 9
|
285
311
|
_be 9
|
286
|
-
|
287
|
-
|
288
|
-
|
312
|
+
_mo 9
|
313
|
+
_le 9
|
314
|
+
oi 9
|
315
|
+
_o 9
|
289
316
|
ot 9
|
317
|
+
non_ 9
|
318
|
+
bi 9
|
319
|
+
_an 9
|
320
|
+
_me 9
|
321
|
+
_del_ 9
|
322
|
+
van 9
|
290
323
|
ando 9
|
324
|
+
far 9
|
291
325
|
ess 9
|
292
|
-
oi 9
|
293
|
-
�_ 9
|
294
|
-
par 9
|
295
|
-
_an 9
|
296
|
-
er_ 9
|
297
|
-
uri 9
|
298
|
-
alla 9
|
299
|
-
ome_ 9
|
300
|
-
anda 9
|
301
|
-
eva_ 9
|
302
|
-
ella_ 9
|
303
|
-
� 9
|
304
|
-
del_ 9
|
305
|
-
bi 9
|
306
|
-
sta 9
|
307
326
|
come 9
|
308
|
-
|
309
|
-
|
310
|
-
|
327
|
+
_pa 9
|
328
|
+
uri 9
|
329
|
+
ina 8
|
330
|
+
_pr 8
|
331
|
+
_T 8
|
332
|
+
_S 8
|
333
|
+
L 8
|
334
|
+
ato_ 8
|
335
|
+
ser 8
|
336
|
+
nz 8
|
311
337
|
una_ 8
|
312
|
-
|
338
|
+
vano 8
|
339
|
+
i, 8
|
313
340
|
idd 8
|
314
|
-
|
315
|
-
|
316
|
-
|
341
|
+
_vo 8
|
342
|
+
_una_ 8
|
343
|
+
_le_ 8
|
317
344
|
cco 8
|
318
|
-
do_ 8
|
319
|
-
uel 8
|
320
|
-
lo_ 8
|
321
|
-
ed 8
|
322
|
-
L 8
|
323
345
|
ba 8
|
324
|
-
|
325
|
-
|
326
|
-
|
327
|
-
i, 8
|
328
|
-
ant 8
|
329
|
-
nz 8
|
330
|
-
una 8
|
346
|
+
sse_ 8
|
347
|
+
i,_ 8
|
348
|
+
uel 8
|
331
349
|
ir 8
|
332
|
-
|
333
|
-
|
350
|
+
della 8
|
351
|
+
te_ 8
|
352
|
+
una 8
|
353
|
+
Tu 8
|
334
354
|
_all 8
|
335
|
-
|
336
|
-
|
337
|
-
_come 8
|
355
|
+
ant 8
|
356
|
+
ridd 8
|
338
357
|
S 8
|
339
|
-
|
358
|
+
_Tu 8
|
359
|
+
asa_ 8
|
360
|
+
_una 8
|
361
|
+
_pi 8
|
362
|
+
casa_ 8
|
363
|
+
con 8
|
364
|
+
occ 8
|
365
|
+
ene 8
|
366
|
+
_L 8
|
340
367
|
T 8
|
341
|
-
|
368
|
+
tra 7
|
342
369
|
Tur 7
|
343
|
-
|
344
|
-
|
345
|
-
nto 7
|
346
|
-
utt 7
|
347
|
-
oll 7
|
370
|
+
ett 7
|
371
|
+
sp 7
|
348
372
|
rc 7
|
349
|
-
rv 7
|
350
|
-
hi_ 7
|
351
|
-
_era 7
|
352
373
|
_quel 7
|
353
|
-
cia 7
|
354
|
-
per_ 7
|
355
|
-
ett 7
|
356
|
-
ec 7
|
357
|
-
ndo_ 7
|
358
|
-
vano_ 7
|
359
|
-
dava 7
|
360
|
-
ai 7
|
361
374
|
coll 7
|
362
|
-
|
363
|
-
|
375
|
+
gi 7
|
376
|
+
nto 7
|
377
|
+
ere 7
|
378
|
+
_ar 7
|
379
|
+
mpa 7
|
380
|
+
za 7
|
364
381
|
ap 7
|
365
|
-
_ad 7
|
366
|
-
dav 7
|
367
|
-
lav 7
|
368
|
-
_pr 7
|
369
382
|
_coll 7
|
370
|
-
|
383
|
+
vano_ 7
|
384
|
+
oll 7
|
385
|
+
quel 7
|
386
|
+
_con 7
|
387
|
+
ando_ 7
|
371
388
|
zia 7
|
372
|
-
|
373
|
-
|
374
|
-
|
375
|
-
|
376
|
-
|
377
|
-
|
389
|
+
rv 7
|
390
|
+
dav 7
|
391
|
+
ola 7
|
392
|
+
oi_ 7
|
393
|
+
cia 7
|
394
|
+
llo 7
|
378
395
|
ogl 7
|
379
|
-
|
380
|
-
_vo 7
|
381
|
-
sp 7
|
396
|
+
_far 7
|
382
397
|
Turi 7
|
383
|
-
|
384
|
-
|
385
|
-
|
386
|
-
_pi 7
|
387
|
-
tra 7
|
388
|
-
quel 7
|
389
|
-
Sa 6
|
390
|
-
P 6
|
391
|
-
veva 6
|
392
|
-
nu 6
|
393
|
-
_sc 6
|
394
|
-
�_ 6
|
395
|
-
_con 6
|
396
|
-
esse 6
|
397
|
-
h�_ 6
|
398
|
-
uridd 6
|
399
|
-
ch�_ 6
|
400
|
-
uand 6
|
398
|
+
alla 7
|
399
|
+
ogli 7
|
400
|
+
utt 7
|