scylla 0.7.5 → 0.8.0
Sign up to get free protection for your applications and to get access to all the features.
- data/lib/scylla/classifier.rb +1 -1
- data/scylla.gemspec +1 -1
- data/test/fixtures/lms/danish.lm +168 -168
- data/test/fixtures/lms/english.lm +217 -217
- data/test/fixtures/lms/french.lm +216 -216
- data/test/fixtures/lms/german.lm +274 -274
- data/test/fixtures/lms/hindi.lm +241 -241
- data/test/fixtures/lms/italian.lm +280 -280
- data/test/fixtures/lms/japanese.lm +110 -110
- data/test/fixtures/lms/norwegian.lm +239 -239
- data/test/fixtures/lms/spanish.lm +188 -188
- data/test/generator_test.rb +1 -1
- metadata +4 -4
@@ -1,4 +1,4 @@
|
|
1
|
-
_
|
1
|
+
_ 5012
|
2
2
|
e 1600
|
3
3
|
r 1018
|
4
4
|
n 1012
|
@@ -12,389 +12,389 @@ g 500
|
|
12
12
|
k 479
|
13
13
|
d 416
|
14
14
|
m 398
|
15
|
+
r_ 323
|
15
16
|
� 323
|
16
|
-
e_
|
17
|
-
|
18
|
-
|
17
|
+
e_ 321
|
18
|
+
t_ 306
|
19
|
+
n_ 292
|
19
20
|
er 290
|
20
21
|
en 287
|
21
22
|
v 284
|
22
|
-
|
23
|
-
_s 216
|
23
|
+
_s 225
|
24
24
|
et 214
|
25
|
+
g_ 214
|
25
26
|
an 213
|
26
|
-
g_ 205
|
27
27
|
or 203
|
28
28
|
� 194
|
29
29
|
å 194
|
30
30
|
de 191
|
31
31
|
f 188
|
32
32
|
u 188
|
33
|
+
er_ 175
|
33
34
|
h 172
|
35
|
+
en_ 169
|
34
36
|
p 166
|
35
|
-
er_ 164
|
36
37
|
te 162
|
37
38
|
. 161
|
38
|
-
re
|
39
|
-
|
40
|
-
|
39
|
+
re 159
|
40
|
+
_o 158
|
41
|
+
._ 152
|
42
|
+
_e 151
|
43
|
+
_h 148
|
41
44
|
ar 145
|
42
|
-
_e 145
|
43
45
|
st 143
|
44
|
-
|
45
|
-
|
46
|
-
_d 135
|
46
|
+
et_ 142
|
47
|
+
_d 140
|
47
48
|
, 134
|
49
|
+
,_ 134
|
48
50
|
in 130
|
49
|
-
,_ 130
|
50
51
|
sk 129
|
51
|
-
i_
|
52
|
+
i_ 126
|
53
|
+
_i 121
|
52
54
|
ng 117
|
53
|
-
_i 117
|
54
|
-
ne 117
|
55
55
|
ke 117
|
56
|
+
ne 116
|
57
|
+
_f 113
|
56
58
|
le 110
|
57
59
|
ti 110
|
58
|
-
_f 109
|
59
60
|
om 109
|
60
61
|
og 108
|
61
|
-
me 105
|
62
62
|
_m 105
|
63
|
+
me 105
|
63
64
|
j 104
|
65
|
+
og_ 103
|
66
|
+
_og 103
|
64
67
|
b 103
|
65
|
-
|
66
|
-
og_ 100
|
68
|
+
_og_ 101
|
67
69
|
la 99
|
68
|
-
|
69
|
-
|
70
|
-
|
70
|
+
m_ 98
|
71
|
+
_a 97
|
72
|
+
_de 97
|
73
|
+
_t 96
|
71
74
|
ha 94
|
72
|
-
ei
|
73
|
-
|
74
|
-
|
75
|
+
ei 93
|
76
|
+
å_ 93
|
77
|
+
�_ 93
|
75
78
|
ø 92
|
76
79
|
� 92
|
77
|
-
|
78
|
-
�_ 90
|
79
|
-
a_ 88
|
80
|
+
a_ 89
|
80
81
|
se 88
|
81
|
-
_ha
|
82
|
-
|
82
|
+
_ha 87
|
83
|
+
_v 87
|
83
84
|
el 84
|
84
|
-
ri 84
|
85
|
-
eg 84
|
86
|
-
_v 84
|
87
85
|
ge 84
|
86
|
+
eg 84
|
87
|
+
ri 84
|
88
|
+
nd 83
|
88
89
|
tt 83
|
89
|
-
|
90
|
+
_n 81
|
90
91
|
is 80
|
92
|
+
nn 80
|
93
|
+
_i_ 80
|
91
94
|
y 79
|
92
95
|
ta 79
|
96
|
+
_k 78
|
93
97
|
av 78
|
94
|
-
|
95
|
-
_i_ 77
|
98
|
+
om_ 77
|
96
99
|
al 75
|
100
|
+
_. 75
|
97
101
|
il 74
|
98
102
|
rs 74
|
99
|
-
|
100
|
-
|
101
|
-
|
102
|
-
|
103
|
-
l_ 72
|
103
|
+
l_ 73
|
104
|
+
no 72
|
105
|
+
d_ 71
|
106
|
+
_b 71
|
104
107
|
on 71
|
105
|
-
|
106
|
-
|
107
|
-
v_ 70
|
108
|
+
v_ 71
|
109
|
+
_._ 70
|
108
110
|
_me 69
|
109
|
-
|
110
|
-
|
111
|
+
ar_ 69
|
112
|
+
rt 69
|
111
113
|
ve 67
|
112
|
-
|
114
|
+
_, 66
|
115
|
+
_,_ 66
|
113
116
|
va 65
|
114
117
|
ing 63
|
115
|
-
|
116
|
-
_p
|
118
|
+
_g 61
|
119
|
+
_p 61
|
117
120
|
at 59
|
118
121
|
det 59
|
119
|
-
|
120
|
-
|
121
|
-
|
122
|
+
ke_ 59
|
123
|
+
an_ 59
|
124
|
+
k_ 58
|
125
|
+
av_ 58
|
122
126
|
fo 58
|
127
|
+
ll 58
|
128
|
+
_er 57
|
123
129
|
un 57
|
124
|
-
|
125
|
-
|
126
|
-
an_ 56
|
127
|
-
k_ 56
|
130
|
+
_av 57
|
131
|
+
_er_ 56
|
128
132
|
ik 55
|
129
|
-
_av 55
|
130
|
-
_er 54
|
131
|
-
_l 54
|
132
|
-
so 54
|
133
133
|
N 54
|
134
|
+
_l 54
|
135
|
+
so 53
|
136
|
+
_N 53
|
134
137
|
li 53
|
135
|
-
nor 52
|
136
138
|
je 52
|
139
|
+
nor 52
|
137
140
|
am 52
|
138
|
-
|
141
|
+
eg_ 51
|
139
142
|
lan 51
|
140
|
-
|
141
|
-
_er_ 50
|
142
|
-
_ti 50
|
143
|
+
ne_ 51
|
143
144
|
ors 50
|
144
145
|
ed 50
|
146
|
+
r� 50
|
147
|
+
ns 50
|
148
|
+
_ti 50
|
145
149
|
es 49
|
146
150
|
ter 49
|
147
|
-
ne_ 49
|
148
|
-
eg_ 49
|
149
|
-
D 48
|
150
151
|
rsk 48
|
152
|
+
_av_ 48
|
153
|
+
D 48
|
151
154
|
for 48
|
155
|
+
_D 48
|
152
156
|
til 48
|
153
|
-
|
154
|
-
|
157
|
+
te_ 47
|
158
|
+
_r 47
|
155
159
|
and 47
|
156
|
-
|
160
|
+
H 46
|
161
|
+
_H 46
|
157
162
|
ka 46
|
158
|
-
ra 46
|
159
163
|
it 46
|
160
|
-
|
161
|
-
|
162
|
-
_N 45
|
164
|
+
ra 46
|
165
|
+
nde 46
|
163
166
|
ske 45
|
167
|
+
_til 45
|
168
|
+
_no 44
|
169
|
+
det_ 44
|
164
170
|
ga 44
|
171
|
+
_� 44
|
165
172
|
orsk 44
|
166
|
-
|
167
|
-
|
173
|
+
_No 43
|
174
|
+
na 43
|
175
|
+
ko 43
|
176
|
+
_fo 43
|
168
177
|
_so 43
|
169
178
|
som 43
|
170
|
-
|
171
|
-
na 43
|
179
|
+
No 43
|
172
180
|
S 43
|
173
|
-
det_ 42
|
174
|
-
Nor 42
|
175
|
-
_fo 42
|
176
|
-
nge 42
|
177
181
|
ste 42
|
178
|
-
|
179
|
-
|
182
|
+
nge 42
|
183
|
+
_Nor 42
|
184
|
+
Nor 42
|
185
|
+
som_ 42
|
186
|
+
il_ 42
|
180
187
|
_som 41
|
181
|
-
|
182
|
-
|
188
|
+
_S 41
|
189
|
+
_som_ 41
|
183
190
|
rå 40
|
184
|
-
som_ 40
|
185
191
|
tte 40
|
192
|
+
p� 40
|
186
193
|
ett 39
|
187
194
|
nt 39
|
188
|
-
|
189
|
-
|
190
|
-
ma 38
|
191
|
-
_ei 38
|
192
|
-
em 38
|
195
|
+
_u 38
|
196
|
+
på 38
|
193
197
|
da 38
|
194
|
-
ig 38
|
195
198
|
kk 38
|
196
|
-
|
197
|
-
|
198
|
-
|
199
|
-
|
199
|
+
_ei 38
|
200
|
+
ig 38
|
201
|
+
em 38
|
202
|
+
ma 38
|
200
203
|
ør 37
|
204
|
+
_De 37
|
205
|
+
�r 37
|
206
|
+
_p� 37
|
207
|
+
_på 37
|
208
|
+
rd 37
|
201
209
|
_han 37
|
202
|
-
|
210
|
+
ed_ 37
|
203
211
|
han 37
|
204
|
-
�r 37
|
205
|
-
ten 37
|
206
212
|
sa 37
|
207
|
-
|
213
|
+
De 37
|
214
|
+
ten 37
|
208
215
|
vi 36
|
209
|
-
|
216
|
+
gj 36
|
217
|
+
re_ 36
|
218
|
+
_for 36
|
219
|
+
til_ 36
|
210
220
|
nors 36
|
211
|
-
_p� 36
|
212
|
-
_på 36
|
213
221
|
norsk 36
|
214
|
-
|
215
|
-
|
216
|
-
kt 35
|
217
|
-
til_ 35
|
218
|
-
reg 35
|
222
|
+
på_ 36
|
223
|
+
_på_ 36
|
219
224
|
den 35
|
220
|
-
|
221
|
-
|
222
|
-
|
223
|
-
|
225
|
+
reg 35
|
226
|
+
kt 35
|
227
|
+
_til_ 35
|
228
|
+
ske_ 35
|
229
|
+
_nor 34
|
224
230
|
rt_ 34
|
225
231
|
_va 34
|
226
|
-
|
227
|
-
|
232
|
+
_se 34
|
233
|
+
med 34
|
234
|
+
_det 33
|
235
|
+
de_ 33
|
236
|
+
or_ 33
|
228
237
|
ore 33
|
229
|
-
var 33
|
230
238
|
lle 33
|
231
|
-
|
239
|
+
var 33
|
232
240
|
m� 32
|
233
|
-
|
234
|
-
|
235
|
-
_med 31
|
236
|
-
den_ 31
|
237
|
-
re_ 31
|
238
|
-
_S 31
|
239
|
-
pe 31
|
240
|
-
or_ 31
|
241
|
-
_st 31
|
242
|
-
tr 31
|
241
|
+
s_ 32
|
242
|
+
_st 32
|
243
243
|
sp 31
|
244
|
+
den_ 31
|
244
245
|
land 31
|
246
|
+
_med 31
|
247
|
+
sk_ 31
|
245
248
|
to 31
|
249
|
+
pe 31
|
246
250
|
kr 31
|
247
251
|
ag 31
|
248
|
-
|
252
|
+
tr 31
|
249
253
|
ol 30
|
250
254
|
ell 30
|
255
|
+
med_ 30
|
256
|
+
må 29
|
251
257
|
fr 29
|
252
|
-
|
258
|
+
_har_ 29
|
253
259
|
ak 29
|
254
|
-
ni 29
|
255
|
-
med_ 29
|
256
260
|
pr 29
|
257
|
-
|
258
|
-
|
261
|
+
ni 29
|
262
|
+
har_ 29
|
263
|
+
_har 29
|
259
264
|
le_ 29
|
260
|
-
|
261
|
-
|
262
|
-
har_ 28
|
263
|
-
der 28
|
265
|
+
har 29
|
266
|
+
_han_ 28
|
264
267
|
rk 28
|
265
|
-
|
268
|
+
mi 28
|
269
|
+
han_ 28
|
270
|
+
_ko 28
|
271
|
+
_med_ 28
|
266
272
|
ss 28
|
267
|
-
_la 28
|
268
273
|
ek 28
|
269
|
-
|
270
|
-
|
271
|
-
|
272
|
-
|
273
|
-
|
274
|
-
�r 27
|
275
|
-
_re 27
|
274
|
+
_den 28
|
275
|
+
si 28
|
276
|
+
der 28
|
277
|
+
_la 28
|
278
|
+
ng_ 27
|
276
279
|
æ 27
|
280
|
+
_den_ 27
|
277
281
|
ie 27
|
282
|
+
_ve 27
|
283
|
+
� 27
|
278
284
|
�l 27
|
279
|
-
ei_ 27
|
280
|
-
_med_ 27
|
281
285
|
år 27
|
282
|
-
|
283
|
-
|
286
|
+
_re 27
|
287
|
+
_fr 27
|
288
|
+
�r 27
|
284
289
|
as 27
|
285
|
-
|
286
|
-
|
287
|
-
|
290
|
+
ks 27
|
291
|
+
ål 27
|
292
|
+
ei_ 27
|
293
|
+
ut 26
|
288
294
|
ande 26
|
289
295
|
men 26
|
290
|
-
|
291
|
-
tin 26
|
292
|
-
_D 26
|
296
|
+
ans 26
|
293
297
|
_var 26
|
294
|
-
|
295
|
-
ut 26
|
298
|
+
tin 26
|
296
299
|
nne 26
|
297
|
-
|
298
|
-
|
299
|
-
|
300
|
-
|
301
|
-
han_ 25
|
300
|
+
enn 26
|
301
|
+
eri 25
|
302
|
+
_det_ 25
|
303
|
+
ter_ 25
|
302
304
|
mål 25
|
303
305
|
ru 25
|
304
|
-
|
306
|
+
Noreg 25
|
307
|
+
gje 25
|
305
308
|
ver 25
|
306
|
-
|
307
|
-
eri 25
|
309
|
+
oreg 25
|
308
310
|
ette 25
|
309
|
-
|
310
|
-
|
311
|
+
_Nore 25
|
312
|
+
_å 25
|
313
|
+
ord 25
|
314
|
+
Nore 25
|
315
|
+
tt_ 24
|
316
|
+
ere 24
|
317
|
+
sj 24
|
318
|
+
ten_ 24
|
311
319
|
A 24
|
312
320
|
gen 24
|
313
|
-
|
314
|
-
sj 24
|
315
|
-
he 23
|
316
|
-
ene 23
|
317
|
-
tt_ 23
|
318
|
-
lo 23
|
319
|
-
ter_ 23
|
320
|
-
bl 23
|
321
|
-
Ha 23
|
322
|
-
_å 23
|
323
|
-
ting 23
|
324
|
-
ten_ 23
|
321
|
+
E 24
|
325
322
|
kke 23
|
323
|
+
ting 23
|
324
|
+
_Ha 23
|
325
|
+
ts 23
|
326
326
|
nga 23
|
327
|
-
|
328
|
-
|
329
|
-
|
327
|
+
lo 23
|
328
|
+
_E 23
|
329
|
+
_A 23
|
330
|
+
Ha 23
|
331
|
+
he 23
|
332
|
+
bl 23
|
333
|
+
isk 22
|
330
334
|
ds 22
|
331
|
-
|
335
|
+
_om 22
|
332
336
|
s� 22
|
333
|
-
|
334
|
-
_Nore 22
|
337
|
+
sta 22
|
335
338
|
kon 22
|
336
|
-
|
337
|
-
|
338
|
-
|
339
|
-
rm 21
|
340
|
-
us 21
|
339
|
+
for_ 22
|
340
|
+
ene 22
|
341
|
+
ong 22
|
341
342
|
kri 21
|
342
343
|
�y 21
|
343
|
-
|
344
|
+
�r 21
|
344
345
|
ær 21
|
346
|
+
øy 21
|
345
347
|
ir 21
|
348
|
+
us 21
|
349
|
+
ok 21
|
350
|
+
rm 21
|
346
351
|
ane 21
|
347
|
-
|
352
|
+
orsk_ 20
|
353
|
+
_en 20
|
354
|
+
rsk_ 20
|
355
|
+
_nors 20
|
356
|
+
gr 20
|
357
|
+
ad 20
|
348
358
|
ld 20
|
349
|
-
_A 20
|
350
359
|
ist 20
|
351
|
-
|
352
|
-
sl 20
|
360
|
+
_lan 20
|
353
361
|
_bl 20
|
354
|
-
ad 20
|
355
|
-
ert 20
|
356
362
|
ndet 20
|
357
|
-
|
358
|
-
|
359
|
-
andet 19
|
360
|
-
f� 19
|
361
|
-
ein 19
|
362
|
-
_ka 19
|
363
|
-
jo 19
|
364
|
-
inga 19
|
363
|
+
sl 20
|
364
|
+
art 20
|
365
365
|
ale 19
|
366
|
-
|
367
|
-
|
368
|
-
|
369
|
-
|
366
|
+
lt 19
|
367
|
+
hu 19
|
368
|
+
_s� 19
|
369
|
+
ert 19
|
370
|
+
inga 19
|
371
|
+
_seg 19
|
370
372
|
fa 19
|
373
|
+
jo 19
|
374
|
+
oreg_ 19
|
375
|
+
f� 19
|
371
376
|
rske 19
|
372
|
-
|
373
|
-
|
374
|
-
id 19
|
377
|
+
ort 19
|
378
|
+
orske 19
|
375
379
|
ret 19
|
376
|
-
_H 19
|
377
380
|
sam 19
|
378
|
-
|
379
|
-
|
380
|
-
|
381
|
+
andet 19
|
382
|
+
id 19
|
383
|
+
seg 19
|
381
384
|
_ut 19
|
382
|
-
|
383
|
-
|
384
|
-
|
385
|
-
|
386
|
-
|
387
|
-
|
388
|
-
|
389
|
-
|
390
|
-
ro 18
|
391
|
-
gs 18
|
392
|
-
_en 18
|
393
|
-
tter 18
|
385
|
+
_ka 19
|
386
|
+
un_ 19
|
387
|
+
_sk 19
|
388
|
+
reg_ 19
|
389
|
+
_sa 19
|
390
|
+
_in 18
|
391
|
+
_seg_ 18
|
392
|
+
sm 18
|
394
393
|
mn 18
|
395
|
-
|
396
|
-
|
394
|
+
ro 18
|
395
|
+
_om_ 18
|
397
396
|
elle 18
|
398
|
-
|
399
|
-
|
400
|
-
|
397
|
+
ang 18
|
398
|
+
_vi 18
|
399
|
+
ge_ 18
|
400
|
+
seg_ 18
|