scylla 0.7.5 → 0.8.0
Sign up to get free protection for your applications and to get access to all the features.
- data/lib/scylla/classifier.rb +1 -1
- data/scylla.gemspec +1 -1
- data/test/fixtures/lms/danish.lm +168 -168
- data/test/fixtures/lms/english.lm +217 -217
- data/test/fixtures/lms/french.lm +216 -216
- data/test/fixtures/lms/german.lm +274 -274
- data/test/fixtures/lms/hindi.lm +241 -241
- data/test/fixtures/lms/italian.lm +280 -280
- data/test/fixtures/lms/japanese.lm +110 -110
- data/test/fixtures/lms/norwegian.lm +239 -239
- data/test/fixtures/lms/spanish.lm +188 -188
- data/test/generator_test.rb +1 -1
- metadata +4 -4
data/test/fixtures/lms/french.lm
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
_
|
1
|
+
_ 32532
|
2
2
|
e 11820
|
3
3
|
s 6385
|
4
4
|
a 6245
|
@@ -7,394 +7,394 @@ n 6115
|
|
7
7
|
t 5635
|
8
8
|
r 5480
|
9
9
|
l 4711
|
10
|
-
e_
|
10
|
+
e_ 4461
|
11
11
|
u 4260
|
12
12
|
o 4196
|
13
13
|
� 3243
|
14
14
|
d 3178
|
15
|
-
s_
|
15
|
+
s_ 3066
|
16
16
|
c 2591
|
17
17
|
p 2396
|
18
|
-
_d
|
18
|
+
_d 2392
|
19
19
|
m 2162
|
20
20
|
es 2138
|
21
|
-
� 2115
|
22
21
|
é 2115
|
23
|
-
|
24
|
-
|
25
|
-
|
26
|
-
|
27
|
-
es_
|
28
|
-
|
29
|
-
|
30
|
-
|
31
|
-
|
22
|
+
� 2115
|
23
|
+
_l 1892
|
24
|
+
t_ 1830
|
25
|
+
de 1585
|
26
|
+
es_ 1556
|
27
|
+
le 1533
|
28
|
+
en 1497
|
29
|
+
on 1429
|
30
|
+
_de 1354
|
31
|
+
_e 1349
|
32
|
+
_p 1259
|
32
33
|
nt 1258
|
33
34
|
an 1256
|
34
|
-
_p 1247
|
35
35
|
, 1245
|
36
|
-
,_
|
36
|
+
,_ 1217
|
37
37
|
re 1163
|
38
|
-
n_
|
38
|
+
n_ 1116
|
39
39
|
ti 1028
|
40
|
-
|
41
|
-
|
42
|
-
la 906
|
40
|
+
de_ 982
|
41
|
+
is 981
|
43
42
|
ra 900
|
44
|
-
|
45
|
-
|
43
|
+
la 900
|
44
|
+
_de_ 892
|
45
|
+
a_ 871
|
46
46
|
g 846
|
47
|
-
_s
|
47
|
+
_s 841
|
48
48
|
v 796
|
49
|
+
_c 794
|
49
50
|
f 777
|
50
|
-
|
51
|
-
_a 746
|
51
|
+
_a 776
|
52
52
|
ai 735
|
53
|
-
te
|
53
|
+
te 723
|
54
54
|
ent 708
|
55
55
|
� 698
|
56
56
|
_le 691
|
57
57
|
� 688
|
58
58
|
� 687
|
59
|
+
le_ 684
|
59
60
|
q 683
|
60
|
-
|
61
|
-
|
61
|
+
nt_ 682
|
62
|
+
_la 678
|
62
63
|
ar 672
|
63
|
-
|
64
|
+
qu 672
|
64
65
|
in 664
|
65
|
-
|
66
|
-
|
67
|
-
|
68
|
-
|
69
|
-
me 658
|
70
|
-
� 652
|
71
|
-
�� 652
|
66
|
+
et 662
|
67
|
+
me 657
|
68
|
+
se 656
|
69
|
+
it 656
|
72
70
|
’ 652
|
71
|
+
�� 652
|
72
|
+
� 652
|
73
73
|
ur 643
|
74
|
-
|
75
|
-
|
76
|
-
|
74
|
+
la_ 642
|
75
|
+
_la_ 641
|
76
|
+
ce 639
|
77
77
|
ne 632
|
78
78
|
b 630
|
79
|
-
er
|
80
|
-
ue
|
81
|
-
__ 614
|
82
|
-
ns 601
|
79
|
+
er 618
|
80
|
+
ue 613
|
83
81
|
io 600
|
84
82
|
. 599
|
85
|
-
|
83
|
+
ns 598
|
84
|
+
._ 592
|
85
|
+
u_ 591
|
86
86
|
ion 572
|
87
|
-
|
88
|
-
|
87
|
+
_� 571
|
88
|
+
et_ 567
|
89
|
+
_m 560
|
90
|
+
r_ 550
|
89
91
|
st 545
|
90
|
-
r_ 541
|
91
92
|
ie 538
|
92
|
-
|
93
|
+
_et 536
|
93
94
|
ri 535
|
94
95
|
pa 531
|
95
|
-
|
96
|
+
_et_ 530
|
96
97
|
ran 527
|
97
|
-
at 526
|
98
98
|
au 525
|
99
|
+
at 524
|
99
100
|
co 521
|
100
|
-
nc
|
101
|
-
_et_ 520
|
101
|
+
nc 519
|
102
102
|
les 515
|
103
|
-
li 512
|
104
103
|
ou 510
|
105
|
-
|
104
|
+
li 508
|
105
|
+
tr 497
|
106
106
|
al 479
|
107
|
-
|
107
|
+
les_ 468
|
108
|
+
ta 467
|
108
109
|
ro 467
|
110
|
+
re_ 460
|
109
111
|
h 459
|
110
|
-
|
111
|
-
|
112
|
+
que 452
|
113
|
+
on_ 433
|
112
114
|
tio 431
|
113
|
-
|
115
|
+
_f 430
|
114
116
|
tion 429
|
117
|
+
eu 429
|
115
118
|
r� 428
|
116
|
-
|
117
|
-
|
118
|
-
|
119
|
-
on_ 419
|
120
|
-
_r 413
|
119
|
+
_en 419
|
120
|
+
_r 419
|
121
|
+
em 413
|
121
122
|
x 410
|
122
|
-
|
123
|
-
|
124
|
-
or 402
|
123
|
+
_pa 408
|
124
|
+
or 400
|
125
125
|
rt 400
|
126
126
|
po 397
|
127
|
-
des 388
|
128
127
|
ll 386
|
129
128
|
si 382
|
130
|
-
|
129
|
+
des 379
|
130
|
+
oi 378
|
131
131
|
pr 375
|
132
132
|
anc 374
|
133
|
+
ent_ 374
|
134
|
+
en_ 373
|
133
135
|
un 373
|
134
|
-
|
135
|
-
|
136
|
-
|
137
|
-
e, 362
|
138
|
-
_t 362
|
139
|
-
des_ 362
|
140
|
-
e,_ 362
|
141
|
-
._ 362
|
142
|
-
� 359
|
136
|
+
_t 369
|
137
|
+
nce 366
|
138
|
+
des_ 364
|
143
139
|
è 359
|
144
|
-
|
145
|
-
|
140
|
+
� 359
|
141
|
+
ne_ 359
|
142
|
+
ce_ 355
|
146
143
|
par 352
|
147
|
-
|
148
|
-
|
149
|
-
|
150
|
-
|
151
|
-
|
152
|
-
|
153
|
-
ns_
|
154
|
-
|
155
|
-
|
156
|
-
_l� 328
|
157
|
-
_l� 328
|
144
|
+
ir 352
|
145
|
+
_co 352
|
146
|
+
e,_ 351
|
147
|
+
e, 351
|
148
|
+
_des 349
|
149
|
+
_le_ 349
|
150
|
+
ns_ 346
|
151
|
+
_des_ 339
|
152
|
+
du 339
|
158
153
|
l� 328
|
159
|
-
|
154
|
+
_l� 328
|
160
155
|
_l’ 328
|
161
|
-
|
156
|
+
l� 328
|
157
|
+
l’ 328
|
158
|
+
_l� 328
|
159
|
+
el 327
|
162
160
|
us 325
|
161
|
+
ui 325
|
163
162
|
F 324
|
164
|
-
nd 323
|
165
163
|
ré 322
|
166
164
|
ati 321
|
167
|
-
|
165
|
+
nd 320
|
166
|
+
_F 317
|
167
|
+
is_ 314
|
168
|
+
_en_ 313
|
169
|
+
ion_ 312
|
168
170
|
t� 311
|
169
|
-
|
170
|
-
|
171
|
+
ance 311
|
172
|
+
_, 310
|
173
|
+
_les 307
|
171
174
|
ve 307
|
172
|
-
|
173
|
-
om
|
174
|
-
_en_ 305
|
175
|
+
n� 307
|
176
|
+
om 305
|
175
177
|
L 305
|
178
|
+
�_ 304
|
176
179
|
so 304
|
177
|
-
|
178
|
-
|
179
|
-
|
180
|
-
|
181
|
-
|
180
|
+
_les_ 304
|
181
|
+
é_ 304
|
182
|
+
ue_ 304
|
183
|
+
_L 303
|
184
|
+
_par 298
|
182
185
|
iq 296
|
183
|
-
_les_ 296
|
184
186
|
iqu 296
|
187
|
+
i_ 295
|
185
188
|
�e 294
|
186
|
-
_par 294
|
187
189
|
ée 294
|
188
190
|
ma 293
|
189
|
-
|
190
|
-
|
191
|
+
_. 291
|
192
|
+
men 291
|
193
|
+
_._ 289
|
191
194
|
� 288
|
195
|
+
à 288
|
196
|
+
à_ 287
|
197
|
+
�_ 287
|
192
198
|
Fr 287
|
199
|
+
_Fr 287
|
193
200
|
ique 286
|
201
|
+
_,_ 286
|
194
202
|
il 284
|
195
|
-
|
203
|
+
_Fra 283
|
196
204
|
Fra 283
|
197
205
|
est 283
|
206
|
+
_u 282
|
207
|
+
_Fran 280
|
198
208
|
Fran 280
|
199
|
-
|
200
|
-
|
201
|
-
à_ 280
|
202
|
-
_Fra 279
|
209
|
+
_à_ 279
|
210
|
+
_à 279
|
203
211
|
mi 279
|
204
212
|
pl 278
|
205
|
-
_Fran 276
|
206
213
|
té 276
|
207
|
-
_. 276
|
208
|
-
_u 274
|
209
|
-
_, 274
|
210
|
-
_à 273
|
211
|
-
_à_ 272
|
212
214
|
ranc 272
|
213
|
-
di 271
|
214
|
-
na 270
|
215
215
|
ment 270
|
216
|
+
di 270
|
217
|
+
na 269
|
216
218
|
ut 269
|
217
219
|
ss 268
|
218
|
-
_du 268
|
219
220
|
ci 267
|
221
|
+
_au 266
|
222
|
+
_n 265
|
223
|
+
_du 265
|
224
|
+
_un 263
|
225
|
+
nce_ 263
|
220
226
|
�s 263
|
221
227
|
és 263
|
228
|
+
_pr 262
|
222
229
|
ais 262
|
223
230
|
du_ 259
|
224
|
-
_au 259
|
225
231
|
atio 258
|
232
|
+
que_ 258
|
226
233
|
ation 258
|
227
|
-
_n 258
|
228
|
-
_pr 258
|
229
|
-
_un 257
|
230
|
-
lu 257
|
231
234
|
_du_ 256
|
235
|
+
tion_ 256
|
232
236
|
y 255
|
233
|
-
|
234
|
-
que_ 253
|
235
|
-
ol 252
|
237
|
+
lu 255
|
236
238
|
Franc 252
|
239
|
+
ol 252
|
237
240
|
rance 251
|
238
241
|
rs 251
|
239
|
-
tion_ 250
|
240
242
|
lle 250
|
243
|
+
te_ 250
|
241
244
|
pe 248
|
242
|
-
_,_ 247
|
243
|
-
s, 246
|
244
245
|
con 244
|
245
|
-
|
246
|
-
s,
|
247
|
-
te_ 242
|
248
|
-
d� 242
|
246
|
+
_so 243
|
247
|
+
s, 241
|
249
248
|
ire 240
|
250
249
|
ont 240
|
251
|
-
|
250
|
+
d� 239
|
251
|
+
s,_ 239
|
252
252
|
no 239
|
253
253
|
res 239
|
254
254
|
ons 238
|
255
|
+
ic 238
|
255
256
|
mo 236
|
256
|
-
|
257
|
+
ance_ 234
|
258
|
+
dé 232
|
257
259
|
i� 231
|
258
260
|
eur 230
|
259
|
-
|
260
|
-
|
261
|
-
|
262
|
-
_q 226
|
261
|
+
_q 229
|
262
|
+
_qu 229
|
263
|
+
nn 226
|
263
264
|
ant 226
|
264
265
|
ct 223
|
265
|
-
|
266
|
-
|
267
|
-
|
268
|
-
|
269
|
-
|
266
|
+
st_ 222
|
267
|
+
me_ 220
|
268
|
+
est_ 220
|
269
|
+
l_ 216
|
270
|
+
ni 216
|
271
|
+
_é 216
|
272
|
+
_po 215
|
270
273
|
ux 215
|
274
|
+
_es 213
|
275
|
+
lo 213
|
271
276
|
ch 213
|
272
|
-
_po 213
|
273
277
|
vi 212
|
274
|
-
|
275
|
-
|
276
|
-
sa 207
|
277
|
-
_L 207
|
278
|
-
emen 205
|
278
|
+
se_ 209
|
279
|
+
eme 208
|
279
280
|
ement 205
|
281
|
+
emen 205
|
282
|
+
_o 204
|
280
283
|
_d� 203
|
281
|
-
|
282
|
-
ec 203
|
284
|
+
_est 202
|
283
285
|
pu 202
|
284
286
|
ét 202
|
285
287
|
�t 202
|
286
|
-
_es 202
|
287
288
|
d� 201
|
289
|
+
sa 201
|
288
290
|
d’ 201
|
289
291
|
d� 201
|
292
|
+
ec 200
|
293
|
+
_dé 198
|
294
|
+
ur_ 198
|
295
|
+
_est_ 196
|
296
|
+
x_ 196
|
290
297
|
ale 196
|
291
|
-
|
292
|
-
|
293
|
-
|
294
|
-
|
295
|
-
|
296
|
-
|
297
|
-
_d� 193
|
298
|
-
_d� 193
|
299
|
-
_est 192
|
300
|
-
A 191
|
301
|
-
tre 191
|
298
|
+
_d’ 195
|
299
|
+
_d� 195
|
300
|
+
to 195
|
301
|
+
_d� 195
|
302
|
+
_i 194
|
303
|
+
au_ 193
|
302
304
|
op 191
|
303
|
-
|
305
|
+
A 191
|
306
|
+
da 190
|
307
|
+
tre 190
|
304
308
|
_pl 190
|
305
309
|
ul 189
|
306
|
-
|
307
|
-
|
308
|
-
ment_ 186
|
309
|
-
_re 185
|
310
|
-
bl 185
|
310
|
+
_re 188
|
311
|
+
ment_ 187
|
311
312
|
fr 185
|
312
|
-
|
313
|
+
bl 184
|
313
314
|
mp 184
|
314
|
-
|
315
|
-
ts 182
|
316
|
-
tu 180
|
315
|
+
ér 180
|
317
316
|
ac 180
|
317
|
+
tu 180
|
318
318
|
�r 180
|
319
|
-
|
319
|
+
ts 179
|
320
320
|
rti 179
|
321
|
-
_se
|
322
|
-
|
321
|
+
_se 178
|
322
|
+
ux_ 174
|
323
|
+
ise 174
|
323
324
|
art 173
|
325
|
+
_con 172
|
324
326
|
iè 172
|
325
327
|
ans 171
|
326
|
-
|
328
|
+
_mo 171
|
329
|
+
_g 171
|
327
330
|
ç 170
|
328
331
|
� 170
|
329
|
-
|
330
|
-
|
331
|
-
ux_ 169
|
332
|
+
ia 170
|
333
|
+
_v 170
|
332
334
|
ar_ 168
|
333
335
|
an� 167
|
334
|
-
lus 167
|
335
336
|
gr 167
|
336
|
-
|
337
|
+
ont_ 167
|
337
338
|
ran� 166
|
339
|
+
lus 166
|
340
|
+
rs_ 166
|
338
341
|
P 166
|
339
342
|
nç 165
|
340
343
|
im 164
|
341
344
|
_fr 163
|
342
|
-
ont_ 163
|
343
345
|
une 163
|
344
|
-
|
346
|
+
us_ 162
|
345
347
|
son 162
|
346
|
-
|
348
|
+
un_ 162
|
347
349
|
anç 161
|
348
|
-
un_ 161
|
349
350
|
ranç 160
|
350
|
-
su 160
|
351
|
-
us_ 160
|
352
|
-
_v 160
|
353
351
|
C 160
|
352
|
+
su 159
|
353
|
+
ique_ 159
|
354
354
|
ill 159
|
355
|
-
|
355
|
+
_par_ 158
|
356
|
+
_au_ 158
|
356
357
|
cl 158
|
357
358
|
par_ 158
|
358
359
|
_plu 158
|
359
|
-
|
360
|
+
plu 158
|
361
|
+
_P 158
|
360
362
|
as 157
|
361
|
-
�a 156
|
362
|
-
nça 156
|
363
363
|
ça 156
|
364
|
-
|
365
|
-
|
366
|
-
mm 153
|
364
|
+
nça 156
|
365
|
+
�a 156
|
367
366
|
ança 153
|
367
|
+
mm 153
|
368
|
+
çais 152
|
369
|
+
nçai 152
|
370
|
+
�ais 152
|
368
371
|
plus 152
|
369
372
|
çai 152
|
370
373
|
�ai 152
|
371
|
-
çais 152
|
372
|
-
�ais 152
|
373
|
-
nçai 152
|
374
|
-
rr 152
|
375
374
|
_plus 152
|
375
|
+
ie_ 151
|
376
|
+
rr 151
|
376
377
|
fra 151
|
377
|
-
_au_ 151
|
378
378
|
ge 150
|
379
379
|
m� 149
|
380
|
-
une_
|
380
|
+
une_ 149
|
381
|
+
l� 149
|
382
|
+
té_ 148
|
383
|
+
ans_ 147
|
381
384
|
ag 147
|
382
|
-
fi 146
|
383
385
|
ell 146
|
384
386
|
ions 146
|
387
|
+
fi 146
|
385
388
|
iv 145
|
386
|
-
|
387
|
-
dan 145
|
389
|
+
_C 144
|
388
390
|
ien 144
|
389
|
-
|
390
|
-
|
391
|
+
ts_ 144
|
392
|
+
dan 144
|
391
393
|
ain 143
|
392
394
|
_fra 143
|
395
|
+
it_ 143
|
393
396
|
our 143
|
394
|
-
|
397
|
+
res_ 142
|
395
398
|
elle 142
|
396
399
|
fran 142
|
397
400
|
_fran 142
|
398
|
-
éc 141
|
399
|
-
�c 141
|
400
|
-
res_ 140
|