scylla 0.7.5 → 0.8.0
Sign up to get free protection for your applications and to get access to all the features.
- data/lib/scylla/classifier.rb +1 -1
- data/scylla.gemspec +1 -1
- data/test/fixtures/lms/danish.lm +168 -168
- data/test/fixtures/lms/english.lm +217 -217
- data/test/fixtures/lms/french.lm +216 -216
- data/test/fixtures/lms/german.lm +274 -274
- data/test/fixtures/lms/hindi.lm +241 -241
- data/test/fixtures/lms/italian.lm +280 -280
- data/test/fixtures/lms/japanese.lm +110 -110
- data/test/fixtures/lms/norwegian.lm +239 -239
- data/test/fixtures/lms/spanish.lm +188 -188
- data/test/generator_test.rb +1 -1
- metadata +4 -4
@@ -1,4 +1,4 @@
|
|
1
|
-
_
|
1
|
+
_ 35393
|
2
2
|
a 10584
|
3
3
|
e 10526
|
4
4
|
o 7129
|
@@ -10,391 +10,391 @@ l 5112
|
|
10
10
|
d 4622
|
11
11
|
t 3867
|
12
12
|
c 3674
|
13
|
-
a_
|
14
|
-
e_
|
13
|
+
a_ 3187
|
14
|
+
e_ 2979
|
15
15
|
u 2914
|
16
|
+
s_ 2600
|
16
17
|
� 2572
|
17
|
-
s_ 2534
|
18
18
|
de 2468
|
19
|
-
_d
|
19
|
+
_d 2355
|
20
20
|
p 2303
|
21
21
|
m 2195
|
22
|
-
_de
|
23
|
-
o_
|
24
|
-
|
25
|
-
|
22
|
+
_de 2113
|
23
|
+
o_ 1939
|
24
|
+
n_ 1801
|
25
|
+
_e 1792
|
26
26
|
en 1746
|
27
|
-
de_
|
28
|
-
_de_
|
27
|
+
de_ 1690
|
28
|
+
_de_ 1615
|
29
29
|
la 1459
|
30
30
|
es 1454
|
31
|
-
_l
|
31
|
+
_l 1389
|
32
|
+
l_ 1290
|
32
33
|
, 1276
|
33
|
-
|
34
|
-
|
35
|
-
|
36
|
-
er 1194
|
34
|
+
,_ 1274
|
35
|
+
os 1221
|
36
|
+
er 1193
|
37
37
|
on 1122
|
38
38
|
as 1103
|
39
39
|
ci 1095
|
40
|
-
_p
|
41
|
-
_c
|
42
|
-
el
|
40
|
+
_p 1085
|
41
|
+
_c 1065
|
42
|
+
el 1048
|
43
43
|
an 1032
|
44
44
|
ra 1018
|
45
|
-
al
|
45
|
+
al 994
|
46
|
+
os_ 957
|
46
47
|
g 941
|
47
|
-
|
48
|
-
_la 935
|
48
|
+
_la 940
|
49
49
|
nt 926
|
50
50
|
te 922
|
51
|
+
_a 906
|
51
52
|
co 901
|
52
|
-
_a 898
|
53
53
|
b 896
|
54
54
|
re 888
|
55
55
|
ta 858
|
56
|
-
|
56
|
+
la_ 834
|
57
57
|
ri 825
|
58
|
+
ad 822
|
58
59
|
ar 816
|
59
|
-
|
60
|
-
|
61
|
-
|
62
|
-
el_ 796
|
60
|
+
or 811
|
61
|
+
_s 805
|
62
|
+
el_ 802
|
63
63
|
. 766
|
64
64
|
pa 757
|
65
65
|
� 756
|
66
66
|
ó 755
|
67
67
|
do 751
|
68
|
+
as_ 744
|
68
69
|
st 737
|
69
|
-
|
70
|
+
._ 727
|
70
71
|
ro 725
|
72
|
+
_la_ 724
|
71
73
|
y 717
|
72
|
-
|
73
|
-
na 691
|
74
|
+
na 689
|
74
75
|
ue 688
|
75
76
|
v 663
|
77
|
+
es_ 660
|
76
78
|
in 658
|
77
79
|
_en 651
|
78
80
|
ca 643
|
79
|
-
es_ 636
|
80
81
|
ic 635
|
81
|
-
en_
|
82
|
+
en_ 634
|
82
83
|
da 621
|
83
84
|
ia 620
|
84
85
|
E 615
|
85
86
|
to 609
|
87
|
+
_m 608
|
86
88
|
lo 605
|
87
|
-
|
89
|
+
_co 598
|
88
90
|
f 596
|
89
|
-
|
90
|
-
y_
|
91
|
-
_el
|
91
|
+
_E 581
|
92
|
+
y_ 566
|
93
|
+
_el 558
|
92
94
|
í 557
|
93
95
|
� 557
|
96
|
+
_en_ 537
|
94
97
|
ti 535
|
95
|
-
_en_ 535
|
96
98
|
no 532
|
97
|
-
_y
|
98
|
-
|
99
|
+
_y 531
|
100
|
+
r_ 520
|
101
|
+
_el_ 513
|
99
102
|
un 513
|
100
|
-
|
101
|
-
|
102
|
-
|
103
|
+
ent 513
|
104
|
+
le 506
|
105
|
+
_y_ 500
|
103
106
|
io 495
|
104
|
-
_y_ 495
|
105
|
-
ón 488
|
106
107
|
�n 488
|
108
|
+
ón 488
|
107
109
|
i� 487
|
108
110
|
po 475
|
109
111
|
a� 472
|
110
112
|
se 468
|
111
|
-
_E 463
|
112
113
|
sp 460
|
113
114
|
q 456
|
114
115
|
qu 455
|
115
116
|
ñ 453
|
116
117
|
� 453
|
118
|
+
_t 452
|
117
119
|
C 451
|
118
120
|
tr 450
|
119
|
-
_t 449
|
120
121
|
ma 440
|
121
|
-
._ 438
|
122
122
|
id 432
|
123
123
|
ac 431
|
124
|
-
is 430
|
125
124
|
ió 428
|
125
|
+
_C 427
|
126
|
+
is 427
|
126
127
|
ni 426
|
127
128
|
om 425
|
128
|
-
|
129
|
+
do_ 415
|
129
130
|
ne 414
|
131
|
+
nte 414
|
130
132
|
con 410
|
131
|
-
|
132
|
-
nc
|
133
|
-
|
134
|
-
|
135
|
-
li 403
|
133
|
+
_r 407
|
134
|
+
nc 405
|
135
|
+
nd 403
|
136
|
+
li 402
|
136
137
|
ie 401
|
137
138
|
si 399
|
139
|
+
ón_ 396
|
140
|
+
�n_ 396
|
138
141
|
me 396
|
139
142
|
añ 395
|
140
|
-
� 391
|
141
143
|
á 391
|
144
|
+
� 391
|
142
145
|
h 383
|
143
146
|
pr 382
|
144
|
-
�n_ 379
|
145
|
-
ón_ 379
|
146
|
-
_C 376
|
147
147
|
spa 375
|
148
148
|
que 374
|
149
149
|
ión 373
|
150
|
-
ue_
|
150
|
+
ue_ 372
|
151
151
|
pa� 363
|
152
|
-
|
153
|
-
|
154
|
-
|
152
|
+
ión_ 350
|
153
|
+
al_ 349
|
154
|
+
_con 343
|
155
|
+
te_ 342
|
155
156
|
mi 340
|
156
|
-
_re
|
157
|
+
_re 340
|
158
|
+
ec 339
|
157
159
|
di 336
|
158
160
|
rt 336
|
159
161
|
pe 333
|
160
|
-
|
161
|
-
al_ 332
|
162
|
-
_pr 330
|
162
|
+
_pr 331
|
163
163
|
A 327
|
164
|
-
que_
|
165
|
-
_qu
|
166
|
-
_q
|
164
|
+
que_ 326
|
165
|
+
_qu 324
|
166
|
+
_q 324
|
167
167
|
it 317
|
168
|
+
_es 317
|
168
169
|
pañ 315
|
169
|
-
_es 313
|
170
170
|
Es 313
|
171
|
-
|
171
|
+
_que 313
|
172
|
+
_se 312
|
173
|
+
_Es 311
|
174
|
+
_lo 311
|
172
175
|
mo 310
|
173
|
-
|
174
|
-
spañ 309
|
175
|
-
_que 309
|
176
|
+
_po 310
|
176
177
|
spa� 309
|
177
|
-
|
178
|
-
|
178
|
+
spañ 309
|
179
|
+
_A 306
|
179
180
|
los 305
|
180
|
-
a,_ 303
|
181
|
-
ol 302
|
182
181
|
ci� 300
|
183
182
|
aci 300
|
183
|
+
ol 300
|
184
184
|
ció 299
|
185
|
-
|
186
|
-
|
187
|
-
|
185
|
+
los_ 299
|
186
|
+
_i 298
|
187
|
+
_que_ 296
|
188
188
|
I 295
|
189
|
+
a, 294
|
189
190
|
ado 294
|
190
|
-
|
191
|
+
a,_ 293
|
191
192
|
ur 293
|
192
|
-
_Es 286
|
193
193
|
ción 285
|
194
194
|
su 282
|
195
|
-
_f
|
196
|
-
ña 278
|
195
|
+
_f 282
|
197
196
|
�a 278
|
198
|
-
|
197
|
+
ña 278
|
198
|
+
_u 276
|
199
199
|
z 275
|
200
|
-
on_
|
200
|
+
on_ 274
|
201
201
|
ica 271
|
202
202
|
del 270
|
203
|
-
|
203
|
+
_del 268
|
204
204
|
ce 267
|
205
|
-
|
205
|
+
cia 267
|
206
|
+
or_ 263
|
207
|
+
ra_ 263
|
208
|
+
_h 262
|
209
|
+
_del_ 262
|
210
|
+
del_ 262
|
206
211
|
� 261
|
207
|
-
del_ 261
|
208
212
|
é 261
|
209
|
-
or_ 260
|
210
|
-
_h 260
|
211
213
|
_o 260
|
212
214
|
nci 260
|
213
|
-
_del_ 259
|
214
|
-
s, 259
|
215
215
|
tu 258
|
216
|
-
|
217
|
-
_los
|
218
|
-
_un
|
219
|
-
am
|
220
|
-
_los_ 254
|
216
|
+
_los_ 258
|
217
|
+
_los 258
|
218
|
+
_un 257
|
219
|
+
am 254
|
221
220
|
sta 253
|
222
|
-
ra_ 251
|
223
221
|
Espa� 250
|
224
222
|
Esp 250
|
225
223
|
Espa 250
|
226
|
-
|
224
|
+
_Esp 249
|
225
|
+
s,_ 249
|
226
|
+
s, 249
|
227
|
+
_Espa 249
|
227
228
|
ab 245
|
228
229
|
est 245
|
230
|
+
ll 245
|
229
231
|
las 244
|
230
232
|
por 244
|
231
|
-
ía 243
|
232
233
|
�a 243
|
233
234
|
aña 243
|
235
|
+
ía 243
|
236
|
+
ia_ 240
|
234
237
|
at 239
|
235
238
|
r� 239
|
236
|
-
|
239
|
+
na_ 239
|
237
240
|
so 234
|
241
|
+
_a_ 234
|
238
242
|
paña 234
|
239
|
-
|
240
|
-
|
241
|
-
_Esp 230
|
242
|
-
las_ 230
|
243
|
-
_Espa 230
|
243
|
+
las_ 233
|
244
|
+
im 231
|
244
245
|
ns 228
|
245
|
-
na_ 228
|
246
246
|
cu 226
|
247
247
|
em 226
|
248
|
+
nte_ 226
|
248
249
|
j 224
|
250
|
+
to_ 223
|
249
251
|
_n 220
|
250
|
-
ia_ 220
|
251
252
|
ul 220
|
252
|
-
nte_ 220
|
253
|
-
P 219
|
254
|
-
to_ 219
|
255
253
|
ant 219
|
256
|
-
|
254
|
+
P 219
|
257
255
|
rr 218
|
258
|
-
|
256
|
+
ente 218
|
257
|
+
se_ 218
|
259
258
|
dad 215
|
260
259
|
vi 213
|
261
260
|
il 213
|
261
|
+
da_ 211
|
262
262
|
L 211
|
263
|
+
_L 210
|
264
|
+
_pa 210
|
263
265
|
ter 209
|
264
|
-
_pa 208
|
265
266
|
ada 205
|
266
|
-
|
267
|
+
ña_ 205
|
268
|
+
_. 205
|
269
|
+
�a_ 205
|
267
270
|
men 203
|
268
|
-
da_ 202
|
269
271
|
era 202
|
270
|
-
o,_ 202
|
271
272
|
ran 201
|
272
|
-
|
273
|
+
_P 200
|
273
274
|
_su 200
|
275
|
+
les 200
|
274
276
|
ig 198
|
277
|
+
o,_ 197
|
278
|
+
o, 197
|
275
279
|
ien 195
|
280
|
+
_ca 194
|
276
281
|
tra 193
|
282
|
+
no_ 192
|
283
|
+
_,_ 192
|
284
|
+
_, 192
|
277
285
|
res 192
|
278
|
-
|
279
|
-
cio 190
|
286
|
+
aña_ 191
|
280
287
|
com 190
|
288
|
+
cio 190
|
281
289
|
one 189
|
282
290
|
ida 189
|
291
|
+
_las 188
|
292
|
+
_las_ 188
|
283
293
|
M 188
|
284
|
-
ed 188
|
285
294
|
S 187
|
286
|
-
_las 186
|
287
|
-
_las_ 186
|
288
|
-
ona 185
|
289
|
-
t� 185
|
290
295
|
m� 185
|
291
|
-
|
292
|
-
|
296
|
+
t� 185
|
297
|
+
_M 185
|
298
|
+
ona 185
|
299
|
+
_._ 184
|
293
300
|
ion 184
|
294
|
-
|
301
|
+
_I 184
|
302
|
+
ed 184
|
303
|
+
ha 184
|
295
304
|
nes 183
|
305
|
+
od 182
|
306
|
+
_in 180
|
296
307
|
ale 180
|
297
|
-
_com
|
308
|
+
_com 180
|
309
|
+
_por 179
|
298
310
|
sa 178
|
311
|
+
ía_ 178
|
312
|
+
�a_ 178
|
299
313
|
br 178
|
300
|
-
_por 178
|
301
|
-
_in 178
|
302
314
|
mp 177
|
303
315
|
bi 176
|
304
316
|
pro 175
|
305
317
|
ist 175
|
306
|
-
|
318
|
+
ació 173
|
319
|
+
_S 173
|
307
320
|
dos 173
|
308
321
|
aci� 173
|
309
|
-
|
322
|
+
oc 172
|
310
323
|
des 172
|
311
324
|
ct 172
|
312
|
-
|
325
|
+
d_ 169
|
326
|
+
_por_ 168
|
327
|
+
por_ 168
|
313
328
|
_al 168
|
329
|
+
_se_ 168
|
314
330
|
eg 167
|
331
|
+
_v 167
|
315
332
|
_pro 166
|
316
|
-
por_ 166
|
317
333
|
an_ 166
|
318
|
-
_se_ 165
|
319
|
-
a. 165
|
320
334
|
ero 165
|
321
|
-
_por_ 165
|
322
|
-
_v 165
|
323
|
-
�o 163
|
324
335
|
ño 163
|
325
|
-
�
|
326
|
-
|
327
|
-
ía_ 163
|
336
|
+
�o 163
|
337
|
+
lo_ 163
|
328
338
|
va 161
|
329
339
|
ment 161
|
330
|
-
lo_ 161
|
331
340
|
iv 160
|
332
341
|
ndo 159
|
342
|
+
ca_ 159
|
333
343
|
gu 159
|
334
344
|
mu 158
|
335
345
|
_si 157
|
336
|
-
et
|
337
|
-
|
338
|
-
ici 155
|
346
|
+
et 156
|
347
|
+
mo_ 156
|
339
348
|
fi 155
|
340
|
-
|
341
|
-
ria 154
|
349
|
+
ici 155
|
342
350
|
go 154
|
343
|
-
|
344
|
-
mo_ 153
|
345
|
-
s. 152
|
346
|
-
op 152
|
351
|
+
ria 154
|
347
352
|
ron 152
|
348
|
-
|
353
|
+
a. 152
|
349
354
|
ga 151
|
355
|
+
nes_ 151
|
356
|
+
_ha 151
|
350
357
|
ones 151
|
358
|
+
op 151
|
351
359
|
za 151
|
360
|
+
ado_ 150
|
352
361
|
us 150
|
362
|
+
a._ 150
|
353
363
|
mb 149
|
354
|
-
|
355
|
-
año 148
|
364
|
+
_Ca 148
|
356
365
|
Ca 148
|
357
|
-
|
358
|
-
|
366
|
+
año 148
|
367
|
+
ba 148
|
359
368
|
sti 147
|
369
|
+
ente_ 147
|
370
|
+
ncia 147
|
360
371
|
_pe 147
|
361
|
-
|
372
|
+
uc 146
|
362
373
|
ico 146
|
363
|
-
ña_ 146
|
364
374
|
ua 146
|
365
|
-
|
366
|
-
uc 146
|
367
|
-
ente_ 145
|
368
|
-
_M 145
|
375
|
+
io_ 146
|
369
376
|
ve 144
|
370
|
-
|
377
|
+
ta_ 144
|
378
|
+
s. 144
|
371
379
|
cion 143
|
372
|
-
|
380
|
+
rio 143
|
381
|
+
s._ 142
|
373
382
|
_con_ 142
|
374
|
-
|
375
|
-
|
383
|
+
con_ 142
|
384
|
+
les_ 141
|
376
385
|
ip 141
|
386
|
+
_g 140
|
377
387
|
ntr 140
|
378
|
-
|
379
|
-
nto 139
|
388
|
+
rc 140
|
380
389
|
tor 139
|
381
|
-
|
382
|
-
_g 139
|
390
|
+
nto 139
|
383
391
|
ob 138
|
384
|
-
aña_ 138
|
385
392
|
par 138
|
393
|
+
dos_ 137
|
386
394
|
ir 137
|
387
395
|
G 137
|
388
|
-
_. 137
|
389
|
-
dos_ 137
|
390
|
-
_, 137
|
391
|
-
ante 136
|
392
|
-
bl 136
|
393
396
|
n� 136
|
394
|
-
|
395
|
-
�_
|
396
|
-
ó_
|
397
|
-
|
398
|
-
eri 134
|
399
|
-
err 134
|
400
|
-
rm 134
|
397
|
+
bl 136
|
398
|
+
�_ 136
|
399
|
+
ó_ 136
|
400
|
+
ante 136
|
data/test/generator_test.rb
CHANGED
@@ -39,7 +39,7 @@ class GeneratorTest < Test::Unit::TestCase
|
|
39
39
|
end
|
40
40
|
|
41
41
|
should "Remove characters that throw off language detection" do
|
42
|
-
assert_equal "Hello Go to
|
42
|
+
assert_equal "Hello Go to to watch some shitty videos. Woooooo friend WIN TODAY", @sg.clean(@bad_text)
|
43
43
|
end
|
44
44
|
end
|
45
45
|
|
metadata
CHANGED
@@ -1,13 +1,13 @@
|
|
1
1
|
--- !ruby/object:Gem::Specification
|
2
2
|
name: scylla
|
3
3
|
version: !ruby/object:Gem::Version
|
4
|
-
hash:
|
4
|
+
hash: 63
|
5
5
|
prerelease:
|
6
6
|
segments:
|
7
7
|
- 0
|
8
|
-
-
|
9
|
-
-
|
10
|
-
version: 0.
|
8
|
+
- 8
|
9
|
+
- 0
|
10
|
+
version: 0.8.0
|
11
11
|
platform: ruby
|
12
12
|
authors:
|
13
13
|
- Ashwin Hegde
|