scylla 0.5.0 → 0.6.0
Sign up to get free protection for your applications and to get access to all the features.
- data/Gemfile +4 -2
- data/Gemfile.lock +16 -1
- data/lib/scylla/classifier.rb +1 -1
- data/lib/scylla/generator.rb +16 -4
- data/lib/scylla/lms/afrikaans.lm +232 -232
- data/lib/scylla/lms/arabic.lm +175 -175
- data/lib/scylla/lms/bulgarian.lm +225 -225
- data/lib/scylla/lms/catalan.lm +309 -309
- data/lib/scylla/lms/danish.lm +167 -167
- data/lib/scylla/lms/english.lm +398 -398
- data/lib/scylla/lms/finnish.lm +237 -237
- data/lib/scylla/lms/french.lm +148 -148
- data/lib/scylla/lms/german.lm +258 -258
- data/lib/scylla/lms/greek.lm +236 -236
- data/lib/scylla/lms/hebrew.lm +154 -154
- data/lib/scylla/lms/hindi.lm +139 -139
- data/lib/scylla/lms/icelandic.lm +239 -239
- data/lib/scylla/lms/indonesian.lm +244 -244
- data/lib/scylla/lms/italian.lm +248 -248
- data/lib/scylla/lms/japanese.lm +90 -90
- data/lib/scylla/lms/korean.lm +306 -306
- data/lib/scylla/lms/norwegian.lm +193 -193
- data/lib/scylla/lms/polish.lm +241 -241
- data/lib/scylla/lms/portuguese.lm +232 -232
- data/lib/scylla/lms/romanian.lm +246 -246
- data/lib/scylla/lms/slovak.lm +242 -242
- data/lib/scylla/lms/slovenian.lm +229 -229
- data/lib/scylla/lms/spanish.lm +164 -164
- data/lib/scylla/lms/swedish.lm +157 -157
- data/lib/scylla/lms/tagalog.lm +247 -247
- data/lib/scylla/lms/thai.lm +252 -252
- data/lib/scylla/lms/turkish.lm +285 -285
- data/lib/scylla/lms/vietnamese.lm +250 -250
- data/lib/scylla/lms/welsh.lm +248 -248
- data/lib/scylla/resources.rb +1 -9
- data/lib/scylla.rb +4 -0
- data/scylla.gemspec +2 -120
- data/source_texts/english.txt +62 -27
- data/test/classifier_test.rb +1 -3
- data/test/fixtures/lms/danish.lm +173 -173
- data/test/fixtures/lms/english.lm +220 -220
- data/test/fixtures/lms/french.lm +175 -175
- data/test/fixtures/lms/german.lm +254 -254
- data/test/fixtures/lms/hindi.lm +139 -139
- data/test/fixtures/lms/italian.lm +236 -236
- data/test/fixtures/lms/japanese.lm +88 -88
- data/test/fixtures/lms/norwegian.lm +182 -182
- data/test/fixtures/lms/spanish.lm +164 -164
- data/test/fixtures/test_languages/spanish +0 -1
- data/test/generator_test.rb +13 -0
- data/test/helper.rb +2 -0
- metadata +18 -25
- data/.document +0 -5
- data/lib/scylla/lms/13375P33K.lm +0 -400
- data/scylla-0.1.0.gem +0 -0
- data/source_texts/13375P33K.txt +0 -199
- data/test/fixtures/lms/13375p33k.lm +0 -400
- data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,4 +1,4 @@
|
|
1
|
-
_
|
1
|
+
_ 34411
|
2
2
|
a 10584
|
3
3
|
e 10526
|
4
4
|
o 7129
|
@@ -10,128 +10,128 @@ l 5112
|
|
10
10
|
d 4622
|
11
11
|
t 3867
|
12
12
|
c 3674
|
13
|
-
a_
|
14
|
-
e_
|
13
|
+
a_ 3001
|
14
|
+
e_ 2946
|
15
15
|
u 2914
|
16
16
|
� 2572
|
17
|
-
s_
|
17
|
+
s_ 2534
|
18
18
|
de 2468
|
19
|
-
_d
|
19
|
+
_d 2335
|
20
20
|
p 2303
|
21
21
|
m 2195
|
22
|
-
_de
|
23
|
-
o_
|
24
|
-
_e
|
25
|
-
n_
|
22
|
+
_de 2093
|
23
|
+
o_ 1885
|
24
|
+
_e 1787
|
25
|
+
n_ 1774
|
26
26
|
en 1746
|
27
27
|
de_ 1679
|
28
28
|
_de_ 1591
|
29
29
|
la 1459
|
30
30
|
es 1454
|
31
|
-
_l
|
31
|
+
_l 1380
|
32
32
|
, 1276
|
33
|
-
|
34
|
-
|
35
|
-
os
|
33
|
+
l_ 1259
|
34
|
+
,_ 1252
|
35
|
+
os 1222
|
36
36
|
er 1194
|
37
37
|
on 1122
|
38
38
|
as 1103
|
39
39
|
ci 1095
|
40
|
-
_p
|
40
|
+
_p 1077
|
41
|
+
_c 1054
|
41
42
|
el 1049
|
42
|
-
_c 1047
|
43
43
|
an 1032
|
44
44
|
ra 1018
|
45
45
|
al 997
|
46
46
|
g 941
|
47
|
-
|
48
|
-
|
47
|
+
os_ 941
|
48
|
+
_la 935
|
49
49
|
nt 926
|
50
50
|
te 922
|
51
51
|
co 901
|
52
|
+
_a 898
|
52
53
|
b 896
|
53
|
-
_a 893
|
54
54
|
re 888
|
55
55
|
ta 858
|
56
56
|
ad 827
|
57
57
|
ri 825
|
58
58
|
ar 816
|
59
|
+
la_ 816
|
59
60
|
or 812
|
60
|
-
|
61
|
+
_s 800
|
61
62
|
el_ 796
|
62
|
-
_s 795
|
63
63
|
. 766
|
64
64
|
pa 757
|
65
65
|
� 756
|
66
66
|
ó 755
|
67
67
|
do 751
|
68
68
|
st 737
|
69
|
+
as_ 727
|
69
70
|
ro 725
|
70
71
|
y 717
|
71
|
-
|
72
|
-
_la_ 712
|
72
|
+
_la_ 714
|
73
73
|
na 691
|
74
74
|
ue 688
|
75
75
|
v 663
|
76
76
|
in 658
|
77
|
-
_en
|
77
|
+
_en 651
|
78
78
|
ca 643
|
79
|
+
es_ 636
|
79
80
|
ic 635
|
80
81
|
en_ 631
|
81
82
|
da 621
|
82
83
|
ia 620
|
83
|
-
es_ 620
|
84
84
|
E 615
|
85
85
|
to 609
|
86
86
|
lo 605
|
87
|
-
_m
|
87
|
+
_m 604
|
88
88
|
f 596
|
89
|
-
_co
|
89
|
+
_co 595
|
90
90
|
y_ 562
|
91
|
-
|
91
|
+
_el 557
|
92
92
|
í 557
|
93
|
-
|
93
|
+
� 557
|
94
94
|
ti 535
|
95
|
+
_en_ 535
|
95
96
|
no 532
|
96
|
-
|
97
|
-
_y 523
|
98
|
-
un 513
|
97
|
+
_y 526
|
99
98
|
ent 513
|
99
|
+
un 513
|
100
|
+
r_ 510
|
101
|
+
_el_ 509
|
100
102
|
le 507
|
101
|
-
_el_ 505
|
102
|
-
r_ 499
|
103
103
|
io 495
|
104
|
-
_y_
|
104
|
+
_y_ 495
|
105
105
|
ón 488
|
106
106
|
�n 488
|
107
107
|
i� 487
|
108
108
|
po 475
|
109
109
|
a� 472
|
110
110
|
se 468
|
111
|
+
_E 463
|
111
112
|
sp 460
|
112
|
-
_E 459
|
113
113
|
q 456
|
114
114
|
qu 455
|
115
|
-
� 453
|
116
115
|
ñ 453
|
116
|
+
� 453
|
117
117
|
C 451
|
118
118
|
tr 450
|
119
|
-
_t
|
119
|
+
_t 449
|
120
120
|
ma 440
|
121
|
-
._
|
121
|
+
._ 438
|
122
122
|
id 432
|
123
123
|
ac 431
|
124
|
+
is 430
|
124
125
|
ió 428
|
125
|
-
is 427
|
126
126
|
ni 426
|
127
127
|
om 425
|
128
|
-
ne 414
|
129
128
|
nte 414
|
129
|
+
ne 414
|
130
130
|
con 410
|
131
|
-
do_
|
131
|
+
do_ 408
|
132
132
|
nc 406
|
133
|
+
_r 404
|
133
134
|
nd 404
|
134
|
-
_r 403
|
135
135
|
li 403
|
136
136
|
ie 401
|
137
137
|
si 399
|
@@ -141,260 +141,260 @@ añ 395
|
|
141
141
|
á 391
|
142
142
|
h 383
|
143
143
|
pr 382
|
144
|
+
�n_ 379
|
145
|
+
ón_ 379
|
146
|
+
_C 376
|
144
147
|
spa 375
|
145
|
-
�n_ 375
|
146
|
-
ón_ 375
|
147
148
|
que 374
|
148
149
|
ión 373
|
149
|
-
ue_
|
150
|
+
ue_ 371
|
150
151
|
pa� 363
|
151
|
-
_C 358
|
152
152
|
ec 341
|
153
|
+
_con 341
|
154
|
+
ión_ 341
|
153
155
|
mi 340
|
154
|
-
|
155
|
-
_con 338
|
156
|
-
_re 336
|
157
|
-
rt 336
|
156
|
+
_re 337
|
158
157
|
di 336
|
158
|
+
rt 336
|
159
159
|
pe 333
|
160
|
-
|
160
|
+
te_ 332
|
161
|
+
al_ 332
|
162
|
+
_pr 330
|
161
163
|
A 327
|
162
|
-
|
163
|
-
|
164
|
-
|
165
|
-
_q 319
|
164
|
+
que_ 325
|
165
|
+
_qu 320
|
166
|
+
_q 320
|
166
167
|
it 317
|
167
168
|
pañ 315
|
169
|
+
_es 313
|
168
170
|
Es 313
|
169
|
-
_se
|
171
|
+
_se 311
|
170
172
|
mo 310
|
171
|
-
spa� 309
|
172
173
|
_lo 309
|
173
174
|
spañ 309
|
174
|
-
_que
|
175
|
-
|
175
|
+
_que 309
|
176
|
+
spa� 309
|
177
|
+
_po 308
|
178
|
+
a, 305
|
176
179
|
los 305
|
177
|
-
|
178
|
-
al_ 302
|
180
|
+
a,_ 303
|
179
181
|
ol 302
|
180
182
|
ci� 300
|
181
183
|
aci 300
|
182
184
|
ció 299
|
185
|
+
__ 299
|
183
186
|
los_ 296
|
184
|
-
|
187
|
+
_i 295
|
185
188
|
I 295
|
186
189
|
ado 294
|
187
|
-
|
190
|
+
_que_ 293
|
188
191
|
ur 293
|
189
|
-
|
190
|
-
_que_ 291
|
192
|
+
_Es 286
|
191
193
|
ción 285
|
192
|
-
_Es 282
|
193
194
|
su 282
|
194
|
-
|
195
|
+
_f 279
|
195
196
|
ña 278
|
197
|
+
�a 278
|
198
|
+
_u 275
|
196
199
|
z 275
|
197
|
-
|
200
|
+
on_ 273
|
198
201
|
ica 271
|
199
|
-
_u 271
|
200
202
|
del 270
|
201
|
-
on_ 270
|
202
203
|
cia 267
|
203
204
|
ce 267
|
204
205
|
_del 266
|
206
|
+
� 261
|
205
207
|
del_ 261
|
206
208
|
é 261
|
207
|
-
|
209
|
+
or_ 260
|
210
|
+
_h 260
|
211
|
+
_o 260
|
208
212
|
nci 260
|
209
213
|
_del_ 259
|
214
|
+
s, 259
|
210
215
|
tu 258
|
211
|
-
|
212
|
-
_h 257
|
216
|
+
s,_ 258
|
213
217
|
_los 257
|
214
|
-
|
218
|
+
_un 256
|
215
219
|
am 255
|
216
220
|
_los_ 254
|
217
221
|
sta 253
|
218
|
-
|
222
|
+
ra_ 251
|
219
223
|
Espa� 250
|
220
224
|
Esp 250
|
221
225
|
Espa 250
|
222
|
-
s,_ 249
|
223
|
-
s, 249
|
224
|
-
ra_ 248
|
225
|
-
est 245
|
226
|
-
ab 245
|
227
226
|
ll 245
|
227
|
+
ab 245
|
228
|
+
est 245
|
228
229
|
las 244
|
229
230
|
por 244
|
231
|
+
ía 243
|
230
232
|
�a 243
|
231
|
-
__ 243
|
232
233
|
aña 243
|
233
|
-
ía 243
|
234
|
-
r� 239
|
235
234
|
at 239
|
235
|
+
r� 239
|
236
|
+
_A 235
|
236
237
|
so 234
|
237
238
|
paña 234
|
238
|
-
|
239
|
-
|
239
|
+
im 232
|
240
|
+
_a_ 232
|
241
|
+
_Esp 230
|
240
242
|
las_ 230
|
241
|
-
|
243
|
+
_Espa 230
|
242
244
|
ns 228
|
243
|
-
|
244
|
-
_Espa 226
|
245
|
-
_Esp 226
|
245
|
+
na_ 228
|
246
246
|
cu 226
|
247
|
+
em 226
|
247
248
|
j 224
|
248
|
-
|
249
|
+
_n 220
|
250
|
+
ia_ 220
|
249
251
|
ul 220
|
252
|
+
nte_ 220
|
250
253
|
P 219
|
254
|
+
to_ 219
|
251
255
|
ant 219
|
252
256
|
ente 218
|
253
257
|
rr 218
|
254
|
-
to_ 217
|
255
|
-
nte_ 217
|
256
|
-
) 216
|
257
|
-
_n 216
|
258
|
-
( 216
|
259
|
-
dad 215
|
260
258
|
se_ 215
|
261
|
-
|
262
|
-
_( 214
|
259
|
+
dad 215
|
263
260
|
vi 213
|
264
261
|
il 213
|
265
262
|
L 211
|
266
263
|
ter 209
|
267
|
-
_pa
|
264
|
+
_pa 208
|
268
265
|
ada 205
|
266
|
+
o, 204
|
269
267
|
men 203
|
268
|
+
da_ 202
|
270
269
|
era 202
|
270
|
+
o,_ 202
|
271
271
|
ran 201
|
272
272
|
les 201
|
273
|
-
|
273
|
+
_su 200
|
274
274
|
ig 198
|
275
|
-
_su 198
|
276
|
-
o, 197
|
277
|
-
o,_ 195
|
278
275
|
ien 195
|
279
276
|
tra 193
|
280
277
|
res 192
|
278
|
+
_ca 191
|
281
279
|
cio 190
|
282
280
|
com 190
|
283
|
-
ida 189
|
284
281
|
one 189
|
285
|
-
|
286
|
-
ed 188
|
282
|
+
ida 189
|
287
283
|
M 188
|
284
|
+
ed 188
|
288
285
|
S 187
|
289
|
-
_las
|
290
|
-
|
291
|
-
_las_ 185
|
286
|
+
_las 186
|
287
|
+
_las_ 186
|
292
288
|
ona 185
|
293
289
|
t� 185
|
294
|
-
|
290
|
+
m� 185
|
291
|
+
od 185
|
295
292
|
ha 184
|
296
|
-
|
293
|
+
ion 184
|
294
|
+
no_ 184
|
297
295
|
nes 183
|
298
|
-
no_ 182
|
299
296
|
ale 180
|
297
|
+
_com 179
|
300
298
|
sa 178
|
301
|
-
_com 178
|
302
299
|
br 178
|
303
|
-
_por
|
300
|
+
_por 178
|
301
|
+
_in 178
|
304
302
|
mp 177
|
305
303
|
bi 176
|
306
|
-
_in 176
|
307
|
-
ist 175
|
308
304
|
pro 175
|
305
|
+
ist 175
|
306
|
+
oc 173
|
307
|
+
dos 173
|
309
308
|
aci� 173
|
310
309
|
ació 173
|
311
|
-
dos 173
|
312
|
-
ct 172
|
313
310
|
des 172
|
314
|
-
|
311
|
+
ct 172
|
312
|
+
_I 170
|
313
|
+
_al 168
|
315
314
|
eg 167
|
316
|
-
|
317
|
-
an_ 166
|
318
|
-
_I 166
|
315
|
+
_pro 166
|
319
316
|
por_ 166
|
317
|
+
an_ 166
|
318
|
+
_se_ 165
|
319
|
+
a. 165
|
320
320
|
ero 165
|
321
|
-
|
322
|
-
|
323
|
-
_por_ 164
|
324
|
-
ño 163
|
321
|
+
_por_ 165
|
322
|
+
_v 165
|
325
323
|
�o 163
|
326
|
-
|
327
|
-
|
328
|
-
|
324
|
+
ño 163
|
325
|
+
�a_ 163
|
326
|
+
_P 163
|
327
|
+
ía_ 163
|
329
328
|
va 161
|
330
329
|
ment 161
|
331
|
-
lo_
|
330
|
+
lo_ 161
|
332
331
|
iv 160
|
333
|
-
_P 160
|
334
|
-
gu 159
|
335
332
|
ndo 159
|
333
|
+
gu 159
|
336
334
|
mu 158
|
337
|
-
|
338
|
-
|
335
|
+
_si 157
|
336
|
+
et 157
|
337
|
+
d_ 156
|
339
338
|
ici 155
|
340
|
-
d_ 155
|
341
339
|
fi 155
|
340
|
+
_L 154
|
342
341
|
ria 154
|
343
342
|
go 154
|
344
|
-
|
345
|
-
mo_
|
343
|
+
_S 153
|
344
|
+
mo_ 153
|
345
|
+
s. 152
|
346
|
+
op 152
|
346
347
|
ron 152
|
347
|
-
op 151
|
348
348
|
_ha 151
|
349
|
-
ones 151
|
350
349
|
ga 151
|
350
|
+
ones 151
|
351
351
|
za 151
|
352
352
|
us 150
|
353
353
|
mb 149
|
354
|
-
año 148
|
355
354
|
ba 148
|
355
|
+
año 148
|
356
356
|
Ca 148
|
357
|
-
_pe 147
|
358
|
-
sti 147
|
359
357
|
ncia 147
|
358
|
+
nes_ 147
|
359
|
+
sti 147
|
360
|
+
_pe 147
|
360
361
|
ado_ 147
|
362
|
+
ico 146
|
363
|
+
ña_ 146
|
361
364
|
ua 146
|
365
|
+
�a_ 146
|
362
366
|
uc 146
|
363
|
-
|
364
|
-
|
365
|
-
nes_ 145
|
366
|
-
s. 144
|
367
|
-
�a_ 144
|
367
|
+
ente_ 145
|
368
|
+
_M 145
|
368
369
|
ve 144
|
369
|
-
ña_ 144
|
370
370
|
rio 143
|
371
371
|
cion 143
|
372
|
-
_L 142
|
373
|
-
_M 142
|
374
|
-
_con_ 142
|
375
372
|
con_ 142
|
376
|
-
|
377
|
-
ip 141
|
373
|
+
_con_ 142
|
378
374
|
rc 141
|
375
|
+
io_ 141
|
376
|
+
ip 141
|
379
377
|
ntr 140
|
380
|
-
|
381
|
-
tor 139
|
382
|
-
ca_ 139
|
378
|
+
ca_ 140
|
383
379
|
nto 139
|
384
|
-
|
380
|
+
tor 139
|
381
|
+
ta_ 139
|
382
|
+
_g 139
|
385
383
|
ob 138
|
384
|
+
aña_ 138
|
386
385
|
par 138
|
387
|
-
ta_ 138
|
388
386
|
ir 137
|
389
387
|
G 137
|
390
|
-
|
388
|
+
_. 137
|
389
|
+
dos_ 137
|
390
|
+
_, 137
|
391
|
+
ante 136
|
391
392
|
bl 136
|
392
393
|
n� 136
|
393
|
-
|
394
|
-
dos_ 135
|
395
|
-
err 134
|
394
|
+
les_ 135
|
396
395
|
�_ 134
|
397
|
-
rm 134
|
398
396
|
ó_ 134
|
399
|
-
eri 134
|
400
397
|
ori 134
|
398
|
+
eri 134
|
399
|
+
err 134
|
400
|
+
rm 134
|
@@ -2,7 +2,6 @@ Pablo Ruiz Picasso (n. Málaga, España; de octubre de - f. Mougins, Francia;
|
|
2
2
|
Considerado uno de los mayores artistas del siglo XX, participó desde la génesis en muchos movimientos artísticos que se propagaron por el mundo y ejercieron una gran influencia en otros grandes artistas de su tiempo. Incansable y prolífico, pintó más de dos mil obras actualmente presentes en museos y colecciones de toda Europa y del mundo. Además, abordó otros géneros como el dibujo, el grabado, la ilustración de libros, la escultura, la cerámica y el diseño de escenografía y vestuario para montajes teatrales.
|
3
3
|
En lo político, Picasso se declaraba pacifista y comunista. Fue miembro del Partido Comunista Francés hasta su muerte, el de abril de en Notre-Dame-de-Vie (Mougins, Francia) a los años. Está enterrado en el parque del castillo de Vauvenargues (Bouches-du-Rhone).
|
4
4
|
|
5
|
-
«Pablo Diego José Francisco de Paula Juan Nepomuceno Cipriano de la Santísima Trinidad Ruiz Picasso» (según su certificado de nacimiento) o «Pablo Diego José Francisco de Paula Juan Nepomuceno María de los Remedios Crispiniano de la Santísima Trinidad Ruiz Picasso» (según su partida de bautismo), fue el primer hijo de José Ruiz Blasco y María Picasso López. Nació el de octubre de en Málaga, España, en el seno de una familia pequeñoburguesa. Picasso tuvo dos hermanas, Dolores (-) y Concepción (-). De su padre se sabe que quiso ser pintor y fue profesor de dibujo en la escuela de Málaga llamada San Telmo. De la madre se conoce poco; al parecer era de una personalidad más fuerte que la de su marido, y Picasso tuvo siempre hacia ella mayor respeto y ternura, lo que algunos creen ver en el retrato que le dibujó en .
|
6
5
|
Picasso empezó a pintar desde edad temprana. En , a los ocho años, tras una corrida de toros y bajo la dirección de su padre pintó El pequeño picador, su primera pintura al óleo, de la que siempre se negó a separarse. En , la familia abandonó Málaga, cuando el padre fue nombrado profesor en el Instituto de La Coruña. Allí, Pablo trabajó en sus dibujos y mostró una fuerte confianza en sí y en sus dotes; tenía diez años. Sus primeros trabajos, de un realismo vigoroso y casi feroz, mostraban una temprana predilección por los personajes populares.
|
7
6
|
El de fue un año de sucesos importantes en su infancia; en enero, falleció su hermana Concepción, y en septiembre su padre obtuvo una cátedra en la Lonja, Escuela de Artes y Oficios de Barcelona, donde el joven Pablo fue admitido como alumno y cursó estudios durante dos años, lo que le condujo a pintar, quizás por complacer a su padre, una serie de cuadros en los que el academicismo sentimental del estilo sorprendía tras la vitalidad de los retratos que había realizado en La Coruña.
|
8
7
|
Estudiante brillante y precoz, Picasso superó en un solo día, a la edad de catorce años, el examen de ingreso en la Escuela de Bellas Artes de Barcelona, y se le permitió saltarse las dos primeras clases. De acuerdo con una de las muchas leyendas sobre el artista, su padre, tras reconocer el extraordinario talento de su hijo al contemplar sus primeros trabajos infantiles, le entregó sus pinceles y su paleta y prometió no volver a pintar en su vida.
|
data/test/generator_test.rb
CHANGED
@@ -30,6 +30,19 @@ class GeneratorTest < Test::Unit::TestCase
|
|
30
30
|
end
|
31
31
|
end
|
32
32
|
|
33
|
+
context "#clean" do
|
34
|
+
setup do
|
35
|
+
@bad_text = "***Hello*** Go to http://www.youtube.com to watch some shitty videos."
|
36
|
+
@bad_text += ">>> Woooooo <<< <a href='blah.com/no'>friend</a> WIN TODAY!!!!"
|
37
|
+
@bad_text += "???? @#!!(**%#)} [[}}||]]"
|
38
|
+
@sg = Scylla::Generator.new
|
39
|
+
end
|
40
|
+
|
41
|
+
should "Remove characters that throw off language detection" do
|
42
|
+
assert_equal "Hello Go to to watch some shitty videos. Woooooo friend WIN TODAY", @sg.clean(@bad_text)
|
43
|
+
end
|
44
|
+
end
|
45
|
+
|
33
46
|
context "create .lm files out of text files" do
|
34
47
|
setup do
|
35
48
|
Scylla::Loader.set_dir(File.join("test","fixtures","lms"))
|
data/test/helper.rb
CHANGED
metadata
CHANGED
@@ -1,13 +1,13 @@
|
|
1
1
|
--- !ruby/object:Gem::Specification
|
2
2
|
name: scylla
|
3
3
|
version: !ruby/object:Gem::Version
|
4
|
-
hash:
|
4
|
+
hash: 7
|
5
5
|
prerelease:
|
6
6
|
segments:
|
7
7
|
- 0
|
8
|
-
-
|
8
|
+
- 6
|
9
9
|
- 0
|
10
|
-
version: 0.
|
10
|
+
version: 0.6.0
|
11
11
|
platform: ruby
|
12
12
|
authors:
|
13
13
|
- Ashwin Hegde
|
@@ -15,12 +15,12 @@ autorequire:
|
|
15
15
|
bindir: bin
|
16
16
|
cert_chain: []
|
17
17
|
|
18
|
-
date: 2011-09-21 00:00:00
|
19
|
-
default_executable: scylla
|
18
|
+
date: 2011-09-21 00:00:00 Z
|
20
19
|
dependencies:
|
21
20
|
- !ruby/object:Gem::Dependency
|
22
21
|
name: bundler
|
23
|
-
|
22
|
+
prerelease: false
|
23
|
+
requirement: &id001 !ruby/object:Gem::Requirement
|
24
24
|
none: false
|
25
25
|
requirements:
|
26
26
|
- - ~>
|
@@ -31,12 +31,12 @@ dependencies:
|
|
31
31
|
- 0
|
32
32
|
- 0
|
33
33
|
version: 1.0.0
|
34
|
-
prerelease: false
|
35
34
|
type: :development
|
36
|
-
|
35
|
+
version_requirements: *id001
|
37
36
|
- !ruby/object:Gem::Dependency
|
38
37
|
name: jeweler
|
39
|
-
|
38
|
+
prerelease: false
|
39
|
+
requirement: &id002 !ruby/object:Gem::Requirement
|
40
40
|
none: false
|
41
41
|
requirements:
|
42
42
|
- - ~>
|
@@ -47,9 +47,8 @@ dependencies:
|
|
47
47
|
- 6
|
48
48
|
- 4
|
49
49
|
version: 1.6.4
|
50
|
-
prerelease: false
|
51
50
|
type: :development
|
52
|
-
|
51
|
+
version_requirements: *id002
|
53
52
|
description: Allows for text categorization by guessing the language of a given text using n-grams
|
54
53
|
email: ahegde@zendesk.com
|
55
54
|
executables:
|
@@ -60,18 +59,11 @@ extra_rdoc_files:
|
|
60
59
|
- LICENSE.txt
|
61
60
|
- README.rdoc
|
62
61
|
files:
|
63
|
-
-
|
62
|
+
- bin/scylla
|
64
63
|
- Gemfile
|
65
64
|
- Gemfile.lock
|
66
|
-
- LICENSE.txt
|
67
|
-
- README.rdoc
|
68
|
-
- Rakefile
|
69
|
-
- VERSION
|
70
|
-
- bin/scylla
|
71
|
-
- lib/scylla.rb
|
72
65
|
- lib/scylla/classifier.rb
|
73
66
|
- lib/scylla/generator.rb
|
74
|
-
- lib/scylla/lms/13375P33K.lm
|
75
67
|
- lib/scylla/lms/afrikaans.lm
|
76
68
|
- lib/scylla/lms/arabic.lm
|
77
69
|
- lib/scylla/lms/bulgarian.lm
|
@@ -108,9 +100,12 @@ files:
|
|
108
100
|
- lib/scylla/resources.rb
|
109
101
|
- lib/scylla/string.rb
|
110
102
|
- lib/scylla/tasks.rb
|
111
|
-
- scylla
|
103
|
+
- lib/scylla.rb
|
104
|
+
- LICENSE.txt
|
105
|
+
- Rakefile
|
106
|
+
- README.rdoc
|
107
|
+
- scylla-0.6.0.gem
|
112
108
|
- scylla.gemspec
|
113
|
-
- source_texts/13375P33K.txt
|
114
109
|
- source_texts/afrikaans.txt
|
115
110
|
- source_texts/arabic.txt
|
116
111
|
- source_texts/bulgarian.txt
|
@@ -144,7 +139,6 @@ files:
|
|
144
139
|
- source_texts/vietnamese.txt
|
145
140
|
- source_texts/welsh.txt
|
146
141
|
- test/classifier_test.rb
|
147
|
-
- test/fixtures/lms/13375p33k.lm
|
148
142
|
- test/fixtures/lms/danish.lm
|
149
143
|
- test/fixtures/lms/english.lm
|
150
144
|
- test/fixtures/lms/french.lm
|
@@ -154,7 +148,6 @@ files:
|
|
154
148
|
- test/fixtures/lms/japanese.lm
|
155
149
|
- test/fixtures/lms/norwegian.lm
|
156
150
|
- test/fixtures/lms/spanish.lm
|
157
|
-
- test/fixtures/source_texts/13375P33K.txt
|
158
151
|
- test/fixtures/source_texts/danish.txt
|
159
152
|
- test/fixtures/source_texts/english.txt
|
160
153
|
- test/fixtures/source_texts/french.txt
|
@@ -177,7 +170,7 @@ files:
|
|
177
170
|
- test/language_test.rb
|
178
171
|
- test/loader_test.rb
|
179
172
|
- test/scylla_test.rb
|
180
|
-
|
173
|
+
- VERSION
|
181
174
|
homepage: http://github.com/hashwin/scylla
|
182
175
|
licenses:
|
183
176
|
- MIT
|
@@ -207,7 +200,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
|
|
207
200
|
requirements: []
|
208
201
|
|
209
202
|
rubyforge_project:
|
210
|
-
rubygems_version: 1.
|
203
|
+
rubygems_version: 1.8.11
|
211
204
|
signing_key:
|
212
205
|
specification_version: 3
|
213
206
|
summary: Ruby port of Textcat language guesser
|