scylla 0.5.0 → 0.6.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,400 +1,400 @@
1
- _ 15194
2
- a 4057
3
- e 3799
4
- l 2679
5
- s 2339
6
- i 2295
7
- n 2204
8
- t 2164
9
- r 1853
10
- o 1493
11
- c 1484
12
- 1204
13
- a_ 1195
14
- d 1193
15
- s_ 1143
16
- u 1083
17
- __ 912
18
- m 842
19
- _d 773
20
- es 765
21
- en 764
22
- p 702
1
+ _ 14596
2
+ a 4010
3
+ e 3751
4
+ l 2647
5
+ s 2301
6
+ i 2270
7
+ n 2179
8
+ t 2145
9
+ r 1821
10
+ o 1472
11
+ c 1470
12
+ 1190
13
+ d 1181
14
+ a_ 1172
15
+ s_ 1146
16
+ u 1070
17
+ __ 872
18
+ m 828
19
+ _d 769
20
+ en 755
21
+ es 750
22
+ p 696
23
23
  _l 682
24
- al 681
25
- de 636
24
+ al 674
25
+ de 638
26
26
  e_ 617
27
- _e 596
28
- ta 559
29
- _de 544
30
- l_ 510
31
- g 500
32
- , 490
33
- ,_ 484
34
- la 470
35
- at 463
36
- _c 454
37
- el 452
38
- le 449
39
- _a 447
40
- es_ 430
41
- ca 427
42
- er 409
43
- ci 399
44
- _p 397
45
- . 394
46
- t_ 391
47
- an 383
48
- nt 382
49
- 364
50
- à 364
51
- re 359
52
- st 352
53
- ar 348
54
- n_ 346
55
- b 345
56
- de_ 339
57
- _de_ 333
58
- ra 319
59
- f 305
60
- ' 300
61
- on 298
62
- el_ 295
63
- ._ 286
64
- la_ 270
65
- v 269
66
- ll 266
67
- _i 263
68
- ic 258
69
- i_ 256
70
- ue 253
71
- or 251
72
- _la 250
73
- q 246
74
- qu 242
75
- _la_ 238
76
- _m 236
77
- in 236
78
- te 235
79
- tal 233
80
- _ca 232
81
- ia 227
27
+ _e 615
28
+ ta 555
29
+ _de 552
30
+ l_ 517
31
+ g 496
32
+ la 486
33
+ , 483
34
+ ,_ 477
35
+ le 475
36
+ _c 459
37
+ at 458
38
+ el 448
39
+ _a 443
40
+ es_ 427
41
+ ca 424
42
+ er 400
43
+ ci 398
44
+ _p 396
45
+ . 391
46
+ t_ 390
47
+ an 380
48
+ nt 376
49
+ 360
50
+ à 360
51
+ re 356
52
+ st 351
53
+ n_ 347
54
+ b 341
55
+ ar 339
56
+ de_ 335
57
+ _de_ 331
58
+ ra 315
59
+ f 301
60
+ on 294
61
+ el_ 293
62
+ la_ 272
63
+ _la 270
64
+ v 265
65
+ ll 264
66
+ _i 264
67
+ ._ 259
68
+ ic 254
69
+ i_ 253
70
+ ue 248
71
+ or 245
72
+ q 243
73
+ _la_ 239
74
+ qu 239
75
+ _ca 236
76
+ in 234
77
+ te 233
78
+ tal 231
82
79
  it 227
83
- _s 221
84
- ti 220
85
- om 216
86
- co 214
87
- en_ 213
88
- ent 212
89
- na 211
90
- que 211
91
- ri 204
92
- _el 204
93
- un 198
80
+ ia 225
81
+ _s 223
82
+ ti 215
83
+ co 212
84
+ en_ 211
85
+ om 211
86
+ na 210
87
+ ent 209
88
+ que 208
89
+ _m 206
90
+ _el 201
91
+ se 199
92
+ ri 198
94
93
  i� 197
95
- ata 195
96
- se 194
97
- ns 193
94
+ un 196
95
+ ata 194
98
96
  x 191
99
- E 188
100
- atal 187
97
+ ns 191
98
+ atal 186
99
+ E 185
100
+ l� 185
101
+ len 184
101
102
  ng 183
102
- len 181
103
- _i_ 181
103
+ r_ 182
104
104
  _a_ 180
105
- 179
106
- A 179
107
- ó 179
108
- 177
109
- é 177
110
- r_ 177
111
- gu 177
112
- nc 176
105
+ _i_ 180
106
+ 178
107
+ ó 178
108
+ A 177
109
+ di 177
110
+ �_ 175
113
111
  ci� 175
114
- l� 173
115
- �_ 171
116
- à_ 171
117
- di 170
118
- _co 170
119
- pe 169
120
- _en 168
121
- li 164
122
- ac 163
123
- C 163
124
- _t 155
125
- me 154
112
+ à_ 175
113
+ nc 175
114
+ é 173
115
+ gu 173
116
+ 173
117
+ _co 171
118
+ _en 170
119
+ li 168
120
+ pe 167
121
+ C 162
122
+ ac 162
123
+ _t 157
124
+ _es 155
126
125
  del 153
127
- í 152
128
126
  _del 152
129
- � 152
130
127
  lle 151
131
- l' 151
132
- cat 151
133
- _el_ 150
134
- ls 149
135
- tr 149
128
+ 150
129
+ cat 150
130
+ me 150
131
+ í 150
132
+ _el_ 149
136
133
  - 148
137
- pa 147
138
- _es 147
139
- ts 146
140
- ) 145
141
- _l' 145
142
- 144
143
- est 143
144
- _f 143
145
- ua 142
146
- ne 140
147
- _. 139
148
- _ll 138
149
- pr 138
150
- cata 137
151
- catal 137
152
- ro 137
153
- al_ 137
154
- ( 135
134
+ tr 148
135
+ al_ 145
136
+ pa 145
137
+ ts 145
138
+ 145
139
+ ls 144
140
+ est 142
141
+ _ll 142
142
+ ua 141
143
+ _f 141
144
+ ne 136
145
+ cata 136
146
+ catal 136
147
+ pr 136
148
+ les 135
155
149
  _cat 134
156
150
  _cata 134
157
- ma 133
158
- h 133
151
+ _en_ 133
159
152
  ió 133
160
- nt_ 132
153
+ ro 133
161
154
  ts_ 132
162
- _en_ 130
163
- _( 130
164
- oc 130
165
- sta 127
166
- ls_ 127
155
+ nt_ 131
156
+ h 130
157
+ oc 129
158
+ _. 129
159
+ _o 129
160
+ ma 128
161
+ _q 127
162
+ da 126
167
163
  _del_ 126
168
- _q 126
164
+ sta 126
169
165
  del_ 126
170
- _qu 124
171
- L 124
172
- _._ 124
173
- am 123
174
- ó_ 123
175
- �_ 123
176
- no 122
166
+ ls_ 125
167
+ _qu 125
168
+ _ 124
169
+ ó_ 124
170
+ L 122
171
+ am 122
177
172
  nci 122
178
- ica 122
179
- _o 120
180
- et 120
181
- és 120
173
+ ica 121
174
+ _lle 120
182
175
  ció 120
183
- �s 120
184
- ni 118
185
- és_ 117
186
- s_ 117
187
- ale 116
188
- al� 116
189
- les 116
190
- _pe 115
176
+ et 119
177
+ no 119
178
+ _._ 119
179
+ s 117
180
+ _v 117
181
+ és 117
182
+ ni 117
183
+ ale 117
191
184
  leng 115
185
+ al� 115
192
186
  eng 115
193
- _lle 115
194
- atal� 114
195
- tal� 114
196
- _v 114
197
- talà 114
198
- alà 114
199
- ió_ 113
187
+ �s_ 114
188
+ és_ 114
189
+ ió_ 114
190
+ tal� 113
191
+ talà 113
192
+ atal� 113
200
193
  y 113
201
- as 112
202
- llen 111
194
+ alà 113
195
+ _pe 113
196
+ _le 112
203
197
  fi 111
204
- per 111
205
- va 111
206
- tat 110
207
- ad 109
198
+ llen 111
199
+ as 111
200
+ per 109
201
+ tat 109
202
+ _que 109
208
203
  aci 109
209
- les_ 109
210
- là_ 109
211
204
  at_ 109
212
- _que 108
205
+ là_ 108
213
206
  lleng 108
214
- _pr 107
215
- po 106
207
+ ad 108
208
+ va 108
209
+ _llen 107
216
210
  tu 106
211
+ po 106
217
212
  o_ 106
218
- _C 105
219
- m� 105
220
- ant 104
221
- _llen 103
222
- � 102
223
- com 102
224
- è 102
213
+ _C 106
214
+ les_ 105
215
+ _pr 105
216
+ na_ 104
225
217
  g� 102
226
- t� 102
218
+ ant 102
219
+ m� 102
220
+ t� 101
221
+ ció_ 101
227
222
  ec 101
228
- da 101
229
- ció_ 100
230
- ue_ 100
223
+ com 101
224
+ è 100
231
225
  que_ 100
232
- ues 100
233
- na_ 99
234
- _que_ 99
226
+ _que_ 100
227
+ 100
228
+ ue_ 100
229
+ a, 100
230
+ a,_ 99
231
+ _r 99
235
232
  cia 98
236
- _al 97
237
- _r 97
238
233
  ny 97
239
- _h 96
240
- _com 96
241
- is 96
242
- a, 96
234
+ _com 97
235
+ ues 97
236
+ _se 97
243
237
  ngu 95
244
- a,_ 95
245
- mi 94
238
+ _h 95
239
+ is 95
240
+ ia_ 95
241
+ _les 95
242
+ _al 94
243
+ ns_ 94
244
+ mi 93
246
245
  ix 93
247
- ia_ 93
248
246
  sti 93
249
- _u 92
250
- ques 92
251
- ns_ 91
252
- os 90
253
- alà_ 90
254
- em 90
247
+ _u 91
255
248
  gua 90
256
- enc 90
257
- _d' 90
258
- d' 90
259
- _per 89
260
- r� 89
249
+ enc 89
261
250
  to 89
262
- men 89
263
- ació 89
264
- ca_ 89
265
- rt 89
251
+ os 89
252
+ alà_ 89
266
253
  aci� 89
267
- ct 88
268
- _se 88
254
+ ació 89
255
+ em 89
256
+ ques 89
257
+ er_ 88
269
258
  � 87
259
+ _per 87
270
260
  mb 87
261
+ r� 87
271
262
  ü 87
263
+ men 87
264
+ ct 87
265
+ rt 86
272
266
  j 86
273
- er_ 86
274
- P 86
275
- engu 85
276
- ngua 85
277
267
  engua 85
278
268
  lengu 85
279
269
  ol 85
280
- I 84
281
- io 84
282
- ons 84
283
- _le 84
270
+ engu 85
271
+ ngua 85
272
+ P 84
273
+ _di 84
284
274
  tre 83
285
- si 83
275
+ io 82
286
276
  � 82
287
- res 82
288
- _� 82
277
+ I 82
289
278
  gü 82
279
+ res 82
280
+ ons 82
281
+ si 82
282
+ lo 81
290
283
  ei 81
291
- _n 81
292
- par 80
293
- ut 80
294
- ent_ 79
295
- ica_ 79
296
- so 78
284
+ _� 80
285
+ _n 79
286
+ ut 79
287
+ so 79
297
288
  ng� 78
298
- esta 78
299
- ur 78
300
- : 77
301
- bl 77
289
+ par 78
290
+ ent_ 78
291
+ esta 77
302
292
  ngü 77
303
- _pa 76
293
+ ur 77
304
294
  �s 76
305
- _les 76
306
- _di 76
307
- eg 76
295
+ bl 76
308
296
  ís 76
309
- _les_ 76
310
- ha 75
297
+ eg 75
298
+ _pa 75
311
299
  _re 75
312
- con 74
300
+ _g 74
301
+ _les_ 74
302
+ _po 74
313
303
  _un 74
314
- _g 73
315
304
  ran 73
316
- tic 73
305
+ con 73
306
+ ha 73
317
307
  mp 73
318
308
  mo 72
319
- _, 71
320
- lu 70
321
- _po 70
322
- _,_ 70
323
- els 69
309
+ lu 71
310
+ tic 70
311
+ ua_ 69
324
312
  Ca 69
325
- rs 68
313
+ des 69
314
+ fic 68
326
315
  enci 68
327
316
  T 68
328
- ie 68
329
317
  els_ 68
330
- fic 68
331
- ua_ 67
332
- rd 67
318
+ els 68
319
+ rs 67
333
320
  amb 67
334
- ta_ 67
335
- _no 66
321
+ ie 67
322
+ m_ 67
336
323
  ot 66
324
+ ta_ 66
337
325
  _P 66
338
- m_ 66
326
+ rd 65
327
+ re_ 65
339
328
  ial 65
340
- ter 65
341
- nta 65
342
- ment 65
343
- des 65
344
- _b 64
329
+ do 64
330
+ ter 64
331
+ _, 64
332
+ _no 64
333
+ ngua_ 64
345
334
  ià 64
346
- _ha 63
335
+ nta 64
336
+ gua_ 64
337
+ ment 63
347
338
  eix 63
348
- )_ 63
339
+ _b 63
340
+ _,_ 63
349
341
  ra_ 63
350
- gua_ 62
351
- �n 62
352
- ngua_ 62
353
342
  vi 62
354
- als 62
355
- àn 62
356
- do 62
357
- re_ 62
343
+ _ha 62
344
+ V 61
358
345
  ar_ 61
346
+ �n 61
359
347
  lenc 61
360
- us 61
348
+ àn 61
361
349
  if 61
362
- V 61
363
350
  alen 60
364
- M 60
365
- _mo 60
366
351
  lenci 60
352
+ _E 60
367
353
  alenc 60
368
354
  nd 60
369
- ing 59
355
+ M 60
370
356
  ell 59
357
+ lan 59
371
358
  fe 59
359
+ als 59
372
360
  � 59
373
- lo 59
374
- _Ca 58
375
- íst 58
361
+ _va 59
362
+ s. 59
363
+ ing 59
364
+ us 59
376
365
  sp 58
377
- �sti 58
378
366
  ísti 58
379
- 'a 58
380
- _E 58
381
- ce 58
367
+ �sti 58
368
+ íst 58
382
369
  _A 58
383
- _ma 58
384
370
  �st 58
385
- 57
371
+ ce 57
386
372
  _con 57
387
- _és 57
388
- ita 57
389
- _va 57
390
373
  � 57
391
- S 56
392
- _- 56
374
+ ita 57
375
+ _ 56
376
+ _Ca 56
377
+ _és 56
393
378
  ya 56
394
379
  D 56
395
- _és_ 56
396
- om_ 56
397
- _ 55
398
- ul 55
399
- era 55
380
+ _ma 56
381
+ _- 56
382
+ _é 56
400
383
  � 55
384
+ _és_ 55
385
+ sa 55
386
+ cià 55
387
+ om_ 55
388
+ lt 54
389
+ ul 54
390
+ ca_ 54
391
+ ret 54
392
+ S 54
393
+ era 54
394
+ ncia 54
395
+ il 53
396
+ ion 53
397
+ ste 53
398
+ s,_ 53
399
+ nya 53
400
+ s, 53