scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,400 +1,400 @@
1
- _ 2574
2
- e 773
3
- t 520
4
- i 515
5
- a 507
6
- o 495
7
- s 453
8
- n 422
9
- r 391
10
- u 337
11
- l 264
12
- m 234
13
- d 226
14
- e_ 207
15
- c 198
16
- h 188
17
- p 178
18
- s_ 150
19
- re 134
20
- _a 127
21
- t_ 126
22
- in 123
23
- _t 123
24
- or 103
25
- f 99
26
- m_ 98
27
- b 91
28
- g 87
29
- _o 85
30
- th 84
31
- n_ 84
32
- er 83
33
- d_ 83
34
- _i 81
35
- he 81
36
- y 80
37
- an 79
38
- at 78
39
- _e 78
40
- , 75
41
- ,_ 75
42
- on 73
43
- te 72
44
- _s 72
45
- es 72
46
- _th 70
47
- is 69
48
- _p 65
49
- . 64
50
- um 63
51
- v 63
52
- o_ 63
53
- se 62
54
- en 60
55
- w 60
56
- ti 59
57
- nd 58
58
- it 58
59
- r_ 58
60
- ur 52
61
- as 52
62
- _d 52
63
- the 52
64
- nt 51
65
- _the 50
66
- a_ 50
67
- su 50
68
- _c 48
69
- he_ 48
70
- qu 48
71
- q 48
72
- y_ 47
73
- _w 47
74
- _b 46
75
- us 46
76
- le 45
77
- ._ 44
78
- em 44
79
- of 44
80
- ta 43
81
- si 43
82
- f_ 42
83
- um_ 42
84
- ed 42
85
- _of 42
86
- ore 42
87
- to 41
88
- k 41
89
- li 40
90
- et 40
91
- ng 40
92
- re_ 40
93
- is_ 39
94
- and 39
95
- the_ 39
96
- ea 39
97
- _the_ 39
98
- of_ 39
99
- _of_ 39
100
- ol 38
101
- in_ 38
102
- st 38
103
- de 37
104
- _m 37
105
- _in 36
106
- _an 36
107
- _r 35
108
- io 35
109
- _h 35
110
- ve 34
111
- ri 34
112
- ed_ 34
113
- la 34
114
- ar 34
115
- _f 33
116
- ou 33
117
- ing 33
118
- ce 33
119
- lo 32
120
- I 32
121
- ec 32
122
- ro 32
123
- ng_ 31
124
- g_ 31
125
- nd_ 31
126
- _I 31
127
- ing_ 30
128
- em_ 30
129
- al 30
130
- co 30
131
- ha 30
132
- _to 30
133
- to_ 30
134
- el 30
135
- _n 30
136
- ni 30
137
- di 29
138
- no 29
139
- ra 29
140
- es_ 29
141
- om 29
142
- _l 29
143
- ut 29
144
- ai 28
145
- ic 28
146
- ne 28
147
- ct 28
148
- am 28
149
- _u 28
150
- l_ 27
151
- ion 27
152
- ns 27
153
- ll 27
154
- _and_ 27
155
- and_ 27
156
- _v 27
157
- _re 27
158
- _and 27
159
- rem 27
160
- L 26
161
- _a_ 26
162
- sum 26
163
- do 26
164
- ia 26
165
- _to_ 26
166
- tio 25
167
- pa 25
168
- _q 25
169
- il 25
170
- ps 25
171
- ci 25
172
- ru 25
173
- _qu 25
174
- me 24
175
- x 24
176
- un 24
177
- ui 24
178
- ati 24
179
- _in_ 23
180
- tion 23
181
- hi 23
182
- orem 23
183
- psum 23
184
- psu 23
185
- ss 23
186
- _co 23
187
- rem_ 23
188
- pl 23
189
- _L 23
190
- im 22
191
- _pa 22
192
- ma 22
193
- mo 22
194
- _do 22
195
- tr 22
196
- ure 22
197
- orem_ 22
198
- or_ 22
199
- id 22
200
- se_ 22
201
- lor 21
202
- sum_ 21
203
- on_ 21
204
- ac 21
205
- nc 21
206
- ex 20
207
- ge 20
208
- " 20
209
- tu 20
210
- it_ 20
211
- i_ 20
212
- _si 20
213
- ut_ 20
1
+ _ 3640
2
+ e 1020
3
+ n 845
4
+ a 787
5
+ i 693
6
+ t 684
7
+ o 626
8
+ s 572
9
+ r 545
10
+ l 453
11
+ h 416
12
+ d 352
13
+ e_ 335
14
+ g 317
15
+ c 303
16
+ an 270
17
+ _t 254
18
+ th 238
19
+ u 233
20
+ m 213
21
+ f 206
22
+ ng 201
23
+ in 195
24
+ s_ 193
25
+ _th 193
26
+ he 191
27
+ _a 187
28
+ d_ 185
29
+ the 168
30
+ n_ 157
31
+ he_ 157
32
+ _the 152
33
+ er 146
34
+ the_ 143
35
+ _the_ 143
36
+ w 134
37
+ , 132
38
+ ,_ 132
39
+ is 131
40
+ _o 129
41
+ nd 126
42
+ p 126
43
+ h_ 112
44
+ _i 112
45
+ es 111
46
+ on 105
47
+ y 102
48
+ ti 102
49
+ v 99
50
+ and 98
51
+ nd_ 97
52
+ re 96
53
+ en 96
54
+ of 93
55
+ la 93
56
+ f_ 93
57
+ or 92
58
+ at 92
59
+ _of 91
60
+ t_ 90
61
+ of_ 89
62
+ _of_ 89
63
+ li 89
64
+ and_ 88
65
+ _l 84
66
+ _an 84
67
+ b 83
68
+ gl 81
69
+ _in 79
70
+ ed 79
71
+ _w 79
72
+ _and 78
73
+ _s 78
74
+ _and_ 78
75
+ ngl 78
76
+ al 78
77
+ E 77
78
+ . 74
79
+ _E 74
80
+ sh 73
81
+ om 72
82
+ y_ 72
83
+ ro 71
84
+ ic 70
85
+ ish 69
86
+ te 69
87
+ _c 69
88
+ ri 69
89
+ ce 67
90
+ as 67
91
+ nt 67
92
+ ma 67
93
+ ve 66
94
+ Engl 65
95
+ Eng 65
96
+ En 65
97
+ _En 64
98
+ _Eng 64
99
+ _Engl 64
100
+ st 64
101
+ ing 63
102
+ ar 62
103
+ lan 62
104
+ ge 61
105
+ lis 60
106
+ ed_ 60
107
+ ngli 60
108
+ gli 60
109
+ nglis 59
110
+ Engli 59
111
+ glis 59
112
+ le 59
113
+ lish 58
114
+ glish 58
115
+ co 58
116
+ ua 57
117
+ _la 57
118
+ in_ 56
119
+ it 56
120
+ o_ 56
121
+ nc 55
122
+ gu 54
123
+ r_ 54
124
+ to 54
125
+ ngu 53
126
+ _b 53
127
+ sh_ 52
128
+ ish_ 52
129
+ ._ 51
130
+ gua 51
131
+ ni 51
132
+ - 51
133
+ es_ 51
134
+ ngua 51
135
+ _d 51
136
+ ang 50
137
+ io 50
138
+ rm 50
139
+ man 50
140
+ se 49
141
+ ag 49
142
+ ng_ 48
143
+ g_ 48
144
+ _f 47
145
+ age 47
146
+ l_ 47
147
+ _lan 46
148
+ to_ 46
149
+ lang 46
150
+ angua 45
151
+ ati 45
152
+ uage 45
153
+ langu 45
154
+ _lang 45
155
+ guag 45
156
+ guage 45
157
+ uag 45
158
+ angu 45
159
+ nguag 45
160
+ lish_ 44
161
+ ion 44
162
+ ur 44
163
+ a_ 44
164
+ el 43
165
+ di 43
166
+ ea 42
167
+ rma 42
168
+ _p 42
169
+ _to 41
170
+ _to_ 41
171
+ as_ 41
172
+ ca 40
173
+ _in_ 40
174
+ th_ 39
175
+ _r 39
176
+ __ 39
177
+ ing_ 39
178
+ ia 38
179
+ an_ 38
180
+ ra 38
181
+ rman 38
182
+ ha 37
183
+ _co 37
184
+ _e 37
185
+ me 37
186
+ G 36
187
+ si 36
188
+ lo 36
189
+ m_ 35
190
+ ll 35
191
+ ec 35
192
+ fr 35
193
+ de 35
194
+ s, 34
195
+ _G 34
196
+ ow 34
197
+ s,_ 34
198
+ erm 34
199
+ ly 34
200
+ k 33
201
+ er_ 33
202
+ al_ 33
203
+ on_ 32
204
+ tion 32
205
+ ou 32
206
+ tio 32
207
+ nce 32
208
+ _fr 32
209
+ pe 31
210
+ S 31
211
+ Ge 31
212
+ ent 31
213
+ _re 31
214
+ _n 31
215
+ na 31
216
+ be 30
217
+ erma 30
218
+ erman 30
219
+ Germa 30
220
+ Ger 30
221
+ Germ 30
222
+ ts 30
223
+ ch 30
224
+ _Ge 29
225
+ ns 29
226
+ ge_ 29
227
+ x 29
228
+ ly_ 29
229
+ _m 29
230
+ om_ 28
231
+ _Germ 28
232
+ iv 28
233
+ _Ger 28
234
+ no 28
235
+ I 27
236
+ wo 27
237
+ wi 27
238
+ c_ 27
239
+ ic_ 26
240
+ ta 26
241
+ _as 26
242
+ ne 26
243
+ ive 26
244
+ ation 25
245
+ wor 25
246
+ is_ 25
247
+ atio 25
248
+ ce_ 25
249
+ _S 25
250
+ ani 25
251
+ st_ 25
252
+ _wor 25
253
+ rom 25
254
+ nic 25
255
+ _a_ 25
256
+ age_ 25
257
+ A 25
258
+ _wo 25
259
+ we 25
260
+ ct 25
261
+ from_ 24
262
+ rom_ 24
263
+ _from 24
264
+ enc 24
265
+ _fro 24
266
+ rt 24
267
+ fro 24
268
+ uage_ 24
269
+ _as_ 24
270
+ ot 24
271
+ ts_ 24
272
+ from 24
273
+ _h 23
274
+ pa 23
275
+ _I 23
276
+ B 22
277
+ ol 22
278
+ _B 22
279
+ ate 22
280
+ ted_ 22
281
+ _be 22
282
+ ted 22
283
+ ut 22
284
+ F 22
285
+ ion_ 22
286
+ _A 22
287
+ N 22
288
+ _is 22
289
+ tu 22
290
+ re_ 22
291
+ mani 22
292
+ anic 21
293
+ rmani 21
294
+ ry 21
295
+ _di 21
296
+ hi 21
297
+ nce_ 21
298
+ rd 21
299
+ _- 21
300
+ sp 21
301
+ _N 21
302
+ ve_ 21
303
+ manic 21
304
+ ie 21
305
+ her 20
214
306
  at_ 20
215
- qui 19
216
- et_ 19
217
- Lo 19
218
- Lorem 19
219
- us_ 19
220
- Lor 19
221
- Lore 19
222
- ons 19
223
- psum_ 19
224
- pt 19
225
- be 18
226
- ect 18
227
- ho 18
228
- ab 18
229
- T 18
230
- ain 18
231
- er_ 18
232
- as_ 18
233
- _no 18
234
- pe 18
235
- Ip 17
236
- bl 17
237
- _Ipsu 17
238
- _Lore 17
239
- Ipsu 17
240
- Ips 17
241
- sa 17
242
- Ipsum 17
243
- up 17
244
- wh 17
245
- _is 17
246
- h_ 17
247
- _et 17
248
- _Lo 17
249
- _wh 17
250
- rs 17
251
- eas 17
252
- _Ips 17
253
- rum 17
254
- ple 17
255
- vo 17
256
- _Lor 17
257
- _be 17
258
- ca 17
259
- _Ip 17
260
- pr 17
261
- olo 16
262
- lea 16
263
- ere 16
264
- ep 16
265
- ul 16
266
- cu 16
267
- po 16
268
- ua 16
269
- _ma 16
270
- du 16
271
- au 16
272
- tur 16
273
- bu 16
274
- ate 16
275
- ch 16
276
- ag 16
277
- _qui 16
278
- ent 16
279
- lu 16
307
+ ter 20
308
+ _is_ 20
309
+ so 20
310
+ us 20
311
+ ges 20
312
+ tin 20
313
+ fi 20
314
+ ver 20
315
+ nic_ 19
316
+ all 19
317
+ ld 19
318
+ ica 19
319
+ su 19
320
+ com 19
321
+ ages 19
322
+ se_ 19
323
+ No 18
324
+ h, 18
325
+ rs 18
326
+ anic_ 18
327
+ _v 18
328
+ uages 18
329
+ if 18
330
+ tr 18
331
+ anc 18
332
+ ord 18
333
+ h,_ 18
334
+ po 18
335
+ ss 18
336
+ _li 17
337
+ ist 17
338
+ ence 17
339
+ ch_ 17
340
+ ther 17
341
+ con 17
342
+ _No 17
343
+ _F 17
344
+ tur 17
345
+ rit 17
346
+ ir 17
347
+ ue 17
348
+ mo 17
349
+ n, 17
350
+ mp 17
351
+ n,_ 17
352
+ cen 17
353
+ orm 16
354
+ word 16
355
+ ial 16
356
+ _Br 16
357
+ ect 16
358
+ T 16
359
+ L 16
360
+ _L 16
361
+ _g 16
362
+ rn 16
363
+ Br 16
280
364
  nt_ 16
281
- _et_ 15
282
- _ex 15
283
- tat 15
284
- C 15
285
- _dol 15
286
- s, 15
287
- s,_ 15
288
- ter 15
289
- ver 15
290
- leas 15
291
- _dolo 15
292
- _is_ 15
293
- dolor 15
294
- na 15
295
- dolo 15
296
- olor 15
297
- dol 15
298
- os 15
299
- _pl 14
300
- t,_ 14
301
- ke 14
302
- qua 14
303
- sur 14
304
- _de 14
305
- con 14
306
- so 14
307
- wi 14
308
- ue 14
309
- ip 14
310
- t, 14
311
- _con 14
312
- ir 13
313
- res 13
314
- olu 13
315
- _by_ 13
316
- atio 13
317
- _plea 13
318
- _ve 13
319
- en_ 13
320
- by_ 13
321
- vol 13
322
- _mo 13
323
- plea 13
324
- te_ 13
325
- od 13
326
- _ple 13
327
- Th 13
328
- upt 13
329
- by 13
330
- _ha 13
331
- ation 13
332
- sure 13
333
- pleas 13
334
- her 13
335
- ure_ 13
336
- _by 13
337
- lupta 12
338
- volup 12
339
- leasu 12
340
- _fr 12
341
- asu 12
342
- _vo 12
343
- ae 12
344
- upta 12
345
- easur 12
346
- asure 12
347
- sin 12
348
- _vol 12
349
- asur 12
350
- lupt 12
351
- nte 12
352
- fr 12
353
- volu 12
354
- _pr 12
355
- age 12
356
- easu 12
357
- oo 12
358
- est 12
359
- ly 12
360
- ur_ 12
361
- ly_ 12
362
- lup 12
363
- unt 12
364
- _volu 12
365
- da 12
366
- _wi 12
367
- olup 12
368
- bo 12
369
- pta 12
370
- olupt 12
371
- rum_ 12
372
- mp 12
373
- oru 11
374
- _pai 11
375
- _te 11
376
- _g 11
377
- _it 11
378
- ain_ 11
379
- here 11
380
- yo 11
381
- _al 11
382
- fo 11
383
- orum 11
384
- equ 11
385
- _se 11
386
- The 11
387
- cons 11
388
- cc 11
389
- nce 11
390
- _y 11
391
- ib 11
392
- _us 11
393
- pain 11
394
- pai 11
395
- _pain 11
396
- _cons 11
397
- _T 11
398
- B 11
399
- eq 11
400
- oi 11
365
+ _th_ 16
366
+ am 16
367
+ tion_ 16
368
+ _word 16
369
+ pl 16
370
+ hat 15
371
+ ds 15
372
+ _Brit 15
373
+ or_ 15
374
+ ran 15
375
+ Brit 15
376
+ en_ 15
377
+ ev 15
378
+ iti 15
379
+ wh 15
380
+ O 15
381
+ _wi 15
382
+ ant 15
383
+ lat 15
384
+ Bri 15
385
+ hat_ 15
386
+ do 15
387
+ land 15
388
+ _Bri 15
389
+ ges_ 15
390
+ ad 15
391
+ _no 15
392
+ _wh 15
393
+ wa 15
394
+ ac 15
395
+ Nor 15
396
+ op 15
397
+ ex 15
398
+ me_ 15
399
+ mi 15
400
+ _ha 15