scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -11,390 +11,390 @@ s 194
11
11
  o 188
12
12
  l 174
13
13
  e_ 170
14
- a_ 155
14
+ a_ 158
15
15
  d 115
16
16
  m 114
17
17
  p 113
18
- i_ 108
18
+ i_ 112
19
19
  in 101
20
- _c 92
20
+ _c 93
21
21
  ar 87
22
- _s 75
22
+ _s 76
23
23
  re 71
24
24
  _d 69
25
25
  , 66
26
- de 64
27
26
  _a 64
27
+ de 64
28
28
  ra 63
29
29
  at 62
30
30
  f 57
31
- _p 55
31
+ _p 56
32
32
  ,_ 54
33
33
  st 53
34
34
  ta 53
35
35
  ti 51
36
+ n_ 50
36
37
  ca 50
37
38
  te 50
38
- n_ 50
39
39
  si 47
40
40
  u_ 46
41
- _i 45
42
41
  un 45
42
+ _i 45
43
43
  _de 43
44
44
  g 42
45
- ri 41
46
45
  ce 41
46
+ ri 41
47
+ _m 41
47
48
  nt 41
48
49
  ul 40
49
- _m 39
50
- or 39
51
50
  b 39
52
- _o 38
51
+ or 39
52
+ es 39
53
53
  de_ 38
54
- es 38
54
+ _o 38
55
55
  _in 38
56
56
  la 37
57
+ ma 37
57
58
  are 37
58
- _ca 36
59
- ma 35
59
+ _ca 37
60
+ t_ 35
60
61
  tr 34
61
62
  . 34
62
- t_ 33
63
- ea 33
64
63
  ci 33
65
64
  _f 33
66
- _de_ 32
65
+ ea 33
67
66
  el 32
68
- ia 30
69
- oa 30
67
+ _de_ 32
70
68
  ni 30
71
- ta_ 29
72
- in_ 29
73
- se 29
69
+ oa 30
70
+ ia 30
74
71
  te_ 29
75
72
  v 29
73
+ se 29
74
+ ta_ 29
76
75
  cu 29
76
+ in_ 29
77
77
  _si 28
78
+ _u 28
79
+ l_ 27
78
80
  as 27
79
81
  z 27
80
82
  re_ 27
81
- _u 27
83
+ ac 26
82
84
  si_ 26
83
- l_ 26
84
- le 26
85
85
  ic 26
86
- an 26
87
- ac 26
88
- ne 26
89
86
  _l 26
87
+ le 26
88
+ ne 26
89
+ an 26
90
90
  _t 25
91
91
  pe 25
92
92
  li 25
93
- ei 24
94
- int 24
93
+ ei 25
94
+ _ma 25
95
+ _un 24
95
96
  er 24
96
- are_ 23
97
- _un 23
98
- lu 23
97
+ int 24
99
98
  est 23
99
+ lu 23
100
+ sa 23
101
+ are_ 23
100
102
  ie 22
101
- la_ 22
102
103
  ste 22
104
+ la_ 22
103
105
  pa 22
104
- sa 21
105
- _ma 21
106
106
  car 21
107
- e, 20
108
- il 20
107
+ it 20
109
108
  na 20
110
109
  _e 20
110
+ il 20
111
111
  al 20
112
- it 20
113
- _pe 19
114
- da 19
115
- en 19
116
- ai 19
117
- _n 19
112
+ e, 20
118
113
  to 19
119
- ii 19
120
114
  _si_ 19
115
+ ai 19
116
+ da 19
117
+ ii 19
118
+ _pe 19
119
+ _n 19
121
120
  care 19
121
+ en 19
122
122
  _cu 18
123
- ap 18
123
+ este 18
124
+ ui 18
124
125
  ara 18
126
+ ata 18
127
+ ap 18
125
128
  o_ 18
126
129
  cu_ 18
127
- ata 18
128
- ui 18
129
130
  au 18
130
- este 18
131
- lo 17
132
131
  am 17
132
+ _sa 17
133
133
  _in_ 17
134
134
  me 17
135
+ _car 17
136
+ lo 17
135
137
  D 17
136
- co 16
137
- care_ 16
138
- _care 16
139
- fa 16
138
+ r_ 17
140
139
  ra_ 16
141
140
  om 16
142
- r_ 16
143
- un_ 16
144
- _car 16
145
- ._ 16
141
+ ru 16
142
+ sa_ 16
143
+ fa 16
146
144
  pr 16
147
- este_ 15
145
+ co 16
146
+ ._ 16
147
+ _care 16
148
+ care_ 16
149
+ un_ 16
148
150
  pe_ 15
149
- h 15
150
- ste_ 15
151
- ru 15
152
151
  _cu_ 15
153
- _o_ 15
152
+ a, 15
153
+ ste_ 15
154
154
  e,_ 15
155
155
  ul_ 15
156
- _sa 15
157
- se_ 15
156
+ h 15
157
+ este_ 15
158
+ _o_ 15
158
159
  rt 15
159
- sa_ 14
160
- nu 14
161
- ca_ 14
162
- le_ 14
163
- a, 14
164
- tra 14
165
- is 14
160
+ se_ 15
166
161
  _b 14
167
- _v 14
168
- ata_ 14
169
- ace 14
170
162
  _ce 14
163
+ tra 14
171
164
  ur 14
172
- tu 14
165
+ ca_ 14
166
+ ei_ 14
167
+ le_ 14
173
168
  _se 14
174
- zi 13
175
- au_ 13
176
- sc 13
169
+ nu 14
170
+ is 14
171
+ tu 14
172
+ ace 14
173
+ ata_ 14
174
+ _v 14
175
+ io 13
177
176
  mi 13
177
+ a,_ 13
178
+ ot 13
179
+ sc 13
178
180
  lui 13
181
+ zi 13
179
182
  mu 13
180
- ot 13
181
- io 13
182
- a,_ 13
183
+ __ 13
184
+ au_ 13
185
+ _sa_ 12
186
+ fe 12
187
+ oar 12
183
188
  nd 12
184
- bi 12
185
- po 12
186
- ei_ 12
187
- ve 12
188
- na_ 12
189
- ut 12
190
- ii_ 12
191
- ec 12
192
- _ac 12
193
189
  ele 12
194
- oar 12
195
- os 12
196
- pi 12
197
- fe 12
198
190
  _fa 12
199
- __ 12
191
+ ec 12
192
+ os 12
193
+ _un_ 12
194
+ ut 12
195
+ ve 12
196
+ po 12
200
197
  ui_ 12
198
+ bi 12
199
+ pi 12
200
+ na_ 12
201
+ _ac 12
202
+ ii_ 12
203
+ _r 11
201
204
  ir 11
202
205
  _pe_ 11
203
- um 11
206
+ ci_ 11
204
207
  tat 11
205
- _un_ 11
206
- di 11
207
- E 11
208
208
  _se_ 11
209
- _r 11
210
- ent 11
211
- fo 11
212
209
  et 11
210
+ E 11
211
+ um 11
213
212
  ea_ 11
214
- at_ 10
215
- _es 10
216
- op 10
217
- ci_ 10
218
- ici 10
219
- _sa_ 10
220
- ai_ 10
221
- " 10
222
- I 10
213
+ ent 11
214
+ fo 11
215
+ di 11
216
+ ntr 10
223
217
  pu 10
224
- i, 10
225
- ulu 10
218
+ _co 10
226
219
  cel 10
227
- _pa 10
228
220
  _est 10
229
- _la 10
221
+ ne_ 10
222
+ at_ 10
223
+ _este 10
224
+ ai_ 10
225
+ op 10
226
+ _pa 10
230
227
  ol 10
231
228
  im 10
232
- ntr 10
233
- _este 10
234
- _co 10
229
+ ulu 10
235
230
  ga 10
236
- ne_ 10
231
+ i, 10
232
+ _es 10
233
+ ici 10
234
+ _la 10
235
+ hi 9
236
+ _ar 9
237
+ ele_ 9
238
+ iu 9
239
+ su 9
240
+ sta 9
237
241
  mo 9
238
- _nu 9
239
- or_ 9
240
- _la_ 9
241
- ului 9
242
- ori 9
243
- ati 9
242
+ id 9
244
243
  ns 9
245
244
  on 9
246
- su 9
247
245
  _ca_ 9
248
- A 9
249
- ele_ 9
250
- iu 9
251
- _ar 9
252
- hi 9
246
+ ati 9
247
+ ori 9
248
+ or_ 9
249
+ ului 9
250
+ _la_ 9
251
+ _nu 9
253
252
  _di 9
254
- sta 9
253
+ tru 9
254
+ A 9
255
255
  lui_ 9
256
- id 9
256
+ _D 9
257
+ i. 8
257
258
  i,_ 8
258
- _int 8
259
259
  ad 8
260
- une 8
261
- _D 8
262
- _lu 8
263
- i. 8
264
- _ace 8
265
- _g 8
266
- tru 8
267
- ine 8
268
- oc 8
269
- ost 8
270
- dat 8
271
- mar 8
260
+ ce_ 8
261
+ mai 8
262
+ tie 8
263
+ nc 8
272
264
  ate 8
273
- em 8
274
- ini 8
275
265
  ng 8
276
- gi 8
277
- nc 8
278
- mai 8
279
266
  _a_ 8
280
- _fo 8
267
+ str 8
268
+ mai_ 8
269
+ lt 8
270
+ lor 8
271
+ nic 8
272
+ oc 8
273
+ em 8
274
+ ia_ 8
281
275
  mul 8
282
- par 8
276
+ ost 8
277
+ _fo 8
283
278
  ti_ 8
284
- lor 8
285
- mai_ 8
286
- ce_ 8
279
+ I 8
280
+ une 8
281
+ _g 8
282
+ gi 8
283
+ dat 8
284
+ par 8
285
+ _lu 8
287
286
  ara_ 8
288
- nic 8
289
- str 8
290
- lt 8
291
- tie 8
292
- ani 7
293
- ato 7
294
- pri 7
295
- _ci 7
296
- tin 7
287
+ ine 8
288
+ mar 8
289
+ ini 8
290
+ _int 8
291
+ _ace 8
292
+ _pr 8
293
+ min 7
294
+ din 7
295
+ _E 7
296
+ tul 7
297
+ lin 7
298
+ - 7
299
+ esc 7
300
+ ina 7
301
+ j 7
302
+ _mai 7
303
+ far 7
297
304
  art 7
298
- _din 7
299
- ran 7
305
+ cr 7
306
+ _da 7
300
307
  pl 7
308
+ _mai_ 7
309
+ tin 7
310
+ una 7
311
+ _din 7
312
+ _ci 7
301
313
  m_ 7
302
- din 7
314
+ pri 7
303
315
  ator 7
316
+ az 7
317
+ rea 7
304
318
  res 7
305
- _da 7
306
- mp 7
319
+ ani 7
307
320
  sin 7
308
- ilo 7
309
- j 7
310
- cr 7
311
- min 7
312
- tul 7
321
+ ato 7
313
322
  fi 7
314
- az 7
315
- - 7
316
- ind 7
317
- ina 7
318
- ' 7
319
- _E 7
320
- rea 7
321
- _pr 7
322
- una 7
323
+ ran 7
323
324
  _or 7
324
- do 7
325
- esc 7
326
- far 7
327
- lin 7
328
- ia_ 7
325
+ mp 7
326
+ ilo 7
327
+ ind 7
329
328
  nta 7
330
329
  tor 7
331
- oare 6
332
- oas 6
333
- rti 6
334
- _ti 6
335
- _z 6
336
- _to 6
337
- iv 6
338
- _st 6
330
+ do 7
331
+ ro 6
339
332
  ez 6
340
- eri 6
341
- ast 6
342
- rul 6
343
- _tr 6
333
+ C 6
334
+ lor_ 6
335
+ nde 6
344
336
  it_ 6
345
337
  pin 6
346
- nde 6
347
- _do 6
348
- s_ 6
349
- no 6
350
- nti 6
351
- iat 6
352
- _op 6
353
- tre 6
354
- ? 6
355
- ge 6
356
338
  ag 6
357
- vi 6
358
- ica 6
339
+ ie_ 6
340
+ nei 6
341
+ eri 6
342
+ _pu 6
343
+ c_ 6
344
+ ba 6
345
+ iat 6
346
+ tot 6
347
+ s_ 6
348
+ da_ 6
349
+ omu 6
350
+ gr 6
359
351
  ric 6
360
- e. 6
352
+ rti 6
353
+ ra,_ 6
361
354
  so 6
362
- C 6
363
- _mar 6
364
- man 6
355
+ no 6
356
+ bo 6
357
+ rul 6
365
358
  ch 6
366
- tot 6
367
- nu_ 6
368
- lor_ 6
369
- og 6
370
- c_ 6
371
- _po 6
372
- omu 6
373
- up 6
374
- ari 6
359
+ _op 6
375
360
  pt 6
376
- ate_ 6
377
- _mo 6
378
- _pu 6
379
- nei 6
380
- S 6
381
- ra,_ 6
382
- ba 6
383
- ro 6
384
- gr 6
385
- ilor 6
386
- ie_ 6
361
+ ari 6
362
+ _ti 6
387
363
  intr 6
364
+ _mo 6
365
+ oas 6
366
+ iv 6
367
+ e. 6
388
368
  imp 6
369
+ oare 6
370
+ st_ 6
371
+ _z 6
372
+ _do 6
373
+ ate_ 6
389
374
  _cel 6
390
- bo 6
375
+ _tr 6
376
+ S 6
377
+ tre 6
378
+ _po 6
379
+ vi 6
380
+ _st 6
381
+ og 6
382
+ ast 6
391
383
  rm 6
384
+ man 6
385
+ _mar 6
386
+ ilor 6
392
387
  ra, 6
393
- _au_ 5
388
+ nu_ 6
389
+ ica 6
390
+ ge 6
391
+ _to 6
392
+ up 6
393
+ nti 6
394
394
  P 5
395
- uti 5
396
- rin 5
395
+ ing 5
397
396
  ora 5
398
- ada 5
399
- ?_ 5
400
- ab 5
397
+ rat 5
398
+ _al 5
399
+ ril 5
400
+ ult 5