scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -12,20 +12,20 @@ j 171
12
12
  v 148
13
13
  k 146
14
14
  d 137
15
- e_ 121
15
+ e_ 122
16
16
  z 119
17
17
  y 119
18
18
  p 117
19
- a_ 105
19
+ a_ 106
20
20
  m 97
21
21
  c 89
22
22
  _s 88
23
- o_ 84
23
+ o_ 85
24
24
  je 78
25
25
  i_ 73
26
26
  cy 70
27
- _p 69
28
27
  _n 69
28
+ _p 69
29
29
  u 61
30
30
  b 60
31
31
  , 58
@@ -40,361 +40,361 @@ _z 48
40
40
  g 48
41
41
  je_ 47
42
42
  al 46
43
- _je 45
44
43
  . 45
45
- se 44
44
+ _je 45
46
45
  in 44
46
+ se 44
47
47
  po 43
48
48
  h 42
49
49
  la 41
50
- el 40
51
50
  no 40
51
+ el 40
52
52
  ye 39
53
53
  _k 38
54
54
  ti 38
55
- il 37
56
55
  en 37
57
- _je_ 36
56
+ il 37
58
57
  re 36
58
+ _je_ 36
59
59
  n_ 35
60
60
  ne 35
61
- ko 34
62
61
  pr 34
62
+ ko 34
63
+ ja 33
63
64
  lo 33
64
- va 33
65
65
  de 33
66
- ja 33
66
+ va 33
67
+ ._ 31
68
+ _na 31
67
69
  ov 31
68
70
  _po 31
69
71
  ka 31
70
72
  ve 31
71
- _na 31
72
- ._ 31
73
- _i 30
74
- le 30
75
73
  _d 30
74
+ le 30
75
+ _i 30
76
76
  ri 29
77
- an 29
78
77
  nj 29
79
78
  za 29
80
- te 28
81
- li 28
82
- aj 28
83
- _m 28
79
+ an 29
80
+ aj 29
84
81
  od 28
82
+ _m 28
85
83
  zy 28
84
+ li 28
85
+ te 28
86
+ _se 27
86
87
  l_ 27
87
88
  et 27
88
- _se 27
89
89
  _o 26
90
90
  _t 26
91
+ v_ 25
91
92
  ro 25
92
93
  ek 25
93
94
  da 25
95
+ _b 24
94
96
  ih 24
95
97
  ed 24
96
- v_ 24
97
- _b 24
98
98
  yi 23
99
+ ocy 23
99
100
  to 23
100
101
  oc 23
101
- ocy 23
102
+ se_ 22
102
103
  ad 22
103
104
  _pr 22
104
- se_ 22
105
+ _se_ 21
105
106
  es 21
106
107
  _za 21
107
- so 21
108
- _se_ 21
109
108
  _r 21
109
+ so 21
110
+ ji 20
110
111
  tr 20
112
+ ob 20
111
113
  ih_ 20
112
- ji 20
113
114
  ar 20
114
- h_ 20
115
115
  em 20
116
- ob 20
117
- _v_ 19
118
- is 19
119
- ic 19
120
- ya 19
116
+ h_ 20
117
+ ic 20
121
118
  az 19
119
+ _v_ 19
122
120
  lo_ 19
123
- r_ 18
124
- er 18
125
- cye 18
126
- la_ 18
121
+ ya 19
122
+ is 19
127
123
  _in 18
128
- mo 18
129
124
  ak 18
125
+ er 18
130
126
  ta 18
127
+ la_ 18
128
+ r_ 18
131
129
  iz 18
132
- lj 17
133
- mi 17
134
- ki 17
130
+ mo 18
131
+ cye 18
132
+ bi 17
133
+ os 17
135
134
  in_ 17
136
135
  _ne 17
137
- on 17
138
- as 17
136
+ ki 17
137
+ mi 17
139
138
  _in_ 17
140
- ga 17
141
- os 17
139
+ lj 17
142
140
  sy 17
143
- bi 17
144
- ik 16
145
- ot 16
146
- ns 16
141
+ as 17
142
+ ga 17
143
+ on 17
144
+ t_ 16
147
145
  pre 16
146
+ ns 16
148
147
  ec 16
149
148
  og 16
149
+ ot 16
150
+ ik 16
150
151
  pa 16
151
- na_ 15
152
- m_ 15
153
- _so 15
154
- no_ 15
155
- sa 15
156
- kr 15
157
- at 15
158
152
  u_ 15
159
- ol 15
153
+ sa 15
160
154
  av 15
161
155
  or 15
156
+ m_ 15
157
+ kr 15
158
+ no_ 15
159
+ ol 15
160
+ na_ 15
162
161
  so_ 15
163
- zye 14
162
+ _so 15
163
+ at 15
164
+ yn 14
164
165
  dn 14
166
+ nje 14
167
+ cyi 14
168
+ om 14
165
169
  im 14
166
- j_ 14
167
170
  di 14
171
+ j_ 14
168
172
  ecy 14
173
+ zye 14
169
174
  vo 14
170
- yn 14
171
- cyi 14
172
- nje 14
173
- t_ 14
174
- om 14
175
- ev 13
176
175
  raz 13
176
+ ne_ 13
177
177
  ke 13
178
- ins 13
179
- me 13
180
- ye_ 13
181
- _pre 13
178
+ _bi 13
182
179
  i, 13
183
- ne_ 13
184
- go 13
185
180
  ap 13
181
+ go 13
182
+ ye_ 13
186
183
  z_ 13
187
- ir 13
188
- _bi 13
184
+ _pre 13
189
185
  ez 13
186
+ ev 13
190
187
  _ve 13
191
- do 12
192
- sto 12
193
- cya 12
194
- eg 12
188
+ me 13
189
+ ir 13
190
+ ins 13
191
+ _st 12
192
+ a, 12
193
+ ok 12
195
194
  vi 12
195
+ ko_ 12
196
+ cya 12
196
197
  ij 12
197
- ja_ 12
198
- ova 12
198
+ eg 12
199
+ sto 12
199
200
  li_ 12
200
- bil 12
201
- ok 12
202
- - 12
203
- ko_ 12
204
- ti_ 12
205
- _ko 12
206
- _st 12
207
201
  _na_ 12
208
202
  i,_ 12
209
- a, 12
210
- _bil 11
203
+ do 12
204
+ ova 12
205
+ ti_ 12
206
+ - 12
207
+ ja_ 12
208
+ _ko 12
209
+ bil 12
210
+ cyn 11
211
+ da_ 11
211
212
  elo 11
212
213
  _ra 11
213
- _ni 11
214
- _c 11
215
- jo 11
216
- ilo 11
217
- ala 11
218
- da_ 11
219
- ni_ 11
220
- cyn 11
221
- nst 11
222
214
  _iz 11
215
+ nst 11
223
216
  _so_ 11
224
- del 11
225
- sk 11
226
217
  ga_ 11
218
+ sk 11
219
+ ilo 11
220
+ ala 11
221
+ del 11
227
222
  __ 11
228
- nsto 10
223
+ _c 11
224
+ jo 11
225
+ _ni 11
226
+ ni_ 11
227
+ _bil 11
228
+ aj_ 10
229
+ W 10
229
230
  _g 10
230
- inst 10
231
+ Winst 10
232
+ Wi 10
233
+ ali 10
234
+ icy 10
235
+ it 10
236
+ un 10
237
+ nston 10
238
+ ln 10
239
+ anj 10
231
240
  insto 10
232
- ala_ 10
241
+ nsto 10
233
242
  ston 10
243
+ Win 10
234
244
  _da 10
235
- eti 10
236
- un 10
237
- nston 10
238
- Wins 10
239
- Wi 10
240
- _mo 10
241
- Winst 10
245
+ ac 10
242
246
  ost 10
243
- Win 10
247
+ ala_ 10
244
248
  ton 10
245
- ln 10
246
- anj 10
247
- am 10
248
- it 10
249
- aj_ 10
250
- W 10
249
+ _mo 10
251
250
  _l 10
252
- ac 10
253
- ali 10
251
+ Wins 10
252
+ inst 10
253
+ eti 10
254
+ am 10
254
255
  yal 10
255
- le_ 9
256
- nic 9
257
- il_ 9
258
- em_ 9
259
- br 9
260
- acy 9
261
256
  rj 9
262
- nu 9
263
- ilo_ 9
257
+ br 9
258
+ il_ 9
264
259
  jen 9
265
- _pa 9
266
- kra 9
267
- icy 9
260
+ elo_ 9
268
261
  ce 9
262
+ kra 9
263
+ nu 9
264
+ em_ 9
265
+ ilo_ 9
269
266
  al_ 9
270
267
  oz 9
271
- elo_ 9
268
+ y_ 9
269
+ nic 9
270
+ le_ 9
271
+ _pa 9
272
+ acy 9
272
273
  pi 9
274
+ za_ 8
275
+ ze 8
276
+ _do 8
273
277
  a,_ 8
274
278
  ej 8
275
- ran 8
276
- ali_ 8
279
+ ese 8
280
+ _cy 8
281
+ ezy 8
282
+ vr 8
283
+ ma 8
284
+ ah 8
285
+ bo 8
286
+ tv 8
277
287
  imi 8
278
- o. 8
279
288
  d_ 8
289
+ yil 8
290
+ _nj 8
291
+ val 8
292
+ ali_ 8
280
293
  rat 8
294
+ cy_ 8
281
295
  _zy 8
282
- ma 8
283
- pe 8
284
- yil 8
285
- ese 8
286
- O 8
287
- _ka 8
288
- tv 8
289
- _do 8
290
- ze 8
291
- kl 8
292
- _cy 8
293
296
  k_ 8
294
- vr 8
297
+ _ka 8
298
+ ist 8
295
299
  stv 8
296
- val 8
297
- y_ 8
300
+ pe 8
301
+ kl 8
302
+ ran 8
303
+ O 8
304
+ o. 8
298
305
  a. 8
299
- ist 8
300
- ezy 8
301
- ah 8
302
- _nj 8
303
- bo 8
304
- var 7
305
- cy_ 7
306
- pol 7
307
- ega 7
308
- dr 7
309
- sti 7
306
+ kih 7
307
+ dno 7
310
308
  nost 7
311
- sed 7
312
- I 7
313
- ji_ 7
314
- str 7
315
- eni 7
309
+ var 7
310
+ ste 7
316
311
  yno 7
317
- _od 7
318
- za_ 7
319
- e,_ 7
312
+ kih_ 7
320
313
  pri 7
321
- o._ 7
322
- _de 7
314
+ ep 7
315
+ _ko_ 7
316
+ nov 7
317
+ ci 7
323
318
  _ob 7
324
- op 7
319
+ _od 7
320
+ o,_ 7
321
+ dr 7
325
322
  _kr 7
326
- ste 7
327
323
  en_ 7
324
+ _le 7
325
+ o, 7
328
326
  pa_ 7
329
- nov 7
330
327
  tak 7
331
- kih 7
332
328
  nih 7
333
- el_ 7
334
- o,_ 7
335
- e, 7
336
- _le 7
337
- _da_ 7
338
- _V 7
339
- ci 7
340
- ep 7
329
+ e,_ 7
330
+ op 7
341
331
  S 7
342
- kih_ 7
343
- ju 7
332
+ e, 7
344
333
  set 7
334
+ sti 7
335
+ _da_ 7
336
+ o._ 7
337
+ pol 7
345
338
  tem 7
346
- dno 7
347
- nos 7
339
+ et_ 7
340
+ cye_ 7
341
+ _V 7
342
+ eni 7
343
+ I 7
348
344
  ocye 7
345
+ ega 7
349
346
  V 7
350
- cye_ 7
351
- o, 7
352
- _ko_ 7
353
- _pol 6
354
- _te 6
355
- cyno 6
356
- to_ 6
357
- T 6
347
+ nos 7
348
+ str 7
349
+ _de 7
350
+ ju 7
351
+ sed 7
352
+ ji_ 7
353
+ el_ 7
354
+ eset 6
355
+ nicy 6
356
+ stvar 6
357
+ _za_ 6
358
+ deset 6
359
+ _raz 6
360
+ ved 6
361
+ _Wins 6
362
+ vec 6
363
+ aja 6
364
+ lad 6
365
+ _- 6
366
+ eka 6
358
367
  or_ 6
359
- yno_ 6
360
- dese 6
361
- ede 6
362
- -- 6
363
- zap 6
364
- tk 6
365
- des 6
366
- iv 6
367
- ecye 6
368
- tvar 6
369
- _nje 6
370
- on_ 6
371
- nih_ 6
372
- nja 6
373
368
  _a 6
369
+ _Win 6
370
+ _W 6
371
+ -- 6
374
372
  va_ 6
375
- be 6
376
- sn 6
373
+ vs 6
377
374
  ale 6
375
+ _pol 6
378
376
  dal 6
379
- _re 6
380
- _pri 6
381
- vs 6
382
- _- 6
377
+ be 6
378
+ eli 6
379
+ vl 6
383
380
  zya 6
384
- mog 6
385
- nik 6
386
- nil 6
387
- stvar 6
381
+ tvar 6
382
+ stva 6
383
+ _re 6
384
+ T 6
385
+ ston_ 6
386
+ dese 6
387
+ _ta 6
388
+ _stva 6
389
+ ecye 6
390
+ yno_ 6
388
391
  _u 6
389
- lad 6
392
+ _mi 6
393
+ on_ 6
394
+ tva 6
395
+ iv 6
396
+ nik 6
397
+ nja 6
398
+ _te 6
390
399
  gl 6
391
- _-- 6
392
- _stv 6
393
- i. 6
394
- vec 6
395
- _ta 6
396
- et_ 6
397
- ved 6
398
- ton_ 6
399
- si 6
400
- er_ 6
400
+ ki_ 6