scylla 0.5.0 → 0.6.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -12,20 +12,20 @@ j 171
12
12
  v 148
13
13
  k 146
14
14
  d 137
15
- e_ 121
15
+ e_ 122
16
16
  z 119
17
17
  y 119
18
18
  p 117
19
- a_ 105
19
+ a_ 106
20
20
  m 97
21
21
  c 89
22
22
  _s 88
23
- o_ 84
23
+ o_ 85
24
24
  je 78
25
25
  i_ 73
26
26
  cy 70
27
- _p 69
28
27
  _n 69
28
+ _p 69
29
29
  u 61
30
30
  b 60
31
31
  , 58
@@ -40,361 +40,361 @@ _z 48
40
40
  g 48
41
41
  je_ 47
42
42
  al 46
43
- _je 45
44
43
  . 45
45
- se 44
44
+ _je 45
46
45
  in 44
46
+ se 44
47
47
  po 43
48
48
  h 42
49
49
  la 41
50
- el 40
51
50
  no 40
51
+ el 40
52
52
  ye 39
53
53
  _k 38
54
54
  ti 38
55
- il 37
56
55
  en 37
57
- _je_ 36
56
+ il 37
58
57
  re 36
58
+ _je_ 36
59
59
  n_ 35
60
60
  ne 35
61
- ko 34
62
61
  pr 34
62
+ ko 34
63
+ ja 33
63
64
  lo 33
64
- va 33
65
65
  de 33
66
- ja 33
66
+ va 33
67
+ ._ 31
68
+ _na 31
67
69
  ov 31
68
70
  _po 31
69
71
  ka 31
70
72
  ve 31
71
- _na 31
72
- ._ 31
73
- _i 30
74
- le 30
75
73
  _d 30
74
+ le 30
75
+ _i 30
76
76
  ri 29
77
- an 29
78
77
  nj 29
79
78
  za 29
80
- te 28
81
- li 28
82
- aj 28
83
- _m 28
79
+ an 29
80
+ aj 29
84
81
  od 28
82
+ _m 28
85
83
  zy 28
84
+ li 28
85
+ te 28
86
+ _se 27
86
87
  l_ 27
87
88
  et 27
88
- _se 27
89
89
  _o 26
90
90
  _t 26
91
+ v_ 25
91
92
  ro 25
92
93
  ek 25
93
94
  da 25
95
+ _b 24
94
96
  ih 24
95
97
  ed 24
96
- v_ 24
97
- _b 24
98
98
  yi 23
99
+ ocy 23
99
100
  to 23
100
101
  oc 23
101
- ocy 23
102
+ se_ 22
102
103
  ad 22
103
104
  _pr 22
104
- se_ 22
105
+ _se_ 21
105
106
  es 21
106
107
  _za 21
107
- so 21
108
- _se_ 21
109
108
  _r 21
109
+ so 21
110
+ ji 20
110
111
  tr 20
112
+ ob 20
111
113
  ih_ 20
112
- ji 20
113
114
  ar 20
114
- h_ 20
115
115
  em 20
116
- ob 20
117
- _v_ 19
118
- is 19
119
- ic 19
120
- ya 19
116
+ h_ 20
117
+ ic 20
121
118
  az 19
119
+ _v_ 19
122
120
  lo_ 19
123
- r_ 18
124
- er 18
125
- cye 18
126
- la_ 18
121
+ ya 19
122
+ is 19
127
123
  _in 18
128
- mo 18
129
124
  ak 18
125
+ er 18
130
126
  ta 18
127
+ la_ 18
128
+ r_ 18
131
129
  iz 18
132
- lj 17
133
- mi 17
134
- ki 17
130
+ mo 18
131
+ cye 18
132
+ bi 17
133
+ os 17
135
134
  in_ 17
136
135
  _ne 17
137
- on 17
138
- as 17
136
+ ki 17
137
+ mi 17
139
138
  _in_ 17
140
- ga 17
141
- os 17
139
+ lj 17
142
140
  sy 17
143
- bi 17
144
- ik 16
145
- ot 16
146
- ns 16
141
+ as 17
142
+ ga 17
143
+ on 17
144
+ t_ 16
147
145
  pre 16
146
+ ns 16
148
147
  ec 16
149
148
  og 16
149
+ ot 16
150
+ ik 16
150
151
  pa 16
151
- na_ 15
152
- m_ 15
153
- _so 15
154
- no_ 15
155
- sa 15
156
- kr 15
157
- at 15
158
152
  u_ 15
159
- ol 15
153
+ sa 15
160
154
  av 15
161
155
  or 15
156
+ m_ 15
157
+ kr 15
158
+ no_ 15
159
+ ol 15
160
+ na_ 15
162
161
  so_ 15
163
- zye 14
162
+ _so 15
163
+ at 15
164
+ yn 14
164
165
  dn 14
166
+ nje 14
167
+ cyi 14
168
+ om 14
165
169
  im 14
166
- j_ 14
167
170
  di 14
171
+ j_ 14
168
172
  ecy 14
173
+ zye 14
169
174
  vo 14
170
- yn 14
171
- cyi 14
172
- nje 14
173
- t_ 14
174
- om 14
175
- ev 13
176
175
  raz 13
176
+ ne_ 13
177
177
  ke 13
178
- ins 13
179
- me 13
180
- ye_ 13
181
- _pre 13
178
+ _bi 13
182
179
  i, 13
183
- ne_ 13
184
- go 13
185
180
  ap 13
181
+ go 13
182
+ ye_ 13
186
183
  z_ 13
187
- ir 13
188
- _bi 13
184
+ _pre 13
189
185
  ez 13
186
+ ev 13
190
187
  _ve 13
191
- do 12
192
- sto 12
193
- cya 12
194
- eg 12
188
+ me 13
189
+ ir 13
190
+ ins 13
191
+ _st 12
192
+ a, 12
193
+ ok 12
195
194
  vi 12
195
+ ko_ 12
196
+ cya 12
196
197
  ij 12
197
- ja_ 12
198
- ova 12
198
+ eg 12
199
+ sto 12
199
200
  li_ 12
200
- bil 12
201
- ok 12
202
- - 12
203
- ko_ 12
204
- ti_ 12
205
- _ko 12
206
- _st 12
207
201
  _na_ 12
208
202
  i,_ 12
209
- a, 12
210
- _bil 11
203
+ do 12
204
+ ova 12
205
+ ti_ 12
206
+ - 12
207
+ ja_ 12
208
+ _ko 12
209
+ bil 12
210
+ cyn 11
211
+ da_ 11
211
212
  elo 11
212
213
  _ra 11
213
- _ni 11
214
- _c 11
215
- jo 11
216
- ilo 11
217
- ala 11
218
- da_ 11
219
- ni_ 11
220
- cyn 11
221
- nst 11
222
214
  _iz 11
215
+ nst 11
223
216
  _so_ 11
224
- del 11
225
- sk 11
226
217
  ga_ 11
218
+ sk 11
219
+ ilo 11
220
+ ala 11
221
+ del 11
227
222
  __ 11
228
- nsto 10
223
+ _c 11
224
+ jo 11
225
+ _ni 11
226
+ ni_ 11
227
+ _bil 11
228
+ aj_ 10
229
+ W 10
229
230
  _g 10
230
- inst 10
231
+ Winst 10
232
+ Wi 10
233
+ ali 10
234
+ icy 10
235
+ it 10
236
+ un 10
237
+ nston 10
238
+ ln 10
239
+ anj 10
231
240
  insto 10
232
- ala_ 10
241
+ nsto 10
233
242
  ston 10
243
+ Win 10
234
244
  _da 10
235
- eti 10
236
- un 10
237
- nston 10
238
- Wins 10
239
- Wi 10
240
- _mo 10
241
- Winst 10
245
+ ac 10
242
246
  ost 10
243
- Win 10
247
+ ala_ 10
244
248
  ton 10
245
- ln 10
246
- anj 10
247
- am 10
248
- it 10
249
- aj_ 10
250
- W 10
249
+ _mo 10
251
250
  _l 10
252
- ac 10
253
- ali 10
251
+ Wins 10
252
+ inst 10
253
+ eti 10
254
+ am 10
254
255
  yal 10
255
- le_ 9
256
- nic 9
257
- il_ 9
258
- em_ 9
259
- br 9
260
- acy 9
261
256
  rj 9
262
- nu 9
263
- ilo_ 9
257
+ br 9
258
+ il_ 9
264
259
  jen 9
265
- _pa 9
266
- kra 9
267
- icy 9
260
+ elo_ 9
268
261
  ce 9
262
+ kra 9
263
+ nu 9
264
+ em_ 9
265
+ ilo_ 9
269
266
  al_ 9
270
267
  oz 9
271
- elo_ 9
268
+ y_ 9
269
+ nic 9
270
+ le_ 9
271
+ _pa 9
272
+ acy 9
272
273
  pi 9
274
+ za_ 8
275
+ ze 8
276
+ _do 8
273
277
  a,_ 8
274
278
  ej 8
275
- ran 8
276
- ali_ 8
279
+ ese 8
280
+ _cy 8
281
+ ezy 8
282
+ vr 8
283
+ ma 8
284
+ ah 8
285
+ bo 8
286
+ tv 8
277
287
  imi 8
278
- o. 8
279
288
  d_ 8
289
+ yil 8
290
+ _nj 8
291
+ val 8
292
+ ali_ 8
280
293
  rat 8
294
+ cy_ 8
281
295
  _zy 8
282
- ma 8
283
- pe 8
284
- yil 8
285
- ese 8
286
- O 8
287
- _ka 8
288
- tv 8
289
- _do 8
290
- ze 8
291
- kl 8
292
- _cy 8
293
296
  k_ 8
294
- vr 8
297
+ _ka 8
298
+ ist 8
295
299
  stv 8
296
- val 8
297
- y_ 8
300
+ pe 8
301
+ kl 8
302
+ ran 8
303
+ O 8
304
+ o. 8
298
305
  a. 8
299
- ist 8
300
- ezy 8
301
- ah 8
302
- _nj 8
303
- bo 8
304
- var 7
305
- cy_ 7
306
- pol 7
307
- ega 7
308
- dr 7
309
- sti 7
306
+ kih 7
307
+ dno 7
310
308
  nost 7
311
- sed 7
312
- I 7
313
- ji_ 7
314
- str 7
315
- eni 7
309
+ var 7
310
+ ste 7
316
311
  yno 7
317
- _od 7
318
- za_ 7
319
- e,_ 7
312
+ kih_ 7
320
313
  pri 7
321
- o._ 7
322
- _de 7
314
+ ep 7
315
+ _ko_ 7
316
+ nov 7
317
+ ci 7
323
318
  _ob 7
324
- op 7
319
+ _od 7
320
+ o,_ 7
321
+ dr 7
325
322
  _kr 7
326
- ste 7
327
323
  en_ 7
324
+ _le 7
325
+ o, 7
328
326
  pa_ 7
329
- nov 7
330
327
  tak 7
331
- kih 7
332
328
  nih 7
333
- el_ 7
334
- o,_ 7
335
- e, 7
336
- _le 7
337
- _da_ 7
338
- _V 7
339
- ci 7
340
- ep 7
329
+ e,_ 7
330
+ op 7
341
331
  S 7
342
- kih_ 7
343
- ju 7
332
+ e, 7
344
333
  set 7
334
+ sti 7
335
+ _da_ 7
336
+ o._ 7
337
+ pol 7
345
338
  tem 7
346
- dno 7
347
- nos 7
339
+ et_ 7
340
+ cye_ 7
341
+ _V 7
342
+ eni 7
343
+ I 7
348
344
  ocye 7
345
+ ega 7
349
346
  V 7
350
- cye_ 7
351
- o, 7
352
- _ko_ 7
353
- _pol 6
354
- _te 6
355
- cyno 6
356
- to_ 6
357
- T 6
347
+ nos 7
348
+ str 7
349
+ _de 7
350
+ ju 7
351
+ sed 7
352
+ ji_ 7
353
+ el_ 7
354
+ eset 6
355
+ nicy 6
356
+ stvar 6
357
+ _za_ 6
358
+ deset 6
359
+ _raz 6
360
+ ved 6
361
+ _Wins 6
362
+ vec 6
363
+ aja 6
364
+ lad 6
365
+ _- 6
366
+ eka 6
358
367
  or_ 6
359
- yno_ 6
360
- dese 6
361
- ede 6
362
- -- 6
363
- zap 6
364
- tk 6
365
- des 6
366
- iv 6
367
- ecye 6
368
- tvar 6
369
- _nje 6
370
- on_ 6
371
- nih_ 6
372
- nja 6
373
368
  _a 6
369
+ _Win 6
370
+ _W 6
371
+ -- 6
374
372
  va_ 6
375
- be 6
376
- sn 6
373
+ vs 6
377
374
  ale 6
375
+ _pol 6
378
376
  dal 6
379
- _re 6
380
- _pri 6
381
- vs 6
382
- _- 6
377
+ be 6
378
+ eli 6
379
+ vl 6
383
380
  zya 6
384
- mog 6
385
- nik 6
386
- nil 6
387
- stvar 6
381
+ tvar 6
382
+ stva 6
383
+ _re 6
384
+ T 6
385
+ ston_ 6
386
+ dese 6
387
+ _ta 6
388
+ _stva 6
389
+ ecye 6
390
+ yno_ 6
388
391
  _u 6
389
- lad 6
392
+ _mi 6
393
+ on_ 6
394
+ tva 6
395
+ iv 6
396
+ nik 6
397
+ nja 6
398
+ _te 6
390
399
  gl 6
391
- _-- 6
392
- _stv 6
393
- i. 6
394
- vec 6
395
- _ta 6
396
- et_ 6
397
- ved 6
398
- ton_ 6
399
- si 6
400
- er_ 6
400
+ ki_ 6