scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -8,393 +8,393 @@ r 191
8
8
  v 181
9
9
  t 164
10
10
  s 161
11
- l 150
12
11
  k 150
12
+ l 150
13
+ __ 147
13
14
  c 142
14
- __ 137
15
15
  u 130
16
16
  p 127
17
17
  d 123
18
18
  y 106
19
- a_ 98
19
+ a_ 99
20
20
  h 91
21
21
  m 88
22
22
  z 79
23
23
  na 69
24
- e_ 63
24
+ e_ 65
25
25
  . 62
26
26
  ov 62
27
27
  _p 61
28
28
  j 59
29
29
  _s 54
30
30
  ro 53
31
- _v 52
32
31
  po 52
32
+ _v 52
33
33
  b 49
34
- ch 46
35
34
  , 46
36
- ._ 45
35
+ ch 46
37
36
  o_ 45
37
+ ._ 45
38
38
  ,_ 44
39
39
  v_ 43
40
+ en 42
40
41
  u_ 42
41
42
  i_ 42
42
- en 42
43
43
  _n 41
44
44
  ne 41
45
45
  re 40
46
46
  _z 39
47
- la 38
48
47
  an 38
48
+ la 38
49
49
  st 37
50
50
  _a 36
51
51
  y_ 34
52
52
  vy 33
53
53
  _na 32
54
54
  h_ 32
55
- ie 31
56
55
  pr 31
56
+ ie 31
57
57
  od 31
58
58
  ko 30
59
+ ch_ 29
59
60
  ci 29
60
61
  er 29
61
- ch_ 29
62
62
  ti 28
63
- _o 27
64
63
  al 27
65
- ed 27
64
+ _o 27
66
65
  sk 27
66
+ ed 27
67
67
  ve 26
68
68
  na_ 26
69
- or 26
70
- ni 26
71
69
  _po 26
72
- yc 25
73
- _pr 25
74
- ac 25
70
+ ni 26
71
+ or 26
75
72
  ak 25
76
- mi 25
77
- ny 25
73
+ yc 25
78
74
  _t 25
75
+ ny 25
76
+ _pr 25
79
77
  va 25
80
- ho 24
78
+ mi 25
79
+ ac 25
80
+ to 24
81
81
  ra 24
82
+ _k 24
82
83
  in 24
83
- to 24
84
84
  ych 24
85
- _k 24
86
85
  le 24
87
- _m 23
88
- _v_ 23
86
+ ho 24
87
+ il 23
89
88
  ad 23
90
89
  tr 23
91
- il 23
90
+ _v_ 23
91
+ _m 23
92
+ ce 22
93
+ si 22
92
94
  ka 22
93
95
  no 22
94
96
  li 22
95
- si 22
96
- ce 22
97
97
  _r 21
98
98
  ia 21
99
- sa 20
100
- os 20
99
+ _,_ 20
101
100
  om 20
102
- te 20
103
101
  ok 20
104
102
  ych_ 20
103
+ sa 20
104
+ te 20
105
+ _, 20
106
+ os 20
105
107
  it 20
106
- do 19
107
108
  ta 19
108
- ku 19
109
109
  da 19
110
- _,_ 18
110
+ ku 19
111
+ do 19
111
112
  S 18
112
113
  za 18
113
- me 18
114
- _, 18
115
114
  es 18
116
- ej 17
117
- ap 17
118
- aj 17
115
+ me 18
119
116
  ov_ 17
120
117
  _na_ 17
118
+ ap 17
119
+ aj 17
120
+ ej 17
121
121
  oc 17
122
- ol 16
123
122
  pre 16
124
- el 16
125
123
  ky 16
126
- ur 16
127
- at 16
128
- on 16
124
+ _sa 16
129
125
  _a_ 16
130
126
  P 16
131
- _sa 16
127
+ ur 16
128
+ on 16
132
129
  av 16
133
- _d 15
130
+ el 16
131
+ at 16
132
+ ol 16
133
+ t_ 15
134
+ _c 15
134
135
  vo 15
135
136
  as 15
136
- t_ 15
137
+ rok 15
137
138
  lo 15
138
- % 15
139
- ic 15
140
139
  _za 15
141
- _ro 15
142
140
  ri 15
143
- rok 15
144
- _c 15
145
- nyc 14
146
- zi 14
147
- ot 14
148
- _% 14
141
+ ic 15
142
+ _d 15
143
+ _ro 15
149
144
  ke 14
150
- ob 14
151
- m_ 14
152
- nych 14
153
- N 14
154
- _b 14
145
+ ot 14
155
146
  D 14
147
+ _b 14
148
+ N 14
156
149
  nych_ 14
157
- _pre 14
158
150
  eh 14
159
- di 13
151
+ m_ 14
152
+ nych 14
153
+ zi 14
154
+ ob 14
155
+ nyc 14
156
+ _pre 14
157
+ am 13
160
158
  nu 13
161
- ln 13
162
159
  eho 13
163
160
  _vy 13
164
- am 13
161
+ ln 13
162
+ di 13
163
+ pa 12
165
164
  _ak 12
166
- ) 12
167
- sp 12
165
+ _do 12
166
+ zv 12
167
+ nt 12
168
168
  rov 12
169
+ dn 12
169
170
  _u 12
170
171
  co 12
171
- zv 12
172
- dn 12
173
- _do 12
174
- nt 12
175
- pa 12
176
- sa_ 11
172
+ sa_ 12
173
+ ne_ 12
174
+ sp 12
177
175
  n_ 11
178
- kt 11
179
- vi 11
180
176
  ho_ 11
181
- ne_ 11
182
177
  l_ 11
183
- ovy 11
178
+ j_ 11
184
179
  ny_ 11
185
- ( 11
186
180
  eho_ 11
187
- zn 11
188
- az 11
181
+ _sa_ 11
189
182
  cen 11
183
+ ovy 11
190
184
  ar 11
191
- j_ 11
185
+ vi 11
186
+ az 11
187
+ kt 11
192
188
  _tr 11
193
- ej_ 10
194
- iv 10
195
- ky_ 10
196
- pe 10
189
+ _. 11
190
+ zn 11
191
+ _N 11
192
+ g 10
193
+ k_ 10
197
194
  om_ 10
198
- _sa_ 10
195
+ - 10
196
+ pe 10
197
+ _._ 10
199
198
  nan 10
200
- ek 10
201
- k_ 10
202
- Na 10
203
- nc 10
204
- ast 10
199
+ iv 10
200
+ oz 10
201
+ _j 10
205
202
  du 10
206
- _N 10
207
- _( 10
208
- de 10
203
+ ast 10
204
+ ky_ 10
205
+ nc 10
209
206
  ju 10
210
- g 10
211
- - 10
212
- ik 10
213
- ova 10
207
+ ek 10
208
+ Na 10
214
209
  ove 10
215
- oz 10
216
210
  R 10
211
+ de 10
212
+ ej_ 10
213
+ ova 10
214
+ ik 10
217
215
  tor 9
218
216
  ina 9
219
- pl 9
220
- uro 9
221
- je 9
222
- em 9
223
- lad 9
224
- pod 9
225
- V 9
226
- _mi 9
227
- et 9
217
+ kov 9
228
218
  kl 9
229
- cov 9
230
- la_ 9
231
219
  ska 9
232
- ku_ 9
233
- f 9
234
- _j 9
220
+ cov 9
235
221
  _P 9
222
+ ku_ 9
223
+ pod 9
236
224
  r_ 9
237
- kov 9
238
- _Na 8
239
- _h 8
240
- ca 8
241
- vys 8
242
- Po 8
243
- _rok 8
225
+ et 9
226
+ lad 9
227
+ uro 9
228
+ _mi 9
229
+ V 9
230
+ f 9
231
+ _Na 9
232
+ je 9
233
+ la_ 9
234
+ em 9
235
+ pl 9
236
+ ze 8
244
237
  _S 8
245
- uc 8
238
+ en_ 8
239
+ trh 8
246
240
  ia_ 8
247
- ze 8
248
- ep 8
249
- est 8
250
- _ob 8
251
- tu 8
252
- ani 8
241
+ vn 8
253
242
  ka_ 8
254
- _trh 8
255
- ys 8
256
- ti_ 8
257
243
  pri 8
258
- pred 8
259
- _U 8
244
+ ys 8
245
+ _h 8
246
+ st_ 8
247
+ _trh 8
260
248
  ske 8
261
- rh 8
262
- sl 8
263
- ent 8
264
- vn 8
265
- _ur 8
266
249
  nej 8
250
+ ca 8
251
+ sl 8
252
+ uc 8
253
+ red 8
254
+ _U 8
255
+ ti_ 8
256
+ vys 8
257
+ rh 8
258
+ _sp 8
259
+ est 8
267
260
  M 8
261
+ Po 8
268
262
  U 8
269
- _sp 8
263
+ _rok 8
264
+ ani 8
265
+ tu 8
270
266
  ie_ 8
271
- en_ 8
272
- st_ 8
273
- red 8
274
- trh 8
275
- hod 7
276
- _akc 7
277
- ns 7
278
- _zv 7
279
- _V 7
280
- kci 7
281
- _ce 7
282
- br 7
283
- ec 7
284
- z_ 7
285
- ost 7
286
- nu_ 7
287
- ati 7
288
- _Po 7
289
- akci 7
267
+ _ob 8
268
+ ep 8
269
+ _ur 8
270
+ ent 8
271
+ pred 8
272
+ _V 8
290
273
  van 7
291
- SD 7
292
- eni 7
293
- ali 7
294
- ru 7
295
- spo 7
274
+ akci 7
296
275
  _US 7
297
- neh 7
298
- _ne 7
276
+ USD 7
299
277
  _e 7
300
278
  uj 7
301
- kc 7
279
+ _uro 7
302
280
  is 7
281
+ nu_ 7
282
+ kc 7
283
+ ali 7
284
+ _Po 7
303
285
  akc 7
304
286
  _akci 7
305
- neho 7
306
- er_ 7
307
- oro 7
308
- sti 7
287
+ SD 7
288
+ _ce 7
289
+ spo 7
290
+ br 7
309
291
  _USD 7
292
+ ud 7
310
293
  up 7
311
- su 7
312
- _l 7
313
- _pred 7
294
+ ec 7
295
+ hod 7
296
+ sti 7
314
297
  US 7
315
- _uro 7
316
- USD 7
317
- ud 7
298
+ _l 7
299
+ _akc 7
300
+ eni 7
301
+ ost 7
302
+ er_ 7
303
+ z_ 7
304
+ neh 7
305
+ ru 7
306
+ ns 7
307
+ _ne 7
318
308
  mo 7
319
- zac 6
320
- he 6
309
+ kci 7
310
+ ati 7
311
+ _zv 7
312
+ neho 7
313
+ _pred 7
314
+ oro 7
315
+ su 7
316
+ id 6
321
317
  li_ 6
322
- _cen 6
323
- ty 6
324
- F 6
325
- cii 6
318
+ yr 6
326
319
  re_ 6
327
- ly 6
328
- _me 6
329
- ke_ 6
330
- ast_ 6
331
- -_ 6
332
- (_ 6
333
- _%. 6
334
- V_ 6
335
- J 6
336
- tre 6
337
- otr 6
320
+ us 6
321
+ ele 6
322
+ _pl 6
323
+ sia 6
324
+ by 6
325
+ u. 6
338
326
  odn 6
339
- _pod 6
340
327
  _vo 6
341
- alo 6
342
- u. 6
343
- nov 6
344
- ni_ 6
345
- roku_ 6
346
- oku_ 6
347
- id 6
348
328
  cie 6
349
- _pl 6
350
- nej_ 6
351
- iny 6
352
- hr 6
353
- osl 6
354
- us 6
355
- mi_ 6
356
- sta 6
357
- cho 6
358
- ja 6
359
- ele 6
360
- tiv 6
329
+ roku 6
330
+ ty 6
331
+ ke_ 6
361
332
  iny_ 6
362
- nsk 6
363
- by 6
364
- %. 6
333
+ pos 6
334
+ ly 6
335
+ por 6
365
336
  ore 6
366
- mie 6
337
+ nov 6
338
+ _st 6
367
339
  il_ 6
368
- sia 6
369
- yr 6
370
- eb 6
340
+ cii 6
341
+ he 6
342
+ nsk 6
343
+ _ku 6
344
+ cho 6
345
+ tiv 6
346
+ ri_ 6
347
+ alo 6
348
+ V_ 6
349
+ nej_ 6
350
+ oku_ 6
351
+ zac 6
352
+ _pod 6
353
+ osl 6
371
354
  e. 6
372
- rod 6
373
- _st 6
374
- roku 6
375
- kon 6
376
- _pri 6
377
- oku 6
355
+ otr 6
356
+ -_ 6
357
+ ast_ 6
358
+ mie 6
359
+ sil 6
360
+ iny 6
378
361
  ach 6
379
- tn 6
380
- _ku 6
381
- C 6
362
+ hr 6
363
+ mi_ 6
364
+ _cen 6
365
+ kon 6
382
366
  aci 6
383
- ri_ 6
384
- pos 6
385
- por 6
367
+ C 6
368
+ _me 6
369
+ tn 6
370
+ ja 6
371
+ J 6
386
372
  ii 6
387
- sil 6
388
- %._ 5
389
- dpo 5
390
- A 5
373
+ rod 6
374
+ eb 6
375
+ ni_ 6
376
+ F 6
377
+ sta 6
378
+ roku_ 6
379
+ tre 6
380
+ oku 6
381
+ _pri 6
382
+ to_ 5
383
+ oven 5
384
+ kor 5
385
+ kla 5
386
+ op 5
391
387
  neho_ 5
388
+ lov 5
389
+ dol 5
392
390
  _ze 5
393
- vl 5
394
- vych 5
395
- zo 5
391
+ pla 5
392
+ _o_ 5
393
+ sky 5
394
+ ier 5
395
+ anc 5
396
+ hra 5
397
+ _oc 5
398
+ uk 5
399
+ ska_ 5
396
400
  za_ 5
397
- op 5
398
- _%._ 5
399
- rn 5
400
- _- 5