scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -10,32 +10,32 @@ t 205
10
10
  an 185
11
11
  g 152
12
12
  s 152
13
- d 149
14
13
  m 149
15
- l 108
14
+ d 149
16
15
  ng 108
16
+ l 108
17
17
  p 99
18
- a_ 91
18
+ a_ 94
19
19
  o 91
20
20
  er 85
21
21
  b 85
22
- n_ 81
22
+ n_ 82
23
23
  , 77
24
24
  ka 76
25
+ an_ 75
25
26
  _d 74
26
- an_ 74
27
27
  h 73
28
- i_ 72
29
- en 65
30
- ar 65
28
+ i_ 73
29
+ ,_ 67
31
30
  _m 65
32
- ,_ 64
31
+ ar 65
32
+ en 65
33
33
  ta 59
34
34
  di 59
35
35
  me 58
36
+ _k 57
36
37
  ang 56
37
38
  ra 55
38
- _k 55
39
39
  at 54
40
40
  ak 54
41
41
  y 53
@@ -45,356 +45,356 @@ ga 48
45
45
  in 46
46
46
  ya 43
47
47
  . 42
48
- tu 41
49
48
  _di 41
49
+ tu 41
50
50
  un 40
51
51
  _p 39
52
- j 38
53
52
  la 38
54
- _s 37
53
+ j 38
55
54
  ma 37
55
+ _s 37
56
56
  k_ 36
57
57
  na 36
58
58
  ah 35
59
59
  ri 34
60
- _t 33
61
- se 33
62
- ke 33
63
60
  ng_ 33
64
61
  g_ 33
62
+ _t 33
63
+ se 33
65
64
  be 33
66
- al 32
67
- as 32
68
- pe 32
65
+ ke 33
69
66
  _b 32
70
67
  __ 32
71
- ia 31
68
+ al 32
69
+ pe 32
70
+ as 32
72
71
  men 31
73
- _men 29
72
+ ia 31
73
+ h_ 30
74
74
  _ke 29
75
- h_ 29
76
- P 29
75
+ _men 29
77
76
  si 29
77
+ P 29
78
+ ny 28
78
79
  ti 28
79
- it 28
80
80
  pa 28
81
- ny 28
81
+ it 28
82
82
  em 27
83
83
  _a 27
84
- sa 26
85
84
  am 26
85
+ sa 26
86
86
  kan 26
87
87
  u_ 25
88
- eng 24
89
- te 24
90
- _pe 24
91
88
  c 24
92
89
  ang_ 24
90
+ eng 24
91
+ _pe 24
92
+ te 24
93
+ S 23
94
+ s_ 23
93
95
  nga 23
96
+ ba 23
94
97
  ja 23
95
98
  _se 23
96
- s_ 23
97
- ba 23
98
- S 23
99
- ber 22
99
+ r_ 22
100
100
  li 22
101
101
  ni 22
102
102
  el 22
103
+ ber 22
103
104
  di_ 22
104
105
  nt 22
105
- r_ 22
106
- _da 21
107
106
  t_ 21
107
+ _da 21
108
+ ad 20
109
+ ak_ 20
110
+ _ka 20
108
111
  ik 20
109
- bu 20
112
+ _P 20
110
113
  nya 20
111
- ad 20
114
+ bu 20
112
115
  ata 20
113
- ak_ 20
114
- ara 19
115
116
  _i 19
116
- is 19
117
+ gan 19
117
118
  ran 19
119
+ ._ 19
120
+ is 19
118
121
  us 19
119
- _P 19
120
- gan 19
121
122
  ap 19
122
- ._ 19
123
+ ara 19
123
124
  ru 18
125
+ dan 18
124
126
  _be 18
125
127
  era 18
126
- _ka 18
127
- dan 18
128
128
  ah_ 17
129
+ nd 17
130
+ a, 17
129
131
  ari 17
130
- - 17
131
- to 17
132
132
  es 17
133
- nd 17
134
133
  ur 17
135
- a, 17
136
134
  uk 17
137
- yan 16
135
+ - 17
136
+ to 17
138
137
  ala 16
139
- ha 16
140
- yang 16
141
- ter 16
142
- ol 16
143
138
  su 16
139
+ yan 16
140
+ ter 16
144
141
  I 16
145
- ngan 16
146
142
  ung 16
147
- _y 15
148
- J 15
143
+ ol 16
144
+ ha 16
145
+ yang 16
146
+ ngan 16
149
147
  M 15
150
- kan_ 15
151
- _ya 15
152
- _di_ 15
153
148
  _ber 15
154
- A 14
155
- du 14
156
- enga 14
157
- _yan 14
149
+ _di_ 15
150
+ _ya 15
151
+ kan_ 15
152
+ J 15
153
+ _y 15
158
154
  lu 14
159
- de 14
160
- itu 14
161
- " 14
162
- ok 14
155
+ du 14
163
156
  ek 14
164
157
  _yang 14
165
- ai 13
166
- dan_ 13
167
- rang 13
168
- per 13
158
+ A 14
159
+ ok 14
160
+ de 14
161
+ _yan 14
162
+ itu 14
163
+ enga 14
164
+ _S 14
169
165
  a,_ 13
170
- _dan 13
171
- eri 13
166
+ ku 13
167
+ _te 13
168
+ ko 13
172
169
  yang_ 13
173
- l_ 13
174
- ge 13
175
- R 13
170
+ ai 13
176
171
  da_ 13
172
+ rang 13
177
173
  at_ 13
174
+ l_ 13
175
+ ina 13
176
+ eri 13
177
+ ge 13
178
178
  D 13
179
- _te 13
179
+ per 13
180
+ _dan 13
180
181
  kar 13
181
- ko 13
182
- _S 13
183
- ina 13
184
- ku 13
185
- ul 12
186
- et 12
187
- w 12
188
- po 12
189
- ut 12
182
+ R 13
183
+ dan_ 13
184
+ ua 12
185
+ ia_ 12
190
186
  ya_ 12
191
187
  gi 12
192
- e_ 12
193
- aka 12
188
+ po 12
189
+ ul 12
190
+ et 12
194
191
  _dan_ 12
195
- rin 12
196
- ua 12
192
+ e_ 12
197
193
  ju 12
194
+ rin 12
198
195
  pen 12
199
- nya_ 11
200
- ngg 11
201
- ena 11
202
- ama 11
203
- mp 11
204
- ca 11
205
- _pen 11
206
- re 11
207
- ika 11
208
- _J 11
196
+ aka 12
197
+ ut 12
198
+ w 12
209
199
  B 11
200
+ _J 11
201
+ mp 11
202
+ ngg 11
203
+ ed 11
210
204
  _ter 11
211
205
  gg 11
212
206
  na_ 11
213
- ia_ 11
214
- ed 11
207
+ _pen 11
208
+ nya_ 11
215
209
  or 11
210
+ ika 11
211
+ re 11
212
+ ca 11
213
+ ama 11
214
+ ena 11
216
215
  lan 11
216
+ uh 10
217
+ arin 10
218
+ wa 10
219
+ ela 10
220
+ _T 10
217
221
  ni_ 10
222
+ Z 10
223
+ im 10
224
+ adi 10
218
225
  ngk 10
219
- ab 10
220
- gk 10
221
- mi 10
222
226
  arina 10
223
- T 10
224
- eru 10
225
227
  Zar 10
226
- uk_ 10
227
- Za 10
228
- arin 10
229
- ela 10
230
- adi 10
231
- rina 10
232
- wa 10
233
- rt 10
234
- Z 10
235
228
  us_ 10
236
- Zari 10
237
- im 10
238
- _T 10
239
229
  Zarin 10
240
- uh 10
230
+ rt 10
231
+ rina 10
232
+ mi 10
233
+ uk_ 10
234
+ T 10
235
+ gk 10
241
236
  ini 10
242
- il 9
243
- jad 9
244
- _mem 9
245
- i, 9
246
- i. 9
247
- mu 9
248
- ntu 9
249
- i,_ 9
237
+ eru 10
238
+ Za 10
239
+ Zari 10
240
+ ab 10
250
241
  ing 9
251
- _c 9
252
- gan_ 9
253
- eb 9
254
- ngan_ 9
242
+ os 9
255
243
  ta_ 9
256
- ada 9
244
+ tu_ 9
245
+ _c 9
246
+ i, 9
257
247
  si_ 9
258
- apa 9
259
- engan 9
260
- asi 9
261
- _de 9
248
+ jad 9
262
249
  _ta 9
263
- mem 9
250
+ i,_ 9
251
+ mu 9
264
252
  K 9
265
- ant 9
266
- tu_ 9
253
+ gan_ 9
254
+ asi 9
255
+ i. 9
267
256
  ag 9
268
- os 9
257
+ _mem 9
258
+ engan 9
259
+ ada 9
260
+ il 9
261
+ mem 9
262
+ ant 9
263
+ apa 9
269
264
  jadi 9
265
+ _de 9
266
+ ngan_ 9
267
+ eb 9
268
+ ntu 9
269
+ _A 8
270
+ ip 8
271
+ man 8
272
+ _in 8
273
+ emb 8
274
+ oh 8
270
275
  _Zari 8
276
+ nj 8
277
+ u, 8
278
+ a. 8
279
+ eny 8
280
+ _Za 8
281
+ _Z 8
271
282
  dia 8
272
- oko 8
273
- _ma 8
274
283
  ki 8
275
- nj 8
284
+ _I 8
285
+ oko 8
286
+ n. 8
287
+ pat 8
276
288
  _meng 8
289
+ st 8
290
+ _Zar 8
291
+ ian 8
292
+ ri_ 8
293
+ _ma 8
294
+ _M 8
295
+ meng 8
277
296
  mb 8
278
- au 8
279
- le 8
280
- man 8
281
- _A 8
282
297
  rk 8
283
- pat 8
284
- ep 8
285
- oh 8
286
- _Zar 8
287
- isi 8
298
+ L 8
299
+ le 8
288
300
  itu_ 8
289
- emb 8
290
- eny 8
301
+ isi 8
291
302
  aga 8
292
- ip 8
293
- _Za 8
294
- ri_ 8
303
+ au 8
295
304
  ar_ 8
296
- _in 8
297
- st 8
298
- ian 8
299
- _M 8
300
- L 8
301
- meng 8
302
- _Z 8
305
+ ep 8
306
+ tan 7
307
+ ej 7
308
+ _ini 7
309
+ art 7
303
310
  bur 7
304
- gga 7
305
- ot 7
306
311
  ay 7
307
- uga 7
308
- rl 7
309
- Ta 7
310
312
  nu 7
311
- tan 7
312
- peng 7
313
- ug 7
314
- ej 7
315
- ce 7
316
- _peng 7
317
- ng,_ 7
318
- tak 7
319
- ada_ 7
320
- ro 7
313
+ ita 7
314
+ gga 7
321
315
  atan 7
316
+ tak 7
317
+ ger 7
318
+ gka 7
319
+ eka 7
320
+ _Ta 7
321
+ aya 7
322
+ toko 7
323
+ arang 7
324
+ Ja 7
325
+ pu 7
326
+ rah 7
327
+ ngka 7
322
328
  ntuk_ 7
323
- _ini 7
324
- _meny 7
325
- as_ 7
329
+ p_ 7
330
+ Ta 7
326
331
  erl 7
327
- art 7
328
- ih 7
329
- ma_ 7
330
- um 7
331
- eka 7
332
- lu_ 7
333
- and 7
334
- _it 7
335
- tok 7
336
- nda 7
337
- ntuk 7
338
332
  ngga 7
333
+ ma_ 7
334
+ uga 7
335
+ peng 7
336
+ aran 7
337
+ _per 7
339
338
  alan 7
340
- ib 7
341
- g, 7
342
- rah 7
343
- _Ja 7
344
- gka 7
345
- aya 7
346
- pu 7
347
- _Ta 7
348
- Ja 7
349
- ger 7
350
- _I 7
351
- meny 7
352
- tuk 7
353
- a. 7
354
- n. 7
355
- _itu 7
356
339
  tuk_ 7
340
+ _Ja 7
341
+ _peng 7
342
+ ug 7
343
+ ce 7
344
+ nda 7
357
345
  ng, 7
358
- _per 7
346
+ g, 7
347
+ and 7
348
+ sia 7
349
+ _itu 7
359
350
  _ba 7
351
+ rl 7
352
+ as_ 7
353
+ lu_ 7
354
+ ada_ 7
355
+ ro 7
356
+ ng,_ 7
360
357
  al_ 7
361
- ita 7
362
- aran 7
358
+ tok 7
363
359
  g,_ 7
360
+ ntuk 7
361
+ um 7
362
+ tuk 7
364
363
  kal 7
365
- arang 7
366
- p_ 7
367
- ngka 7
368
- toko 7
369
- u, 7
370
- sia 7
371
- pol 6
372
- pi 6
373
- den 6
374
- kart 6
375
- _L 6
376
- akart 6
377
- lis 6
378
- mel 6
364
+ ib 7
365
+ _meny 7
366
+ _it 7
367
+ meny 7
368
+ ih 7
369
+ an. 7
370
+ ot 7
379
371
  ngi 6
372
+ up 6
373
+ aj 6
374
+ rang_ 6
375
+ an, 6
376
+ rta 6
377
+ _tak 6
378
+ isa 6
379
+ tokoh 6
380
+ Po 6
381
+ _po 6
382
+ _U 6
383
+ nta 6
384
+ Pol 6
385
+ akar 6
386
+ on 6
387
+ ga_ 6
388
+ f 6
380
389
  _den 6
390
+ ura 6
391
+ ema 6
392
+ kat 6
393
+ n, 6
381
394
  n,_ 6
382
- Pol 6
383
- ang,_ 6
395
+ koh 6
396
+ arta 6
384
397
  aha 6
385
- uny 6
386
- PR 6
387
- ra_ 6
398
+ mun 6
388
399
  oli 6
389
- an,_ 6
390
- sus 6
391
- an. 6
392
- kat 6
393
- n, 6
394
- _itu_ 6
395
- ang, 6
396
- Po 6
397
400
  tin 6
398
- mun 6
399
- U 6
400
- nge 6