scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -12,15 +12,15 @@ m 162
12
12
  o_ 147
13
13
  u 144
14
14
  c 130
15
- a_ 118
15
+ a_ 119
16
16
  e_ 103
17
17
  p 100
18
- s_ 96
18
+ s_ 97
19
19
  _d 96
20
20
  l 94
21
21
  de 77
22
22
  os 67
23
- _a 65
23
+ _a 66
24
24
  es 65
25
25
  , 62
26
26
  do 61
@@ -28,373 +28,373 @@ ra 60
28
28
  nt 59
29
29
  ,_ 54
30
30
  _de 52
31
- _p 49
31
+ _p 50
32
32
  v 49
33
33
  re 48
34
34
  os_ 48
35
35
  to 47
36
36
  ar 46
37
- ta 45
38
37
  or 45
38
+ ta 45
39
39
  . 45
40
- te 44
41
- en 44
42
40
  de_ 44
41
+ en 44
42
+ te 44
43
43
  g 43
44
+ _c 42
44
45
  co 42
45
- _c 41
46
46
  _s 41
47
47
  er 39
48
- ri 38
49
48
  f 38
50
- se 37
49
+ ri 38
51
50
  as 37
52
- do_ 36
53
- da 36
51
+ se 37
52
+ _m 36
54
53
  b 36
55
- _e 36
56
54
  _n 36
55
+ do_ 36
56
+ _e 36
57
+ da 36
57
58
  ad 35
58
- r_ 35
59
- _m 35
60
59
  m_ 35
60
+ r_ 35
61
61
  ma 34
62
- q 33
63
- qu 33
64
- st 33
65
62
  _t 33
66
- no 32
63
+ st 33
64
+ qu 33
65
+ q 33
67
66
  � 32
68
- �o 32
69
67
  � 32
68
+ no 32
69
+ �o 32
70
70
  _o 31
71
71
  _de_ 31
72
72
  ia 30
73
73
  is 30
74
+ _co 29
74
75
  an 29
75
- pa 28
76
- me 28
77
76
  __ 28
78
- _co 28
77
+ me 28
79
78
  ue 28
80
- in 27
81
- io 27
82
- on 27
79
+ pa 28
83
80
  al 27
81
+ in 27
84
82
  h 27
85
- nte 26
86
- ti 26
83
+ on 27
84
+ io 27
87
85
  �o_ 26
88
86
  que 26
87
+ ti 26
89
88
  am 26
90
- ent 25
91
- om 25
89
+ nte 26
92
90
  _do 25
91
+ om 25
92
+ ent 25
93
93
  ca 24
94
- po 24
95
94
  _qu 24
96
- em 24
97
95
  _q 24
96
+ em 24
97
+ po 24
98
98
  _se 23
99
99
  _f 22
100
- _que 21
101
- � 21
102
100
  _a_ 21
101
+ � 21
102
+ _que 21
103
103
  ci 21
104
- ec 20
105
104
  as_ 20
106
105
  ei 20
106
+ ec 20
107
+ tr 19
107
108
  to_ 19
108
- ic 19
109
109
  o, 19
110
- tr 19
110
+ ic 19
111
+ u_ 18
112
+ _pa 18
113
+ na 18
114
+ ra_ 18
115
+ a� 18
111
116
  ou 18
117
+ ss 18
118
+ ._ 18
112
119
  ue_ 18
113
120
  que_ 18
114
- ado 18
115
- ss 18
116
- _pa 18
117
- a� 18
118
- ra_ 18
119
- na 18
120
121
  ce 18
121
- li 17
122
+ ado 18
123
+ _do_ 17
124
+ id 17
125
+ nd 17
122
126
  par 17
123
- ._ 17
124
127
  si 17
125
- u_ 17
126
128
  _r 17
127
129
  mi 17
128
- _do_ 17
129
- nd 17
130
- id 17
131
130
  nto 17
131
+ li 17
132
+ es_ 17
132
133
  _no 17
133
- _da 16
134
- men 16
135
- es_ 16
134
+ _que_ 16
136
135
  um 16
137
- o,_ 16
138
136
  S 16
139
137
  im 16
140
- _que_ 16
141
- em_ 16
142
- � 16
143
- s, 16
138
+ men 16
144
139
  pr 16
145
- te_ 15
146
- 15
140
+ s, 16
141
+ 16
142
+ o,_ 16
143
+ _da 16
144
+ em_ 16
147
145
  it 15
146
+ rt 15
147
+ el 15
148
148
  mo 15
149
149
  sa 15
150
- _re 15
151
150
  res 15
152
- rt 15
153
- el 15
154
- ma_ 14
151
+ 15
152
+ _re 15
153
+ te_ 15
154
+ da_ 14
155
+ ro 14
156
+ so 14
157
+ ara 14
158
+ ��o 14
159
+ ac 14
155
160
  .. 14
161
+ �� 14
162
+ ma_ 14
156
163
  _po 14
157
- ara 14
158
164
  s,_ 14
159
165
  ve 14
160
- �� 14
161
- ��o 14
162
- " 14
163
- da_ 14
164
166
  ant 14
165
- ac 14
166
- ro 14
167
- so 14
168
- _par 13
167
+ 13
168
+ la 13
169
169
  ment 13
170
- con 13
171
- ont 13
170
+ il 13
172
171
  fo 13
173
- ir 13
174
172
  dos 13
175
- il 13
176
- la 13
173
+ _par 13
174
+ ont 13
175
+ ir 13
176
+ con 13
177
+ _� 13
177
178
  ai 13
178
179
  no_ 13
179
- _� 13
180
180
  ��o_ 13
181
181
  com 13
182
- � 13
183
- pe 12
184
- tu 12
185
- di 12
186
- uma 12
187
- sta 12
188
- uma_ 12
189
182
  dos_ 12
183
+ pe 12
190
184
  _o_ 12
185
+ tu 12
191
186
  ho 12
192
- lh 12
187
+ sta 12
193
188
  est 12
189
+ uma_ 12
190
+ di 12
191
+ uma 12
192
+ _com 12
194
193
  � 12
194
+ lh 12
195
+ _um 11
195
196
  tra 11
196
- vo 11
197
+ gu 11
198
+ _u 11
199
+ _S 11
200
+ _b 11
197
201
  I 11
198
- ni 11
199
- at 11
202
+ er_ 11
200
203
  ep 11
201
- rio 11
202
- _com 11
204
+ at 11
205
+ vo 11
203
206
  ente 11
204
- tos 11
205
- er_ 11
206
- _b 11
207
- ap 11
208
- _u 11
209
- gu 11
210
- _um 11
207
+ l_ 11
208
+ ni 11
209
+ rio 11
210
+ _l 11
211
211
  or_ 11
212
- vi 10
212
+ ap 11
213
+ tos 11
213
214
  ol 10
214
- gr 10
215
- ua 10
216
- dad 10
215
+ _pr 10
216
+ nto_ 10
217
+ E 10
218
+ ist 10
217
219
  x 10
218
- ar_ 10
220
+ ia_ 10
221
+ ua 10
222
+ nte_ 10
223
+ ria 10
224
+ gr 10
225
+ a��o 10
219
226
  lo 10
220
- _l 10
221
- mu 10
222
- ist 10
223
227
  ica 10
224
228
  nc 10
225
- a��o 10
226
- ria 10
227
- E 10
228
- _uma 10
229
- nte_ 10
230
229
  _uma_ 10
231
- nto_ 10
230
+ ar_ 10
231
+ ou_ 10
232
232
  a�� 10
233
- _S 10
234
233
  va 10
234
+ _uma 10
235
+ dad 10
236
+ mu 10
237
+ vi 10
238
+ � 9
239
+ le 9
240
+ ida 9
241
+ sen 9
235
242
  mp 9
236
- ct 9
237
- ia_ 9
238
- _pr 9
239
- ara_ 9
240
- am_ 9
243
+ ui 9
244
+ ne 9
245
+ des 9
241
246
  para 9
242
- ur 9
243
- � 9
247
+ ara_ 9
244
248
  iv 9
245
- l_ 9
246
- des 9
247
- �a 9
248
- ida 9
249
- rec 9
250
- _ap 9
251
- A 9
252
- _fo 9
253
249
  _ta 9
254
- ou_ 9
255
- ul 9
256
- eg 9
257
- ne 9
250
+ rec 9
251
+ �e 9
252
+ am_ 9
258
253
  �es 9
259
- ui 9
260
254
  _i 9
255
+ ul 9
261
256
  a��o_ 9
262
- le 9
263
- �e 9
264
- sen 9
265
- e, 8
266
- fi 8
257
+ ur 9
258
+ A 9
259
+ _ap 9
260
+ ct 9
261
+ �a 9
262
+ eg 9
263
+ _fo 9
264
+ os, 8
267
265
  tes 8
266
+ _ma 8
268
267
  ter 8
269
- para_ 8
270
- _e_ 8
268
+ ov 8
269
+ _v 8
270
+ _mu 8
271
+ rr 8
272
+ omo 8
273
+ ed 8
274
+ ade 8
271
275
  _con 8
272
- nta 8
276
+ io_ 8
273
277
  _no_ 8
274
- ade 8
275
- os, 8
276
- _me 8
277
- _v 8
278
- ba 8
279
- ns 8
278
+ tado 8
279
+ cont 8
280
280
  C 8
281
+ para_ 8
281
282
  gi 8
282
- ov 8
283
- omo 8
284
- oc 8
283
+ ns 8
285
284
  _na 8
286
- gra 8
287
- tado 8
288
- ab 8
289
- _os 8
290
- io_ 8
291
- ed 8
292
285
  ime 8
293
- z 8
286
+ oc 8
287
+ _me 8
288
+ ba 8
289
+ _os 8
294
290
  _os_ 8
295
- cont 8
296
- tiv 8
291
+ fi 8
292
+ e, 8
297
293
  _da_ 8
294
+ ab 8
295
+ _e_ 8
298
296
  tad 8
299
- rr 8
300
- _mu 8
301
- a, 7
297
+ tiv 8
298
+ z 8
299
+ nta 8
300
+ gra 8
301
+ br 7
302
+ un 7
303
+ ece 7
304
+ eu 7
305
+ cia 7
302
306
  ito 7
303
- omo_ 7
307
+ ndo 7
304
308
  min 7
305
- das_ 7
309
+ sc 7
310
+ ort 7
311
+ is_ 7
312
+ mento 7
313
+ va_ 7
306
314
  mo_ 7
307
- ... 7
308
- _mi 7
315
+ ado_ 7
309
316
  _pe 7
310
- mento 7
311
317
  das 7
312
318
  _te 7
313
319
  idad 7
314
- od 7
320
+ ut 7
315
321
  ento 7
316
- R 7
322
+ od 7
323
+ dade 7
324
+ _para 7
325
+ _mi 7
317
326
  os,_ 7
318
- dep 7
319
- ece 7
320
- ado_ 7
327
+ M 7
328
+ a, 7
321
329
  str 7
322
- �es_ 7
330
+ al_ 7
323
331
  _das_ 7
324
- _para 7
325
- un 7
326
- _em 7
327
- dade 7
328
- cia 7
332
+ R 7
333
+ dep 7
329
334
  tan 7
330
- av 7
331
- ut 7
332
- ort 7
333
- is_ 7
334
- _ma 7
335
335
  � 7
336
- br 7
337
- tar 7
338
336
  nos 7
339
- M 7
340
- eu 7
341
- ndo 7
342
- _das 7
337
+ av 7
338
+ tar 7
339
+ o. 7
340
+ omo_ 7
341
+ ... 7
342
+ �es_ 7
343
+ das_ 7
343
344
  ess 7
345
+ _em 7
344
346
  j 7
345
- va_ 7
346
- �ri 6
347
- tant 6
348
- o. 6
349
- ao 6
350
- rte 6
351
- sti 6
352
- eri 6
353
- ori 6
347
+ _das 7
354
348
  ig 6
355
- _dep 6
356
- como 6
357
- _tr 6
358
349
  �rio 6
350
+ P 6
351
+ nos_ 6
352
+ por 6
353
+ iment 6
359
354
  se_ 6
355
+ eri 6
360
356
  _des 6
361
357
  pu 6
362
- muit 6
363
- ram 6
364
- P 6
365
358
  _muit 6
366
- lho 6
367
- _in 6
368
- esta 6
369
- af 6
370
- eu_ 6
371
- ntes 6
372
- anto 6
373
- al_ 6
374
- imen 6
375
- - 6
376
- ect 6
377
- ios 6
359
+ _dep 6
360
+ ao 6
378
361
  tic 6
379
- ge 6
362
+ _mui 6
380
363
  ome 6
381
- �r 6
382
- �a_ 6
383
- us 6
384
- e,_ 6
364
+ _como 6
385
365
  a,_ 6
386
- _ao 6
387
- sc 6
366
+ rn 6
367
+ esta 6
368
+ _in 6
369
+ ge 6
370
+ como_ 6
388
371
  T 6
389
- _� 6
390
- cor 6
391
- ndo_ 6
392
- tor 6
372
+ mui 6
373
+ �ri 6
374
+ ntes 6
375
+ e,_ 6
376
+ ios 6
377
+ - 6
378
+ _em_ 6
379
+ ram 6
380
+ �a_ 6
381
+ anto 6
393
382
  ser 6
394
- ali 6
395
- ente_ 6
396
383
  D 6
384
+ ori 6
385
+ como 6
386
+ ente_ 6
387
+ _ao 6
388
+ muit 6
389
+ eu_ 6
390
+ af 6
391
+ ect 6
392
+ lho 6
393
+ tor 6
397
394
  nh 6
398
- nos_ 6
399
- _como 6
400
- ta_ 6
395
+ imen 6
396
+ us 6
397
+ rte 6
398
+ ndo_ 6
399
+ ali 6
400
+ cor 6