scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,4 +1,4 @@
1
- _ 32320
1
+ _ 32316
2
2
  e 11820
3
3
  s 6385
4
4
  a 6245
@@ -7,184 +7,184 @@ n 6115
7
7
  t 5635
8
8
  r 5480
9
9
  l 4711
10
- e_ 4327
10
+ e_ 4340
11
11
  u 4260
12
12
  o 4196
13
13
  � 3243
14
14
  d 3178
15
- s_ 2972
15
+ s_ 2979
16
16
  c 2591
17
17
  p 2396
18
- _d 2355
18
+ _d 2365
19
19
  m 2162
20
20
  es 2138
21
21
  é 2115
22
22
  � 2115
23
- _l 1860
24
- t_ 1784
25
- de 1585
26
- le 1533
27
- es_ 1525
28
- en 1498
23
+ _l 1883
24
+ t_ 1786
25
+ de 1586
26
+ le 1538
27
+ es_ 1526
28
+ en 1500
29
29
  on 1429
30
- _de 1338
31
- _e 1312
30
+ _de 1340
31
+ _e 1316
32
32
  nt 1258
33
33
  an 1256
34
+ _p 1247
34
35
  , 1245
35
- _p 1244
36
- ,_ 1207
36
+ ,_ 1209
37
37
  re 1163
38
- n_ 1085
38
+ n_ 1087
39
39
  ti 1028
40
40
  is 981
41
41
  de_ 975
42
- la 900
42
+ la 906
43
43
  ra 900
44
44
  _de_ 879
45
45
  a_ 863
46
46
  g 846
47
- _s 831
47
+ _s 835
48
48
  v 796
49
49
  f 777
50
- _c 765
51
- _a 740
50
+ _c 773
51
+ _a 749
52
52
  ai 735
53
53
  te 723
54
54
  ent 708
55
55
  � 698
56
+ _le 693
56
57
  � 688
57
58
  � 687
58
59
  q 683
59
- _le 679
60
- qu 672
60
+ _la 679
61
61
  ar 672
62
- le_ 664
62
+ qu 672
63
+ le_ 665
64
+ nt_ 664
63
65
  in 664
64
- nt_ 663
65
66
  et 662
66
- _la 661
67
- me 657
68
67
  se 657
68
+ me 657
69
69
  it 656
70
+ ’ 652
70
71
  � 652
71
72
  �� 652
72
- ’ 652
73
73
  ur 643
74
- ce 639
74
+ ce 640
75
75
  la_ 638
76
+ _la_ 637
76
77
  ne 632
77
78
  b 630
78
- _la_ 625
79
79
  er 620
80
- ue 613
81
- io 600
80
+ ue 616
82
81
  ns 600
82
+ io 600
83
83
  . 599
84
+ __ 594
84
85
  u_ 577
85
86
  ion 572
86
- et_ 555
87
+ et_ 556
88
+ _� 545
87
89
  st 545
88
- _� 544
89
90
  r_ 541
91
+ _m 538
90
92
  ie 538
91
- _m 537
92
93
  ri 535
93
94
  pa 531
94
95
  _et 529
95
96
  ran 527
96
- at 525
97
97
  au 525
98
+ at 525
98
99
  co 521
99
100
  _et_ 520
100
101
  nc 519
101
102
  les 515
103
+ li 512
102
104
  ou 510
103
- li 508
104
105
  tr 498
105
106
  al 479
106
107
  ta 468
107
108
  ro 467
108
109
  h 459
109
- les_ 456
110
- que 452
110
+ les_ 457
111
+ que 455
111
112
  tio 431
112
113
  eu 429
113
114
  tion 429
114
115
  r� 428
115
116
  _f 424
116
- re_ 421
117
+ re_ 423
117
118
  on_ 420
118
119
  em 413
120
+ _r 413
121
+ _en 410
119
122
  x 410
120
- _r 409
121
- _en 406
122
- _pa 403
123
+ _pa 404
123
124
  or 400
124
125
  rt 400
125
126
  po 397
126
127
  ll 386
127
128
  si 382
128
129
  des 379
129
- __ 379
130
130
  oi 378
131
131
  pr 375
132
132
  anc 374
133
133
  un 373
134
- ent_ 371
134
+ ent_ 372
135
135
  en_ 368
136
136
  nce 366
137
137
  des_ 363
138
+ ._ 363
138
139
  _t 362
139
- ._ 361
140
- è 359
140
+ e,_ 362
141
+ e, 362
141
142
  � 359
142
- ne_ 356
143
- ir 352
143
+ è 359
144
+ ne_ 357
144
145
  par 352
145
- e,_ 351
146
- e, 351
146
+ ir 352
147
+ _le_ 347
147
148
  _des 347
148
- _co 344
149
- ce_ 343
150
- _le_ 340
151
- du 339
149
+ _co 345
150
+ ce_ 344
151
+ du 343
152
152
  _des_ 338
153
- ns_ 335
153
+ ns_ 338
154
154
  el 330
155
- l’ 328
156
- l� 328
157
155
  l� 328
158
- _l� 326
159
- _l 326
160
- _l’ 326
156
+ _l� 328
157
+ _l 328
158
+ l� 328
159
+ _l� 328
160
+ l’ 328
161
+ ui 327
161
162
  us 325
162
- ui 325
163
163
  F 324
164
164
  ré 322
165
165
  nd 321
166
166
  ati 321
167
167
  ance 311
168
168
  t� 311
169
- n� 307
169
+ n� 308
170
170
  ve 307
171
+ _F 307
171
172
  ion_ 306
172
- _F 305
173
- L 305
173
+ _en_ 306
174
174
  om 305
175
- _en_ 304
175
+ L 305
176
176
  so 304
177
+ _les 304
177
178
  is_ 302
178
- _les 302
179
+ ue_ 299
179
180
  é_ 299
180
181
  �_ 299
181
- ue_ 298
182
182
  iq 296
183
+ _les_ 296
183
184
  iqu 296
184
- �e 294
185
185
  ée 294
186
- _les_ 294
187
- _par 293
186
+ _par 294
187
+ �e 294
188
188
  ma 293
189
189
  men 291
190
190
  à 288
@@ -193,208 +193,208 @@ Fr 287
193
193
  ique 286
194
194
  il 284
195
195
  Fra 283
196
+ _Fr 283
196
197
  est 283
197
- _Fr 282
198
- à_ 280
199
198
  i_ 280
200
- Fran 280
201
199
  �_ 280
200
+ Fran 280
201
+ à_ 280
202
+ _Fra 279
202
203
  mi 279
203
- _Fra 278
204
204
  pl 278
205
+ _Fran 276
205
206
  té 276
206
- _Fran 275
207
+ _. 275
207
208
  _u 274
208
209
  _à 273
209
- _à_ 272
210
210
  ranc 272
211
+ _à_ 272
212
+ di 271
211
213
  ment 270
212
- di 270
214
+ na 270
213
215
  ut 269
214
- na 269
215
216
  ss 268
216
- _. 267
217
+ _du 268
217
218
  ci 267
218
- _du 264
219
+ _, 266
219
220
  �s 263
220
221
  és 263
222
+ _au 262
221
223
  ais 262
222
224
  du_ 259
223
225
  ation 258
224
226
  atio 258
225
- _au 257
227
+ _n 258
228
+ _pr 258
226
229
  _un 257
227
- _pr 256
230
+ lu 257
228
231
  _du_ 256
229
232
  y 255
230
- lu 255
231
233
  nce_ 255
232
- _n 255
233
- ol 252
234
+ que_ 253
234
235
  Franc 252
235
- que_ 252
236
+ ol 252
236
237
  rs 251
237
238
  rance 251
238
239
  tion_ 250
239
240
  lle 250
240
241
  pe 248
242
+ s, 246
241
243
  con 244
242
244
  te_ 243
243
- s, 241
244
- _, 240
245
+ s,_ 243
246
+ d� 242
245
247
  ont 240
248
+ _so 240
246
249
  ire 240
247
- d� 239
248
250
  res 239
251
+ _,_ 239
249
252
  no 239
250
- s,_ 238
251
- _so 238
252
- ic 238
253
253
  ons 238
254
+ ic 238
254
255
  mo 236
256
+ dé 233
255
257
  - 232
256
- dé 232
257
258
  i� 231
258
259
  eur 230
259
260
  ance_ 228
260
261
  nn 227
261
- _qu 226
262
262
  ant 226
263
+ _qu 226
263
264
  _q 226
264
265
  ct 223
265
- st_ 219
266
266
  est_ 219
267
- _,_ 217
267
+ st_ 219
268
268
  ni 216
269
+ lo 215
269
270
  ux 215
270
271
  _po 213
271
- lo 213
272
272
  ch 213
273
273
  vi 212
274
274
  me_ 210
275
- 208
275
+ 209
276
276
  eme 208
277
- _L 206
278
- emen 205
277
+ _L 207
278
+ sa 205
279
279
  ement 205
280
- sa 203
280
+ emen 205
281
+ _d� 203
282
+ se_ 203
281
283
  _es 202
284
+ �t 202
282
285
  ec 202
283
286
  pu 202
284
287
  ét 202
285
- �t 202
286
- se_ 201
287
- d� 201
288
- d� 201
289
288
  d’ 201
290
- _d200
289
+ d201
290
+ d� 201
291
+ ale 196
291
292
  ur_ 196
293
+ _dé 196
292
294
  to 196
293
- ale 196
294
- _dé 195
295
- _d’ 193
295
+ da 194
296
296
  _d� 193
297
297
  _o 193
298
298
  _d� 193
299
+ _d’ 193
299
300
  _est 192
300
- tre 191
301
301
  A 191
302
302
  op 191
303
- _pl 190
304
- da 190
303
+ tre 191
305
304
  au_ 190
305
+ _pl 190
306
306
  ul 189
307
307
  _est_ 187
308
+ x_ 186
309
+ ment_ 186
310
+ _re 185
308
311
  fr 185
309
- ment_ 185
310
- _re 184
311
- x_ 184
312
- bl 184
313
312
  _i 184
313
+ _._ 184
314
314
  mp 184
315
- _._ 182
316
- ts 180
315
+ bl 184
317
316
  ac 180
317
+ ér 180
318
+ ts 180
318
319
  �r 180
319
320
  tu 180
320
- ér 180
321
321
  rti 179
322
- _se 176
322
+ _se 177
323
323
  ise 174
324
324
  art 173
325
325
  iè 172
326
326
  ans 171
327
- ç 170
328
327
  � 170
328
+ ç 170
329
329
  ia 170
330
+ l_ 169
330
331
  _mo 169
332
+ ux_ 169
331
333
  ar_ 168
332
- ux_ 168
333
- an� 167
334
334
  _con 167
335
- l_ 167
336
335
  gr 167
337
- P 166
336
+ an� 167
337
+ lus 167
338
338
  ran� 166
339
- lus 166
339
+ P 166
340
340
  nç 165
341
- im 164
342
341
  ont_ 164
343
- une 163
342
+ im 164
344
343
  _fr 163
344
+ une 163
345
+ _g 162
345
346
  son 162
346
347
  rs_ 162
347
348
  un_ 161
348
349
  anç 161
349
- _g 161
350
- ranç 160
351
350
  C 160
352
- su 160
351
+ _v 160
353
352
  us_ 160
354
- _v 159
353
+ su 160
354
+ ranç 160
355
355
  ill 159
356
356
  cl 158
357
357
  plu 158
358
358
  par_ 158
359
359
  _plu 158
360
360
  as 157
361
+ _par_ 157
361
362
  nça 156
362
363
  �a 156
363
364
  ça 156
364
- _par_ 156
365
- ança 153
365
+ ique_ 154
366
+ _au_ 154
367
+ l� 154
366
368
  mm 153
367
- ique_ 153
368
- �ais 152
369
- plus 152
369
+ ança 153
370
+ _plus 152
370
371
  nçai 152
371
372
  çai 152
373
+ plus 152
372
374
  �ai 152
373
375
  çais 152
374
- _plus 152
376
+ �ais 152
375
377
  rr 152
376
378
  fra 151
377
379
  ge 150
378
- _au_ 150
379
- l� 149
380
380
  m� 149
381
381
  une_ 148
382
382
  ag 147
383
- ell 146
384
383
  ions 146
384
+ ell 146
385
385
  fi 146
386
+ ie_ 145
386
387
  iv 145
387
- dan 144
388
+ dan 145
389
+ ans_ 144
388
390
  ien 144
389
- ie_ 144
390
391
  _fra 143
391
- our 143
392
392
  ain 143
393
393
  té_ 143
394
- ans_ 143
395
- elle 142
396
- fran 142
394
+ our 143
397
395
  ep 142
396
+ fran 142
397
+ elle 142
398
398
  _fran 142
399
- ( 141
400
- ) 141
399
+ éc 141
400
+ �c 141