scylla 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,4 +1,4 @@
1
- _ 32320
1
+ _ 32286
2
2
  e 11820
3
3
  s 6385
4
4
  a 6245
@@ -7,394 +7,394 @@ n 6115
7
7
  t 5635
8
8
  r 5480
9
9
  l 4711
10
- e_ 4327
10
+ e_ 4337
11
11
  u 4260
12
12
  o 4196
13
13
  � 3243
14
14
  d 3178
15
- s_ 2972
15
+ s_ 2976
16
16
  c 2591
17
17
  p 2396
18
- _d 2355
18
+ _d 2360
19
19
  m 2162
20
20
  es 2138
21
- é 2115
22
21
  � 2115
23
- _l 1860
22
+ é 2115
23
+ _l 1881
24
24
  t_ 1784
25
- de 1585
26
- le 1533
27
- es_ 1525
28
- en 1498
29
- on 1429
25
+ de 1595
26
+ le 1539
27
+ es_ 1523
28
+ en 1500
29
+ on 1430
30
30
  _de 1338
31
- _e 1312
31
+ _e 1314
32
32
  nt 1258
33
33
  an 1256
34
+ _p 1247
34
35
  , 1245
35
- _p 1244
36
- ,_ 1207
36
+ ,_ 1209
37
37
  re 1163
38
- n_ 1085
38
+ n_ 1086
39
39
  ti 1028
40
- is 981
40
+ is 982
41
41
  de_ 975
42
- la 900
42
+ la 906
43
43
  ra 900
44
- _de_ 879
44
+ _de_ 877
45
45
  a_ 863
46
46
  g 846
47
- _s 831
47
+ _s 834
48
48
  v 796
49
49
  f 777
50
- _c 765
51
- _a 740
50
+ _c 773
51
+ _a 746
52
52
  ai 735
53
- te 723
53
+ te 724
54
54
  ent 708
55
55
  � 698
56
+ _le 691
56
57
  � 688
57
58
  � 687
58
59
  q 683
59
- _le 679
60
+ _la 679
60
61
  qu 672
61
62
  ar 672
62
- le_ 664
63
+ le_ 665
63
64
  in 664
64
65
  nt_ 663
65
- et 662
66
- _la 661
67
- me 657
68
- se 657
69
- it 656
66
+ et 663
67
+ it 660
68
+ se 659
69
+ me 658
70
70
  � 652
71
71
  �� 652
72
72
  ’ 652
73
73
  ur 643
74
- ce 639
74
+ ce 641
75
75
  la_ 638
76
+ _la_ 637
76
77
  ne 632
77
78
  b 630
78
- _la_ 625
79
79
  er 620
80
- ue 613
80
+ ue 616
81
+ __ 614
82
+ ns 601
81
83
  io 600
82
- ns 600
83
84
  . 599
84
85
  u_ 577
85
86
  ion 572
86
- et_ 555
87
+ et_ 556
88
+ _� 545
87
89
  st 545
88
- _� 544
89
90
  r_ 541
90
91
  ie 538
91
- _m 537
92
+ _m 538
92
93
  ri 535
93
94
  pa 531
94
95
  _et 529
95
96
  ran 527
96
- at 525
97
+ at 526
97
98
  au 525
98
99
  co 521
100
+ nc 520
99
101
  _et_ 520
100
- nc 519
101
102
  les 515
103
+ li 512
102
104
  ou 510
103
- li 508
104
105
  tr 498
105
106
  al 479
106
- ta 468
107
+ ta 469
107
108
  ro 467
108
109
  h 459
109
- les_ 456
110
- que 452
110
+ les_ 457
111
+ que 455
111
112
  tio 431
112
113
  eu 429
113
114
  tion 429
114
115
  r� 428
116
+ em 428
115
117
  _f 424
116
- re_ 421
117
- on_ 420
118
- em 413
118
+ re_ 423
119
+ on_ 419
120
+ _r 413
119
121
  x 410
120
- _r 409
121
- _en 406
122
- _pa 403
123
- or 400
122
+ _en 408
123
+ _pa 404
124
+ or 402
124
125
  rt 400
125
126
  po 397
127
+ des 388
126
128
  ll 386
127
129
  si 382
128
- des 379
129
- __ 379
130
- oi 378
130
+ oi 380
131
131
  pr 375
132
132
  anc 374
133
133
  un 373
134
- ent_ 371
134
+ ent_ 372
135
135
  en_ 368
136
- nce 366
137
- des_ 363
136
+ nce 367
137
+ e, 362
138
138
  _t 362
139
- ._ 361
140
- è 359
139
+ des_ 362
140
+ e,_ 362
141
+ ._ 362
141
142
  � 359
143
+ è 359
142
144
  ne_ 356
143
145
  ir 352
144
146
  par 352
145
- e,_ 351
146
- e, 351
147
147
  _des 347
148
- _co 344
149
- ce_ 343
150
- _le_ 340
151
- du 339
148
+ _le_ 345
149
+ _co 345
150
+ ce_ 344
151
+ du 343
152
152
  _des_ 338
153
- ns_ 335
154
- el 330
155
- l’ 328
156
- l� 328
153
+ ns_ 338
154
+ el 331
157
155
  l� 328
158
- _l� 326
159
- _l� 326
160
- _l’ 326
156
+ _l� 328
157
+ _l� 328
158
+ l� 328
159
+ l’ 328
160
+ _l’ 328
161
+ ui 327
161
162
  us 325
162
- ui 325
163
163
  F 324
164
+ nd 323
164
165
  ré 322
165
- nd 321
166
166
  ati 321
167
167
  ance 311
168
168
  t� 311
169
- n� 307
169
+ n� 308
170
+ _F 307
170
171
  ve 307
171
172
  ion_ 306
172
- _F 305
173
+ om 306
174
+ _en_ 305
173
175
  L 305
174
- om 305
175
- _en_ 304
176
176
  so 304
177
+ _les 304
177
178
  is_ 302
178
- _les 302
179
- é_ 299
180
179
  �_ 299
181
- ue_ 298
180
+ ue_ 299
181
+ é_ 299
182
182
  iq 296
183
+ _les_ 296
183
184
  iqu 296
184
185
  �e 294
186
+ _par 294
185
187
  ée 294
186
- _les_ 294
187
- _par 293
188
188
  ma 293
189
- men 291
189
+ men 292
190
190
  à 288
191
191
  � 288
192
192
  Fr 287
193
193
  ique 286
194
194
  il 284
195
+ _Fr 283
195
196
  Fra 283
196
197
  est 283
197
- _Fr 282
198
- à_ 280
199
- i_ 280
200
198
  Fran 280
201
199
  �_ 280
200
+ i_ 280
201
+ à_ 280
202
+ _Fra 279
202
203
  mi 279
203
- _Fra 278
204
204
  pl 278
205
+ _Fran 276
205
206
  té 276
206
- _Fran 275
207
+ _. 276
207
208
  _u 274
209
+ _, 274
208
210
  _à 273
209
211
  _à_ 272
210
212
  ranc 272
213
+ di 271
214
+ na 270
211
215
  ment 270
212
- di 270
213
216
  ut 269
214
- na 269
215
217
  ss 268
216
- _. 267
218
+ _du 268
217
219
  ci 267
218
- _du 264
219
220
  �s 263
220
221
  és 263
221
222
  ais 262
222
223
  du_ 259
223
- ation 258
224
+ _au 259
224
225
  atio 258
225
- _au 257
226
+ ation 258
227
+ _n 258
228
+ _pr 258
226
229
  _un 257
227
- _pr 256
230
+ lu 257
228
231
  _du_ 256
229
232
  y 255
230
- lu 255
231
233
  nce_ 255
232
- _n 255
234
+ que_ 253
233
235
  ol 252
234
236
  Franc 252
235
- que_ 252
236
- rs 251
237
237
  rance 251
238
+ rs 251
238
239
  tion_ 250
239
240
  lle 250
240
241
  pe 248
242
+ _,_ 247
243
+ s, 246
241
244
  con 244
242
- te_ 243
243
- s, 241
244
- _, 240
245
- ont 240
245
+ ic 244
246
+ s,_ 243
247
+ te_ 242
248
+ d� 242
246
249
  ire 240
247
- d� 239
248
- res 239
250
+ ont 240
251
+ _so 240
249
252
  no 239
250
- s,_ 238
251
- _so 238
252
- ic 238
253
+ res 239
253
254
  ons 238
254
255
  mo 236
255
- - 232
256
- dé 232
256
+ 233
257
257
  i� 231
258
258
  eur 230
259
259
  ance_ 228
260
260
  nn 227
261
261
  _qu 226
262
- ant 226
263
262
  _q 226
263
+ ant 226
264
264
  ct 223
265
- st_ 219
266
- est_ 219
267
- _,_ 217
268
- ni 216
265
+ eme 223
266
+ est_ 218
267
+ st_ 218
268
+ ni 217
269
+ lo 215
269
270
  ux 215
270
- _po 213
271
- lo 213
272
271
  ch 213
272
+ _po 213
273
273
  vi 212
274
- me_ 210
275
- 208
276
- eme 208
277
- _L 206
274
+ 209
275
+ me_ 209
276
+ sa 207
277
+ _L 207
278
278
  emen 205
279
279
  ement 205
280
- sa 203
281
- _es 202
282
- ec 202
280
+ _d� 203
281
+ se_ 203
282
+ ec 203
283
283
  pu 202
284
284
  ét 202
285
285
  �t 202
286
- se_ 201
287
- d� 201
286
+ _es 202
288
287
  d� 201
289
288
  d’ 201
290
- _d200
289
+ d201
290
+ ale 196
291
291
  ur_ 196
292
292
  to 196
293
- ale 196
294
- _dé 195
295
- _d’ 193
296
- _d� 193
293
+ _dé 196
294
+ da 195
297
295
  _o 193
296
+ _d’ 193
298
297
  _d� 193
298
+ _d� 193
299
299
  _est 192
300
- tre 191
301
300
  A 191
301
+ tre 191
302
302
  op 191
303
- _pl 190
304
- da 190
305
303
  au_ 190
304
+ _pl 190
306
305
  ul 189
307
306
  _est_ 187
307
+ x_ 186
308
+ ment_ 186
309
+ _re 185
310
+ bl 185
308
311
  fr 185
309
- ment_ 185
310
- _re 184
311
- x_ 184
312
- bl 184
313
- _i 184
312
+ _._ 184
314
313
  mp 184
315
- _._ 182
316
- ts 180
314
+ _i 184
315
+ ts 182
316
+ tu 180
317
317
  ac 180
318
318
  �r 180
319
- tu 180
320
319
  ér 180
321
320
  rti 179
322
- _se 176
323
- ise 174
321
+ _se 177
322
+ ise 175
324
323
  art 173
325
324
  iè 172
326
325
  ans 171
326
+ ia 170
327
327
  ç 170
328
328
  � 170
329
- ia 170
329
+ l_ 169
330
330
  _mo 169
331
+ ux_ 169
331
332
  ar_ 168
332
- ux_ 168
333
333
  an� 167
334
- _con 167
335
- l_ 167
334
+ lus 167
336
335
  gr 167
337
- P 166
336
+ _con 167
338
337
  ran� 166
339
- lus 166
338
+ P 166
340
339
  nç 165
341
340
  im 164
342
- ont_ 164
343
- une 163
344
341
  _fr 163
345
- son 162
342
+ ont_ 163
343
+ une 163
346
344
  rs_ 162
347
- un_ 161
345
+ son 162
346
+ _g 162
348
347
  anç 161
349
- _g 161
348
+ un_ 161
350
349
  ranç 160
351
- C 160
352
350
  su 160
353
351
  us_ 160
354
- _v 159
352
+ _v 160
353
+ C 160
355
354
  ill 159
356
- cl 158
357
355
  plu 158
356
+ cl 158
358
357
  par_ 158
359
358
  _plu 158
359
+ _par_ 157
360
360
  as 157
361
- nça 156
362
361
  �a 156
362
+ nça 156
363
363
  ça 156
364
- _par_ 156
365
- ança 153
364
+ l� 154
365
+ ique_ 154
366
366
  mm 153
367
- ique_ 153
368
- �ais 152
367
+ ança 153
369
368
  plus 152
370
- nçai 152
371
369
  çai 152
372
370
  �ai 152
373
371
  çais 152
374
- _plus 152
372
+ �ais 152
373
+ nçai 152
375
374
  rr 152
375
+ _plus 152
376
376
  fra 151
377
+ _au_ 151
377
378
  ge 150
378
- _au_ 150
379
- l� 149
380
379
  m� 149
381
380
  une_ 148
382
381
  ag 147
382
+ fi 146
383
383
  ell 146
384
384
  ions 146
385
- fi 146
386
385
  iv 145
387
- dan 144
386
+ ie_ 145
387
+ dan 145
388
388
  ien 144
389
- ie_ 144
389
+ ans_ 144
390
+ té_ 143
391
+ ain 143
390
392
  _fra 143
391
393
  our 143
392
- ain 143
393
- té_ 143
394
- ans_ 143
394
+ ep 143
395
395
  elle 142
396
396
  fran 142
397
- ep 142
398
397
  _fran 142
399
- ( 141
400
- ) 141
398
+ éc 141
399
+ �c 141
400
+ res_ 140