scylla 0.7.0 → 0.7.5

Sign up to get free protection for your applications and to get access to all the features.
Files changed (38) hide show
  1. data/lib/scylla/classifier.rb +3 -4
  2. data/lib/scylla/generator.rb +4 -7
  3. data/lib/scylla/lms/afrikaans.lm +280 -280
  4. data/lib/scylla/lms/arabic.lm +225 -225
  5. data/lib/scylla/lms/bulgarian.lm +208 -208
  6. data/lib/scylla/lms/catalan.lm +212 -212
  7. data/lib/scylla/lms/chinese.lm +201 -201
  8. data/lib/scylla/lms/danish.lm +155 -155
  9. data/lib/scylla/lms/english.lm +207 -207
  10. data/lib/scylla/lms/finnish.lm +259 -259
  11. data/lib/scylla/lms/french.lm +203 -203
  12. data/lib/scylla/lms/german.lm +280 -280
  13. data/lib/scylla/lms/greek.lm +276 -276
  14. data/lib/scylla/lms/hebrew.lm +170 -170
  15. data/lib/scylla/lms/hindi.lm +241 -241
  16. data/lib/scylla/lms/icelandic.lm +264 -264
  17. data/lib/scylla/lms/indonesian.lm +272 -272
  18. data/lib/scylla/lms/italian.lm +283 -283
  19. data/lib/scylla/lms/japanese.lm +105 -105
  20. data/lib/scylla/lms/korean.lm +400 -400
  21. data/lib/scylla/lms/norwegian.lm +235 -235
  22. data/lib/scylla/lms/polish.lm +264 -264
  23. data/lib/scylla/lms/portuguese.lm +269 -269
  24. data/lib/scylla/lms/romanian.lm +278 -278
  25. data/lib/scylla/lms/russian.lm +127 -127
  26. data/lib/scylla/lms/slovak.lm +281 -281
  27. data/lib/scylla/lms/slovenian.lm +276 -276
  28. data/lib/scylla/lms/spanish.lm +190 -190
  29. data/lib/scylla/lms/swedish.lm +195 -195
  30. data/lib/scylla/lms/tagalog.lm +282 -282
  31. data/lib/scylla/lms/thai.lm +257 -257
  32. data/lib/scylla/lms/turkish.lm +300 -300
  33. data/lib/scylla/lms/vietnamese.lm +277 -277
  34. data/lib/scylla/lms/welsh.lm +271 -271
  35. data/scylla.gemspec +3 -22
  36. data/source_texts/korean.txt +219 -134
  37. metadata +15 -14
  38. data/scylla-0.6.0.gem +0 -0
@@ -1,4 +1,4 @@
1
- _ 32316
1
+ _ 32532
2
2
  e 11820
3
3
  s 6385
4
4
  a 6245
@@ -7,120 +7,120 @@ n 6115
7
7
  t 5635
8
8
  r 5480
9
9
  l 4711
10
- e_ 4340
10
+ e_ 4461
11
11
  u 4260
12
12
  o 4196
13
13
  � 3243
14
14
  d 3178
15
- s_ 2979
15
+ s_ 3066
16
16
  c 2591
17
17
  p 2396
18
- _d 2365
18
+ _d 2392
19
19
  m 2162
20
20
  es 2138
21
21
  é 2115
22
22
  � 2115
23
- _l 1883
24
- t_ 1786
25
- de 1586
26
- le 1538
27
- es_ 1526
28
- en 1500
23
+ _l 1892
24
+ t_ 1830
25
+ de 1585
26
+ es_ 1556
27
+ le 1533
28
+ en 1497
29
29
  on 1429
30
- _de 1340
31
- _e 1316
30
+ _de 1354
31
+ _e 1349
32
+ _p 1259
32
33
  nt 1258
33
34
  an 1256
34
- _p 1247
35
35
  , 1245
36
- ,_ 1209
36
+ ,_ 1217
37
37
  re 1163
38
- n_ 1087
38
+ n_ 1116
39
39
  ti 1028
40
+ de_ 982
40
41
  is 981
41
- de_ 975
42
- la 906
43
42
  ra 900
44
- _de_ 879
45
- a_ 863
43
+ la 900
44
+ _de_ 892
45
+ a_ 871
46
46
  g 846
47
- _s 835
47
+ _s 841
48
48
  v 796
49
+ _c 794
49
50
  f 777
50
- _c 773
51
- _a 749
51
+ _a 776
52
52
  ai 735
53
53
  te 723
54
54
  ent 708
55
55
  � 698
56
- _le 693
56
+ _le 691
57
57
  � 688
58
58
  � 687
59
+ le_ 684
59
60
  q 683
60
- _la 679
61
+ nt_ 682
62
+ _la 678
61
63
  ar 672
62
64
  qu 672
63
- le_ 665
64
- nt_ 664
65
65
  in 664
66
66
  et 662
67
- se 657
68
67
  me 657
68
+ se 656
69
69
  it 656
70
70
  ’ 652
71
- � 652
72
71
  �� 652
72
+ � 652
73
73
  ur 643
74
- ce 640
75
- la_ 638
76
- _la_ 637
74
+ la_ 642
75
+ _la_ 641
76
+ ce 639
77
77
  ne 632
78
78
  b 630
79
- er 620
80
- ue 616
81
- ns 600
79
+ er 618
80
+ ue 613
82
81
  io 600
83
82
  . 599
84
- __ 594
85
- u_ 577
83
+ ns 598
84
+ ._ 592
85
+ u_ 591
86
86
  ion 572
87
- et_ 556
88
- _� 545
87
+ _� 571
88
+ et_ 567
89
+ _m 560
90
+ r_ 550
89
91
  st 545
90
- r_ 541
91
- _m 538
92
92
  ie 538
93
+ _et 536
93
94
  ri 535
94
95
  pa 531
95
- _et 529
96
+ _et_ 530
96
97
  ran 527
97
98
  au 525
98
- at 525
99
+ at 524
99
100
  co 521
100
- _et_ 520
101
101
  nc 519
102
102
  les 515
103
- li 512
104
103
  ou 510
105
- tr 498
104
+ li 508
105
+ tr 497
106
106
  al 479
107
- ta 468
107
+ les_ 468
108
+ ta 467
108
109
  ro 467
110
+ re_ 460
109
111
  h 459
110
- les_ 457
111
- que 455
112
+ que 452
113
+ on_ 433
112
114
  tio 431
113
- eu 429
115
+ _f 430
114
116
  tion 429
117
+ eu 429
115
118
  r� 428
116
- _f 424
117
- re_ 423
118
- on_ 420
119
+ _en 419
120
+ _r 419
119
121
  em 413
120
- _r 413
121
- _en 410
122
122
  x 410
123
- _pa 404
123
+ _pa 408
124
124
  or 400
125
125
  rt 400
126
126
  po 397
@@ -130,271 +130,271 @@ des 379
130
130
  oi 378
131
131
  pr 375
132
132
  anc 374
133
+ ent_ 374
134
+ en_ 373
133
135
  un 373
134
- ent_ 372
135
- en_ 368
136
+ _t 369
136
137
  nce 366
137
- des_ 363
138
- ._ 363
139
- _t 362
140
- e,_ 362
141
- e, 362
142
- � 359
138
+ des_ 364
143
139
  è 359
144
- ne_ 357
140
+ 359
141
+ ne_ 359
142
+ ce_ 355
145
143
  par 352
146
144
  ir 352
147
- _le_ 347
148
- _des 347
149
- _co 345
150
- ce_ 344
151
- du 343
152
- _des_ 338
153
- ns_ 338
154
- el 330
155
- l� 328
156
- _l� 328
157
- _l’ 328
145
+ _co 352
146
+ e,_ 351
147
+ e, 351
148
+ _des 349
149
+ _le_ 349
150
+ ns_ 346
151
+ _des_ 339
152
+ du 339
158
153
  l� 328
159
154
  _l� 328
155
+ _l’ 328
156
+ l� 328
160
157
  l’ 328
161
- ui 327
158
+ _l� 328
159
+ el 327
162
160
  us 325
161
+ ui 325
163
162
  F 324
164
163
  ré 322
165
- nd 321
166
164
  ati 321
167
- ance 311
165
+ nd 320
166
+ _F 317
167
+ is_ 314
168
+ _en_ 313
169
+ ion_ 312
168
170
  t� 311
169
- n� 308
171
+ ance 311
172
+ _, 310
173
+ _les 307
170
174
  ve 307
171
- _F 307
172
- ion_ 306
173
- _en_ 306
175
+ n� 307
174
176
  om 305
175
177
  L 305
178
+ �_ 304
176
179
  so 304
177
- _les 304
178
- is_ 302
179
- ue_ 299
180
- é_ 299
181
- �_ 299
180
+ _les_ 304
181
+ é_ 304
182
+ ue_ 304
183
+ _L 303
184
+ _par 298
182
185
  iq 296
183
- _les_ 296
184
186
  iqu 296
185
- ée 294
186
- _par 294
187
+ i_ 295
187
188
  �e 294
189
+ ée 294
188
190
  ma 293
191
+ _. 291
189
192
  men 291
190
- à 288
193
+ _._ 289
191
194
  � 288
195
+ à 288
196
+ à_ 287
197
+ �_ 287
192
198
  Fr 287
199
+ _Fr 287
193
200
  ique 286
201
+ _,_ 286
194
202
  il 284
203
+ _Fra 283
195
204
  Fra 283
196
- _Fr 283
197
205
  est 283
198
- i_ 280
199
- �_ 280
206
+ _u 282
207
+ _Fran 280
200
208
  Fran 280
201
- à_ 280
202
- _Fra 279
209
+ _à_ 279
210
+ 279
203
211
  mi 279
204
212
  pl 278
205
- _Fran 276
206
213
  té 276
207
- _. 275
208
- _u 274
209
- _à 273
210
214
  ranc 272
211
- _à_ 272
212
- di 271
213
215
  ment 270
214
- na 270
216
+ di 270
217
+ na 269
215
218
  ut 269
216
219
  ss 268
217
- _du 268
218
220
  ci 267
219
- _, 266
221
+ _au 266
222
+ _n 265
223
+ _du 265
224
+ _un 263
225
+ nce_ 263
220
226
  �s 263
221
227
  és 263
222
- _au 262
228
+ _pr 262
223
229
  ais 262
224
230
  du_ 259
225
- ation 258
226
231
  atio 258
227
- _n 258
228
- _pr 258
229
- _un 257
230
- lu 257
232
+ que_ 258
233
+ ation 258
231
234
  _du_ 256
235
+ tion_ 256
232
236
  y 255
233
- nce_ 255
234
- que_ 253
237
+ lu 255
235
238
  Franc 252
236
239
  ol 252
237
- rs 251
238
240
  rance 251
239
- tion_ 250
241
+ rs 251
240
242
  lle 250
243
+ te_ 250
241
244
  pe 248
242
- s, 246
243
245
  con 244
244
- te_ 243
245
- s,_ 243
246
- d� 242
247
- ont 240
248
- _so 240
246
+ _so 243
247
+ s, 241
249
248
  ire 240
250
- res 239
251
- _,_ 239
249
+ ont 240
250
+ d� 239
251
+ s,_ 239
252
252
  no 239
253
+ res 239
253
254
  ons 238
254
255
  ic 238
255
256
  mo 236
256
- 233
257
- - 232
257
+ ance_ 234
258
+ 232
258
259
  i� 231
259
260
  eur 230
260
- ance_ 228
261
- nn 227
261
+ _q 229
262
+ _qu 229
263
+ nn 226
262
264
  ant 226
263
- _qu 226
264
- _q 226
265
265
  ct 223
266
- est_ 219
267
- st_ 219
266
+ st_ 222
267
+ me_ 220
268
+ est_ 220
269
+ l_ 216
268
270
  ni 216
269
- lo 215
271
+ 216
272
+ _po 215
270
273
  ux 215
271
- _po 213
274
+ _es 213
275
+ lo 213
272
276
  ch 213
273
277
  vi 212
274
- me_ 210
275
- _é 209
278
+ se_ 209
276
279
  eme 208
277
- _L 207
278
- sa 205
279
280
  ement 205
280
281
  emen 205
282
+ _o 204
281
283
  _d� 203
282
- se_ 203
283
- _es 202
284
- �t 202
285
- ec 202
284
+ _est 202
286
285
  pu 202
287
286
  ét 202
288
- d’ 201
287
+ �t 202
289
288
  d� 201
289
+ sa 201
290
+ d’ 201
290
291
  d� 201
292
+ ec 200
293
+ _dé 198
294
+ ur_ 198
295
+ _est_ 196
296
+ x_ 196
291
297
  ale 196
292
- ur_ 196
293
- _dé 196
294
- to 196
295
- da 194
296
- _d� 193
297
- _o 193
298
- _d� 193
299
- _d’ 193
300
- _est 192
301
- A 191
298
+ _d’ 195
299
+ _d 195
300
+ to 195
301
+ _d� 195
302
+ _i 194
303
+ au_ 193
302
304
  op 191
303
- tre 191
304
- au_ 190
305
+ A 191
306
+ da 190
307
+ tre 190
305
308
  _pl 190
306
309
  ul 189
307
- _est_ 187
308
- x_ 186
309
- ment_ 186
310
- _re 185
310
+ _re 188
311
+ ment_ 187
311
312
  fr 185
312
- _i 184
313
- _._ 184
314
- mp 184
315
313
  bl 184
316
- ac 180
314
+ mp 184
317
315
  ér 180
318
- ts 180
319
- �r 180
316
+ ac 180
320
317
  tu 180
318
+ �r 180
319
+ ts 179
321
320
  rti 179
322
- _se 177
321
+ _se 178
322
+ ux_ 174
323
323
  ise 174
324
324
  art 173
325
+ _con 172
325
326
  iè 172
326
327
  ans 171
327
- 170
328
+ _mo 171
329
+ _g 171
328
330
  ç 170
331
+ � 170
329
332
  ia 170
330
- l_ 169
331
- _mo 169
332
- ux_ 169
333
+ _v 170
333
334
  ar_ 168
334
- _con 167
335
- gr 167
336
335
  an� 167
337
- lus 167
336
+ gr 167
337
+ ont_ 167
338
338
  ran� 166
339
+ lus 166
340
+ rs_ 166
339
341
  P 166
340
342
  nç 165
341
- ont_ 164
342
343
  im 164
343
344
  _fr 163
344
345
  une 163
345
- _g 162
346
+ us_ 162
346
347
  son 162
347
- rs_ 162
348
- un_ 161
348
+ un_ 162
349
349
  anç 161
350
- C 160
351
- _v 160
352
- us_ 160
353
- su 160
354
350
  ranç 160
351
+ C 160
352
+ su 159
353
+ ique_ 159
355
354
  ill 159
355
+ _par_ 158
356
+ _au_ 158
356
357
  cl 158
357
- plu 158
358
358
  par_ 158
359
359
  _plu 158
360
+ plu 158
361
+ _P 158
360
362
  as 157
361
- _par_ 157
363
+ ça 156
362
364
  nça 156
363
365
  �a 156
364
- ça 156
365
- ique_ 154
366
- _au_ 154
367
- l� 154
368
- mm 153
369
366
  ança 153
370
- _plus 152
367
+ mm 153
368
+ çais 152
371
369
  nçai 152
372
- çai 152
370
+ �ais 152
373
371
  plus 152
372
+ çai 152
374
373
  �ai 152
375
- çais 152
376
- �ais 152
377
- rr 152
374
+ _plus 152
375
+ ie_ 151
376
+ rr 151
378
377
  fra 151
379
378
  ge 150
380
379
  m� 149
381
- une_ 148
380
+ une_ 149
381
+ l� 149
382
+ té_ 148
383
+ ans_ 147
382
384
  ag 147
383
- ions 146
384
385
  ell 146
386
+ ions 146
385
387
  fi 146
386
- ie_ 145
387
388
  iv 145
388
- dan 145
389
- ans_ 144
389
+ _C 144
390
390
  ien 144
391
- _fra 143
391
+ ts_ 144
392
+ dan 144
392
393
  ain 143
393
- té_ 143
394
+ _fra 143
395
+ it_ 143
394
396
  our 143
395
- ep 142
396
- fran 142
397
+ res_ 142
397
398
  elle 142
399
+ fran 142
398
400
  _fran 142
399
- éc 141
400
- �c 141