scylla 0.1.0 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (80) hide show
  1. data/Gemfile +0 -1
  2. data/Gemfile.lock +0 -10
  3. data/README.rdoc +22 -0
  4. data/VERSION +1 -1
  5. data/bin/scylla +13 -0
  6. data/lib/scylla/classifier.rb +2 -2
  7. data/lib/scylla/generator.rb +1 -1
  8. data/lib/scylla/lms/13375P33K.lm +400 -0
  9. data/lib/scylla/lms/afrikaans.lm +400 -0
  10. data/lib/scylla/lms/arabic.lm +400 -0
  11. data/lib/scylla/lms/bulgarian.lm +400 -0
  12. data/lib/scylla/lms/catalan.lm +400 -0
  13. data/lib/scylla/lms/chinese.lm +400 -0
  14. data/lib/scylla/lms/danish.lm +400 -0
  15. data/lib/scylla/lms/english.lm +400 -0
  16. data/lib/scylla/lms/esperanto.lm +400 -0
  17. data/lib/scylla/lms/finnish.lm +400 -0
  18. data/lib/scylla/lms/french.lm +400 -0
  19. data/lib/scylla/lms/german.lm +400 -0
  20. data/lib/scylla/lms/greek-iso8859-7.lm +400 -0
  21. data/lib/scylla/lms/hebrew.lm +400 -0
  22. data/lib/scylla/lms/hindi.lm +400 -0
  23. data/lib/scylla/lms/hungarian.lm +400 -0
  24. data/lib/scylla/lms/icelandic.lm +400 -0
  25. data/lib/scylla/lms/indonesian.lm +400 -0
  26. data/lib/scylla/lms/irish.lm +400 -0
  27. data/lib/scylla/lms/italian.lm +400 -0
  28. data/lib/scylla/lms/japanese.lm +400 -0
  29. data/lib/scylla/lms/kannada.lm +400 -0
  30. data/lib/scylla/lms/korean.lm +400 -0
  31. data/lib/scylla/lms/latin.lm +400 -0
  32. data/lib/scylla/lms/malay.lm +400 -0
  33. data/lib/scylla/lms/marathi.lm +400 -0
  34. data/lib/scylla/lms/mingo.lm +400 -0
  35. data/lib/scylla/lms/nepali.lm +400 -0
  36. data/lib/scylla/lms/norwegian.lm +400 -0
  37. data/lib/scylla/lms/polish.lm +400 -0
  38. data/lib/scylla/lms/portuguese.lm +400 -0
  39. data/lib/scylla/lms/quechua.lm +400 -0
  40. data/lib/scylla/lms/romanian.lm +400 -0
  41. data/lib/scylla/lms/rumantsch.lm +400 -0
  42. data/lib/scylla/lms/russian.lm +400 -0
  43. data/lib/scylla/lms/sanskrit.lm +400 -0
  44. data/lib/scylla/lms/scots_gaelic.lm +400 -0
  45. data/lib/scylla/lms/serbian-ascii.lm +400 -0
  46. data/lib/scylla/lms/slovak-ascii.lm +400 -0
  47. data/lib/scylla/lms/slovenian-ascii.lm +400 -0
  48. data/lib/scylla/lms/spanish.lm +400 -0
  49. data/lib/scylla/lms/swahili.lm +400 -0
  50. data/lib/scylla/lms/swedish.lm +400 -0
  51. data/lib/scylla/lms/tagalog.lm +400 -0
  52. data/lib/scylla/lms/tamil.lm +400 -0
  53. data/lib/scylla/lms/thai.lm +400 -0
  54. data/lib/scylla/lms/turkish.lm +400 -0
  55. data/lib/scylla/lms/ukrainian-koi8_u.lm +400 -0
  56. data/lib/scylla/lms/vietnamese.lm +400 -0
  57. data/lib/scylla/lms/welsh.lm +400 -0
  58. data/lib/scylla/lms/yiddish-utf.lm +400 -0
  59. data/lib/scylla/loader.rb +8 -1
  60. data/scylla-0.1.0.gem +0 -0
  61. data/scylla.gemspec +69 -3
  62. data/source_texts/kannada.txt +283 -0
  63. data/test/classifier_test.rb +7 -0
  64. data/test/fixtures/lms/13375p33k.lm +400 -0
  65. data/test/fixtures/lms/danish.lm +400 -0
  66. data/test/fixtures/lms/english.lm +400 -0
  67. data/test/fixtures/lms/french.lm +400 -0
  68. data/test/fixtures/lms/german.lm +400 -0
  69. data/test/fixtures/lms/japanese.lm +400 -0
  70. data/test/fixtures/lms/kannada.lm +400 -0
  71. data/test/fixtures/lms/spanish.lm +400 -0
  72. data/test/fixtures/source_texts/13375P33K.txt +199 -0
  73. data/test/fixtures/source_texts/japanese.txt +199 -0
  74. data/test/fixtures/source_texts/kannada.txt +283 -0
  75. data/test/generator_test.rb +10 -7
  76. data/test/helper.rb +5 -6
  77. data/test/loader_test.rb +1 -0
  78. data/test/scylla_test.rb +1 -0
  79. metadata +78 -14
  80. data/source_texts/armenian.txt +0 -86
@@ -0,0 +1,400 @@
1
+ _ 39275
2
+ a 10584
3
+ e 10526
4
+ o 7129
5
+ n 6382
6
+ s 6107
7
+ i 5947
8
+ r 5605
9
+ l 5112
10
+ d 4622
11
+ t 3867
12
+ c 3674
13
+ a_ 2987
14
+ e_ 2942
15
+ u 2914
16
+ � 2572
17
+ s_ 2497
18
+ de 2468
19
+ __ 2421
20
+ _d 2335
21
+ p 2303
22
+ m 2195
23
+ _de 2098
24
+ o_ 1869
25
+ _e 1761
26
+ n_ 1759
27
+ en 1746
28
+ de_ 1681
29
+ _de_ 1604
30
+ la 1459
31
+ es 1454
32
+ _l 1371
33
+ , 1276
34
+ ,_ 1266
35
+ l_ 1224
36
+ os 1221
37
+ er 1194
38
+ on 1122
39
+ as 1103
40
+ ci 1095
41
+ _p 1071
42
+ el 1049
43
+ _c 1043
44
+ an 1032
45
+ ra 1018
46
+ al 997
47
+ g 941
48
+ _la 932
49
+ os_ 931
50
+ nt 926
51
+ te 922
52
+ co 901
53
+ b 896
54
+ _a 893
55
+ re 888
56
+ ta 858
57
+ ri 825
58
+ ad 825
59
+ ar 816
60
+ la_ 814
61
+ or 812
62
+ el_ 796
63
+ _s 795
64
+ . 766
65
+ pa 757
66
+ � 756
67
+ ó 755
68
+ do 751
69
+ st 737
70
+ ro 725
71
+ y 717
72
+ as_ 716
73
+ _la_ 712
74
+ na 691
75
+ ue 688
76
+ v 663
77
+ in 658
78
+ _en 644
79
+ ca 643
80
+ ic 635
81
+ en_ 632
82
+ es_ 621
83
+ da 621
84
+ ia 620
85
+ E 615
86
+ to 609
87
+ lo 605
88
+ _m 597
89
+ f 596
90
+ _co 590
91
+ y_ 563
92
+ � 557
93
+ í 557
94
+ _el 553
95
+ ti 535
96
+ no 532
97
+ _en_ 529
98
+ ._ 524
99
+ _y 523
100
+ un 513
101
+ ent 513
102
+ le 507
103
+ _el_ 505
104
+ r_ 500
105
+ io 495
106
+ _y_ 493
107
+ �n 488
108
+ ón 488
109
+ i� 487
110
+ po 475
111
+ a� 472
112
+ _E 470
113
+ se 468
114
+ sp 460
115
+ q 456
116
+ qu 455
117
+ � 453
118
+ ñ 453
119
+ C 451
120
+ tr 450
121
+ _t 444
122
+ ma 440
123
+ id 432
124
+ ac 431
125
+ ió 428
126
+ is 427
127
+ ni 426
128
+ om 425
129
+ ne 414
130
+ nte 414
131
+ con 410
132
+ do_ 407
133
+ nc 406
134
+ _r 403
135
+ li 403
136
+ nd 403
137
+ ie 401
138
+ si 399
139
+ me 396
140
+ añ 395
141
+ á 391
142
+ � 391
143
+ h 383
144
+ pr 382
145
+ �n_ 376
146
+ ón_ 376
147
+ spa 375
148
+ _C 375
149
+ que 374
150
+ ión 373
151
+ ue_ 370
152
+ pa� 363
153
+ ec 341
154
+ mi 340
155
+ ión_ 339
156
+ _con 338
157
+ _re 336
158
+ rt 336
159
+ di 336
160
+ pe 333
161
+ _pr 328
162
+ A 327
163
+ te_ 327
164
+ que_ 324
165
+ _q 319
166
+ _qu 319
167
+ it 317
168
+ pañ 315
169
+ Es 313
170
+ _se 310
171
+ mo 310
172
+ _lo 309
173
+ spañ 309
174
+ spa� 309
175
+ _que 308
176
+ _po 307
177
+ los 305
178
+ _es 304
179
+ al_ 303
180
+ ol 302
181
+ aci 300
182
+ ci� 300
183
+ ció 299
184
+ los_ 296
185
+ I 295
186
+ a, 294
187
+ ado 294
188
+ ur 293
189
+ a,_ 292
190
+ _que_ 291
191
+ _i 291
192
+ ción 285
193
+ _Es 283
194
+ su 282
195
+ ña 278
196
+ �a 278
197
+ z 275
198
+ _f 275
199
+ _u 271
200
+ ica 271
201
+ on_ 270
202
+ del 270
203
+ cia 267
204
+ ce 267
205
+ _del 266
206
+ del_ 261
207
+ � 261
208
+ é 261
209
+ nci 260
210
+ _del_ 259
211
+ tu 258
212
+ _o 258
213
+ _h 257
214
+ _los 257
215
+ or_ 256
216
+ am 255
217
+ _los_ 254
218
+ sta 253
219
+ _un 252
220
+ Espa 250
221
+ Espa� 250
222
+ Esp 250
223
+ ra_ 249
224
+ s, 249
225
+ s,_ 248
226
+ est 245
227
+ ll 245
228
+ ab 245
229
+ las 244
230
+ por 244
231
+ ía 243
232
+ �a 243
233
+ aña 243
234
+ at 239
235
+ r� 239
236
+ so 234
237
+ paña 234
238
+ _A 233
239
+ im 231
240
+ _a_ 231
241
+ las_ 230
242
+ ns 228
243
+ _Esp 227
244
+ _Espa 227
245
+ cu 226
246
+ em 226
247
+ na_ 224
248
+ j 224
249
+ ul 220
250
+ ant 219
251
+ P 219
252
+ ente 218
253
+ rr 218
254
+ to_ 217
255
+ nte_ 217
256
+ ) 216
257
+ ( 216
258
+ _n 216
259
+ dad 215
260
+ ia_ 215
261
+ se_ 215
262
+ _( 214
263
+ il 213
264
+ vi 213
265
+ L 211
266
+ ter 209
267
+ _pa 206
268
+ ada 205
269
+ men 203
270
+ era 202
271
+ ran 201
272
+ les 201
273
+ da_ 200
274
+ ig 198
275
+ _su 198
276
+ o, 197
277
+ o,_ 195
278
+ ien 195
279
+ tra 193
280
+ res 192
281
+ cio 190
282
+ com 190
283
+ one 189
284
+ _ca 189
285
+ ida 189
286
+ M 188
287
+ S 187
288
+ ed 187
289
+ t� 185
290
+ _las 185
291
+ m� 185
292
+ ona 185
293
+ _las_ 185
294
+ ha 184
295
+ ion 184
296
+ nes 183
297
+ no_ 182
298
+ od 182
299
+ ale 180
300
+ _P 179
301
+ br 178
302
+ sa 178
303
+ _com 178
304
+ _por 177
305
+ mp 177
306
+ bi 176
307
+ _in 176
308
+ pro 175
309
+ ist 175
310
+ ació 173
311
+ dos 173
312
+ aci� 173
313
+ ct 172
314
+ des 172
315
+ oc 172
316
+ eg 167
317
+ _I 167
318
+ _al 167
319
+ an_ 166
320
+ por_ 166
321
+ ero 165
322
+ _pro 164
323
+ _por_ 164
324
+ _se_ 164
325
+ ía_ 163
326
+ ño 163
327
+ �a_ 163
328
+ �o 163
329
+ _v 162
330
+ va 161
331
+ ment 161
332
+ lo_ 160
333
+ iv 160
334
+ gu 159
335
+ ndo 159
336
+ mu 158
337
+ _. 157
338
+ _si 156
339
+ et 156
340
+ ici 155
341
+ fi 155
342
+ d_ 155
343
+ go 154
344
+ ria 154
345
+ _M 153
346
+ a. 152
347
+ ron 152
348
+ mo_ 152
349
+ ga 151
350
+ ones 151
351
+ _ha 151
352
+ op 151
353
+ za 151
354
+ _L 150
355
+ us 150
356
+ _S 149
357
+ mb 149
358
+ ca_ 148
359
+ ba 148
360
+ año 148
361
+ Ca 148
362
+ sti 147
363
+ _pe 147
364
+ ado_ 147
365
+ ncia 147
366
+ ua 146
367
+ uc 146
368
+ ico 146
369
+ nes_ 145
370
+ s. 144
371
+ ña_ 144
372
+ �a_ 144
373
+ ve 144
374
+ rio 143
375
+ cion 143
376
+ _con_ 142
377
+ con_ 142
378
+ _._ 142
379
+ ente_ 142
380
+ ip 141
381
+ rc 141
382
+ io_ 140
383
+ ntr 140
384
+ nto 139
385
+ tor 139
386
+ _g 138
387
+ ob 138
388
+ ta_ 138
389
+ par 138
390
+ G 137
391
+ ir 137
392
+ aña_ 136
393
+ bl 136
394
+ n� 136
395
+ ante 136
396
+ dos_ 135
397
+ ó_ 134
398
+ �_ 134
399
+ eri 134
400
+ err 134