scylla 0.1.0 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (80) hide show
  1. data/Gemfile +0 -1
  2. data/Gemfile.lock +0 -10
  3. data/README.rdoc +22 -0
  4. data/VERSION +1 -1
  5. data/bin/scylla +13 -0
  6. data/lib/scylla/classifier.rb +2 -2
  7. data/lib/scylla/generator.rb +1 -1
  8. data/lib/scylla/lms/13375P33K.lm +400 -0
  9. data/lib/scylla/lms/afrikaans.lm +400 -0
  10. data/lib/scylla/lms/arabic.lm +400 -0
  11. data/lib/scylla/lms/bulgarian.lm +400 -0
  12. data/lib/scylla/lms/catalan.lm +400 -0
  13. data/lib/scylla/lms/chinese.lm +400 -0
  14. data/lib/scylla/lms/danish.lm +400 -0
  15. data/lib/scylla/lms/english.lm +400 -0
  16. data/lib/scylla/lms/esperanto.lm +400 -0
  17. data/lib/scylla/lms/finnish.lm +400 -0
  18. data/lib/scylla/lms/french.lm +400 -0
  19. data/lib/scylla/lms/german.lm +400 -0
  20. data/lib/scylla/lms/greek-iso8859-7.lm +400 -0
  21. data/lib/scylla/lms/hebrew.lm +400 -0
  22. data/lib/scylla/lms/hindi.lm +400 -0
  23. data/lib/scylla/lms/hungarian.lm +400 -0
  24. data/lib/scylla/lms/icelandic.lm +400 -0
  25. data/lib/scylla/lms/indonesian.lm +400 -0
  26. data/lib/scylla/lms/irish.lm +400 -0
  27. data/lib/scylla/lms/italian.lm +400 -0
  28. data/lib/scylla/lms/japanese.lm +400 -0
  29. data/lib/scylla/lms/kannada.lm +400 -0
  30. data/lib/scylla/lms/korean.lm +400 -0
  31. data/lib/scylla/lms/latin.lm +400 -0
  32. data/lib/scylla/lms/malay.lm +400 -0
  33. data/lib/scylla/lms/marathi.lm +400 -0
  34. data/lib/scylla/lms/mingo.lm +400 -0
  35. data/lib/scylla/lms/nepali.lm +400 -0
  36. data/lib/scylla/lms/norwegian.lm +400 -0
  37. data/lib/scylla/lms/polish.lm +400 -0
  38. data/lib/scylla/lms/portuguese.lm +400 -0
  39. data/lib/scylla/lms/quechua.lm +400 -0
  40. data/lib/scylla/lms/romanian.lm +400 -0
  41. data/lib/scylla/lms/rumantsch.lm +400 -0
  42. data/lib/scylla/lms/russian.lm +400 -0
  43. data/lib/scylla/lms/sanskrit.lm +400 -0
  44. data/lib/scylla/lms/scots_gaelic.lm +400 -0
  45. data/lib/scylla/lms/serbian-ascii.lm +400 -0
  46. data/lib/scylla/lms/slovak-ascii.lm +400 -0
  47. data/lib/scylla/lms/slovenian-ascii.lm +400 -0
  48. data/lib/scylla/lms/spanish.lm +400 -0
  49. data/lib/scylla/lms/swahili.lm +400 -0
  50. data/lib/scylla/lms/swedish.lm +400 -0
  51. data/lib/scylla/lms/tagalog.lm +400 -0
  52. data/lib/scylla/lms/tamil.lm +400 -0
  53. data/lib/scylla/lms/thai.lm +400 -0
  54. data/lib/scylla/lms/turkish.lm +400 -0
  55. data/lib/scylla/lms/ukrainian-koi8_u.lm +400 -0
  56. data/lib/scylla/lms/vietnamese.lm +400 -0
  57. data/lib/scylla/lms/welsh.lm +400 -0
  58. data/lib/scylla/lms/yiddish-utf.lm +400 -0
  59. data/lib/scylla/loader.rb +8 -1
  60. data/scylla-0.1.0.gem +0 -0
  61. data/scylla.gemspec +69 -3
  62. data/source_texts/kannada.txt +283 -0
  63. data/test/classifier_test.rb +7 -0
  64. data/test/fixtures/lms/13375p33k.lm +400 -0
  65. data/test/fixtures/lms/danish.lm +400 -0
  66. data/test/fixtures/lms/english.lm +400 -0
  67. data/test/fixtures/lms/french.lm +400 -0
  68. data/test/fixtures/lms/german.lm +400 -0
  69. data/test/fixtures/lms/japanese.lm +400 -0
  70. data/test/fixtures/lms/kannada.lm +400 -0
  71. data/test/fixtures/lms/spanish.lm +400 -0
  72. data/test/fixtures/source_texts/13375P33K.txt +199 -0
  73. data/test/fixtures/source_texts/japanese.txt +199 -0
  74. data/test/fixtures/source_texts/kannada.txt +283 -0
  75. data/test/generator_test.rb +10 -7
  76. data/test/helper.rb +5 -6
  77. data/test/loader_test.rb +1 -0
  78. data/test/scylla_test.rb +1 -0
  79. metadata +78 -14
  80. data/source_texts/armenian.txt +0 -86
@@ -0,0 +1,400 @@
1
+ _ 8664
2
+ o 2534
3
+ i 2204
4
+ a 2154
5
+ e 2086
6
+ t 1488
7
+ n 1469
8
+ r 1262
9
+ o_ 1097
10
+ l 974
11
+ s 937
12
+ k 880
13
+ m 777
14
+ u 677
15
+ p 676
16
+ d 558
17
+ a_ 556
18
+ v 516
19
+ . 514
20
+ , 475
21
+ ,_ 475
22
+ ._ 415
23
+ g 379
24
+ i_ 365
25
+ f 327
26
+ e_ 323
27
+ _a 322
28
+ _p 311
29
+ _s 296
30
+ _i 295
31
+ ti 294
32
+ b 291
33
+ an 291
34
+ j 281
35
+ c 274
36
+ ta 272
37
+ _k 271
38
+ nt 270
39
+ _t 268
40
+ _n 266
41
+ en 262
42
+ to 254
43
+ ek 249
44
+ on 249
45
+ al 248
46
+ _e 245
47
+ ri 237
48
+ te 236
49
+ ro 235
50
+ _d 228
51
+ er 218
52
+ _m 218
53
+ re 217
54
+ li 213
55
+ in 210
56
+ ra 208
57
+ z 207
58
+ no 204
59
+ st 201
60
+ ia 199
61
+ h 191
62
+ lo 189
63
+ _f 183
64
+ tr 179
65
+ io 172
66
+ to_ 172
67
+ vo 172
68
+ at 172
69
+ _o 171
70
+ po 168
71
+ me 163
72
+ om 162
73
+ or 161
74
+ ko 158
75
+ de 156
76
+ � 151
77
+ ŭ 151
78
+ � 151
79
+ _v 150
80
+ o. 148
81
+ ne 148
82
+ pr 146
83
+ ci 139
84
+ a� 138
85
+ aŭ 138
86
+ ma 137
87
+ la 136
88
+ n_ 135
89
+ iv 134
90
+ il 130
91
+ it 130
92
+ et 128
93
+ _h 126
94
+ mo 123
95
+ es 120
96
+ em 120
97
+ _ne 119
98
+ is 119
99
+ ol 118
100
+ o, 116
101
+ o,_ 116
102
+ o._ 116
103
+ s_ 115
104
+ ar 115
105
+ mi 115
106
+ el 113
107
+ ni 112
108
+ ant 112
109
+ pe 111
110
+ _r 108
111
+ ie 107
112
+ no_ 106
113
+ ig 105
114
+ le 105
115
+ do 105
116
+ vi 101
117
+ ro_ 99
118
+ _pr 99
119
+ un 97
120
+ _de 96
121
+ gi 96
122
+ ta_ 96
123
+ l_ 95
124
+ _l 95
125
+ tiv 93
126
+ va 92
127
+ ka 92
128
+ su 92
129
+ ks 92
130
+ os 91
131
+ am 90
132
+ se 90
133
+ si 89
134
+ r_ 89
135
+ na 88
136
+ ono 87
137
+ ki 87
138
+ _ek 85
139
+ pl 84
140
+ _se 80
141
+ rt 79
142
+ ter 79
143
+ _al 78
144
+ _su 78
145
+ ati 78
146
+ j_ 77
147
+ lo_ 77
148
+ nd 77
149
+ _po 77
150
+ fi 76
151
+ pa 75
152
+ _an 75
153
+ _ti 74
154
+ nta 74
155
+ sa 74
156
+ ent 74
157
+ _b 74
158
+ _u 73
159
+ eks 73
160
+ nu 73
161
+ _g 72
162
+ ik 72
163
+ ns 71
164
+ _tr 71
165
+ kr 71
166
+ fr 71
167
+ m_ 70
168
+ _j 70
169
+ di 70
170
+ ec 70
171
+ ga 70
172
+ _ki 70
173
+ t_ 69
174
+ ng 69
175
+ ost 69
176
+ a, 67
177
+ a,_ 67
178
+ sk 66
179
+ ia_ 66
180
+ do_ 65
181
+ so 65
182
+ io_ 65
183
+ _re 65
184
+ per 65
185
+ ok 65
186
+ _ko 64
187
+ ku 64
188
+ nte 64
189
+ _c 64
190
+ _in 64
191
+ nk 63
192
+ ta� 62
193
+ taŭ 62
194
+ en_ 62
195
+ fa 62
196
+ mp 61
197
+ ed 61
198
+ anta 60
199
+ az 60
200
+ k_ 60
201
+ v_ 60
202
+ ve 60
203
+ _ma 59
204
+ u_ 59
205
+ du 58
206
+ ort 58
207
+ kt 58
208
+ mo_ 58
209
+ vo_ 57
210
+ d_ 57
211
+ ili 57
212
+ zo 57
213
+ _vi 57
214
+ ali 57
215
+ je 57
216
+ igi 57
217
+ ur 57
218
+ era 56
219
+ _du 55
220
+ ativ 55
221
+ da 55
222
+ id 55
223
+ _fr 54
224
+ S 54
225
+ _mi 54
226
+ ub 54
227
+ fo 54
228
+ ic 54
229
+ sp 54
230
+ nto 53
231
+ _ali 53
232
+ ho 53
233
+ fra 53
234
+ ad 53
235
+ sub 52
236
+ a. 52
237
+ pre 52
238
+ nom 52
239
+ uo 52
240
+ ke 52
241
+ oj 51
242
+ i,_ 51
243
+ i, 51
244
+ im 51
245
+ iva 51
246
+ mal 51
247
+ ivo 51
248
+ sta 51
249
+ kri 51
250
+ um 50
251
+ i. 50
252
+ vor 50
253
+ vort 50
254
+ I 50
255
+ post 49
256
+ ez 49
257
+ tro 49
258
+ ko_ 49
259
+ eko 49
260
+ pos 49
261
+ _sub 48
262
+ ono_ 48
263
+ ir 48
264
+ go 48
265
+ bi 48
266
+ he 48
267
+ _pl 47
268
+ ul 47
269
+ lt 47
270
+ bl 47
271
+ tivo 47
272
+ ri_ 46
273
+ _vo 46
274
+ � 46
275
+ fin 46
276
+ re_ 46
277
+ lu 46
278
+ _te 46
279
+ ze 46
280
+ _mal 46
281
+ alo 45
282
+ _nu 45
283
+ nti 44
284
+ str 44
285
+ pro 44
286
+ tu 44
287
+ i._ 44
288
+ kv 44
289
+ eni 44
290
+ ej 43
291
+ ma_ 43
292
+ ep 43
293
+ _fra 43
294
+ _he 42
295
+ gi_ 42
296
+ _pe 42
297
+ ntaŭ 42
298
+ vol 42
299
+ raz 42
300
+ nta� 42
301
+ anta� 42
302
+ _me 41
303
+ fraz 41
304
+ skri 41
305
+ skr 41
306
+ a� 41
307
+ rto 41
308
+ nst 40
309
+ _eks 40
310
+ tra 40
311
+ _fo 40
312
+ bo 40
313
+ tiva 40
314
+ ra_ 40
315
+ ot 40
316
+ ivo_ 40
317
+ _ant 40
318
+ ren 40
319
+ _ci 40
320
+ ib 40
321
+ tivo_ 40
322
+ a._ 39
323
+ omo 39
324
+ ce 39
325
+ int 39
326
+ ita 38
327
+ cio 38
328
+ zo_ 38
329
+ _vol 38
330
+ jo 38
331
+ _si 38
332
+ _ho 38
333
+ _I 38
334
+ lon 38
335
+ e,_ 38
336
+ ba 38
337
+ _pa 38
338
+ e, 38
339
+ ha 38
340
+ men 38
341
+ ilo 37
342
+ _fa 37
343
+ iu 37
344
+ zi 37
345
+ kom 37
346
+ met 37
347
+ tre 37
348
+ us 37
349
+ op 36
350
+ eb 36
351
+ ĵ 36
352
+ _mo 36
353
+ � 36
354
+ la_ 36
355
+ nen 36
356
+ li_ 36
357
+ A 36
358
+ _S 36
359
+ aĵ 36
360
+ ici 36
361
+ ano 36
362
+ ru 35
363
+ e. 35
364
+ _nen 35
365
+ kon 35
366
+ ka_ 35
367
+ ' 35
368
+ ome 35
369
+ K 35
370
+ go_ 35
371
+ up 35
372
+ _ku 35
373
+ _so 35
374
+ lio 35
375
+ ip 35
376
+ ag 35
377
+ ado 35
378
+ emp 35
379
+ va_ 35
380
+ eg 35
381
+ iva_ 35
382
+ ans 35
383
+ ion 34
384
+ _ve 34
385
+ _ha 34
386
+ _sa 34
387
+ sa_ 33
388
+ rib 33
389
+ as 33
390
+ _pos 33
391
+ _fraz 33
392
+ _post 33
393
+ ov 33
394
+ orto 33
395
+ _no 33
396
+ P 33
397
+ tem 33
398
+ vorto 33
399
+ _on 33
400
+ skrib 33