scylla 0.1.0 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (80) hide show
  1. data/Gemfile +0 -1
  2. data/Gemfile.lock +0 -10
  3. data/README.rdoc +22 -0
  4. data/VERSION +1 -1
  5. data/bin/scylla +13 -0
  6. data/lib/scylla/classifier.rb +2 -2
  7. data/lib/scylla/generator.rb +1 -1
  8. data/lib/scylla/lms/13375P33K.lm +400 -0
  9. data/lib/scylla/lms/afrikaans.lm +400 -0
  10. data/lib/scylla/lms/arabic.lm +400 -0
  11. data/lib/scylla/lms/bulgarian.lm +400 -0
  12. data/lib/scylla/lms/catalan.lm +400 -0
  13. data/lib/scylla/lms/chinese.lm +400 -0
  14. data/lib/scylla/lms/danish.lm +400 -0
  15. data/lib/scylla/lms/english.lm +400 -0
  16. data/lib/scylla/lms/esperanto.lm +400 -0
  17. data/lib/scylla/lms/finnish.lm +400 -0
  18. data/lib/scylla/lms/french.lm +400 -0
  19. data/lib/scylla/lms/german.lm +400 -0
  20. data/lib/scylla/lms/greek-iso8859-7.lm +400 -0
  21. data/lib/scylla/lms/hebrew.lm +400 -0
  22. data/lib/scylla/lms/hindi.lm +400 -0
  23. data/lib/scylla/lms/hungarian.lm +400 -0
  24. data/lib/scylla/lms/icelandic.lm +400 -0
  25. data/lib/scylla/lms/indonesian.lm +400 -0
  26. data/lib/scylla/lms/irish.lm +400 -0
  27. data/lib/scylla/lms/italian.lm +400 -0
  28. data/lib/scylla/lms/japanese.lm +400 -0
  29. data/lib/scylla/lms/kannada.lm +400 -0
  30. data/lib/scylla/lms/korean.lm +400 -0
  31. data/lib/scylla/lms/latin.lm +400 -0
  32. data/lib/scylla/lms/malay.lm +400 -0
  33. data/lib/scylla/lms/marathi.lm +400 -0
  34. data/lib/scylla/lms/mingo.lm +400 -0
  35. data/lib/scylla/lms/nepali.lm +400 -0
  36. data/lib/scylla/lms/norwegian.lm +400 -0
  37. data/lib/scylla/lms/polish.lm +400 -0
  38. data/lib/scylla/lms/portuguese.lm +400 -0
  39. data/lib/scylla/lms/quechua.lm +400 -0
  40. data/lib/scylla/lms/romanian.lm +400 -0
  41. data/lib/scylla/lms/rumantsch.lm +400 -0
  42. data/lib/scylla/lms/russian.lm +400 -0
  43. data/lib/scylla/lms/sanskrit.lm +400 -0
  44. data/lib/scylla/lms/scots_gaelic.lm +400 -0
  45. data/lib/scylla/lms/serbian-ascii.lm +400 -0
  46. data/lib/scylla/lms/slovak-ascii.lm +400 -0
  47. data/lib/scylla/lms/slovenian-ascii.lm +400 -0
  48. data/lib/scylla/lms/spanish.lm +400 -0
  49. data/lib/scylla/lms/swahili.lm +400 -0
  50. data/lib/scylla/lms/swedish.lm +400 -0
  51. data/lib/scylla/lms/tagalog.lm +400 -0
  52. data/lib/scylla/lms/tamil.lm +400 -0
  53. data/lib/scylla/lms/thai.lm +400 -0
  54. data/lib/scylla/lms/turkish.lm +400 -0
  55. data/lib/scylla/lms/ukrainian-koi8_u.lm +400 -0
  56. data/lib/scylla/lms/vietnamese.lm +400 -0
  57. data/lib/scylla/lms/welsh.lm +400 -0
  58. data/lib/scylla/lms/yiddish-utf.lm +400 -0
  59. data/lib/scylla/loader.rb +8 -1
  60. data/scylla-0.1.0.gem +0 -0
  61. data/scylla.gemspec +69 -3
  62. data/source_texts/kannada.txt +283 -0
  63. data/test/classifier_test.rb +7 -0
  64. data/test/fixtures/lms/13375p33k.lm +400 -0
  65. data/test/fixtures/lms/danish.lm +400 -0
  66. data/test/fixtures/lms/english.lm +400 -0
  67. data/test/fixtures/lms/french.lm +400 -0
  68. data/test/fixtures/lms/german.lm +400 -0
  69. data/test/fixtures/lms/japanese.lm +400 -0
  70. data/test/fixtures/lms/kannada.lm +400 -0
  71. data/test/fixtures/lms/spanish.lm +400 -0
  72. data/test/fixtures/source_texts/13375P33K.txt +199 -0
  73. data/test/fixtures/source_texts/japanese.txt +199 -0
  74. data/test/fixtures/source_texts/kannada.txt +283 -0
  75. data/test/generator_test.rb +10 -7
  76. data/test/helper.rb +5 -6
  77. data/test/loader_test.rb +1 -0
  78. data/test/scylla_test.rb +1 -0
  79. metadata +78 -14
  80. data/source_texts/armenian.txt +0 -86
@@ -0,0 +1,400 @@
1
+ _ 1512
2
+ a 539
3
+ i 460
4
+ e 442
5
+ t 272
6
+ r 265
7
+ n 234
8
+ u 220
9
+ c 200
10
+ s 194
11
+ o 188
12
+ l 174
13
+ e_ 170
14
+ a_ 155
15
+ d 115
16
+ m 114
17
+ p 113
18
+ i_ 108
19
+ in 101
20
+ _c 92
21
+ ar 87
22
+ _s 75
23
+ re 71
24
+ _d 69
25
+ , 66
26
+ de 64
27
+ _a 64
28
+ ra 63
29
+ at 62
30
+ f 57
31
+ _p 55
32
+ ,_ 54
33
+ st 53
34
+ ta 53
35
+ ti 51
36
+ ca 50
37
+ te 50
38
+ n_ 50
39
+ si 47
40
+ u_ 46
41
+ _i 45
42
+ un 45
43
+ _de 43
44
+ g 42
45
+ ri 41
46
+ ce 41
47
+ nt 41
48
+ ul 40
49
+ _m 39
50
+ or 39
51
+ b 39
52
+ _o 38
53
+ de_ 38
54
+ es 38
55
+ _in 38
56
+ la 37
57
+ are 37
58
+ _ca 36
59
+ ma 35
60
+ tr 34
61
+ . 34
62
+ t_ 33
63
+ ea 33
64
+ ci 33
65
+ _f 33
66
+ _de_ 32
67
+ el 32
68
+ ia 30
69
+ oa 30
70
+ ni 30
71
+ ta_ 29
72
+ in_ 29
73
+ se 29
74
+ te_ 29
75
+ v 29
76
+ cu 29
77
+ _si 28
78
+ as 27
79
+ z 27
80
+ re_ 27
81
+ _u 27
82
+ si_ 26
83
+ l_ 26
84
+ le 26
85
+ ic 26
86
+ an 26
87
+ ac 26
88
+ ne 26
89
+ _l 26
90
+ _t 25
91
+ pe 25
92
+ li 25
93
+ ei 24
94
+ int 24
95
+ er 24
96
+ are_ 23
97
+ _un 23
98
+ lu 23
99
+ est 23
100
+ ie 22
101
+ la_ 22
102
+ ste 22
103
+ pa 22
104
+ sa 21
105
+ _ma 21
106
+ car 21
107
+ e, 20
108
+ il 20
109
+ na 20
110
+ _e 20
111
+ al 20
112
+ it 20
113
+ _pe 19
114
+ da 19
115
+ en 19
116
+ ai 19
117
+ _n 19
118
+ to 19
119
+ ii 19
120
+ _si_ 19
121
+ care 19
122
+ _cu 18
123
+ ap 18
124
+ ara 18
125
+ o_ 18
126
+ cu_ 18
127
+ ata 18
128
+ ui 18
129
+ au 18
130
+ este 18
131
+ lo 17
132
+ am 17
133
+ _in_ 17
134
+ me 17
135
+ D 17
136
+ co 16
137
+ care_ 16
138
+ _care 16
139
+ fa 16
140
+ ra_ 16
141
+ om 16
142
+ r_ 16
143
+ un_ 16
144
+ _car 16
145
+ ._ 16
146
+ pr 16
147
+ este_ 15
148
+ pe_ 15
149
+ h 15
150
+ ste_ 15
151
+ ru 15
152
+ _cu_ 15
153
+ _o_ 15
154
+ e,_ 15
155
+ ul_ 15
156
+ _sa 15
157
+ se_ 15
158
+ rt 15
159
+ sa_ 14
160
+ nu 14
161
+ ca_ 14
162
+ le_ 14
163
+ a, 14
164
+ tra 14
165
+ is 14
166
+ _b 14
167
+ _v 14
168
+ ata_ 14
169
+ ace 14
170
+ _ce 14
171
+ ur 14
172
+ tu 14
173
+ _se 14
174
+ zi 13
175
+ au_ 13
176
+ sc 13
177
+ mi 13
178
+ lui 13
179
+ mu 13
180
+ ot 13
181
+ io 13
182
+ a,_ 13
183
+ nd 12
184
+ bi 12
185
+ po 12
186
+ ei_ 12
187
+ ve 12
188
+ na_ 12
189
+ ut 12
190
+ ii_ 12
191
+ ec 12
192
+ _ac 12
193
+ ele 12
194
+ oar 12
195
+ os 12
196
+ pi 12
197
+ fe 12
198
+ _fa 12
199
+ __ 12
200
+ ui_ 12
201
+ ir 11
202
+ _pe_ 11
203
+ um 11
204
+ tat 11
205
+ _un_ 11
206
+ di 11
207
+ E 11
208
+ _se_ 11
209
+ _r 11
210
+ ent 11
211
+ fo 11
212
+ et 11
213
+ ea_ 11
214
+ at_ 10
215
+ _es 10
216
+ op 10
217
+ ci_ 10
218
+ ici 10
219
+ _sa_ 10
220
+ ai_ 10
221
+ " 10
222
+ I 10
223
+ pu 10
224
+ i, 10
225
+ ulu 10
226
+ cel 10
227
+ _pa 10
228
+ _est 10
229
+ _la 10
230
+ ol 10
231
+ im 10
232
+ ntr 10
233
+ _este 10
234
+ _co 10
235
+ ga 10
236
+ ne_ 10
237
+ mo 9
238
+ _nu 9
239
+ or_ 9
240
+ _la_ 9
241
+ ului 9
242
+ ori 9
243
+ ati 9
244
+ ns 9
245
+ on 9
246
+ su 9
247
+ _ca_ 9
248
+ A 9
249
+ ele_ 9
250
+ iu 9
251
+ _ar 9
252
+ hi 9
253
+ _di 9
254
+ sta 9
255
+ lui_ 9
256
+ id 9
257
+ i,_ 8
258
+ _int 8
259
+ ad 8
260
+ une 8
261
+ _D 8
262
+ _lu 8
263
+ i. 8
264
+ _ace 8
265
+ _g 8
266
+ tru 8
267
+ ine 8
268
+ oc 8
269
+ ost 8
270
+ dat 8
271
+ mar 8
272
+ ate 8
273
+ em 8
274
+ ini 8
275
+ ng 8
276
+ gi 8
277
+ nc 8
278
+ mai 8
279
+ _a_ 8
280
+ _fo 8
281
+ mul 8
282
+ par 8
283
+ ti_ 8
284
+ lor 8
285
+ mai_ 8
286
+ ce_ 8
287
+ ara_ 8
288
+ nic 8
289
+ str 8
290
+ lt 8
291
+ tie 8
292
+ ani 7
293
+ ato 7
294
+ pri 7
295
+ _ci 7
296
+ tin 7
297
+ art 7
298
+ _din 7
299
+ ran 7
300
+ pl 7
301
+ m_ 7
302
+ din 7
303
+ ator 7
304
+ res 7
305
+ _da 7
306
+ mp 7
307
+ sin 7
308
+ ilo 7
309
+ j 7
310
+ cr 7
311
+ min 7
312
+ tul 7
313
+ fi 7
314
+ az 7
315
+ - 7
316
+ ind 7
317
+ ina 7
318
+ ' 7
319
+ _E 7
320
+ rea 7
321
+ _pr 7
322
+ una 7
323
+ _or 7
324
+ do 7
325
+ esc 7
326
+ far 7
327
+ lin 7
328
+ ia_ 7
329
+ nta 7
330
+ tor 7
331
+ oare 6
332
+ oas 6
333
+ rti 6
334
+ _ti 6
335
+ _z 6
336
+ _to 6
337
+ iv 6
338
+ _st 6
339
+ ez 6
340
+ eri 6
341
+ ast 6
342
+ rul 6
343
+ _tr 6
344
+ it_ 6
345
+ pin 6
346
+ nde 6
347
+ _do 6
348
+ s_ 6
349
+ no 6
350
+ nti 6
351
+ iat 6
352
+ _op 6
353
+ tre 6
354
+ ? 6
355
+ ge 6
356
+ ag 6
357
+ vi 6
358
+ ica 6
359
+ ric 6
360
+ e. 6
361
+ so 6
362
+ C 6
363
+ _mar 6
364
+ man 6
365
+ ch 6
366
+ tot 6
367
+ nu_ 6
368
+ lor_ 6
369
+ og 6
370
+ c_ 6
371
+ _po 6
372
+ omu 6
373
+ up 6
374
+ ari 6
375
+ pt 6
376
+ ate_ 6
377
+ _mo 6
378
+ _pu 6
379
+ nei 6
380
+ S 6
381
+ ra,_ 6
382
+ ba 6
383
+ ro 6
384
+ gr 6
385
+ ilor 6
386
+ ie_ 6
387
+ intr 6
388
+ imp 6
389
+ _cel 6
390
+ bo 6
391
+ rm 6
392
+ ra, 6
393
+ _au_ 5
394
+ P 5
395
+ uti 5
396
+ rin 5
397
+ ora 5
398
+ ada 5
399
+ ?_ 5
400
+ ab 5