scylla 0.1.0 → 0.2.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (80) hide show
  1. data/Gemfile +0 -1
  2. data/Gemfile.lock +0 -10
  3. data/README.rdoc +22 -0
  4. data/VERSION +1 -1
  5. data/bin/scylla +13 -0
  6. data/lib/scylla/classifier.rb +2 -2
  7. data/lib/scylla/generator.rb +1 -1
  8. data/lib/scylla/lms/13375P33K.lm +400 -0
  9. data/lib/scylla/lms/afrikaans.lm +400 -0
  10. data/lib/scylla/lms/arabic.lm +400 -0
  11. data/lib/scylla/lms/bulgarian.lm +400 -0
  12. data/lib/scylla/lms/catalan.lm +400 -0
  13. data/lib/scylla/lms/chinese.lm +400 -0
  14. data/lib/scylla/lms/danish.lm +400 -0
  15. data/lib/scylla/lms/english.lm +400 -0
  16. data/lib/scylla/lms/esperanto.lm +400 -0
  17. data/lib/scylla/lms/finnish.lm +400 -0
  18. data/lib/scylla/lms/french.lm +400 -0
  19. data/lib/scylla/lms/german.lm +400 -0
  20. data/lib/scylla/lms/greek-iso8859-7.lm +400 -0
  21. data/lib/scylla/lms/hebrew.lm +400 -0
  22. data/lib/scylla/lms/hindi.lm +400 -0
  23. data/lib/scylla/lms/hungarian.lm +400 -0
  24. data/lib/scylla/lms/icelandic.lm +400 -0
  25. data/lib/scylla/lms/indonesian.lm +400 -0
  26. data/lib/scylla/lms/irish.lm +400 -0
  27. data/lib/scylla/lms/italian.lm +400 -0
  28. data/lib/scylla/lms/japanese.lm +400 -0
  29. data/lib/scylla/lms/kannada.lm +400 -0
  30. data/lib/scylla/lms/korean.lm +400 -0
  31. data/lib/scylla/lms/latin.lm +400 -0
  32. data/lib/scylla/lms/malay.lm +400 -0
  33. data/lib/scylla/lms/marathi.lm +400 -0
  34. data/lib/scylla/lms/mingo.lm +400 -0
  35. data/lib/scylla/lms/nepali.lm +400 -0
  36. data/lib/scylla/lms/norwegian.lm +400 -0
  37. data/lib/scylla/lms/polish.lm +400 -0
  38. data/lib/scylla/lms/portuguese.lm +400 -0
  39. data/lib/scylla/lms/quechua.lm +400 -0
  40. data/lib/scylla/lms/romanian.lm +400 -0
  41. data/lib/scylla/lms/rumantsch.lm +400 -0
  42. data/lib/scylla/lms/russian.lm +400 -0
  43. data/lib/scylla/lms/sanskrit.lm +400 -0
  44. data/lib/scylla/lms/scots_gaelic.lm +400 -0
  45. data/lib/scylla/lms/serbian-ascii.lm +400 -0
  46. data/lib/scylla/lms/slovak-ascii.lm +400 -0
  47. data/lib/scylla/lms/slovenian-ascii.lm +400 -0
  48. data/lib/scylla/lms/spanish.lm +400 -0
  49. data/lib/scylla/lms/swahili.lm +400 -0
  50. data/lib/scylla/lms/swedish.lm +400 -0
  51. data/lib/scylla/lms/tagalog.lm +400 -0
  52. data/lib/scylla/lms/tamil.lm +400 -0
  53. data/lib/scylla/lms/thai.lm +400 -0
  54. data/lib/scylla/lms/turkish.lm +400 -0
  55. data/lib/scylla/lms/ukrainian-koi8_u.lm +400 -0
  56. data/lib/scylla/lms/vietnamese.lm +400 -0
  57. data/lib/scylla/lms/welsh.lm +400 -0
  58. data/lib/scylla/lms/yiddish-utf.lm +400 -0
  59. data/lib/scylla/loader.rb +8 -1
  60. data/scylla-0.1.0.gem +0 -0
  61. data/scylla.gemspec +69 -3
  62. data/source_texts/kannada.txt +283 -0
  63. data/test/classifier_test.rb +7 -0
  64. data/test/fixtures/lms/13375p33k.lm +400 -0
  65. data/test/fixtures/lms/danish.lm +400 -0
  66. data/test/fixtures/lms/english.lm +400 -0
  67. data/test/fixtures/lms/french.lm +400 -0
  68. data/test/fixtures/lms/german.lm +400 -0
  69. data/test/fixtures/lms/japanese.lm +400 -0
  70. data/test/fixtures/lms/kannada.lm +400 -0
  71. data/test/fixtures/lms/spanish.lm +400 -0
  72. data/test/fixtures/source_texts/13375P33K.txt +199 -0
  73. data/test/fixtures/source_texts/japanese.txt +199 -0
  74. data/test/fixtures/source_texts/kannada.txt +283 -0
  75. data/test/generator_test.rb +10 -7
  76. data/test/helper.rb +5 -6
  77. data/test/loader_test.rb +1 -0
  78. data/test/scylla_test.rb +1 -0
  79. metadata +78 -14
  80. data/source_texts/armenian.txt +0 -86
@@ -0,0 +1,400 @@
1
+ _ 17430
2
+ e 5759
3
+ r 3334
4
+ n 3061
5
+ t 2636
6
+ a 2502
7
+ d 2293
8
+ i 2280
9
+ s 2224
10
+ o 1932
11
+ l 1884
12
+ g 1617
13
+ __ 1390
14
+ k 1278
15
+ m 1273
16
+ er 1209
17
+ e_ 1174
18
+ de 1045
19
+ en 993
20
+ � 940
21
+ f 939
22
+ r_ 825
23
+ v 770
24
+ t_ 724
25
+ an 724
26
+ n_ 710
27
+ u 605
28
+ nd 598
29
+ b 585
30
+ et 574
31
+ . 546
32
+ _s 545
33
+ re 543
34
+ te 540
35
+ st 530
36
+ er_ 528
37
+ en_ 526
38
+ g_ 519
39
+ _o 501
40
+ _d 484
41
+ , 480
42
+ ge 474
43
+ h 474
44
+ ,_ 463
45
+ _a 462
46
+ in 440
47
+ p 436
48
+ ar 430
49
+ _f 423
50
+ og 415
51
+ or 411
52
+ ti 406
53
+ et_ 395
54
+ _e 390
55
+ ed 381
56
+ _i 378
57
+ _m 378
58
+ sk 365
59
+ ne 365
60
+ le 353
61
+ _og 344
62
+ ke 343
63
+ el 342
64
+ og_ 338
65
+ � 332
66
+ ø 332
67
+ d_ 325
68
+ me 324
69
+ ng 317
70
+ _de 314
71
+ _og_ 313
72
+ ._ 294
73
+ ig 293
74
+ � 293
75
+ å 293
76
+ _b 288
77
+ � 286
78
+ æ 286
79
+ i_ 283
80
+ _h 274
81
+ de_ 274
82
+ ri 273
83
+ s_ 271
84
+ D 268
85
+ nde 263
86
+ li 262
87
+ om 262
88
+ ma 259
89
+ ve 257
90
+ y 256
91
+ af 254
92
+ _i_ 252
93
+ _t 249
94
+ at 245
95
+ il 244
96
+ and 241
97
+ es 240
98
+ al 234
99
+ be 234
100
+ is 233
101
+ fo 232
102
+ se 232
103
+ ns 229
104
+ la 224
105
+ _D 222
106
+ [ 221
107
+ ] 221
108
+ on 221
109
+ rk 219
110
+ _af 217
111
+ [_ 217
112
+ _] 217
113
+ den 216
114
+ der 214
115
+ _me 210
116
+ _k 210
117
+ m_ 208
118
+ ing 207
119
+ _v 203
120
+ k_ 196
121
+ ra 191
122
+ f_ 188
123
+ af_ 186
124
+ for 184
125
+ _p 181
126
+ _af_ 180
127
+ ol 174
128
+ _fo 172
129
+ ark 172
130
+ ere 172
131
+ ste 169
132
+ lan 169
133
+ te_ 168
134
+ .[ 168
135
+ .[_ 165
136
+ _l 165
137
+ mar 165
138
+ l_ 163
139
+ ll 162
140
+ ter 161
141
+ j 159
142
+ ske 159
143
+ om_ 155
144
+ Da 153
145
+ den_ 153
146
+ ha 153
147
+ mark 153
148
+ ke_ 153
149
+ land 153
150
+ _st 151
151
+ ni 151
152
+ ed_ 151
153
+ _for 149
154
+ so 149
155
+ ta 148
156
+ Dan 148
157
+ ger 147
158
+ nge 144
159
+ det 143
160
+ re_ 140
161
+ ede 139
162
+ vi 138
163
+ nm 138
164
+ nma 138
165
+ nmark 137
166
+ _en 137
167
+ nmar 137
168
+ anmar 136
169
+ anma 136
170
+ anm 136
171
+ ev 135
172
+ rs 135
173
+ un 133
174
+ Danma 133
175
+ _Da 133
176
+ ]_ 133
177
+ S 133
178
+ der_ 133
179
+ Danm 133
180
+ _]_ 132
181
+ ans 132
182
+ _er 131
183
+ med 130
184
+ da 130
185
+ _Dan 129
186
+ io 127
187
+ ro 127
188
+ til 126
189
+ ik 125
190
+ som 125
191
+ _er_ 125
192
+ _ti 124
193
+ rn 124
194
+ ds 123
195
+ em 122
196
+ _u 122
197
+ �_ 121
198
+ eg 121
199
+ å_ 121
200
+ _ha 120
201
+ _Danm 120
202
+ rt 120
203
+ _med 119
204
+ ld 119
205
+ som_ 118
206
+ to 117
207
+ _so 116
208
+ ske_ 116
209
+ _g 116
210
+ det_ 115
211
+ _r 115
212
+ tr 114
213
+ ern 114
214
+ ar_ 114
215
+ end 114
216
+ _som 113
217
+ ud 111
218
+ ko 111
219
+ id 111
220
+ del 110
221
+ _som_ 110
222
+ _til 109
223
+ lig 108
224
+ nsk 108
225
+ si 108
226
+ mi 108
227
+ va 108
228
+ ls 107
229
+ ion 105
230
+ ør 105
231
+ bl 105
232
+ ka 105
233
+ �r 105
234
+ _be 105
235
+ ind 105
236
+ gs 105
237
+ lle 104
238
+ _da 104
239
+ t� 103
240
+ _S 102
241
+ ne_ 102
242
+ med_ 102
243
+ dt 101
244
+ tt 101
245
+ ag 101
246
+ _en_ 101
247
+ r� 100
248
+ c 100
249
+ _� 100
250
+ ansk 99
251
+ ie 99
252
+ nt 99
253
+ dan 99
254
+ _med_ 98
255
+ or_ 97
256
+ ær 95
257
+ il_ 95
258
+ - 95
259
+ �r 95
260
+ De 95
261
+ lt 94
262
+ rne 94
263
+ nin 94
264
+ ning 94
265
+ ner 94
266
+ na 94
267
+ at_ 92
268
+ til_ 92
269
+ fr 92
270
+ I 92
271
+ ru 91
272
+ op 91
273
+ erne 89
274
+ rd 89
275
+ _bl 89
276
+ _dan 89
277
+ ge_ 89
278
+ ige 89
279
+ gt 88
280
+ v_ 88
281
+ ng_ 88
282
+ tte 87
283
+ a_ 87
284
+ p� 87
285
+ inge 87
286
+ kr 87
287
+ _den 87
288
+ dans 86
289
+ s� 86
290
+ dansk 86
291
+ men 86
292
+ ver 85
293
+ _til_ 85
294
+ isk 85
295
+ it 85
296
+ _at 84
297
+ els 84
298
+ f� 84
299
+ _dans 84
300
+ am 84
301
+ _re 84
302
+ est 83
303
+ es_ 83
304
+ ur 82
305
+ gen 82
306
+ _den_ 82
307
+ he 81
308
+ _ud 81
309
+ _at_ 81
310
+ _n 81
311
+ ble 80
312
+ ene 80
313
+ od 79
314
+ und 79
315
+ sa 79
316
+ ede_ 79
317
+ _. 79
318
+ ande 79
319
+ _in 78
320
+ _la 78
321
+ nde_ 78
322
+ eri 78
323
+ ende 77
324
+ ov 77
325
+ _fr 76
326
+ rk_ 76
327
+ _I 76
328
+ r. 76
329
+ tor 76
330
+ av 75
331
+ lk 75
332
+ lev 75
333
+ ing_ 75
334
+ sk_ 75
335
+ ft 74
336
+ _si 74
337
+ an_ 74
338
+ e. 73
339
+ us 73
340
+ på 73
341
+ mm 73
342
+ F 73
343
+ E 72
344
+ _De 72
345
+ di 72
346
+ e, 72
347
+ rin 72
348
+ _p� 71
349
+ _lan 71
350
+ ark_ 71
351
+ _på 71
352
+ _der 71
353
+ nske 71
354
+ le_ 70
355
+ st� 70
356
+ get 70
357
+ gi 70
358
+ e,_ 69
359
+ pr 69
360
+ ist 69
361
+ var 68
362
+ blev 68
363
+ mark_ 68
364
+ _ble 68
365
+ _blev 68
366
+ ks 68
367
+ på_ 67
368
+ _va 67
369
+ nd_ 67
370
+ anske 67
371
+ ss 67
372
+ år 66
373
+ �r 66
374
+ gr 66
375
+ tio 66
376
+ lse 66
377
+ _land 66
378
+ _på_ 66
379
+ ) 66
380
+ tion 66
381
+ ati 66
382
+ fi 66
383
+ ( 66
384
+ _( 66
385
+ one 65
386
+ ef 65
387
+ sto 65
388
+ kt 65
389
+ _._ 64
390
+ sen 64
391
+ else 64
392
+ ev_ 64
393
+ ring 63
394
+ A 63
395
+ ende_ 63
396
+ ren 63
397
+ for_ 62
398
+ ho 62
399
+ _ko 62
400
+ rig 61