scylla 0.4.3 → 0.5.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (94) hide show
  1. data/Gemfile +1 -0
  2. data/Gemfile.lock +10 -0
  3. data/VERSION +1 -1
  4. data/lib/scylla/generator.rb +1 -1
  5. data/lib/scylla/lms/13375P33K.lm +156 -156
  6. data/lib/scylla/lms/arabic.lm +133 -133
  7. data/lib/scylla/lms/bulgarian.lm +122 -122
  8. data/lib/scylla/lms/catalan.lm +151 -151
  9. data/lib/scylla/lms/danish.lm +137 -137
  10. data/lib/scylla/lms/english.lm +207 -207
  11. data/lib/scylla/lms/french.lm +400 -400
  12. data/lib/scylla/lms/japanese.lm +400 -400
  13. data/lib/scylla/lms/korean.lm +233 -233
  14. data/lib/scylla/lms/norwegian.lm +398 -398
  15. data/lib/scylla/lms/spanish.lm +98 -98
  16. data/lib/scylla/lms/swedish.lm +123 -123
  17. data/lib/scylla/lms/tagalog.lm +223 -223
  18. data/lib/scylla/lms/welsh.lm +234 -234
  19. data/lib/scylla/resources.rb +10 -10
  20. data/scylla.gemspec +17 -40
  21. data/source_texts/catalan.txt +28 -28
  22. data/source_texts/danish.txt +62 -62
  23. data/source_texts/english.txt +10 -10
  24. data/source_texts/french.txt +470 -77
  25. data/source_texts/japanese.txt +453 -199
  26. data/source_texts/norwegian.txt +96 -63
  27. data/source_texts/spanish.txt +269 -269
  28. data/test/classifier_test.rb +2 -2
  29. data/test/fixtures/lms/13375p33k.lm +156 -156
  30. data/test/fixtures/lms/danish.lm +137 -137
  31. data/test/fixtures/lms/english.lm +207 -207
  32. data/test/fixtures/lms/french.lm +400 -400
  33. data/test/fixtures/lms/hindi.lm +400 -0
  34. data/test/fixtures/lms/italian.lm +400 -0
  35. data/test/fixtures/lms/japanese.lm +400 -400
  36. data/test/fixtures/lms/norwegian.lm +400 -0
  37. data/test/fixtures/lms/spanish.lm +98 -98
  38. data/test/fixtures/source_texts/danish.txt +62 -62
  39. data/test/fixtures/source_texts/english.txt +10 -10
  40. data/test/fixtures/source_texts/french.txt +470 -77
  41. data/test/fixtures/source_texts/hindi.txt +199 -0
  42. data/test/fixtures/source_texts/italian.txt +120 -0
  43. data/test/fixtures/source_texts/japanese.txt +453 -199
  44. data/test/fixtures/source_texts/norwegian.txt +190 -0
  45. data/test/fixtures/source_texts/spanish.txt +269 -269
  46. data/test/fixtures/test_languages/english +61 -0
  47. data/test/fixtures/test_languages/french +0 -0
  48. data/test/fixtures/test_languages/german +29 -0
  49. data/test/fixtures/test_languages/hindi +3 -0
  50. data/test/fixtures/test_languages/italian +6 -0
  51. data/test/fixtures/test_languages/japanese +79 -0
  52. data/test/fixtures/test_languages/norwegian +14 -0
  53. data/test/fixtures/test_languages/spanish +22 -0
  54. data/test/generator_test.rb +0 -1
  55. data/test/language_test.rb +28 -0
  56. metadata +20 -43
  57. data/lib/scylla/lms/esperanto.lm +0 -400
  58. data/lib/scylla/lms/hungarian.lm +0 -400
  59. data/lib/scylla/lms/irish.lm +0 -400
  60. data/lib/scylla/lms/kannada.lm +0 -400
  61. data/lib/scylla/lms/latin.lm +0 -400
  62. data/lib/scylla/lms/malay.lm +0 -400
  63. data/lib/scylla/lms/marathi.lm +0 -400
  64. data/lib/scylla/lms/mingo.lm +0 -400
  65. data/lib/scylla/lms/nepali.lm +0 -400
  66. data/lib/scylla/lms/quechua.lm +0 -400
  67. data/lib/scylla/lms/rumantsch.lm +0 -400
  68. data/lib/scylla/lms/sanskrit.lm +0 -400
  69. data/lib/scylla/lms/scots_gaelic.lm +0 -400
  70. data/lib/scylla/lms/serbian.lm +0 -400
  71. data/lib/scylla/lms/swahili.lm +0 -400
  72. data/lib/scylla/lms/tamil.lm +0 -400
  73. data/lib/scylla/lms/ukrainian.lm +0 -400
  74. data/lib/scylla/lms/yiddish.lm +0 -400
  75. data/source_texts/esperanto.txt +0 -199
  76. data/source_texts/hungarian.txt +0 -102
  77. data/source_texts/irish.txt +0 -209
  78. data/source_texts/kannada.txt +0 -283
  79. data/source_texts/latin.txt +0 -120
  80. data/source_texts/malay.txt +0 -108
  81. data/source_texts/marathi.txt +0 -100
  82. data/source_texts/mingo.txt +0 -146
  83. data/source_texts/nepali.txt +0 -131
  84. data/source_texts/quechua.txt +0 -108
  85. data/source_texts/rumantsch.txt +0 -110
  86. data/source_texts/sanskrit.txt +0 -135
  87. data/source_texts/scots_gaelic.txt +0 -93
  88. data/source_texts/serbian.txt +0 -121
  89. data/source_texts/swahili.txt +0 -120
  90. data/source_texts/tamil.txt +0 -167
  91. data/source_texts/ukrainian.txt +0 -214
  92. data/source_texts/yiddish-utf.txt +0 -83
  93. data/test/fixtures/lms/kannada.lm +0 -400
  94. data/test/fixtures/source_texts/kannada.txt +0 -283
@@ -1,4 +1,4 @@
1
- _ 1464
1
+ _ 1468
2
2
  y 347
3
3
  d 347
4
4
  a 333
@@ -11,8 +11,8 @@ l 162
11
11
  h 152
12
12
  g 125
13
13
  f 124
14
- w 122
15
14
  t 122
15
+ w 122
16
16
  _y 116
17
17
  n_ 107
18
18
  dd 106
@@ -21,20 +21,20 @@ m 88
21
21
  s 86
22
22
  yn 85
23
23
  c 80
24
- d_ 80
25
24
  r_ 80
25
+ d_ 80
26
26
  _a 66
27
27
  yd 65
28
28
  th 64
29
29
  yn_ 62
30
30
  . 59
31
- ym 51
32
31
  i_ 51
33
- _yn 50
32
+ ym 51
34
33
  _d 50
34
+ _yn 50
35
+ ydd 49
35
36
  u_ 49
36
37
  l_ 49
37
- ydd 49
38
38
  ae 48
39
39
  _i 47
40
40
  _yn_ 46
@@ -45,9 +45,9 @@ ol 42
45
45
  b 41
46
46
  y_ 40
47
47
  ar 40
48
- ia 39
49
- ei 39
50
48
  ' 39
49
+ ei 39
50
+ ia 39
51
51
  di 37
52
52
  _g 37
53
53
  h_ 36
@@ -57,344 +57,344 @@ _y_ 34
57
57
  _c 33
58
58
  ._ 32
59
59
  'r 32
60
- ai 31
61
60
  da 31
62
- th_ 30
63
- it 30
64
- au 30
61
+ ai 31
65
62
  ne 30
66
63
  ith 30
64
+ it 30
65
+ th_ 30
66
+ au 30
67
67
  er 29
68
- _e 29
69
68
  , 29
69
+ _e 29
70
+ p 27
70
71
  g_ 27
71
72
  en 27
72
73
  'r_ 27
73
74
  od 27
74
75
  de 27
75
- p 27
76
- yr 26
77
- ha 26
78
- o_ 26
79
76
  _n 26
80
77
  ddi 26
81
- eg 25
82
- ,_ 25
78
+ yr 26
79
+ ,_ 26
80
+ o_ 26
81
+ ha 26
83
82
  wyd 25
84
- _h 25
85
83
  mr 25
86
- cy 24
84
+ _h 25
85
+ eg 25
87
86
  _f 24
88
- au_ 24
89
87
  hy 24
90
88
  a_ 24
91
89
  ll 24
92
90
  ymr 24
93
- ol_ 23
94
- if 23
91
+ au_ 24
92
+ cy 24
95
93
  io 23
94
+ if 23
96
95
  _p 23
97
96
  _dd 23
98
- G 22
99
- ad 22
97
+ ol_ 23
98
+ _i_ 22
100
99
  _o 22
100
+ G 22
101
101
  ny 22
102
102
  ri 22
103
- _i_ 22
104
- rae 21
105
- wn 21
103
+ ad 22
106
104
  ew 21
105
+ wn 21
107
106
  fe 21
107
+ rae 21
108
+ _._ 20
108
109
  no 20
110
+ _cy 20
111
+ _ar 20
109
112
  _. 20
110
- _._ 20
111
113
  _s 20
112
- _ar 20
113
- _cy 20
114
- do 19
114
+ yf 19
115
115
  wydd 19
116
- ydd_ 19
116
+ __ 19
117
+ et 19
117
118
  ch 19
118
119
  eth 19
119
- __ 19
120
- _m 19
120
+ do 19
121
+ ydd_ 19
121
122
  _G 19
122
- yf 19
123
- et 19
124
- gy 18
123
+ _m 19
124
+ at 18
125
125
  nyd 18
126
- nydd 18
127
126
  la 18
128
- at 18
129
- aeth 17
130
- yr_ 17
131
- mrae 17
132
- ymra 17
133
- eu 17
127
+ nydd 18
128
+ gy 18
129
+ aet 17
134
130
  el 17
135
- s_ 17
136
- ymrae 17
137
- ho 17
138
131
  aeg 17
139
- mra 17
132
+ ymrae 17
133
+ mrae 17
140
134
  rh 17
141
- aet 17
135
+ raeg 17
136
+ mra 17
137
+ ho 17
138
+ s_ 17
139
+ aeth 17
142
140
  mraeg 17
141
+ ymra 17
142
+ eu 17
143
+ yr_ 17
143
144
  ef 17
144
- raeg 17
145
- Gy 16
146
- me 16
147
145
  fa 16
146
+ ni 16
148
147
  aith 16
148
+ Gy 16
149
+ me 16
149
150
  nt 16
150
- ni 16
151
151
  ait 16
152
- Gym 15
153
- ff 15
152
+ yddi 15
154
153
  _b 15
154
+ le 15
155
+ _Gy 15
156
+ fn 15
157
+ Gym 15
158
+ ac 15
155
159
  efn 15
156
160
  we 15
157
- _Gy 15
161
+ edd 15
162
+ ff 15
158
163
  Gymr 15
159
- le 15
160
164
  er_ 15
161
- ac 15
162
- fn 15
163
- edd 15
164
- yddi 15
165
- ro 14
166
- nn 14
167
165
  _Gymr 14
168
- ys 14
166
+ si 14
169
167
  _yr 14
168
+ ys 14
169
+ Gymra 14
170
+ ro 14
170
171
  _yr_ 14
171
- si 14
172
172
  _Gym 14
173
- Gymra 14
174
- dde 13
175
- efny 13
176
- _ei 13
177
- al 13
178
- eit 13
173
+ nn 14
174
+ oe 13
179
175
  oed 13
180
176
  efnyd 13
181
- fny 13
182
- fnydd 13
183
- eth_ 13
184
- oe 13
185
- fnyd 13
186
- _a_ 13
187
- _l 13
188
- gw 13
189
177
  defn 13
178
+ _a_ 13
179
+ _ei 13
180
+ fnyd 13
181
+ eth_ 13
190
182
  def 13
191
183
  eith 13
192
- rha 13
184
+ fny 13
185
+ fnydd 13
186
+ _l 13
187
+ efny 13
188
+ al 13
193
189
  defny 13
190
+ eit 13
191
+ rha 13
192
+ dde 13
193
+ gw 13
194
+ dol 12
195
+ aeth_ 12
196
+ wr 12
197
+ C 12
194
198
  sy 12
195
- rif 12
196
199
  c_ 12
197
- _w 12
198
- aeth_ 12
200
+ oedd 12
201
+ nyddi 12
202
+ es 12
199
203
  ng 12
204
+ rif 12
205
+ _gy 12
200
206
  _hy 12
201
- _ne 12
202
207
  ga 12
203
- nyddi 12
204
- wr 12
205
- oedd 12
206
- dol 12
207
- _gy 12
208
- es 12
209
- C 12
210
- wydd_ 11
211
- ar_ 11
208
+ _w 12
209
+ _ne 12
210
+ ewn 11
211
+ rth 11
212
212
  ig 11
213
- _ei_ 11
214
- iait 11
213
+ ry 11
215
214
  _me 11
216
- rth 11
215
+ _ei_ 11
216
+ o' 11
217
+ o'r 11
217
218
  _o_ 11
218
- _ia 11
219
- ry 11
220
- iaith 11
221
- rd 11
222
- aw 11
223
219
  t_ 11
224
- o'r 11
225
- rt 11
226
- o' 11
227
- li 11
228
220
  id 11
229
- iai 11
221
+ wydd_ 11
222
+ aw 11
223
+ rd 11
230
224
  re 11
231
- ewn 11
225
+ li 11
226
+ rt 11
227
+ ar_ 11
228
+ _ia 11
229
+ iaith 11
232
230
  ei_ 11
233
- an_ 10
234
- fo 10
235
- dda 10
236
- dio 10
237
- eg_ 10
231
+ iait 11
232
+ iai 11
238
233
  on 10
239
- _da 10
234
+ ddo 10
235
+ an_ 10
236
+ na 10
237
+ ddio 10
238
+ gr 10
240
239
  fr 10
240
+ af 10
241
241
  ith_ 10
242
- yw 10
243
- ddio 10
244
- wn_ 10
245
- na 10
246
- _ac 10
247
242
  eu_ 10
248
- S 10
249
- _dde 10
250
- te 10
251
- gr 10
252
243
  ad_ 10
253
- ddo 10
254
- af 10
244
+ eg_ 10
245
+ te 10
246
+ dio 10
247
+ _da 10
248
+ dda 10
255
249
  hw 10
250
+ _ac 10
251
+ wn_ 10
252
+ S 10
256
253
  cr 10
254
+ _dde 10
255
+ yw 10
256
+ fo 10
257
257
  f_ 9
258
258
  og 9
259
+ o'r_ 9
259
260
  M 9
260
- _gw 9
261
- sg 9
262
- _t 9
261
+ mew 9
262
+ _C 9
263
+ dr 9
264
+ mewn 9
265
+ new 9
266
+ ac_ 9
267
+ od_ 9
268
+ yddio 9
263
269
  os 9
270
+ _gw 9
264
271
  un 9
265
- il 9
266
- o'r_ 9
267
- aith_ 9
268
- A 9
269
- Y 9
270
- fy 9
272
+ _t 9
273
+ fer 9
274
+ bl 9
271
275
  Cy 9
272
- new 9
273
- od_ 9
276
+ sg 9
274
277
  st 9
278
+ fy 9
275
279
  _ym 9
276
- yddio 9
277
- bl 9
278
- fer 9
279
- ac_ 9
280
- mewn 9
281
- dr 9
282
- mew 9
280
+ il 9
281
+ A 9
282
+ aith_ 9
283
+ Y 9
283
284
  _ar_ 8
285
+ cyf 8
286
+ * 8
287
+ _iai 8
284
288
  dy 8
285
- so 8
289
+ aeg_ 8
290
+ iad 8
286
291
  ly 8
287
- hr 8
292
+ _iait 8
293
+ ge 8
294
+ _mew 8
288
295
  _r 8
289
- ma 8
290
- _iai 8
296
+ so 8
291
297
  lw 8
292
- _C 8
293
- cyf 8
294
- gwe 8
295
- u' 8
296
- * 8
297
- ic 8
298
- _mew 8
299
- iad 8
298
+ _fe 8
300
299
  or 8
301
- ge 8
302
- aeg_ 8
303
- _ac_ 8
304
- he 8
300
+ gwe 8
305
301
  raeg_ 8
306
- _iait 8
307
- E 8
308
- _fe 8
309
- is 8
310
- _mewn 8
311
- g, 8
312
302
  _sy 8
313
- dia 8
303
+ g, 8
304
+ hr 8
305
+ E 8
314
306
  in 8
315
- .a 7
316
- ewyd 7
317
- di_ 7
318
- han 7
319
- nd 7
320
- _new 7
307
+ he 8
308
+ u' 8
309
+ dia 8
310
+ _ac_ 8
311
+ ic 8
312
+ ma 8
313
+ _mewn 8
314
+ is 8
315
+ Cym 7
316
+ rw 7
321
317
  odol 7
318
+ _new 7
319
+ _eu 7
320
+ ewy 7
321
+ ewn_ 7
322
+ ewyd 7
323
+ i' 7
322
324
  _ll 7
323
- fl 7
324
- rth_ 7
325
+ di_ 7
326
+ _eu_ 7
325
327
  _Y 7
328
+ fl 7
329
+ _cyf 7
330
+ han 7
331
+ pa 7
332
+ yd_ 7
333
+ dat 7
334
+ newyd 7
326
335
  edd_ 7
336
+ id_ 7
327
337
  ddefn 7
328
- _eu_ 7
329
- nt_ 7
330
- i' 7
331
- _ddef 7
332
- ewn_ 7
333
- yg 7
334
- Cym 7
335
338
  ent 7
336
- my 7
337
- _eu 7
338
- pa 7
339
- u'r 7
340
- id_ 7
341
- newyd 7
342
- oedd_ 7
343
- ewydd 7
344
- _cyf 7
345
- ewy 7
339
+ mewn_ 7
346
340
  _M 7
347
- ddef 7
341
+ ob 7
342
+ _ddef 7
343
+ nt_ 7
348
344
  du 7
349
- m_ 7
345
+ rth_ 7
346
+ gu 7
350
347
  B 7
351
- g. 7
352
- w_ 7
353
- yd_ 7
354
- mewn_ 7
348
+ ddef 7
349
+ nol 7
350
+ nd 7
351
+ u'r 7
352
+ oedd_ 7
353
+ ewydd 7
354
+ newy 7
355
+ .a 7
355
356
  yddo 7
357
+ g. 7
358
+ ig_ 7
359
+ ll_ 7
360
+ m_ 7
356
361
  tr 7
357
- dat 7
362
+ w_ 7
358
363
  odo 7
359
- ll_ 7
360
- rw 7
361
- gu 7
362
- nol 7
363
- ig_ 7
364
- newy 7
365
- ob 7
366
- hyn 6
367
- hyd 6
368
- cyn 6
369
- _ga 6
370
- a' 6
364
+ my 7
365
+ yg 7
366
+ g,_ 6
367
+ dal 6
368
+ gh 6
371
369
  N 6
372
- ant 6
373
- rwy 6
374
- h. 6
370
+ ann 6
371
+ rhau 6
375
372
  _i' 6
376
- lwyd 6
377
- _si 6
373
+ fod 6
378
374
  pe 6
379
- fan 6
380
- eg, 6
381
- gh 6
382
- rhau 6
383
- dal 6
384
- ann 6
375
+ rwy 6
376
+ fer_ 6
377
+ a' 6
378
+ _ga 6
385
379
  us 6
386
- ian 6
387
- _dda 6
388
- _pa 6
389
- fle 6
390
- pr 6
380
+ ed_ 6
381
+ lwyd 6
382
+ eg, 6
383
+ fan 6
384
+ _pr 6
385
+ cyn 6
391
386
  I 6
392
- _de 6
393
- as 6
387
+ _si 6
394
388
  lwy 6
395
- fod 6
396
- ned 6
389
+ as 6
397
390
  _ddi 6
398
- ir 6
399
- rdd 6
400
- _rh 6
391
+ h. 6
392
+ ian 6
393
+ hyn 6
394
+ _Cy 6
395
+ _dda 6
396
+ edi 6
397
+ ch_ 6
398
+ fel 6
399
+ _S 6
400
+ _Cym 6
@@ -5,7 +5,7 @@ module Scylla
5
5
  "spanish" => "es",
6
6
  "german" => "de",
7
7
  "chinese" => "zh",
8
- "dutch" => "nl",
8
+ #"dutch" => "nl",
9
9
  "polish" => "pl",
10
10
  "russian" => "ru",
11
11
  "italian" => "it",
@@ -19,28 +19,28 @@ module Scylla
19
19
  "arabic" => "ar",
20
20
  "slovenian" => "sl",
21
21
  "swedish" => "sv",
22
- "croatian" => "hr",
22
+ #"croatian" => "hr",
23
23
  "indonesian" => "id",
24
- "czech" => "cs",
24
+ #"czech" => "cs",
25
25
  "portuguese" => "pt",
26
26
  "finnish" => "fi",
27
27
  "korean" => "ko",
28
28
  "greek" => "el",
29
29
  "bulgarian" => "bg",
30
30
  "romanian" => "ro",
31
- "estonian" => "et",
31
+ #"estonian" => "et",
32
32
  "danish" => "da",
33
33
  "hebrew" => "he",
34
34
  "slovak" => "sk",
35
- "bosnian" => "bs",
36
- "magyar" => "hu",
37
- "farsi" => "fa",
35
+ #"bosnian" => "bs",
36
+ #"magyar" => "hu",
37
+ #"farsi" => "fa",
38
38
  "welsh" => "cy",
39
- "lithuanian" => "lt",
39
+ #"lithuanian" => "lt",
40
40
  "catalan" => "ca",
41
41
  "thai" => "th",
42
- "afrikaans" => "nl",
43
- "latvian" => "lv"}
42
+ "afrikaans" => "nl"}
43
+ #"latvian" => "lv"}
44
44
 
45
45
  def self.locales
46
46
  return @locales