scylla 0.5.0 → 0.6.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,4 +1,4 @@
1
- _ 16386
1
+ _ 16370
2
2
  e 5759
3
3
  r 3334
4
4
  n 3061
@@ -12,389 +12,389 @@ l 1884
12
12
  g 1617
13
13
  k 1278
14
14
  m 1273
15
- er 1209
16
- e_ 1175
17
- __ 1083
15
+ er 1210
16
+ e_ 1186
17
+ __ 1181
18
18
  de 1045
19
19
  en 993
20
20
  � 940
21
21
  f 939
22
- r_ 828
22
+ r_ 840
23
23
  v 770
24
- t_ 725
24
+ t_ 732
25
25
  an 724
26
- n_ 710
26
+ n_ 716
27
27
  u 605
28
28
  nd 598
29
29
  b 585
30
30
  et 574
31
- _s 546
31
+ _s 552
32
32
  . 546
33
33
  re 543
34
+ er_ 541
34
35
  te 540
36
+ en_ 530
35
37
  st 530
36
- er_ 528
37
- en_ 526
38
- g_ 519
39
- _o 501
40
- _d 484
38
+ g_ 521
39
+ _o 503
40
+ _d 487
41
41
  , 480
42
42
  ,_ 478
43
43
  h 474
44
44
  ge 474
45
- _a 462
45
+ _a 463
46
46
  in 440
47
47
  p 436
48
+ _f 431
48
49
  ar 430
49
- _f 423
50
50
  og 415
51
51
  or 411
52
52
  ti 406
53
53
  ._ 405
54
- et_ 396
55
- _e 390
54
+ _e 404
55
+ et_ 399
56
+ _m 382
57
+ _i 381
56
58
  ed 381
57
- _m 378
58
- _i 378
59
- sk 365
60
59
  ne 365
60
+ sk 365
61
61
  le 353
62
- _og 344
63
- ke 343
62
+ _og 346
63
+ ke 344
64
64
  el 342
65
65
  og_ 338
66
- � 332
67
66
  ø 332
68
- d_ 326
67
+ 332
68
+ d_ 330
69
69
  me 324
70
70
  ng 317
71
- _de 314
72
- _og_ 313
73
- å 293
74
- ig 293
71
+ _og_ 315
72
+ _de 315
75
73
  � 293
76
- _b 288
77
- 286
74
+ ig 293
75
+ å 293
76
+ _b 290
78
77
  æ 286
79
- i_ 283
78
+ 286
79
+ i_ 285
80
+ s_ 276
81
+ de_ 275
80
82
  _h 274
81
- de_ 274
82
83
  ri 273
83
- s_ 271
84
84
  D 268
85
85
  nde 263
86
- om 262
87
86
  li 262
87
+ om 262
88
88
  ma 259
89
89
  ve 257
90
+ _t 256
90
91
  y 256
91
92
  af 254
92
- _i_ 252
93
- _t 249
93
+ _i_ 254
94
94
  at 245
95
95
  il 244
96
+ es 241
96
97
  and 241
97
- es 240
98
98
  be 234
99
99
  al 234
100
100
  is 233
101
101
  fo 232
102
102
  se 232
103
103
  ns 229
104
+ _D 226
104
105
  la 224
105
- _D 223
106
106
  on 221
107
107
  rk 219
108
108
  _af 217
109
109
  den 216
110
110
  der 214
111
+ _k 212
111
112
  _me 210
112
- _k 210
113
113
  m_ 209
114
114
  ing 207
115
115
  _v 203
116
- k_ 195
116
+ k_ 202
117
117
  ra 191
118
118
  f_ 188
119
119
  af_ 186
120
120
  for 184
121
- _p 181
121
+ _p 184
122
+ l_ 183
122
123
  _af_ 180
123
124
  ol 174
124
- ere 172
125
- _fo 172
125
+ ere 173
126
126
  ark 172
127
+ _fo 172
127
128
  lan 169
128
129
  ste 169
129
130
  te_ 168
131
+ _l 166
130
132
  mar 165
131
- _l 165
132
- l_ 164
133
133
  ll 162
134
134
  ter 161
135
+ ske 160
135
136
  j 159
136
- ske 159
137
+ ke_ 155
137
138
  om_ 155
138
- land 153
139
- mark 153
139
+ ha 153
140
140
  Da 153
141
- ke_ 153
141
+ mark 153
142
142
  den_ 153
143
- ha 153
143
+ land 153
144
+ _st 151
144
145
  ni 151
145
146
  ed_ 151
146
- _st 151
147
147
  _for 149
148
148
  so 149
149
- Dan 148
150
149
  ta 148
150
+ Dan 148
151
151
  ger 147
152
+ _er 145
152
153
  nge 144
153
154
  det 143
154
- re_ 140
155
+ re_ 141
155
156
  ede 139
156
157
  nma 138
157
158
  nm 138
158
159
  vi 138
159
- nmark 137
160
- _en 137
161
160
  nmar 137
161
+ _en 137
162
+ nmark 137
163
+ anmar 136
162
164
  anm 136
165
+ _Da 136
163
166
  anma 136
164
- anmar 136
165
167
  ev 135
166
168
  rs 135
167
- der_ 133
168
- Danma 133
169
+ der_ 134
169
170
  Danm 133
170
171
  S 133
171
- _Da 133
172
+ Danma 133
172
173
  un 133
174
+ _Dan 132
173
175
  ans 132
174
- _er 131
175
- da 130
176
176
  med 130
177
- _Dan 129
177
+ da 130
178
178
  ro 127
179
179
  io 127
180
180
  til 126
181
- som 125
182
181
  _er_ 125
183
182
  ik 125
184
- rn 124
183
+ som 125
185
184
  _ti 124
185
+ rn 124
186
+ em 123
186
187
  ds 123
188
+ �_ 123
189
+ å_ 123
187
190
  _u 122
188
- em 122
189
191
  eg 121
190
- �_ 121
191
- å_ 121
192
+ _Danm 121
192
193
  _ha 120
193
- _Danm 120
194
194
  rt 120
195
- ld 119
196
195
  _med 119
197
- _r 118
196
+ _so 119
197
+ ld 119
198
+ _g 118
198
199
  som_ 118
199
200
  to 117
200
- _so 116
201
- _g 116
202
201
  ske_ 116
202
+ _som 116
203
203
  det_ 115
204
- ern 114
204
+ _r 115
205
205
  end 114
206
+ ern 114
206
207
  ar_ 114
207
208
  tr 114
208
- _som 113
209
+ _som_ 113
209
210
  id 111
210
- ko 111
211
211
  ud 111
212
- _som_ 110
212
+ ko 111
213
213
  del 110
214
214
  _til 109
215
- si 108
216
- lig 108
217
215
  va 108
218
- mi 108
219
216
  nsk 108
217
+ mi 108
218
+ si 108
219
+ lig 108
220
+ _be 107
220
221
  ls 107
221
- _be 105
222
- �r 105
223
- bl 105
224
- ka 105
225
222
  ion 105
226
223
  ind 105
227
- ør 105
224
+ _da 105
225
+ �r 105
226
+ bl 105
228
227
  gs 105
228
+ ør 105
229
+ ka 105
230
+ _S 104
229
231
  lle 104
230
- _da 104
232
+ _� 104
233
+ dt 103
231
234
  t� 103
232
- _S 103
233
235
  ne_ 102
234
236
  med_ 102
235
- ag 101
237
+ tt 102
236
238
  _en_ 101
237
- tt 101
238
- dt 101
239
+ ag 101
239
240
  r� 100
240
- _� 100
241
241
  c 100
242
242
  ansk 99
243
- nt 99
244
- dan 99
245
243
  ie 99
244
+ dan 99
245
+ nt 99
246
246
  _med_ 98
247
247
  or_ 97
248
- �r 95
249
- - 95
248
+ il_ 96
250
249
  De 95
251
- il_ 95
250
+ �r 95
252
251
  ær 95
253
- na 94
254
- nin 94
255
252
  rne 94
253
+ lt 94
256
254
  ning 94
255
+ na 94
257
256
  ner 94
258
- lt 94
259
- I 92
260
- fr 92
257
+ nin 94
261
258
  til_ 92
259
+ fr 92
260
+ I 92
262
261
  at_ 92
263
262
  op 91
264
263
  ru 91
265
- _dan 89
264
+ ge_ 91
265
+ _dan 90
266
+ erne 89
267
+ v_ 89
266
268
  rd 89
269
+ ng_ 89
267
270
  ige 89
268
271
  _bl 89
269
- erne 89
270
- ge_ 89
271
- ng_ 88
272
- v_ 88
272
+ _. 88
273
+ a_ 88
273
274
  gt 88
275
+ p� 87
274
276
  kr 87
277
+ _den 87
275
278
  tte 87
276
- a_ 87
277
- _re 87
278
279
  inge 87
279
- _den 87
280
- p� 87
281
- dans 86
282
- men 86
283
280
  s� 86
281
+ men 86
282
+ dans 86
284
283
  dansk 86
285
- it 85
286
- isk 85
287
284
  _til_ 85
285
+ isk 85
288
286
  ver 85
289
- am 84
290
- f� 84
287
+ es_ 85
288
+ it 85
289
+ _re 84
291
290
  _dans 84
292
- _at 84
293
291
  els 84
294
- es_ 83
292
+ _at 84
293
+ am 84
294
+ f� 84
295
+ _n 83
295
296
  est 83
296
297
  ur 82
297
- gen 82
298
298
  _den_ 82
299
+ gen 82
299
300
  he 81
300
- _ud 81
301
301
  _at_ 81
302
- _n 81
303
- ene 80
302
+ _ud 81
304
303
  ble 80
305
- sa 79
306
- od 79
307
- und 79
308
- _. 79
304
+ ene 80
305
+ rk_ 80
309
306
  ede_ 79
307
+ e. 79
310
308
  ande 79
311
- eri 78
312
- nde_ 78
309
+ und 79
310
+ od 79
311
+ sa 79
312
+ _I 79
313
313
  _in 78
314
+ nde_ 78
315
+ _fr 78
314
316
  _la 78
317
+ eri 78
318
+ sk_ 77
315
319
  ov 77
316
320
  ende 77
317
- _I 76
318
- r. 76
319
- _fr 76
321
+ r. 77
322
+ _._ 76
323
+ ing_ 76
324
+ _si 76
320
325
  tor 76
326
+ lk 75
321
327
  av 75
322
328
  lev 75
323
- lk 75
324
- sk_ 75
325
- rk_ 75
326
- ing_ 75
327
- _si 74
328
- an_ 74
329
+ an_ 75
330
+ ark_ 75
331
+ mm 74
329
332
  ft 74
330
- mm 73
333
+ _De 73
331
334
  på 73
332
335
  F 73
333
- _._ 73
334
336
  us 73
335
- e. 73
336
- e,_ 72
337
- di 72
337
+ le_ 72
338
338
  rin 72
339
+ e,_ 72
339
340
  e, 72
340
- _De 72
341
+ di 72
342
+ nd_ 72
341
343
  E 72
342
- nske 71
343
- _på 71
344
344
  _der 71
345
- _p� 71
345
+ mark_ 71
346
+ _på 71
347
+ nske 71
346
348
  _lan 71
347
- get 70
348
- le_ 70
349
- ark_ 70
349
+ _p� 71
350
350
  st� 70
351
+ get 70
351
352
  gi 70
353
+ ks 69
352
354
  ist 69
353
355
  pr 69
354
- nd_ 68
355
- var 68
356
356
  _blev 68
357
357
  _ble 68
358
358
  blev 68
359
- ks 68
360
- mark_ 67
361
- på_ 67
359
+ var 68
362
360
  ss 67
361
+ på_ 67
363
362
  anske 67
364
363
  _va 67
365
- _( 66
366
- _land 66
364
+ fi 66
367
365
  ati 66
368
366
  tio 66
369
367
  lse 66
370
- år 66
371
- fi 66
372
- _på_ 66
373
- ) 66
374
368
  tion 66
375
- �r 66
376
- ( 66
369
+ _på_ 66
377
370
  gr 66
378
- ef 65
371
+ �r 66
372
+ år 66
373
+ _land 66
379
374
  sto 65
380
- kt 65
381
375
  one 65
382
- sen 64
376
+ ef 65
377
+ kt 65
383
378
  ev_ 64
379
+ sen 64
384
380
  else 64
385
381
  A 63
386
- ende_ 63
387
- ren 63
388
382
  ring 63
389
- _ko 62
390
- for_ 62
383
+ ren 63
384
+ ende_ 63
385
+ e._ 62
391
386
  ho 62
392
- dr 61
393
- ig_ 61
387
+ for_ 62
388
+ _ko 62
389
+ ig_ 62
390
+ n, 61
394
391
  ste_ 61
395
392
  rig 61
396
- lev_ 60
393
+ n,_ 61
394
+ dr 61
397
395
  ret 60
396
+ lev_ 60
398
397
  blev_ 60
399
- _E 59
400
- 59
398
+ _F 60
399
+ _E 60
400
+ nger 59