scylla 0.5.0 → 0.6.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (58) hide show
  1. data/Gemfile +4 -2
  2. data/Gemfile.lock +16 -1
  3. data/lib/scylla/classifier.rb +1 -1
  4. data/lib/scylla/generator.rb +16 -4
  5. data/lib/scylla/lms/afrikaans.lm +232 -232
  6. data/lib/scylla/lms/arabic.lm +175 -175
  7. data/lib/scylla/lms/bulgarian.lm +225 -225
  8. data/lib/scylla/lms/catalan.lm +309 -309
  9. data/lib/scylla/lms/danish.lm +167 -167
  10. data/lib/scylla/lms/english.lm +398 -398
  11. data/lib/scylla/lms/finnish.lm +237 -237
  12. data/lib/scylla/lms/french.lm +148 -148
  13. data/lib/scylla/lms/german.lm +258 -258
  14. data/lib/scylla/lms/greek.lm +236 -236
  15. data/lib/scylla/lms/hebrew.lm +154 -154
  16. data/lib/scylla/lms/hindi.lm +139 -139
  17. data/lib/scylla/lms/icelandic.lm +239 -239
  18. data/lib/scylla/lms/indonesian.lm +244 -244
  19. data/lib/scylla/lms/italian.lm +248 -248
  20. data/lib/scylla/lms/japanese.lm +90 -90
  21. data/lib/scylla/lms/korean.lm +306 -306
  22. data/lib/scylla/lms/norwegian.lm +193 -193
  23. data/lib/scylla/lms/polish.lm +241 -241
  24. data/lib/scylla/lms/portuguese.lm +232 -232
  25. data/lib/scylla/lms/romanian.lm +246 -246
  26. data/lib/scylla/lms/slovak.lm +242 -242
  27. data/lib/scylla/lms/slovenian.lm +229 -229
  28. data/lib/scylla/lms/spanish.lm +164 -164
  29. data/lib/scylla/lms/swedish.lm +157 -157
  30. data/lib/scylla/lms/tagalog.lm +247 -247
  31. data/lib/scylla/lms/thai.lm +252 -252
  32. data/lib/scylla/lms/turkish.lm +285 -285
  33. data/lib/scylla/lms/vietnamese.lm +250 -250
  34. data/lib/scylla/lms/welsh.lm +248 -248
  35. data/lib/scylla/resources.rb +1 -9
  36. data/lib/scylla.rb +4 -0
  37. data/scylla.gemspec +2 -120
  38. data/source_texts/english.txt +62 -27
  39. data/test/classifier_test.rb +1 -3
  40. data/test/fixtures/lms/danish.lm +173 -173
  41. data/test/fixtures/lms/english.lm +220 -220
  42. data/test/fixtures/lms/french.lm +175 -175
  43. data/test/fixtures/lms/german.lm +254 -254
  44. data/test/fixtures/lms/hindi.lm +139 -139
  45. data/test/fixtures/lms/italian.lm +236 -236
  46. data/test/fixtures/lms/japanese.lm +88 -88
  47. data/test/fixtures/lms/norwegian.lm +182 -182
  48. data/test/fixtures/lms/spanish.lm +164 -164
  49. data/test/fixtures/test_languages/spanish +0 -1
  50. data/test/generator_test.rb +13 -0
  51. data/test/helper.rb +2 -0
  52. metadata +18 -25
  53. data/.document +0 -5
  54. data/lib/scylla/lms/13375P33K.lm +0 -400
  55. data/scylla-0.1.0.gem +0 -0
  56. data/source_texts/13375P33K.txt +0 -199
  57. data/test/fixtures/lms/13375p33k.lm +0 -400
  58. data/test/fixtures/source_texts/13375P33K.txt +0 -199
@@ -1,4 +1,4 @@
1
- _ 16386
1
+ _ 16370
2
2
  e 5759
3
3
  r 3334
4
4
  n 3061
@@ -13,388 +13,388 @@ g 1617
13
13
  k 1278
14
14
  m 1273
15
15
  er 1209
16
- e_ 1175
17
- __ 1083
16
+ e_ 1183
17
+ __ 1139
18
18
  de 1045
19
19
  en 993
20
20
  � 940
21
21
  f 939
22
- r_ 828
22
+ r_ 840
23
23
  v 770
24
- t_ 725
24
+ t_ 732
25
25
  an 724
26
- n_ 710
26
+ n_ 715
27
27
  u 605
28
28
  nd 598
29
29
  b 585
30
30
  et 574
31
- _s 546
31
+ _s 552
32
32
  . 546
33
33
  re 543
34
+ er_ 541
34
35
  te 540
35
36
  st 530
36
- er_ 528
37
- en_ 526
38
- g_ 519
39
- _o 501
40
- _d 484
37
+ en_ 530
38
+ g_ 521
39
+ _o 503
40
+ _d 487
41
41
  , 480
42
42
  ,_ 478
43
43
  h 474
44
44
  ge 474
45
- _a 462
45
+ _a 463
46
46
  in 440
47
47
  p 436
48
+ _f 431
48
49
  ar 430
49
- _f 423
50
50
  og 415
51
51
  or 411
52
52
  ti 406
53
53
  ._ 405
54
- et_ 396
55
- _e 390
54
+ _e 404
55
+ et_ 399
56
56
  ed 381
57
- _m 378
58
- _i 378
57
+ _m 381
58
+ _i 381
59
59
  sk 365
60
60
  ne 365
61
61
  le 353
62
- _og 344
62
+ _og 346
63
63
  ke 343
64
64
  el 342
65
65
  og_ 338
66
66
  � 332
67
67
  ø 332
68
- d_ 326
68
+ d_ 329
69
69
  me 324
70
70
  ng 317
71
- _de 314
72
- _og_ 313
71
+ _og_ 315
72
+ _de 315
73
73
  å 293
74
74
  ig 293
75
75
  � 293
76
- _b 288
77
- � 286
76
+ _b 290
78
77
  æ 286
79
- i_ 283
78
+ 286
79
+ i_ 284
80
+ de_ 275
80
81
  _h 274
81
- de_ 274
82
+ s_ 273
82
83
  ri 273
83
- s_ 271
84
84
  D 268
85
85
  nde 263
86
- om 262
87
86
  li 262
87
+ om 262
88
88
  ma 259
89
89
  ve 257
90
90
  y 256
91
+ _i_ 254
91
92
  af 254
92
- _i_ 252
93
93
  _t 249
94
94
  at 245
95
95
  il 244
96
+ es 241
96
97
  and 241
97
- es 240
98
98
  be 234
99
99
  al 234
100
100
  is 233
101
101
  fo 232
102
102
  se 232
103
103
  ns 229
104
+ _D 226
104
105
  la 224
105
- _D 223
106
106
  on 221
107
107
  rk 219
108
108
  _af 217
109
109
  den 216
110
110
  der 214
111
+ _k 212
111
112
  _me 210
112
- _k 210
113
113
  m_ 209
114
114
  ing 207
115
115
  _v 203
116
- k_ 195
116
+ k_ 201
117
117
  ra 191
118
118
  f_ 188
119
119
  af_ 186
120
+ _p 184
120
121
  for 184
121
- _p 181
122
122
  _af_ 180
123
+ l_ 179
123
124
  ol 174
124
- ere 172
125
- _fo 172
126
125
  ark 172
127
- lan 169
126
+ _fo 172
127
+ ere 172
128
128
  ste 169
129
+ lan 169
129
130
  te_ 168
131
+ _l 166
130
132
  mar 165
131
- _l 165
132
- l_ 164
133
133
  ll 162
134
134
  ter 161
135
135
  j 159
136
136
  ske 159
137
137
  om_ 155
138
+ ke_ 154
139
+ den_ 153
138
140
  land 153
141
+ ha 153
139
142
  mark 153
140
143
  Da 153
141
- ke_ 153
142
- den_ 153
143
- ha 153
144
- ni 151
145
144
  ed_ 151
145
+ ni 151
146
146
  _st 151
147
- _for 149
148
147
  so 149
148
+ _for 149
149
149
  Dan 148
150
150
  ta 148
151
151
  ger 147
152
+ _er 145
152
153
  nge 144
153
154
  det 143
154
- re_ 140
155
+ re_ 141
155
156
  ede 139
156
157
  nma 138
157
- nm 138
158
158
  vi 138
159
- nmark 137
159
+ nm 138
160
160
  _en 137
161
+ nmark 137
161
162
  nmar 137
162
- anm 136
163
163
  anma 136
164
+ _Da 136
164
165
  anmar 136
166
+ anm 136
165
167
  ev 135
166
168
  rs 135
167
- der_ 133
168
- Danma 133
169
+ der_ 134
170
+ un 133
169
171
  Danm 133
172
+ Danma 133
170
173
  S 133
171
- _Da 133
172
- un 133
173
174
  ans 132
174
- _er 131
175
+ _Dan 132
175
176
  da 130
176
177
  med 130
177
- _Dan 129
178
- ro 127
179
178
  io 127
179
+ ro 127
180
180
  til 126
181
- som 125
182
- _er_ 125
183
181
  ik 125
182
+ _er_ 125
183
+ som 125
184
184
  rn 124
185
185
  _ti 124
186
+ �_ 123
186
187
  ds 123
188
+ å_ 123
187
189
  _u 122
188
190
  em 122
189
191
  eg 121
190
- �_ 121
191
- å_ 121
192
- _ha 120
193
- _Danm 120
192
+ _Danm 121
194
193
  rt 120
194
+ _ha 120
195
195
  ld 119
196
196
  _med 119
197
- _r 118
197
+ _so 119
198
+ _g 118
198
199
  som_ 118
199
200
  to 117
200
- _so 116
201
- _g 116
201
+ _som 116
202
202
  ske_ 116
203
203
  det_ 115
204
- ern 114
205
- end 114
204
+ _r 115
206
205
  ar_ 114
206
+ end 114
207
207
  tr 114
208
- _som 113
209
- id 111
208
+ ern 114
209
+ _som_ 113
210
210
  ko 111
211
211
  ud 111
212
- _som_ 110
212
+ id 111
213
213
  del 110
214
214
  _til 109
215
215
  si 108
216
- lig 108
216
+ nsk 108
217
217
  va 108
218
218
  mi 108
219
- nsk 108
219
+ lig 108
220
220
  ls 107
221
- _be 105
222
- �r 105
223
- bl 105
221
+ _be 107
222
+ ør 105
223
+ ind 105
224
224
  ka 105
225
+ bl 105
225
226
  ion 105
226
- ind 105
227
- ør 105
227
+ �r 105
228
+ _da 105
228
229
  gs 105
229
230
  lle 104
230
- _da 104
231
+ _S 104
231
232
  t� 103
232
- _S 103
233
- ne_ 102
233
+ _� 103
234
234
  med_ 102
235
+ ne_ 102
235
236
  ag 101
236
- _en_ 101
237
237
  tt 101
238
238
  dt 101
239
- r� 100
240
- _� 100
239
+ _en_ 101
241
240
  c 100
241
+ r� 100
242
242
  ansk 99
243
+ ie 99
243
244
  nt 99
244
245
  dan 99
245
- ie 99
246
246
  _med_ 98
247
247
  or_ 97
248
- �r 95
248
+ ær 95
249
+ il_ 95
249
250
  - 95
250
251
  De 95
251
- il_ 95
252
- ær 95
253
- na 94
254
- nin 94
252
+ �r 95
255
253
  rne 94
256
- ning 94
257
- ner 94
258
254
  lt 94
255
+ nin 94
256
+ na 94
257
+ ner 94
258
+ ning 94
259
259
  I 92
260
- fr 92
261
260
  til_ 92
261
+ fr 92
262
262
  at_ 92
263
263
  op 91
264
264
  ru 91
265
- _dan 89
266
- rd 89
267
- ige 89
265
+ _dan 90
266
+ ge_ 90
268
267
  _bl 89
268
+ rd 89
269
+ ng_ 89
270
+ v_ 89
269
271
  erne 89
270
- ge_ 89
271
- ng_ 88
272
- v_ 88
272
+ ige 89
273
273
  gt 88
274
- kr 87
275
- tte 87
276
- a_ 87
277
- _re 87
274
+ a_ 88
278
275
  inge 87
279
- _den 87
276
+ _. 87
280
277
  p� 87
278
+ _den 87
279
+ kr 87
280
+ tte 87
281
+ s� 86
281
282
  dans 86
282
283
  men 86
283
- s� 86
284
284
  dansk 86
285
- it 85
286
- isk 85
287
285
  _til_ 85
286
+ isk 85
287
+ es_ 85
288
+ it 85
288
289
  ver 85
289
- am 84
290
- f� 84
291
290
  _dans 84
292
- _at 84
291
+ _re 84
292
+ f� 84
293
+ am 84
293
294
  els 84
294
- es_ 83
295
+ _at 84
295
296
  est 83
296
- ur 82
297
- gen 82
297
+ _n 83
298
298
  _den_ 82
299
- he 81
299
+ gen 82
300
+ ur 82
300
301
  _ud 81
302
+ he 81
301
303
  _at_ 81
302
- _n 81
303
- ene 80
304
+ rk_ 80
304
305
  ble 80
305
- sa 79
306
- od 79
306
+ ene 80
307
+ e. 79
307
308
  und 79
308
- _. 79
309
- ede_ 79
310
309
  ande 79
310
+ od 79
311
+ ede_ 79
312
+ _I 79
313
+ sa 79
314
+ _la 78
311
315
  eri 78
312
- nde_ 78
313
316
  _in 78
314
- _la 78
315
- ov 77
317
+ nde_ 78
318
+ _fr 78
319
+ r. 77
316
320
  ende 77
317
- _I 76
318
- r. 76
319
- _fr 76
321
+ ov 77
322
+ _si 76
323
+ ing_ 76
324
+ sk_ 76
325
+ _._ 76
320
326
  tor 76
321
327
  av 75
322
- lev 75
323
328
  lk 75
324
- sk_ 75
325
- rk_ 75
326
- ing_ 75
327
- _si 74
329
+ ark_ 75
330
+ lev 75
328
331
  an_ 74
329
332
  ft 74
330
- mm 73
331
- på 73
332
333
  F 73
333
- _._ 73
334
+ mm 73
334
335
  us 73
335
- e. 73
336
- e,_ 72
337
- di 72
338
- rin 72
336
+ 73
337
+ _De 73
339
338
  e, 72
340
- _De 72
339
+ di 72
341
340
  E 72
341
+ rin 72
342
+ e,_ 72
343
+ mark_ 71
344
+ le_ 71
345
+ nd_ 71
346
+ _p� 71
342
347
  nske 71
348
+ _lan 71
343
349
  _på 71
344
350
  _der 71
345
- _p� 71
346
- _lan 71
347
- get 70
348
- le_ 70
349
- ark_ 70
350
351
  st� 70
352
+ get 70
351
353
  gi 70
352
- ist 69
353
354
  pr 69
354
- nd_ 68
355
- var 68
355
+ ist 69
356
+ ks 68
356
357
  _blev 68
357
358
  _ble 68
358
359
  blev 68
359
- ks 68
360
- mark_ 67
360
+ var 68
361
+ _va 67
362
+ anske 67
361
363
  på_ 67
362
364
  ss 67
363
- anske 67
364
- _va 67
365
- _( 66
366
- _land 66
367
- ati 66
368
- tio 66
369
- lse 66
370
- år 66
371
- fi 66
372
365
  _på_ 66
373
- ) 66
366
+ gr 66
367
+ år 66
368
+ tio 66
369
+ ati 66
374
370
  tion 66
371
+ fi 66
372
+ lse 66
373
+ _land 66
375
374
  �r 66
376
- ( 66
377
- gr 66
378
375
  ef 65
376
+ one 65
379
377
  sto 65
380
378
  kt 65
381
- one 65
382
379
  sen 64
383
- ev_ 64
384
380
  else 64
381
+ ev_ 64
385
382
  A 63
386
383
  ende_ 63
387
- ren 63
388
384
  ring 63
385
+ ren 63
389
386
  _ko 62
390
387
  for_ 62
391
388
  ho 62
389
+ e._ 62
390
+ ig_ 62
392
391
  dr 61
393
- ig_ 61
394
- ste_ 61
395
392
  rig 61
396
- lev_ 60
393
+ ste_ 61
397
394
  ret 60
395
+ lev_ 60
396
+ n,_ 60
397
+ _E 60
398
+ _F 60
399
+ n, 60
398
400
  blev_ 60
399
- _E 59
400
- fø 59