scylla 0.8.0 → 0.8.29

Sign up to get free protection for your applications and to get access to all the features.
Files changed (93) hide show
  1. data/Gemfile +4 -0
  2. data/Gemfile.lock +9 -1
  3. data/lib/scylla/generator.rb +46 -13
  4. data/lib/scylla/lms/afrikaans.lm +400 -400
  5. data/lib/scylla/lms/arabic.lm +400 -400
  6. data/lib/scylla/lms/bulgarian.lm +400 -400
  7. data/lib/scylla/lms/catalan.lm +399 -399
  8. data/lib/scylla/lms/chinese.lm +400 -400
  9. data/lib/scylla/lms/czech.lm +400 -0
  10. data/lib/scylla/lms/danish.lm +396 -396
  11. data/lib/scylla/lms/dutch.lm +400 -0
  12. data/lib/scylla/lms/english.lm +400 -400
  13. data/lib/scylla/lms/finnish.lm +400 -400
  14. data/lib/scylla/lms/french.lm +398 -398
  15. data/lib/scylla/lms/german.lm +400 -400
  16. data/lib/scylla/lms/greek.lm +400 -400
  17. data/lib/scylla/lms/hebrew.lm +399 -399
  18. data/lib/scylla/lms/hindi.lm +400 -400
  19. data/lib/scylla/lms/icelandic.lm +399 -399
  20. data/lib/scylla/lms/indonesian.lm +400 -400
  21. data/lib/scylla/lms/italian.lm +400 -400
  22. data/lib/scylla/lms/japanese.lm +399 -399
  23. data/lib/scylla/lms/kannada.lm +400 -0
  24. data/lib/scylla/lms/korean.lm +400 -400
  25. data/lib/scylla/lms/marathi.lm +400 -0
  26. data/lib/scylla/lms/norwegian.lm +400 -400
  27. data/lib/scylla/lms/persian.lm +400 -0
  28. data/lib/scylla/lms/polish.lm +400 -400
  29. data/lib/scylla/lms/portuguese.lm +400 -400
  30. data/lib/scylla/lms/romanian.lm +400 -400
  31. data/lib/scylla/lms/russian.lm +400 -400
  32. data/lib/scylla/lms/slovak.lm +400 -400
  33. data/lib/scylla/lms/slovenian.lm +387 -387
  34. data/lib/scylla/lms/spanish.lm +400 -400
  35. data/lib/scylla/lms/swedish.lm +399 -399
  36. data/lib/scylla/lms/tagalog.lm +400 -400
  37. data/lib/scylla/lms/thai.lm +400 -400
  38. data/lib/scylla/lms/turkish.lm +400 -400
  39. data/lib/scylla/lms/vietnamese.lm +400 -400
  40. data/lib/scylla/lms/welsh.lm +398 -398
  41. data/lib/scylla/resources.rb +43 -33
  42. data/lib/scylla/string.rb +2 -2
  43. data/lib/scylla.rb +0 -4
  44. data/pkg/scylla-0.5.0.gem +0 -0
  45. data/scylla.gemspec +1 -1
  46. data/source_texts/afrikaans.txt +330 -81
  47. data/source_texts/arabic.txt +590 -448
  48. data/source_texts/bulgarian.txt +588 -821
  49. data/source_texts/catalan.txt +435 -413
  50. data/source_texts/chinese.txt +526 -100
  51. data/source_texts/czech.txt +237 -0
  52. data/source_texts/danish.txt +233 -184
  53. data/source_texts/dutch.txt +503 -0
  54. data/source_texts/english.txt +673 -70
  55. data/source_texts/finnish.txt +939 -71
  56. data/source_texts/french.txt +879 -465
  57. data/source_texts/german.txt +1236 -137
  58. data/source_texts/greek.txt +488 -139
  59. data/source_texts/hebrew.txt +539 -100
  60. data/source_texts/hindi.txt +254 -100
  61. data/source_texts/icelandic.txt +301 -90
  62. data/source_texts/indonesian.txt +509 -93
  63. data/source_texts/italian.txt +1066 -120
  64. data/source_texts/japanese.txt +1217 -450
  65. data/source_texts/kannada.txt +340 -0
  66. data/source_texts/korean.txt +343 -219
  67. data/source_texts/marathi.txt +237 -0
  68. data/source_texts/norwegian.txt +555 -190
  69. data/source_texts/persian.txt +886 -0
  70. data/source_texts/polish.txt +1013 -90
  71. data/source_texts/portuguese.txt +690 -88
  72. data/source_texts/romanian.txt +436 -103
  73. data/source_texts/russian.txt +1029 -100
  74. data/source_texts/slovak.txt +575 -102
  75. data/source_texts/slovenian.txt +353 -99
  76. data/source_texts/spanish.txt +858 -675
  77. data/source_texts/swedish.txt +558 -488
  78. data/source_texts/tagalog.txt +391 -100
  79. data/source_texts/thai.txt +286 -60
  80. data/source_texts/turkish.txt +635 -87
  81. data/source_texts/vietnamese.txt +300 -92
  82. data/source_texts/welsh.txt +288 -104
  83. data/test/fixtures/lms/danish.lm +314 -314
  84. data/test/fixtures/lms/english.lm +301 -301
  85. data/test/fixtures/lms/french.lm +326 -326
  86. data/test/fixtures/lms/german.lm +331 -331
  87. data/test/fixtures/lms/hindi.lm +191 -191
  88. data/test/fixtures/lms/italian.lm +299 -299
  89. data/test/fixtures/lms/japanese.lm +103 -103
  90. data/test/fixtures/lms/norwegian.lm +309 -309
  91. data/test/fixtures/lms/spanish.lm +331 -331
  92. data/test/generator_test.rb +2 -2
  93. metadata +14 -3
@@ -1,400 +1,400 @@
1
- _ 32532
2
- e 11820
3
- s 6385
4
- a 6245
5
- i 6160
6
- n 6115
7
- t 5635
8
- r 5480
9
- l 4711
10
- e_ 4461
11
- u 4260
12
- o 4196
1
+ _ 31950
2
+ e 11946
3
+ s 6507
4
+ a 6436
5
+ i 6268
6
+ n 6183
7
+ t 5689
8
+ r 5610
9
+ l 5016
10
+ e_ 4933
11
+ u 4308
12
+ o 4232
13
+ s_ 3398
14
+ d 3279
13
15
  � 3243
14
- d 3178
15
- s_ 3066
16
- c 2591
17
- p 2396
18
- _d 2392
19
- m 2162
20
- es 2138
16
+ c 2751
17
+ p 2562
18
+ _d 2485
19
+ m 2301
20
+ _l 2197
21
+ es 2147
21
22
  é 2115
22
23
  � 2115
23
- _l 1892
24
- t_ 1830
25
- de 1585
26
- es_ 1556
27
- le 1533
28
- en 1497
29
- on 1429
30
- _de 1354
31
- _e 1349
32
- _p 1259
33
- nt 1258
34
- an 1256
35
- , 1245
36
- ,_ 1217
37
- re 1163
38
- n_ 1116
39
- ti 1028
40
- de_ 982
41
- is 981
42
- ra 900
43
- la 900
44
- _de_ 892
45
- a_ 871
46
- g 846
47
- _s 841
48
- v 796
49
- _c 794
50
- f 777
51
- _a 776
52
- ai 735
53
- te 723
54
- ent 708
24
+ t_ 1917
25
+ es_ 1693
26
+ le 1640
27
+ de 1633
28
+ en 1546
29
+ _e 1437
30
+ on 1430
31
+ _p 1417
32
+ _de 1396
33
+ an 1276
34
+ nt 1259
35
+ n_ 1199
36
+ re 1180
37
+ f 1101
38
+ ti 1029
39
+ la 1012
40
+ de_ 1012
41
+ is 984
42
+ _s 954
43
+ _c 938
44
+ g 928
45
+ _a 913
46
+ ra 909
47
+ _de_ 905
48
+ a_ 887
49
+ v 842
50
+ le_ 833
51
+ _le 798
52
+ _la 790
53
+ _f 747
54
+ la_ 745
55
+ ai 743
56
+ _la_ 742
57
+ te 729
58
+ ar 723
59
+ ent 715
60
+ nt_ 714
61
+ q 699
55
62
  � 698
56
- _le 691
63
+ b 695
64
+ qu 688
57
65
  � 688
58
66
  � 687
59
- le_ 684
60
- q 683
61
- nt_ 682
62
- _la 678
63
- ar 672
64
- qu 672
65
- in 664
66
- et 662
67
- me 657
68
- se 656
69
- it 656
70
- ’ 652
67
+ _m 687
68
+ in 678
69
+ se 674
70
+ et 663
71
+ ce 663
72
+ me 660
73
+ it 659
71
74
  �� 652
72
75
  � 652
76
+ ’ 652
73
77
  ur 643
74
- la_ 642
75
- _la_ 641
76
- ce 639
77
- ne 632
78
- b 630
79
- er 618
78
+ ne 634
79
+ er 619
80
80
  ue 613
81
- io 600
82
- . 599
81
+ r_ 608
82
+ u_ 605
83
+ io 601
83
84
  ns 598
84
- ._ 592
85
- u_ 591
86
- ion 572
85
+ pa 592
86
+ et_ 581
87
+ ion 573
87
88
  _� 571
88
- et_ 567
89
- _m 560
90
- r_ 550
91
- st 545
92
- ie 538
93
- _et 536
94
- ri 535
95
- pa 531
96
- _et_ 530
89
+ co 554
90
+ les 550
91
+ st 550
92
+ au 548
93
+ ie 545
94
+ _r 541
95
+ _et 537
96
+ ri 537
97
+ _et_ 534
98
+ les_ 530
99
+ at 530
100
+ li 528
97
101
  ran 527
98
- au 525
99
- at 524
100
- co 521
101
- nc 519
102
- les 515
103
- ou 510
104
- li 508
105
- tr 497
106
- al 479
107
- les_ 468
108
- ta 467
109
- ro 467
110
- re_ 460
111
- h 459
112
- que 452
113
- on_ 433
102
+ re_ 524
103
+ nc 520
104
+ tr 513
105
+ ou 512
106
+ al 500
107
+ ro 492
108
+ r� 484
109
+ h 483
110
+ fr 475
111
+ on_ 475
112
+ ta 472
113
+ _pa 468
114
+ _en 467
115
+ eu 461
116
+ _fr 453
117
+ que 453
118
+ fra 434
114
119
  tio 431
115
- _f 430
116
120
  tion 429
117
- eu 429
118
- r� 428
119
- _en 419
120
- _r 419
121
- em 413
122
- x 410
123
- _pa 408
124
- or 400
125
- rt 400
126
- po 397
121
+ _fra 426
122
+ x 425
123
+ em 425
124
+ ce_ 422
125
+ fran 422
126
+ _le_ 420
127
+ en_ 419
128
+ _t 417
129
+ po 415
130
+ un 415
131
+ or 414
132
+ pr 408
133
+ si 407
134
+ ne_ 406
135
+ rt 401
136
+ ent_ 394
137
+ ns_ 393
138
+ par 390
127
139
  ll 386
128
- si 382
129
- des 379
140
+ _co 383
141
+ des 381
130
142
  oi 378
131
- pr 375
132
- anc 374
133
- ent_ 374
134
- en_ 373
135
- un 373
136
- _t 369
143
+ 378
144
+ anc 375
145
+ des_ 367
137
146
  nce 366
138
- des_ 364
139
- è 359
147
+ ue_ 363
148
+ is_ 359
140
149
  � 359
141
- ne_ 359
142
- ce_ 355
143
- par 352
144
- ir 352
145
- _co 352
146
- e,_ 351
147
- e, 351
148
- _des 349
149
- _le_ 349
150
- ns_ 346
151
- _des_ 339
152
- du 339
153
- l� 328
154
- _l� 328
155
- _l’ 328
156
- l� 328
157
- l’ 328
158
- _l� 328
159
- el 327
160
- us 325
150
+ è 359
151
+ ma 358
152
+ ir 355
153
+ l� 354
154
+ _l� 354
155
+ l� 354
156
+ _l� 354
157
+ l’ 354
158
+ _des 351
159
+ _en_ 349
160
+ du 345
161
+ _les 342
162
+ ion_ 340
163
+ el 339
164
+ _par 336
165
+ é_ 333
166
+ �_ 333
167
+ i_ 331
168
+ us 326
169
+ _n 326
161
170
  ui 325
162
- F 324
163
- ré 322
171
+ n� 322
164
172
  ati 321
165
173
  nd 320
166
- _F 317
167
- is_ 314
168
- _en_ 313
169
- ion_ 312
170
- t� 311
174
+ nce_ 320
175
+ ve 316
176
+ que_ 315
177
+ so 314
178
+ t� 313
179
+ _u 312
171
180
  ance 311
172
- _, 310
173
- _les 307
174
- ve 307
175
- n� 307
176
- om 305
177
- L 305
178
- �_ 304
179
- so 304
180
- _les_ 304
181
- é_ 304
182
- ue_ 304
183
- _L 303
184
- _par 298
181
+ om 310
185
182
  iq 296
186
183
  iqu 296
187
- i_ 295
184
+ il 295
188
185
  �e 294
186
+ _pr 294
189
187
  ée 294
190
- ma 293
191
- _. 291
188
+ mi 293
192
189
  men 291
193
- _._ 289
194
- 288
195
- à 288
196
- à_ 287
197
- �_ 287
198
- Fr 287
199
- _Fr 287
190
+ _un 291
191
+ _au 289
192
+ __ 288
193
+ _ 288
194
+ est 286
195
+ na 286
200
196
  ique 286
201
- _,_ 286
202
- il 284
203
- _Fra 283
204
- Fra 283
205
- est 283
206
- _u 282
207
- _Fran 280
208
- Fran 280
209
- _à_ 279
210
- _à 279
211
- mi 279
212
- pl 278
213
- té 276
197
+ pl 284
198
+ di 283
199
+ _�_ 279
200
+ 278
201
+ ci 277
202
+ te_ 275
214
203
  ranc 272
204
+ _du 271
215
205
  ment 270
216
- di 270
217
- na 269
218
206
  ut 269
219
207
  ss 268
220
- ci 267
221
- _au 266
222
- _n 265
223
- _du 265
224
- _un 263
225
- nce_ 263
226
- �s 263
227
208
  és 263
228
- _pr 262
209
+ �s 263
229
210
  ais 262
230
- du_ 259
211
+ lu 262
212
+ eur 261
213
+ mo 261
214
+ du_ 261
215
+ con 259
231
216
  atio 258
232
- que_ 258
233
- ation 258
234
- _du_ 256
235
- tion_ 256
236
- y 255
237
- lu 255
238
- Franc 252
217
+ _du_ 257
218
+ y 256
219
+ no 256
220
+ pe 255
221
+ _so 253
239
222
  ol 252
240
- rance 251
241
- rs 251
223
+ rs 252
224
+ l_ 251
225
+ d� 251
242
226
  lle 250
243
- te_ 250
244
- pe 248
245
- con 244
246
- _so 243
247
- s, 241
248
- ire 240
227
+ _i 248
228
+ _qu 245
229
+ _g 245
230
+ _q 245
231
+ ch 241
232
+ 241
233
+ res 241
249
234
  ont 240
250
- d� 239
251
- s,_ 239
252
- no 239
253
- res 239
235
+ ic 240
236
+ ire 240
237
+ se_ 239
254
238
  ons 238
255
- ic 238
256
- mo 236
257
- ance_ 234
258
- 232
239
+ lo 236
240
+ st_ 234
241
+ me_ 233
242
+ ant 233
243
+ sa 233
244
+ _po 233
245
+ est_ 231
259
246
  i� 231
260
- eur 230
261
- _q 229
262
- _qu 229
247
+ vi 229
263
248
  nn 226
264
- ant 226
249
+ ni 223
265
250
  ct 223
266
- st_ 222
267
- me_ 220
268
- est_ 220
269
- l_ 216
270
- ni 216
251
+ _o 219
252
+ _es 218
271
253
  _é 216
272
- _po 215
254
+ _d� 215
273
255
  ux 215
274
- _es 213
275
- lo 213
276
- ch 213
277
- vi 212
278
- se_ 209
256
+ au_ 214
257
+ x_ 214
258
+ art 213
259
+ ur_ 213
279
260
  eme 208
280
- ement 205
261
+ to 208
262
+ d� 207
263
+ d� 207
264
+ _dé 207
265
+ d’ 207
281
266
  emen 205
282
- _o 204
283
- _d� 203
284
- _est 202
285
- pu 202
286
- ét 202
267
+ _re 205
268
+ _est 204
269
+ pu 204
270
+ _ma 203
287
271
  �t 202
288
- d� 201
289
- sa 201
290
- d’ 201
291
- d� 201
272
+ ét 202
273
+ _d� 201
274
+ _d� 201
275
+ _v 201
292
276
  ec 200
293
- _dé 198
294
- ur_ 198
295
- _est_ 196
296
- x_ 196
297
- ale 196
298
- _d’ 195
299
- _d� 195
300
- to 195
301
- _d� 195
302
- _i 194
303
- au_ 193
277
+ ale 197
278
+ da 196
279
+ _mo 196
280
+ _se 196
281
+ _pl 196
282
+ tre 193
304
283
  op 191
305
- A 191
306
- da 190
307
- tre 190
308
- _pl 190
309
284
  ul 189
310
- _re 188
311
- ment_ 187
312
- fr 185
313
- bl 184
314
- mp 184
285
+ bl 188
286
+ mp 187
287
+ ux_ 187
288
+ _con 187
289
+ ac 182
290
+ _r� 182
291
+ rs_ 182
292
+ tu 181
315
293
  ér 180
316
- ac 180
317
- tu 180
318
294
  �r 180
319
- ts 179
320
295
  rti 179
321
- _se 178
322
- ux_ 174
296
+ ts 179
297
+ ie_ 178
298
+ ’a 177
299
+ �a 177
300
+ ��a 177
301
+ gr 176
323
302
  ise 174
324
- art 173
325
- _con 172
303
+ _b 173
304
+ ans 173
305
+ une 172
306
+ us_ 172
307
+ _au_ 172
326
308
  iè 172
327
- ans 171
328
- _mo 171
329
- _g 171
330
- ç 170
331
309
  � 170
310
+ ç 170
311
+ as 170
332
312
  ia 170
333
- _v 170
334
- ar_ 168
335
- an� 167
336
- gr 167
313
+ ar_ 170
314
+ _ré 170
315
+ ts_ 168
316
+ son 168
317
+ cl 167
337
318
  ont_ 167
319
+ an� 167
338
320
  ran� 166
321
+ su 166
322
+ un_ 166
323
+ im 166
339
324
  lus 166
340
- rs_ 166
341
- P 166
342
325
  nç 165
343
- im 164
344
- _fr 163
345
- une 163
346
- us_ 162
347
- son 162
348
- un_ 162
326
+ té_ 165
327
+ par_ 164
328
+ res_ 163
329
+ ire_ 163
349
330
  anç 161
350
- ranç 160
351
- C 160
352
- su 159
353
- ique_ 159
331
+ _plu 160
332
+ plu 160
354
333
  ill 159
355
- _par_ 158
356
- _au_ 158
357
- cl 158
358
- par_ 158
359
- _plu 158
360
- plu 158
361
- _P 158
362
- as 157
334
+ m� 158
335
+ une_ 158
336
+ ell 158
337
+ ca 157
338
+ �a 156
363
339
  ça 156
364
340
  nça 156
365
- �a 156
366
- ança 153
341
+ fi 156
342
+ _ce 156
343
+ er_ 156
344
+ arti 155
345
+ ans_ 155
346
+ elle 154
347
+ j 154
348
+ plus 154
349
+ né 154
367
350
  mm 153
368
- çais 152
369
- nçai 152
370
351
  �ais 152
371
- plus 152
372
- çai 152
373
352
  �ai 152
374
- _plus 152
375
- ie_ 151
353
+ çai 152
354
+ ge 152
376
355
  rr 151
377
- fra 151
378
- ge 150
379
- m� 149
380
- une_ 149
356
+ és_ 150
357
+ �s_ 150
358
+ iv 150
381
359
  l� 149
382
- té_ 148
383
- ans_ 147
384
- ag 147
385
- ell 146
360
+ ag 148
361
+ dan 147
362
+ it_ 146
386
363
  ions 146
387
- fi 146
388
- iv 145
389
- _C 144
390
364
  ien 144
391
- ts_ 144
392
- dan 144
393
- ain 143
394
- _fra 143
395
- it_ 143
365
+ ons_ 144
366
+ ée_ 143
396
367
  our 143
397
- res_ 142
398
- elle 142
399
- fran 142
400
- _fran 142
368
+ ain 143
369
+ �e_ 143
370
+ ot 142
371
+ _son 142
372
+ ep 141
373
+ éc 141
374
+ _no 141
375
+ �c 141
376
+ pr� 140
377
+ ��e 139
378
+ ’e 139
379
+ �e 139
380
+ lus_ 137
381
+ ais_ 137
382
+ air 137
383
+ _su 136
384
+ ine 135
385
+ tre_ 135
386
+ ant_ 135
387
+ _tr 135
388
+ tra 135
389
+ ntr 133
390
+ gi 133
391
+ _si 133
392
+ aire 133
393
+ tai 133
394
+ d_ 132
395
+ ter 132
396
+ lit 132
397
+ aux 131
398
+ part 130
399
+ ap 130
400
+ lle_ 130