xapian-fu 1.7.0 → 1.8.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +4 -4
- data/README.rdoc +2 -1
- data/lib/xapian_fu/stopper_factory.rb +1 -4
- data/lib/xapian_fu/stopwords/af.txt +51 -0
- data/lib/xapian_fu/stopwords/ar.txt +480 -0
- data/lib/xapian_fu/stopwords/bg.txt +259 -0
- data/lib/xapian_fu/stopwords/bn.txt +398 -0
- data/lib/xapian_fu/stopwords/br.txt +1203 -0
- data/lib/xapian_fu/stopwords/ca.txt +278 -0
- data/lib/xapian_fu/stopwords/cs.txt +423 -0
- data/lib/xapian_fu/stopwords/da.txt +170 -0
- data/lib/xapian_fu/stopwords/danish.txt +1 -0
- data/lib/xapian_fu/stopwords/de.txt +620 -0
- data/lib/xapian_fu/stopwords/dutch.txt +1 -0
- data/lib/xapian_fu/stopwords/el.txt +847 -0
- data/lib/xapian_fu/stopwords/en.txt +1298 -0
- data/lib/xapian_fu/stopwords/english.txt +1 -0
- data/lib/xapian_fu/stopwords/eo.txt +173 -0
- data/lib/xapian_fu/stopwords/es.txt +732 -0
- data/lib/xapian_fu/stopwords/et.txt +35 -0
- data/lib/xapian_fu/stopwords/eu.txt +98 -0
- data/lib/xapian_fu/stopwords/fa.txt +799 -0
- data/lib/xapian_fu/stopwords/fi.txt +847 -0
- data/lib/xapian_fu/stopwords/finnish.txt +1 -0
- data/lib/xapian_fu/stopwords/fr.txt +691 -0
- data/lib/xapian_fu/stopwords/french.txt +1 -0
- data/lib/xapian_fu/stopwords/ga.txt +109 -0
- data/lib/xapian_fu/stopwords/german.txt +1 -0
- data/lib/xapian_fu/stopwords/gl.txt +160 -0
- data/lib/xapian_fu/stopwords/gu.txt +224 -0
- data/lib/xapian_fu/stopwords/ha.txt +39 -0
- data/lib/xapian_fu/stopwords/he.txt +194 -0
- data/lib/xapian_fu/stopwords/hi.txt +225 -0
- data/lib/xapian_fu/stopwords/hr.txt +179 -0
- data/lib/xapian_fu/stopwords/hu.txt +789 -0
- data/lib/xapian_fu/stopwords/hungarian.txt +1 -0
- data/lib/xapian_fu/stopwords/hy.txt +45 -0
- data/lib/xapian_fu/stopwords/id.txt +758 -0
- data/lib/xapian_fu/stopwords/it.txt +632 -0
- data/lib/xapian_fu/stopwords/italian.txt +1 -0
- data/lib/xapian_fu/stopwords/ja.txt +134 -0
- data/lib/xapian_fu/stopwords/ko.txt +679 -0
- data/lib/xapian_fu/stopwords/ku.txt +62 -0
- data/lib/xapian_fu/stopwords/la.txt +49 -0
- data/lib/xapian_fu/stopwords/lt.txt +474 -0
- data/lib/xapian_fu/stopwords/lv.txt +161 -0
- data/lib/xapian_fu/stopwords/mr.txt +99 -0
- data/lib/xapian_fu/stopwords/ms.txt +475 -0
- data/lib/xapian_fu/stopwords/nl.txt +413 -0
- data/lib/xapian_fu/stopwords/no.txt +221 -0
- data/lib/xapian_fu/stopwords/norwegian.txt +1 -0
- data/lib/xapian_fu/stopwords/pl.txt +329 -0
- data/lib/xapian_fu/stopwords/portuguese.txt +1 -0
- data/lib/xapian_fu/stopwords/pt.txt +560 -0
- data/lib/xapian_fu/stopwords/ro.txt +434 -0
- data/lib/xapian_fu/stopwords/ru.txt +559 -0
- data/lib/xapian_fu/stopwords/russian.txt +1 -0
- data/lib/xapian_fu/stopwords/sk.txt +418 -0
- data/lib/xapian_fu/stopwords/sl.txt +446 -0
- data/lib/xapian_fu/stopwords/so.txt +30 -0
- data/lib/xapian_fu/stopwords/spanish.txt +1 -0
- data/lib/xapian_fu/stopwords/st.txt +31 -0
- data/lib/xapian_fu/stopwords/sv.txt +418 -0
- data/lib/xapian_fu/stopwords/sw.txt +74 -0
- data/lib/xapian_fu/stopwords/swedish.txt +1 -0
- data/lib/xapian_fu/stopwords/th.txt +116 -0
- data/lib/xapian_fu/stopwords/tl.txt +147 -0
- data/lib/xapian_fu/stopwords/tr.txt +504 -0
- data/lib/xapian_fu/stopwords/uk.txt +73 -0
- data/lib/xapian_fu/stopwords/update.rb +10 -3
- data/lib/xapian_fu/stopwords/ur.txt +517 -0
- data/lib/xapian_fu/stopwords/vi.txt +645 -0
- data/lib/xapian_fu/stopwords/yo.txt +60 -0
- data/lib/xapian_fu/stopwords/zh.txt +794 -0
- data/lib/xapian_fu/stopwords/zu.txt +29 -0
- data/lib/xapian_fu/version.rb +1 -1
- data/lib/xapian_fu/xapian_db.rb +3 -0
- data/spec/xapian_doc_spec.rb +1 -1
- metadata +109 -51
- data/lib/xapian_fu/stopwords/danish.txt +0 -102
- data/lib/xapian_fu/stopwords/dutch.txt +0 -113
- data/lib/xapian_fu/stopwords/english.txt +0 -312
- data/lib/xapian_fu/stopwords/finnish.txt +0 -89
- data/lib/xapian_fu/stopwords/french.txt +0 -168
- data/lib/xapian_fu/stopwords/german.txt +0 -286
- data/lib/xapian_fu/stopwords/hungarian.txt +0 -203
- data/lib/xapian_fu/stopwords/italian.txt +0 -295
- data/lib/xapian_fu/stopwords/norwegian.txt +0 -186
- data/lib/xapian_fu/stopwords/portuguese.txt +0 -245
- data/lib/xapian_fu/stopwords/russian.txt +0 -236
- data/lib/xapian_fu/stopwords/spanish.txt +0 -348
- data/lib/xapian_fu/stopwords/swedish.txt +0 -125
@@ -0,0 +1,504 @@
|
|
1
|
+
acaba
|
2
|
+
acep
|
3
|
+
adamakıllı
|
4
|
+
adeta
|
5
|
+
ait
|
6
|
+
altmýþ
|
7
|
+
altmış
|
8
|
+
altý
|
9
|
+
altı
|
10
|
+
ama
|
11
|
+
amma
|
12
|
+
anca
|
13
|
+
ancak
|
14
|
+
arada
|
15
|
+
artýk
|
16
|
+
aslında
|
17
|
+
aynen
|
18
|
+
ayrıca
|
19
|
+
az
|
20
|
+
açıkça
|
21
|
+
açıkçası
|
22
|
+
bana
|
23
|
+
bari
|
24
|
+
bazen
|
25
|
+
bazý
|
26
|
+
bazı
|
27
|
+
başkası
|
28
|
+
baţka
|
29
|
+
belki
|
30
|
+
ben
|
31
|
+
benden
|
32
|
+
beni
|
33
|
+
benim
|
34
|
+
beri
|
35
|
+
beriki
|
36
|
+
beþ
|
37
|
+
beş
|
38
|
+
beţ
|
39
|
+
bilcümle
|
40
|
+
bile
|
41
|
+
bin
|
42
|
+
binaen
|
43
|
+
binaenaleyh
|
44
|
+
bir
|
45
|
+
biraz
|
46
|
+
birazdan
|
47
|
+
birbiri
|
48
|
+
birden
|
49
|
+
birdenbire
|
50
|
+
biri
|
51
|
+
birice
|
52
|
+
birileri
|
53
|
+
birisi
|
54
|
+
birkaç
|
55
|
+
birkaçı
|
56
|
+
birkez
|
57
|
+
birlikte
|
58
|
+
birçok
|
59
|
+
birçoğu
|
60
|
+
birþey
|
61
|
+
birþeyi
|
62
|
+
birşey
|
63
|
+
birşeyi
|
64
|
+
birţey
|
65
|
+
bitevi
|
66
|
+
biteviye
|
67
|
+
bittabi
|
68
|
+
biz
|
69
|
+
bizatihi
|
70
|
+
bizce
|
71
|
+
bizcileyin
|
72
|
+
bizden
|
73
|
+
bize
|
74
|
+
bizi
|
75
|
+
bizim
|
76
|
+
bizimki
|
77
|
+
bizzat
|
78
|
+
boşuna
|
79
|
+
bu
|
80
|
+
buna
|
81
|
+
bunda
|
82
|
+
bundan
|
83
|
+
bunlar
|
84
|
+
bunları
|
85
|
+
bunların
|
86
|
+
bunu
|
87
|
+
bunun
|
88
|
+
buracıkta
|
89
|
+
burada
|
90
|
+
buradan
|
91
|
+
burası
|
92
|
+
böyle
|
93
|
+
böylece
|
94
|
+
böylecene
|
95
|
+
böylelikle
|
96
|
+
böylemesine
|
97
|
+
böylesine
|
98
|
+
büsbütün
|
99
|
+
bütün
|
100
|
+
cuk
|
101
|
+
cümlesi
|
102
|
+
da
|
103
|
+
daha
|
104
|
+
dahi
|
105
|
+
dahil
|
106
|
+
dahilen
|
107
|
+
daima
|
108
|
+
dair
|
109
|
+
dayanarak
|
110
|
+
de
|
111
|
+
defa
|
112
|
+
dek
|
113
|
+
demin
|
114
|
+
demincek
|
115
|
+
deminden
|
116
|
+
denli
|
117
|
+
derakap
|
118
|
+
derhal
|
119
|
+
derken
|
120
|
+
deđil
|
121
|
+
değil
|
122
|
+
değin
|
123
|
+
diye
|
124
|
+
diđer
|
125
|
+
diğer
|
126
|
+
diğeri
|
127
|
+
doksan
|
128
|
+
dokuz
|
129
|
+
dolayı
|
130
|
+
dolayısıyla
|
131
|
+
doğru
|
132
|
+
dört
|
133
|
+
edecek
|
134
|
+
eden
|
135
|
+
ederek
|
136
|
+
edilecek
|
137
|
+
ediliyor
|
138
|
+
edilmesi
|
139
|
+
ediyor
|
140
|
+
elbet
|
141
|
+
elbette
|
142
|
+
elli
|
143
|
+
emme
|
144
|
+
en
|
145
|
+
enikonu
|
146
|
+
epey
|
147
|
+
epeyce
|
148
|
+
epeyi
|
149
|
+
esasen
|
150
|
+
esnasında
|
151
|
+
etmesi
|
152
|
+
etraflı
|
153
|
+
etraflıca
|
154
|
+
etti
|
155
|
+
ettiği
|
156
|
+
ettiğini
|
157
|
+
evleviyetle
|
158
|
+
evvel
|
159
|
+
evvela
|
160
|
+
evvelce
|
161
|
+
evvelden
|
162
|
+
evvelemirde
|
163
|
+
evveli
|
164
|
+
eđer
|
165
|
+
eğer
|
166
|
+
fakat
|
167
|
+
filanca
|
168
|
+
gah
|
169
|
+
gayet
|
170
|
+
gayetle
|
171
|
+
gayri
|
172
|
+
gayrı
|
173
|
+
gelgelelim
|
174
|
+
gene
|
175
|
+
gerek
|
176
|
+
gerçi
|
177
|
+
geçende
|
178
|
+
geçenlerde
|
179
|
+
gibi
|
180
|
+
gibilerden
|
181
|
+
gibisinden
|
182
|
+
gine
|
183
|
+
göre
|
184
|
+
gırla
|
185
|
+
hakeza
|
186
|
+
halbuki
|
187
|
+
halen
|
188
|
+
halihazırda
|
189
|
+
haliyle
|
190
|
+
handiyse
|
191
|
+
hangi
|
192
|
+
hangisi
|
193
|
+
hani
|
194
|
+
hariç
|
195
|
+
hasebiyle
|
196
|
+
hasılı
|
197
|
+
hatta
|
198
|
+
hele
|
199
|
+
hem
|
200
|
+
henüz
|
201
|
+
hep
|
202
|
+
hepsi
|
203
|
+
her
|
204
|
+
herhangi
|
205
|
+
herkes
|
206
|
+
herkesin
|
207
|
+
hiç
|
208
|
+
hiçbir
|
209
|
+
hiçbiri
|
210
|
+
hoş
|
211
|
+
hulasaten
|
212
|
+
iken
|
213
|
+
iki
|
214
|
+
ila
|
215
|
+
ile
|
216
|
+
ilen
|
217
|
+
ilgili
|
218
|
+
ilk
|
219
|
+
illa
|
220
|
+
illaki
|
221
|
+
imdi
|
222
|
+
indinde
|
223
|
+
inen
|
224
|
+
insermi
|
225
|
+
ise
|
226
|
+
ister
|
227
|
+
itibaren
|
228
|
+
itibariyle
|
229
|
+
itibarıyla
|
230
|
+
iyi
|
231
|
+
iyice
|
232
|
+
iyicene
|
233
|
+
için
|
234
|
+
iş
|
235
|
+
işte
|
236
|
+
iţte
|
237
|
+
kadar
|
238
|
+
kaffesi
|
239
|
+
kah
|
240
|
+
kala
|
241
|
+
kanýmca
|
242
|
+
karşın
|
243
|
+
katrilyon
|
244
|
+
kaynak
|
245
|
+
kaçı
|
246
|
+
kelli
|
247
|
+
kendi
|
248
|
+
kendilerine
|
249
|
+
kendini
|
250
|
+
kendisi
|
251
|
+
kendisine
|
252
|
+
kendisini
|
253
|
+
kere
|
254
|
+
kez
|
255
|
+
keza
|
256
|
+
kezalik
|
257
|
+
keşke
|
258
|
+
keţke
|
259
|
+
ki
|
260
|
+
kim
|
261
|
+
kimden
|
262
|
+
kime
|
263
|
+
kimi
|
264
|
+
kimisi
|
265
|
+
kimse
|
266
|
+
kimsecik
|
267
|
+
kimsecikler
|
268
|
+
külliyen
|
269
|
+
kýrk
|
270
|
+
kýsaca
|
271
|
+
kırk
|
272
|
+
kısaca
|
273
|
+
lakin
|
274
|
+
leh
|
275
|
+
lütfen
|
276
|
+
maada
|
277
|
+
madem
|
278
|
+
mademki
|
279
|
+
mamafih
|
280
|
+
mebni
|
281
|
+
međer
|
282
|
+
meğer
|
283
|
+
meğerki
|
284
|
+
meğerse
|
285
|
+
milyar
|
286
|
+
milyon
|
287
|
+
mu
|
288
|
+
mü
|
289
|
+
mý
|
290
|
+
mı
|
291
|
+
nasýl
|
292
|
+
nasıl
|
293
|
+
nasılsa
|
294
|
+
nazaran
|
295
|
+
naşi
|
296
|
+
ne
|
297
|
+
neden
|
298
|
+
nedeniyle
|
299
|
+
nedenle
|
300
|
+
nedense
|
301
|
+
nerde
|
302
|
+
nerden
|
303
|
+
nerdeyse
|
304
|
+
nere
|
305
|
+
nerede
|
306
|
+
nereden
|
307
|
+
neredeyse
|
308
|
+
neresi
|
309
|
+
nereye
|
310
|
+
netekim
|
311
|
+
neye
|
312
|
+
neyi
|
313
|
+
neyse
|
314
|
+
nice
|
315
|
+
nihayet
|
316
|
+
nihayetinde
|
317
|
+
nitekim
|
318
|
+
niye
|
319
|
+
niçin
|
320
|
+
o
|
321
|
+
olan
|
322
|
+
olarak
|
323
|
+
oldu
|
324
|
+
olduklarını
|
325
|
+
oldukça
|
326
|
+
olduğu
|
327
|
+
olduğunu
|
328
|
+
olmadı
|
329
|
+
olmadığı
|
330
|
+
olmak
|
331
|
+
olması
|
332
|
+
olmayan
|
333
|
+
olmaz
|
334
|
+
olsa
|
335
|
+
olsun
|
336
|
+
olup
|
337
|
+
olur
|
338
|
+
olursa
|
339
|
+
oluyor
|
340
|
+
on
|
341
|
+
ona
|
342
|
+
onca
|
343
|
+
onculayın
|
344
|
+
onda
|
345
|
+
ondan
|
346
|
+
onlar
|
347
|
+
onlardan
|
348
|
+
onlari
|
349
|
+
onlarýn
|
350
|
+
onları
|
351
|
+
onların
|
352
|
+
onu
|
353
|
+
onun
|
354
|
+
oracık
|
355
|
+
oracıkta
|
356
|
+
orada
|
357
|
+
oradan
|
358
|
+
oranca
|
359
|
+
oranla
|
360
|
+
oraya
|
361
|
+
otuz
|
362
|
+
oysa
|
363
|
+
oysaki
|
364
|
+
pek
|
365
|
+
pekala
|
366
|
+
peki
|
367
|
+
pekçe
|
368
|
+
peyderpey
|
369
|
+
rağmen
|
370
|
+
sadece
|
371
|
+
sahi
|
372
|
+
sahiden
|
373
|
+
sana
|
374
|
+
sanki
|
375
|
+
sekiz
|
376
|
+
seksen
|
377
|
+
sen
|
378
|
+
senden
|
379
|
+
seni
|
380
|
+
senin
|
381
|
+
siz
|
382
|
+
sizden
|
383
|
+
sizi
|
384
|
+
sizin
|
385
|
+
sonra
|
386
|
+
sonradan
|
387
|
+
sonraları
|
388
|
+
sonunda
|
389
|
+
tabii
|
390
|
+
tam
|
391
|
+
tamam
|
392
|
+
tamamen
|
393
|
+
tamamıyla
|
394
|
+
tarafından
|
395
|
+
tek
|
396
|
+
trilyon
|
397
|
+
tüm
|
398
|
+
var
|
399
|
+
vardı
|
400
|
+
vasıtasıyla
|
401
|
+
ve
|
402
|
+
velev
|
403
|
+
velhasıl
|
404
|
+
velhasılıkelam
|
405
|
+
veya
|
406
|
+
veyahut
|
407
|
+
ya
|
408
|
+
yahut
|
409
|
+
yakinen
|
410
|
+
yakında
|
411
|
+
yakından
|
412
|
+
yakınlarda
|
413
|
+
yalnız
|
414
|
+
yalnızca
|
415
|
+
yani
|
416
|
+
yapacak
|
417
|
+
yapmak
|
418
|
+
yaptı
|
419
|
+
yaptıkları
|
420
|
+
yaptığı
|
421
|
+
yaptığını
|
422
|
+
yapılan
|
423
|
+
yapılması
|
424
|
+
yapıyor
|
425
|
+
yedi
|
426
|
+
yeniden
|
427
|
+
yenilerde
|
428
|
+
yerine
|
429
|
+
yetmiþ
|
430
|
+
yetmiş
|
431
|
+
yetmiţ
|
432
|
+
yine
|
433
|
+
yirmi
|
434
|
+
yok
|
435
|
+
yoksa
|
436
|
+
yoluyla
|
437
|
+
yüz
|
438
|
+
yüzünden
|
439
|
+
zarfında
|
440
|
+
zaten
|
441
|
+
zati
|
442
|
+
zira
|
443
|
+
çabuk
|
444
|
+
çabukça
|
445
|
+
çeşitli
|
446
|
+
çok
|
447
|
+
çokları
|
448
|
+
çoklarınca
|
449
|
+
çokluk
|
450
|
+
çoklukla
|
451
|
+
çokça
|
452
|
+
çoğu
|
453
|
+
çoğun
|
454
|
+
çoğunca
|
455
|
+
çoğunlukla
|
456
|
+
çünkü
|
457
|
+
öbür
|
458
|
+
öbürkü
|
459
|
+
öbürü
|
460
|
+
önce
|
461
|
+
önceden
|
462
|
+
önceleri
|
463
|
+
öncelikle
|
464
|
+
öteki
|
465
|
+
ötekisi
|
466
|
+
öyle
|
467
|
+
öylece
|
468
|
+
öylelikle
|
469
|
+
öylemesine
|
470
|
+
öz
|
471
|
+
üzere
|
472
|
+
üç
|
473
|
+
þey
|
474
|
+
þeyden
|
475
|
+
þeyi
|
476
|
+
þeyler
|
477
|
+
þu
|
478
|
+
þuna
|
479
|
+
þunda
|
480
|
+
þundan
|
481
|
+
þunu
|
482
|
+
şayet
|
483
|
+
şey
|
484
|
+
şeyden
|
485
|
+
şeyi
|
486
|
+
şeyler
|
487
|
+
şu
|
488
|
+
şuna
|
489
|
+
şuncacık
|
490
|
+
şunda
|
491
|
+
şundan
|
492
|
+
şunlar
|
493
|
+
şunları
|
494
|
+
şunu
|
495
|
+
şunun
|
496
|
+
şura
|
497
|
+
şuracık
|
498
|
+
şuracıkta
|
499
|
+
şurası
|
500
|
+
şöyle
|
501
|
+
ţayet
|
502
|
+
ţimdi
|
503
|
+
ţu
|
504
|
+
ţöyle
|
@@ -0,0 +1,73 @@
|
|
1
|
+
авжеж
|
2
|
+
адже
|
3
|
+
але
|
4
|
+
б
|
5
|
+
без
|
6
|
+
був
|
7
|
+
була
|
8
|
+
були
|
9
|
+
було
|
10
|
+
бути
|
11
|
+
більш
|
12
|
+
вам
|
13
|
+
вас
|
14
|
+
весь
|
15
|
+
вздовж
|
16
|
+
ви
|
17
|
+
вниз
|
18
|
+
внизу
|
19
|
+
вона
|
20
|
+
вони
|
21
|
+
воно
|
22
|
+
все
|
23
|
+
всередині
|
24
|
+
всіх
|
25
|
+
від
|
26
|
+
він
|
27
|
+
да
|
28
|
+
давай
|
29
|
+
давати
|
30
|
+
де
|
31
|
+
дещо
|
32
|
+
для
|
33
|
+
до
|
34
|
+
з
|
35
|
+
завжди
|
36
|
+
замість
|
37
|
+
й
|
38
|
+
коли
|
39
|
+
ледве
|
40
|
+
майже
|
41
|
+
ми
|
42
|
+
навколо
|
43
|
+
навіть
|
44
|
+
нам
|
45
|
+
от
|
46
|
+
отже
|
47
|
+
отож
|
48
|
+
поза
|
49
|
+
про
|
50
|
+
під
|
51
|
+
та
|
52
|
+
так
|
53
|
+
такий
|
54
|
+
також
|
55
|
+
те
|
56
|
+
ти
|
57
|
+
тобто
|
58
|
+
тож
|
59
|
+
тощо
|
60
|
+
хоча
|
61
|
+
це
|
62
|
+
цей
|
63
|
+
чи
|
64
|
+
чого
|
65
|
+
що
|
66
|
+
як
|
67
|
+
який
|
68
|
+
якої
|
69
|
+
є
|
70
|
+
із
|
71
|
+
інших
|
72
|
+
їх
|
73
|
+
її
|
@@ -1,7 +1,14 @@
|
|
1
|
-
|
1
|
+
require 'json'
|
2
|
+
require 'open-uri'
|
2
3
|
|
3
|
-
langs
|
4
|
+
langs = %w(danish dutch english finnish french german hungarian italian norwegian portuguese spanish swedish)
|
4
5
|
|
5
|
-
|
6
|
+
stopwords = JSON.parse(URI.open("https://raw.githubusercontent.com/stopwords-iso/stopwords-iso/refs/heads/master/stopwords-iso.json").read)
|
6
7
|
|
7
8
|
|
9
|
+
stopwords.each do |k, v|
|
10
|
+
file = File.join(File.dirname(__FILE__), "#{k}.txt")
|
11
|
+
File.open(file, "w") do |f|
|
12
|
+
f.write v.join("\n")
|
13
|
+
end
|
14
|
+
end
|