xapian-fu 1.7.0 → 1.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (92) hide show
  1. checksums.yaml +4 -4
  2. data/README.rdoc +2 -1
  3. data/lib/xapian_fu/stopper_factory.rb +1 -4
  4. data/lib/xapian_fu/stopwords/af.txt +51 -0
  5. data/lib/xapian_fu/stopwords/ar.txt +480 -0
  6. data/lib/xapian_fu/stopwords/bg.txt +259 -0
  7. data/lib/xapian_fu/stopwords/bn.txt +398 -0
  8. data/lib/xapian_fu/stopwords/br.txt +1203 -0
  9. data/lib/xapian_fu/stopwords/ca.txt +278 -0
  10. data/lib/xapian_fu/stopwords/cs.txt +423 -0
  11. data/lib/xapian_fu/stopwords/da.txt +170 -0
  12. data/lib/xapian_fu/stopwords/danish.txt +1 -0
  13. data/lib/xapian_fu/stopwords/de.txt +620 -0
  14. data/lib/xapian_fu/stopwords/dutch.txt +1 -0
  15. data/lib/xapian_fu/stopwords/el.txt +847 -0
  16. data/lib/xapian_fu/stopwords/en.txt +1298 -0
  17. data/lib/xapian_fu/stopwords/english.txt +1 -0
  18. data/lib/xapian_fu/stopwords/eo.txt +173 -0
  19. data/lib/xapian_fu/stopwords/es.txt +732 -0
  20. data/lib/xapian_fu/stopwords/et.txt +35 -0
  21. data/lib/xapian_fu/stopwords/eu.txt +98 -0
  22. data/lib/xapian_fu/stopwords/fa.txt +799 -0
  23. data/lib/xapian_fu/stopwords/fi.txt +847 -0
  24. data/lib/xapian_fu/stopwords/finnish.txt +1 -0
  25. data/lib/xapian_fu/stopwords/fr.txt +691 -0
  26. data/lib/xapian_fu/stopwords/french.txt +1 -0
  27. data/lib/xapian_fu/stopwords/ga.txt +109 -0
  28. data/lib/xapian_fu/stopwords/german.txt +1 -0
  29. data/lib/xapian_fu/stopwords/gl.txt +160 -0
  30. data/lib/xapian_fu/stopwords/gu.txt +224 -0
  31. data/lib/xapian_fu/stopwords/ha.txt +39 -0
  32. data/lib/xapian_fu/stopwords/he.txt +194 -0
  33. data/lib/xapian_fu/stopwords/hi.txt +225 -0
  34. data/lib/xapian_fu/stopwords/hr.txt +179 -0
  35. data/lib/xapian_fu/stopwords/hu.txt +789 -0
  36. data/lib/xapian_fu/stopwords/hungarian.txt +1 -0
  37. data/lib/xapian_fu/stopwords/hy.txt +45 -0
  38. data/lib/xapian_fu/stopwords/id.txt +758 -0
  39. data/lib/xapian_fu/stopwords/it.txt +632 -0
  40. data/lib/xapian_fu/stopwords/italian.txt +1 -0
  41. data/lib/xapian_fu/stopwords/ja.txt +134 -0
  42. data/lib/xapian_fu/stopwords/ko.txt +679 -0
  43. data/lib/xapian_fu/stopwords/ku.txt +62 -0
  44. data/lib/xapian_fu/stopwords/la.txt +49 -0
  45. data/lib/xapian_fu/stopwords/lt.txt +474 -0
  46. data/lib/xapian_fu/stopwords/lv.txt +161 -0
  47. data/lib/xapian_fu/stopwords/mr.txt +99 -0
  48. data/lib/xapian_fu/stopwords/ms.txt +475 -0
  49. data/lib/xapian_fu/stopwords/nl.txt +413 -0
  50. data/lib/xapian_fu/stopwords/no.txt +221 -0
  51. data/lib/xapian_fu/stopwords/norwegian.txt +1 -0
  52. data/lib/xapian_fu/stopwords/pl.txt +329 -0
  53. data/lib/xapian_fu/stopwords/portuguese.txt +1 -0
  54. data/lib/xapian_fu/stopwords/pt.txt +560 -0
  55. data/lib/xapian_fu/stopwords/ro.txt +434 -0
  56. data/lib/xapian_fu/stopwords/ru.txt +559 -0
  57. data/lib/xapian_fu/stopwords/russian.txt +1 -0
  58. data/lib/xapian_fu/stopwords/sk.txt +418 -0
  59. data/lib/xapian_fu/stopwords/sl.txt +446 -0
  60. data/lib/xapian_fu/stopwords/so.txt +30 -0
  61. data/lib/xapian_fu/stopwords/spanish.txt +1 -0
  62. data/lib/xapian_fu/stopwords/st.txt +31 -0
  63. data/lib/xapian_fu/stopwords/sv.txt +418 -0
  64. data/lib/xapian_fu/stopwords/sw.txt +74 -0
  65. data/lib/xapian_fu/stopwords/swedish.txt +1 -0
  66. data/lib/xapian_fu/stopwords/th.txt +116 -0
  67. data/lib/xapian_fu/stopwords/tl.txt +147 -0
  68. data/lib/xapian_fu/stopwords/tr.txt +504 -0
  69. data/lib/xapian_fu/stopwords/uk.txt +73 -0
  70. data/lib/xapian_fu/stopwords/update.rb +10 -3
  71. data/lib/xapian_fu/stopwords/ur.txt +517 -0
  72. data/lib/xapian_fu/stopwords/vi.txt +645 -0
  73. data/lib/xapian_fu/stopwords/yo.txt +60 -0
  74. data/lib/xapian_fu/stopwords/zh.txt +794 -0
  75. data/lib/xapian_fu/stopwords/zu.txt +29 -0
  76. data/lib/xapian_fu/version.rb +1 -1
  77. data/lib/xapian_fu/xapian_db.rb +3 -0
  78. data/spec/xapian_doc_spec.rb +1 -1
  79. metadata +109 -51
  80. data/lib/xapian_fu/stopwords/danish.txt +0 -102
  81. data/lib/xapian_fu/stopwords/dutch.txt +0 -113
  82. data/lib/xapian_fu/stopwords/english.txt +0 -312
  83. data/lib/xapian_fu/stopwords/finnish.txt +0 -89
  84. data/lib/xapian_fu/stopwords/french.txt +0 -168
  85. data/lib/xapian_fu/stopwords/german.txt +0 -286
  86. data/lib/xapian_fu/stopwords/hungarian.txt +0 -203
  87. data/lib/xapian_fu/stopwords/italian.txt +0 -295
  88. data/lib/xapian_fu/stopwords/norwegian.txt +0 -186
  89. data/lib/xapian_fu/stopwords/portuguese.txt +0 -245
  90. data/lib/xapian_fu/stopwords/russian.txt +0 -236
  91. data/lib/xapian_fu/stopwords/spanish.txt +0 -348
  92. data/lib/xapian_fu/stopwords/swedish.txt +0 -125
@@ -0,0 +1,504 @@
1
+ acaba
2
+ acep
3
+ adamakıllı
4
+ adeta
5
+ ait
6
+ altmýþ
7
+ altmış
8
+ altý
9
+ altı
10
+ ama
11
+ amma
12
+ anca
13
+ ancak
14
+ arada
15
+ artýk
16
+ aslında
17
+ aynen
18
+ ayrıca
19
+ az
20
+ açıkça
21
+ açıkçası
22
+ bana
23
+ bari
24
+ bazen
25
+ bazý
26
+ bazı
27
+ başkası
28
+ baţka
29
+ belki
30
+ ben
31
+ benden
32
+ beni
33
+ benim
34
+ beri
35
+ beriki
36
+ beþ
37
+ beş
38
+ beţ
39
+ bilcümle
40
+ bile
41
+ bin
42
+ binaen
43
+ binaenaleyh
44
+ bir
45
+ biraz
46
+ birazdan
47
+ birbiri
48
+ birden
49
+ birdenbire
50
+ biri
51
+ birice
52
+ birileri
53
+ birisi
54
+ birkaç
55
+ birkaçı
56
+ birkez
57
+ birlikte
58
+ birçok
59
+ birçoğu
60
+ birþey
61
+ birþeyi
62
+ birşey
63
+ birşeyi
64
+ birţey
65
+ bitevi
66
+ biteviye
67
+ bittabi
68
+ biz
69
+ bizatihi
70
+ bizce
71
+ bizcileyin
72
+ bizden
73
+ bize
74
+ bizi
75
+ bizim
76
+ bizimki
77
+ bizzat
78
+ boşuna
79
+ bu
80
+ buna
81
+ bunda
82
+ bundan
83
+ bunlar
84
+ bunları
85
+ bunların
86
+ bunu
87
+ bunun
88
+ buracıkta
89
+ burada
90
+ buradan
91
+ burası
92
+ böyle
93
+ böylece
94
+ böylecene
95
+ böylelikle
96
+ böylemesine
97
+ böylesine
98
+ büsbütün
99
+ bütün
100
+ cuk
101
+ cümlesi
102
+ da
103
+ daha
104
+ dahi
105
+ dahil
106
+ dahilen
107
+ daima
108
+ dair
109
+ dayanarak
110
+ de
111
+ defa
112
+ dek
113
+ demin
114
+ demincek
115
+ deminden
116
+ denli
117
+ derakap
118
+ derhal
119
+ derken
120
+ deđil
121
+ değil
122
+ değin
123
+ diye
124
+ diđer
125
+ diğer
126
+ diğeri
127
+ doksan
128
+ dokuz
129
+ dolayı
130
+ dolayısıyla
131
+ doğru
132
+ dört
133
+ edecek
134
+ eden
135
+ ederek
136
+ edilecek
137
+ ediliyor
138
+ edilmesi
139
+ ediyor
140
+ elbet
141
+ elbette
142
+ elli
143
+ emme
144
+ en
145
+ enikonu
146
+ epey
147
+ epeyce
148
+ epeyi
149
+ esasen
150
+ esnasında
151
+ etmesi
152
+ etraflı
153
+ etraflıca
154
+ etti
155
+ ettiği
156
+ ettiğini
157
+ evleviyetle
158
+ evvel
159
+ evvela
160
+ evvelce
161
+ evvelden
162
+ evvelemirde
163
+ evveli
164
+ eđer
165
+ eğer
166
+ fakat
167
+ filanca
168
+ gah
169
+ gayet
170
+ gayetle
171
+ gayri
172
+ gayrı
173
+ gelgelelim
174
+ gene
175
+ gerek
176
+ gerçi
177
+ geçende
178
+ geçenlerde
179
+ gibi
180
+ gibilerden
181
+ gibisinden
182
+ gine
183
+ göre
184
+ gırla
185
+ hakeza
186
+ halbuki
187
+ halen
188
+ halihazırda
189
+ haliyle
190
+ handiyse
191
+ hangi
192
+ hangisi
193
+ hani
194
+ hariç
195
+ hasebiyle
196
+ hasılı
197
+ hatta
198
+ hele
199
+ hem
200
+ henüz
201
+ hep
202
+ hepsi
203
+ her
204
+ herhangi
205
+ herkes
206
+ herkesin
207
+ hiç
208
+ hiçbir
209
+ hiçbiri
210
+ hoş
211
+ hulasaten
212
+ iken
213
+ iki
214
+ ila
215
+ ile
216
+ ilen
217
+ ilgili
218
+ ilk
219
+ illa
220
+ illaki
221
+ imdi
222
+ indinde
223
+ inen
224
+ insermi
225
+ ise
226
+ ister
227
+ itibaren
228
+ itibariyle
229
+ itibarıyla
230
+ iyi
231
+ iyice
232
+ iyicene
233
+ için
234
+
235
+ işte
236
+ iţte
237
+ kadar
238
+ kaffesi
239
+ kah
240
+ kala
241
+ kanýmca
242
+ karşın
243
+ katrilyon
244
+ kaynak
245
+ kaçı
246
+ kelli
247
+ kendi
248
+ kendilerine
249
+ kendini
250
+ kendisi
251
+ kendisine
252
+ kendisini
253
+ kere
254
+ kez
255
+ keza
256
+ kezalik
257
+ keşke
258
+ keţke
259
+ ki
260
+ kim
261
+ kimden
262
+ kime
263
+ kimi
264
+ kimisi
265
+ kimse
266
+ kimsecik
267
+ kimsecikler
268
+ külliyen
269
+ kýrk
270
+ kýsaca
271
+ kırk
272
+ kısaca
273
+ lakin
274
+ leh
275
+ lütfen
276
+ maada
277
+ madem
278
+ mademki
279
+ mamafih
280
+ mebni
281
+ međer
282
+ meğer
283
+ meğerki
284
+ meğerse
285
+ milyar
286
+ milyon
287
+ mu
288
+
289
+
290
+
291
+ nasýl
292
+ nasıl
293
+ nasılsa
294
+ nazaran
295
+ naşi
296
+ ne
297
+ neden
298
+ nedeniyle
299
+ nedenle
300
+ nedense
301
+ nerde
302
+ nerden
303
+ nerdeyse
304
+ nere
305
+ nerede
306
+ nereden
307
+ neredeyse
308
+ neresi
309
+ nereye
310
+ netekim
311
+ neye
312
+ neyi
313
+ neyse
314
+ nice
315
+ nihayet
316
+ nihayetinde
317
+ nitekim
318
+ niye
319
+ niçin
320
+ o
321
+ olan
322
+ olarak
323
+ oldu
324
+ olduklarını
325
+ oldukça
326
+ olduğu
327
+ olduğunu
328
+ olmadı
329
+ olmadığı
330
+ olmak
331
+ olması
332
+ olmayan
333
+ olmaz
334
+ olsa
335
+ olsun
336
+ olup
337
+ olur
338
+ olursa
339
+ oluyor
340
+ on
341
+ ona
342
+ onca
343
+ onculayın
344
+ onda
345
+ ondan
346
+ onlar
347
+ onlardan
348
+ onlari
349
+ onlarýn
350
+ onları
351
+ onların
352
+ onu
353
+ onun
354
+ oracık
355
+ oracıkta
356
+ orada
357
+ oradan
358
+ oranca
359
+ oranla
360
+ oraya
361
+ otuz
362
+ oysa
363
+ oysaki
364
+ pek
365
+ pekala
366
+ peki
367
+ pekçe
368
+ peyderpey
369
+ rağmen
370
+ sadece
371
+ sahi
372
+ sahiden
373
+ sana
374
+ sanki
375
+ sekiz
376
+ seksen
377
+ sen
378
+ senden
379
+ seni
380
+ senin
381
+ siz
382
+ sizden
383
+ sizi
384
+ sizin
385
+ sonra
386
+ sonradan
387
+ sonraları
388
+ sonunda
389
+ tabii
390
+ tam
391
+ tamam
392
+ tamamen
393
+ tamamıyla
394
+ tarafından
395
+ tek
396
+ trilyon
397
+ tüm
398
+ var
399
+ vardı
400
+ vasıtasıyla
401
+ ve
402
+ velev
403
+ velhasıl
404
+ velhasılıkelam
405
+ veya
406
+ veyahut
407
+ ya
408
+ yahut
409
+ yakinen
410
+ yakında
411
+ yakından
412
+ yakınlarda
413
+ yalnız
414
+ yalnızca
415
+ yani
416
+ yapacak
417
+ yapmak
418
+ yaptı
419
+ yaptıkları
420
+ yaptığı
421
+ yaptığını
422
+ yapılan
423
+ yapılması
424
+ yapıyor
425
+ yedi
426
+ yeniden
427
+ yenilerde
428
+ yerine
429
+ yetmiþ
430
+ yetmiş
431
+ yetmiţ
432
+ yine
433
+ yirmi
434
+ yok
435
+ yoksa
436
+ yoluyla
437
+ yüz
438
+ yüzünden
439
+ zarfında
440
+ zaten
441
+ zati
442
+ zira
443
+ çabuk
444
+ çabukça
445
+ çeşitli
446
+ çok
447
+ çokları
448
+ çoklarınca
449
+ çokluk
450
+ çoklukla
451
+ çokça
452
+ çoğu
453
+ çoğun
454
+ çoğunca
455
+ çoğunlukla
456
+ çünkü
457
+ öbür
458
+ öbürkü
459
+ öbürü
460
+ önce
461
+ önceden
462
+ önceleri
463
+ öncelikle
464
+ öteki
465
+ ötekisi
466
+ öyle
467
+ öylece
468
+ öylelikle
469
+ öylemesine
470
+ öz
471
+ üzere
472
+ üç
473
+ þey
474
+ þeyden
475
+ þeyi
476
+ þeyler
477
+ þu
478
+ þuna
479
+ þunda
480
+ þundan
481
+ þunu
482
+ şayet
483
+ şey
484
+ şeyden
485
+ şeyi
486
+ şeyler
487
+ şu
488
+ şuna
489
+ şuncacık
490
+ şunda
491
+ şundan
492
+ şunlar
493
+ şunları
494
+ şunu
495
+ şunun
496
+ şura
497
+ şuracık
498
+ şuracıkta
499
+ şurası
500
+ şöyle
501
+ ţayet
502
+ ţimdi
503
+ ţu
504
+ ţöyle
@@ -0,0 +1,73 @@
1
+ авжеж
2
+ адже
3
+ але
4
+ б
5
+ без
6
+ був
7
+ була
8
+ були
9
+ було
10
+ бути
11
+ більш
12
+ вам
13
+ вас
14
+ весь
15
+ вздовж
16
+ ви
17
+ вниз
18
+ внизу
19
+ вона
20
+ вони
21
+ воно
22
+ все
23
+ всередині
24
+ всіх
25
+ від
26
+ він
27
+ да
28
+ давай
29
+ давати
30
+ де
31
+ дещо
32
+ для
33
+ до
34
+ з
35
+ завжди
36
+ замість
37
+ й
38
+ коли
39
+ ледве
40
+ майже
41
+ ми
42
+ навколо
43
+ навіть
44
+ нам
45
+ от
46
+ отже
47
+ отож
48
+ поза
49
+ про
50
+ під
51
+ та
52
+ так
53
+ такий
54
+ також
55
+ те
56
+ ти
57
+ тобто
58
+ тож
59
+ тощо
60
+ хоча
61
+ це
62
+ цей
63
+ чи
64
+ чого
65
+ що
66
+ як
67
+ який
68
+ якої
69
+ є
70
+ із
71
+ інших
72
+ їх
73
+ її
@@ -1,7 +1,14 @@
1
- langs = %w(danish dutch english finnish french german hungarian italian norwegian portuguese spanish swedish)
1
+ require 'json'
2
+ require 'open-uri'
2
3
 
3
- langs.each { |l| system("curl http://snowball.tartarus.org/algorithms/%s/stop.txt | iconv -f ISO-8859-1 -t utf8 > %s.txt" % [l, l]) }
4
+ langs = %w(danish dutch english finnish french german hungarian italian norwegian portuguese spanish swedish)
4
5
 
5
- system("curl http://snowball.tartarus.org/algorithms/russian/stop.txt | iconv -f KOI8-R -t utf8 > russian.txt")
6
+ stopwords = JSON.parse(URI.open("https://raw.githubusercontent.com/stopwords-iso/stopwords-iso/refs/heads/master/stopwords-iso.json").read)
6
7
 
7
8
 
9
+ stopwords.each do |k, v|
10
+ file = File.join(File.dirname(__FILE__), "#{k}.txt")
11
+ File.open(file, "w") do |f|
12
+ f.write v.join("\n")
13
+ end
14
+ end