xapian-fu 0.2 → 1.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -0,0 +1,295 @@
1
+
2
+ | A French stop word list. Comments begin with vertical bar. Each stop
3
+ | word is at the start of a line.
4
+
5
+ ad | a (to) before vowel
6
+ al | a + il
7
+ allo | a + lo
8
+ ai | a + i
9
+ agli | a + gli
10
+ all | a + l'
11
+ agl | a + gl'
12
+ alla | a + la
13
+ alle | a + le
14
+ con | with
15
+ col | con + il
16
+ coi | con + i (forms collo, cogli etc are now very rare)
17
+ da | from
18
+ dal | da + il
19
+ dallo | da + lo
20
+ dai | da + i
21
+ dagli | da + gli
22
+ dall | da + l'
23
+ dagl | da + gll'
24
+ dalla | da + la
25
+ dalle | da + le
26
+ di | of
27
+ del | di + il
28
+ dello | di + lo
29
+ dei | di + i
30
+ degli | di + gli
31
+ dell | di + l'
32
+ degl | di + gl'
33
+ della | di + la
34
+ delle | di + le
35
+ in | in
36
+ nel | in + el
37
+ nello | in + lo
38
+ nei | in + i
39
+ negli | in + gli
40
+ nell | in + l'
41
+ negl | in + gl'
42
+ nella | in + la
43
+ nelle | in + le
44
+ su | on
45
+ sul | su + il
46
+ sullo | su + lo
47
+ sui | su + i
48
+ sugli | su + gli
49
+ sull | su + l'
50
+ sugl | su + gl'
51
+ sulla | su + la
52
+ sulle | su + le
53
+ per | through, by
54
+ tra | among
55
+ contro | against
56
+ io | I
57
+ tu | thou
58
+ lui | he
59
+ lei | she
60
+ noi | we
61
+ voi | you
62
+ loro | they
63
+ mio | my
64
+ mia |
65
+ miei |
66
+ mie |
67
+ tuo |
68
+ tua |
69
+ tuoi | thy
70
+ tue |
71
+ suo |
72
+ sua |
73
+ suoi | his, her
74
+ sue |
75
+ nostro | our
76
+ nostra |
77
+ nostri |
78
+ nostre |
79
+ vostro | your
80
+ vostra |
81
+ vostri |
82
+ vostre |
83
+ mi | me
84
+ ti | thee
85
+ ci | us, there
86
+ vi | you, there
87
+ lo | him, the
88
+ la | her, the
89
+ li | them
90
+ le | them, the
91
+ gli | to him, the
92
+ ne | from there etc
93
+ il | the
94
+ un | a
95
+ uno | a
96
+ una | a
97
+ ma | but
98
+ ed | and
99
+ se | if
100
+ perché | why, because
101
+ anche | also
102
+ come | how
103
+ dov | where (as dov')
104
+ dove | where
105
+ che | who, that
106
+ chi | who
107
+ cui | whom
108
+ non | not
109
+ più | more
110
+ quale | who, that
111
+ quanto | how much
112
+ quanti |
113
+ quanta |
114
+ quante |
115
+ quello | that
116
+ quelli |
117
+ quella |
118
+ quelle |
119
+ questo | this
120
+ questi |
121
+ questa |
122
+ queste |
123
+ si | yes
124
+ tutto | all
125
+ tutti | all
126
+
127
+ | single letter forms:
128
+
129
+ a | at
130
+ c | as c' for ce or ci
131
+ e | and
132
+ i | the
133
+ l | as l'
134
+ o | or
135
+
136
+ | forms of avere, to have (not including the infinitive):
137
+
138
+ ho
139
+ hai
140
+ ha
141
+ abbiamo
142
+ avete
143
+ hanno
144
+ abbia
145
+ abbiate
146
+ abbiano
147
+ avrò
148
+ avrai
149
+ avrà
150
+ avremo
151
+ avrete
152
+ avranno
153
+ avrei
154
+ avresti
155
+ avrebbe
156
+ avremmo
157
+ avreste
158
+ avrebbero
159
+ avevo
160
+ avevi
161
+ aveva
162
+ avevamo
163
+ avevate
164
+ avevano
165
+ ebbi
166
+ avesti
167
+ ebbe
168
+ avemmo
169
+ aveste
170
+ ebbero
171
+ avessi
172
+ avesse
173
+ avessimo
174
+ avessero
175
+ avendo
176
+ avuto
177
+ avuta
178
+ avuti
179
+ avute
180
+
181
+ | forms of essere, to be (not including the infinitive):
182
+ sono
183
+ sei
184
+ è
185
+ siamo
186
+ siete
187
+ sia
188
+ siate
189
+ siano
190
+ sarò
191
+ sarai
192
+ sarà
193
+ saremo
194
+ sarete
195
+ saranno
196
+ sarei
197
+ saresti
198
+ sarebbe
199
+ saremmo
200
+ sareste
201
+ sarebbero
202
+ ero
203
+ eri
204
+ era
205
+ eravamo
206
+ eravate
207
+ erano
208
+ fui
209
+ fosti
210
+ fu
211
+ fummo
212
+ foste
213
+ furono
214
+ fossi
215
+ fosse
216
+ fossimo
217
+ fossero
218
+ essendo
219
+
220
+ | forms of fare, to do (not including the infinitive, fa, fat-):
221
+ faccio
222
+ fai
223
+ facciamo
224
+ fanno
225
+ faccia
226
+ facciate
227
+ facciano
228
+ farò
229
+ farai
230
+ farà
231
+ faremo
232
+ farete
233
+ faranno
234
+ farei
235
+ faresti
236
+ farebbe
237
+ faremmo
238
+ fareste
239
+ farebbero
240
+ facevo
241
+ facevi
242
+ faceva
243
+ facevamo
244
+ facevate
245
+ facevano
246
+ feci
247
+ facesti
248
+ fece
249
+ facemmo
250
+ faceste
251
+ fecero
252
+ facessi
253
+ facesse
254
+ facessimo
255
+ facessero
256
+ facendo
257
+
258
+ | forms of stare, to be (not including the infinitive):
259
+ sto
260
+ stai
261
+ sta
262
+ stiamo
263
+ stanno
264
+ stia
265
+ stiate
266
+ stiano
267
+ starò
268
+ starai
269
+ starà
270
+ staremo
271
+ starete
272
+ staranno
273
+ starei
274
+ staresti
275
+ starebbe
276
+ staremmo
277
+ stareste
278
+ starebbero
279
+ stavo
280
+ stavi
281
+ stava
282
+ stavamo
283
+ stavate
284
+ stavano
285
+ stetti
286
+ stesti
287
+ stette
288
+ stemmo
289
+ steste
290
+ stettero
291
+ stessi
292
+ stesse
293
+ stessimo
294
+ stessero
295
+ stando
@@ -0,0 +1,186 @@
1
+
2
+ | A Norwegian stop word list. Comments begin with vertical bar. Each stop
3
+ | word is at the start of a line.
4
+
5
+ | This stop word list is for the dominant bokmål dialect. Words unique
6
+ | to nynorsk are marked *.
7
+
8
+ | Revised by Jan Bruusgaard <Jan.Bruusgaard@ssb.no>, Jan 2005
9
+
10
+ og | and
11
+ i | in
12
+ jeg | I
13
+ det | it/this/that
14
+ at | to (w. inf.)
15
+ en | a/an
16
+ et | a/an
17
+ den | it/this/that
18
+ til | to
19
+ er | is/am/are
20
+ som | who/that
21
+ på | on
22
+ de | they / you(formal)
23
+ med | with
24
+ han | he
25
+ av | of
26
+ ikke | not
27
+ ikkje | not *
28
+ der | there
29
+ så | so
30
+ var | was/were
31
+ meg | me
32
+ seg | you
33
+ men | but
34
+ ett | one
35
+ har | have
36
+ om | about
37
+ vi | we
38
+ min | my
39
+ mitt | my
40
+ ha | have
41
+ hadde | had
42
+ hun | she
43
+ nå | now
44
+ over | over
45
+ da | when/as
46
+ ved | by/know
47
+ fra | from
48
+ du | you
49
+ ut | out
50
+ sin | your
51
+ dem | them
52
+ oss | us
53
+ opp | up
54
+ man | you/one
55
+ kan | can
56
+ hans | his
57
+ hvor | where
58
+ eller | or
59
+ hva | what
60
+ skal | shall/must
61
+ selv | self (reflective)
62
+ sjøl | self (reflective)
63
+ her | here
64
+ alle | all
65
+ vil | will
66
+ bli | become
67
+ ble | became
68
+ blei | became *
69
+ blitt | have become
70
+ kunne | could
71
+ inn | in
72
+ når | when
73
+ være | be
74
+ kom | come
75
+ noen | some
76
+ noe | some
77
+ ville | would
78
+ dere | you
79
+ som | who/which/that
80
+ deres | their/theirs
81
+ kun | only/just
82
+ ja | yes
83
+ etter | after
84
+ ned | down
85
+ skulle | should
86
+ denne | this
87
+ for | for/because
88
+ deg | you
89
+ si | hers/his
90
+ sine | hers/his
91
+ sitt | hers/his
92
+ mot | against
93
+ å | to
94
+ meget | much
95
+ hvorfor | why
96
+ dette | this
97
+ disse | these/those
98
+ uten | without
99
+ hvordan | how
100
+ ingen | none
101
+ din | your
102
+ ditt | your
103
+ blir | become
104
+ samme | same
105
+ hvilken | which
106
+ hvilke | which (plural)
107
+ sånn | such a
108
+ inni | inside/within
109
+ mellom | between
110
+ vår | our
111
+ hver | each
112
+ hvem | who
113
+ vors | us/ours
114
+ hvis | whose
115
+ både | both
116
+ bare | only/just
117
+ enn | than
118
+ fordi | as/because
119
+ før | before
120
+ mange | many
121
+ også | also
122
+ slik | just
123
+ vært | been
124
+ være | to be
125
+ båe | both *
126
+ begge | both
127
+ siden | since
128
+ dykk | your *
129
+ dykkar | yours *
130
+ dei | they *
131
+ deira | them *
132
+ deires | theirs *
133
+ deim | them *
134
+ di | your (fem.) *
135
+ då | as/when *
136
+ eg | I *
137
+ ein | a/an *
138
+ eit | a/an *
139
+ eitt | a/an *
140
+ elles | or *
141
+ honom | he *
142
+ hjå | at *
143
+ ho | she *
144
+ hoe | she *
145
+ henne | her
146
+ hennar | her/hers
147
+ hennes | hers
148
+ hoss | how *
149
+ hossen | how *
150
+ ikkje | not *
151
+ ingi | noone *
152
+ inkje | noone *
153
+ korleis | how *
154
+ korso | how *
155
+ kva | what/which *
156
+ kvar | where *
157
+ kvarhelst | where *
158
+ kven | who/whom *
159
+ kvi | why *
160
+ kvifor | why *
161
+ me | we *
162
+ medan | while *
163
+ mi | my *
164
+ mine | my *
165
+ mykje | much *
166
+ no | now *
167
+ nokon | some (masc./neut.) *
168
+ noka | some (fem.) *
169
+ nokor | some *
170
+ noko | some *
171
+ nokre | some *
172
+ si | his/hers *
173
+ sia | since *
174
+ sidan | since *
175
+ so | so *
176
+ somt | some *
177
+ somme | some *
178
+ um | about*
179
+ upp | up *
180
+ vere | be *
181
+ vore | was *
182
+ verte | become *
183
+ vort | become *
184
+ varte | became *
185
+ vart | became *
186
+
@@ -0,0 +1,245 @@
1
+
2
+ | A Portuguese stop word list. Comments begin with vertical bar. Each stop
3
+ | word is at the start of a line.
4
+
5
+
6
+ | The following is a ranked list (commonest to rarest) of stopwords
7
+ | deriving from a large sample of text.
8
+
9
+ | Extra words have been added at the end.
10
+
11
+ de | of, from
12
+ a | the; to, at; her
13
+ o | the; him
14
+ que | who, that
15
+ e | and
16
+ do | de + o
17
+ da | de + a
18
+ em | in
19
+ um | a
20
+ para | for
21
+ | é from SER
22
+ com | with
23
+ não | not, no
24
+ uma | a
25
+ os | the; them
26
+ no | em + o
27
+ se | himself etc
28
+ na | em + a
29
+ por | for
30
+ mais | more
31
+ as | the; them
32
+ dos | de + os
33
+ como | as, like
34
+ mas | but
35
+ | foi from SER
36
+ ao | a + o
37
+ ele | he
38
+ das | de + as
39
+ | tem from TER
40
+ à | a + a
41
+ seu | his
42
+ sua | her
43
+ ou | or
44
+ | ser from SER
45
+ quando | when
46
+ muito | much
47
+ | há from HAV
48
+ nos | em + os; us
49
+ já | already, now
50
+ | está from EST
51
+ eu | I
52
+ também | also
53
+ só | only, just
54
+ pelo | per + o
55
+ pela | per + a
56
+ até | up to
57
+ isso | that
58
+ ela | he
59
+ entre | between
60
+ | era from SER
61
+ depois | after
62
+ sem | without
63
+ mesmo | same
64
+ aos | a + os
65
+ | ter from TER
66
+ seus | his
67
+ quem | whom
68
+ nas | em + as
69
+ me | me
70
+ esse | that
71
+ eles | they
72
+ | estão from EST
73
+ você | you
74
+ | tinha from TER
75
+ | foram from SER
76
+ essa | that
77
+ num | em + um
78
+ nem | nor
79
+ suas | her
80
+ meu | my
81
+ às | a + as
82
+ minha | my
83
+ | têm from TER
84
+ numa | em + uma
85
+ pelos | per + os
86
+ elas | they
87
+ | havia from HAV
88
+ | seja from SER
89
+ qual | which
90
+ | será from SER
91
+ nós | we
92
+ | tenho from TER
93
+ lhe | to him, her
94
+ deles | of them
95
+ essas | those
96
+ esses | those
97
+ pelas | per + as
98
+ este | this
99
+ | fosse from SER
100
+ dele | of him
101
+
102
+ | other words. There are many contractions such as naquele = em+aquele,
103
+ | mo = me+o, but they are rare.
104
+ | Indefinite article plural forms are also rare.
105
+
106
+ tu | thou
107
+ te | thee
108
+ vocês | you (plural)
109
+ vos | you
110
+ lhes | to them
111
+ meus | my
112
+ minhas
113
+ teu | thy
114
+ tua
115
+ teus
116
+ tuas
117
+ nosso | our
118
+ nossa
119
+ nossos
120
+ nossas
121
+
122
+ dela | of her
123
+ delas | of them
124
+
125
+ esta | this
126
+ estes | these
127
+ estas | these
128
+ aquele | that
129
+ aquela | that
130
+ aqueles | those
131
+ aquelas | those
132
+ isto | this
133
+ aquilo | that
134
+
135
+ | forms of estar, to be (not including the infinitive):
136
+ estou
137
+ está
138
+ estamos
139
+ estão
140
+ estive
141
+ esteve
142
+ estivemos
143
+ estiveram
144
+ estava
145
+ estávamos
146
+ estavam
147
+ estivera
148
+ estivéramos
149
+ esteja
150
+ estejamos
151
+ estejam
152
+ estivesse
153
+ estivéssemos
154
+ estivessem
155
+ estiver
156
+ estivermos
157
+ estiverem
158
+
159
+ | forms of haver, to have (not including the infinitive):
160
+ hei
161
+
162
+ havemos
163
+ hão
164
+ houve
165
+ houvemos
166
+ houveram
167
+ houvera
168
+ houvéramos
169
+ haja
170
+ hajamos
171
+ hajam
172
+ houvesse
173
+ houvéssemos
174
+ houvessem
175
+ houver
176
+ houvermos
177
+ houverem
178
+ houverei
179
+ houverá
180
+ houveremos
181
+ houverão
182
+ houveria
183
+ houveríamos
184
+ houveriam
185
+
186
+ | forms of ser, to be (not including the infinitive):
187
+ sou
188
+ somos
189
+ são
190
+ era
191
+ éramos
192
+ eram
193
+ fui
194
+ foi
195
+ fomos
196
+ foram
197
+ fora
198
+ fôramos
199
+ seja
200
+ sejamos
201
+ sejam
202
+ fosse
203
+ fôssemos
204
+ fossem
205
+ for
206
+ formos
207
+ forem
208
+ serei
209
+ será
210
+ seremos
211
+ serão
212
+ seria
213
+ seríamos
214
+ seriam
215
+
216
+ | forms of ter, to have (not including the infinitive):
217
+ tenho
218
+ tem
219
+ temos
220
+ tém
221
+ tinha
222
+ tínhamos
223
+ tinham
224
+ tive
225
+ teve
226
+ tivemos
227
+ tiveram
228
+ tivera
229
+ tivéramos
230
+ tenha
231
+ tenhamos
232
+ tenham
233
+ tivesse
234
+ tivéssemos
235
+ tivessem
236
+ tiver
237
+ tivermos
238
+ tiverem
239
+ terei
240
+ terá
241
+ teremos
242
+ terão
243
+ teria
244
+ teríamos
245
+ teriam