greek_stemmer 1.1.5 → 1.1.7
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/benchmarks/stemming_sample.txt +5 -5
- data/config/stemmer.yml +1 -0
- data/lib/greek_stemmer/version.rb +1 -1
- data/lib/greek_stemmer.rb +10 -4
- data/spec/fixtures/examples.yml +14 -0
- metadata +2 -2
checksums.yaml
CHANGED
@@ -1,7 +1,7 @@
|
|
1
1
|
---
|
2
2
|
SHA1:
|
3
|
-
metadata.gz:
|
4
|
-
data.tar.gz:
|
3
|
+
metadata.gz: 28c89501d699bf88cda83e09a6af2914d4e53e00
|
4
|
+
data.tar.gz: 7a84ad82218a5951c01d2359ed1d6ecb5b6eddf7
|
5
5
|
SHA512:
|
6
|
-
metadata.gz:
|
7
|
-
data.tar.gz:
|
6
|
+
metadata.gz: fcdff86e7b2dae0502110c9963fd4b295d10ffcb421cd105fa754c58d1e07c01b333de4de64b436f458e618bcd756624c545d9abc4b3a99a6f3b2bd490909e64
|
7
|
+
data.tar.gz: 45cf891a328ef2c589c9c9dbad59cfb21fdbed6321aef76aec1aaa40fabcdbcf07e77b4adff55abe8af182a212a88e6bc98afb6f34b666d323f8a8871e611504
|
@@ -3724,7 +3724,7 @@
|
|
3724
3724
|
ΔΑΙΜΟΝΩΝ,ΔΑΙΜΟΝ
|
3725
3725
|
ΔΑΚΡ,ΔΑΚΡ
|
3726
3726
|
ΔΑΚΡΥ,ΔΑΚΡ
|
3727
|
-
|
3727
|
+
ΔΑΚΡΥΑ,ΔΑΚΡ
|
3728
3728
|
ΔΑΚΡΥΣΜΕΝ,ΔΑΚΡΥΣΜΕΝ
|
3729
3729
|
ΔΑΚΡΥΣΜΕΝΗ,ΔΑΚΡΥΣΜΕΝ
|
3730
3730
|
ΔΑΜΑΣΚΗΝ,ΔΑΜΑΣΚΗΝ
|
@@ -4337,7 +4337,7 @@
|
|
4337
4337
|
ΔΙΚΤΑΤΟΡΙΑ,ΔΙΚΤΑΤΟΡ
|
4338
4338
|
ΔΙΚΤΑΤΟΡΙΕΣ,ΔΙΚΤΑΤΟΡ
|
4339
4339
|
ΔΙΚΤΥ,ΔΙΚΤ
|
4340
|
-
|
4340
|
+
ΔΙΚΤΥΑ,ΔΙΚΤ
|
4341
4341
|
ΔΙΚΤΥΑΚ,ΔΙΚΤΥΑΚ
|
4342
4342
|
ΔΙΚΤΥΑΚΗ,ΔΙΚΤΥΑΚ
|
4343
4343
|
ΔΙΚΤΥΟΥ,ΔΙΚΤΥ
|
@@ -4414,7 +4414,7 @@
|
|
4414
4414
|
ΔΙΧΟΝΟΙ,ΔΙΧΟΝ
|
4415
4415
|
ΔΙΧΟΝΟΙΩΝ,ΔΙΧΟΝΟΙ
|
4416
4416
|
ΔΙΧΤΥ,ΔΙΧΤ
|
4417
|
-
|
4417
|
+
ΔΙΧΤΥΑ,ΔΙΧΤ
|
4418
4418
|
ΔΙΨ,ΔΙΨ
|
4419
4419
|
ΔΙΨΑ,ΔΙΨ
|
4420
4420
|
ΔΙΩΓΜ,ΔΙΩΓΜ
|
@@ -8152,7 +8152,7 @@
|
|
8152
8152
|
ΚΕΝΤΡΙΚΟΣ,ΚΕΝΤΡ
|
8153
8153
|
ΚΕΝΤΡΟ,ΚΕΝΤΡ
|
8154
8154
|
ΚΕΝΥ,ΚΕΝ
|
8155
|
-
|
8155
|
+
ΚΕΝΥΑ,ΚΕΝ
|
8156
8156
|
ΚΕΡ,ΚΕΡ
|
8157
8157
|
ΚΕΡΑΙ,ΚΕΡΑ
|
8158
8158
|
ΚΕΡΑΙΕΣ,ΚΕΡΑΙ
|
@@ -9816,7 +9816,7 @@
|
|
9816
9816
|
ΜΑΚΡΟΧΡΟΝΙΑ,ΜΑΚΡΟΧΡΟΝ
|
9817
9817
|
ΜΑΚΡΟΧΡΟΝΙΟΤΕΡ,ΜΑΚΡΟΧΡΟΝΙ
|
9818
9818
|
ΜΑΚΡΟΧΡΟΝΙΟΤΕΡΕΣ,ΜΑΚΡΟΧΡΟΝΙ
|
9819
|
-
|
9819
|
+
ΜΑΚΡΥΑ,ΜΑΚΡ
|
9820
9820
|
ΜΑΛΑΚ,ΜΑΛΑΚ
|
9821
9821
|
ΜΑΛΑΚΑΣ,ΜΑΛΑΚ
|
9822
9822
|
ΜΑΛΑΟΥ,ΜΑΛΑ
|
data/config/stemmer.yml
CHANGED
data/lib/greek_stemmer.rb
CHANGED
@@ -95,9 +95,9 @@ module GreekStemmer
|
|
95
95
|
stem = st
|
96
96
|
stem << "ΙΚ" if ends_on_vowel?(st) || st =~ /^(ΑΔ|ΑΛ|ΑΜΑΝ|ΑΜΕΡ|ΑΜΜΟΧΑΛ|
|
97
97
|
ΑΝΗΘ|ΑΝΤΙΔ|ΑΠΛ|ΑΤΤ|ΑΦΡ|ΒΑΣ|ΒΡΩΜ|ΓΕΝ|ΓΕΡ|Δ|ΔΙΚΑΝ|ΔΥΤ|ΕΙΔ|
|
98
|
-
|
99
|
-
|
100
|
-
|
98
|
+
ΕΝΔ|ΕΞΩΔ|ΗΘ|ΘΕΤ|ΚΑΛΛΙΝ|ΚΑΛΠ|ΚΑΤΑΔ|ΚΟΥΖΙΝ|ΚΡ|ΚΩΔ|ΛΟΓ|Μ|ΜΕΡ|
|
99
|
+
ΜΟΝΑΔ|ΜΟΥΛ|ΜΟΥΣ|ΜΠΑΓΙΑΤ|ΜΠΑΝ|ΜΠΟΛ|ΜΠΟΣ|ΜΥΣΤ|Ν|ΝΙΤ|ΞΙΚ|ΟΠΤ|
|
100
|
+
ΠΑΝ|ΠΕΤΣ|ΠΙΚΑΝΤ|ΠΙΤΣ|ΠΛΑΣΤ|ΠΛΙΑΤΣ|ΠΟΝΤ|ΠΟΣΤΕΛΝ|ΠΡΩΤΟΔ|ΣΕΡΤ|
|
101
101
|
ΣΗΜΑΝΤ|ΣΤΑΤ|ΣΥΝΑΔ|ΣΥΝΟΜΗΛ|ΤΕΛ|ΤΕΧΝ|ΤΡΟΠ|ΤΣΑΜ|ΥΠΟΔ|Φ|ΦΙΛΟΝ|
|
102
102
|
ΦΥΛΟΔ|ΦΥΣ|ΧΑΣ)$/ux || st =~ /(ΦΟΙΝ)$/u
|
103
103
|
end
|
@@ -242,8 +242,14 @@ module GreekStemmer
|
|
242
242
|
end
|
243
243
|
end
|
244
244
|
|
245
|
+
# steb 6b
|
246
|
+
stem.scan(/^(.+?)(ΟΥΑ)$/ux) do |st, suffix|
|
247
|
+
stem = st + 'ΟΥ'
|
248
|
+
end
|
249
|
+
|
245
250
|
stem = long_stem_list(stem) if stem.length == word.length
|
246
251
|
|
252
|
+
# step 7
|
247
253
|
stem.scan(/^(.+?)(ΕΣΤΕΡ|ΕΣΤΑΤ|ΟΤΕΡ|ΟΤΑΤ|ΥΤΕΡ|ΥΤΑΤ|ΩΤΕΡ|ΩΤΑΤ)$/u) do |st, suffix|
|
248
254
|
stem = st unless st =~ /^(ΕΞ|ΕΣ|ΑΝ|ΚΑΤ|Κ|ΠΡ)$/u
|
249
255
|
|
@@ -270,7 +276,7 @@ module GreekStemmer
|
|
270
276
|
ΙΟΥΝΤΑΙ|ΙΟΥΝΤΑΝ|Η|ΗΔΕΣ|ΗΔΩΝ|ΗΘΕΙ|ΗΘΕΙΣ|ΗΘΕΙΤΕ|ΗΘΗΚΑΤΕ|ΗΘΗΚΑΝ|ΗΘΟΥΝ|ΗΘΩ|
|
271
277
|
ΗΚΑΤΕ|ΗΚΑΝ|ΗΣ|ΗΣΑΝ|ΗΣΑΤΕ|ΗΣΕΙ|ΗΣΕΣ|ΗΣΟΥΝ|ΗΣΩ|Ο|ΟΙ|ΟΜΑΙ|ΟΜΑΣΤΑΝ|ΟΜΟΥΝ|ΟΜΟΥΝΑ|
|
272
278
|
ΟΝΤΑΙ|ΟΝΤΑΝ|ΟΝΤΟΥΣΑΝ|ΟΣ|ΟΣΑΣΤΑΝ|ΟΣΑΣΤΕ|ΟΣΟΥΝ|ΟΣΟΥΝΑ|ΟΤΑΝ|ΟΥ|ΟΥΜΑΙ|ΟΥΜΑΣΤΕ|
|
273
|
-
|
279
|
+
ΟΥΝ|ΟΥΝΤΑΙ|ΟΥΝΤΑΝ|ΟΥΣ|ΟΥΣΑΝ|ΟΥΣΑΤΕ|Υ||ΥΑ|ΥΣ|Ω|ΩΝ|ΟΙΣ)$/ux) do |st, suffix|
|
274
280
|
word = st
|
275
281
|
end
|
276
282
|
word
|
data/spec/fixtures/examples.yml
CHANGED
@@ -113,6 +113,20 @@
|
|
113
113
|
ΧΩΡΑΤΟ: ΧΩΡΑΤ
|
114
114
|
ΧΩΡΑΤΑ: ΧΩΡΑΤ
|
115
115
|
|
116
|
+
# step 6b
|
117
|
+
ΓΕΝΟΥΑ: ΓΕΝΟΥ
|
118
|
+
ΓΟΥΑ: ΓΟΥ
|
119
|
+
ΤΟΥΡΝΟΥΑ: ΤΟΥΡΝΟΥ
|
120
|
+
ΝΙΚΑΡΑΓΟΥΑ: ΝΙΚΑΡΑΓΟΥ
|
121
|
+
|
122
|
+
# long stem list
|
123
|
+
ΔΙΧΤΥ: ΔΙΧΤ
|
124
|
+
ΔΙΧΤΥΑ: ΔΙΧΤ
|
125
|
+
ΜΑΚΡΥ: ΜΑΚΡ
|
126
|
+
ΜΑΚΡΥΑ: ΜΑΚΡ
|
127
|
+
ΔΑΚΡΥ: ΔΑΚΡ
|
128
|
+
ΔΑΚΡΥΑ: ΔΑΚΡ
|
129
|
+
|
116
130
|
# step 7
|
117
131
|
ΠΛΗΣΙΕΣΤΑΤΟΣ: ΠΛΗΣΙ
|
118
132
|
ΜΕΓΑΛΥΤΕΡΗ: ΜΕΓΑΛ
|
metadata
CHANGED
@@ -1,7 +1,7 @@
|
|
1
1
|
--- !ruby/object:Gem::Specification
|
2
2
|
name: greek_stemmer
|
3
3
|
version: !ruby/object:Gem::Version
|
4
|
-
version: 1.1.
|
4
|
+
version: 1.1.7
|
5
5
|
platform: ruby
|
6
6
|
authors:
|
7
7
|
- Tasos Stathopoulos
|
@@ -9,7 +9,7 @@ authors:
|
|
9
9
|
autorequire:
|
10
10
|
bindir: bin
|
11
11
|
cert_chain: []
|
12
|
-
date:
|
12
|
+
date: 2016-01-22 00:00:00.000000000 Z
|
13
13
|
dependencies:
|
14
14
|
- !ruby/object:Gem::Dependency
|
15
15
|
name: bundler
|