greek_stemmer 1.1.5 → 1.1.7
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +4 -4
- data/benchmarks/stemming_sample.txt +5 -5
- data/config/stemmer.yml +1 -0
- data/lib/greek_stemmer/version.rb +1 -1
- data/lib/greek_stemmer.rb +10 -4
- data/spec/fixtures/examples.yml +14 -0
- metadata +2 -2
checksums.yaml
CHANGED
|
@@ -1,7 +1,7 @@
|
|
|
1
1
|
---
|
|
2
2
|
SHA1:
|
|
3
|
-
metadata.gz:
|
|
4
|
-
data.tar.gz:
|
|
3
|
+
metadata.gz: 28c89501d699bf88cda83e09a6af2914d4e53e00
|
|
4
|
+
data.tar.gz: 7a84ad82218a5951c01d2359ed1d6ecb5b6eddf7
|
|
5
5
|
SHA512:
|
|
6
|
-
metadata.gz:
|
|
7
|
-
data.tar.gz:
|
|
6
|
+
metadata.gz: fcdff86e7b2dae0502110c9963fd4b295d10ffcb421cd105fa754c58d1e07c01b333de4de64b436f458e618bcd756624c545d9abc4b3a99a6f3b2bd490909e64
|
|
7
|
+
data.tar.gz: 45cf891a328ef2c589c9c9dbad59cfb21fdbed6321aef76aec1aaa40fabcdbcf07e77b4adff55abe8af182a212a88e6bc98afb6f34b666d323f8a8871e611504
|
|
@@ -3724,7 +3724,7 @@
|
|
|
3724
3724
|
ΔΑΙΜΟΝΩΝ,ΔΑΙΜΟΝ
|
|
3725
3725
|
ΔΑΚΡ,ΔΑΚΡ
|
|
3726
3726
|
ΔΑΚΡΥ,ΔΑΚΡ
|
|
3727
|
-
|
|
3727
|
+
ΔΑΚΡΥΑ,ΔΑΚΡ
|
|
3728
3728
|
ΔΑΚΡΥΣΜΕΝ,ΔΑΚΡΥΣΜΕΝ
|
|
3729
3729
|
ΔΑΚΡΥΣΜΕΝΗ,ΔΑΚΡΥΣΜΕΝ
|
|
3730
3730
|
ΔΑΜΑΣΚΗΝ,ΔΑΜΑΣΚΗΝ
|
|
@@ -4337,7 +4337,7 @@
|
|
|
4337
4337
|
ΔΙΚΤΑΤΟΡΙΑ,ΔΙΚΤΑΤΟΡ
|
|
4338
4338
|
ΔΙΚΤΑΤΟΡΙΕΣ,ΔΙΚΤΑΤΟΡ
|
|
4339
4339
|
ΔΙΚΤΥ,ΔΙΚΤ
|
|
4340
|
-
|
|
4340
|
+
ΔΙΚΤΥΑ,ΔΙΚΤ
|
|
4341
4341
|
ΔΙΚΤΥΑΚ,ΔΙΚΤΥΑΚ
|
|
4342
4342
|
ΔΙΚΤΥΑΚΗ,ΔΙΚΤΥΑΚ
|
|
4343
4343
|
ΔΙΚΤΥΟΥ,ΔΙΚΤΥ
|
|
@@ -4414,7 +4414,7 @@
|
|
|
4414
4414
|
ΔΙΧΟΝΟΙ,ΔΙΧΟΝ
|
|
4415
4415
|
ΔΙΧΟΝΟΙΩΝ,ΔΙΧΟΝΟΙ
|
|
4416
4416
|
ΔΙΧΤΥ,ΔΙΧΤ
|
|
4417
|
-
|
|
4417
|
+
ΔΙΧΤΥΑ,ΔΙΧΤ
|
|
4418
4418
|
ΔΙΨ,ΔΙΨ
|
|
4419
4419
|
ΔΙΨΑ,ΔΙΨ
|
|
4420
4420
|
ΔΙΩΓΜ,ΔΙΩΓΜ
|
|
@@ -8152,7 +8152,7 @@
|
|
|
8152
8152
|
ΚΕΝΤΡΙΚΟΣ,ΚΕΝΤΡ
|
|
8153
8153
|
ΚΕΝΤΡΟ,ΚΕΝΤΡ
|
|
8154
8154
|
ΚΕΝΥ,ΚΕΝ
|
|
8155
|
-
|
|
8155
|
+
ΚΕΝΥΑ,ΚΕΝ
|
|
8156
8156
|
ΚΕΡ,ΚΕΡ
|
|
8157
8157
|
ΚΕΡΑΙ,ΚΕΡΑ
|
|
8158
8158
|
ΚΕΡΑΙΕΣ,ΚΕΡΑΙ
|
|
@@ -9816,7 +9816,7 @@
|
|
|
9816
9816
|
ΜΑΚΡΟΧΡΟΝΙΑ,ΜΑΚΡΟΧΡΟΝ
|
|
9817
9817
|
ΜΑΚΡΟΧΡΟΝΙΟΤΕΡ,ΜΑΚΡΟΧΡΟΝΙ
|
|
9818
9818
|
ΜΑΚΡΟΧΡΟΝΙΟΤΕΡΕΣ,ΜΑΚΡΟΧΡΟΝΙ
|
|
9819
|
-
|
|
9819
|
+
ΜΑΚΡΥΑ,ΜΑΚΡ
|
|
9820
9820
|
ΜΑΛΑΚ,ΜΑΛΑΚ
|
|
9821
9821
|
ΜΑΛΑΚΑΣ,ΜΑΛΑΚ
|
|
9822
9822
|
ΜΑΛΑΟΥ,ΜΑΛΑ
|
data/config/stemmer.yml
CHANGED
data/lib/greek_stemmer.rb
CHANGED
|
@@ -95,9 +95,9 @@ module GreekStemmer
|
|
|
95
95
|
stem = st
|
|
96
96
|
stem << "ΙΚ" if ends_on_vowel?(st) || st =~ /^(ΑΔ|ΑΛ|ΑΜΑΝ|ΑΜΕΡ|ΑΜΜΟΧΑΛ|
|
|
97
97
|
ΑΝΗΘ|ΑΝΤΙΔ|ΑΠΛ|ΑΤΤ|ΑΦΡ|ΒΑΣ|ΒΡΩΜ|ΓΕΝ|ΓΕΡ|Δ|ΔΙΚΑΝ|ΔΥΤ|ΕΙΔ|
|
|
98
|
-
|
|
99
|
-
|
|
100
|
-
|
|
98
|
+
ΕΝΔ|ΕΞΩΔ|ΗΘ|ΘΕΤ|ΚΑΛΛΙΝ|ΚΑΛΠ|ΚΑΤΑΔ|ΚΟΥΖΙΝ|ΚΡ|ΚΩΔ|ΛΟΓ|Μ|ΜΕΡ|
|
|
99
|
+
ΜΟΝΑΔ|ΜΟΥΛ|ΜΟΥΣ|ΜΠΑΓΙΑΤ|ΜΠΑΝ|ΜΠΟΛ|ΜΠΟΣ|ΜΥΣΤ|Ν|ΝΙΤ|ΞΙΚ|ΟΠΤ|
|
|
100
|
+
ΠΑΝ|ΠΕΤΣ|ΠΙΚΑΝΤ|ΠΙΤΣ|ΠΛΑΣΤ|ΠΛΙΑΤΣ|ΠΟΝΤ|ΠΟΣΤΕΛΝ|ΠΡΩΤΟΔ|ΣΕΡΤ|
|
|
101
101
|
ΣΗΜΑΝΤ|ΣΤΑΤ|ΣΥΝΑΔ|ΣΥΝΟΜΗΛ|ΤΕΛ|ΤΕΧΝ|ΤΡΟΠ|ΤΣΑΜ|ΥΠΟΔ|Φ|ΦΙΛΟΝ|
|
|
102
102
|
ΦΥΛΟΔ|ΦΥΣ|ΧΑΣ)$/ux || st =~ /(ΦΟΙΝ)$/u
|
|
103
103
|
end
|
|
@@ -242,8 +242,14 @@ module GreekStemmer
|
|
|
242
242
|
end
|
|
243
243
|
end
|
|
244
244
|
|
|
245
|
+
# steb 6b
|
|
246
|
+
stem.scan(/^(.+?)(ΟΥΑ)$/ux) do |st, suffix|
|
|
247
|
+
stem = st + 'ΟΥ'
|
|
248
|
+
end
|
|
249
|
+
|
|
245
250
|
stem = long_stem_list(stem) if stem.length == word.length
|
|
246
251
|
|
|
252
|
+
# step 7
|
|
247
253
|
stem.scan(/^(.+?)(ΕΣΤΕΡ|ΕΣΤΑΤ|ΟΤΕΡ|ΟΤΑΤ|ΥΤΕΡ|ΥΤΑΤ|ΩΤΕΡ|ΩΤΑΤ)$/u) do |st, suffix|
|
|
248
254
|
stem = st unless st =~ /^(ΕΞ|ΕΣ|ΑΝ|ΚΑΤ|Κ|ΠΡ)$/u
|
|
249
255
|
|
|
@@ -270,7 +276,7 @@ module GreekStemmer
|
|
|
270
276
|
ΙΟΥΝΤΑΙ|ΙΟΥΝΤΑΝ|Η|ΗΔΕΣ|ΗΔΩΝ|ΗΘΕΙ|ΗΘΕΙΣ|ΗΘΕΙΤΕ|ΗΘΗΚΑΤΕ|ΗΘΗΚΑΝ|ΗΘΟΥΝ|ΗΘΩ|
|
|
271
277
|
ΗΚΑΤΕ|ΗΚΑΝ|ΗΣ|ΗΣΑΝ|ΗΣΑΤΕ|ΗΣΕΙ|ΗΣΕΣ|ΗΣΟΥΝ|ΗΣΩ|Ο|ΟΙ|ΟΜΑΙ|ΟΜΑΣΤΑΝ|ΟΜΟΥΝ|ΟΜΟΥΝΑ|
|
|
272
278
|
ΟΝΤΑΙ|ΟΝΤΑΝ|ΟΝΤΟΥΣΑΝ|ΟΣ|ΟΣΑΣΤΑΝ|ΟΣΑΣΤΕ|ΟΣΟΥΝ|ΟΣΟΥΝΑ|ΟΤΑΝ|ΟΥ|ΟΥΜΑΙ|ΟΥΜΑΣΤΕ|
|
|
273
|
-
|
|
279
|
+
ΟΥΝ|ΟΥΝΤΑΙ|ΟΥΝΤΑΝ|ΟΥΣ|ΟΥΣΑΝ|ΟΥΣΑΤΕ|Υ||ΥΑ|ΥΣ|Ω|ΩΝ|ΟΙΣ)$/ux) do |st, suffix|
|
|
274
280
|
word = st
|
|
275
281
|
end
|
|
276
282
|
word
|
data/spec/fixtures/examples.yml
CHANGED
|
@@ -113,6 +113,20 @@
|
|
|
113
113
|
ΧΩΡΑΤΟ: ΧΩΡΑΤ
|
|
114
114
|
ΧΩΡΑΤΑ: ΧΩΡΑΤ
|
|
115
115
|
|
|
116
|
+
# step 6b
|
|
117
|
+
ΓΕΝΟΥΑ: ΓΕΝΟΥ
|
|
118
|
+
ΓΟΥΑ: ΓΟΥ
|
|
119
|
+
ΤΟΥΡΝΟΥΑ: ΤΟΥΡΝΟΥ
|
|
120
|
+
ΝΙΚΑΡΑΓΟΥΑ: ΝΙΚΑΡΑΓΟΥ
|
|
121
|
+
|
|
122
|
+
# long stem list
|
|
123
|
+
ΔΙΧΤΥ: ΔΙΧΤ
|
|
124
|
+
ΔΙΧΤΥΑ: ΔΙΧΤ
|
|
125
|
+
ΜΑΚΡΥ: ΜΑΚΡ
|
|
126
|
+
ΜΑΚΡΥΑ: ΜΑΚΡ
|
|
127
|
+
ΔΑΚΡΥ: ΔΑΚΡ
|
|
128
|
+
ΔΑΚΡΥΑ: ΔΑΚΡ
|
|
129
|
+
|
|
116
130
|
# step 7
|
|
117
131
|
ΠΛΗΣΙΕΣΤΑΤΟΣ: ΠΛΗΣΙ
|
|
118
132
|
ΜΕΓΑΛΥΤΕΡΗ: ΜΕΓΑΛ
|
metadata
CHANGED
|
@@ -1,7 +1,7 @@
|
|
|
1
1
|
--- !ruby/object:Gem::Specification
|
|
2
2
|
name: greek_stemmer
|
|
3
3
|
version: !ruby/object:Gem::Version
|
|
4
|
-
version: 1.1.
|
|
4
|
+
version: 1.1.7
|
|
5
5
|
platform: ruby
|
|
6
6
|
authors:
|
|
7
7
|
- Tasos Stathopoulos
|
|
@@ -9,7 +9,7 @@ authors:
|
|
|
9
9
|
autorequire:
|
|
10
10
|
bindir: bin
|
|
11
11
|
cert_chain: []
|
|
12
|
-
date:
|
|
12
|
+
date: 2016-01-22 00:00:00.000000000 Z
|
|
13
13
|
dependencies:
|
|
14
14
|
- !ruby/object:Gem::Dependency
|
|
15
15
|
name: bundler
|