lingo 1.8.6 → 1.8.7
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/ChangeLog +40 -4
- data/README +22 -51
- data/Rakefile +3 -17
- data/config/lingo.cfg +24 -15
- data/config/lir.cfg +25 -16
- data/dict/de/test_muh.txt +6 -0
- data/dict/en/lingo-dic.txt +2 -3
- data/lang/de.lang +10 -9
- data/lang/en.lang +1 -1
- data/lib/lingo.rb +4 -4
- data/lib/lingo/attendee.rb +27 -7
- data/lib/lingo/attendee/analysis_filter.rb +81 -0
- data/lib/lingo/attendee/debug_filter.rb +42 -0
- data/lib/lingo/attendee/debugger.rb +2 -11
- data/lib/lingo/attendee/decomposer.rb +6 -3
- data/lib/lingo/attendee/formatter.rb +6 -6
- data/lib/lingo/attendee/hal_filter.rb +94 -0
- data/lib/lingo/attendee/lsi_filter.rb +99 -0
- data/lib/lingo/attendee/multi_worder.rb +69 -43
- data/lib/lingo/attendee/sequencer.rb +32 -19
- data/lib/lingo/attendee/synonymer.rb +2 -2
- data/lib/lingo/attendee/text_reader.rb +63 -92
- data/lib/lingo/attendee/text_writer.rb +12 -21
- data/lib/lingo/attendee/tokenizer.rb +32 -21
- data/lib/lingo/attendee/variator.rb +3 -3
- data/lib/lingo/attendee/vector_filter.rb +7 -9
- data/lib/lingo/attendee/word_searcher.rb +3 -3
- data/lib/lingo/buffered_attendee.rb +3 -36
- data/lib/lingo/config.rb +1 -1
- data/lib/lingo/ctl.rb +7 -155
- data/lib/lingo/ctl/analysis.rb +136 -0
- data/lib/lingo/ctl/files.rb +86 -0
- data/lib/lingo/ctl/other.rb +140 -0
- data/lib/lingo/database.rb +64 -60
- data/lib/lingo/database/crypter.rb +7 -5
- data/lib/lingo/error.rb +5 -4
- data/lib/lingo/language.rb +13 -5
- data/lib/lingo/language/grammar.rb +13 -7
- data/lib/lingo/language/token.rb +6 -0
- data/lib/lingo/language/word.rb +23 -36
- data/lib/lingo/language/word_form.rb +5 -1
- data/lib/lingo/srv.rb +2 -2
- data/lib/lingo/text_utils.rb +96 -0
- data/lib/lingo/version.rb +1 -1
- data/lib/lingo/web/views/index.erb +1 -1
- data/test/attendee/ts_decomposer.rb +23 -5
- data/test/attendee/ts_multi_worder.rb +66 -0
- data/test/attendee/ts_sequencer.rb +28 -4
- data/test/attendee/ts_text_reader.rb +20 -0
- data/test/attendee/ts_tokenizer.rb +20 -0
- data/test/attendee/ts_variator.rb +1 -1
- data/test/attendee/ts_word_searcher.rb +39 -3
- data/test/lir3.txt +12 -0
- data/test/ref/artikel.non +1 -12
- data/test/ref/artikel.seq +3 -1
- data/test/ref/artikel.vec +1 -0
- data/test/ref/artikel.vef +35 -34
- data/test/ref/artikel.ven +8 -7
- data/test/ref/artikel.ver +34 -33
- data/test/ref/artikel.vet +2573 -2563
- data/test/ref/lir.non +77 -78
- data/test/ref/lir.seq +9 -7
- data/test/ref/lir.syn +1 -1
- data/test/ref/lir.vec +41 -41
- data/test/ref/lir.vef +210 -210
- data/test/ref/lir.ven +46 -46
- data/test/ref/lir.ver +72 -72
- data/test/ref/lir.vet +329 -329
- data/test/ts_database.rb +166 -62
- data/test/ts_language.rb +23 -23
- metadata +53 -34
- data/lib/lingo/attendee/dehyphenizer.rb +0 -120
- data/lib/lingo/attendee/noneword_filter.rb +0 -115
- data/test/attendee/ts_noneword_filter.rb +0 -15
@@ -1,120 +0,0 @@
|
|
1
|
-
# encoding: utf-8
|
2
|
-
|
3
|
-
#--
|
4
|
-
###############################################################################
|
5
|
-
# #
|
6
|
-
# Lingo -- A full-featured automatic indexing system #
|
7
|
-
# #
|
8
|
-
# Copyright (C) 2005-2007 John Vorhauer #
|
9
|
-
# Copyright (C) 2007-2014 John Vorhauer, Jens Wille #
|
10
|
-
# #
|
11
|
-
# Lingo is free software; you can redistribute it and/or modify it under the #
|
12
|
-
# terms of the GNU Affero General Public License as published by the Free #
|
13
|
-
# Software Foundation; either version 3 of the License, or (at your option) #
|
14
|
-
# any later version. #
|
15
|
-
# #
|
16
|
-
# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY #
|
17
|
-
# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS #
|
18
|
-
# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for #
|
19
|
-
# more details. #
|
20
|
-
# #
|
21
|
-
# You should have received a copy of the GNU Affero General Public License #
|
22
|
-
# along with Lingo. If not, see <http://www.gnu.org/licenses/>. #
|
23
|
-
# #
|
24
|
-
###############################################################################
|
25
|
-
#++
|
26
|
-
|
27
|
-
class Lingo
|
28
|
-
|
29
|
-
class Attendee
|
30
|
-
|
31
|
-
#--
|
32
|
-
# Der Dehyphenizer ... muss noch dokumentiert werden
|
33
|
-
#
|
34
|
-
# === Mögliche Verlinkung
|
35
|
-
# Erwartet:: Daten vom Typ *Word* z.B. von Wordsearcher, Decomposer, Ocr_variator, Multiworder
|
36
|
-
# Erzeugt:: Daten vom Typ *Word* (mit Attribut WA_MULTIWORD). Je erkannter Mehrwortgruppe wird ein zusätzliches Word-Objekt in den Datenstrom eingefügt. Z.B. für Ocr_variator, Sequencer, Noneword_filter, Vector_filter
|
37
|
-
#
|
38
|
-
# === Parameter
|
39
|
-
# Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
|
40
|
-
# Alle anderen Parameter müssen zwingend angegeben werden.
|
41
|
-
# <b>in</b>:: siehe allgemeine Beschreibung des Attendee
|
42
|
-
# <b>out</b>:: siehe allgemeine Beschreibung des Attendee
|
43
|
-
# <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
|
44
|
-
# <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
|
45
|
-
#
|
46
|
-
# === Beispiele
|
47
|
-
# Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
|
48
|
-
# meeting:
|
49
|
-
# attendees:
|
50
|
-
# - text_reader: { out: lines, files: '$(files)' }
|
51
|
-
# - tokenizer: { in: lines, out: token }
|
52
|
-
# - abbreviator: { in: token, out: abbrev, source: 'sys-abk' }
|
53
|
-
# - word_searcher: { in: abbrev, out: words, source: 'sys-dic' }
|
54
|
-
# - decomposer: { in: words, out: comps, source: 'sys-dic' }
|
55
|
-
# - multi_worder: { in: comps, out: multi, source: 'sys-mul' }
|
56
|
-
# - debugger: { in: multi, prompt: 'out>' }
|
57
|
-
# ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
|
58
|
-
# out> *FILE('test.txt')
|
59
|
-
# out> <Sein = [(sein/s), (sein/v)]>
|
60
|
-
# out> <Name = [(name/s)]>
|
61
|
-
# out> <ist = [(sein/v)]>
|
62
|
-
# out> <johann van siegen|MUL = [(johann van siegen/m)]>
|
63
|
-
# out> <Johann = [(johann/e)]>
|
64
|
-
# out> <van = [(van/w)]>
|
65
|
-
# out> <Siegen = [(sieg/s), (siegen/v), (siegen/e)]>
|
66
|
-
# out> :./PUNC:
|
67
|
-
# out> *EOL('test.txt')
|
68
|
-
# out> *EOF('test.txt')
|
69
|
-
#++
|
70
|
-
|
71
|
-
class Dehyphenizer < BufferedAttendee
|
72
|
-
|
73
|
-
def init
|
74
|
-
set_dic
|
75
|
-
set_gra
|
76
|
-
|
77
|
-
@skip = get_array('skip', '', :downcase)
|
78
|
-
|
79
|
-
@expected_tokens_in_buffer, @eof_handling = 2, false
|
80
|
-
end
|
81
|
-
|
82
|
-
def control(cmd, *)
|
83
|
-
control_multi(cmd)
|
84
|
-
end
|
85
|
-
|
86
|
-
def process_buffer
|
87
|
-
a, b, h = *ab = @buffer.values_at(0, 1), '-'
|
88
|
-
|
89
|
-
if ab.all? { |i| i.is_a?(Word) } && a.form[-1, 1] == h && !(
|
90
|
-
(c = b.get_class(/./).first) && @skip.include?(c.attr)
|
91
|
-
)
|
92
|
-
a, b = ab.map! { |i| i.form }
|
93
|
-
|
94
|
-
word = dehyphenize(a.chomp(h) + b)
|
95
|
-
word = dehyphenize(a + b) unless dehyphenized?(word)
|
96
|
-
|
97
|
-
if dehyphenized?(word)
|
98
|
-
@buffer[0] = word
|
99
|
-
@buffer.delete_at(1)
|
100
|
-
end
|
101
|
-
end
|
102
|
-
|
103
|
-
forward_number_of_token(1, false)
|
104
|
-
end
|
105
|
-
|
106
|
-
private
|
107
|
-
|
108
|
-
def dehyphenize(form)
|
109
|
-
find_word(form) { |i| i.identified? }
|
110
|
-
end
|
111
|
-
|
112
|
-
def dehyphenized?(word)
|
113
|
-
word.identified? || word.full_compound?
|
114
|
-
end
|
115
|
-
|
116
|
-
end
|
117
|
-
|
118
|
-
end
|
119
|
-
|
120
|
-
end
|
@@ -1,115 +0,0 @@
|
|
1
|
-
# encoding: utf-8
|
2
|
-
|
3
|
-
#--
|
4
|
-
###############################################################################
|
5
|
-
# #
|
6
|
-
# Lingo -- A full-featured automatic indexing system #
|
7
|
-
# #
|
8
|
-
# Copyright (C) 2005-2007 John Vorhauer #
|
9
|
-
# Copyright (C) 2007-2014 John Vorhauer, Jens Wille #
|
10
|
-
# #
|
11
|
-
# Lingo is free software; you can redistribute it and/or modify it under the #
|
12
|
-
# terms of the GNU Affero General Public License as published by the Free #
|
13
|
-
# Software Foundation; either version 3 of the License, or (at your option) #
|
14
|
-
# any later version. #
|
15
|
-
# #
|
16
|
-
# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY #
|
17
|
-
# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS #
|
18
|
-
# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for #
|
19
|
-
# more details. #
|
20
|
-
# #
|
21
|
-
# You should have received a copy of the GNU Affero General Public License #
|
22
|
-
# along with Lingo. If not, see <http://www.gnu.org/licenses/>. #
|
23
|
-
# #
|
24
|
-
###############################################################################
|
25
|
-
#++
|
26
|
-
|
27
|
-
class Lingo
|
28
|
-
|
29
|
-
class Attendee
|
30
|
-
|
31
|
-
#--
|
32
|
-
# Der NonewordFilter ermöglicht es, alle nicht erkannten Wörter aus dem Datenstrom zu
|
33
|
-
# selektieren und weiterzuleiten. Im Prinzip werden alle erkannten Wörter gefiltert.
|
34
|
-
# Bei einem Indexierungslauf können so alle nicht durch den Wordsearcher erkannten Wörter,
|
35
|
-
# also die, die im Wörterbuch nicht enthalten sind, separat ausgegeben werden und als Grundlage für
|
36
|
-
# die Wörterbuchpflege dienen.
|
37
|
-
# Der NonewordFilter ist in einer frühen Entwicklungsphase entstanden. Die gleiche Funktion
|
38
|
-
# kann auch mit dem universelleren Objectfilter mit dem Ausdruck 'obj.kind_of?(Word) && obj.attr==WA_UNKNOWN'
|
39
|
-
# durchgeführt werden, mit dem einzigen Unterschied, dass der NonewordFilter nur die Wortform weiterleitet.
|
40
|
-
# Der NonewordFilter verschluckt ebenfalls alle Kommandos, ausser dem Dateianfang (*FILE) und Ende (*EOF),
|
41
|
-
# sowie dem LIR-Format-Spezifikum (*RECORD).
|
42
|
-
#
|
43
|
-
# *Hinweis* Dieser Attendee sammelt die auszugebenden Daten so lange, bis ein Dateiwechsel oder Record-Wechsel
|
44
|
-
# angekündigt wird. Erst dann werden alle Daten auf einmal weitergeleitet.
|
45
|
-
#
|
46
|
-
# === Mögliche Verlinkung
|
47
|
-
# Erwartet:: Daten vom Typ *Word*, z.B. von Abbreviator, Wordsearcher, Decomposer, Synonymer, Multiworder, Sequencer
|
48
|
-
# Erzeugt:: Daten vom Typ *String*, z.B. für Textwriter
|
49
|
-
#
|
50
|
-
# === Parameter
|
51
|
-
# Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
|
52
|
-
# Alle anderen Parameter müssen zwingend angegeben werden.
|
53
|
-
# <b>in</b>:: siehe allgemeine Beschreibung des Attendee
|
54
|
-
# <b>out</b>:: siehe allgemeine Beschreibung des Attendee
|
55
|
-
#
|
56
|
-
# === Beispiele
|
57
|
-
# Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
|
58
|
-
# meeting:
|
59
|
-
# attendees:
|
60
|
-
# - text_reader: { out: lines, files: '$(files)' }
|
61
|
-
# - tokenizer: { in: lines, out: token }
|
62
|
-
# - word_searcher: { in: token, out: words, source: 'sys-dic' }
|
63
|
-
# - noneword_filter: { in: words, out: filtr }
|
64
|
-
# - debugger: { in: filtr, prompt: 'out>' }
|
65
|
-
# ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
|
66
|
-
# out> *FILE('test.txt')
|
67
|
-
# out> "lingo"
|
68
|
-
# out> *EOF('test.txt')
|
69
|
-
#++
|
70
|
-
|
71
|
-
class NonewordFilter < self
|
72
|
-
|
73
|
-
def init
|
74
|
-
@sort = get_key('sort', !ENV['LINGO_NO_SORT'])
|
75
|
-
@dict = get_key('dict', false)
|
76
|
-
@dict = '=' if @dict == true
|
77
|
-
|
78
|
-
@nonewords = []
|
79
|
-
end
|
80
|
-
|
81
|
-
def control(cmd, *)
|
82
|
-
case cmd
|
83
|
-
when :FILE then @nonewords.clear
|
84
|
-
when :EOL then :skip_command
|
85
|
-
when :RECORD then send_nonewords unless @dict
|
86
|
-
when :EOF then send_nonewords
|
87
|
-
end
|
88
|
-
end
|
89
|
-
|
90
|
-
def process(obj)
|
91
|
-
if obj.is_a?(Word) && obj.unknown?
|
92
|
-
non = Unicode.downcase(obj.form)
|
93
|
-
non = "#{non}#{@dict}#{non} #?" if @dict
|
94
|
-
@sort ? @nonewords << non : forward(non)
|
95
|
-
end
|
96
|
-
end
|
97
|
-
|
98
|
-
private
|
99
|
-
|
100
|
-
def send_nonewords
|
101
|
-
unless @nonewords.empty?
|
102
|
-
@nonewords.uniq!
|
103
|
-
flush(@nonewords.sort!)
|
104
|
-
end
|
105
|
-
end
|
106
|
-
|
107
|
-
end
|
108
|
-
|
109
|
-
# For backwards compatibility.
|
110
|
-
Nonewordfilter = NonewordFilter
|
111
|
-
Noneword_filter = NonewordFilter
|
112
|
-
|
113
|
-
end
|
114
|
-
|
115
|
-
end
|
@@ -1,15 +0,0 @@
|
|
1
|
-
# encoding: utf-8
|
2
|
-
|
3
|
-
require_relative '../test_helper'
|
4
|
-
|
5
|
-
class TestAttendeeNonewordFilter < AttendeeTestCase
|
6
|
-
|
7
|
-
def test_basic
|
8
|
-
meet({}, [
|
9
|
-
wd('Eins|IDF'), wd('Zwei|?'), wd('Drei|IDF'), wd('Vier|?'), ai('EOF|'), ai('EOT|')
|
10
|
-
], [
|
11
|
-
'vier', 'zwei', ai('EOF|'), ai('EOT|')
|
12
|
-
])
|
13
|
-
end
|
14
|
-
|
15
|
-
end
|