RubyGems - lingo - Versions diffs - 1.8.1 → 1.8.2 - Mend

lingo 1.8.1 → 1.8.2

Files changed (99) hide show

data/ChangeLog +23 -5
data/README +1 -1
data/Rakefile +5 -7
data/TODO +2 -0
data/bin/lingo +5 -1
data/de.lang +1 -1
data/en/lingo-syn.txt +0 -0
data/en.lang +2 -1
data/lib/lingo/attendee/abbreviator.rb +8 -9
data/lib/lingo/attendee/debugger.rb +5 -4
data/lib/lingo/attendee/decomposer.rb +8 -3
data/lib/lingo/attendee/dehyphenizer.rb +19 -63
data/lib/lingo/attendee/formatter.rb +1 -1
data/lib/lingo/attendee/multi_worder.rb +67 -155
data/lib/lingo/attendee/noneword_filter.rb +16 -9
data/lib/lingo/attendee/object_filter.rb +1 -1
data/lib/lingo/attendee/sequencer.rb +32 -63
data/lib/lingo/attendee/stemmer/porter.rb +343 -0
data/{info/gpl-hdr.txt → lib/lingo/attendee/stemmer.rb} +33 -0
data/lib/lingo/attendee/synonymer.rb +10 -9
data/lib/lingo/attendee/text_reader.rb +102 -76
data/lib/lingo/attendee/text_writer.rb +23 -26
data/lib/lingo/attendee/tokenizer.rb +13 -27
data/lib/lingo/attendee/variator.rb +26 -66
data/lib/lingo/attendee/vector_filter.rb +42 -43
data/lib/lingo/attendee/word_searcher.rb +6 -7
data/lib/lingo/attendee.rb +25 -7
data/lib/lingo/buffered_attendee.rb +36 -10
data/lib/lingo/cachable.rb +8 -8
data/lib/lingo/config.rb +5 -6
data/lib/lingo/ctl.rb +2 -3
data/lib/lingo/database/crypter.rb +9 -26
data/lib/lingo/database/gdbm_store.rb +3 -5
data/lib/lingo/database/libcdb_store.rb +4 -6
data/lib/lingo/database/sdbm_store.rb +11 -6
data/lib/lingo/database/show_progress.rb +3 -43
data/lib/lingo/database/source/key_value.rb +2 -6
data/lib/lingo/database/source/multi_key.rb +3 -5
data/lib/lingo/database/source/multi_value.rb +2 -6
data/lib/lingo/database/source/single_word.rb +4 -6
data/lib/lingo/database/source/word_class.rb +4 -10
data/lib/lingo/database/source.rb +20 -18
data/lib/lingo/database.rb +84 -59
data/lib/lingo/error.rb +57 -1
data/lib/lingo/language/dictionary.rb +21 -18
data/lib/lingo/language/grammar.rb +40 -49
data/lib/lingo/language/lexical.rb +6 -6
data/lib/lingo/language/lexical_hash.rb +6 -0
data/lib/lingo/language/word.rb +32 -15
data/lib/lingo/language/word_form.rb +1 -1
data/lib/lingo/language.rb +14 -25
data/lib/lingo/reportable.rb +12 -10
data/lib/lingo/show_progress.rb +81 -0
data/lib/lingo/version.rb +1 -1
data/lib/lingo.rb +63 -24
data/lingo-call.cfg +6 -10
data/lingo.cfg +60 -44
data/lir.cfg +42 -41
data/test/attendee/ts_abbreviator.rb +3 -5
data/test/attendee/ts_decomposer.rb +3 -5
data/test/attendee/ts_multi_worder.rb +87 -145
data/test/attendee/ts_noneword_filter.rb +5 -3
data/test/attendee/ts_object_filter.rb +5 -3
data/test/attendee/ts_sequencer.rb +3 -5
data/test/attendee/ts_stemmer.rb +309 -0
data/test/attendee/ts_synonymer.rb +15 -11
data/test/attendee/ts_text_reader.rb +12 -15
data/test/attendee/ts_text_writer.rb +24 -29
data/test/attendee/ts_tokenizer.rb +9 -7
data/test/attendee/ts_variator.rb +4 -4
data/test/attendee/ts_vector_filter.rb +24 -16
data/test/attendee/ts_word_searcher.rb +20 -36
data/test/{lir.csv → lir.vec} +0 -0
data/test/ref/artikel.vec +943 -943
data/test/ref/artikel.ven +943 -943
data/test/ref/lir.non +201 -201
data/test/ref/lir.seq +178 -178
data/test/ref/lir.syn +49 -49
data/test/ref/lir.vec +329 -0
data/test/test_helper.rb +20 -36
data/test/ts_database.rb +10 -10
data/test/ts_language.rb +279 -319
metadata +93 -104
data/info/Objekte.png +0 -0
data/info/Typen.png +0 -0
data/info/database.png +0 -0
data/info/db_small.png +0 -0
data/info/download.png +0 -0
data/info/kerze.png +0 -0
data/info/language.png +0 -0
data/info/lingo.png +0 -0
data/info/logo.png +0 -0
data/info/meeting.png +0 -0
data/info/types.png +0 -0
data/lingo-all.cfg +0 -89
data/porter/stem.cfg +0 -311
data/porter/stem.rb +0 -150
data/test/ref/lir.csv +0 -329
data/test.cfg +0 -79

data/ChangeLog CHANGED Viewed

@@ -1,5 +1,23 @@
 = Revision history for Lingo
+== 1.8.2 [2012-04-19]
+* Performance improvements regarding Attendee::VectorFilter's (as well as
+  Attendee::NonewordFilter's) memory usage; set <tt>sort: false</tt> in the config.
+* Added Attendee::Stemmer (implementing Porter's algorithm for suffix stripping).
+* Added progress reporting to Attendee::TextReader; set <tt>progress: true</tt>
+  in the config.
+* Added directory and glob processing to Attendee::TextReader (new options
+  +glob+ and +recursive+).
+* Renamed Attendee::TextReader's option +lir-record-pattern+ to +records+.
+* Fixed Attendee::Debugger to forward all objects so it can be inserted
+  between any two attendees in the config.
+* Fixed regression introduced in 1.8.0 where Lingo would not use existing
+  compiled dictionary when source file is not present.
+* Fixed "invalid byte sequence in UTF-8" on Windows for SDBM store.
+* Enabled pluggable (compiled) dictionaries and storage backends.
+* Extensive internal refactoring and cleanup. (Finished for now.)
 == 1.8.1 [2012-02-19]
 * Introduced alternative storage backends, mainly to circumvent SDBM's record
@@ -62,13 +80,13 @@
   (requires diff-lcs[http://raa.ruby-lang.org/project/diff-lcs/]).
 * Provide alternatives to standard zip command on windows platforms.
 * Use +UNK+ itself if it doesn't have any lexicals.
-* Use compo form instead of word form when lexicalizing compositum entry for
+* Use compo form instead of word form when lexicalizing compound entry for
   multiword dictionaries.
 * LexicalHash#[] must use target (not source) form.
 * Optionally, try to find matches for all lexicals a word has.
 * Make '-' a PRINTABLE_CHAR.
 * Allow synonyms to be considered for multiword matching.
-* Don't use compositum parts.
+* Don't use compound parts.
 * Introduced some (more or less arbitrary) line length limit. We can only
   store values of a certain length anyway (with SDBM). Entries exceeding this
   limit will be rejected and logged in the .rev file.
@@ -252,12 +270,12 @@
 * <b>Decomposer mit zusätzlicher Validitätsprüfung und Kennzeichnung</b>
   Der Decomposer kann bei Bedarf Komposita einer zusätzlichen Prüfung unterziehen.
-  Ist der Schlüssel <tt>de.lang:language/dictionary/compositum/skip-sequences</tt>
+  Ist der Schlüssel <tt>de.lang:language/dictionary/compound/skip-sequences</tt>
   angegeben, der z.B. in der Form <tt>skip-sequences: [ VS ]</tt> definiert wird,
   wird zusätzlich geprüft, ob das Kompositum mit seinen Teilen diesen Wortklassen
   entspricht. Hiernach werden Komposita verworfen, die aus Verb-Substantiv-Kombination
   bestehen. Die Angabe des Parameters ist optional.
-  Zusätzlich werden bei Angabe des Schlüssels <tt>de.lang:language/dictionary/compositum/append-wordclass</tt>,
+  Zusätzlich werden bei Angabe des Schlüssels <tt>de.lang:language/dictionary/compound/append-wordclass</tt>,
   der i.d.R einen ein Zeichen langen String enthält, die durch Zerlegung erkannten
   Wortstämme markiert, in dem ihre Wortklasse das über diesen Schlüssel definierte
   Zeichen angehangen bekommt.
@@ -476,7 +494,7 @@
 * <b>Kompositum-Zerlegung mit weiterer Einschränkung</b>
   Ein weiterer Parameter ist für die Kompositumzerlegung hinzugekommen. Als
-  Attribute des Tags <tt>XML:dictionary/compositum</tt> können jetzt angegeben werden:
+  Attribute des Tags <tt>XML:dictionary/compound</tt> können jetzt angegeben werden:
     Attribut          Default    Funktion
     ============================================================================

data/README CHANGED Viewed

@@ -25,7 +25,7 @@
 == VERSION
-This documentation refers to Lingo version 1.8.1
+This documentation refers to Lingo version 1.8.2
 == DESCRIPTION

data/Rakefile CHANGED Viewed

@@ -39,10 +39,8 @@ The main functions of Lingo are:
   of word classes
       EOT
       extra_files:  FileList[
-        'lingo.rb', 'lingo{,-all,-call}.cfg', 'lingo.opt', 'doc/**/*',
-        '{de,en}.lang', '{de,en}/{lingo-*,user-dic}.txt', 'txt/artikel{,-en}.txt',
-        'info/gpl-hdr.txt', 'info/*.png', 'lir.cfg', 'txt/lir.txt', 'porter/*',
-        'test.cfg', '{de,en}/test_*.txt'
+        'lingo.rb', 'lingo{,-call}.cfg', 'lir.cfg', '{de,en}.lang',
+        '{de,en}/{lingo-*,user-dic,test_*}.txt', 'txt/{artikel{,-en},lir}.txt'
       ].to_a,
       required_ruby_version:    '>= 1.9',
       dependencies:             [['ruby-nuggets', '>= 0.8.5'], 'unicode', 'highline'],
@@ -54,7 +52,7 @@ rescue LoadError => err
 end
 CLEAN.include(
-  'txt/*.{log,mul,non,seq,syn,ve?,csv}',
+  'txt/*.{log,mul,non,seq,ste,syn,ve?}',
   'test/{test.*,text.non}',
   'store/*/*.rev',
   'bench/tmp.*'
@@ -78,7 +76,7 @@ end
 desc 'Test against reference file (TXT)'
 task 'test:txt' do
-  test_ref('artikel', 'test')
+  test_ref('artikel', 'lingo')
 end
 desc 'Test against reference file (LIR)'
@@ -116,7 +114,7 @@ def test_ref(name, cfg = name)
   }.success? or abort msg.join("\n\n")
   Dir["test/ref/#{name}.*"].each { |ref|
-    puts "#{'#' * 60} #{org = ref.sub(/test\/ref/, 'txt')}"
+    puts "## #{org = ref.sub(/test\/ref/, 'txt')}"
     continue += Diff::LCS::Ldiff.run(ARGV.clear << '-a' << org << ref)
   }

data/TODO CHANGED Viewed

@@ -1,5 +1,7 @@
 = ToDo list for Lingo
+* Configuration parameter validation.
+* Replace regex-based tokenizer with a (Racc/Ragel/ANTLR-based?) lexer.
 * Update and translate old documentation.
 * Allow for handling of documents in various encodings, not just the one the
   dictionaries are encoded in.

data/bin/lingo CHANGED Viewed

@@ -26,4 +26,8 @@
 require 'lingo'
-Lingo.talk
+begin
+  Lingo.talk
+rescue Lingo::LingoError => err
+  $VERBOSE ? raise : abort(err.to_s)
+end

data/de.lang CHANGED Viewed

@@ -65,7 +65,7 @@ language:
       tst-cry: { name: de/test_cry.txt, txt-format: WordClass, crypt } #  TEST: Verschlüsselung
       tst-sgw: { name: de/test_singleword.txt, txt-format: SingleWord } #  TEST: SingleWord-Format
-    compositum:
+    compound:
       min-word-size: "7"
       min-part-size: "3"
       max-parts: "5"

data/en/lingo-syn.txt ADDED Viewed

File without changes

data/en.lang CHANGED Viewed

@@ -52,12 +52,13 @@ language:
       #    Systemwörterbücher
       sys-dic: { name: en/lingo-dic.txt, txt-format: WordClass, separator: '=' }
+      sys-syn: { name: en/lingo-syn.txt, txt-format: KeyValue, separator: '=', def-wc: y }
       sys-mul: { name: en/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
       #    Benutzerwörterbücher
       usr-dic: { name: en/user-dic.txt, txt-format: WordClass, separator: '=' }
-    compositum:
+    compound:
       min-word-size: "7"
       min-part-size: "3"
       max-parts: "5"

data/lib/lingo/attendee/abbreviator.rb CHANGED Viewed

@@ -76,17 +76,15 @@ class Lingo
         set_dic
       end
-      def control(cmd, par)
-        @dic.report.each_pair { |key, value| set(key, value) } if cmd == STR_CMD_STATUS
-        # Jedes Control-Object ist auch Auslöser der Verarbeitung
+      def control(cmd, param)
+        report_on(cmd, @dic)
         process_buffer
       end
       private
       def process_buffer?
-        @buffer[-1].kind_of?(Token) && @buffer[-1].form == CHAR_PUNCT
+        form_at(-1, Token) == CHAR_PUNCT
       end
       def process_buffer
@@ -95,13 +93,14 @@ class Lingo
           return
         end
-        # Wort vor dem Punkt im Abkürzungswörterbuch suchen
-        if @buffer[-2].kind_of?(Token)
+        if form = form_at(-2, Token)
           inc('Anzahl gesuchter Abkürzungen')
-          abbr = @dic.find_word(@buffer[-2].form)
-          if abbr.identified?
+          if (abbr = find_word(form)).identified?
             inc('Anzahl gefundener Abkürzungen')
             abbr.form += CHAR_PUNCT
             @buffer[-2] = abbr
             @buffer.delete_at(-1)
           end

data/lib/lingo/attendee/debugger.rb CHANGED Viewed

@@ -95,14 +95,15 @@ class Lingo
         @prompt   = get_key('prompt', 'lex:) ')
       end
-      def control(cmd, par)
-        if cmd != STR_CMD_STATUS
-          @lingo.warn "#{@prompt} #{AgendaItem.new(cmd, par).inspect}" if eval(@cmd_eval)
+      def control(cmd, param)
+        if cmd != STR_CMD_STATUS && eval(@cmd_eval)
+          warn "#{@prompt} #{AgendaItem.new(cmd, param).inspect}"
         end
       end
       def process(obj)
-        @lingo.warn "#{@prompt} #{obj.inspect}" if eval(@obj_eval)
+        warn "#{@prompt} #{obj.inspect}" if eval(@obj_eval)
+        forward(obj)
       end
     end

data/lib/lingo/attendee/decomposer.rb CHANGED Viewed

@@ -79,12 +79,17 @@ class Lingo
         set_gra
       end
-      def control(cmd, par)
-        @gra.report.each { |key, val| set(key, val) } if cmd == STR_CMD_STATUS
+      def control(cmd, param)
+        report_on(cmd, @gra)
       end
       def process(obj)
-        forward(obj.is_a?(Word) && obj.unknown? ? @gra.find_compositum(obj.form) : obj)
+        if obj.is_a?(Word) && obj.unknown?
+          com = @gra.find_compound(obj.form)
+          obj = com unless com.unknown?
+        end
+        forward(obj)
       end
     end

data/lib/lingo/attendee/dehyphenizer.rb CHANGED Viewed

@@ -41,9 +41,6 @@ class Lingo
     # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
     # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
     # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
-    # <b><i>stopper</i></b>:: (Standard: TA_PUNCTUATION, TA_OTHER) Gibt die Begrenzungen an, zwischen
-    #                         denen der Multiworder suchen soll, i.d.R. Satzzeichen und Sonderzeichen,
-    #                         weil sie kaum in einer Mehrwortgruppen vorkommen.
     #
     # === Beispiele
     # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
@@ -74,87 +71,46 @@ class Lingo
       protected
       def init
-        @stopper = get_array('stopper', TA_PUNCTUATION+','+TA_OTHER).map(&:upcase)
         set_dic
         set_gra
-        @skip = get_array('skip', '').map(&:downcase)
-        @number_of_expected_tokens_in_buffer = 2
-        @eof_handling = false
-      end
+        @skip = get_array('skip', '', :downcase)
-      def control(cmd, par)
-        @dic.report.each_pair { |key, value| set(key, value) } if cmd == STR_CMD_STATUS
-        # Jedes Control-Object ist auch Auslöser der Verarbeitung
-        if cmd == STR_CMD_RECORD || cmd == STR_CMD_EOF
-          @eof_handling = true
-          while number_of_valid_tokens_in_buffer > 1
-            process_buffer
-          end
-          forward_number_of_token( @buffer.size, false )
-          @eof_handling = false
-        end
+        @expected_tokens_in_buffer, @eof_handling = 2, false
       end
-      def process_buffer?
-        number_of_valid_tokens_in_buffer >= @number_of_expected_tokens_in_buffer
+      def control(cmd, param)
+        control_multi(cmd)
       end
       def process_buffer
-        if @buffer[0].is_a?(Word) &&
-          @buffer[0].form[-1..-1] == '-' &&
-          @buffer[1].is_a?(Word) &&
-          !(!( ttt = @buffer[1].get_class(/./) ).nil? &&
-          !@skip.index( ttt[0].attr ).nil?)
-          # Einfache Zusammensetzung versuchen
-          form = @buffer[0].form[0...-1] + @buffer[1].form
-          word = @dic.find_word(form)
-          word = @gra.find_compositum(form) unless word.identified?
-          unless word.identified? || (word.attr == WA_KOMPOSITUM && word.get_class('x+').empty?)
-            # Zusammensetzung mit Bindestrich versuchen
-            form = @buffer[0].form + @buffer[1].form
-            word = @dic.find_word(form)
-             word = @gra.find_compositum(form) unless word.identified?
-          end
+        a, b, h = *ab = @buffer.values_at(0, 1), '-'
-          unless word.identified? || (word.attr == WA_KOMPOSITUM && word.get_class('x+').empty?)
-            # Zusammensetzung mit Bindestrich versuchen
-            form = @buffer[0].form + @buffer[1].form
-            word = @dic.find_word(form)
-            word = @gra.find_compositum(form) unless word.identified?
-          end
+        if ab.all? { |i| i.is_a?(Word) } && a.form[-1, 1] == h && !(
+          (c = b.get_class(/./).first) && @skip.include?(c.attr)
+        )
+          a, b = ab.map!(&:form)
-          if word.identified? || (word.attr == WA_KOMPOSITUM && word.get_class('x+').empty?)
+          word = dehyphenize(a.chomp(h) + b)
+          word = dehyphenize(a          + b) unless dehyphenized?(word)
+          if dehyphenized?(word)
             @buffer[0] = word
-            @buffer.delete_at( 1 )
+            @buffer.delete_at(1)
           end
         end
-        # Buffer weiterschaufeln
-        forward_number_of_token( 1, false )
+        forward_number_of_token(1, false)
       end
       private
-      # Leitet 'len' Token weiter
-      def forward_number_of_token( len, count_punc = true )
-        begin
-          unless @buffer.empty?
-            forward( @buffer[0] )
-            len -= 1 unless count_punc && @buffer[0].form == CHAR_PUNCT
-            @buffer.delete_at( 0 )
-          end
-        end while len > 0
+      def dehyphenize(form)
+        find_word(form, &:identified?)
       end
-      # Liefert die Anzahl gültiger Token zurück
-      def number_of_valid_tokens_in_buffer
-        @buffer.collect { |token| (token.form == CHAR_PUNCT) ? nil : 1 }.compact.size
+      def dehyphenized?(word)
+        word.identified? || word.full_compound?
       end
     end

data/lib/lingo/attendee/formatter.rb CHANGED Viewed

@@ -43,7 +43,7 @@ class Lingo
       end
       def process(obj)
-        if obj.is_a?(Word) || obj.is_a?(Token)
+        if obj.is_a?(WordForm)
           str = obj.form
           if obj.respond_to?(:lexicals)

data/lib/lingo/attendee/multi_worder.rb CHANGED Viewed

@@ -48,9 +48,6 @@ class Lingo
     # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
     # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
     # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
-    # <b><i>stopper</i></b>:: (Standard: TA_PUNCTUATION, TA_OTHER) Gibt die Begrenzungen an, zwischen
-    #                         denen der MultiWorder suchen soll, i.d.R. Satzzeichen und Sonderzeichen,
-    #                         weil sie kaum in einer Mehrwortgruppen vorkommen.
     #
     # === Beispiele
     # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
@@ -81,216 +78,131 @@ class Lingo
       protected
       def init
-        @stopper = get_array('stopper', TA_PUNCTUATION+','+TA_OTHER).map(&:upcase)
-        @mul_dic = dictionary(mul_src = get_array('source'), get_key('mode', 'all'))
         # combine lexical variants?
         #
         # false = old behaviour
         # true  = first match
         # 'all' = all matches
-        @combine  = get_key('combine', false)
-        @all_keys = @combine.is_a?(String) && @combine.downcase == 'all'
+        @combine = get_key('combine', false)
+        @all     = @combine.is_a?(String) && @combine.downcase == 'all'
+        lex_src, lex_mod, d = nil, nil, @lingo.dictionary_config['databases']
-        lex_src, lex_mod, databases = nil, nil, @lingo.dictionary_config['databases']
+        (mul_src = get_array('source')).each { |src|
+          s, m = d[src].values_at('use-lex', 'lex-mode')
-        mul_src.each { |src|
-          this_src, this_mod = databases[src].values_at('use-lex', 'lex-mode')
-          if lex_src.nil? || lex_src == this_src
-            lex_src, lex_mod = this_src, this_mod
+          if lex_src.nil? || lex_src == s
+            lex_src, lex_mod = s, m
           else
-            @lingo.warn "#{self.class}: Dictionaries don't match: #{mul_src.join(',')}"
+            warn "#{self.class}: Dictionaries don't match: #{mul_src.join(',')}"
           end
         }
-        lex_src = lex_src.split(STRING_SEPARATOR_RE)
+        lex_src = lex_src.split(SEP_RE)
         lex_mod = get_key('lex-mode', lex_mod || 'first')
+        @mul_dic = dictionary(mul_src, get_key('mode', 'all'))
         @lex_dic = dictionary(lex_src, lex_mod)
         @lex_gra = grammar(lex_src, lex_mod)
-        if @combine && has_key?('use-syn')
-          @syn_dic = dictionary(get_array('use-syn'), get_key('syn-mode', 'all'))
+        @syn_dic = if @combine && has_key?('use-syn')
+          dictionary(get_array('use-syn'), get_key('syn-mode', 'all'))
         end
-        @number_of_expected_tokens_in_buffer = 3
-        @eof_handling = false
+        @expected_tokens_in_buffer, @eof_handling = 3, false
       end
-      def control(cmd, par)
-        @mul_dic.report.each_pair { |key, value| set(key, value) } if cmd == STR_CMD_STATUS
-        # Jedes Control-Object ist auch Auslöser der Verarbeitung
-        if cmd == STR_CMD_RECORD || cmd == STR_CMD_EOF
-          @eof_handling = true
-          while number_of_valid_tokens_in_buffer > 1
-            process_buffer
-          end
-          forward_number_of_token( @buffer.size, false )
-          @eof_handling = false
-        end
-      end
-      def process_buffer?
-        number_of_valid_tokens_in_buffer >= @number_of_expected_tokens_in_buffer
+      def control(cmd, param)
+        control_multi(cmd, @mul_dic)
       end
       def process_buffer
-        unless @buffer[0].form == CHAR_PUNCT
-          # Prüfe 3er Schlüssel
-          result = check_multiword_key( 3 )
-          unless result.empty?
-            # 3er Schlüssel gefunden
-            lengths = sort_result_len( result )
-            unless lengths[0] > 3
-              # Längster erkannter Schlüssel = 3
-              create_and_forward_multiword( 3, result )
-              forward_number_of_token( 3 )
-              return
+        unless form_at(0) == CHAR_PUNCT
+          unless (res = check_multiword_key(3)).empty?
+            len = res.map { |r|
+              r.is_a?(Lexical) ? r.form.split(' ').size : r[/^\*(\d+)/, 1].to_i
+            }.sort!.reverse!
+            unless (max = len.first) > 3
+              create_and_forward_multiword(3, res)
+              forward_number_of_token(3)
             else
-              # Längster erkannter Schlüssel > 3, Buffer voll genug?
-              unless @buffer.size >= lengths[0] || @eof_handling
-                @number_of_expected_tokens_in_buffer = lengths[0]
-                return
+              unless @eof_handling || @buffer.size >= max
+                @expected_tokens_in_buffer = max
               else
-                # Buffer voll genug, Verarbeitung kann beginnen
-                catch( :forward_one ) do
-                  lengths.each do |len|
-                    result = check_multiword_key( len )
-                    unless result.empty?
-                      create_and_forward_multiword( len, result )
-                      forward_number_of_token( len )
-                      throw :forward_one
-                    end
-                  end
-                  # Keinen Match gefunden
-                  forward_number_of_token( 1 )
-                end
-                @number_of_expected_tokens_in_buffer = 3
+                forward_number_of_token(len.find { |l|
+                  r = check_multiword_key(l)
+                  create_and_forward_multiword(l, r) unless r.empty?
+                } || 1)
+                @expected_tokens_in_buffer = 3
                 process_buffer if process_buffer?
-                return
               end
             end
+            return
           end
-          # Prüfe 2er Schlüssel
-          result = check_multiword_key( 2 )
-          unless result.empty?
-            create_and_forward_multiword( 2, result )
-            forward_number_of_token( 1 )
+          unless (res = check_multiword_key(2)).empty?
+            create_and_forward_multiword(2, res)
+            forward_number_of_token(1)
           end
         end
-        # Buffer weiterschaufeln
-        forward_number_of_token( 1, false )
-        @number_of_expected_tokens_in_buffer = 3
+        forward_number_of_token(1, false)
+        @expected_tokens_in_buffer = 3
       end
       private
-      def create_and_forward_multiword( len, lexicals )
-        # Form aus Buffer auslesen und Teile markieren
-        pos = 0
-        form_parts = []
+      def create_and_forward_multiword(len, lex)
+        pos, parts = 0, []
         begin
-          if @buffer[pos].form == CHAR_PUNCT
-            @buffer.delete_at( pos )
-            form_parts[-1] += CHAR_PUNCT
+          if (form = form_at(pos)) == CHAR_PUNCT
+            @buffer.delete_at(pos)
+            parts[-1] += CHAR_PUNCT
           else
             @buffer[pos].attr = WA_UNKMULPART if @buffer[pos].unknown?
-            form_parts << @buffer[pos].form
+            parts << form
             pos += 1
           end
         end while pos < len
-        form = form_parts.join( ' ' )
-        # Multiword erstellen
-        word = Word.new( form, WA_MULTIWORD )
-        word << lexicals.collect { |lex| (lex.is_a?(Lexical)) ? lex : nil }.compact  # FIXME 1.60 - Ausstieg bei "*5" im Synonymer
-        # Forword Multiword
-        forward( word )
-      end
-      # Leitet 'len' Token weiter
-      def forward_number_of_token( len, count_punc = true )
-        begin
-          unless @buffer.empty?
-            forward( @buffer[0] )
-            len -= 1 unless count_punc && @buffer[0].form == CHAR_PUNCT
-            @buffer.delete_at( 0 )
-          end
-        end while len > 0
-      end
-      # Ermittelt die maximale Ergebnislänge
-      def sort_result_len( result )
-        result.collect do |res|
-          if res.is_a?( Lexical )
-            res.form.split( ' ' ).size
-          else
-            res =~ /^\*(\d+)/
-            $1.to_i
-          end
-        end.sort.reverse
+        forward(Word.new_lexicals(parts.join(' '),
+          WA_MULTIWORD, lex.select { |l| l.is_a?(Lexical) }))
       end
       # Prüft einen definiert langen Schlüssel ab Position 0 im Buffer
-      def check_multiword_key( len )
-        return [] if number_of_valid_tokens_in_buffer < len
+      def check_multiword_key(len)
+        return [] if valid_tokens_in_buffer < len
-        # Wortformen aus der Wortliste auslesen
-        sequence = @buffer.map { |obj|
+        seq = @buffer.map { |obj|
           next [obj] unless obj.is_a?(WordForm)
+          next if (form = obj.form) == CHAR_PUNCT
-          form = obj.form
-          next if form == CHAR_PUNCT
-          word = @lex_dic.find_word(form)
-          word = @lex_gra.find_compositum(form) if word.unknown?
-          lexicals = word.attr == WA_KOMPOSITUM ?
-            [word.lexicals.first] : word.lexicals.dup
-          lexicals << word if lexicals.empty?
-          lexicals += @syn_dic.find_synonyms(word) if @syn_dic
-          lexicals.map { |lex| lex.form }.uniq
-        }.compact[0, len]
-        if @combine
-          keys, muls = [], []
+          w = find_word(form, @lex_dic, @lex_gra)
+          l = w.lexicals
-          sequence.each { |forms|
-            keys = forms.map { |form|
-              keys.empty? ? form : keys.map { |key| "#{key} #{form}" }
-            }.flatten(1)
+          (w.attr == WA_COMPOUND ? [l.first] : l.empty? ? [w] : l.dup).tap { |i|
+            i.concat(@syn_dic.find_synonyms(w)) if @syn_dic
+            i.map! { |j| j.form.downcase }.uniq!
           }
+        }
-          keys.each { |key|
-            mul = @mul_dic.select(key.downcase)
-            unless mul.empty?
-              muls.concat(mul)
-              break unless @all_keys
-            end
-          }
+        seq.compact!
+        seq.slice!(len..-1)
-          muls.uniq
+        if @combine
+          [].tap { |mul| seq.shift.product(*seq) { |key|
+            mul.concat(@mul_dic.select(key.join(' ')))
+            break unless @all_keys || mul.empty?
+          } && mul.uniq! }
         else
-          key = sequence.map { |forms| forms.first }.join(' ')
-          @mul_dic.select(key.downcase)
+          @mul_dic.select(seq.map!(&:first).join(' '))
         end
       end
-      # Liefert die Anzahl gültiger Token zurück
-      def number_of_valid_tokens_in_buffer
-        @buffer.collect { |token| (token.form == CHAR_PUNCT) ? nil : 1 }.compact.size
-      end
     end
     # For backwards compatibility.