RubyGems - lingo - Versions diffs - 1.8.0 → 1.8.1 - Mend

lingo 1.8.0 → 1.8.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (100) hide show

data/ChangeLog +13 -0
data/README +49 -29
data/Rakefile +28 -4
data/TODO +2 -9
data/bin/lingo +24 -0
data/bin/lingoctl +24 -0
data/de/lingo-dic.txt +559 -74
data/info/gpl-hdr.txt +21 -24
data/lib/lingo.rb +83 -112
data/lib/lingo/agenda_item.rb +53 -0
data/lib/lingo/attendee.rb +261 -0
data/lib/lingo/attendee/abbreviator.rb +95 -97
data/lib/lingo/attendee/debugger.rb +94 -93
data/lib/lingo/attendee/decomposer.rb +76 -83
data/lib/lingo/attendee/dehyphenizer.rb +141 -144
data/lib/lingo/attendee/formatter.rb +65 -0
data/lib/lingo/attendee/multi_worder.rb +302 -0
data/lib/lingo/attendee/noneword_filter.rb +89 -84
data/lib/lingo/attendee/object_filter.rb +91 -0
data/lib/lingo/attendee/sequencer.rb +159 -158
data/lib/lingo/attendee/synonymer.rb +81 -84
data/lib/lingo/attendee/text_reader.rb +242 -0
data/lib/lingo/attendee/text_writer.rb +169 -0
data/lib/lingo/attendee/tokenizer.rb +192 -191
data/lib/lingo/attendee/variator.rb +152 -156
data/lib/lingo/attendee/vector_filter.rb +140 -135
data/lib/lingo/attendee/word_searcher.rb +98 -0
data/lib/lingo/buffered_attendee.rb +69 -0
data/lib/lingo/cachable.rb +58 -0
data/lib/lingo/call.rb +72 -0
data/lib/lingo/cli.rb +26 -0
data/lib/lingo/config.rb +23 -26
data/lib/lingo/core_ext.rb +42 -0
data/lib/lingo/ctl.rb +239 -173
data/lib/lingo/database.rb +148 -496
data/lib/lingo/database/crypter.rb +85 -0
data/lib/lingo/database/gdbm_store.rb +49 -0
data/lib/lingo/database/hash_store.rb +67 -0
data/lib/lingo/database/libcdb_store.rb +58 -0
data/lib/lingo/database/sdbm_store.rb +64 -0
data/lib/lingo/database/show_progress.rb +81 -0
data/lib/lingo/database/source.rb +134 -0
data/lib/lingo/database/source/key_value.rb +62 -0
data/lib/lingo/database/source/multi_key.rb +65 -0
data/lib/lingo/database/source/multi_value.rb +65 -0
data/lib/lingo/database/source/single_word.rb +60 -0
data/lib/lingo/database/source/word_class.rb +64 -0
data/lib/lingo/error.rb +122 -0
data/lib/lingo/language.rb +78 -518
data/lib/lingo/language/dictionary.rb +173 -0
data/lib/lingo/language/grammar.rb +211 -0
data/lib/lingo/language/lexical.rb +66 -0
data/lib/lingo/language/lexical_hash.rb +88 -0
data/lib/lingo/language/token.rb +48 -0
data/lib/lingo/language/word.rb +130 -0
data/lib/lingo/language/word_form.rb +83 -0
data/lib/lingo/reportable.rb +59 -0
data/lib/lingo/version.rb +1 -1
data/lingo-all.cfg +14 -10
data/lingo-call.cfg +5 -5
data/lingo.cfg +14 -12
data/lingo.rb +26 -0
data/lir.cfg +13 -9
data/spec/spec_helper.rb +1 -0
data/test.cfg +11 -11
data/test/attendee/ts_abbreviator.rb +0 -6
data/test/attendee/ts_decomposer.rb +0 -6
data/test/attendee/{ts_multiworder.rb → ts_multi_worder.rb} +1 -7
data/test/attendee/ts_noneword_filter.rb +1 -7
data/test/attendee/{ts_objectfilter.rb → ts_object_filter.rb} +1 -7
data/test/attendee/ts_sequencer.rb +0 -6
data/test/attendee/ts_synonymer.rb +0 -6
data/test/attendee/{ts_textreader.rb → ts_text_reader.rb} +1 -7
data/test/attendee/{ts_textwriter.rb → ts_text_writer.rb} +1 -7
data/test/attendee/ts_tokenizer.rb +0 -6
data/test/attendee/ts_variator.rb +0 -6
data/test/attendee/ts_vector_filter.rb +1 -7
data/test/attendee/{ts_wordsearcher.rb → ts_word_searcher.rb} +1 -7
data/test/ref/artikel.non +2 -29
data/test/ref/artikel.seq +13 -8
data/test/ref/artikel.vec +30 -15
data/test/ref/artikel.ven +29 -14
data/test/ref/artikel.ver +58 -43
data/test/ref/lir.csv +146 -145
data/test/ref/lir.non +186 -210
data/test/ref/lir.seq +54 -50
data/test/test_helper.rb +41 -36
data/test/ts_database.rb +12 -11
data/test/ts_language.rb +118 -68
metadata +67 -29
data/lib/lingo/attendee/multiworder.rb +0 -301
data/lib/lingo/attendee/objectfilter.rb +0 -86
data/lib/lingo/attendee/textreader.rb +0 -237
data/lib/lingo/attendee/textwriter.rb +0 -196
data/lib/lingo/attendee/wordsearcher.rb +0 -96
data/lib/lingo/attendees.rb +0 -289
data/lib/lingo/const.rb +0 -131
data/lib/lingo/modules.rb +0 -98
data/lib/lingo/types.rb +0 -285
data/lib/lingo/utilities.rb +0 -40

data/lib/lingo/attendee/vector_filter.rb CHANGED

@@ -1,158 +1,163 @@
 # encoding: utf-8
 #--
-# LINGO ist ein Indexierungssystem mit Grundformreduktion, Kompositumzerlegung,
-# Mehrworterkennung und Relationierung.
-#
-# Copyright (C) 2005-2007 John Vorhauer
-# Copyright (C) 2007-2011 John Vorhauer, Jens Wille
-#
-# This program is free software; you can redistribute it and/or modify it under
-# the terms of the GNU Affero General Public License as published by the Free
-# Software Foundation; either version 3 of the License, or (at your option)
-# any later version.
-#
-# This program is distributed in the hope that it will be useful, but WITHOUT
-# ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS
-# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for more
-# details.
-#
-# You should have received a copy of the GNU Affero General Public License along
-# with this program; if not, write to the Free Software Foundation, Inc.,
-# 51 Franklin St, Fifth Floor, Boston, MA 02110, USA
-#
-# For more information visit http://www.lex-lingo.de or contact me at
-# welcomeATlex-lingoDOTde near 50°55'N+6°55'E.
-#
-# Lex Lingo rules from here on
+###############################################################################
+#                                                                             #
+# Lingo -- A full-featured automatic indexing system                          #
+#                                                                             #
+# Copyright (C) 2005-2007 John Vorhauer                                       #
+# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+#                                                                             #
+# Lingo is free software; you can redistribute it and/or modify it under the  #
+# terms of the GNU Affero General Public License as published by the Free     #
+# Software Foundation; either version 3 of the License, or (at your option)   #
+# any later version.                                                          #
+#                                                                             #
+# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY    #
+# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS   #
+# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for     #
+# more details.                                                               #
+#                                                                             #
+# You should have received a copy of the GNU Affero General Public License    #
+# along with Lingo. If not, see <http://www.gnu.org/licenses/>.               #
+#                                                                             #
+###############################################################################
 #++
 class Lingo
-  # Die Hauptaufgabe des Vector_filter ist die Erstellung eines Dokumenten-Index-Vektor.
-  # Dabei werden die durch die anderen Attendees ermittelten Grundformen eines Wortes
-  # gespeichert und bei einem Datei- oder Record-Wechsel weitergeleitet. Der Vector_filter
-  # kann bestimmte Wortklassen filtern und die Ergebnisse in verschiedenen Arten aufbereiten.
-  # Dabei werden Funktionen wie das einfache Zählen der Häufigkeit innerhalb eines Dokuments,
-  # aber auch die Term-Frequenz und unterschiedliche Ausgabeformate unterstützt.
-  #
-  # === Mögliche Verlinkung
-  # Erwartet:: Daten vom Typ *Word*, z.B. von Abbreviator, Wordsearcher, Decomposer, Synonymer, Multiworder, Sequencer
-  # Erzeugt:: Daten vom Typ *String*, z.B. für Textwriter
-  #
-  # === Parameter
-  # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
-  # Alle anderen Parameter müssen zwingend angegeben werden.
-  # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b><i>lexicals</i></b>:: (Standard: '[sy]' => die Wortklassen Substantiv und Synonyme werden gefiltert)
-  #                          Es können in eckige Klammern beliebige Wortklassen angegeben werden (siehe lib/strings.rb).
-  #                          Der Parameter wird als regulärer Ausdruck ausgewertet.
-  # <b><i>sort</i></b>:: (Standard: 'normal')
-  #                      Der Parameter +sort+ beeinflußt Verarbeitung und Ausgabeformat des Vector_filters.
-  #                      normal:: Jedes gefilterte Wort wird einmalig (keine Doppelnennungen!) in
-  #                               alphabetischer Reihenfolge in der Form "wort" ausgegeben.
-  #                      term_abs:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
-  #                                 der absoluten Häufigkeit im Dokument in der Form "12 wort" ausgegeben.
-  #                      term_rel:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
-  #                                 der relativen Häufigkeit im Dokument in der Form "0.1234 wort" ausgegeben.
-  #                      sto_abs:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
-  #                                der absoluten Häufigkeit im Dokument in der Form "wort {12}" ausgegeben.
-  #                      sto_rel:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
-  #                                der relativen Häufigkeit im Dokument in der Form "wort {0.1234}" ausgegeben.
-  # <b><i>skip</i></b>:: (Standard: TA_PUNCTUATION und TA_OTHER) Hiermit wird angegeben, welche Objekte nicht
-  #                      verarbeitet werden sollen. Die +skip+-Angabe bezieht sich auf das Attribut +attr+ von
-  #                      Token oder Word-Objekten.
-  #
-  # === Beispiele
-  # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
-  #   meeting:
-  #     attendees:
-  #       - textreader:   { out: lines, files: '$(files)' }
-  #       - tokenizer:    { in: lines, out: token }
-  #       - wordsearcher: { in: token, out: words, source: 'sys-dic' }
-  #       - vector_filter: { in: words, out: filtr, sort: 'term_rel' }
-  #       - debugger:     { in: filtr, prompt: 'out>' }
-  # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
-  #   out> *FILE('test.txt')
-  #   out> "0.28571 indexierung"
-  #   out> *EOF('test.txt')
-  class Attendee::Vector_filter < Attendee
-    protected
-    def init
-      @lexis = Regexp.new(get_key('lexicals', '[sy]').downcase)
-      @sort = get_key('sort', 'normal').downcase
-      @skip = get_array('skip', TA_PUNCTUATION+','+TA_OTHER).collect {|s| s.upcase }
-      @vectors = Array.new
-      @word_count = 0
-      if @debug = get_key('debug', false)
-        @prompt = get_key('prompt', 'lex:) ')
+  class Attendee
+    # Die Hauptaufgabe des VectorFilter ist die Erstellung eines Dokumenten-Index-Vektor.
+    # Dabei werden die durch die anderen Attendees ermittelten Grundformen eines Wortes
+    # gespeichert und bei einem Datei- oder Record-Wechsel weitergeleitet. Der VectorFilter
+    # kann bestimmte Wortklassen filtern und die Ergebnisse in verschiedenen Arten aufbereiten.
+    # Dabei werden Funktionen wie das einfache Zählen der Häufigkeit innerhalb eines Dokuments,
+    # aber auch die Term-Frequenz und unterschiedliche Ausgabeformate unterstützt.
+    #
+    # === Mögliche Verlinkung
+    # Erwartet:: Daten vom Typ *Word*, z.B. von Abbreviator, Wordsearcher, Decomposer, Synonymer, Multiworder, Sequencer
+    # Erzeugt:: Daten vom Typ *String*, z.B. für Textwriter
+    #
+    # === Parameter
+    # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
+    # Alle anderen Parameter müssen zwingend angegeben werden.
+    # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b><i>lexicals</i></b>:: (Standard: '[sy]' => die Wortklassen Substantiv und Synonyme werden gefiltert)
+    #                          Es können in eckige Klammern beliebige Wortklassen angegeben werden (siehe lib/strings.rb).
+    #                          Der Parameter wird als regulärer Ausdruck ausgewertet.
+    # <b><i>sort</i></b>:: (Standard: 'normal')
+    #                      Der Parameter +sort+ beeinflußt Verarbeitung und Ausgabeformat des VectorFilters.
+    #                      normal:: Jedes gefilterte Wort wird einmalig (keine Doppelnennungen!) in
+    #                               alphabetischer Reihenfolge in der Form "wort" ausgegeben.
+    #                      term_abs:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
+    #                                 der absoluten Häufigkeit im Dokument in der Form "12 wort" ausgegeben.
+    #                      term_rel:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
+    #                                 der relativen Häufigkeit im Dokument in der Form "0.1234 wort" ausgegeben.
+    #                      sto_abs:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
+    #                                der absoluten Häufigkeit im Dokument in der Form "wort {12}" ausgegeben.
+    #                      sto_rel:: Jedes gefilterte Wort wird einmalig in absteigender Häufigkeit mit Angabe
+    #                                der relativen Häufigkeit im Dokument in der Form "wort {0.1234}" ausgegeben.
+    # <b><i>skip</i></b>:: (Standard: TA_PUNCTUATION und TA_OTHER) Hiermit wird angegeben, welche Objekte nicht
+    #                      verarbeitet werden sollen. Die +skip+-Angabe bezieht sich auf das Attribut +attr+ von
+    #                      Token oder Word-Objekten.
+    #
+    # === Beispiele
+    # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
+    #   meeting:
+    #     attendees:
+    #       - text_reader:   { out: lines, files: '$(files)' }
+    #       - tokenizer:     { in: lines, out: token }
+    #       - word_searcher: { in: token, out: words, source: 'sys-dic' }
+    #       - vector_filter: { in: words, out: filtr, sort: 'term_rel' }
+    #       - debugger:      { in: filtr, prompt: 'out>' }
+    # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
+    #   out> *FILE('test.txt')
+    #   out> "0.28571 indexierung"
+    #   out> *EOF('test.txt')
+    class VectorFilter < self
+      protected
+      def init
+        @lexis = Regexp.new(get_key('lexicals', '[sy]').downcase)
+        @sort = get_key('sort', 'normal').downcase
+        @skip = get_array('skip', TA_PUNCTUATION+','+TA_OTHER).collect {|s| s.upcase }
+        @vectors = Array.new
+        @word_count = 0
+        if @debug = get_key('debug', false)
+          @prompt = get_key('prompt', 'lex:) ')
+        end
       end
-    end
-    def control(cmd, par)
-      case cmd
-        when STR_CMD_EOL
-          deleteCmd
-        when STR_CMD_FILE, STR_CMD_RECORD, STR_CMD_EOF
-          @debug ? @vectors.each { |str| forward(str) } : sendVector
-          @vectors.clear
+      def control(cmd, par)
+        case cmd
+          when STR_CMD_EOL
+            skip_command
+          when STR_CMD_FILE, STR_CMD_RECORD, STR_CMD_EOF
+            @debug ? @vectors.each(&method(:forward)) : sendVector
+            @vectors.clear
+        end
       end
-    end
-    def process(obj)
-      if @debug
-        @vectors << "#{@prompt} #{obj.inspect}" if eval(@debug)
-      elsif obj.is_a?(Word)
-        @word_count += 1 if @skip.index(obj.attr).nil?
-        unless obj.lexicals.nil?
-          lexis = obj.get_class(@lexis) #lexicals.collect { |lex| (lex.attr =~ @lexis) ? lex : nil }.compact # get_class(@lexis)
-          lexis.each { |lex| @vectors << lex.form.downcase }
-          add('Anzahl von Vektor-Wörtern', lexis.size)
+      def process(obj)
+        if @debug
+          @vectors << "#{@prompt} #{obj.inspect}" if eval(@debug)
+        elsif obj.is_a?(Word)
+          @word_count += 1 if @skip.index(obj.attr).nil?
+          unless obj.lexicals.nil?
+            lexis = obj.get_class(@lexis) #lexicals.collect { |lex| (lex.attr =~ @lexis) ? lex : nil }.compact # get_class(@lexis)
+            lexis.each { |lex| @vectors << lex.form.downcase }
+            add('Anzahl von Vektor-Wörtern', lexis.size)
+          end
         end
       end
-    end
-    private
-    def sendVector
-      return if @vectors.size==0
-      add('Objekte gefiltert', @vectors.size)
+      private
+      def sendVector
+        return if @vectors.size==0
+        add('Objekte gefiltert', @vectors.size)
+        # Array der Vector-Wörter zählen und nach Häufigkeit sortieren
+        if @sort=='normal'
+          @vectors = @vectors.compact.sort.uniq
+        else
+          cnt = Hash.new(0)
+          @vectors.compact.each { |e| cnt[e]+=1 }
+          @vectors = cnt.to_a.sort { |x,y|
+            if (y[1]<=>x[1])==0
+              x[0]<=>y[0]
+            else
+              y[1]<=>x[1]
+            end
+          }
+        end
-      # Array der Vector-Wörter zählen und nach Häufigkeit sortieren
-      if @sort=='normal'
-        @vectors = @vectors.compact.sort.uniq
-      else
-        cnt = Hash.new(0)
-        @vectors.compact.each { |e| cnt[e]+=1 }
-        @vectors = cnt.to_a.sort { |x,y|
-          if (y[1]<=>x[1])==0
-            x[0]<=>y[0]
-          else
-            y[1]<=>x[1]
+        # Vectoren je nach Parameter formatiert weiterleiten
+        @vectors.collect { |vec|
+          case @sort
+          when 'term_abs' then sprintf "%d %s", vec[1], vec[0]
+          when 'term_rel' then sprintf "%6.5f %s", vec[1].to_f/@word_count, vec[0]
+          when 'sto_abs'  then sprintf "%s {%d}", vec[0], vec[1]
+          when 'sto_rel'  then sprintf "%s {%6.5f}", vec[0], vec[1].to_f/@word_count
+          else sprintf "%s", vec
           end
-        }
-      end
+        }.each(&method(:forward))
-      # Vectoren je nach Parameter formatiert weiterleiten
-      @vectors.collect { |vec|
-        case @sort
-        when 'term_abs' then sprintf "%d %s", vec[1], vec[0]
-        when 'term_rel' then sprintf "%6.5f %s", vec[1].to_f/@word_count, vec[0]
-        when 'sto_abs'  then sprintf "%s {%d}", vec[0], vec[1]
-        when 'sto_rel'  then sprintf "%s {%6.5f}", vec[0], vec[1].to_f/@word_count
-        else sprintf "%s", vec
-        end
-      }.each { |str| forward(str) }
+        @word_count = 0 if @sort == 'sto_rel'
+      end
-      @word_count = 0 if @sort == 'sto_rel'
     end
+    # For backwards compatibility.
+    Vectorfilter  = VectorFilter
+    Vector_filter = VectorFilter
   end
 end

data/lib/lingo/attendee/word_searcher.rb ADDED

@@ -0,0 +1,98 @@
+# encoding: utf-8
+#--
+###############################################################################
+#                                                                             #
+# Lingo -- A full-featured automatic indexing system                          #
+#                                                                             #
+# Copyright (C) 2005-2007 John Vorhauer                                       #
+# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+#                                                                             #
+# Lingo is free software; you can redistribute it and/or modify it under the  #
+# terms of the GNU Affero General Public License as published by the Free     #
+# Software Foundation; either version 3 of the License, or (at your option)   #
+# any later version.                                                          #
+#                                                                             #
+# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY    #
+# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS   #
+# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for     #
+# more details.                                                               #
+#                                                                             #
+# You should have received a copy of the GNU Affero General Public License    #
+# along with Lingo. If not, see <http://www.gnu.org/licenses/>.               #
+#                                                                             #
+###############################################################################
+#++
+class Lingo
+  class Attendee
+    # Der WordSearcher ist das Herzstück von Lingo. Er macht die Hauptarbeit und versucht
+    # alle Token die nach einem sinnvollen Wort aussehen, in den ihm angegebenen
+    # Wörterbüchern zu finden und aufzulösen. Dabei werden die im Wörterbuch gefundenen
+    # Grundformen inkl. Wortklassen an das Word-Objekt angehängt.
+    #
+    # === Mögliche Verlinkung
+    # Erwartet:: Daten vom Typ *Token* (andere werden einfach durchgereicht) z.B. von Tokenizer, Abbreviator
+    # Erzeugt:: Daten vom Typ *Word* für erkannte Wörter z.B. für Synonymer, Decomposer, Ocr_variator, Multiworder, Sequencer, Noneword_filter, Vector_filter
+    #
+    # === Parameter
+    # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
+    # Alle anderen Parameter müssen zwingend angegeben werden.
+    # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
+    # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
+    #
+    # === Beispiele
+    # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
+    #   meeting:
+    #     attendees:
+    #       - text_reader:   { out: lines, files: '$(files)' }
+    #       - tokenizer:     { in: lines, out: token }
+    #       - abbreviator:   { in: token, out: abbrev, source: 'sys-abk' }
+    #       - word_searcher: { in: abbrev, out: words, source: 'sys-dic' }
+    #       - debugger:      { in: words, prompt: 'out>' }
+    # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
+    #   out> *FILE('test.txt')
+    #   out> <Dies = [(dies/w)]>
+    #   out> <ist = [(sein/v)]>
+    #   out> <ggf. = [(gegebenenfalls/w)]>
+    #   out> <eine = [(einen/v), (ein/w)]>
+    #   out> <Abk³rzung = [(abk³rzung/s)]>
+    #   out> :./PUNC:
+    #   out> *EOL('test.txt')
+    #   out> *EOF('test.txt')
+    class WordSearcher < self
+      def init
+        set_dic
+      end
+      def control(cmd, par)
+        @dic.report.each_pair { |key, value|
+          set(key, value)
+        } if cmd == STR_CMD_STATUS
+      end
+      def process(obj)
+        if obj.is_a?(Token) && obj.attr == TA_WORD
+          inc('Anzahl gesuchter Wörter')
+          word = @dic.find_word(obj.form)
+          inc('Anzahl gefundener Wörter') unless word.unknown?
+          obj = word
+        end
+        forward(obj)
+      end
+    end
+    # For backwards compatibility.
+    Wordsearcher  = WordSearcher
+    Word_searcher = WordSearcher
+  end
+end

data/lib/lingo/buffered_attendee.rb ADDED

@@ -0,0 +1,69 @@
+# encoding: utf-8
+#--
+###############################################################################
+#                                                                             #
+# Lingo -- A full-featured automatic indexing system                          #
+#                                                                             #
+# Copyright (C) 2005-2007 John Vorhauer                                       #
+# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+#                                                                             #
+# Lingo is free software; you can redistribute it and/or modify it under the  #
+# terms of the GNU Affero General Public License as published by the Free     #
+# Software Foundation; either version 3 of the License, or (at your option)   #
+# any later version.                                                          #
+#                                                                             #
+# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY    #
+# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS   #
+# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for     #
+# more details.                                                               #
+#                                                                             #
+# You should have received a copy of the GNU Affero General Public License    #
+# along with Lingo. If not, see <http://www.gnu.org/licenses/>.               #
+#                                                                             #
+###############################################################################
+#++
+class Lingo
+  class BufferedAttendee < Attendee
+    BufferInsert = Struct.new(:position, :object)
+    def initialize(config, lingo)
+      @buffer, @inserts = [], []
+      super
+    end
+    protected
+    def process(obj)
+      @buffer.push(obj)
+      process_buffer if process_buffer?
+    end
+    private
+    def forward_buffer
+      @inserts.sort_by!(&:position).each { |i|
+        @buffer.insert(i.position, i.object)
+      }.clear
+      @buffer.each(&method(:forward)).clear
+    end
+    def process_buffer?
+      true
+    end
+    def process_buffer
+      raise NotImplementedError
+    end
+    def deferred_insert(pos, obj)
+      @inserts << BufferInsert.new(pos, obj)
+    end
+  end
+end