RubyGems - lingo - Versions diffs - 1.8.0 → 1.8.1 - Mend

lingo 1.8.0 → 1.8.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (100) hide show

data/ChangeLog +13 -0
data/README +49 -29
data/Rakefile +28 -4
data/TODO +2 -9
data/bin/lingo +24 -0
data/bin/lingoctl +24 -0
data/de/lingo-dic.txt +559 -74
data/info/gpl-hdr.txt +21 -24
data/lib/lingo.rb +83 -112
data/lib/lingo/agenda_item.rb +53 -0
data/lib/lingo/attendee.rb +261 -0
data/lib/lingo/attendee/abbreviator.rb +95 -97
data/lib/lingo/attendee/debugger.rb +94 -93
data/lib/lingo/attendee/decomposer.rb +76 -83
data/lib/lingo/attendee/dehyphenizer.rb +141 -144
data/lib/lingo/attendee/formatter.rb +65 -0
data/lib/lingo/attendee/multi_worder.rb +302 -0
data/lib/lingo/attendee/noneword_filter.rb +89 -84
data/lib/lingo/attendee/object_filter.rb +91 -0
data/lib/lingo/attendee/sequencer.rb +159 -158
data/lib/lingo/attendee/synonymer.rb +81 -84
data/lib/lingo/attendee/text_reader.rb +242 -0
data/lib/lingo/attendee/text_writer.rb +169 -0
data/lib/lingo/attendee/tokenizer.rb +192 -191
data/lib/lingo/attendee/variator.rb +152 -156
data/lib/lingo/attendee/vector_filter.rb +140 -135
data/lib/lingo/attendee/word_searcher.rb +98 -0
data/lib/lingo/buffered_attendee.rb +69 -0
data/lib/lingo/cachable.rb +58 -0
data/lib/lingo/call.rb +72 -0
data/lib/lingo/cli.rb +26 -0
data/lib/lingo/config.rb +23 -26
data/lib/lingo/core_ext.rb +42 -0
data/lib/lingo/ctl.rb +239 -173
data/lib/lingo/database.rb +148 -496
data/lib/lingo/database/crypter.rb +85 -0
data/lib/lingo/database/gdbm_store.rb +49 -0
data/lib/lingo/database/hash_store.rb +67 -0
data/lib/lingo/database/libcdb_store.rb +58 -0
data/lib/lingo/database/sdbm_store.rb +64 -0
data/lib/lingo/database/show_progress.rb +81 -0
data/lib/lingo/database/source.rb +134 -0
data/lib/lingo/database/source/key_value.rb +62 -0
data/lib/lingo/database/source/multi_key.rb +65 -0
data/lib/lingo/database/source/multi_value.rb +65 -0
data/lib/lingo/database/source/single_word.rb +60 -0
data/lib/lingo/database/source/word_class.rb +64 -0
data/lib/lingo/error.rb +122 -0
data/lib/lingo/language.rb +78 -518
data/lib/lingo/language/dictionary.rb +173 -0
data/lib/lingo/language/grammar.rb +211 -0
data/lib/lingo/language/lexical.rb +66 -0
data/lib/lingo/language/lexical_hash.rb +88 -0
data/lib/lingo/language/token.rb +48 -0
data/lib/lingo/language/word.rb +130 -0
data/lib/lingo/language/word_form.rb +83 -0
data/lib/lingo/reportable.rb +59 -0
data/lib/lingo/version.rb +1 -1
data/lingo-all.cfg +14 -10
data/lingo-call.cfg +5 -5
data/lingo.cfg +14 -12
data/lingo.rb +26 -0
data/lir.cfg +13 -9
data/spec/spec_helper.rb +1 -0
data/test.cfg +11 -11
data/test/attendee/ts_abbreviator.rb +0 -6
data/test/attendee/ts_decomposer.rb +0 -6
data/test/attendee/{ts_multiworder.rb → ts_multi_worder.rb} +1 -7
data/test/attendee/ts_noneword_filter.rb +1 -7
data/test/attendee/{ts_objectfilter.rb → ts_object_filter.rb} +1 -7
data/test/attendee/ts_sequencer.rb +0 -6
data/test/attendee/ts_synonymer.rb +0 -6
data/test/attendee/{ts_textreader.rb → ts_text_reader.rb} +1 -7
data/test/attendee/{ts_textwriter.rb → ts_text_writer.rb} +1 -7
data/test/attendee/ts_tokenizer.rb +0 -6
data/test/attendee/ts_variator.rb +0 -6
data/test/attendee/ts_vector_filter.rb +1 -7
data/test/attendee/{ts_wordsearcher.rb → ts_word_searcher.rb} +1 -7
data/test/ref/artikel.non +2 -29
data/test/ref/artikel.seq +13 -8
data/test/ref/artikel.vec +30 -15
data/test/ref/artikel.ven +29 -14
data/test/ref/artikel.ver +58 -43
data/test/ref/lir.csv +146 -145
data/test/ref/lir.non +186 -210
data/test/ref/lir.seq +54 -50
data/test/test_helper.rb +41 -36
data/test/ts_database.rb +12 -11
data/test/ts_language.rb +118 -68
metadata +67 -29
data/lib/lingo/attendee/multiworder.rb +0 -301
data/lib/lingo/attendee/objectfilter.rb +0 -86
data/lib/lingo/attendee/textreader.rb +0 -237
data/lib/lingo/attendee/textwriter.rb +0 -196
data/lib/lingo/attendee/wordsearcher.rb +0 -96
data/lib/lingo/attendees.rb +0 -289
data/lib/lingo/const.rb +0 -131
data/lib/lingo/modules.rb +0 -98
data/lib/lingo/types.rb +0 -285
data/lib/lingo/utilities.rb +0 -40

data/lib/lingo/attendee/abbreviator.rb CHANGED

@@ -1,117 +1,115 @@
 # encoding: utf-8
 #--
-# LINGO ist ein Indexierungssystem mit Grundformreduktion, Kompositumzerlegung,
-# Mehrworterkennung und Relationierung.
-#
-# Copyright (C) 2005-2007 John Vorhauer
-# Copyright (C) 2007-2011 John Vorhauer, Jens Wille
-#
-# This program is free software; you can redistribute it and/or modify it under
-# the terms of the GNU Affero General Public License as published by the Free
-# Software Foundation; either version 3 of the License, or (at your option)
-# any later version.
-#
-# This program is distributed in the hope that it will be useful, but WITHOUT
-# ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS
-# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for more
-# details.
-#
-# You should have received a copy of the GNU Affero General Public License along
-# with this program; if not, write to the Free Software Foundation, Inc.,
-# 51 Franklin St, Fifth Floor, Boston, MA 02110, USA
-#
-# For more information visit http://www.lex-lingo.de or contact me at
-# welcomeATlex-lingoDOTde near 50°55'N+6°55'E.
-#
-# Lex Lingo rules from here on
+###############################################################################
+#                                                                             #
+# Lingo -- A full-featured automatic indexing system                          #
+#                                                                             #
+# Copyright (C) 2005-2007 John Vorhauer                                       #
+# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+#                                                                             #
+# Lingo is free software; you can redistribute it and/or modify it under the  #
+# terms of the GNU Affero General Public License as published by the Free     #
+# Software Foundation; either version 3 of the License, or (at your option)   #
+# any later version.                                                          #
+#                                                                             #
+# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY    #
+# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS   #
+# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for     #
+# more details.                                                               #
+#                                                                             #
+# You should have received a copy of the GNU Affero General Public License    #
+# along with Lingo. If not, see <http://www.gnu.org/licenses/>.               #
+#                                                                             #
+###############################################################################
 #++
 class Lingo
-  # Die Erkennung von Abkürzungen kann auf vielfältige Weise erfolgen. In jedem Fall
-  # sollte eine sichere Unterscheidung von einem Satzende-Punkt möglich sein.
-  # Der in Lingo gewählte Ansatz befreit den Tokenizer von dieser Arbeit und konzentriert
-  # die Erkennung in diesem Attendee.
-  # Sobald der Abbreviator im Datenstrom auf ein Punkt trifft (Token = <tt>:./PUNC:</tt>),
-  # prüft er das vorhergehende Token auf eine gültige Abkürzung im Abkürzungs-Wörterbuch.
-  # Wird es als Abkürzung erkannt, dann wird das Token in ein Word gewandelt und das
-  # Punkt-Token aus dem Zeichenstrom entfernt.
-  #
-  # === Mögliche Verlinkung
-  # Erwartet:: Daten des Typs *Token* z.B. von Tokenizer
-  # Erzeugt:: Leitet Token weiter und wandelt erkannte Abkürzungen in den Typ *Word* z.B. für Wordsearcher
-  #
-  # === Parameter
-  # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
-  # Alle anderen Parameter müssen zwingend angegeben werden.
-  # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
-  # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
-  #
-  # === Beispiele
-  # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
-  #   meeting:
-  #     attendees:
-  #       - textreader:  { out: lines, files: '$(files)' }
-  #       - tokenizer:   { in: lines, out: token }
-  #       - abbreviator: { in: token, out: abbrev, source: 'sys-abk' }
-  #       - debugger:    { in: abbrev, prompt: 'out>' }
-  # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
-  #   out> *FILE('test.txt')
-  #   out> :Dies/WORD:
-  #   out> :ist/WORD:
-  #   out> <ggf. = [(gegebenenfalls/w)]>
-  #   out> :eine/WORD:
-  #   out> :Abk³rzung/WORD:
-  #   out> :./PUNC:
-  #   out> *EOL('test.txt')
-  #   out> *EOF('test.txt')
-  class Attendee::Abbreviator < BufferedAttendee
-    protected
-    def init
-      # Wörterbuch bereitstellen
-      src = get_array('source')
-      mod = get_key('mode', 'all')
-      @dic = Dictionary.new({'source'=>src, 'mode'=>mod}, @lingo)
-    end
+  class Attendee
-    def control(cmd, par)
-      @dic.report.each_pair { |key, value| set(key, value) } if cmd == STR_CMD_STATUS
+    # Die Erkennung von Abkürzungen kann auf vielfältige Weise erfolgen. In jedem Fall
+    # sollte eine sichere Unterscheidung von einem Satzende-Punkt möglich sein.
+    # Der in Lingo gewählte Ansatz befreit den Tokenizer von dieser Arbeit und konzentriert
+    # die Erkennung in diesem Attendee.
+    # Sobald der Abbreviator im Datenstrom auf ein Punkt trifft (Token = <tt>:./PUNC:</tt>),
+    # prüft er das vorhergehende Token auf eine gültige Abkürzung im Abkürzungs-Wörterbuch.
+    # Wird es als Abkürzung erkannt, dann wird das Token in ein Word gewandelt und das
+    # Punkt-Token aus dem Zeichenstrom entfernt.
+    #
+    # === Mögliche Verlinkung
+    # Erwartet:: Daten des Typs *Token* z.B. von Tokenizer
+    # Erzeugt:: Leitet Token weiter und wandelt erkannte Abkürzungen in den Typ *Word* z.B. für Wordsearcher
+    #
+    # === Parameter
+    # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
+    # Alle anderen Parameter müssen zwingend angegeben werden.
+    # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
+    # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
+    #
+    # === Beispiele
+    # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
+    #   meeting:
+    #     attendees:
+    #       - text_reader:  { out: lines, files: '$(files)' }
+    #       - tokenizer:    { in: lines, out: token }
+    #       - abbreviator:  { in: token, out: abbrev, source: 'sys-abk' }
+    #       - debugger:     { in: abbrev, prompt: 'out>' }
+    # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
+    #   out> *FILE('test.txt')
+    #   out> :Dies/WORD:
+    #   out> :ist/WORD:
+    #   out> <ggf. = [(gegebenenfalls/w)]>
+    #   out> :eine/WORD:
+    #   out> :Abk³rzung/WORD:
+    #   out> :./PUNC:
+    #   out> *EOL('test.txt')
+    #   out> *EOF('test.txt')
-      # Jedes Control-Object ist auch Auslöser der Verarbeitung
-      process_buffer
-    end
+    class Abbreviator < BufferedAttendee
-    private
+      protected
-    def process_buffer?
-      @buffer[-1].kind_of?(Token) && @buffer[-1].form == CHAR_PUNCT
-    end
+      def init
+        set_dic
+      end
-    def process_buffer
-      if @buffer.size < 2
-        forward_buffer
-        return
+      def control(cmd, par)
+        @dic.report.each_pair { |key, value| set(key, value) } if cmd == STR_CMD_STATUS
+        # Jedes Control-Object ist auch Auslöser der Verarbeitung
+        process_buffer
       end
-      # Wort vor dem Punkt im Abkürzungswörterbuch suchen
-      if @buffer[-2].kind_of?(Token)
-        inc('Anzahl gesuchter Abkürzungen')
-        abbr = @dic.find_word(@buffer[-2].form)
-        if abbr.attr == WA_IDENTIFIED
-          inc('Anzahl gefundener Abkürzungen')
-          abbr.form += CHAR_PUNCT
-          @buffer[-2] = abbr
-          @buffer.delete_at(-1)
+      private
+      def process_buffer?
+        @buffer[-1].kind_of?(Token) && @buffer[-1].form == CHAR_PUNCT
+      end
+      def process_buffer
+        if @buffer.size < 2
+          forward_buffer
+          return
+        end
+        # Wort vor dem Punkt im Abkürzungswörterbuch suchen
+        if @buffer[-2].kind_of?(Token)
+          inc('Anzahl gesuchter Abkürzungen')
+          abbr = @dic.find_word(@buffer[-2].form)
+          if abbr.identified?
+            inc('Anzahl gefundener Abkürzungen')
+            abbr.form += CHAR_PUNCT
+            @buffer[-2] = abbr
+            @buffer.delete_at(-1)
+          end
         end
+        forward_buffer
       end
-      forward_buffer
     end
   end

data/lib/lingo/attendee/debugger.rb CHANGED

@@ -1,109 +1,110 @@
 # encoding: utf-8
 #--
-# LINGO ist ein Indexierungssystem mit Grundformreduktion, Kompositumzerlegung,
-# Mehrworterkennung und Relationierung.
-#
-# Copyright (C) 2005-2007 John Vorhauer
-# Copyright (C) 2007-2011 John Vorhauer, Jens Wille
-#
-# This program is free software; you can redistribute it and/or modify it under
-# the terms of the GNU Affero General Public License as published by the Free
-# Software Foundation; either version 3 of the License, or (at your option)
-# any later version.
-#
-# This program is distributed in the hope that it will be useful, but WITHOUT
-# ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS
-# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for more
-# details.
-#
-# You should have received a copy of the GNU Affero General Public License along
-# with this program; if not, write to the Free Software Foundation, Inc.,
-# 51 Franklin St, Fifth Floor, Boston, MA 02110, USA
-#
-# For more information visit http://www.lex-lingo.de or contact me at
-# welcomeATlex-lingoDOTde near 50°55'N+6°55'E.
-#
-# Lex Lingo rules from here on
+###############################################################################
+#                                                                             #
+# Lingo -- A full-featured automatic indexing system                          #
+#                                                                             #
+# Copyright (C) 2005-2007 John Vorhauer                                       #
+# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+#                                                                             #
+# Lingo is free software; you can redistribute it and/or modify it under the  #
+# terms of the GNU Affero General Public License as published by the Free     #
+# Software Foundation; either version 3 of the License, or (at your option)   #
+# any later version.                                                          #
+#                                                                             #
+# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY    #
+# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS   #
+# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for     #
+# more details.                                                               #
+#                                                                             #
+# You should have received a copy of the GNU Affero General Public License    #
+# along with Lingo. If not, see <http://www.gnu.org/licenses/>.               #
+#                                                                             #
+###############################################################################
 #++
 class Lingo
-  # Die Attendees von Lingo übergeben Daten über ihre Kommunikationskanäle und entweder kommt bei
-  # einer komplexen Konfiguration hinten das gewünschte Ergebnis raus oder aber auch nicht. Für den
-  # letzeren Fall ist der Debugger primär gedacht. Er kann an beliebige Stelle in den Datenstrom
-  # eingeschleust werden, um Schritt für Schritt zu schauen, durch welchen Attendee das Ergebnis
-  # verfälscht wird um so den Fehler einzugrenzen und schließlich zu lösen.
-  #
-  # Der Debugger wird jedoch auch gerne für die Verfolgung der Verarbeitung am Bildschirm verwendet.
-  #
-  # Achtung: Um Irritationen bei der Anwendung mehrerer Debugger zu vermeiden wird empfohlen, den
-  # Debugger in der Konfiguration immer unmittelbar nach dem Attendee zu platzieren, dessen Ausgabe
-  # debugt werden soll. Ansonsten kann es zu scheinbar unerklärlichen Interferrenzen bei der Ausgabe
-  # kommen.
-  #
-  # === Mögliche Verlinkung
-  # Erwartet:: Daten beliebigen Typs
-  #
-  # === Parameter
-  # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
-  # Alle anderen Parameter müssen zwingend angegeben werden.
-  # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b><i>eval</i></b>:: (Standard: true) Gibt eine Bedingung an, die erfüllt sein muss, damit ein
-  #                      Datenobjekt ausgegeben wird (siehe Beschreibung Objectfilter)
-  # <b><i>ceval</i></b>:: (Standard: true) Gibt eiune Bedingung an, die erfüllt sein muss, damit ein
-  #                      Kommandoobjekt ausgegeben wird.
-  # <b><i>prompt</i></b>:: (Standard: 'lex:) ') Gibt an, mit welchem Prefix die Ausgabe versehen werden
-  #                        soll. Insbesondere wenn mit mehreren Debuggern gearbeitet wird, sollte dies
-  #                        genutzt werden.
-  #
-  # === Beispiele
-  # Bei der Verarbeitung der oben angegebenen Funktionsbeschreibung des Textwriters mit der Ablaufkonfiguration <tt>t1.cfg</tt>
-  #   meeting:
-  #     attendees:
-  #       - textreader: { out: lines, files: '$(files)' }
-  #       - debugger:   { in: lines, prompt: 'LINES:) ' }
-  #       - tokenizer:  { in: lines, out: token }
-  #       - debugger:   { in: token, prompt: 'TOKEN:) ' }
-  # ergibt die Ausgabe
-  #   LINES:)  *FILE('test.txt')
-  #   TOKEN:)  *FILE('test.txt')
-  #   LINES:)  "Der Debugger kann was."
-  #   TOKEN:)  :Der/WORD:
-  #   TOKEN:)  :Debugger/WORD:
-  #   TOKEN:)  :kann/WORD:
-  #   TOKEN:)  :was/WORD:
-  #   TOKEN:)  :./PUNC:
-  #   TOKEN:)  *EOL('test.txt')
-  #   LINES:)  "Lingo auch :o)"
-  #   TOKEN:)  :Lingo/WORD:
-  #   TOKEN:)  :auch/WORD:
-  #   TOKEN:)  ::/PUNC:
-  #   TOKEN:)  :o/WORD:
-  #   TOKEN:)  :)/OTHR:
-  #   TOKEN:)  *EOL('test.txt')
-  #   LINES:)  *EOF('test.txt')
-  #   TOKEN:)  *EOF('test.txt')
+  class Attendee
-  class Attendee::Debugger < Attendee
+    # Die Attendees von Lingo übergeben Daten über ihre Kommunikationskanäle und entweder kommt bei
+    # einer komplexen Konfiguration hinten das gewünschte Ergebnis raus oder aber auch nicht. Für den
+    # letzeren Fall ist der Debugger primär gedacht. Er kann an beliebige Stelle in den Datenstrom
+    # eingeschleust werden, um Schritt für Schritt zu schauen, durch welchen Attendee das Ergebnis
+    # verfälscht wird um so den Fehler einzugrenzen und schließlich zu lösen.
+    #
+    # Der Debugger wird jedoch auch gerne für die Verfolgung der Verarbeitung am Bildschirm verwendet.
+    #
+    # Achtung: Um Irritationen bei der Anwendung mehrerer Debugger zu vermeiden wird empfohlen, den
+    # Debugger in der Konfiguration immer unmittelbar nach dem Attendee zu platzieren, dessen Ausgabe
+    # debugt werden soll. Ansonsten kann es zu scheinbar unerklärlichen Interferrenzen bei der Ausgabe
+    # kommen.
+    #
+    # === Mögliche Verlinkung
+    # Erwartet:: Daten beliebigen Typs
+    #
+    # === Parameter
+    # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
+    # Alle anderen Parameter müssen zwingend angegeben werden.
+    # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b><i>eval</i></b>:: (Standard: true) Gibt eine Bedingung an, die erfüllt sein muss, damit ein
+    #                      Datenobjekt ausgegeben wird (siehe Beschreibung Objectfilter)
+    # <b><i>ceval</i></b>:: (Standard: true) Gibt eiune Bedingung an, die erfüllt sein muss, damit ein
+    #                      Kommandoobjekt ausgegeben wird.
+    # <b><i>prompt</i></b>:: (Standard: 'lex:) ') Gibt an, mit welchem Prefix die Ausgabe versehen werden
+    #                        soll. Insbesondere wenn mit mehreren Debuggern gearbeitet wird, sollte dies
+    #                        genutzt werden.
+    #
+    # === Beispiele
+    # Bei der Verarbeitung der oben angegebenen Funktionsbeschreibung des Textwriters mit der Ablaufkonfiguration <tt>t1.cfg</tt>
+    #   meeting:
+    #     attendees:
+    #       - text_reader: { out: lines, files: '$(files)' }
+    #       - debugger:    { in: lines, prompt: 'LINES:) ' }
+    #       - tokenizer:   { in: lines, out: token }
+    #       - debugger:    { in: token, prompt: 'TOKEN:) ' }
+    # ergibt die Ausgabe
+    #   LINES:)  *FILE('test.txt')
+    #   TOKEN:)  *FILE('test.txt')
+    #   LINES:)  "Der Debugger kann was."
+    #   TOKEN:)  :Der/WORD:
+    #   TOKEN:)  :Debugger/WORD:
+    #   TOKEN:)  :kann/WORD:
+    #   TOKEN:)  :was/WORD:
+    #   TOKEN:)  :./PUNC:
+    #   TOKEN:)  *EOL('test.txt')
+    #   LINES:)  "Lingo auch :o)"
+    #   TOKEN:)  :Lingo/WORD:
+    #   TOKEN:)  :auch/WORD:
+    #   TOKEN:)  ::/PUNC:
+    #   TOKEN:)  :o/WORD:
+    #   TOKEN:)  :)/OTHR:
+    #   TOKEN:)  *EOL('test.txt')
+    #   LINES:)  *EOF('test.txt')
+    #   TOKEN:)  *EOF('test.txt')
-    protected
+    class Debugger < self
-    def init
-      @obj_eval = get_key('eval', 'true')
-      @cmd_eval = get_key('ceval', 'true')
-      @prompt = get_key('prompt', 'lex:) ')
-    end
+      protected
-    def control(cmd, par)
-      if cmd!=STR_CMD_STATUS
-        @lingo.config.stderr.puts "#{@prompt} #{AgendaItem.new(cmd, par).inspect}" if eval(@cmd_eval)
+      def init
+        @obj_eval = get_key('eval',   'true')
+        @cmd_eval = get_key('ceval',  'true')
+        @prompt   = get_key('prompt', 'lex:) ')
+      end
+      def control(cmd, par)
+        if cmd != STR_CMD_STATUS
+          @lingo.warn "#{@prompt} #{AgendaItem.new(cmd, par).inspect}" if eval(@cmd_eval)
+        end
+      end
+      def process(obj)
+        @lingo.warn "#{@prompt} #{obj.inspect}" if eval(@obj_eval)
       end
-    end
-    def process(obj)
-      @lingo.config.stderr.puts "#{@prompt} #{obj.inspect}" if eval(@obj_eval)
     end
   end

data/lib/lingo/attendee/decomposer.rb CHANGED

@@ -1,99 +1,92 @@
 # encoding: utf-8
 #--
-# LINGO ist ein Indexierungssystem mit Grundformreduktion, Kompositumzerlegung,
-# Mehrworterkennung und Relationierung.
-#
-# Copyright (C) 2005-2007 John Vorhauer
-# Copyright (C) 2007-2011 John Vorhauer, Jens Wille
-#
-# This program is free software; you can redistribute it and/or modify it under
-# the terms of the GNU Affero General Public License as published by the Free
-# Software Foundation; either version 3 of the License, or (at your option)
-# any later version.
-#
-# This program is distributed in the hope that it will be useful, but WITHOUT
-# ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS
-# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for more
-# details.
-#
-# You should have received a copy of the GNU Affero General Public License along
-# with this program; if not, write to the Free Software Foundation, Inc.,
-# 51 Franklin St, Fifth Floor, Boston, MA 02110, USA
-#
-# For more information visit http://www.lex-lingo.de or contact me at
-# welcomeATlex-lingoDOTde near 50°55'N+6°55'E.
-#
-# Lex Lingo rules from here on
+###############################################################################
+#                                                                             #
+# Lingo -- A full-featured automatic indexing system                          #
+#                                                                             #
+# Copyright (C) 2005-2007 John Vorhauer                                       #
+# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+#                                                                             #
+# Lingo is free software; you can redistribute it and/or modify it under the  #
+# terms of the GNU Affero General Public License as published by the Free     #
+# Software Foundation; either version 3 of the License, or (at your option)   #
+# any later version.                                                          #
+#                                                                             #
+# Lingo is distributed in the hope that it will be useful, but WITHOUT ANY    #
+# WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS   #
+# FOR A PARTICULAR PURPOSE. See the GNU Affero General Public License for     #
+# more details.                                                               #
+#                                                                             #
+# You should have received a copy of the GNU Affero General Public License    #
+# along with Lingo. If not, see <http://www.gnu.org/licenses/>.               #
+#                                                                             #
+###############################################################################
 #++
 class Lingo
-  # Komposita, also zusammengesetzte Wörter, sind eine Spezialität der deutschen Sprache
-  # (z.B. Indexierungssystem oder Kompositumerkennung).
-  # Könnte man alle Kombinationen in den Wörterbüchern hinterlegen, dann würde der
-  # Wordsearcher die Erkennung bereits erledigt haben. Die hohe Anzahl der möglichen
-  # Kombinationen verbietet jedoch einen solchen Ansatz aufgrund des immensen Pflegeaufwands,
-  # eine algorithmische Lösung erscheint sinnvoller.
-  # Der Decomposer wertet alle vom Wordsearcher nicht erkannten Wörter aus und prüft sie
-  # auf Kompositum.
-  #
-  # === Mögliche Verlinkung
-  # Erwartet:: Daten vom Typ *Word* (andere werden einfach durchgereicht) z.B. von Wordsearcher
-  # Erzeugt:: Daten vom Typ *Word* (erkannte Komposita werden entsprechend erweitert) z.B. für Synonymer, Ocr_variator, Multiworder, Sequencer, Noneword_filter, Vector_filter
-  #
-  # === Parameter
-  # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
-  # Alle anderen Parameter müssen zwingend angegeben werden.
-  # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
-  # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
-  # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
-  #
-  # === Beispiele
-  # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
-  #   meeting:
-  #     attendees:
-  #       - textreader:   { out: lines, files: '$(files)' }
-  #       - tokenizer:    { in: lines, out: token }
-  #       - abbreviator:  { in: token, out: abbrev, source: 'sys-abk' }
-  #       - wordsearcher: { in: abbrev, out: words, source: 'sys-dic' }
-  #       - decomposer:   { in: words, out: comps, source: 'sys-dic' }
-  #       - debugger:     { in: comps, prompt: 'out>' }
-  # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
-  #   out> *FILE('test.txt')
-  #   out> <Lingo|?>
-  #   out> :,/PUNC:
-  #   out> <ein = [(ein/w)]>
-  #   out> <Indexierungssystem|KOM = [(indexierungssystem/k), (indexierung/s), (system/s)]>
-  #   out> <mit = [(mit/w)]>
-  #   out> <Kompositumerkennung|KOM = [(kompositumerkennung/k), (erkennung/s), (kompositum/s)]>
-  #   out> :./PUNC:
-  #   out> *EOL('test.txt')
-  #   out> *EOF('test.txt')
+  class Attendee
-  class Attendee::Decomposer < Attendee
+    # Komposita, also zusammengesetzte Wörter, sind eine Spezialität der deutschen Sprache
+    # (z.B. Indexierungssystem oder Kompositumerkennung).
+    # Könnte man alle Kombinationen in den Wörterbüchern hinterlegen, dann würde der
+    # Wordsearcher die Erkennung bereits erledigt haben. Die hohe Anzahl der möglichen
+    # Kombinationen verbietet jedoch einen solchen Ansatz aufgrund des immensen Pflegeaufwands,
+    # eine algorithmische Lösung erscheint sinnvoller.
+    # Der Decomposer wertet alle vom Wordsearcher nicht erkannten Wörter aus und prüft sie
+    # auf Kompositum.
+    #
+    # === Mögliche Verlinkung
+    # Erwartet:: Daten vom Typ *Word* (andere werden einfach durchgereicht) z.B. von Wordsearcher
+    # Erzeugt:: Daten vom Typ *Word* (erkannte Komposita werden entsprechend erweitert) z.B. für Synonymer, Ocr_variator, Multiworder, Sequencer, Noneword_filter, Vector_filter
+    #
+    # === Parameter
+    # Kursiv dargestellte Parameter sind optional (ggf. mit Angabe der Voreinstellung).
+    # Alle anderen Parameter müssen zwingend angegeben werden.
+    # <b>in</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>out</b>:: siehe allgemeine Beschreibung des Attendee
+    # <b>source</b>:: siehe allgemeine Beschreibung des Dictionary
+    # <b><i>mode</i></b>:: (Standard: all) siehe allgemeine Beschreibung des Dictionary
+    #
+    # === Beispiele
+    # Bei der Verarbeitung einer normalen Textdatei mit der Ablaufkonfiguration <tt>t1.cfg</tt>
+    #   meeting:
+    #     attendees:
+    #       - text_reader:   { out: lines, files: '$(files)' }
+    #       - tokenizer:     { in: lines, out: token }
+    #       - abbreviator:   { in: token, out: abbrev, source: 'sys-abk' }
+    #       - word_searcher: { in: abbrev, out: words, source: 'sys-dic' }
+    #       - decomposer:    { in: words, out: comps, source: 'sys-dic' }
+    #       - debugger:      { in: comps, prompt: 'out>' }
+    # ergibt die Ausgabe über den Debugger: <tt>lingo -c t1 test.txt</tt>
+    #   out> *FILE('test.txt')
+    #   out> <Lingo|?>
+    #   out> :,/PUNC:
+    #   out> <ein = [(ein/w)]>
+    #   out> <Indexierungssystem|KOM = [(indexierungssystem/k), (indexierung/s), (system/s)]>
+    #   out> <mit = [(mit/w)]>
+    #   out> <Kompositumerkennung|KOM = [(kompositumerkennung/k), (erkennung/s), (kompositum/s)]>
+    #   out> :./PUNC:
+    #   out> *EOL('test.txt')
+    #   out> *EOF('test.txt')
-    protected
+    class Decomposer < self
-    def init
-      # Wörterbuch bereitstellen
-      src = get_array('source')
-      mod = get_key('mode', 'all')
-      @grammar = Grammar.new({'source'=>src, 'mode'=>mod}, @lingo)
-    end
+      protected
-    def control(cmd, par)
-      @grammar.report.each_pair { |key, value|
-        set(key, value)
-      } if cmd == STR_CMD_STATUS
-    end
+      def init
+        set_gra
+      end
-    def process(obj)
-      if obj.is_a?(Word) && obj.attr == WA_UNKNOWN
-        obj = @grammar.find_compositum(obj.form)
+      def control(cmd, par)
+        @gra.report.each { |key, val| set(key, val) } if cmd == STR_CMD_STATUS
       end
-      forward(obj)
+      def process(obj)
+        forward(obj.is_a?(Word) && obj.unknown? ? @gra.find_compositum(obj.form) : obj)
+      end
     end
   end