RubyGems - lingo - Versions diffs - 1.8.1 → 1.8.2 - Mend

lingo 1.8.1 → 1.8.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (99) hide show

data/ChangeLog +23 -5
data/README +1 -1
data/Rakefile +5 -7
data/TODO +2 -0
data/bin/lingo +5 -1
data/de.lang +1 -1
data/en/lingo-syn.txt +0 -0
data/en.lang +2 -1
data/lib/lingo/attendee/abbreviator.rb +8 -9
data/lib/lingo/attendee/debugger.rb +5 -4
data/lib/lingo/attendee/decomposer.rb +8 -3
data/lib/lingo/attendee/dehyphenizer.rb +19 -63
data/lib/lingo/attendee/formatter.rb +1 -1
data/lib/lingo/attendee/multi_worder.rb +67 -155
data/lib/lingo/attendee/noneword_filter.rb +16 -9
data/lib/lingo/attendee/object_filter.rb +1 -1
data/lib/lingo/attendee/sequencer.rb +32 -63
data/lib/lingo/attendee/stemmer/porter.rb +343 -0
data/{info/gpl-hdr.txt → lib/lingo/attendee/stemmer.rb} +33 -0
data/lib/lingo/attendee/synonymer.rb +10 -9
data/lib/lingo/attendee/text_reader.rb +102 -76
data/lib/lingo/attendee/text_writer.rb +23 -26
data/lib/lingo/attendee/tokenizer.rb +13 -27
data/lib/lingo/attendee/variator.rb +26 -66
data/lib/lingo/attendee/vector_filter.rb +42 -43
data/lib/lingo/attendee/word_searcher.rb +6 -7
data/lib/lingo/attendee.rb +25 -7
data/lib/lingo/buffered_attendee.rb +36 -10
data/lib/lingo/cachable.rb +8 -8
data/lib/lingo/config.rb +5 -6
data/lib/lingo/ctl.rb +2 -3
data/lib/lingo/database/crypter.rb +9 -26
data/lib/lingo/database/gdbm_store.rb +3 -5
data/lib/lingo/database/libcdb_store.rb +4 -6
data/lib/lingo/database/sdbm_store.rb +11 -6
data/lib/lingo/database/show_progress.rb +3 -43
data/lib/lingo/database/source/key_value.rb +2 -6
data/lib/lingo/database/source/multi_key.rb +3 -5
data/lib/lingo/database/source/multi_value.rb +2 -6
data/lib/lingo/database/source/single_word.rb +4 -6
data/lib/lingo/database/source/word_class.rb +4 -10
data/lib/lingo/database/source.rb +20 -18
data/lib/lingo/database.rb +84 -59
data/lib/lingo/error.rb +57 -1
data/lib/lingo/language/dictionary.rb +21 -18
data/lib/lingo/language/grammar.rb +40 -49
data/lib/lingo/language/lexical.rb +6 -6
data/lib/lingo/language/lexical_hash.rb +6 -0
data/lib/lingo/language/word.rb +32 -15
data/lib/lingo/language/word_form.rb +1 -1
data/lib/lingo/language.rb +14 -25
data/lib/lingo/reportable.rb +12 -10
data/lib/lingo/show_progress.rb +81 -0
data/lib/lingo/version.rb +1 -1
data/lib/lingo.rb +63 -24
data/lingo-call.cfg +6 -10
data/lingo.cfg +60 -44
data/lir.cfg +42 -41
data/test/attendee/ts_abbreviator.rb +3 -5
data/test/attendee/ts_decomposer.rb +3 -5
data/test/attendee/ts_multi_worder.rb +87 -145
data/test/attendee/ts_noneword_filter.rb +5 -3
data/test/attendee/ts_object_filter.rb +5 -3
data/test/attendee/ts_sequencer.rb +3 -5
data/test/attendee/ts_stemmer.rb +309 -0
data/test/attendee/ts_synonymer.rb +15 -11
data/test/attendee/ts_text_reader.rb +12 -15
data/test/attendee/ts_text_writer.rb +24 -29
data/test/attendee/ts_tokenizer.rb +9 -7
data/test/attendee/ts_variator.rb +4 -4
data/test/attendee/ts_vector_filter.rb +24 -16
data/test/attendee/ts_word_searcher.rb +20 -36
data/test/{lir.csv → lir.vec} +0 -0
data/test/ref/artikel.vec +943 -943
data/test/ref/artikel.ven +943 -943
data/test/ref/lir.non +201 -201
data/test/ref/lir.seq +178 -178
data/test/ref/lir.syn +49 -49
data/test/ref/lir.vec +329 -0
data/test/test_helper.rb +20 -36
data/test/ts_database.rb +10 -10
data/test/ts_language.rb +279 -319
metadata +93 -104
data/info/Objekte.png +0 -0
data/info/Typen.png +0 -0
data/info/database.png +0 -0
data/info/db_small.png +0 -0
data/info/download.png +0 -0
data/info/kerze.png +0 -0
data/info/language.png +0 -0
data/info/lingo.png +0 -0
data/info/logo.png +0 -0
data/info/meeting.png +0 -0
data/info/types.png +0 -0
data/lingo-all.cfg +0 -89
data/porter/stem.cfg +0 -311
data/porter/stem.rb +0 -150
data/test/ref/lir.csv +0 -329
data/test.cfg +0 -79

data/lingo-call.cfg CHANGED Viewed

@@ -2,14 +2,10 @@
 meeting:
   attendees:
     - text_reader:   { }
     - tokenizer:     { }
-    - word_searcher: { source: 'sys-dic', mode: 'first' }
-    - decomposer:    { source: 'sys-dic' }
-    - multi_worder:  { stopper: 'PUNC,OTHR', source: 'sys-mul' }
-    - sequencer:     { stopper: 'PUNC,OTHR' }
-    - synonymer:     { skip: '?,t', source: 'sys-syn', out: 'syn' }
-    - debugger:      { eval: 'true', ceval: 'false', prompt: '' }
-   #- vector_filter: { in: 'syn', lexicals: 'y', sort: 'term_abs' }
-   #- text_writer:   { ext: 'STDOUT', sep: "\n" }
+    - word_searcher: { source: sys-dic, mode: first }
+    - decomposer:    { source: sys-dic }
+    - multi_worder:  { source: sys-mul }
+    - sequencer:     { }
+    - synonymer:     { source: sys-syn, skip: '?,t' }
+    - debugger:      { prompt: '', ceval: 'false' }

data/lingo.cfg CHANGED Viewed

@@ -1,5 +1,5 @@
 #
-#  Lingo-Konfiguration
+# Lingo-Konfiguration
 #
 ---
 meeting:
@@ -7,74 +7,90 @@ meeting:
   attendees:
     ########################################
-    #  Text bereitstellen
+    # Text bereitstellen
     #
-    #  Angegebene Datei zeilenweise einlesen und verarbeitet
-    -  text_reader:     { files: '$(files)' }
+    # Angegebene Datei zeilenweise einlesen und verarbeiten
+    - text_reader:     { files: $(files), progress: true }
     ########################################
-    #  Inhalte verarbeiten
+    # Inhalte verarbeiten
     #
-    #  Zeile in einzelnen Sinnbestandteile (Token) zerlegen
-    -  tokenizer:       { }
+    # Zeile in einzelnen Sinnbestandteile (Token) zerlegen
+    - tokenizer:       { }
-    #  Verbleibende Token im Wörterbuch suchen
-    -  word_searcher:   { source: 'sys-dic', mode: 'first' }
+    # Abkürzungen erkennen und auflösen
+#   - abbreviator:     { source: sys-abk }
-    #  Nicht erkannte Wörter auf Kompositum testen
-    -  decomposer:      { source: 'sys-dic' }
+    # Verbleibende Token im Wörterbuch suchen
+    - word_searcher:   { source: sys-dic, mode: first }
-    #  Mehrwortgruppen im Strom erkennen
-    -  multi_worder:    { stopper: 'PUNC,OTHR', source: 'sys-mul' }
+    # Schreibweisen variieren und erneut suchen
+#   - variator:        { source: sys-dic }
-    #  Wortsequenzen anhand von Regeln identifizieren
-    -  sequencer:       { stopper: 'PUNC,OTHR' }
+    # Bindestrichergänzungen rekonstruieren
+#   - dehyphenizer:    { source: sys-dic }
-    #  Relationierungen einfügen
-    -  synonymer:       { skip: '?,t', source: 'sys-syn', out: syn }
+    # Wortstämme für nicht erkannte Wörter einfügen
+#   - stemmer:         { }
+    # Nicht erkannte Wörter auf Kompositum testen
+    - decomposer:      { source: sys-dic }
+    # Mehrwortgruppen im Strom erkennen
+    - multi_worder:    { source: sys-mul }
+    # Wortsequenzen anhand von Regeln identifizieren
+    - sequencer:       { stopper: PUNC,OTHR }
+    # Relationierungen einfügen
+    - synonymer:       { skip: '?,t', source: sys-syn, out: syn }
     ########################################
-    #  Datenstrom anzeigen
+    # Datenstrom anzeigen
     #
-#   -  debugger:        { eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) ' }
+#   - debugger:        { eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) ' }
     ########################################
-    #  Ergebnisse ausgeben
+    # Ergebnisse ausgeben
     #
-    #  Erstelle Datei mit Endung .log für Datenstrom
-    -  vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
-    -  text_writer:     { ext: log, sep: "\n" }
+    # Erstelle Datei mit Endung .log für Datenstrom
+    - vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
+    - text_writer:     { ext: log, sep: "\n" }
+    # Erstelle Datei mit Endung .non für nicht erkannte Wörter
+    - noneword_filter: { in: syn }
+    - text_writer:     { ext: non, sep: "\n" }
-    #  Erstelle Datei mit Endung .non für nicht erkannte Wörter
-    -  noneword_filter: { in: syn }
-    -  text_writer:     { ext: non, sep: "\n" }
+    # Erstelle Datei mit Endung .ste für Wortstämme
+    - vector_filter:   { in: syn, lexicals: z }
+    - text_writer:     { ext: ste, sep: "\n" }
-    #  Erstelle Datei mit Endung .vec für erkannte Indexterme
-    -  vector_filter:   { in: syn, lexicals: '^[ksavem]$' }
-    -  text_writer:     { ext: vec, sep: "\n" }
+    # Erstelle Datei mit Endung .vec für erkannte Indexterme
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$' }
+    - text_writer:     { ext: vec, sep: "\n" }
-    #  Erstelle Datei mit Endung .ven für erkannte Indexterme mit absoluter Häufigkeit
-    -  vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: 'term_abs' }
-    -  text_writer:     { ext: ven, sep: "\n" }
+    # Erstelle Datei mit Endung .ven für erkannte Indexterme mit absoluter Häufigkeit
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_abs }
+    - text_writer:     { ext: ven, sep: "\n" }
-    #  Erstelle Datei mit Endung .ver für erkannte Indexterme mit relativer Häufigkeit
-    -  vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: 'term_rel' }
-    -  text_writer:     { ext: ver, sep: "\n" }
+    # Erstelle Datei mit Endung .ver für erkannte Indexterme mit relativer Häufigkeit
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel }
+    - text_writer:     { ext: ver, sep: "\n" }
-    #  Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
-    -  vector_filter:   { in: syn, lexicals: m }
-    -  text_writer:     { ext: mul, sep: "\n" }
+    # Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
+    - vector_filter:   { in: syn, lexicals: m }
+    - text_writer:     { ext: mul, sep: "\n" }
-    #  Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
-    -  vector_filter:   { in: syn, lexicals: q, sort: 'term_abs' }
-    -  text_writer:     { ext: seq, sep: "\n" }
+    # Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
+    - vector_filter:   { in: syn, lexicals: q, sort: term_abs }
+    - text_writer:     { ext: seq, sep: "\n" }
-    #  Erstelle Datei mit Endung .syn für erkannte Synonyme
-    -  vector_filter:   { in: syn, lexicals: y, sort: 'term_abs' }
-    -  text_writer:     { ext: syn, sep: "\n" }
+    # Erstelle Datei mit Endung .syn für erkannte Synonyme
+    - vector_filter:   { in: syn, lexicals: y, sort: term_abs }
+    - text_writer:     { ext: syn, sep: "\n" }

data/lir.cfg CHANGED Viewed

@@ -1,9 +1,10 @@
 #
-#  Lingo-Konfiguration für den Test mit einer LIR-Datei
+# Lingo-Konfiguration für den Test mit einer LIR-Datei
 #
-#  Gebräuchliche Patterns sind
-#  "^\021(\d+\-\d+)\022"
-#  "^\[(\d+)\.\]"
+# Gebräuchliche Patterns sind
+#
+#   "^\021(\d+\-\d+)\022"
+#   "^\[(\d+)\.\]"
 #
 ---
 meeting:
@@ -11,66 +12,66 @@ meeting:
   attendees:
     ########################################
-    #  Text bereitstellen
+    # Text bereitstellen
     #
-    #  Angegebene Datei zeilenweise einlesen und verarbeiten
-    -  text_reader:     { files: '$(files)', lir-record-pattern: '^\[(\d+)\.\]' }
+    # Angegebene Datei zeilenweise einlesen und verarbeiten
+    - text_reader:     { files: $(files), records: true, progress: true }
     ########################################
-    #  Inhalte verarbeiten
+    # Inhalte verarbeiten
     #
-    #  Zeile in einzelnen Sinnbestandteile (Token) zerlegen
-    -  tokenizer:       { }
+    # Zeile in einzelnen Sinnbestandteile (Token) zerlegen
+    - tokenizer:       { }
-    #  Verbleibende Token im Wörterbuch suchen
-    -  word_searcher:   { source: 'sys-dic', mode: 'first' }
+    # Verbleibende Token im Wörterbuch suchen
+    - word_searcher:   { source: sys-dic, mode: first }
-    #  Nicht erkannte Wörter auf Kompositum testen
-    -  decomposer:      { source: 'sys-dic' }
+    # Nicht erkannte Wörter auf Kompositum testen
+    - decomposer:      { source: sys-dic }
-    #  Mehrwortgruppen im Strom erkennen
-    -  multi_worder:    { stopper: 'PUNC,OTHR', source: 'sys-mul' }
+    # Mehrwortgruppen im Strom erkennen
+    - multi_worder:    { source: sys-mul }
-    #  Wortsequenzen anhand von Regeln identifizieren
-    -  sequencer:       { stopper: 'PUNC,OTHR' }
+    # Wortsequenzen anhand von Regeln identifizieren
+    - sequencer:       { stopper: PUNC,OTHR }
-    #  Relationierungen einfügen
-    -  synonymer:       { skip: '?,t', source: 'sys-syn', out: syn }
+    # Relationierungen einfügen
+    - synonymer:       { skip: '?,t', source: sys-syn, out: syn }
     ########################################
-    #  Datenstrom anzeigen
+    # Datenstrom anzeigen
     #
-#   -  debugger:        { eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) ' }
+#   - debugger:        { eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) ' }
     ########################################
-    #  Ergebnisse ausgeben
+    # Ergebnisse ausgeben
     #
-    #  Erstelle Datei mit Endung .log für Datenstrom
-    -  vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
-    -  text_writer:     { ext: log, sep: "\n" }
+    # Erstelle Datei mit Endung .log für Datenstrom
+    - vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
+    - text_writer:     { ext: log, sep: "\n" }
-    #  Erstelle Datei mit Endung .non für nicht erkannte Wörter
-    -  noneword_filter: { in: syn }
-    -  text_writer:     { ext: non }
+    # Erstelle Datei mit Endung .non für nicht erkannte Wörter
+    - noneword_filter: { in: syn }
+    - text_writer:     { ext: non, sep: '|' }
-    #  Erstelle Datei mit Endung .csv für erkannte Indexterme
-    -  vector_filter:   { in: syn, lexicals: '^[ksavem]$' }
-    -  text_writer:     { ext: csv }
+    # Erstelle Datei mit Endung .vec für erkannte Indexterme
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$' }
+    - text_writer:     { ext: vec, sep: '|' }
-    #  Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
-    -  vector_filter:   { in: syn, lexicals: m }
-    -  text_writer:     { ext: mul }
+    # Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
+    - vector_filter:   { in: syn, lexicals: m }
+    - text_writer:     { ext: mul, sep: '|' }
-    #  Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
-    -  vector_filter:   { in: syn, lexicals: q, sort: 'term_abs' }
-    -  text_writer:     { ext: seq }
+    # Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
+    - vector_filter:   { in: syn, lexicals: q, sort: term_abs }
+    - text_writer:     { ext: seq, sep: '|' }
-    #  Erstelle Datei mit Endung .syn für erkannte Synonyme
-    -  vector_filter:   { in: syn, lexicals: y, sort: 'term_abs' }
-    -  text_writer:     { ext: syn }
+    # Erstelle Datei mit Endung .syn für erkannte Synonyme
+    - vector_filter:   { in: syn, lexicals: y, sort: term_abs }
+    - text_writer:     { ext: syn, sep: '|' }

data/test/attendee/ts_abbreviator.rb CHANGED Viewed

@@ -5,7 +5,7 @@ require_relative '../test_helper'
 class TestAttendeeAbbreviator < AttendeeTestCase
   def test_basic
-    @input = [
+    meet({ 'source' => 'sys-abk' }, [
       tk('z.b|ABRV'), tk('.|PUNC'),
       tk('im|WORD'),
       tk('14.|NUMS'),
@@ -13,8 +13,7 @@ class TestAttendeeAbbreviator < AttendeeTestCase
       tk('15.|NUMS'),
       tk('Jh|WORD'), tk('.|PUNC'),
       ai('EOL|')
-    ]
-    @expect = [
+    ], [
       wd('z.b.|IDF', 'zum beispiel|w'),
       tk('im|WORD'),
       tk('14.|NUMS'),
@@ -22,8 +21,7 @@ class TestAttendeeAbbreviator < AttendeeTestCase
       tk('15.|NUMS'),
       wd('Jh.|IDF', 'jahrhundert|s'),
       ai('EOL|')
-    ]
-    meet({'source'=>'sys-abk'})
+    ])
   end
 end

data/test/attendee/ts_decomposer.rb CHANGED Viewed

@@ -5,21 +5,19 @@ require_relative '../test_helper'
 class TestAttendeeDecomposer < AttendeeTestCase
   def test_basic
-    @input = [
+    meet({ 'source' => 'sys-dic' }, [
       wd('Kleinseite|?'),
       wd('Arrafat-Nachfolger|?'),
       wd('Afganistan-Reisen|?'),
       wd('Kompositumzerlegung|?'),
       wd('Kompositumzerlegung|?')
-    ]
-    @expect = [
+    ], [
       wd('Kleinseite|KOM', 'kleinseite|k', 'klein|a+', 'seite|s+'),
       wd('Arrafat-Nachfolger|KOM', 'arrafat-nachfolger|k', 'nachfolger|s+', 'arrafat|x+'),
       wd('Afganistan-Reisen|KOM', 'afganistan-reise|k', 'reise|s+', 'reisen|v+', 'afganistan|x+'),
       wd('Kompositumzerlegung|KOM', 'kompositumzerlegung|k', 'kompositum|s+', 'zerlegung|s+'),
       wd('Kompositumzerlegung|KOM', 'kompositumzerlegung|k', 'kompositum|s+', 'zerlegung|s+')
-    ]
-    meet({'source'=>'sys-dic'})
+    ])
   end
 end