RubyGems - lingo - Versions diffs - 1.8.6 → 1.8.7 - Mend

lingo 1.8.6 → 1.8.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (75) hide show

checksums.yaml +4 -4
data/ChangeLog +40 -4
data/README +22 -51
data/Rakefile +3 -17
data/config/lingo.cfg +24 -15
data/config/lir.cfg +25 -16
data/dict/de/test_muh.txt +6 -0
data/dict/en/lingo-dic.txt +2 -3
data/lang/de.lang +10 -9
data/lang/en.lang +1 -1
data/lib/lingo.rb +4 -4
data/lib/lingo/attendee.rb +27 -7
data/lib/lingo/attendee/analysis_filter.rb +81 -0
data/lib/lingo/attendee/debug_filter.rb +42 -0
data/lib/lingo/attendee/debugger.rb +2 -11
data/lib/lingo/attendee/decomposer.rb +6 -3
data/lib/lingo/attendee/formatter.rb +6 -6
data/lib/lingo/attendee/hal_filter.rb +94 -0
data/lib/lingo/attendee/lsi_filter.rb +99 -0
data/lib/lingo/attendee/multi_worder.rb +69 -43
data/lib/lingo/attendee/sequencer.rb +32 -19
data/lib/lingo/attendee/synonymer.rb +2 -2
data/lib/lingo/attendee/text_reader.rb +63 -92
data/lib/lingo/attendee/text_writer.rb +12 -21
data/lib/lingo/attendee/tokenizer.rb +32 -21
data/lib/lingo/attendee/variator.rb +3 -3
data/lib/lingo/attendee/vector_filter.rb +7 -9
data/lib/lingo/attendee/word_searcher.rb +3 -3
data/lib/lingo/buffered_attendee.rb +3 -36
data/lib/lingo/config.rb +1 -1
data/lib/lingo/ctl.rb +7 -155
data/lib/lingo/ctl/analysis.rb +136 -0
data/lib/lingo/ctl/files.rb +86 -0
data/lib/lingo/ctl/other.rb +140 -0
data/lib/lingo/database.rb +64 -60
data/lib/lingo/database/crypter.rb +7 -5
data/lib/lingo/error.rb +5 -4
data/lib/lingo/language.rb +13 -5
data/lib/lingo/language/grammar.rb +13 -7
data/lib/lingo/language/token.rb +6 -0
data/lib/lingo/language/word.rb +23 -36
data/lib/lingo/language/word_form.rb +5 -1
data/lib/lingo/srv.rb +2 -2
data/lib/lingo/text_utils.rb +96 -0
data/lib/lingo/version.rb +1 -1
data/lib/lingo/web/views/index.erb +1 -1
data/test/attendee/ts_decomposer.rb +23 -5
data/test/attendee/ts_multi_worder.rb +66 -0
data/test/attendee/ts_sequencer.rb +28 -4
data/test/attendee/ts_text_reader.rb +20 -0
data/test/attendee/ts_tokenizer.rb +20 -0
data/test/attendee/ts_variator.rb +1 -1
data/test/attendee/ts_word_searcher.rb +39 -3
data/test/lir3.txt +12 -0
data/test/ref/artikel.non +1 -12
data/test/ref/artikel.seq +3 -1
data/test/ref/artikel.vec +1 -0
data/test/ref/artikel.vef +35 -34
data/test/ref/artikel.ven +8 -7
data/test/ref/artikel.ver +34 -33
data/test/ref/artikel.vet +2573 -2563
data/test/ref/lir.non +77 -78
data/test/ref/lir.seq +9 -7
data/test/ref/lir.syn +1 -1
data/test/ref/lir.vec +41 -41
data/test/ref/lir.vef +210 -210
data/test/ref/lir.ven +46 -46
data/test/ref/lir.ver +72 -72
data/test/ref/lir.vet +329 -329
data/test/ts_database.rb +166 -62
data/test/ts_language.rb +23 -23
metadata +53 -34
data/lib/lingo/attendee/dehyphenizer.rb +0 -120
data/lib/lingo/attendee/noneword_filter.rb +0 -115
data/test/attendee/ts_noneword_filter.rb +0 -15

data/test/ts_database.rb CHANGED

@@ -39,6 +39,7 @@ wort mist
 alt bibliothekskatalog
 neu bibliothekskatalög
 neu alttitelkatalog
+episch dichtung der höfisch zeit
     EOT
     @keyvalue = <<-EOT
@@ -141,25 +142,27 @@ Wort2=
       ),
       'inflect'    => true
     }, @singleword_inflect, {
-      'wort1'                           => 'wort1#s',
-      'wort2'                           => 'wort2#s',
-      'juristisch person'               => 'juristische person#s',
-      'natürlich person'                => 'natürliche personen#s',
-      'natürlich quatsch'               => 'natürlichen quatsches#s',
-      'lang essay'                      => 'langer essay#s',
-      'groß kiefer'                     => 'große kiefer#s',
-      'klug abel'                       => 'kluger abel#s',
-      'warm abendluft'                  => 'warme abendluft#s',
-      'klar abendluft'                  => 'klare abendluft#s',
-      'gut abitur'                      => 'gutes abitur#s',
-      'gut abitur schaff'               => 'gutes abitur schaffen#s',
-      'ein gut abitur'                  => 'ein gut abitur#s',
-      'schmal rund zylinder'            => 'schmaler runder zylinder#s',
-      'der schmal zylinder'             => 'der schmal zylinder#s',
-      'wort mist'                       => 'wort mist#s',
-      'alt bibliothekskatalog'          => 'alter bibliothekskatalog#s',
-      'neu bibliothekskatalög'          => 'neu bibliothekskatalög#s',
-      'neu alttitelkatalog'             => 'neuer alttitelkatalog#s'
+      'wort1'                            => 'wort1#s',
+      'wort2'                            => 'wort2#s',
+      'juristisch person'                => 'juristische person#s',
+      'natürlich person'                 => 'natürliche personen#s',
+      'natürlich quatsch'                => 'natürlichen quatsches#s',
+      'lang essay'                       => 'langer essay#s',
+      'groß kiefer'                      => 'große kiefer#s',
+      'klug abel'                        => 'kluger abel#s',
+      'warm abendluft'                   => 'warme abendluft#s',
+      'klar abendluft'                   => 'klare abendluft#s',
+      'gut abitur'                       => 'gutes abitur#s',
+      'gut abitur schaff'                => 'gutes abitur schaffen#s',
+      'ein gut abitur'                   => 'ein gut abitur#s',
+      'schmal rund zylinder'             => 'schmaler runder zylinder#s',
+      'der schmal zylinder'              => 'der schmal zylinder#s',
+      'wort mist'                        => 'wort mist#s',
+      'alt bibliothekskatalog'           => 'alter bibliothekskatalog#s',
+      'neu bibliothekskatalög'           => 'neu bibliothekskatalög#s',
+      'neu alttitelkatalog'              => 'neuer alttitelkatalog#s',
+      'episch dichtung der'              => '*5',
+      'episch dichtung der höfisch zeit' => 'epische dichtung der höfisch zeit#s'
     })
   end
@@ -173,25 +176,27 @@ Wort2=
       ),
       'inflect'    => 's'
     }, @singleword_inflect, {
-      'wort1'                           => 'wort1#s',
-      'wort2'                           => 'wort2#s',
-      'juristisch person'               => 'juristische person#s',
-      'natürlich person'                => 'natürliche personen#s',
-      'natürlich quatsch'               => 'natürlichen quatsches#s',
-      'lang essay'                      => 'langer essay#s',
-      'groß kiefer'                     => 'große kiefer#s',
-      'klug abel'                       => 'klug abel#s',
-      'warm abendluft'                  => 'warme abendluft#s',
-      'klar abendluft'                  => 'klare abendluft#s',
-      'gut abitur'                      => 'gutes abitur#s',
-      'gut abitur schaff'               => 'gutes abitur schaffen#s',
-      'ein gut abitur'                  => 'ein gut abitur#s',
-      'schmal rund zylinder'            => 'schmaler runder zylinder#s',
-      'der schmal zylinder'             => 'der schmal zylinder#s',
-      'wort mist'                       => 'wort mist#s',
-      'alt bibliothekskatalog'          => 'alter bibliothekskatalog#s',
-      'neu bibliothekskatalög'          => 'neu bibliothekskatalög#s',
-      'neu alttitelkatalog'             => 'neuer alttitelkatalog#s'
+      'wort1'                            => 'wort1#s',
+      'wort2'                            => 'wort2#s',
+      'juristisch person'                => 'juristische person#s',
+      'natürlich person'                 => 'natürliche personen#s',
+      'natürlich quatsch'                => 'natürlichen quatsches#s',
+      'lang essay'                       => 'langer essay#s',
+      'groß kiefer'                      => 'große kiefer#s',
+      'klug abel'                        => 'klug abel#s',
+      'warm abendluft'                   => 'warme abendluft#s',
+      'klar abendluft'                   => 'klare abendluft#s',
+      'gut abitur'                       => 'gutes abitur#s',
+      'gut abitur schaff'                => 'gutes abitur schaffen#s',
+      'ein gut abitur'                   => 'ein gut abitur#s',
+      'schmal rund zylinder'             => 'schmaler runder zylinder#s',
+      'der schmal zylinder'              => 'der schmal zylinder#s',
+      'wort mist'                        => 'wort mist#s',
+      'alt bibliothekskatalog'           => 'alter bibliothekskatalog#s',
+      'neu bibliothekskatalög'           => 'neu bibliothekskatalög#s',
+      'neu alttitelkatalog'              => 'neuer alttitelkatalog#s',
+      'episch dichtung der'              => '*5',
+      'episch dichtung der höfisch zeit' => 'epische dichtung der höfisch zeit#s'
     })
   end
@@ -205,25 +210,124 @@ Wort2=
       ),
       'inflect'    => 'e'
     }, @singleword_inflect, {
+      'wort1'                            => 'wort1#s',
+      'wort2'                            => 'wort2#s',
+      'juristisch person'                => 'juristisch person#s',
+      'natürlich person'                 => 'natürliche personen#s',
+      'natürlich quatsch'                => 'natürlichen quatsches#s',
+      'lang essay'                       => 'lang essay#s',
+      'klug abel'                        => 'kluger abel#s',
+      'groß kiefer'                      => 'große kiefer#s',
+      'warm abendluft'                   => 'warm abendluft#s',
+      'klar abendluft'                   => 'klar abendluft#s',
+      'gut abitur'                       => 'gut abitur#s',
+      'gut abitur schaff'                => 'gut abitur schaffen#s',
+      'ein gut abitur'                   => 'ein gut abitur#s',
+      'schmal rund zylinder'             => 'schmal rund zylinder#s',
+      'der schmal zylinder'              => 'der schmal zylinder#s',
+      'wort mist'                        => 'wort mist#s',
+      'alt bibliothekskatalog'           => 'alt bibliothekskatalog#s',
+      'neu bibliothekskatalög'           => 'neu bibliothekskatalög#s',
+      'neu alttitelkatalog'              => 'neu alttitelkatalog#s',
+      'episch dichtung der'              => '*5',
+      'episch dichtung der höfisch zeit' => 'episch dichtung der höfisch zeit#s'
+    })
+  end
+  def test_singleword_hyphenate
+    compare({
+      'txt-format' => 'SingleWord',
+      'use-lex'    => set_config('lex',
+        'name'       => 'de/lingo-dic.txt',
+        'txt-format' => 'WordClass',
+        'separator'  => '='
+      ),
+      'hyphenate'  => true
+    }, @singleword, {
       'wort1'                           => 'wort1#s',
       'wort2'                           => 'wort2#s',
-      'juristisch person'               => 'juristisch person#s',
-      'natürlich person'                => 'natürliche personen#s',
-      'natürlich quatsch'               => 'natürlichen quatsches#s',
-      'lang essay'                      => 'lang essay#s',
-      'klug abel'                       => 'kluger abel#s',
-      'groß kiefer'                     => 'große kiefer#s',
-      'warm abendluft'                  => 'warm abendluft#s',
-      'klar abendluft'                  => 'klar abendluft#s',
-      'gut abitur'                      => 'gut abitur#s',
-      'gut abitur schaff'               => 'gut abitur schaffen#s',
-      'ein gut abitur'                  => 'ein gut abitur#s',
-      'schmal rund zylinder'            => 'schmal rund zylinder#s',
-      'der schmal zylinder'             => 'der schmal zylinder#s',
-      'wort mist'                       => 'wort mist#s',
-      'alt bibliothekskatalog'          => 'alt bibliothekskatalog#s',
-      'neu bibliothekskatalög'          => 'neu bibliothekskatalög#s',
-      'neu alttitelkatalog'             => 'neu alttitelkatalog#s'
+      'ganz groß und blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß und blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß und-blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß und-blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß-und blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß-und blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß-und-blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz groß-und-blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß und blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß und blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß und-blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß und-blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß-und blöd mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß-und blöd-mist'         => 'ganz großer und blöder mist#s',
+      'ganz-groß-und-blöd mist'         => 'ganz großer und blöder mist#s',
+      'juristisch person'               => 'juristische personen#s',
+      'hoch schnell weit'               => 'höher schneller weiter#s|*4',
+      'hoch schnell-weit'               => 'höher schneller weiter#s',
+      'hoch-schnell weit'               => 'höher schneller weiter#s',
+      'ganz groß und blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß und blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß und-blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß und-blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß-und blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß-und blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß-und-blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz groß-und-blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß und blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß und blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß und-blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß und-blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß-und blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß-und blöd-quatsch'      => 'ganz großer und blöder quatsch#s',
+      'ganz-groß-und-blöd quatsch'      => 'ganz großer und blöder quatsch#s',
+      'hoch schnell weit groß'          => 'höher schneller weiter größer#s',
+      'hoch schnell weit-groß'          => 'höher schneller weiter größer#s',
+      'hoch schnell-weit groß'          => 'höher schneller weiter größer#s',
+      'hoch schnell-weit-groß'          => 'höher schneller weiter größer#s',
+      'hoch-schnell weit groß'          => 'höher schneller weiter größer#s',
+      'hoch-schnell weit-groß'          => 'höher schneller weiter größer#s',
+      'hoch-schnell-weit groß'          => 'höher schneller weiter größer#s',
+      'ganz groß und blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und-blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und-blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und-blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und-blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und-blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und-blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und-blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß-und-blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und-blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und-blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und-blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß und-blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und blöd-schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und-blöd schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und-blöd schwach-sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz-groß-und-blöd-schwach sinn' => 'ganz großer und blöder schwach sinn#s',
+      'ganz groß und'                   => '*4|*5|*6',
+      'ganz groß und-blöd'              => '*4|*5',
+      'ganz groß und-blöd-schwach'      => '*4',
+      'ganz groß-und blöd'              => '*4|*5',
+      'ganz groß-und blöd-schwach'      => '*4',
+      'ganz groß-und-blöd schwach'      => '*4',
+      'ganz-groß und blöd'              => '*4|*5',
+      'ganz-groß und blöd-schwach'      => '*4',
+      'ganz-groß und-blöd schwach'      => '*4',
+      'ganz-groß-und blöd schwach'      => '*4'
     })
   end
@@ -381,13 +485,13 @@ Wort2=
     FileUtils.mkdir_p(File.dirname(TEST_FILE))
     File.open(TEST_FILE, 'w', encoding: Lingo::ENC) { |f| f.write(input) }
-    Lingo::Database.open(set_config('tst', config.merge('name' => TEST_FILE)), @lingo) { |db|
-      if block_given?
-        yield db
-      else
-        assert_equal(output, db.to_h.tap { |store| store.delete(Lingo::Database::SYS_KEY) })
-      end
-    }
+    id, err = set_config('tst', config.merge('name' => TEST_FILE)), nil
+    Lingo::Database.open(id, @lingo) { |db| begin
+      block_given? ? yield(db) : assert_equal(output, db.to_h
+        .tap { |h| h.delete(Lingo::Database::SYS_KEY) }); rescue => err; end }
+    raise err if err
   ensure
     cleanup_store
   end

data/test/ts_language.rb CHANGED

@@ -227,15 +227,15 @@ class TestGrammar < LingoTestCase
   def test_cache
     lg { |gra|
       assert_equal(
-        wd('informationswissenschaften|KOM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
+        wd('informationswissenschaften|COM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
         gra.find_compound('informationswissenschaften')
       )
       assert_equal(
-        wd('informationswissenschaften|KOM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
+        wd('informationswissenschaften|COM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
         gra.find_compound('informationswissenschaften')
       )
       assert_equal(
-        wd('informationswissenschaften|KOM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
+        wd('informationswissenschaften|COM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
         gra.find_compound('informationswissenschaften')
       )
     }
@@ -244,97 +244,97 @@ class TestGrammar < LingoTestCase
   def test_find_compound
     lg { |gra|
       assert_equal(
-        wd('informationswissenschaften|KOM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
+        wd('informationswissenschaften|COM', 'informationswissenschaft|k', 'information|s+', 'wissenschaft|s+'),
         gra.find_compound('informationswissenschaften')
       )
       assert_equal(
-        wd('cd-rom-technologie|KOM', 'cd-rom-technologie|k', 'cd-rom|s+|f', 'cd-rom|s+|m', 'technologie|s+|f'),
+        wd('cd-rom-technologie|COM', 'cd-rom-technologie|k', 'cd-rom|s+|f', 'cd-rom|s+|m', 'technologie|s+|f'),
         gra.find_compound('cd-rom-technologie')
       )
       assert_equal(
-        wd('albert-ludwigs-universität|KOM', 'albert-ludwigs-universität|k', 'albert|e+', 'ludwig|e+', 'universität|s+'),
+        wd('albert-ludwigs-universität|COM', 'albert-ludwigs-universität|k', 'albert|e+', 'ludwig|e+', 'universität|s+'),
         gra.find_compound('albert-ludwigs-universität')
       )
       assert_equal(
-        wd('client-server-system|KOM', 'client-server-system|k', 'client|s+', 'server|s+', 'system|s+'),
+        wd('client-server-system|COM', 'client-server-system|k', 'client|s+', 'server|s+', 'system|s+'),
         gra.find_compound('client-server-system')
       )
       assert_equal(
-        wd('benutzerforschung|KOM', 'benutzerforschung|k', 'benutzer|s+', 'forschung|s+'),
+        wd('benutzerforschung|COM', 'benutzerforschung|k', 'benutzer|s+', 'forschung|s+'),
         gra.find_compound('benutzerforschung')
       )
       assert_equal(
-        wd('clustersuche|KOM', 'clustersuche|k', 'cluster|s+', 'suche|s+', 'suchen|v+'),
+        wd('clustersuche|COM', 'clustersuche|k', 'cluster|s+', 'suche|s+', 'suchen|v+'),
         gra.find_compound('clustersuche')
       )
       assert_equal(
-        wd('titelkatalogstitel|KOM', 'titelkatalogstitel|k', 'titel|s+', 'katalog|s+', 'titel|s+'),
+        wd('titelkatalogstitel|COM', 'titelkatalogstitel|k', 'titel|s+', 'katalog|s+', 'titel|s+'),
         gra.find_compound('titelkatalogstitel')
       )
       assert_equal(
-        wd('titelkatalogstiteltitel|KOM', 'titelkatalogstiteltitel|k', 'titel|s+', 'katalog|s+', 'titel|s+', 'titel|s+'),
+        wd('titelkatalogstiteltitel|COM', 'titelkatalogstiteltitel|k', 'titel|s+', 'katalog|s+', 'titel|s+', 'titel|s+'),
         gra.find_compound('titelkatalogstiteltitel')
       )
       assert_equal(
-        wd('titelbestandsbestände|KOM', 'titelbestandsbestand|k', 'titel|s+', 'bestand|s+', 'bestand|s+', 'bestehen|v+'),
+        wd('titelbestandsbestände|COM', 'titelbestandsbestand|k', 'titel|s+', 'bestand|s+', 'bestand|s+', 'bestehen|v+'),
         gra.find_compound('titelbestandsbestände')
       )
       assert_equal(
-        wd('hasenbraten|KOM', 'hasenbraten|k', 'hase|s+', 'braten|v+'),
+        wd('hasenbraten|COM', 'hasenbraten|k', 'hase|s+', 'braten|v+'),
         gra.find_compound('hasenbraten')
       )
       assert_equal(
-        wd('nasenlaufen|KOM', 'nasenlaufen|k', 'nase|s+', 'laufen|v+'),
+        wd('nasenlaufen|COM', 'nasenlaufen|k', 'nase|s+', 'laufen|v+'),
         gra.find_compound('nasenlaufen')
       )
       assert_equal(
-        wd('nasenlaufens|KOM', 'nasenlaufen|k', 'nase|s+', 'laufen|v+'),
+        wd('nasenlaufens|COM', 'nasenlaufen|k', 'nase|s+', 'laufen|v+'),
         gra.find_compound('nasenlaufens')
       )
       assert_equal(
-        wd('arrafat-nachfolgebedarf|KOM', 'arrafat-nachfolgebedarf|k', 'arrafat|x+', 'nachfolge|s+', 'bedarf|s+'),
+        wd('arrafat-nachfolgebedarf|COM', 'arrafat-nachfolgebedarf|k', 'arrafat|x+', 'nachfolge|s+', 'bedarf|s+'),
         gra.find_compound('arrafat-nachfolgebedarf')
       )
       assert_equal(
-        wd('nachfolge-arrafat|KOM', 'nachfolge-arrafat|k', 'nachfolge|s+', 'arrafat|x+'),
+        wd('nachfolge-arrafat|COM', 'nachfolge-arrafat|k', 'nachfolge|s+', 'arrafat|x+'),
         gra.find_compound('nachfolge-arrafat')
       )
       assert_equal(
-        wd('morgenonkelmantel|KOM', 'morgenonkelmantel|k', 'morgen|w+', 'morgen|s+', 'onkel|s+', 'mantel|s+'),
+        wd('morgenonkelmantel|COM', 'morgenonkelmantel|k', 'morgen|w+', 'morgen|s+', 'onkel|s+', 'mantel|s+'),
         gra.find_compound('morgenonkelmantel')
       )
       assert_equal(
-        wd('arrafat-nachfolger|KOM', 'arrafat-nachfolger|k', 'arrafat|x+', 'nachfolger|s+'),
+        wd('arrafat-nachfolger|COM', 'arrafat-nachfolger|k', 'arrafat|x+', 'nachfolger|s+'),
         gra.find_compound('arrafat-nachfolger')
       )
       assert_equal(
-        wd('cd-rom-technologie|KOM', 'cd-rom-technologie|k', 'cd-rom|s+|f', 'cd-rom|s+|m', 'technologie|s+|f'),
+        wd('cd-rom-technologie|COM', 'cd-rom-technologie|k', 'cd-rom|s+|f', 'cd-rom|s+|m', 'technologie|s+|f'),
         gra.find_compound('cd-rom-technologie')
       )
       assert_equal(
-        wd('albert-ludwigs-universität|KOM', 'albert-ludwigs-universität|k', 'albert|e+', 'ludwig|e+', 'universität|s+'),
+        wd('albert-ludwigs-universität|COM', 'albert-ludwigs-universität|k', 'albert|e+', 'ludwig|e+', 'universität|s+'),
         gra.find_compound('albert-ludwigs-universität')
       )
       assert_equal(
-        wd('benutzerforschung|KOM', 'benutzerforschung|k', 'benutzer|s+', 'forschung|s+'),
+        wd('benutzerforschung|COM', 'benutzerforschung|k', 'benutzer|s+', 'forschung|s+'),
         gra.find_compound('benutzerforschung')
       )
     }
@@ -372,7 +372,7 @@ class TestGrammar < LingoTestCase
   def test_max_parts
     lg { |gra|
-      assert_equal(wd('baumsbaumsbaum|KOM', 'baumsbaumsbaum|k', 'baum|s+', 'baum|s+', 'baum|s+'), gra.find_compound('baumsbaumsbaum'))
+      assert_equal(wd('baumsbaumsbaum|COM', 'baumsbaumsbaum|k', 'baum|s+', 'baum|s+', 'baum|s+'), gra.find_compound('baumsbaumsbaum'))
       assert_equal(wd('baumsbaumsbaumsbaumsbaumsbaum|?'), gra.find_compound('baumsbaumsbaumsbaumsbaumsbaum'))
     }
   end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: lingo
 version: !ruby/object:Gem::Version
-  version: 1.8.6
+  version: 1.8.7
 platform: ruby
 authors:
 - John Vorhauer
@@ -9,7 +9,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2015-02-09 00:00:00.000000000 Z
+date: 2015-08-07 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: cyclops
@@ -31,14 +31,14 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.1'
+        version: '1.3'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.1'
+        version: '1.3'
 - !ruby/object:Gem::Dependency
   name: rubyzip
   requirement: !ruby/object:Gem::Requirement
@@ -118,7 +118,7 @@ dependencies:
         version: '0.8'
     - - ">="
       - !ruby/object:Gem::Version
-        version: 0.8.1
+        version: 0.8.2
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
@@ -128,7 +128,7 @@ dependencies:
         version: '0.8'
     - - ">="
       - !ruby/object:Gem::Version
-        version: 0.8.1
+        version: 0.8.2
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
@@ -199,6 +199,7 @@ files:
 - dict/de/test_dic.txt
 - dict/de/test_gen.txt
 - dict/de/test_mu2.txt
+- dict/de/test_muh.txt
 - dict/de/test_mul.txt
 - dict/de/test_sgw.txt
 - dict/de/test_syn.txt
@@ -220,12 +221,14 @@ files:
 - lib/lingo/app.rb
 - lib/lingo/attendee.rb
 - lib/lingo/attendee/abbreviator.rb
+- lib/lingo/attendee/analysis_filter.rb
+- lib/lingo/attendee/debug_filter.rb
 - lib/lingo/attendee/debugger.rb
 - lib/lingo/attendee/decomposer.rb
-- lib/lingo/attendee/dehyphenizer.rb
 - lib/lingo/attendee/formatter.rb
+- lib/lingo/attendee/hal_filter.rb
+- lib/lingo/attendee/lsi_filter.rb
 - lib/lingo/attendee/multi_worder.rb
-- lib/lingo/attendee/noneword_filter.rb
 - lib/lingo/attendee/object_filter.rb
 - lib/lingo/attendee/sequencer.rb
 - lib/lingo/attendee/stemmer.rb
@@ -242,6 +245,9 @@ files:
 - lib/lingo/cli.rb
 - lib/lingo/config.rb
 - lib/lingo/ctl.rb
+- lib/lingo/ctl/analysis.rb
+- lib/lingo/ctl/files.rb
+- lib/lingo/ctl/other.rb
 - lib/lingo/database.rb
 - lib/lingo/database/crypter.rb
 - lib/lingo/database/gdbm_store.rb
@@ -272,6 +278,7 @@ files:
 - lib/lingo/srv/config.ru
 - lib/lingo/srv/lingosrv.cfg
 - lib/lingo/srv/public/.gitkeep
+- lib/lingo/text_utils.rb
 - lib/lingo/version.rb
 - lib/lingo/web.rb
 - lib/lingo/web/config.ru
@@ -282,7 +289,6 @@ files:
 - test/attendee/ts_abbreviator.rb
 - test/attendee/ts_decomposer.rb
 - test/attendee/ts_multi_worder.rb
-- test/attendee/ts_noneword_filter.rb
 - test/attendee/ts_object_filter.rb
 - test/attendee/ts_sequencer.rb
 - test/attendee/ts_stemmer.rb
@@ -296,6 +302,7 @@ files:
 - test/lir.txt
 - test/lir.vec
 - test/lir2.txt
+- test/lir3.txt
 - test/mul.txt
 - test/ref/artikel.mul
 - test/ref/artikel.non
@@ -328,34 +335,46 @@ licenses:
 metadata: {}
 post_install_message: |2+
-  lingo-1.8.6 [2015-02-09]:
+  lingo-1.8.7 [2015-08-07]:
-  * Lingo::Attendee::VectorFilter learned +pos+ option to print position and
-    byte offset with each word.
-  * Lingo::Attendee::VectorFilter learned +tfidf+ option to sort results based
-    on their tf–idf[https://en.wikipedia.org/wiki/Tf–idf] score; the document
-    frequencies are calculated over the "corpus" of all files processed during
-    a single program invocation.
-  * Lingo::Attendee::VectorFilter learned +tokens+ option to filter on
-    Lingo::Language::Token in addition to Lingo::Language::Word.
-  * Lingo::Attendee::VectorFilter no longer supports +debug+ (as well as
-    +prompt+ and +preamble+); use Lingo::Attendee::DebugFilter instead.
-  * Lingo::Attendee::TextReader no longer removes line endings; option +chomp+
-    is obsolete.
-  * Lingo::Attendee::TextReader passes byte offset to the following attendee.
-  * Lingo::Attendee::Tokenizer records token's byte offset.
-  * Lingo::Attendee::Tokenizer records token's sequence position.
-  * Lingo::Attendee::Tokenizer learned <tt>skip-tags</tt> option to skip over
-    specified tags' contents.
-  * Lingo::Attendee subclasses warn when invalid or obsolete options or names
-    are used.
-  * Changed German infix substitution +/en+ to +ch/chen+ in order to prevent
-    overly aggressive identifications.
-  * Internal refactoring and API changes.
+  * Added Lingo::Attendee::LsiFilter to correlate semantically related terms
+    (LSI[https://en.wikipedia.org/wiki/Latent_semantic_indexing]) over the
+    "corpus" of all files processed during a single program invocation; requires
+    lsi4r[https://blackwinter.github.com/lsi4r] which in turn requires
+    rb-gsl[https://blackwinter.github.com/rb-gsl]. [EXPERIMENTAL: Interface may
+    be changed or removed in next release.]
+  * Added Lingo::Attendee::HalFilter to correlate semantically related terms
+    (HAL[https://en.wikipedia.org/wiki/Hyperspace_Analogue_to_Language]) over
+    individual documents; requires hal4r[https://blackwinter.github.com/hal4r]
+    which in turn requires rb-gsl[https://blackwinter.github.com/rb-gsl].
+    [EXPERIMENTAL: Interface may be changed or removed in next release.]
+  * Added Lingo::Attendee::AnalysisFilter and associated +lingoctl+ tooling.
+  * Multiword dictionaries can now identify hyphenated variants (e.g.
+    <tt>automatic data-processing</tt>); set <tt>hyphenate: true</tt> in the
+    dictionary config.
+  * Lingo::Attendee::Tokenizer no longer considers hyphens at word edges as part
+    of the word. As a consequence, Lingo::Attendee::Dehyphenizer has been
+    dropped.
+  * Dropped Lingo::Attendee::NonewordFilter; use Lingo::Attendee::VectorFilter
+    with option <tt>lexicals: '\?'</tt> instead.
+  * Lingo::Attendee::TextReader and Lingo::Attendee::TextWriter learned
+    +encoding+ option to read/write text that is not UTF-8 encoded;
+    configuration files and dictionaries still need to be UTF-8, though.
+  * Lingo::Attendee::TextReader and Lingo::Attendee::TextWriter learned to
+    read/write Gzip-compressed files (file extension +.gz+ or +.gzip+).
+  * Lingo::Attendee::Sequencer learned to recognize +0+ in the pattern to match
+    number tokens.
+  * Fixed Lingo::Attendee::TextReader to recognize BOM in input files; does not
+    apply to input read from +STDIN+.
+  * Fixed regression introduced in 1.8.6 where Lingo::Attendee::Debugger would
+    no longer work immediately behind Lingo::Attendee::TextReader.
+  * Fixed +lingoctl+ copy commands when overwriting existing files.
+  * Refactored Lingo::Database::Crypter into a module.
+  * JRuby 9000 compatibility.
 rdoc_options:
 - "--title"
-- lingo Application documentation (v1.8.6)
+- lingo Application documentation (v1.8.7)
 - "--charset"
 - UTF-8
 - "--line-numbers"
@@ -376,7 +395,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.4.5
+rubygems_version: 2.4.8
 signing_key:
 specification_version: 4
 summary: The full-featured automatic indexing system