RubyGems - lingo - Versions diffs - 1.8.5 → 1.8.6 - Mend

lingo 1.8.5 → 1.8.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (109) hide show

checksums.yaml +4 -4
data/ChangeLog +25 -0
data/README +7 -5
data/Rakefile +58 -55
data/{lingo-call.cfg → config/lingo-call.cfg} +1 -1
data/{lingo.cfg → config/lingo.cfg} +10 -2
data/{lir.cfg → config/lir.cfg} +10 -2
data/{de → dict/de}/lingo-abk.txt +0 -0
data/{de → dict/de}/lingo-dic.txt +0 -0
data/{de → dict/de}/lingo-mul.txt +0 -0
data/{de → dict/de}/lingo-syn.txt +0 -0
data/{de → dict/de}/test_dic.txt +0 -0
data/{de → dict/de}/test_gen.txt +0 -0
data/{de → dict/de}/test_mu2.txt +0 -0
data/{de → dict/de}/test_mul.txt +0 -0
data/{de → dict/de}/test_sgw.txt +0 -0
data/{de → dict/de}/test_syn.txt +0 -0
data/{de → dict/de}/user-dic.txt +0 -0
data/{en → dict/en}/lingo-dic.txt +0 -0
data/{en → dict/en}/lingo-irr.txt +0 -0
data/{en → dict/en}/lingo-mul.txt +0 -0
data/{en → dict/en}/lingo-syn.txt +0 -0
data/{en → dict/en}/lingo-wdn.txt +0 -0
data/{en → dict/en}/user-dic.txt +0 -0
data/{ru → dict/ru}/lingo-dic.txt +0 -0
data/{ru → dict/ru}/lingo-mul.txt +0 -0
data/{ru → dict/ru}/lingo-syn.txt +0 -0
data/{ru → dict/ru}/user-dic.txt +0 -0
data/{de.lang → lang/de.lang} +1 -1
data/{en.lang → lang/en.lang} +0 -0
data/{ru.lang → lang/ru.lang} +0 -0
data/lib/lingo.rb +14 -15
data/lib/lingo/app.rb +4 -2
data/lib/lingo/attendee.rb +23 -43
data/lib/lingo/attendee/abbreviator.rb +5 -5
data/lib/lingo/attendee/debugger.rb +39 -12
data/lib/lingo/attendee/decomposer.rb +3 -4
data/lib/lingo/attendee/dehyphenizer.rb +4 -4
data/lib/lingo/attendee/formatter.rb +1 -3
data/lib/lingo/attendee/multi_worder.rb +3 -4
data/lib/lingo/attendee/noneword_filter.rb +8 -12
data/lib/lingo/attendee/object_filter.rb +6 -3
data/lib/lingo/attendee/sequencer.rb +5 -5
data/lib/lingo/attendee/stemmer.rb +3 -2
data/lib/lingo/attendee/synonymer.rb +3 -4
data/lib/lingo/attendee/text_reader.rb +39 -38
data/lib/lingo/attendee/text_writer.rb +10 -10
data/lib/lingo/attendee/tokenizer.rb +63 -33
data/lib/lingo/attendee/variator.rb +3 -7
data/lib/lingo/attendee/vector_filter.rb +132 -65
data/lib/lingo/attendee/word_searcher.rb +5 -3
data/lib/lingo/buffered_attendee.rb +1 -3
data/lib/lingo/call.rb +4 -3
data/lib/lingo/cli.rb +5 -1
data/lib/lingo/config.rb +11 -5
data/lib/lingo/ctl.rb +3 -3
data/lib/lingo/database.rb +3 -1
data/lib/lingo/database/crypter.rb +1 -3
data/lib/lingo/database/source.rb +3 -1
data/lib/lingo/database/source/key_value.rb +3 -1
data/lib/lingo/database/source/multi_key.rb +3 -1
data/lib/lingo/database/source/multi_value.rb +3 -1
data/lib/lingo/database/source/single_word.rb +3 -1
data/lib/lingo/database/source/word_class.rb +3 -1
data/lib/lingo/debug.rb +5 -5
data/lib/lingo/{agenda_item.rb → deferred_attendee.rb} +21 -12
data/lib/lingo/error.rb +1 -1
data/lib/lingo/language.rb +1 -9
data/lib/lingo/language/dictionary.rb +2 -17
data/lib/lingo/language/grammar.rb +10 -10
data/lib/lingo/language/lexical.rb +2 -0
data/lib/lingo/language/lexical_hash.rb +2 -0
data/lib/lingo/language/token.rb +17 -3
data/lib/lingo/language/word.rb +13 -5
data/lib/lingo/language/word_form.rb +5 -3
data/lib/lingo/progress.rb +2 -2
data/lib/lingo/srv.rb +1 -1
data/lib/lingo/srv/lingosrv.cfg +1 -1
data/lib/lingo/version.rb +1 -1
data/lib/lingo/web.rb +1 -1
data/lib/lingo/web/lingoweb.cfg +1 -1
data/test/attendee/ts_abbreviator.rb +4 -2
data/test/attendee/ts_multi_worder.rb +81 -88
data/test/attendee/ts_noneword_filter.rb +2 -2
data/test/attendee/ts_object_filter.rb +2 -2
data/test/attendee/ts_sequencer.rb +40 -20
data/test/attendee/ts_stemmer.rb +52 -26
data/test/attendee/ts_text_reader.rb +75 -56
data/test/attendee/ts_text_writer.rb +6 -4
data/test/attendee/ts_tokenizer.rb +304 -193
data/test/attendee/ts_vector_filter.rb +242 -9
data/test/ref/artikel.non +3 -0
data/test/ref/artikel.vec +1 -4
data/test/ref/artikel.vef +940 -0
data/test/ref/artikel.ven +0 -3
data/test/ref/artikel.ver +0 -3
data/test/ref/artikel.vet +2580 -0
data/test/ref/lir.non +34 -31
data/test/ref/lir.seq +14 -15
data/test/ref/lir.vec +37 -37
data/test/ref/lir.vef +329 -0
data/test/ref/lir.ven +329 -0
data/test/ref/lir.ver +329 -0
data/test/ref/lir.vet +329 -0
data/test/test_helper.rb +29 -16
data/test/ts_language.rb +6 -47
metadata +74 -87
data/lingo.rb +0 -29
data/spec/spec_helper.rb +0 -5

data/lib/lingo/language/token.rb CHANGED

@@ -28,28 +28,42 @@ class Lingo
   module Language
+    #--
     # Die Klasse Token, abgeleitet von der Klasse WordForm, stellt den Container
     # für ein einzelnes Wort eines Textes dar. Das Wort wird mit einem Attribut versehen,
     # welches der Regel entspricht, die dieses Wort identifiziert hat.
     #
     # Steht z.B. in ruby.cfg eine Regel zur Erkennung einer Zahl, die mit NUM bezeichnet wird,
     # so wird dies dem Token angeheftet, z.B. Token.new('100', 'NUM') -> #100/NUM#
+    #++
     class Token < WordForm
+      POSITION_SEP = ':'
       def self.clean(attr)
         attr.sub(/:.*/, '')
       end
-      def initialize(*)
-        super
-        @attr = self.class.clean(attr)
+      def initialize(form, attr, position = nil, offset = nil)
+        @position, @offset = position, offset
+        super(form, self.class.clean(attr))
       end
+      attr_reader :position, :offset
       def word?
         attr == TA_WORD
       end
+      def position_and_offset
+        "#{position}#{POSITION_SEP}#{offset}"
+      end
+      def to_a
+        [form, attr, position, offset]
+      end
       def to_s
         ":#{super}:"
       end

data/lib/lingo/language/word.rb CHANGED

@@ -6,7 +6,7 @@
 # Lingo -- A full-featured automatic indexing system                          #
 #                                                                             #
 # Copyright (C) 2005-2007 John Vorhauer                                       #
-# Copyright (C) 2007-2013 John Vorhauer, Jens Wille                           #
+# Copyright (C) 2007-2014 John Vorhauer, Jens Wille                           #
 #                                                                             #
 # Lingo is free software; you can redistribute it and/or modify it under the  #
 # terms of the GNU Affero General Public License as published by the Free     #
@@ -28,8 +28,10 @@ class Lingo
   module Language
+    #--
     # Die Klasse Word bündelt spezifische Eigenschaften eines Wortes mit den
     # dazu notwendigen Methoden.
+    #++
     class Word < WordForm
@@ -59,6 +61,7 @@ class Lingo
       end
+      #--
       # Exakte Representation der originären Zeichenkette, so wie sie im Satz
       # gefunden wurde, z.B. <tt>form = "RubyLing"</tt>
       #
@@ -71,12 +74,15 @@ class Lingo
       #
       # <b>Achtung: Lemma wird nicht durch die Word-Klasse bestückt, sondern extern
       # durch die Klasse Dictionary</b>
+      #++
-      def initialize(form, attr = WA_UNSET)
+      def initialize(form, attr = WA_UNSET, token = nil)
+        @token, @lexicals = token, []
         super
-        @lexicals = []
       end
+      attr_reader :token
       attr_writer :lexicals
       def lexicals(compound_parts = true)
@@ -113,8 +119,6 @@ class Lingo
         self
       end
-      # Gibt genau die Grundform der Wortklasse zurück, die der RegExp des Übergabe-Parameters
-      # entspricht, z.B. <tt>word.get_wc(/a/) = ['abgeschoben', '#a']</tt>
       def get_class(wc_re)
         wc_re = Regexp.new(wc_re) unless wc_re.is_a?(Regexp)
@@ -138,6 +142,10 @@ class Lingo
         lex = get_class(wc_re).first and lex.form.count(' ') + 1
       end
+      def position_and_offset
+        token.position_and_offset if token
+      end
       def <<(*lex)
         lex.flatten!
         @lexicals.concat(lex)

data/lib/lingo/language/word_form.rb CHANGED

@@ -6,7 +6,7 @@
 # Lingo -- A full-featured automatic indexing system                          #
 #                                                                             #
 # Copyright (C) 2005-2007 John Vorhauer                                       #
-# Copyright (C) 2007-2013 John Vorhauer, Jens Wille                           #
+# Copyright (C) 2007-2014 John Vorhauer, Jens Wille                           #
 #                                                                             #
 # Lingo is free software; you can redistribute it and/or modify it under the  #
 # terms of the GNU Affero General Public License as published by the Free     #
@@ -28,9 +28,11 @@ class Lingo
   module Language
+    #--
     # Die Klasse WordForm ist die Basisklasse für weitere Klassen, die im Rahmen der
     # Objektstruktur eines Wortes benötigt werden. Die Klasse stellt eine Zeichenkette bereit,
     # die mit einem Attribut versehen werden kann.
+    #++
     class WordForm
@@ -56,11 +58,11 @@ class Lingo
       end
       def to_a
-        [form, attr, gender].compact
+        [form, attr, gender]
       end
       def to_s
-        to_a.join('/')
+        to_a.compact.join('/')
       end
       def inspect

data/lib/lingo/progress.rb CHANGED

@@ -6,7 +6,7 @@
 # Lingo -- A full-featured automatic indexing system                          #
 #                                                                             #
 # Copyright (C) 2005-2007 John Vorhauer                                       #
-# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+# Copyright (C) 2007-2014 John Vorhauer, Jens Wille                           #
 #                                                                             #
 # Lingo is free software; you can redistribute it and/or modify it under the  #
 # terms of the GNU Affero General Public License as published by the Free     #
@@ -54,7 +54,7 @@ class Lingo
         begin
           yield self
         ensure
-          trap(:INT, &int)
+          trap(:INT, int)
         end
         suc = true

data/lib/lingo/srv.rb CHANGED

@@ -58,7 +58,7 @@ class Lingo
       r = LINGO.talk(q) unless q.empty?
       return r unless r && SRC_SEP
-      s = Hash.new { |h, k| h[k] = [] }
+      s = Hash.nest { [] }
       r.each { |t|
         a, b = t.split(SRC_SEP, 2)

data/lib/lingo/srv/lingosrv.cfg CHANGED

@@ -10,5 +10,5 @@ meeting:
     - sequencer:     { stopper: 'PUNC,OTHR' }
     - synonymer:     { skip: '?,t', source: sys-syn }
-    - vector_filter: { debug: 'true', prompt: '', preamble: false }
+    - debug_filter:  { preamble: false }
     - text_writer:   { ext: STDOUT, sep: "\n" }

data/lib/lingo/version.rb CHANGED

@@ -4,7 +4,7 @@ class Lingo
     MAJOR = 1
     MINOR = 8
-    TINY  = 5
+    TINY  = 6
     class << self

data/lib/lingo/web.rb CHANGED

@@ -48,7 +48,7 @@ class Lingo
       use(Rack::Auth::Basic) { |*b| b == c } unless c.empty?
     end
-    LINGO = Hash.new { |h, k| h[k] = Lingo.call(cfg, ['-l', k]) }
+    LINGO = Hash.nest { |k| Lingo.call(cfg, ['-l', k]) }
     CFG, s, h = '', StringScanner.new(''), ERB::Util.method(:h)
     c = lambda { |n| %Q{<span style="color:#{n}">#{h[s.matched]}</span>} }

data/lib/lingo/web/lingoweb.cfg CHANGED

@@ -10,5 +10,5 @@ meeting:
     - sequencer:     { stopper: 'PUNC,OTHR' }
     - synonymer:     { skip: '?,t', source: sys-syn }
-    - vector_filter: { debug: 'true', prompt: '', preamble: false }
+    - debug_filter:  { preamble: false }
     - text_writer:   { ext: STDOUT, sep: "\n" }

data/test/attendee/ts_abbreviator.rb CHANGED

@@ -33,7 +33,8 @@ class TestAttendeeAbbreviator < AttendeeTestCase
       tk('Punkt|WORD'),
       tk('am|WORD'),
       tk('Ende|WORD'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       tk('Dieser|WORD'),
       tk('Satz|WORD'),
@@ -42,7 +43,8 @@ class TestAttendeeAbbreviator < AttendeeTestCase
       tk('Punkt|WORD'),
       tk('am|WORD'),
       tk('Ende|WORD'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end

data/test/attendee/ts_multi_worder.rb CHANGED

@@ -7,53 +7,41 @@ class TestAttendeeMultiWorder < AttendeeTestCase
   def test_basic
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
-      # John_F_._Kennedy
       wd('John|IDF', 'john|e'), wd('F|?'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
-      # John_F_Kennedy
       wd('John|IDF', 'john|e'), wd('F|?'), wd('Kennedy|IDF', 'kennedy|e'),
-      # John_F_Kennedy_.
       wd('John|IDF', 'john|e'), wd('F|?'), wd('Kennedy|IDF', 'kennedy|e'), tk('.|PUNC'),
-      # a_priori
       wd('a|?'), wd('priori|IDF', 'priori|w'),
-      # Ableitung_nicht_ganzzahliger_Ordnung
       wd('Ableitung|IDF', 'ableitung|s'),
       wd('nicht|IDF', 'nicht|w'),
       wd('ganzzahliger|IDF', 'ganzzahlig|a'),
       wd('Ordnung|IDF', 'ordnung|s'),
-      # Academic_learning_time_in_physical_education
       wd('academic|?'), wd('learning|?'), wd('time|IDF', 'timen|v'),
       wd('in|IDF', 'in|t'), wd('physical|?'), wd('education|?'),
-      # Satzende
       tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
-      # John_F_._Kennedy
       wd('John F. Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
-      # John_F_Kennedy
       wd('John F Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
-      # John_F_Kennedy_.
       wd('John F Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
       tk('.|PUNC'),
-      # a_priori
       wd('a priori|MUL', 'a priori|m'),
       wd('a|MU?'), wd('priori|IDF', 'priori|w'),
-      # Ableitung_nicht_ganzzahliger_Ordnung
       wd('Ableitung nicht ganzzahliger Ordnung|MUL', 'ableitung nicht ganzzahliger ordnung|m'),
       wd('Ableitung|IDF', 'ableitung|s'),
       wd('nicht|IDF', 'nicht|w'),
       wd('ganzzahliger|IDF', 'ganzzahlig|a'),
       wd('Ordnung|IDF', 'ordnung|s'),
-      # Academic_learning_time_in_physical_education
       wd('academic learning time in physical education|MUL', 'academic learning time in physical education|m'),
       wd('academic|MU?'), wd('learning|MU?'), wd('time|IDF', 'timen|v'),
       wd('in|IDF', 'in|t'), wd('physical|MU?'), wd('education|MU?'),
-      # Satzende
       tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
   end
@@ -61,45 +49,53 @@ class TestAttendeeMultiWorder < AttendeeTestCase
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Abelsches Schema|MUL', 'abelsches schema|m'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Tolles|IDF', 'toll|a'), wd('abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Tolles abelsches Schema|MUL', 'tolles abelsches schema|m'),
       wd('Tolles|IDF', 'toll|a'), wd('abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Super|IDF', 'super|a'), wd('tolles|IDF', 'toll|a'), wd('abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Super tolles abelsches Schema|MUL', 'super tolles abelsches schema|m'),
       wd('Super|IDF', 'super|a'), wd('tolles|IDF', 'toll|a'), wd('abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Extra|IDF', 'extra|a'), wd('super|IDF', 'super|a'), wd('tolles|IDF', 'toll|a'), wd('abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Extra super tolles abelsches Schema|MUL', 'extra super tolles abelsches schema|m'),
       wd('Extra|IDF', 'extra|a'), wd('super|IDF', 'super|a'), wd('tolles|IDF', 'toll|a'), wd('abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
   end
@@ -107,45 +103,53 @@ class TestAttendeeMultiWorder < AttendeeTestCase
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Abelsches Schema|MUL', 'abelsches schema|m'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), wd('toll|IDF', 'toll|a'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Abelsches Schema toll|MUL', 'abelsches schema toll|m'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), wd('toll|IDF', 'toll|a'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), wd('toll|IDF', 'toll|a'), wd('super|IDF', 'super|a'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Abelsches Schema toll super|MUL', 'abelsches schema toll super|m'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), wd('toll|IDF', 'toll|a'), wd('super|IDF', 'super|a'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
     meet({ 'source' => 'tst-mul' }, [
       ai('FILE|mul.txt'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), wd('toll|IDF', 'toll|a'), wd('super|IDF', 'super|a'), wd('extra|IDF', 'extra|a'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('Abelsches Schema toll super extra|MUL', 'abelsches schema toll super extra|m'),
       wd('Abelsches|IDF', 'abelsch|a'), wd('Schema|IDF', 'schema|s'), wd('toll|IDF', 'toll|a'), wd('super|IDF', 'super|a'), wd('extra|IDF', 'extra|a'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
   end
@@ -154,172 +158,161 @@ class TestAttendeeMultiWorder < AttendeeTestCase
       ai('FILE|mul.txt'),
       wd('John|IDF', 'john|e'), wd('F|?'), tk('.|PUNC'), wd('Kennedy|IDF', 'kennedy|e'),
       wd('war|IDF', 'war|w'), wd('einmal|IDF', 'einmal|w'), wd('Präsident|IDF', 'präsident|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ], [
       ai('FILE|mul.txt'),
       wd('John F. Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
       wd('war|IDF', 'war|w'), wd('einmal|IDF', 'einmal|w'), wd('Präsident|IDF', 'präsident|s'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
-    input.delete_at(-3)
+    input.delete_at(-4)
     meet({ 'source' => 'tst-mul' }, input, [
       ai('FILE|mul.txt'),
       wd('John F. Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
       wd('war|IDF', 'war|w'), wd('einmal|IDF', 'einmal|w'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
-    input.delete_at(-3)
+    input.delete_at(-4)
     meet({ 'source' => 'tst-mul' }, input, [
       ai('FILE|mul.txt'),
       wd('John F. Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
       wd('war|IDF', 'war|w'), tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
-    input.delete_at(-3)
+    input.delete_at(-4)
     meet({ 'source' => 'tst-mul' }, input, [
       ai('FILE|mul.txt'),
       wd('John F. Kennedy|MUL', 'john f. kennedy|m'),
       wd('John|IDF', 'john|e'), wd('F|MU?'), wd('Kennedy|IDF', 'kennedy|e'),
       tk('.|PUNC'),
-      ai('EOF|mul.txt')
+      ai('EOF|mul.txt'),
+      ai('EOT|')
     ])
   end
   def test_two_sources_mode_first
-    # in keinen WB enthalten
     meet({ 'source' => 'tst-mul,tst-mu2', 'mode' => 'first' }, [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im ersten WB enthalten
     meet({ 'source' => 'tst-mul,tst-mu2', 'mode' => 'first' }, [
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('abstrakten Kunst|MUL', 'abstrakte kunst|m'),
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im zweiten WB enthalten
     meet({ 'source' => 'tst-mul,tst-mu2', 'mode' => 'first' }, [
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('traumatischer Angelegenheit|MUL', 'traumatische angelegenheit|m'),
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # in beiden WB enthalten
     meet({ 'source' => 'tst-mul,tst-mu2', 'mode' => 'first' }, [
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('azyklischen Bewegungen|MUL', 'chaotisches movement|m'),
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
   end
   def test_two_sources_mode_first_flipped
-    # in keinen WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'first' }, [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im ersten WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'first' }, [
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('abstrakten Kunst|MUL', 'abstrakte kunst|m'),
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im zweiten WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'first' }, [
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('traumatischer Angelegenheit|MUL', 'traumatische angelegenheit|m'),
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # in beiden WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'first' }, [
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('azyklischen Bewegungen|MUL', 'azyklische bewegung|m'),
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
   end
   def test_select_two_sources_mode_all
-    # in keinen WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'all' }, [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im ersten WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'all' }, [
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('abstrakten Kunst|MUL', 'abstrakte kunst|m'),
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im zweiten WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'all' }, [
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('traumatischer Angelegenheit|MUL', 'traumatische angelegenheit|m'),
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # in beiden WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul', 'mode' => 'all' }, [
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('azyklischen Bewegungen|MUL', 'azyklische bewegung|m', 'chaotisches movement|m'),
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
   end
   def test_select_two_sources_mode_def
-    # in keinen WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul' }, [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
-      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt')
+      wd('intelligente|IDF', 'intelligent|a'), wd('Indexierung|IDF', 'indexierung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im ersten WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul' }, [
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('abstrakten Kunst|MUL', 'abstrakte kunst|m'),
-      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt')
+      wd('abstrakten|IDF', 'abstrakt|a'), wd('Kunst|IDF', 'kunst|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # im zweiten WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul' }, [
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('traumatischer Angelegenheit|MUL', 'traumatische angelegenheit|m'),
-      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt')
+      wd('traumatischer|IDF', 'traumatisch|a'), wd('Angelegenheit|IDF', 'angelegenheit|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
-    # in beiden WB enthalten
     meet({ 'source' => 'tst-mu2,tst-mul' }, [
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ], [
       wd('azyklischen Bewegungen|MUL', 'azyklische bewegung|m', 'chaotisches movement|m'),
-      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt')
+      wd('azyklischen|IDF', 'azyklisch|a'), wd('Bewegungen|IDF', 'bewegung|s'), ai('EOF|mul.txt'), ai('EOT|')
     ])
   end