RubyGems - lingo - Versions diffs - 1.8.5 → 1.8.6 - Mend

lingo 1.8.5 → 1.8.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (109) hide show

checksums.yaml +4 -4
data/ChangeLog +25 -0
data/README +7 -5
data/Rakefile +58 -55
data/{lingo-call.cfg → config/lingo-call.cfg} +1 -1
data/{lingo.cfg → config/lingo.cfg} +10 -2
data/{lir.cfg → config/lir.cfg} +10 -2
data/{de → dict/de}/lingo-abk.txt +0 -0
data/{de → dict/de}/lingo-dic.txt +0 -0
data/{de → dict/de}/lingo-mul.txt +0 -0
data/{de → dict/de}/lingo-syn.txt +0 -0
data/{de → dict/de}/test_dic.txt +0 -0
data/{de → dict/de}/test_gen.txt +0 -0
data/{de → dict/de}/test_mu2.txt +0 -0
data/{de → dict/de}/test_mul.txt +0 -0
data/{de → dict/de}/test_sgw.txt +0 -0
data/{de → dict/de}/test_syn.txt +0 -0
data/{de → dict/de}/user-dic.txt +0 -0
data/{en → dict/en}/lingo-dic.txt +0 -0
data/{en → dict/en}/lingo-irr.txt +0 -0
data/{en → dict/en}/lingo-mul.txt +0 -0
data/{en → dict/en}/lingo-syn.txt +0 -0
data/{en → dict/en}/lingo-wdn.txt +0 -0
data/{en → dict/en}/user-dic.txt +0 -0
data/{ru → dict/ru}/lingo-dic.txt +0 -0
data/{ru → dict/ru}/lingo-mul.txt +0 -0
data/{ru → dict/ru}/lingo-syn.txt +0 -0
data/{ru → dict/ru}/user-dic.txt +0 -0
data/{de.lang → lang/de.lang} +1 -1
data/{en.lang → lang/en.lang} +0 -0
data/{ru.lang → lang/ru.lang} +0 -0
data/lib/lingo.rb +14 -15
data/lib/lingo/app.rb +4 -2
data/lib/lingo/attendee.rb +23 -43
data/lib/lingo/attendee/abbreviator.rb +5 -5
data/lib/lingo/attendee/debugger.rb +39 -12
data/lib/lingo/attendee/decomposer.rb +3 -4
data/lib/lingo/attendee/dehyphenizer.rb +4 -4
data/lib/lingo/attendee/formatter.rb +1 -3
data/lib/lingo/attendee/multi_worder.rb +3 -4
data/lib/lingo/attendee/noneword_filter.rb +8 -12
data/lib/lingo/attendee/object_filter.rb +6 -3
data/lib/lingo/attendee/sequencer.rb +5 -5
data/lib/lingo/attendee/stemmer.rb +3 -2
data/lib/lingo/attendee/synonymer.rb +3 -4
data/lib/lingo/attendee/text_reader.rb +39 -38
data/lib/lingo/attendee/text_writer.rb +10 -10
data/lib/lingo/attendee/tokenizer.rb +63 -33
data/lib/lingo/attendee/variator.rb +3 -7
data/lib/lingo/attendee/vector_filter.rb +132 -65
data/lib/lingo/attendee/word_searcher.rb +5 -3
data/lib/lingo/buffered_attendee.rb +1 -3
data/lib/lingo/call.rb +4 -3
data/lib/lingo/cli.rb +5 -1
data/lib/lingo/config.rb +11 -5
data/lib/lingo/ctl.rb +3 -3
data/lib/lingo/database.rb +3 -1
data/lib/lingo/database/crypter.rb +1 -3
data/lib/lingo/database/source.rb +3 -1
data/lib/lingo/database/source/key_value.rb +3 -1
data/lib/lingo/database/source/multi_key.rb +3 -1
data/lib/lingo/database/source/multi_value.rb +3 -1
data/lib/lingo/database/source/single_word.rb +3 -1
data/lib/lingo/database/source/word_class.rb +3 -1
data/lib/lingo/debug.rb +5 -5
data/lib/lingo/{agenda_item.rb → deferred_attendee.rb} +21 -12
data/lib/lingo/error.rb +1 -1
data/lib/lingo/language.rb +1 -9
data/lib/lingo/language/dictionary.rb +2 -17
data/lib/lingo/language/grammar.rb +10 -10
data/lib/lingo/language/lexical.rb +2 -0
data/lib/lingo/language/lexical_hash.rb +2 -0
data/lib/lingo/language/token.rb +17 -3
data/lib/lingo/language/word.rb +13 -5
data/lib/lingo/language/word_form.rb +5 -3
data/lib/lingo/progress.rb +2 -2
data/lib/lingo/srv.rb +1 -1
data/lib/lingo/srv/lingosrv.cfg +1 -1
data/lib/lingo/version.rb +1 -1
data/lib/lingo/web.rb +1 -1
data/lib/lingo/web/lingoweb.cfg +1 -1
data/test/attendee/ts_abbreviator.rb +4 -2
data/test/attendee/ts_multi_worder.rb +81 -88
data/test/attendee/ts_noneword_filter.rb +2 -2
data/test/attendee/ts_object_filter.rb +2 -2
data/test/attendee/ts_sequencer.rb +40 -20
data/test/attendee/ts_stemmer.rb +52 -26
data/test/attendee/ts_text_reader.rb +75 -56
data/test/attendee/ts_text_writer.rb +6 -4
data/test/attendee/ts_tokenizer.rb +304 -193
data/test/attendee/ts_vector_filter.rb +242 -9
data/test/ref/artikel.non +3 -0
data/test/ref/artikel.vec +1 -4
data/test/ref/artikel.vef +940 -0
data/test/ref/artikel.ven +0 -3
data/test/ref/artikel.ver +0 -3
data/test/ref/artikel.vet +2580 -0
data/test/ref/lir.non +34 -31
data/test/ref/lir.seq +14 -15
data/test/ref/lir.vec +37 -37
data/test/ref/lir.vef +329 -0
data/test/ref/lir.ven +329 -0
data/test/ref/lir.ver +329 -0
data/test/ref/lir.vet +329 -0
data/test/test_helper.rb +29 -16
data/test/ts_language.rb +6 -47
metadata +74 -87
data/lingo.rb +0 -29
data/spec/spec_helper.rb +0 -5

data/test/attendee/ts_noneword_filter.rb CHANGED

@@ -6,9 +6,9 @@ class TestAttendeeNonewordFilter < AttendeeTestCase
   def test_basic
     meet({}, [
-      wd('Eins|IDF'), wd('Zwei|?'), wd('Drei|IDF'), wd('Vier|?'), ai('EOF|')
+      wd('Eins|IDF'), wd('Zwei|?'), wd('Drei|IDF'), wd('Vier|?'), ai('EOF|'), ai('EOT|')
     ], [
-      'vier', 'zwei', ai('EOF|')
+      'vier', 'zwei', ai('EOF|'), ai('EOT|')
     ])
   end

data/test/attendee/ts_object_filter.rb CHANGED

@@ -6,9 +6,9 @@ class TestAttendeeObjectFilter < AttendeeTestCase
   def test_basic
     meet({ 'objects' => 'obj.form =~ /^[A-Z]/' }, [
-      wd('Eins|IDF'), wd('zwei|?'), wd('Drei|IDF'), wd('vier|?'), ai('EOF|')
+      wd('Eins|IDF'), wd('zwei|?'), wd('Drei|IDF'), wd('vier|?'), ai('EOF|'), ai('EOT|')
     ], [
-      wd('Eins|IDF'), wd('Drei|IDF'), ai('EOF|')
+      wd('Eins|IDF'), wd('Drei|IDF'), ai('EOF|'), ai('EOT|')
     ])
   end

data/test/attendee/ts_sequencer.rb CHANGED

@@ -15,7 +15,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Der|IDF', 'der|w'),
       wd('schöne|IDF', 'schön|a'),
       wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # AS
       wd('Die|IDF', 'die|w'),
@@ -28,7 +29,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('schöne|IDF', 'schön|a'),
       wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
       wd('sonnenuntergang, schön|SEQ', 'sonnenuntergang, schön|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -50,7 +52,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Der|IDF', 'der|w'),
       wd('Sonne|IDF', 'sonne|s'),
       wd('Untergang|IDF', 'untergang|s'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # (AS)
       wd('Die|IDF', 'die|w'),
@@ -72,7 +75,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Sonne|IDF', 'sonne|s'),
       wd('Untergang|IDF', 'untergang|s'),
       wd('sonne untergang|SEQ', 'sonne untergang|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -85,7 +89,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Gottes|IDF', 'gott|s'),
       wd('Turm|IDF', 'turm|s'),
       tk('.|PUNC'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # MS
       wd('Der|IDF', 'der|w'),
@@ -95,7 +100,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Turm|IDF', 'turm|s'),
       tk('.|PUNC'),
       wd('abbild gottes turm|SEQ', 'abbild gottes turm|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
     meet({ 'sequences' => [['MS', '1 2'], ['SS', '1 2'], ['SSS', '1 2 3']] }, [
       # MS + SS + SS + SSS
@@ -109,7 +115,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild Gottes|MUL', 'abbild gottes|m'),
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # MS + SS + SS + SSS
       wd('Der|IDF', 'der|w'),
@@ -127,7 +134,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
       wd('abbild gott|SEQ', 'abbild gott|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -144,7 +152,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild Gottes|MUL', 'abbild gottes|m'),
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # MS + SS + SS
       wd('Der|IDF', 'der|w'),
@@ -161,7 +170,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
       wd('abbild gott|SEQ', 'abbild gott|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -177,7 +187,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild Gottes|MUL', 'abbild gottes|m'),
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # (MS + SS + SS)
       wd('Der|IDF', 'der|w'),
@@ -189,7 +200,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild Gottes|MUL', 'abbild gottes|m'),
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -206,7 +218,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild Gottes|MUL', 'abbild gottes|m'),
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # MS + SS + SS
       wd('Der|IDF', 'der|w'),
@@ -223,7 +236,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Abbild|IDF', 'abbild|s'),
       wd('Gottes|IDF', 'gott|s'),
       wd('abbild gott|SEQ', 'abbild gott|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -236,7 +250,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Gottes|IDF', 'gott|s'),
       wd('Turm|IDF', 'turm|s'),
       tk('.|PUNC'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # MS + SSS + (SS) + SS
       wd('Der|IDF', 'der|w'),
@@ -249,7 +264,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('abbild gott turm|SEQ', 'abbild gott turm|q'),
       #wd('abbild gott|SEQ', 'abbild gott|q'),  # FIXME
       wd('gott turm|SEQ', 'gott turm|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -262,7 +278,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Gottes|IDF', 'gott|s'),
       wd('Turm|IDF', 'turm|s'),
       tk('.|PUNC'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # MS + SSS + (SS) + SS
       wd('Der|IDF', 'der|w'),
@@ -275,7 +292,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('sss:abbild^gott^turm|SEQ', 'sss:abbild^gott^turm|q'),
       #wd('ss:abbild^gott|SEQ', 'ss:abbild^gott|q'),  # FIXME
       wd('ss:gott^turm|SEQ', 'ss:gott^turm|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -290,7 +308,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Der|IDF', 'der|w'),
       wd('schöne|IDF', 'schön|a'),
       wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       # WA + AS
       wd('Die|IDF', 'die|w'),
@@ -305,7 +324,8 @@ class TestAttendeeSequencer < AttendeeTestCase
       wd('Sonnenuntergang|KOM', 'sonnenuntergang|k', 'sonne|s+', 'untergang|s+'),
       wd('der schön (wa)|SEQ', 'der schön (wa)|q'),
       wd('ak: sonnenuntergang, schön|SEQ', 'ak: sonnenuntergang, schön|q'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end

data/test/attendee/ts_stemmer.rb CHANGED

@@ -13,12 +13,14 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('bla|IDF'),
       wd('blub|?'),
       wd('blubs|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('bla|IDF'),
       wd('blub|?'),
       wd('blubs|?', 'blub|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -27,12 +29,14 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('bla|IDF'),
       wd('blub|?'),
       wd('blubs|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('bla|IDF'),
       wd('blub|?'),
       wd('blubs|?', 'blub|w'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -42,13 +46,15 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('a|?'),
       wd('yet|?'),
       wd('blubs|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('bla|IDF'),
       wd('a|?'),
       wd('yet|?'),
       wd('blubs|?', 'blub|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
     meet({ 'mode' => 'all' }, [
@@ -56,13 +62,15 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('a|?'),
       wd('yet|?'),
       wd('blubs|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('bla|IDF'),
       wd('a|?',     'a|z'),
       wd('yet|?',   'yet|z'),
       wd('blubs|?', 'blub|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -74,7 +82,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('ties|?'),
       wd('caress|?'),
       wd('cats|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S100|IDF'),
       wd('caresses|?', 'caress|z'),
@@ -82,7 +91,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('ties|?',     'ti|z'),      # snowball: tie
       wd('caress|?',   'caress|z'),
       wd('cats|?',     'cat|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -95,7 +105,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('bled|?'),
       wd('motoring|?'),
       wd('sing|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S110|IDF'),
       wd('agreed|?',    'agre|z'),
@@ -104,7 +115,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('bled|?',      'bled|z'),
       wd('motoring|?',  'motor|z'),
       wd('sing|?',      'sing|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -121,7 +133,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('fizzed|?'),
       wd('failing|?'),
       wd('filing|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S111|IDF'),
       wd('conflated|?', 'conflat|z'),
@@ -134,7 +147,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('fizzed|?',    'fizz|z'),
       wd('failing|?',   'fail|z'),
       wd('filing|?',    'file|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -143,12 +157,14 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('S120|IDF'),
       wd('happy|?'),
       wd('sky|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S120|IDF'),
       wd('happy|?', 'happi|z'),
       wd('sky|?',   'sky|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -176,7 +192,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('formality|?'),
       wd('sensitivity|?'),
       wd('sensibility|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S200|IDF'),
       wd('relational|?',     'relat|z'),
@@ -200,7 +217,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('formality|?',      'formal|z'),
       wd('sensitivity|?',    'sensit|z'),
       wd('sensibility|?',    'sensibl|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -214,7 +232,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('electrical|?'),
       wd('hopeful|?'),
       wd('goodness|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S300|IDF'),
       wd('triplicate|?',  'triplic|z'),
@@ -224,7 +243,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('electrical|?',  'electr|z'),
       wd('hopeful|?',     'hope|z'),
       wd('goodness|?',    'good|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -250,7 +270,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('homologous|?'),
       wd('effective|?'),
       wd('bowdlerize|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S400|IDF'),
       wd('revival|?',     'reviv|z'),
@@ -272,7 +293,8 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('homologous|?',  'homolog|z'),
       wd('effective|?',   'effect|z'),
       wd('bowdlerize|?',  'bowdler|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -282,13 +304,15 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('probate|?'),
       wd('rate|?'),
       wd('cease|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S500|IDF'),
       wd('probate|?', 'probat|z'),
       wd('rate|?',    'rate|z'),
       wd('cease|?',   'ceas|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end
@@ -297,12 +321,14 @@ class TestAttendeeStemmer < AttendeeTestCase
       wd('S510|IDF'),
       wd('controll|?'),
       wd('roll|?'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ], [
       wd('S510|IDF'),
       wd('controll|?', 'control|z'),
       wd('roll|?',     'roll|z'),
-      ai('EOF|')
+      ai('EOF|'),
+      ai('EOT|')
     ])
   end

data/test/attendee/ts_text_reader.rb CHANGED

@@ -6,111 +6,130 @@ class TestAttendeeTextReader < AttendeeTestCase
   def test_lir_file
     meet({ 'files' => 'test/lir.txt', 'records' => true, 'fields' => false }, nil, [
-      ai('LIR-FORMAT|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
+      ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
       ai('RECORD|00237'),
-      '020: GERHARD.',
-      '025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      '056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.',
+      li('020: GERHARD.', 25),
+      li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
+      li('056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 264),
+      li('', 266),
       ai('RECORD|00238'),
-      '020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      '025: das DFG-Projekt GERHARD.',
+      li('020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 391),
+      li('025: das DFG-Projekt GERHARD.', 422),
+      li('', 424),
       ai('RECORD|00239'),
-      '020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.',
-      '056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.',
-      ai("EOF|#{path}")
+      li('020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 510),
+      li('056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 634),
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end
   def test_lir_file_another_pattern
     meet({ 'files' => 'test/lir2.txt', 'records' => '^\021(\d+)\022', 'fields' => false }, nil, [
-      ai('LIR-FORMAT|'), ai("FILE|#{path = File.expand_path('test/lir2.txt')}"),
+      ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir2.txt')}"),
       ai('RECORD|00237'),
-      '020: GERHARD.',
-      '025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      '056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.',
+      li('020: GERHARD.', 24),
+      li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 139),
+      li('056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 263),
+      li('', 265),
       ai('RECORD|00238'),
-      '020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      '025: das DFG-Projekt GERHARD.',
+      li('020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 389),
+      li('025: das DFG-Projekt GERHARD.', 420),
+      li('', 422),
       ai('RECORD|00239'),
-      '020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.',
-      '056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.',
-      ai("EOF|#{path}")
+      li('020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 507),
+      li('056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 631),
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end
   def test_lir_file_no_capture
     meet({ 'files' => 'test/lir.txt', 'records' => '^\[\d+\.\]', 'fields' => false }, nil, [
-      ai('LIR-FORMAT|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
+      ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
       ai('RECORD|[00237.]'),
-      '020: GERHARD.',
-      '025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      '056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.',
+      li('020: GERHARD.', 25),
+      li('025: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
+      li('056: Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 264),
+      li('', 266),
       ai('RECORD|[00238.]'),
-      '020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      '025: das DFG-Projekt GERHARD.',
+      li('020: Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 391),
+      li('025: das DFG-Projekt GERHARD.', 422),
+      li('', 424),
       ai('RECORD|[00239.]'),
-      '020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.',
-      '056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.',
-      ai("EOF|#{path}")
+      li('020: Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 510),
+      li('056: "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 634),
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end
   def test_lir_file_fields
     meet({ 'files' => 'test/lir.txt', 'records' => true }, nil, [
-      ai('LIR-FORMAT|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
+      ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
       ai('RECORD|00237'),
-      'GERHARD.',
-      'Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      'Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.',
+      li('GERHARD.', 25),
+      li('Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
+      li('Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 264),
+      li('', 266),
       ai('RECORD|00238'),
-      'Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      'das DFG-Projekt GERHARD.',
+      li('Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 391),
+      li('das DFG-Projekt GERHARD.', 422),
+      li('', 424),
       ai('RECORD|00239'),
-      'Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.',
-      '"Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.',
-      ai("EOF|#{path}")
+      li('Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 510),
+      li('"Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 634),
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end
   def test_lir_file_fields_another_pattern
     meet({ 'files' => 'test/lir.txt', 'records' => true, 'fields' => '^\d+:' }, nil, [
-      ai('LIR-FORMAT|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
+      ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
       ai('RECORD|00237'),
-      ' GERHARD.',
-      ' Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      ' Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.',
+      li(' GERHARD.', 25),
+      li(' Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
+      li(' Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 264),
+      li('', 266),
       ai('RECORD|00238'),
-      ' Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      ' das DFG-Projekt GERHARD.',
+      li(' Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 391),
+      li(' das DFG-Projekt GERHARD.', 422),
+      li('', 424),
       ai('RECORD|00239'),
-      ' Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.',
-      ' "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.',
-      ai("EOF|#{path}")
+      li(' Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 510),
+      li(' "Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 634),
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end
   def test_lir_file_fields_no_capture
     meet({ 'files' => 'test/lir.txt', 'records' => '^\[\d+\.\]' }, nil, [
-      ai('LIR-FORMAT|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
+      ai('LIR|'), ai("FILE|#{path = File.expand_path('test/lir.txt')}"),
       ai('RECORD|[00237.]'),
-      'GERHARD.',
-      'Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      'Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.',
+      li('GERHARD.', 25),
+      li('Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 140),
+      li('Die intellektuelle Erschließung des Internet befindet sich in einer Krise. GERHARD ist derzeit weltweit der einzige.', 264),
+      li('', 266),
       ai('RECORD|[00238.]'),
-      'Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.',
-      'das DFG-Projekt GERHARD.',
+      li('Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen.', 391),
+      li('das DFG-Projekt GERHARD.', 422),
+      li('', 424),
       ai('RECORD|[00239.]'),
-      'Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.',
-      '"Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.',
-      ai("EOF|#{path}")
+      li('Information Retrieval und Dokumentmanagement im Multimedia-Zeitalter.', 510),
+      li('"Das Buch ist ein praxisbezogenes VADEMECUM für alle, die in einer Welt der Datennetze Wissen/Informationen sammeln.', 634),
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end
   def test_normal_file
     meet({ 'files' => 'test/mul.txt' }, nil, [
       ai("FILE|#{path = File.expand_path('test/mul.txt')}"),
-      'Die abstrakte Kunst ist schön.',
-      ai("EOF|#{path}")
+      ['Die abstrakte Kunst ist schön.', 31],
+      ai("EOF|#{path}"),
+      ai('EOT|')
     ])
   end