RubyGems - lingo - Versions diffs - 1.8.5 → 1.8.6 - Mend

lingo 1.8.5 → 1.8.6

Files changed (109) hide show

checksums.yaml +4 -4
data/ChangeLog +25 -0
data/README +7 -5
data/Rakefile +58 -55
data/{lingo-call.cfg → config/lingo-call.cfg} +1 -1
data/{lingo.cfg → config/lingo.cfg} +10 -2
data/{lir.cfg → config/lir.cfg} +10 -2
data/{de → dict/de}/lingo-abk.txt +0 -0
data/{de → dict/de}/lingo-dic.txt +0 -0
data/{de → dict/de}/lingo-mul.txt +0 -0
data/{de → dict/de}/lingo-syn.txt +0 -0
data/{de → dict/de}/test_dic.txt +0 -0
data/{de → dict/de}/test_gen.txt +0 -0
data/{de → dict/de}/test_mu2.txt +0 -0
data/{de → dict/de}/test_mul.txt +0 -0
data/{de → dict/de}/test_sgw.txt +0 -0
data/{de → dict/de}/test_syn.txt +0 -0
data/{de → dict/de}/user-dic.txt +0 -0
data/{en → dict/en}/lingo-dic.txt +0 -0
data/{en → dict/en}/lingo-irr.txt +0 -0
data/{en → dict/en}/lingo-mul.txt +0 -0
data/{en → dict/en}/lingo-syn.txt +0 -0
data/{en → dict/en}/lingo-wdn.txt +0 -0
data/{en → dict/en}/user-dic.txt +0 -0
data/{ru → dict/ru}/lingo-dic.txt +0 -0
data/{ru → dict/ru}/lingo-mul.txt +0 -0
data/{ru → dict/ru}/lingo-syn.txt +0 -0
data/{ru → dict/ru}/user-dic.txt +0 -0
data/{de.lang → lang/de.lang} +1 -1
data/{en.lang → lang/en.lang} +0 -0
data/{ru.lang → lang/ru.lang} +0 -0
data/lib/lingo.rb +14 -15
data/lib/lingo/app.rb +4 -2
data/lib/lingo/attendee.rb +23 -43
data/lib/lingo/attendee/abbreviator.rb +5 -5
data/lib/lingo/attendee/debugger.rb +39 -12
data/lib/lingo/attendee/decomposer.rb +3 -4
data/lib/lingo/attendee/dehyphenizer.rb +4 -4
data/lib/lingo/attendee/formatter.rb +1 -3
data/lib/lingo/attendee/multi_worder.rb +3 -4
data/lib/lingo/attendee/noneword_filter.rb +8 -12
data/lib/lingo/attendee/object_filter.rb +6 -3
data/lib/lingo/attendee/sequencer.rb +5 -5
data/lib/lingo/attendee/stemmer.rb +3 -2
data/lib/lingo/attendee/synonymer.rb +3 -4
data/lib/lingo/attendee/text_reader.rb +39 -38
data/lib/lingo/attendee/text_writer.rb +10 -10
data/lib/lingo/attendee/tokenizer.rb +63 -33
data/lib/lingo/attendee/variator.rb +3 -7
data/lib/lingo/attendee/vector_filter.rb +132 -65
data/lib/lingo/attendee/word_searcher.rb +5 -3
data/lib/lingo/buffered_attendee.rb +1 -3
data/lib/lingo/call.rb +4 -3
data/lib/lingo/cli.rb +5 -1
data/lib/lingo/config.rb +11 -5
data/lib/lingo/ctl.rb +3 -3
data/lib/lingo/database.rb +3 -1
data/lib/lingo/database/crypter.rb +1 -3
data/lib/lingo/database/source.rb +3 -1
data/lib/lingo/database/source/key_value.rb +3 -1
data/lib/lingo/database/source/multi_key.rb +3 -1
data/lib/lingo/database/source/multi_value.rb +3 -1
data/lib/lingo/database/source/single_word.rb +3 -1
data/lib/lingo/database/source/word_class.rb +3 -1
data/lib/lingo/debug.rb +5 -5
data/lib/lingo/{agenda_item.rb → deferred_attendee.rb} +21 -12
data/lib/lingo/error.rb +1 -1
data/lib/lingo/language.rb +1 -9
data/lib/lingo/language/dictionary.rb +2 -17
data/lib/lingo/language/grammar.rb +10 -10
data/lib/lingo/language/lexical.rb +2 -0
data/lib/lingo/language/lexical_hash.rb +2 -0
data/lib/lingo/language/token.rb +17 -3
data/lib/lingo/language/word.rb +13 -5
data/lib/lingo/language/word_form.rb +5 -3
data/lib/lingo/progress.rb +2 -2
data/lib/lingo/srv.rb +1 -1
data/lib/lingo/srv/lingosrv.cfg +1 -1
data/lib/lingo/version.rb +1 -1
data/lib/lingo/web.rb +1 -1
data/lib/lingo/web/lingoweb.cfg +1 -1
data/test/attendee/ts_abbreviator.rb +4 -2
data/test/attendee/ts_multi_worder.rb +81 -88
data/test/attendee/ts_noneword_filter.rb +2 -2
data/test/attendee/ts_object_filter.rb +2 -2
data/test/attendee/ts_sequencer.rb +40 -20
data/test/attendee/ts_stemmer.rb +52 -26
data/test/attendee/ts_text_reader.rb +75 -56
data/test/attendee/ts_text_writer.rb +6 -4
data/test/attendee/ts_tokenizer.rb +304 -193
data/test/attendee/ts_vector_filter.rb +242 -9
data/test/ref/artikel.non +3 -0
data/test/ref/artikel.vec +1 -4
data/test/ref/artikel.vef +940 -0
data/test/ref/artikel.ven +0 -3
data/test/ref/artikel.ver +0 -3
data/test/ref/artikel.vet +2580 -0
data/test/ref/lir.non +34 -31
data/test/ref/lir.seq +14 -15
data/test/ref/lir.vec +37 -37
data/test/ref/lir.vef +329 -0
data/test/ref/lir.ven +329 -0
data/test/ref/lir.ver +329 -0
data/test/ref/lir.vet +329 -0
data/test/test_helper.rb +29 -16
data/test/ts_language.rb +6 -47
metadata +74 -87
data/lingo.rb +0 -29
data/spec/spec_helper.rb +0 -5

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 43119723e15432c990503ec61938ee96b15a1e53
-  data.tar.gz: 6674993f107c30acf34ea43eff24272356663b5a
+  metadata.gz: e4cc870c8c1b49c580841a934b5906ed6ddf75e4
+  data.tar.gz: 1ecb26c708daa4bfa09f4aa76f6d7e17f1a72683
 SHA512:
-  metadata.gz: 95bff3ff2eadfc3267da83a1d3a5398cc3b9f4eff13ae1f6682c24054fd5baf7e20ad03b241a2d5731f8c3636dd87d7f937bdb1a4f022ab883e40c5ad4407ec1
-  data.tar.gz: b7c7a505f4f61f70a59e8154d204a9ac87fe84fda453e1449fd66ca70e82bda8378070f4b0f7d763f7c8191f19e789c382b65135f8951c9917d7e7ca204d504d
+  metadata.gz: f2f0abed6198a7fcf0ff4f44aa442266f38c44646c7f4e8ef894886c453ce1654edd217c675f12e6b7d828c43ac461abb64d92aef20015249dbdf6f9efc03a3f
+  data.tar.gz: cb0be6e46a16639a384bab3507dc3b2bd4465736d1d7e0189d3930d1252e247fff4421364d860bd2cdd12f26b4f4445192a87998bea017bb1f285c8e0bda7639

data/ChangeLog CHANGED

@@ -2,6 +2,31 @@
 = Revision history for Lingo
+== 1.8.6 [2015-02-09]
+* Lingo::Attendee::VectorFilter learned +pos+ option to print position and
+  byte offset with each word.
+* Lingo::Attendee::VectorFilter learned +tfidf+ option to sort results based
+  on their tf–idf[https://en.wikipedia.org/wiki/Tf–idf] score; the document
+  frequencies are calculated over the "corpus" of all files processed during
+  a single program invocation.
+* Lingo::Attendee::VectorFilter learned +tokens+ option to filter on
+  Lingo::Language::Token in addition to Lingo::Language::Word.
+* Lingo::Attendee::VectorFilter no longer supports +debug+ (as well as
+  +prompt+ and +preamble+); use Lingo::Attendee::DebugFilter instead.
+* Lingo::Attendee::TextReader no longer removes line endings; option +chomp+
+  is obsolete.
+* Lingo::Attendee::TextReader passes byte offset to the following attendee.
+* Lingo::Attendee::Tokenizer records token's byte offset.
+* Lingo::Attendee::Tokenizer records token's sequence position.
+* Lingo::Attendee::Tokenizer learned <tt>skip-tags</tt> option to skip over
+  specified tags' contents.
+* Lingo::Attendee subclasses warn when invalid or obsolete options or names
+  are used.
+* Changed German infix substitution +/en+ to +ch/chen+ in order to prevent
+  overly aggressive identifications.
+* Internal refactoring and API changes.
 == 1.8.5 [2014-10-02]
 * Dictionary values (projections) are no longer sorted; hence, order of

data/README CHANGED

@@ -35,7 +35,7 @@
 == VERSION
-This documentation refers to Lingo version 1.8.5
+This documentation refers to Lingo version 1.8.6
 == DESCRIPTION
@@ -58,7 +58,7 @@ is a minimal configuration example to analyse this README file:
   meeting:
     attendees:
       - text_reader: { files: 'README' }
-      - debugger:    { eval: 'true', ceval: 'cmd!="EOL"', prompt: '<debug>: ' }
+      - debugger:    { eval: 'true', ceval: 'cmd!="EOL"', prompt: '<debug>:  ' }
 Lingo is told to invite two attendees and wants them to talk to each other,
 hence the name Lingo (= the technical language).
@@ -187,7 +187,7 @@ of context to external files.
 _Example_:
   # keep line endings
-  - text_reader:     { files: $(files), chomp: false }
+  - text_reader:     { files: $(files) }
   # keep whitespace
   - tokenizer:       { space: true }
   # do processing...
@@ -545,7 +545,7 @@ Travis CI::     https://travis-ci.org/lex-lingo/lingo
 === Background and Theory
 * Gödert, W.; Lepsky, K.; Nagelschmidt, M.: <em>{Informationserschließung und Automatisches Indexieren: ein Lehr- und Arbeitsbuch}[http://dx.doi.org/10.1007/978-3-642-23513-9]</em>. (German) Berlin etc.: Springer, 2012.
-* Lepsky, K.; Vorhauer, J.: <em>{Lingo: ein open source System für die automatische Indexierung deutschsprachiger Dokumente}[http://dx.doi.org/10.1515/ABITECH.2006.26.1.18]</em>. (German) In: ABI Technik 26 (1), 2006. pp 18-29.
+* Lepsky, K.; Vorhauer, J.: <em>{Lingo – ein open source System für die automatische Indexierung deutschsprachiger Dokumente}[http://dx.doi.org/10.1515/ABITECH.2006.26.1.18]</em>. (German) In: ABI Technik 26 (1), 2006. pp 18-29.
 * Nohr, H.: <em>{Grundlagen der automatischen Indexierung: ein Lehrbuch}[http://logos-verlag.de/cgi-bin/buch/isbn/0121]</em>. (German) Berlin: Logos, 2005.
 * Hausser, R.: <em>{Grundlagen der Computerlinguistik. Mensch-Maschine-Kommunikation in natürlicher Sprache}[http://zbmath.org/?q=an:0956.68141]</em>. (German) Berlin etc.: Springer, 2000.
 * Allen, J.: <em>{Natural language understanding}[http://zbmath.org/?q=an:0851.68106]</em>. (English) Redwood City, CA: Benjamin/Cummings, 1995.
@@ -559,6 +559,8 @@ Travis CI::     https://travis-ci.org/lex-lingo/lingo
 * Bredack, J.: <em>{Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten}[http://ixtrieve.fh-koeln.de/lehre/bredack-2013.pdf]</em>. (German) Köln: Fachhochschule Köln, 2013.
 * Maylein, L.; Langenstein, A.: <em>{Neues vom Relevanz-Ranking im HEIDI-Katalog der Universitätsbibliothek Heidelberg}[http://b-i-t-online.de/heft/2013-03-fachbeitrag-maylein.pdf]</em>. (German) In: b.i.t.online 16 (3), 2013. pp 190-200.
 * Gödert, W.: <em>{Detecting multiword phrases in mathematical text corpora}[http://arxiv.org/abs/1210.0852]</em>. (English) arXiv:1210.0852 [cs.CL], 2012.
+* Jersek, T.: <em>{Automatische DDC-Klassifizierung mit Lingo: Vorgehensweise und Ergebnisse}[http://www.citeulike.org/user/klaus-lepsky/article/12476139]</em>. (German) Köln: Fachhochschule Köln, 2012.
+* Glaesener, L.: <em>{Automatisches Indexieren einer informationswissenschaftlichen Datenbank mit Mehrwortgruppen}[http://www.citeulike.org/user/klaus-lepsky/article/12476133]</em>. (German) Köln: Fachhochschule Köln, 2012.
 * Schiffer, R.: <em>{Automatisches Indexieren technischer Kongressschriften}[http://ixtrieve.fh-koeln.de/lehre/schiffer-2007.pdf]</em>. (German) Köln: Fachhochschule Köln, 2007.
@@ -582,7 +584,7 @@ Lingo is based on a collective development by Klaus Lepsky and John Vorhauer.
 == LICENSE AND COPYRIGHT
 Copyright (C) 2005-2007 John Vorhauer
-Copyright (C) 2007-2014 John Vorhauer, Jens Wille
+Copyright (C) 2007-2015 John Vorhauer, Jens Wille
 Lingo is free software: you can redistribute it and/or modify it under the
 terms of the GNU Affero General Public License as published by the Free

data/Rakefile CHANGED

@@ -1,33 +1,20 @@
 # encoding: utf-8
-__DIR__ = File.expand_path('..', __FILE__)
-require 'rake/clean'
-require 'nuggets/ruby'
-require File.join(__DIR__, %w[lib lingo version])
-PACKAGE_NAME = 'lingo'
-PACKAGE_PATH = File.join(__DIR__, 'pkg', "#{PACKAGE_NAME}-#{Lingo::VERSION}")
-if RUBY_PLATFORM =~ /msdos|mswin|djgpp|mingw|windows/i
-  ZIP_COMMANDS = ['zip', '7z a']  # for hen's gem task
-end
-task default: :spec
-task package: [:checkdoc, 'test:all', :clean]
+require_relative 'lib/lingo/version'
 begin
   require 'hen'
   Hen.lay! {{
     gem: {
-      name:         PACKAGE_NAME,
+      name:         'lingo',
       version:      Lingo::VERSION,
       summary:      'The full-featured automatic indexing system',
       authors:      ['John Vorhauer', 'Jens Wille'],
       email:        ['lingo@vorhauer.de', 'jens.wille@gmail.com'],
       license:      'AGPL-3.0',
       homepage:     'http://lex-lingo.de',
       description:  <<-EOT,
 Lingo is an open source indexing system for research and teachings.
 The main functions of Lingo are:
@@ -39,23 +26,32 @@ The main functions of Lingo are:
 * generic identification of phrases/word sequences based on patterns
   of word classes
       EOT
       extra_files:  FileList[
-        'lingo.rb', 'lingo{,-call}.cfg', 'lir.cfg',
-        '{de,en,ru}.lang', '{de,en,ru}/{lingo-*,user-dic,test_*}.txt',
-        'txt/{artikel{,-en,-ru},lir}.txt', 'lib/lingo/{srv,web}/**/{,.}*'
+        'lib/lingo/{srv,web}/**/{,.}*',
+        'config/*.cfg',
+        'dict/*/*.txt',
+        'lang/*.lang',
+        'txt/*.txt'
       ].to_a,
-      required_ruby_version: '>= 1.9.3',
       dependencies: {
-        'cyclops'       => ['~> 0.0', '>= 0.0.4'],
-        'nuggets'       => '~> 1.0',
+        'cyclops'       => '~> 0.1',
+        'nuggets'       => '~> 1.1',
         'rubyzip'       => '~> 1.1',
         'sinatra-bells' => '~> 0.0',
         'unicode'       => '~> 0.4'
       },
       development_dependencies: {
         'diff-lcs' => '~> 1.2',
         'open4'    => '~> 1.3'
-      }
+      },
+      required_ruby_version: '>= 1.9.3'
+    },
+    test: {
+      pattern: %w[test/ts_*.rb test/attendee/ts_*.rb]
     }
   }}
 rescue LoadError => err
@@ -71,40 +67,22 @@ CLEAN.include(
 CLOBBER.include('store')
-task :checkdoc do
-  docfile = File.join(__DIR__, 'doc', 'index.html')
-  abort "Please run `rake doc' first." unless File.exists?(docfile)
-end
 desc 'Run ALL tests'
-task 'test:all' => [:test, 'test:txt', 'test:lir']
-Rake::TestTask.new(:test) do |t|
-  t.test_files = FileList.new('test/ts_*.rb', 'test/attendee/ts_*.rb')
-end
+task 'test:all' => %w[test test:txt test:lir]
 desc 'Test against reference file (TXT)'
-task 'test:txt' do
-  test_ref('artikel', 'lingo')
-end
+task('test:txt') { test_ref('artikel', 'lingo') }
 desc 'Test against reference file (LIR)'
-task 'test:lir' do
-  test_ref('lir')
-end
-desc 'Run all tests on packaged distribution'
-task 'test:remote' => [:package] do
-  chdir(PACKAGE_PATH) { system('rake test:all') } || abort
-end
+task('test:lir') { test_ref('lir') }
-unless (benchmarks = Dir[File.join(__DIR__, 'bench', '*_bench.rb')]).empty?
+unless (benchmarks = Dir[File.expand_path('../bench/*_bench.rb', __FILE__)]).empty?
   desc 'Run all benchmarks'
   task :bench
   benchmarks.each { |benchmark|
     bench = File.basename(benchmark, '_bench.rb')
-    task :bench => benchtask = "bench:#{bench}"
+    task bench: benchtask = "bench:#{bench}"
     desc "Run #{bench} benchmark"
     task(benchtask) { system(File.ruby, benchmark) }
@@ -113,18 +91,43 @@ end
 def test_ref(name, cfg = name)
   require 'diff/lcs'
-  require 'diff/lcs/ldiff'
+  require 'diff/lcs/hunk'
+  require 'nuggets/ruby'
+  jruby = RUBY_ENGINE == 'jruby'
+  jruby_lir = jruby && name == 'lir'
+  cmd = %W[bin/lingo -c #{cfg} txt/#{name}.txt]
+  buf, diff = ["Command failed: #{cmd.join(' ')}"], 0
+  Process.ruby(*cmd, I: :lib, &jruby ?
+    lambda { |_, _, o, e| buf << e.read; buf << o.read } :
+    lambda { |_, _, o, e| IO.interact({}, { o => buf, e => buf }) }
+  ).success? or abort buf.join("\n\n")
+  Dir["test/ref/#{name}.*"].sort.each { |ref|
+    unless File.exist?(txt = ref.sub(/test\/ref/, 'txt'))
+      puts "?? #{txt}"
+    else
+      puts "## #{txt}"
+      data = [ref, txt].map { |file|
+        File.readlines(file).each { |line|
+          line.chomp!
+          line.gsub!(/(\d+\.\d+)\d/, '\1') if jruby_lir
+        }
+      }
-  cmd = %W[lingo.rb -c #{cfg} txt/#{name}.txt]
-  diff, msg = 0, ["Command failed: #{cmd.join(' ')}"]
+      diffs, fld = Diff::LCS.diff(*data), 0
-  Process.ruby(*cmd) { |_, _, o, e|
-    IO.interact({}, { o => msg, e => msg })
-  }.success? or abort msg.join("\n\n")
+      diffs.empty? ? next : diffs.each { |piece|
+        dlh = Diff::LCS::Hunk.new(*data, piece, 0, fld)
+        fld = dlh.file_length_difference
+        puts dlh.diff(:old)
+      }
+    end
-  Dir["test/ref/#{name}.*"].each { |ref|
-    puts "## #{org = ref.sub(/test\/ref/, 'txt')}"
-    diff += Diff::LCS::Ldiff.run(ARGV.clear << '-a' << org << ref)
+    diff += 1
   }
   exit diff + 1 unless diff.zero?

data/{lingo-call.cfg → config/lingo-call.cfg} RENAMED

@@ -8,4 +8,4 @@ meeting:
     - multi_worder:  { source: sys-mul }
     - sequencer:     { }
     - synonymer:     { source: sys-syn, skip: '?,t' }
-    - debugger:      { prompt: '', ceval: 'false' }
+    - debugger:      { prompt: '', ceval: 'false', preamble: false }

data/{lingo.cfg → config/lingo.cfg} RENAMED

@@ -52,7 +52,7 @@ meeting:
     ########################################
     # Datenstrom anzeigen
     #
-#   - debugger:        { eval: 'true', ceval: 'obj.cmd!="EOL"', prompt: 'lex:) ' }
+#   - debugger:        { eval: 'true', ceval: 'cmd!=:EOL', prompt: 'lex:) ' }
     ########################################
@@ -60,7 +60,7 @@ meeting:
     #
     # Erstelle Datei mit Endung .log für Datenstrom
-    - vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
+    - debug_filter:    { in: syn, prompt: 'lex:) ' }
     - text_writer:     { ext: log, sep: "\n" }
     # Erstelle Datei mit Endung .non für nicht erkannte Wörter
@@ -83,6 +83,14 @@ meeting:
     - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel }
     - text_writer:     { ext: ver, sep: "\n" }
+    # Erstelle Datei mit Endung .vef für erkannte Indexterme mit TFIDF-Gewichtung
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel, tfidf: true }
+    - text_writer:     { ext: vef, sep: "\n" }
+    # Erstelle Datei mit Endung .vet für erkannte Indexterme mit Positionen
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: false, pos: true }
+    - text_writer:     { ext: vet, sep: "\n" }
     # Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
     - vector_filter:   { in: syn, lexicals: m }
     - text_writer:     { ext: mul, sep: "\n" }

data/{lir.cfg → config/lir.cfg} RENAMED

@@ -57,7 +57,7 @@ meeting:
     ########################################
     # Datenstrom anzeigen
     #
-#   - debugger:        { eval: 'true', ceval: 'obj.cmd!="EOL"', prompt: 'lex:) ' }
+#   - debugger:        { eval: 'true', ceval: 'cmd!=:EOL', prompt: 'lex:) ' }
     ########################################
@@ -65,7 +65,7 @@ meeting:
     #
     # Erstelle Datei mit Endung .log für Datenstrom
-    - vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
+    - debug_filter:    { in: syn, prompt: 'lex:) ' }
     - text_writer:     { ext: log, sep: "\n" }
     # Erstelle Datei mit Endung .non für nicht erkannte Wörter
@@ -88,6 +88,14 @@ meeting:
     - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel }
     - text_writer:     { ext: ver, sep: '|' }
+    # Erstelle Datei mit Endung .vef für erkannte Indexterme mit TFIDF-Gewichtung
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel, tfidf: true }
+    - text_writer:     { ext: vef, sep: '|' }
+    # Erstelle Datei mit Endung .vet für erkannte Indexterme mit Positionen
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: false, pos: true }
+    - text_writer:     { ext: vet, sep: '|' }
     # Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
     - vector_filter:   { in: syn, lexicals: m }
     - text_writer:     { ext: mul, sep: '|' }

data/{de → dict/de}/lingo-abk.txt RENAMED

File without changes

data/{de → dict/de}/lingo-dic.txt RENAMED

File without changes

data/{de → dict/de}/lingo-mul.txt RENAMED

File without changes

data/{de → dict/de}/lingo-syn.txt RENAMED

File without changes

data/{de → dict/de}/test_dic.txt RENAMED

File without changes

data/{de → dict/de}/test_gen.txt RENAMED

File without changes

data/{de → dict/de}/test_mu2.txt RENAMED

File without changes

data/{de → dict/de}/test_mul.txt RENAMED

File without changes

data/{de → dict/de}/test_sgw.txt RENAMED

File without changes

data/{de → dict/de}/test_syn.txt RENAMED

File without changes

data/{de → dict/de}/user-dic.txt RENAMED

File without changes

data/{en → dict/en}/lingo-dic.txt RENAMED

File without changes

data/{en → dict/en}/lingo-irr.txt RENAMED

File without changes

data/{en → dict/en}/lingo-mul.txt RENAMED

File without changes

data/{en → dict/en}/lingo-syn.txt RENAMED

File without changes

data/{en → dict/en}/lingo-wdn.txt RENAMED

File without changes

data/{en → dict/en}/user-dic.txt RENAMED

File without changes

data/{ru → dict/ru}/lingo-dic.txt RENAMED

File without changes

data/{ru → dict/ru}/lingo-mul.txt RENAMED

File without changes

data/{ru → dict/ru}/lingo-syn.txt RENAMED

File without changes

data/{ru → dict/ru}/user-dic.txt RENAMED

File without changes

data/{de.lang → lang/de.lang} RENAMED

@@ -79,7 +79,7 @@ language:
       - [a, 'este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem']
       - [v, 'e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s']
       - [e, 's']
-      - [f, 's n e en es er ch/che /en']
+      - [f, 's n e en es er ch/che ch/chen']
     inflect:
       a:  # adjectives

data/{en.lang → lang/en.lang} RENAMED

File without changes

data/{ru.lang → lang/ru.lang} RENAMED

File without changes

data/lib/lingo.rb CHANGED

@@ -6,7 +6,7 @@
 # Lingo -- A full-featured automatic indexing system                          #
 #                                                                             #
 # Copyright (C) 2005-2007 John Vorhauer                                       #
-# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+# Copyright (C) 2007-2014 John Vorhauer, Jens Wille                           #
 #                                                                             #
 # Lingo is free software; you can redistribute it and/or modify it under the  #
 # terms of the GNU Affero General Public License as published by the Free     #
@@ -29,6 +29,8 @@ require 'stringio'
 require 'pathname'
 require 'fileutils'
 require 'nuggets/file/ext'
+require 'nuggets/hash/nest'
+require 'nuggets/hash/seen'
 require 'nuggets/env/user_home'
 require 'nuggets/string/camelscore'
@@ -200,12 +202,10 @@ class Lingo
     end
     def walk(path, options, legacy = true)
-      dirs = [options[:dir].to_s]
+      dirs, seen = [options[:dir].to_s], Hash.seen
       dirs << '' if legacy
       dirs.uniq!
-      seen = Hash.new { |h, k| h[k] = true; false }
       path.each { |d|
         next if seen[d = File.expand_path(d)]
         dirs.each { |i| yield File.join(d, i) } or break
@@ -265,13 +265,13 @@ class Lingo
   end
   def invite(list = config['meeting/attendees'])
-    supplier   = Hash.new { |h, k| h[k] = [] }
-    subscriber = Hash.new { |h, k| h[k] = [] }
+    supplier   = Hash.nest { [] }
+    subscriber = Hash.nest { [] }
     last_link, auto_link = '', 0
     list.each { |hash|
-      name = hash.keys.first.camelcase
+      name = (name_key = hash.keys.first).camelcase
       cfg = (config["language/attendees/#{name.downcase}"] || {})
         .merge(hash.values.first).update('name' => name)
@@ -284,41 +284,40 @@ class Lingo
       @attendees << attendee = Attendee.const_get(name).new(cfg, self)
+      unless name == (real = attendee.class.name.split('::').last)
+        config.deprecate(name_key, real.underscore, attendee, :name)
+      end
       { 'in' => subscriber, 'out' => supplier }.each { |key, target|
         cfg[key].split(SEP_RE).each { |ch| target[ch] << attendee }
       }
     }
     supplier.each { |ch, attendees| attendees.each { |att|
-      att.add_subscriber(subscriber[ch])
+      att.subscribers.concat(subscriber[ch])
     } }
   end
   def start
-    @attendees.first.listen(AgendaItem.new(Attendee::STR_CMD_TALK))
+    @attendees.first.control(:TALK)
   end
   def reset(close = true)
     dictionaries.each { |i| i.close } if close
     @dictionaries, @attendees = [], []
-    @lexical_hash = Hash.new { |h, k| h[k] = Language::LexicalHash.new(k, self) }
+    @lexical_hash = Hash.nest { |k| Language::LexicalHash.new(k, self) }
   end
   def warn(*msg)
     config.warn(*msg)
   end
-  def deprecate(old, new, obj = self)
-    config.deprecate(old, new, obj)
-  end
 end
 require_relative 'lingo/call'
 require_relative 'lingo/error'
 require_relative 'lingo/debug'
 require_relative 'lingo/config'
-require_relative 'lingo/agenda_item'
 require_relative 'lingo/progress'
 require_relative 'lingo/database'
 require_relative 'lingo/language'