RubyGems - lingo - Versions diffs - 1.8.5 → 1.8.6 - Mend

lingo 1.8.5 → 1.8.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (109) hide show

checksums.yaml +4 -4
data/ChangeLog +25 -0
data/README +7 -5
data/Rakefile +58 -55
data/{lingo-call.cfg → config/lingo-call.cfg} +1 -1
data/{lingo.cfg → config/lingo.cfg} +10 -2
data/{lir.cfg → config/lir.cfg} +10 -2
data/{de → dict/de}/lingo-abk.txt +0 -0
data/{de → dict/de}/lingo-dic.txt +0 -0
data/{de → dict/de}/lingo-mul.txt +0 -0
data/{de → dict/de}/lingo-syn.txt +0 -0
data/{de → dict/de}/test_dic.txt +0 -0
data/{de → dict/de}/test_gen.txt +0 -0
data/{de → dict/de}/test_mu2.txt +0 -0
data/{de → dict/de}/test_mul.txt +0 -0
data/{de → dict/de}/test_sgw.txt +0 -0
data/{de → dict/de}/test_syn.txt +0 -0
data/{de → dict/de}/user-dic.txt +0 -0
data/{en → dict/en}/lingo-dic.txt +0 -0
data/{en → dict/en}/lingo-irr.txt +0 -0
data/{en → dict/en}/lingo-mul.txt +0 -0
data/{en → dict/en}/lingo-syn.txt +0 -0
data/{en → dict/en}/lingo-wdn.txt +0 -0
data/{en → dict/en}/user-dic.txt +0 -0
data/{ru → dict/ru}/lingo-dic.txt +0 -0
data/{ru → dict/ru}/lingo-mul.txt +0 -0
data/{ru → dict/ru}/lingo-syn.txt +0 -0
data/{ru → dict/ru}/user-dic.txt +0 -0
data/{de.lang → lang/de.lang} +1 -1
data/{en.lang → lang/en.lang} +0 -0
data/{ru.lang → lang/ru.lang} +0 -0
data/lib/lingo.rb +14 -15
data/lib/lingo/app.rb +4 -2
data/lib/lingo/attendee.rb +23 -43
data/lib/lingo/attendee/abbreviator.rb +5 -5
data/lib/lingo/attendee/debugger.rb +39 -12
data/lib/lingo/attendee/decomposer.rb +3 -4
data/lib/lingo/attendee/dehyphenizer.rb +4 -4
data/lib/lingo/attendee/formatter.rb +1 -3
data/lib/lingo/attendee/multi_worder.rb +3 -4
data/lib/lingo/attendee/noneword_filter.rb +8 -12
data/lib/lingo/attendee/object_filter.rb +6 -3
data/lib/lingo/attendee/sequencer.rb +5 -5
data/lib/lingo/attendee/stemmer.rb +3 -2
data/lib/lingo/attendee/synonymer.rb +3 -4
data/lib/lingo/attendee/text_reader.rb +39 -38
data/lib/lingo/attendee/text_writer.rb +10 -10
data/lib/lingo/attendee/tokenizer.rb +63 -33
data/lib/lingo/attendee/variator.rb +3 -7
data/lib/lingo/attendee/vector_filter.rb +132 -65
data/lib/lingo/attendee/word_searcher.rb +5 -3
data/lib/lingo/buffered_attendee.rb +1 -3
data/lib/lingo/call.rb +4 -3
data/lib/lingo/cli.rb +5 -1
data/lib/lingo/config.rb +11 -5
data/lib/lingo/ctl.rb +3 -3
data/lib/lingo/database.rb +3 -1
data/lib/lingo/database/crypter.rb +1 -3
data/lib/lingo/database/source.rb +3 -1
data/lib/lingo/database/source/key_value.rb +3 -1
data/lib/lingo/database/source/multi_key.rb +3 -1
data/lib/lingo/database/source/multi_value.rb +3 -1
data/lib/lingo/database/source/single_word.rb +3 -1
data/lib/lingo/database/source/word_class.rb +3 -1
data/lib/lingo/debug.rb +5 -5
data/lib/lingo/{agenda_item.rb → deferred_attendee.rb} +21 -12
data/lib/lingo/error.rb +1 -1
data/lib/lingo/language.rb +1 -9
data/lib/lingo/language/dictionary.rb +2 -17
data/lib/lingo/language/grammar.rb +10 -10
data/lib/lingo/language/lexical.rb +2 -0
data/lib/lingo/language/lexical_hash.rb +2 -0
data/lib/lingo/language/token.rb +17 -3
data/lib/lingo/language/word.rb +13 -5
data/lib/lingo/language/word_form.rb +5 -3
data/lib/lingo/progress.rb +2 -2
data/lib/lingo/srv.rb +1 -1
data/lib/lingo/srv/lingosrv.cfg +1 -1
data/lib/lingo/version.rb +1 -1
data/lib/lingo/web.rb +1 -1
data/lib/lingo/web/lingoweb.cfg +1 -1
data/test/attendee/ts_abbreviator.rb +4 -2
data/test/attendee/ts_multi_worder.rb +81 -88
data/test/attendee/ts_noneword_filter.rb +2 -2
data/test/attendee/ts_object_filter.rb +2 -2
data/test/attendee/ts_sequencer.rb +40 -20
data/test/attendee/ts_stemmer.rb +52 -26
data/test/attendee/ts_text_reader.rb +75 -56
data/test/attendee/ts_text_writer.rb +6 -4
data/test/attendee/ts_tokenizer.rb +304 -193
data/test/attendee/ts_vector_filter.rb +242 -9
data/test/ref/artikel.non +3 -0
data/test/ref/artikel.vec +1 -4
data/test/ref/artikel.vef +940 -0
data/test/ref/artikel.ven +0 -3
data/test/ref/artikel.ver +0 -3
data/test/ref/artikel.vet +2580 -0
data/test/ref/lir.non +34 -31
data/test/ref/lir.seq +14 -15
data/test/ref/lir.vec +37 -37
data/test/ref/lir.vef +329 -0
data/test/ref/lir.ven +329 -0
data/test/ref/lir.ver +329 -0
data/test/ref/lir.vet +329 -0
data/test/test_helper.rb +29 -16
data/test/ts_language.rb +6 -47
metadata +74 -87
data/lingo.rb +0 -29
data/spec/spec_helper.rb +0 -5

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 43119723e15432c990503ec61938ee96b15a1e53
-  data.tar.gz: 6674993f107c30acf34ea43eff24272356663b5a
+  metadata.gz: e4cc870c8c1b49c580841a934b5906ed6ddf75e4
+  data.tar.gz: 1ecb26c708daa4bfa09f4aa76f6d7e17f1a72683
 SHA512:
-  metadata.gz: 95bff3ff2eadfc3267da83a1d3a5398cc3b9f4eff13ae1f6682c24054fd5baf7e20ad03b241a2d5731f8c3636dd87d7f937bdb1a4f022ab883e40c5ad4407ec1
-  data.tar.gz: b7c7a505f4f61f70a59e8154d204a9ac87fe84fda453e1449fd66ca70e82bda8378070f4b0f7d763f7c8191f19e789c382b65135f8951c9917d7e7ca204d504d
+  metadata.gz: f2f0abed6198a7fcf0ff4f44aa442266f38c44646c7f4e8ef894886c453ce1654edd217c675f12e6b7d828c43ac461abb64d92aef20015249dbdf6f9efc03a3f
+  data.tar.gz: cb0be6e46a16639a384bab3507dc3b2bd4465736d1d7e0189d3930d1252e247fff4421364d860bd2cdd12f26b4f4445192a87998bea017bb1f285c8e0bda7639

data/ChangeLog CHANGED

@@ -2,6 +2,31 @@
 = Revision history for Lingo
+== 1.8.6 [2015-02-09]
+* Lingo::Attendee::VectorFilter learned +pos+ option to print position and
+  byte offset with each word.
+* Lingo::Attendee::VectorFilter learned +tfidf+ option to sort results based
+  on their tf–idf[https://en.wikipedia.org/wiki/Tf–idf] score; the document
+  frequencies are calculated over the "corpus" of all files processed during
+  a single program invocation.
+* Lingo::Attendee::VectorFilter learned +tokens+ option to filter on
+  Lingo::Language::Token in addition to Lingo::Language::Word.
+* Lingo::Attendee::VectorFilter no longer supports +debug+ (as well as
+  +prompt+ and +preamble+); use Lingo::Attendee::DebugFilter instead.
+* Lingo::Attendee::TextReader no longer removes line endings; option +chomp+
+  is obsolete.
+* Lingo::Attendee::TextReader passes byte offset to the following attendee.
+* Lingo::Attendee::Tokenizer records token's byte offset.
+* Lingo::Attendee::Tokenizer records token's sequence position.
+* Lingo::Attendee::Tokenizer learned <tt>skip-tags</tt> option to skip over
+  specified tags' contents.
+* Lingo::Attendee subclasses warn when invalid or obsolete options or names
+  are used.
+* Changed German infix substitution +/en+ to +ch/chen+ in order to prevent
+  overly aggressive identifications.
+* Internal refactoring and API changes.
 == 1.8.5 [2014-10-02]
 * Dictionary values (projections) are no longer sorted; hence, order of

data/README CHANGED

@@ -35,7 +35,7 @@
 == VERSION
-This documentation refers to Lingo version 1.8.5
+This documentation refers to Lingo version 1.8.6
 == DESCRIPTION
@@ -58,7 +58,7 @@ is a minimal configuration example to analyse this README file:
   meeting:
     attendees:
       - text_reader: { files: 'README' }
-      - debugger:    { eval: 'true', ceval: 'cmd!="EOL"', prompt: '<debug>: ' }
+      - debugger:    { eval: 'true', ceval: 'cmd!="EOL"', prompt: '<debug>:  ' }
 Lingo is told to invite two attendees and wants them to talk to each other,
 hence the name Lingo (= the technical language).
@@ -187,7 +187,7 @@ of context to external files.
 _Example_:
   # keep line endings
-  - text_reader:     { files: $(files), chomp: false }
+  - text_reader:     { files: $(files) }
   # keep whitespace
   - tokenizer:       { space: true }
   # do processing...
@@ -545,7 +545,7 @@ Travis CI::     https://travis-ci.org/lex-lingo/lingo
 === Background and Theory
 * Gödert, W.; Lepsky, K.; Nagelschmidt, M.: <em>{Informationserschließung und Automatisches Indexieren: ein Lehr- und Arbeitsbuch}[http://dx.doi.org/10.1007/978-3-642-23513-9]</em>. (German) Berlin etc.: Springer, 2012.
-* Lepsky, K.; Vorhauer, J.: <em>{Lingo: ein open source System für die automatische Indexierung deutschsprachiger Dokumente}[http://dx.doi.org/10.1515/ABITECH.2006.26.1.18]</em>. (German) In: ABI Technik 26 (1), 2006. pp 18-29.
+* Lepsky, K.; Vorhauer, J.: <em>{Lingo – ein open source System für die automatische Indexierung deutschsprachiger Dokumente}[http://dx.doi.org/10.1515/ABITECH.2006.26.1.18]</em>. (German) In: ABI Technik 26 (1), 2006. pp 18-29.
 * Nohr, H.: <em>{Grundlagen der automatischen Indexierung: ein Lehrbuch}[http://logos-verlag.de/cgi-bin/buch/isbn/0121]</em>. (German) Berlin: Logos, 2005.
 * Hausser, R.: <em>{Grundlagen der Computerlinguistik. Mensch-Maschine-Kommunikation in natürlicher Sprache}[http://zbmath.org/?q=an:0956.68141]</em>. (German) Berlin etc.: Springer, 2000.
 * Allen, J.: <em>{Natural language understanding}[http://zbmath.org/?q=an:0851.68106]</em>. (English) Redwood City, CA: Benjamin/Cummings, 1995.
@@ -559,6 +559,8 @@ Travis CI::     https://travis-ci.org/lex-lingo/lingo
 * Bredack, J.: <em>{Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten}[http://ixtrieve.fh-koeln.de/lehre/bredack-2013.pdf]</em>. (German) Köln: Fachhochschule Köln, 2013.
 * Maylein, L.; Langenstein, A.: <em>{Neues vom Relevanz-Ranking im HEIDI-Katalog der Universitätsbibliothek Heidelberg}[http://b-i-t-online.de/heft/2013-03-fachbeitrag-maylein.pdf]</em>. (German) In: b.i.t.online 16 (3), 2013. pp 190-200.
 * Gödert, W.: <em>{Detecting multiword phrases in mathematical text corpora}[http://arxiv.org/abs/1210.0852]</em>. (English) arXiv:1210.0852 [cs.CL], 2012.
+* Jersek, T.: <em>{Automatische DDC-Klassifizierung mit Lingo: Vorgehensweise und Ergebnisse}[http://www.citeulike.org/user/klaus-lepsky/article/12476139]</em>. (German) Köln: Fachhochschule Köln, 2012.
+* Glaesener, L.: <em>{Automatisches Indexieren einer informationswissenschaftlichen Datenbank mit Mehrwortgruppen}[http://www.citeulike.org/user/klaus-lepsky/article/12476133]</em>. (German) Köln: Fachhochschule Köln, 2012.
 * Schiffer, R.: <em>{Automatisches Indexieren technischer Kongressschriften}[http://ixtrieve.fh-koeln.de/lehre/schiffer-2007.pdf]</em>. (German) Köln: Fachhochschule Köln, 2007.
@@ -582,7 +584,7 @@ Lingo is based on a collective development by Klaus Lepsky and John Vorhauer.
 == LICENSE AND COPYRIGHT
 Copyright (C) 2005-2007 John Vorhauer
-Copyright (C) 2007-2014 John Vorhauer, Jens Wille
+Copyright (C) 2007-2015 John Vorhauer, Jens Wille
 Lingo is free software: you can redistribute it and/or modify it under the
 terms of the GNU Affero General Public License as published by the Free

data/Rakefile CHANGED

@@ -1,33 +1,20 @@
 # encoding: utf-8
-__DIR__ = File.expand_path('..', __FILE__)
-require 'rake/clean'
-require 'nuggets/ruby'
-require File.join(__DIR__, %w[lib lingo version])
-PACKAGE_NAME = 'lingo'
-PACKAGE_PATH = File.join(__DIR__, 'pkg', "#{PACKAGE_NAME}-#{Lingo::VERSION}")
-if RUBY_PLATFORM =~ /msdos|mswin|djgpp|mingw|windows/i
-  ZIP_COMMANDS = ['zip', '7z a']  # for hen's gem task
-end
-task default: :spec
-task package: [:checkdoc, 'test:all', :clean]
+require_relative 'lib/lingo/version'
 begin
   require 'hen'
   Hen.lay! {{
     gem: {
-      name:         PACKAGE_NAME,
+      name:         'lingo',
       version:      Lingo::VERSION,
       summary:      'The full-featured automatic indexing system',
       authors:      ['John Vorhauer', 'Jens Wille'],
       email:        ['lingo@vorhauer.de', 'jens.wille@gmail.com'],
       license:      'AGPL-3.0',
       homepage:     'http://lex-lingo.de',
       description:  <<-EOT,
 Lingo is an open source indexing system for research and teachings.
 The main functions of Lingo are:
@@ -39,23 +26,32 @@ The main functions of Lingo are:
 * generic identification of phrases/word sequences based on patterns
   of word classes
       EOT
       extra_files:  FileList[
-        'lingo.rb', 'lingo{,-call}.cfg', 'lir.cfg',
-        '{de,en,ru}.lang', '{de,en,ru}/{lingo-*,user-dic,test_*}.txt',
-        'txt/{artikel{,-en,-ru},lir}.txt', 'lib/lingo/{srv,web}/**/{,.}*'
+        'lib/lingo/{srv,web}/**/{,.}*',
+        'config/*.cfg',
+        'dict/*/*.txt',
+        'lang/*.lang',
+        'txt/*.txt'
       ].to_a,
-      required_ruby_version: '>= 1.9.3',
       dependencies: {
-        'cyclops'       => ['~> 0.0', '>= 0.0.4'],
-        'nuggets'       => '~> 1.0',
+        'cyclops'       => '~> 0.1',
+        'nuggets'       => '~> 1.1',
         'rubyzip'       => '~> 1.1',
         'sinatra-bells' => '~> 0.0',
         'unicode'       => '~> 0.4'
       },
       development_dependencies: {
         'diff-lcs' => '~> 1.2',
         'open4'    => '~> 1.3'
-      }
+      },
+      required_ruby_version: '>= 1.9.3'
+    },
+    test: {
+      pattern: %w[test/ts_*.rb test/attendee/ts_*.rb]
     }
   }}
 rescue LoadError => err
@@ -71,40 +67,22 @@ CLEAN.include(
 CLOBBER.include('store')
-task :checkdoc do
-  docfile = File.join(__DIR__, 'doc', 'index.html')
-  abort "Please run `rake doc' first." unless File.exists?(docfile)
-end
 desc 'Run ALL tests'
-task 'test:all' => [:test, 'test:txt', 'test:lir']
-Rake::TestTask.new(:test) do |t|
-  t.test_files = FileList.new('test/ts_*.rb', 'test/attendee/ts_*.rb')
-end
+task 'test:all' => %w[test test:txt test:lir]
 desc 'Test against reference file (TXT)'
-task 'test:txt' do
-  test_ref('artikel', 'lingo')
-end
+task('test:txt') { test_ref('artikel', 'lingo') }
 desc 'Test against reference file (LIR)'
-task 'test:lir' do
-  test_ref('lir')
-end
-desc 'Run all tests on packaged distribution'
-task 'test:remote' => [:package] do
-  chdir(PACKAGE_PATH) { system('rake test:all') } || abort
-end
+task('test:lir') { test_ref('lir') }
-unless (benchmarks = Dir[File.join(__DIR__, 'bench', '*_bench.rb')]).empty?
+unless (benchmarks = Dir[File.expand_path('../bench/*_bench.rb', __FILE__)]).empty?
   desc 'Run all benchmarks'
   task :bench
   benchmarks.each { |benchmark|
     bench = File.basename(benchmark, '_bench.rb')
-    task :bench => benchtask = "bench:#{bench}"
+    task bench: benchtask = "bench:#{bench}"
     desc "Run #{bench} benchmark"
     task(benchtask) { system(File.ruby, benchmark) }
@@ -113,18 +91,43 @@ end
 def test_ref(name, cfg = name)
   require 'diff/lcs'
-  require 'diff/lcs/ldiff'
+  require 'diff/lcs/hunk'
+  require 'nuggets/ruby'
+  jruby = RUBY_ENGINE == 'jruby'
+  jruby_lir = jruby && name == 'lir'
+  cmd = %W[bin/lingo -c #{cfg} txt/#{name}.txt]
+  buf, diff = ["Command failed: #{cmd.join(' ')}"], 0
+  Process.ruby(*cmd, I: :lib, &jruby ?
+    lambda { |_, _, o, e| buf << e.read; buf << o.read } :
+    lambda { |_, _, o, e| IO.interact({}, { o => buf, e => buf }) }
+  ).success? or abort buf.join("\n\n")
+  Dir["test/ref/#{name}.*"].sort.each { |ref|
+    unless File.exist?(txt = ref.sub(/test\/ref/, 'txt'))
+      puts "?? #{txt}"
+    else
+      puts "## #{txt}"
+      data = [ref, txt].map { |file|
+        File.readlines(file).each { |line|
+          line.chomp!
+          line.gsub!(/(\d+\.\d+)\d/, '\1') if jruby_lir
+        }
+      }
-  cmd = %W[lingo.rb -c #{cfg} txt/#{name}.txt]
-  diff, msg = 0, ["Command failed: #{cmd.join(' ')}"]
+      diffs, fld = Diff::LCS.diff(*data), 0
-  Process.ruby(*cmd) { |_, _, o, e|
-    IO.interact({}, { o => msg, e => msg })
-  }.success? or abort msg.join("\n\n")
+      diffs.empty? ? next : diffs.each { |piece|
+        dlh = Diff::LCS::Hunk.new(*data, piece, 0, fld)
+        fld = dlh.file_length_difference
+        puts dlh.diff(:old)
+      }
+    end
-  Dir["test/ref/#{name}.*"].each { |ref|
-    puts "## #{org = ref.sub(/test\/ref/, 'txt')}"
-    diff += Diff::LCS::Ldiff.run(ARGV.clear << '-a' << org << ref)
+    diff += 1
   }
   exit diff + 1 unless diff.zero?

data/{lingo-call.cfg → config/lingo-call.cfg} RENAMED

@@ -8,4 +8,4 @@ meeting:
     - multi_worder:  { source: sys-mul }
     - sequencer:     { }
     - synonymer:     { source: sys-syn, skip: '?,t' }
-    - debugger:      { prompt: '', ceval: 'false' }
+    - debugger:      { prompt: '', ceval: 'false', preamble: false }

data/{lingo.cfg → config/lingo.cfg} RENAMED

@@ -52,7 +52,7 @@ meeting:
     ########################################
     # Datenstrom anzeigen
     #
-#   - debugger:        { eval: 'true', ceval: 'obj.cmd!="EOL"', prompt: 'lex:) ' }
+#   - debugger:        { eval: 'true', ceval: 'cmd!=:EOL', prompt: 'lex:) ' }
     ########################################
@@ -60,7 +60,7 @@ meeting:
     #
     # Erstelle Datei mit Endung .log für Datenstrom
-    - vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
+    - debug_filter:    { in: syn, prompt: 'lex:) ' }
     - text_writer:     { ext: log, sep: "\n" }
     # Erstelle Datei mit Endung .non für nicht erkannte Wörter
@@ -83,6 +83,14 @@ meeting:
     - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel }
     - text_writer:     { ext: ver, sep: "\n" }
+    # Erstelle Datei mit Endung .vef für erkannte Indexterme mit TFIDF-Gewichtung
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel, tfidf: true }
+    - text_writer:     { ext: vef, sep: "\n" }
+    # Erstelle Datei mit Endung .vet für erkannte Indexterme mit Positionen
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: false, pos: true }
+    - text_writer:     { ext: vet, sep: "\n" }
     # Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
     - vector_filter:   { in: syn, lexicals: m }
     - text_writer:     { ext: mul, sep: "\n" }

data/{lir.cfg → config/lir.cfg} RENAMED

@@ -57,7 +57,7 @@ meeting:
     ########################################
     # Datenstrom anzeigen
     #
-#   - debugger:        { eval: 'true', ceval: 'obj.cmd!="EOL"', prompt: 'lex:) ' }
+#   - debugger:        { eval: 'true', ceval: 'cmd!=:EOL', prompt: 'lex:) ' }
     ########################################
@@ -65,7 +65,7 @@ meeting:
     #
     # Erstelle Datei mit Endung .log für Datenstrom
-    - vector_filter:   { in: syn, debug: 'true', prompt: 'lex:) ' }
+    - debug_filter:    { in: syn, prompt: 'lex:) ' }
     - text_writer:     { ext: log, sep: "\n" }
     # Erstelle Datei mit Endung .non für nicht erkannte Wörter
@@ -88,6 +88,14 @@ meeting:
     - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel }
     - text_writer:     { ext: ver, sep: '|' }
+    # Erstelle Datei mit Endung .vef für erkannte Indexterme mit TFIDF-Gewichtung
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: term_rel, tfidf: true }
+    - text_writer:     { ext: vef, sep: '|' }
+    # Erstelle Datei mit Endung .vet für erkannte Indexterme mit Positionen
+    - vector_filter:   { in: syn, lexicals: '^[ksavem]$', sort: false, pos: true }
+    - text_writer:     { ext: vet, sep: '|' }
     # Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
     - vector_filter:   { in: syn, lexicals: m }
     - text_writer:     { ext: mul, sep: '|' }

data/{de → dict/de}/lingo-abk.txt RENAMED

File without changes

data/{de → dict/de}/lingo-dic.txt RENAMED

File without changes

data/{de → dict/de}/lingo-mul.txt RENAMED

File without changes

data/{de → dict/de}/lingo-syn.txt RENAMED

File without changes

data/{de → dict/de}/test_dic.txt RENAMED

File without changes

data/{de → dict/de}/test_gen.txt RENAMED

File without changes

data/{de → dict/de}/test_mu2.txt RENAMED

File without changes

data/{de → dict/de}/test_mul.txt RENAMED

File without changes

data/{de → dict/de}/test_sgw.txt RENAMED

File without changes

data/{de → dict/de}/test_syn.txt RENAMED

File without changes

data/{de → dict/de}/user-dic.txt RENAMED

File without changes

data/{en → dict/en}/lingo-dic.txt RENAMED

File without changes

data/{en → dict/en}/lingo-irr.txt RENAMED

File without changes

data/{en → dict/en}/lingo-mul.txt RENAMED

File without changes

data/{en → dict/en}/lingo-syn.txt RENAMED

File without changes

data/{en → dict/en}/lingo-wdn.txt RENAMED

File without changes

data/{en → dict/en}/user-dic.txt RENAMED

File without changes

data/{ru → dict/ru}/lingo-dic.txt RENAMED

File without changes

data/{ru → dict/ru}/lingo-mul.txt RENAMED

File without changes

data/{ru → dict/ru}/lingo-syn.txt RENAMED

File without changes

data/{ru → dict/ru}/user-dic.txt RENAMED

File without changes

data/{de.lang → lang/de.lang} RENAMED

@@ -79,7 +79,7 @@ language:
       - [a, 'este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem']
       - [v, 'e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s']
       - [e, 's']
-      - [f, 's n e en es er ch/che /en']
+      - [f, 's n e en es er ch/che ch/chen']
     inflect:
       a:  # adjectives

data/{en.lang → lang/en.lang} RENAMED

File without changes

data/{ru.lang → lang/ru.lang} RENAMED

File without changes

data/lib/lingo.rb CHANGED

@@ -6,7 +6,7 @@
 # Lingo -- A full-featured automatic indexing system                          #
 #                                                                             #
 # Copyright (C) 2005-2007 John Vorhauer                                       #
-# Copyright (C) 2007-2012 John Vorhauer, Jens Wille                           #
+# Copyright (C) 2007-2014 John Vorhauer, Jens Wille                           #
 #                                                                             #
 # Lingo is free software; you can redistribute it and/or modify it under the  #
 # terms of the GNU Affero General Public License as published by the Free     #
@@ -29,6 +29,8 @@ require 'stringio'
 require 'pathname'
 require 'fileutils'
 require 'nuggets/file/ext'
+require 'nuggets/hash/nest'
+require 'nuggets/hash/seen'
 require 'nuggets/env/user_home'
 require 'nuggets/string/camelscore'
@@ -200,12 +202,10 @@ class Lingo
     end
     def walk(path, options, legacy = true)
-      dirs = [options[:dir].to_s]
+      dirs, seen = [options[:dir].to_s], Hash.seen
       dirs << '' if legacy
       dirs.uniq!
-      seen = Hash.new { |h, k| h[k] = true; false }
       path.each { |d|
         next if seen[d = File.expand_path(d)]
         dirs.each { |i| yield File.join(d, i) } or break
@@ -265,13 +265,13 @@ class Lingo
   end
   def invite(list = config['meeting/attendees'])
-    supplier   = Hash.new { |h, k| h[k] = [] }
-    subscriber = Hash.new { |h, k| h[k] = [] }
+    supplier   = Hash.nest { [] }
+    subscriber = Hash.nest { [] }
     last_link, auto_link = '', 0
     list.each { |hash|
-      name = hash.keys.first.camelcase
+      name = (name_key = hash.keys.first).camelcase
       cfg = (config["language/attendees/#{name.downcase}"] || {})
         .merge(hash.values.first).update('name' => name)
@@ -284,41 +284,40 @@ class Lingo
       @attendees << attendee = Attendee.const_get(name).new(cfg, self)
+      unless name == (real = attendee.class.name.split('::').last)
+        config.deprecate(name_key, real.underscore, attendee, :name)
+      end
       { 'in' => subscriber, 'out' => supplier }.each { |key, target|
         cfg[key].split(SEP_RE).each { |ch| target[ch] << attendee }
       }
     }
     supplier.each { |ch, attendees| attendees.each { |att|
-      att.add_subscriber(subscriber[ch])
+      att.subscribers.concat(subscriber[ch])
     } }
   end
   def start
-    @attendees.first.listen(AgendaItem.new(Attendee::STR_CMD_TALK))
+    @attendees.first.control(:TALK)
   end
   def reset(close = true)
     dictionaries.each { |i| i.close } if close
     @dictionaries, @attendees = [], []
-    @lexical_hash = Hash.new { |h, k| h[k] = Language::LexicalHash.new(k, self) }
+    @lexical_hash = Hash.nest { |k| Language::LexicalHash.new(k, self) }
   end
   def warn(*msg)
     config.warn(*msg)
   end
-  def deprecate(old, new, obj = self)
-    config.deprecate(old, new, obj)
-  end
 end
 require_relative 'lingo/call'
 require_relative 'lingo/error'
 require_relative 'lingo/debug'
 require_relative 'lingo/config'
-require_relative 'lingo/agenda_item'
 require_relative 'lingo/progress'
 require_relative 'lingo/database'
 require_relative 'lingo/language'