RubyGems - lingo - Versions diffs - 1.8.4.2 → 1.8.5 - Mend

lingo 1.8.4.2 → 1.8.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (89) hide show

checksums.yaml +4 -4
data/ChangeLog +413 -325
data/README +380 -131
data/Rakefile +19 -21
data/de/lingo-abk.txt +15 -17
data/de/lingo-dic.txt +20210 -20659
data/de/lingo-mul.txt +5 -13
data/de/lingo-syn.txt +5 -8
data/de/test_dic.txt +2 -0
data/de/test_gen.txt +8 -0
data/de/{test_mul2.txt → test_mu2.txt} +0 -0
data/de/{test_singleword.txt → test_sgw.txt} +0 -0
data/de/user-dic.txt +5 -7
data/de.lang +64 -49
data/en/lingo-dic.txt +6398 -6404
data/en/lingo-irr.txt +2 -3
data/en/lingo-mul.txt +6 -7
data/en/lingo-wdn.txt +881 -1762
data/en/user-dic.txt +2 -5
data/en.lang +39 -39
data/lib/lingo/app.rb +10 -6
data/lib/lingo/attendee/abbreviator.rb +1 -0
data/lib/lingo/attendee/decomposer.rb +2 -1
data/lib/lingo/attendee/multi_worder.rb +5 -6
data/lib/lingo/attendee/stemmer.rb +1 -1
data/lib/lingo/attendee/synonymer.rb +4 -2
data/lib/lingo/attendee/text_reader.rb +77 -57
data/lib/lingo/attendee/text_writer.rb +1 -1
data/lib/lingo/attendee/tokenizer.rb +101 -50
data/lib/lingo/attendee/variator.rb +2 -1
data/lib/lingo/attendee/vector_filter.rb +28 -6
data/lib/lingo/attendee/word_searcher.rb +2 -1
data/lib/lingo/attendee.rb +8 -4
data/lib/lingo/call.rb +7 -3
data/lib/lingo/cli.rb +8 -16
data/lib/lingo/config.rb +11 -6
data/lib/lingo/ctl.rb +54 -3
data/lib/lingo/database/crypter.rb +8 -14
data/lib/lingo/database/hash_store.rb +1 -1
data/lib/lingo/database/{show_progress.rb → progress.rb} +7 -8
data/lib/lingo/database/source/key_value.rb +6 -5
data/lib/lingo/database/source/multi_key.rb +5 -2
data/lib/lingo/database/source/multi_value.rb +6 -4
data/lib/lingo/database/source/single_word.rb +2 -3
data/lib/lingo/database/source/word_class.rb +24 -5
data/lib/lingo/database/source.rb +5 -3
data/lib/lingo/database.rb +102 -41
data/lib/lingo/error.rb +24 -2
data/lib/lingo/language/dictionary.rb +26 -54
data/lib/lingo/language/grammar.rb +19 -23
data/lib/lingo/language/lexical.rb +5 -1
data/lib/lingo/language/lexical_hash.rb +7 -12
data/lib/lingo/language/token.rb +10 -1
data/lib/lingo/language/word.rb +35 -23
data/lib/lingo/language/word_form.rb +5 -4
data/lib/lingo/{show_progress.rb → progress.rb} +43 -30
data/lib/lingo/srv/lingosrv.cfg +1 -1
data/lib/lingo/srv/public/.gitkeep +0 -0
data/lib/lingo/srv.rb +11 -6
data/lib/lingo/version.rb +2 -2
data/lib/lingo/web/lingoweb.cfg +1 -1
data/lib/lingo/web/views/index.erb +4 -4
data/lib/lingo/web.rb +4 -6
data/lib/lingo.rb +4 -12
data/lingo.cfg +1 -1
data/lir.cfg +1 -1
data/ru/lingo-dic.txt +33473 -2113
data/ru/lingo-mul.txt +8430 -1913
data/ru/lingo-syn.txt +1634 -0
data/ru/user-dic.txt +6 -0
data/ru.lang +49 -47
data/spec/spec_helper.rb +4 -0
data/test/attendee/ts_decomposer.rb +2 -2
data/test/attendee/ts_synonymer.rb +3 -3
data/test/attendee/ts_tokenizer.rb +215 -2
data/test/attendee/ts_variator.rb +2 -2
data/test/attendee/ts_word_searcher.rb +10 -6
data/test/ref/artikel.seq +2 -2
data/test/ref/artikel.vec +5 -5
data/test/ref/artikel.ven +11 -11
data/test/ref/artikel.ver +11 -11
data/test/ref/lir.seq +13 -13
data/test/ref/lir.vec +31 -31
data/test/test_helper.rb +19 -5
data/test/ts_database.rb +206 -77
data/test/ts_language.rb +86 -26
metadata +93 -49
data/.rspec +0 -1
data/de/test_syn2.txt +0 -1

data/de/lingo-mul.txt CHANGED Viewed

@@ -1,11 +1,9 @@
+# Mehrwort-Wörterbuch lingo-mul.txt
+# enthält als Basis für eigene Erweiterungen
+# exemplarisch Mehrwortbegriffe, die mit "a" beginnen
 #
-#    Mehrwort-Wörterbuch lingo-mul.txt
-#    enthält als Basis für eigene Erweiterungen
-#    exemplarisch Mehrwortbegriffe, die mit "a" beginnen
-#
-#    Stand: 18.10.05 / Klaus Lepsky
-#
-#
+# Stand: 18.10.05 / Klaus Lepsky
 albert einstein
 albert ainshtain
 einstein, albert
@@ -13,12 +11,6 @@ a data query language
 a fresco
 a part
 a priori
-abelsche transformation
-abelsche umformung
-a data query language
-a fresco
-a part
-a priori
 a programming language
 a- 3-struktur
 a- 4-struktur

data/de/lingo-syn.txt CHANGED Viewed

@@ -1,11 +1,9 @@
+# Synonym-Wörterbuch lingo-syn.txt
+# enthält als Basis für eigene Erweiterungen
+# exemplarisch Synonyme, die mit "a" beginnen
 #
-#    Synonym-Wörterbuch lingo-syn.txt
-#    enthält als Basis für eigene Erweiterungen
-#    exemplarisch Synonyme, die mit "a" beginnen
-#
-#    Stand: 16.03.05 / Klaus Lepsky
-#
-#
+# Stand: 16.03.05 / Klaus Lepsky
 aachener kongress=aachen / kongress <1818>
 aal=flussaal
 aalartige fische=aalfische
@@ -5405,7 +5403,6 @@ alter=betagter
 alter <100 jahre>=hundertjähriger
 alter druck=altes buch
 alter ego=alter ego
-alter ego=alter ego
 alter herr=philister <studentenverbindung>
 alter mensch=alter
 alter stil / klassisches chinesisch=guwen

data/de/test_dic.txt CHANGED Viewed

@@ -22,3 +22,5 @@ aargauer,aargauer #s
 aaron,aaron #e
 aas,aas #s
 lex-lingo,super indexierungssystem #m
+wirkungsort,wirkungsort #s wirkung #s+ ort #s+
+zettelkatalog,zettelkatalog #k zettel #s+ katalog #s+

data/de/test_gen.txt ADDED Viewed

@@ -0,0 +1,8 @@
+substantiv,substantiv #a substantiv #s.n
+mehr,mehr #w mehr #s.n mehren #v
+wort,wort #s.n
+gruppe,gruppe #s.f
+modul,modul #s.m|n
+nocken,nock #s.f|m|n nocke #s.f nocken #s.m
+albern,albern #a|v
+fortuna,fortuna #e|s.f

data/de/{test_mul2.txt → test_mu2.txt} RENAMED Viewed

File without changes

data/de/{test_singleword.txt → test_sgw.txt} RENAMED Viewed

File without changes

data/de/user-dic.txt CHANGED Viewed

@@ -1,10 +1,8 @@
-#
-#   Musterwörterbuch user-dic.txt als Vorlage
-#   für eigene Benutzerwörterbücher
-#
-#
+# Musterwörterbuch user-dic.txt als Vorlage
+# für eigene Benutzerwörterbücher
+bibliografie=bibliografie #s
+bibliographie=bibliografie #s
 klassifikation=klassifikation #s
 thesaurus=thesaurus #s
 verschlagwortung=verschlagwortung #s
-bibliografie=bibliografie #s
-bibliographie=bibliografie #s

data/de.lang CHANGED Viewed

@@ -40,71 +40,86 @@
 #           definiert sein, da es sonst noch nicht existiert!
 #
-#    lingo language definition
----
+---
 language:
   name: 'Deutsch'
   dictionary:
     databases:
-      #    Systemwörterbücher
+      # System dictionaries
       sys-dic: { name: de/lingo-dic.txt, txt-format: WordClass, separator: '=' }
       sys-abk: { name: de/lingo-abk.txt, txt-format: WordClass, separator: '=' }
-      sys-syn: { name: de/lingo-syn.txt, txt-format: KeyValue, separator: '=', def-wc: y }
-      sys-mul: { name: de/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
-      #    Benutzerwörterbücher
-      usr-dic: { name: de/user-dic.txt, txt-format: WordClass, separator: '=' }
+      sys-syn: { name: de/lingo-syn.txt, txt-format: KeyValue,  separator: '=',    def-wc: y }
+      sys-mul: { name: de/lingo-mul.txt, txt-format: SingleWord, use-lex: sys-dic, def-wc: m }
-      #    Testwörterbücher
-      tst-dic: { name: de/test_dic.txt, txt-format: WordClass }   #  TEST: Lesen von zwei Quellen
-      tst-syn: { name: de/test_syn.txt, txt-format: MultiValue, def-wc: 'y' } # TEST: Mehrere Datenquellen
-      tst-syn2: { name: de/test_syn2.txt, txt-format: MultiValue, def-wc: 'y', use-lex: 'sys-dic' } # TEST: Mehrere Datenquellen
-      tst-mul: { name: de/test_mul.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwörterbücher
-      tst-mu2: { name: de/test_mul2.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwörterbücher
-      tst-sto: { name: de/test_store.txt, txt-format: WordClass } #  TEST: korrespondierende Store-Datei nicht vorhanden
-      tst-cry: { name: de/test_cry.txt, txt-format: WordClass, crypt } #  TEST: Verschlüsselung
-      tst-sgw: { name: de/test_singleword.txt, txt-format: SingleWord } #  TEST: SingleWord-Format
+      # User dictionaries
+      usr-dic: { name: de/user-dic.txt,  txt-format: WordClass, separator: '=' }
+      # Test dictionaries
+      tst-dic: { name: de/test_dic.txt, txt-format: WordClass }              # TEST: Lesen von zwei Quellen
+      tst-syn: { name: de/test_syn.txt, txt-format: MultiValue, def-wc: y }  # TEST: Mehrere Datenquellen
+      tst-mul: { name: de/test_mul.txt, use-lex: sys-dic, def-wc: m }        # TEST: Mehrere Multiwörterbücher
+      tst-mu2: { name: de/test_mu2.txt, use-lex: sys-dic, def-wc: m }        # TEST: Mehrere Multiwörterbücher
+      tst-sgw: { name: de/test_sgw.txt, txt-format: SingleWord }             # TEST: SingleWord-Format
+      tst-gen: { name: de/test_gen.txt, txt-format: WordClass }              # TEST: Genus
     compound:
-      min-word-size: "7"
-      min-part-size: "3"
-      max-parts: "5"
-      min-avg-part-size: "4"
-      append-wordclass: "+"
+      min-word-size:     '7'
+      min-part-size:     '3'
+      max-parts:         '5'
+      min-avg-part-size: '4'
+      append-wordclass:  '+'
       skip-sequences: [ xx ]
     suffix:
-      #    Suffixliste, Stand: 30-06-2005
-      #    Suffixklasse:   s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
-      #    Suffixe je Klasse:   "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
-      - [s, "e en er ern es n s se sen ses"]
-      - [a, "este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem"]
-      - [v, "e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s"]
-      - [e, "s"]
-      - [f, "s n e en es er ch/che /en"]
+      # Suffixliste, Stand: 30-06-2005
+      # Suffixklasse: s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
+      # Suffixe je Klasse: "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
+      - [s, 'e en er ern es n s se sen ses']
+      - [a, 'este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem']
+      - [v, 'e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s']
+      - [e, 's']
+      - [f, 's n e en es er ch/che /en']
+    inflect:
+      a:  # adjectives
+        f: e   # feminine
+        m: er  # masculine
+        n: es  # neuter
+        p: e   # plurale tantum
   attendees:
     variator:
       variations:
-        - [ ieh, sch ]
-        - [ fec, see ]
-        - [ it,  st  ]
-        - [ fch, sch ]
-        - [ fp,  sp  ]
-        - [ f,   s   ]
-        - [ c,   e   ]
-        - [ ffc, sse ]
-        - [ ff,  ss  ]
-        - [ e,   c   ]
-        - [ ni,  m   ]
-        - [ feh, sch ]
-        - [ lt,  st  ]
-        - [ il,  st  ]
-        - [ ftc, ste ]
-        - [ ft,  st  ]
-        - [ fl,  st  ]
-        - [ li,  h   ]
-        - [ i,   s   ]
+        - [ieh, sch]
+        - [fec, see]
+        - [it,  st ]
+        - [fch, sch]
+        - [fp,  sp ]
+        - [f,   s  ]
+        - [c,   e  ]
+        - [ffc, sse]
+        - [ff,  ss ]
+        - [e,   c  ]
+        - [ni,  m  ]
+        - [feh, sch]
+        - [lt,  st ]
+        - [il,  st ]
+        - [ftc, ste]
+        - [ft,  st ]
+        - [fl,  st ]
+        - [li,  h  ]
+        - [i,   s  ]
     sequencer:
-      sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]
+      sequences: [ [AS, '2, 1'], [AK, '2, 1'], [AAK, '3, 1 2'], [AAS, '3, 1 2'] ]
+    # tokenizer rules:
+    #   SPAC = \s+
+    #   NUMS = [+-]?(?:\d{4,}|\d{1,3}(?:\.\d{3,3})*)(?:\.|(?:,\d+)?%?)
+    #   URLS = (?:www\.|mailto:|(?:news|https?|ftps?)://|\S+?[._]\S+?@\S+?\.)\S+
+    #   ABRV = (?:(?:(?:#{CHAR})+\.)+)(?:#{CHAR})+
+    #   WORD = (?:#{CHAR}|#{DIGIT}|-)+
+    #   PUNC = [!,.:;?¡¿]
+    #   OTHR = ["$#%&'()*+\-/<=>@\[\\\]^_{|}~¢£¤¥¦§¨©«¬®¯°±²³´¶·¸¹»¼½¾×÷]
+    #   HELP = \S*