RubyGems - rhabarber - Versions diffs - 0.0.1 - Mend

rhabarber 0.0.1

Files changed (16) hide show

data/CHANGELOG.rdoc +1 -0
data/LICENSE.rdoc +0 -0
data/README.rdoc +2 -0
data/bin/tokenize +15 -0
data/changelog.rdoc +1 -0
data/lib/tokenizer.rb +5 -0
data/lib/tokenizer/opt_parse.rb +41 -0
data/lib/tokenizer/tokenizer.rb +33 -0
data/lib/tokenizer/version.rb +3 -0
data/lib/version.rb +0 -0
data/license.rdoc +0 -0
data/readme.rdoc +2 -0
data/test/test_de_tokenizer_dev.rb +284 -0
data/test/test_tokenizer.rb +34 -0
data/test/test_version.rb +22 -0
metadata +114 -0

data/CHANGELOG.rdoc ADDED

	@@ -0,0 +1 @@
1	+ Changelog

data/LICENSE.rdoc ADDED

File without changes

data/README.rdoc ADDED

	@@ -0,0 +1,2 @@
1	+ Test
2	+ Zeile2

data/bin/tokenize ADDED

@@ -0,0 +1,15 @@
+$LOAD_PATH.unshift('U:\rhabarber\lib')
+require 'tokenizer'
+options = Tokenizer::OptParse.parse(ARGV)
+t = Tokenizer::Tokenizer.new(options)
+while str = gets
+	puts t.tokenize(str)
+end

data/changelog.rdoc ADDED

	@@ -0,0 +1 @@
1	+ Changelog

data/lib/tokenizer.rb ADDED

@@ -0,0 +1,5 @@
+require 'tokenizer/tokenizer'
+require 'tokenizer/version'
+require 'tokenizer/opt_parse'

data/lib/tokenizer/opt_parse.rb ADDED

@@ -0,0 +1,41 @@
+require 'optparse'
+require 'tokenizer/version.rb'
+module Tokenizer
+	class OptParse
+		def OptParse.parse(args)
+			@@options = {}
+			parser = OptParse.create_parser # Klassen- keine Instanzmethode
+			begin
+				parser.parse(args)
+				rescue OptionParser::InvalidArgument
+				rescue OptionParser::InvalidOption => e
+			STDERR.puts 'Falsche 0pt1on' # #{e.message}
+			exit(1)
+			end
+		end
+		private
+		def self.create_parser
+			OptionParser.new do|args| # || -> Block als Parameter; liefert Instanz von der Klasse; auch return OptionParser.new do|args|
+			args.banner = 'Usage: tokenize ARGS'
+			args.on('-h', '--help', 'Show this summary!') do
+				puts args; exit
+			end
+			args.on('-v', '--version', 'Show this version!') do
+				puts VERSION; exit
+			end
+			end
+		end
+	end
+end

data/lib/tokenizer/tokenizer.rb ADDED

@@ -0,0 +1,33 @@
+# :title: My first tokenizer
+# :main: readme.rdoc
+module Tokenizer
+# guess what...
+class Tokenizer
+# regexp
+WL = /\s+/
+	def initialize (l=:de)
+		@l = l
+	end #initialize
+	def tokenize(str)
+		tokens = []
+		tokens = str.split(WL)
+		return tokens
+	end #tokenize
+puts "neuer Test"
+end
+end

data/lib/tokenizer/version.rb ADDED

@@ -0,0 +1,3 @@
+module Tokenizer
+	VERSION = '0.0.1'
+end

data/lib/version.rb ADDED

File without changes

data/license.rdoc ADDED

File without changes

data/readme.rdoc ADDED

	@@ -0,0 +1,2 @@
1	+ Test
2	+ Zeile2

data/test/test_de_tokenizer_dev.rb ADDED

@@ -0,0 +1,284 @@
+require 'test/unit'
+require 'tokenizer'
+class TestTokenizerDev < Test::Unit::TestCase
+  def setup
+    @de_tokenizer = Tokenizer::Tokenizer.new(:de)
+  end
+  def test_tokenization_001
+    input = 'ich ging? du, und ich nicht (konnte nicht)? Warum?!!'
+    etalon = %w{ ich ging ? du , und ich nicht ( konnte nicht ) ? Warum ? ! !}
+    compare(etalon, input)
+  end
+  def test_tokenization_002
+    input = "Die deutschen Umlaute und Sonderzeichen, wie in Mäuse, Scheiß und Tütchen, sind blöd!"
+    etalon = %w{Die deutschen Umlaute und Sonderzeichen , wie in Mäuse , Scheiß und Tütchen , sind blöd !}
+    compare(etalon, input)
+  end
+  def test_tokenization_003
+    input = "Abkürzungen, wie z.B. usw. und d.h. können zu Problemem führen."
+    etalon = %w{Abkürzungen , wie z.B. usw. und d.h. können zu Problemem führen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_004
+    input = "Es gibt mehr als 1.023.345 Menschen in Deutschland, die keine Tausenderpunkte verstehen."
+    etalon = %w{Es gibt mehr als 1.023.345 Menschen in Deutschland , die keine Tausenderpunkte verstehen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_005
+    input = "Cocktails, wie Apfel-Martini, Rum-Kirsche-Cola und andere, bereiten nicht nur Menschen Probleme."
+    etalon = %w{ Cocktails , wie Apfel-Martini , Rum-Kirsche-Cola und andere , bereiten nicht nur Menschen Probleme . }
+    compare(etalon, input)
+  end
+  def test_tokenization_006
+    input = 'Es gibt viele verschiedene Zeichen, die noch in Texten vorkommen können wie - zum Beispiel - diese hier "text" oder (text).'
+    etalon = %w{Es gibt viele verschiedene Zeichen , die noch in Texten vorkommen können wie - zum Beispiel - diese hier " text " oder ( text ) .}
+    compare(etalon, input)
+  end
+  def test_tokenization_007
+    input = "Abkürzungen sind immer ein Problem, da auch Leerzeichen dazwischen stehen können, wie z. B. hier."
+    etalon = ["Abkürzungen", "sind", "immer", "ein", "Problem", ",", "da", "auch", "Leerzeichen", "dazwischen", "stehen", "können", ",", "wie", "z. B.", "hier", "."]
+    compare(etalon, input)
+  end
+  def test_tokenization_008
+    input = "Außerdem kann es nach Abkürzungen und Satzenden auch mit Großschreibung weiter gehen, bei z.B. Aufzählungen."
+    etalon = %w{Außerdem kann es nach Abkürzungen und Satzenden auch mit Großschreibung weiter gehen , bei z.B. Aufzählungen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_009
+    input = "Ein weiteres Problem sind solche Getrennt- und Zusammenschreibungen."
+    etalon = %w{Ein weiteres Problem sind solche Getrenntschreibungen und Zusammenschreibungen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_010
+    input = "In manchen Texten gibt es auch Worttrennung am Zeilen- ende."
+    etalon = %w{In manchen Texten gibt es auch Worttrennung am Zeilenende .}
+    compare(etalon, input)
+  end
+  def test_tokenization_011 #Ellipsis
+    input = "Der Satz endet in einer Ellips..."
+    etalon = %w{ Der Satz endet in einer Ellips... } #die elliptischen Punkte sollten nicht vom Wort getrennt werden
+    compare(etalon, input)
+  end
+  def test_tokenization_012 #Fehlende Leerzeichen
+    input = "Der Satz endet.Das Leerzeichen fehlt."
+    etalon = %w{ Der Satz endet . Das Leerzeichen fehlt . } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_013 #Bindestriche
+    input = "Das Bindeglied - manisch-depressives Verhalten, binden-verbinden"
+    etalon = %w{ Das Bindeglied - manisch-depressives Verhalten , binden - verbinden}
+    compare(etalon, input)
+  end
+  def test_tokenization_014 #Abkuerzungen
+    input = "Der Satz enthielt z.B. Fehler"
+    etalon = %w{ Der Satz enthielt z.B. Fehler } #/\.\s(?=[A-Z])/ wuerde hinter Punkt den Satz beenden
+    compare(etalon, input)
+  end
+  def test_tokenization_015 #Fehlende Grossbuchstaben
+    input = "Der Satz endet. der Satz beginnt"
+    etalon = %w{ Der Satz endet . der Satz beginnt } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_016 #Franzoesisch
+    input = "L'art de l'univers, c'est un art"
+    etalon = %w{ L' art de l' univers , c'est un art } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_017 #James Bond
+    input = "Bond,... James Bond."
+    etalon = %w{ Bond , ... James Bond . } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_018 #Inches
+    input = "The square had four 9\" sides"
+    etalon = %w{ The square had four 9" sides }
+    compare(etalon, input)
+  end
+  def test_tokenization_019 #Abkuerzung zugleich Lexikon-Eintrag
+    input = "In fig. 3, a fig can be seen. Fig. no. 4 shows no fig."
+    etalon = %w{ In fig. 3 , a fig can be seen . Fig. no. 4 shows no fig . } #fig sowohl als Abkuerzung als auch als Wort
+    compare(etalon, input)
+  end
+  def test_tokenization_020 #Leerzeichen-getrennte Zusammengehörigkeiten
+    input = "They booked the flight New York-Los Angeles"
+    etalon = ["They", "booked", "the", "flight", "New York", "-", "Los Angeles"] #oder mit Bindestrich verbunden
+    compare(etalon, input)
+  end
+  def test_tokenization_021 #Ordinale
+    input = "Der 1. Platz ging an den Sieger"
+    etalon = %w{ Der 1. Platz ging an den Sieger }
+    compare(etalon, input)
+  end
+  def test_tokenization_022 #Klitika
+    input = "Er war's, stimmt's?"
+    etalon = %w{ Er war es , stimmt es ? } #Kontrovers! Benoetigt komplexere Analyse
+    compare(etalon, input)
+  end
+  def test_tokenization_023 #Datums- und Zeitangaben
+    input = "Es passierte am 13. Januar 2011 um 12:13 Uhr"
+    etalon = [ "Es", "passierte", "am", "13. Januar 2011", "um", "12:13 Uhr"]
+    compare(etalon, input)
+  end
+  def test_tokenization_024 #Eingebettete Saetze
+    input = "\"This is all?\" George asked."
+    etalon = %w{ This is all ? George asked . } #kann zu ungrammatischen Saetzen fuehren
+    compare(etalon, input)
+  end
+  def test_tokenization_025 #Eingebettete Saetze 2
+    input = "\"Das ist alles?\" fragte sie."
+    etalon = %w{ Das ist alles ? fragte sie . } #ungrammatischer Satz "fragte sie."
+    compare(etalon, input)
+  end
+  def test_tokenization_026
+    input = "Die deutschen Umlaute und Sonderzeichen, wie in Mäuse, Scheiß und Tütchen, sind blöd!"
+    etalon = %w{ Die deutschen Umlaute und Sonderzeichen , wie in Mäuse , Scheiß und Tütchen , sind blöd ! }
+    compare(etalon, input)
+  end
+  def test_tokenization_027
+    input = "Abkürzungen, wie z.B. usw. und d.h. können zu Problemem führen."
+    etalon = %w{ Abkürzungen , wie z.B. usw. und d.h. können zu Problemem führen . }
+    compare(etalon, input)
+  end
+  def test_tokenization_028
+    input = "Es gibt mehr als 1.023.345 Menschen in Deutschland, die keine Tausenderpunkte verstehen."
+    etalon = %w{ Es gibt mehr als 1.023.345 Menschen in Deutschland , die keine Tausenderpunkte verstehen . }
+    compare(etalon, input)
+  end
+  def test_tokenization_029
+    input = "Cocktails, wie Apfel-Martini, Rum-Kirsche-Cola und andere, bereiten nicht nur Menschen Probleme."
+    etalon = %w{ Cocktails , wie Apfel-Martini , Rum-Kirsche-Cola und andere , bereiten nicht nur Menschen Probleme . }
+    compare(etalon, input)
+  end
+  def test_tokenization_030 #Ellipsis
+    input = "Der Satz endet in einer Ellips..."
+    etalon = %w{ Der Satz endet in einer Ellips... } #die elliptischen Punkte sollten nicht vom Wort getrennt werden
+    compare(etalon, input)
+  end
+  def test_tokenization_031 #Fehlende Leerzeichen
+    input = "Der Satz endet.Das Leerzeichen fehlt."
+    etalon = %w{ Der Satz endet . Das Leerzeichen fehlt . } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_032 #Bindestriche
+    input = "Das Bindeglied - manisch-depressives Verhalten, binden-verbinden"
+    etalon = %w{ Das Bindeglied - manisch-depressives Verhalten , binden - verbinden}
+    compare(etalon, input)
+  end
+  def test_tokenization_033 #Abkuerzungen
+    input = "Der Satz enthielt z.B. Fehler"
+    etalon = %w{ Der Satz enthielt z.B. Fehler } #/\.\s(?=[A-Z])/ wuerde hinter Punkt den Satz beenden
+    compare(etalon, input)
+  end
+  def test_tokenization_034 #Fehlende Grossbuchstaben
+    input = "Der Satz endet. der Satz beginnt"
+    etalon = %w{ Der Satz endet . der Satz beginnt } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_035 #Franzoesisch
+    input = "L'art de l'univers, c'est un art"
+    etalon = %w{ L' art de l' univers , c'est un art } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_036 #James Bond
+    input = "Bond,... James Bond."
+    etalon = %w{ Bond , ... James Bond . } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_037 #Inches
+    input = "The square had four 9\" sides"
+    etalon = %w{ The square had four 9" sides }
+    compare(etalon, input)
+  end
+  def test_tokenization_039 #Abkuerzung zugleich Lexikon-Eintrag
+    input = "In fig. 3, a fig can be seen. Fig. no. 4 shows no fig."
+    etalon = %w{ In fig. 3 , a fig can be seen . Fig. no. 4 shows no fig . } #fig sowohl als Abkuerzung als auch als Wort
+    compare(etalon, input)
+  end
+  def test_tokenization_040 #Leerzeichen-getrennte Zusammengehörigkeiten
+    input = "They booked the flight New York-Los Angeles"
+    etalon = ["They", "booked", "the", "flight", "New York", "-", "Los Angeles"] #oder mit Bindestrich verbunden
+    compare(etalon, input)
+  end
+  def test_tokenization_041 #Ordinale
+    input = "Der 1. Platz ging an den Sieger"
+    etalon = %w{ Der 1. Platz ging an den Sieger }
+    compare(etalon, input)
+  end
+  def test_tokenization_042 #Klitika
+    input = "Er war's, stimmt's?"
+    etalon = %w{ Er war es , stimmt es ? } #Kontrovers! Benoetigt komplexere Analyse
+    compare(etalon, input)
+  end
+  #Datums- und Zeitangaben
+  def test_tokenization_043
+    input = "Es passierte am 13. Januar 2011 um 12:13 Uhr"
+    etalon = ["Es", "passierte", "am", "13. Januar 2011", "um", "12:13 Uhr"]
+    compare(etalon, input)
+  end
+  #Eingebettete Sätze
+  def test_tokenization_044
+    input = '"This is all?" George asked.'
+    etalon = %w{ This is all ? George asked . } #kann zu ungrammatischen Saetzen fuehren
+    compare(etalon, input)
+  end
+  def test_tokenization_046 #Eingebettete Saetze 2
+    input = '"Das ist alles?" fragte sie.'
+    etalon = %w{Das ist alles ? fragte sie .} #ungrammatischer Satz "fragte sie."
+    compare(etalon, input)
+  end
+  private
+  def compare(exp_result, input)
+    act_result = @de_tokenizer.tokenize(input)
+    assert_equal(exp_result, act_result)
+  end
+end

data/test/test_tokenizer.rb ADDED

@@ -0,0 +1,34 @@
+$LOAD_PATH.unshift('U:\rhabarber\lib')
+require 'tokenizer/tokenizer'
+require 'test/unit'
+class TestTokenizer < Test::Unit::TestCase
+	def setup
+		@t = Tokenizer::Tokenizer.new(:de)
+	end #setup
+	def test_has_method
+		assert_equal(true,@t.respond_to?(:tokenize))	# assert(@t.respond_to?(:tokenize))
+	end #test_has_method
+	def test_array
+		assert_instance_of(Array, @t.tokenize("x y z"))
+	end
+	def test_empty_array
+		assert_equal(false,@t.tokenize("x y z").empty?)
+	end #test_empty_array
+end #TestVersion

data/test/test_version.rb ADDED

@@ -0,0 +1,22 @@
+$LOAD_PATH.unshift('U:\rhabarber\lib')
+require 'tokenizer'
+require 'test/unit'
+class TestVersion < Test::Unit::TestCase
+	def test_version
+		assert(Tokenizer::VERSION.is_a?(String), "Falsche Klasse")
+		assert_equal(false,Tokenizer::VERSION.empty?)
+	end #test_version
+	def setup
+		@t = Tokenizer::Tokenizer.new(:de)
+	end #setup
+end #TestVersion

metadata ADDED

@@ -0,0 +1,114 @@
+--- !ruby/object:Gem::Specification
+name: rhabarber
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+  prerelease:
+platform: ruby
+authors:
+- Ma Ba
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2011-12-08 00:00:00.000000000Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: rdoc
+  requirement: &9790584 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: 3.9.1
+  type: :development
+  prerelease: false
+  version_requirements: *9790584
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: &9789468 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - =
+      - !ruby/object:Gem::Version
+        version: 0.8.7
+  type: :development
+  prerelease: false
+  version_requirements: *9789468
+- !ruby/object:Gem::Dependency
+  name: yard
+  requirement: &9788364 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: *9788364
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: &9787368 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: *9787368
+description: A simple multilingual tokenizer for NLP tasks. This tool provides a CLI
+  and a library for linguistic tokenization which is an anavoidable step for many
+  HLT (human language technology) tasks in the preprocessing phase for further syntactic,
+  semantic and other higher level processing goals. Use it for tokenization of German,
+  English and French texts.
+email: missmariabartels@aol.de
+executables:
+- tokenize
+extensions: []
+extra_rdoc_files:
+- changelog.rdoc
+- license.rdoc
+- readme.rdoc
+files:
+- lib/tokenizer/opt_parse.rb
+- lib/tokenizer/tokenizer.rb
+- lib/tokenizer/version.rb
+- lib/tokenizer.rb
+- lib/version.rb
+- README.rdoc
+- LICENSE.rdoc
+- CHANGELOG.rdoc
+- test/test_de_tokenizer_dev.rb
+- test/test_tokenizer.rb
+- test/test_version.rb
+- bin/tokenize
+- changelog.rdoc
+- license.rdoc
+- readme.rdoc
+homepage: ''
+licenses: []
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: 1.8.7
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project: tokenizer
+rubygems_version: 1.7.2
+signing_key:
+specification_version: 3
+summary: Tokenizer is a linguistic tool intended to split a text into tokens.
+test_files:
+- test/test_de_tokenizer_dev.rb
+- test/test_tokenizer.rb
+- test/test_version.rb