RubyGems - tokenizer_project_uni-trier_j-v - Versions diffs - 0.0.1 - Mend

tokenizer_project_uni-trier_j-v 0.0.1

Files changed (11) hide show

data/CHANGELOG.rdoc +5 -0
data/LICENSE.rdoc +0 -0
data/README.rdoc +11 -0
data/bin/tokenize +8 -0
data/lib/tokenizer.rb +2 -0
data/lib/tokenizer/tokenizer.rb +21 -0
data/lib/tokenizer/version.rb +4 -0
data/test/test_de_tokenizer_dev.rb +283 -0
data/test/test_tokenizer.rb +22 -0
data/test/test_version.rb +13 -0
metadata +109 -0

data/CHANGELOG.rdoc ADDED Viewed

@@ -0,0 +1,5 @@
+==CHANGELOG
+==COMPLETED
+===
+===0.0.1
+==PLANNED

data/LICENSE.rdoc ADDED Viewed

File without changes

data/README.rdoc ADDED Viewed

@@ -0,0 +1,11 @@
+= Tokenizer
+== DESCRIPTION
+Tokenizer is a simple tokenizer able to split easy sentences up into tokens.
+== Implemented Features
+== How to Use it
+Since the package is not completed use ruby -I bin/tokenize to start Tokenizer.
+After "God mode activated" you can type in a sentence you want to have tokenized.

data/bin/tokenize ADDED Viewed

@@ -0,0 +1,8 @@
+require 'tokenizer'
+options = :de
+t = Tokenizer::Tokenizer.new(options)
+while str = gets
+	a = t.tokenize(str)
+	puts a
+end #while

data/lib/tokenizer.rb ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ require 'tokenizer/version'
2	+ require 'tokenizer/tokenizer'

data/lib/tokenizer/tokenizer.rb ADDED Viewed

@@ -0,0 +1,21 @@
+# :main: README.rdoc
+# :title: My awesome Tokenizer!!!
+# Silly Comment
+module Tokenizer
+#Word Limit
+WL = /\s+/
+	class Tokenizer
+		def initialize (lang = :de)
+			@lang = lang
+		end #initialize
+		def tokenize(str)
+			tokens = []
+			#tokens = str.scan(/[\w']+|[\.,\?\!:;]/)
+			tokens = str.split(WL)
+			tokens
+		end #tokenize
+		puts "God mode activated"
+	end #Tokenizer
+end #Tokenizer

data/lib/tokenizer/version.rb ADDED Viewed

@@ -0,0 +1,4 @@
+module Tokenizer
+VERSION = "0.0.1"
+end

data/test/test_de_tokenizer_dev.rb ADDED Viewed

@@ -0,0 +1,283 @@
+# -*- coding: utf-8 -*-
+require 'test/unit'
+require 'tokenizer'
+class TestTokenizerDev < Test::Unit::TestCase
+  def setup
+    @de_tokenizer = Tokenizer::Tokenizer.new(:de)
+  end
+  def test_tokenization_001
+    input = 'ich ging? du, und ich nicht (konnte nicht)? Warum?!!'
+    etalon = %w{ ich ging ? du , und ich nicht ( konnte nicht ) ? Warum ? ! !}
+    compare(etalon, input)
+  end
+  def test_tokenization_002
+    input = "Die deutschen Umlaute und Sonderzeichen, wie in Mäuse, Scheiß und Tütchen, sind blöd!"
+    etalon = %w{Die deutschen Umlaute und Sonderzeichen , wie in Mäuse , Scheiß und Tütchen , sind blöd !}
+    compare(etalon, input)
+  end
+  def test_tokenization_003
+    input = "Abkürzungen, wie z.B. usw. und d.h. können zu Problemem führen."
+    etalon = %w{Abkürzungen , wie z.B. usw. und d.h. können zu Problemem führen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_004
+    input = "Es gibt mehr als 1.023.345 Menschen in Deutschland, die keine Tausenderpunkte verstehen."
+    etalon = %w{Es gibt mehr als 1.023.345 Menschen in Deutschland , die keine Tausenderpunkte verstehen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_005
+    input = "Cocktails, wie Apfel-Martini, Rum-Kirsche-Cola und andere, bereiten nicht nur Menschen Probleme."
+    etalon = %w{ Cocktails , wie Apfel-Martini , Rum-Kirsche-Cola und andere , bereiten nicht nur Menschen Probleme . }
+    compare(etalon, input)
+  end
+  def test_tokenization_006
+    input = 'Es gibt viele verschiedene Zeichen, die noch in Texten vorkommen können wie - zum Beispiel - diese hier "text" oder (text).'
+    etalon = %w{Es gibt viele verschiedene Zeichen , die noch in Texten vorkommen können wie - zum Beispiel - diese hier " text " oder ( text ) .}
+    compare(etalon, input)
+  end
+  def test_tokenization_007
+    input = "Abkürzungen sind immer ein Problem, da auch Leerzeichen dazwischen stehen können, wie z. B. hier."
+    etalon = ["Abkürzungen", "sind", "immer", "ein", "Problem", ",", "da", "auch", "Leerzeichen", "dazwischen", "stehen", "können", ",", "wie", "z. B.", "hier", "."]
+    compare(etalon, input)
+  end
+  def test_tokenization_008
+    input = "Außerdem kann es nach Abkürzungen und Satzenden auch mit Großschreibung weiter gehen, bei z.B. Aufzählungen."
+    etalon = %w{Außerdem kann es nach Abkürzungen und Satzenden auch mit Großschreibung weiter gehen , bei z.B. Aufzählungen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_009
+    input = "Ein weiteres Problem sind solche Getrennt- und Zusammenschreibungen."
+    etalon = %w{Ein weiteres Problem sind solche Getrenntschreibungen und Zusammenschreibungen .}
+    compare(etalon, input)
+  end
+  def test_tokenization_010
+    input = "In manchen Texten gibt es auch Worttrennung am Zeilen- ende."
+    etalon = %w{In manchen Texten gibt es auch Worttrennung am Zeilenende .}
+    compare(etalon, input)
+  end
+  def test_tokenization_011 #Ellipsis
+    input = "Der Satz endet in einer Ellips..."
+    etalon = %w{ Der Satz endet in einer Ellips... } #die elliptischen Punkte sollten nicht vom Wort getrennt werden
+    compare(etalon, input)
+  end
+  def test_tokenization_012 #Fehlende Leerzeichen
+    input = "Der Satz endet.Das Leerzeichen fehlt."
+    etalon = %w{ Der Satz endet . Das Leerzeichen fehlt . } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_013 #Bindestriche
+    input = "Das Bindeglied - manisch-depressives Verhalten, binden-verbinden"
+    etalon = %w{ Das Bindeglied - manisch-depressives Verhalten , binden - verbinden}
+    compare(etalon, input)
+  end
+  def test_tokenization_014 #Abkuerzungen
+    input = "Der Satz enthielt z.B. Fehler"
+    etalon = %w{ Der Satz enthielt z.B. Fehler } #/\.\s(?=[A-Z])/ wuerde hinter Punkt den Satz beenden
+    compare(etalon, input)
+  end
+  def test_tokenization_015 #Fehlende Grossbuchstaben
+    input = "Der Satz endet. der Satz beginnt"
+    etalon = %w{ Der Satz endet . der Satz beginnt } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_016 #Franzoesisch
+    input = "L'art de l'univers, c'est un art"
+    etalon = %w{ L' art de l' univers , c'est un art } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_017 #James Bond
+    input = "Bond,... James Bond."
+    etalon = %w{ Bond , ... James Bond . } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_018 #Inches
+    input = "The square had four 9\" sides"
+    etalon = %w{ The square had four 9" sides }
+    compare(etalon, input)
+  end
+  def test_tokenization_019 #Abkuerzung zugleich Lexikon-Eintrag
+    input = "In fig. 3, a fig can be seen. Fig. no. 4 shows no fig."
+    etalon = %w{ In fig. 3 , a fig can be seen . Fig. no. 4 shows no fig . } #fig sowohl als Abkuerzung als auch als Wort
+    compare(etalon, input)
+  end
+  def test_tokenization_020 #Leerzeichen-getrennte Zusammengehörigkeiten
+    input = "They booked the flight New York-Los Angeles"
+    etalon = ["They", "booked", "the", "flight", "New York", "-", "Los Angeles"] #oder mit Bindestrich verbunden
+    compare(etalon, input)
+  end
+  def test_tokenization_021 #Ordinale
+    input = "Der 1. Platz ging an den Sieger"
+    etalon = %w{ Der 1. Platz ging an den Sieger }
+    compare(etalon, input)
+  end
+  def test_tokenization_022 #Klitika
+    input = "Er war's, stimmt's?"
+    etalon = %w{ Er war es , stimmt es ? } #Kontrovers! Benoetigt komplexere Analyse
+    compare(etalon, input)
+  end
+  def test_tokenization_023 #Datums- und Zeitangaben
+    input = "Es passierte am 13. Januar 2011 um 12:13 Uhr"
+    etalon = [ "Es", "passierte", "am", "13. Januar 2011", "um", "12:13 Uhr"]
+    compare(etalon, input)
+  end
+  def test_tokenization_024 #Eingebettete Saetze
+    input = "\"This is all?\" George asked."
+    etalon = %w{ This is all ? George asked . } #kann zu ungrammatischen Saetzen fuehren
+    compare(etalon, input)
+  end
+  def test_tokenization_025 #Eingebettete Saetze 2
+    input = "\"Das ist alles?\" fragte sie."
+    etalon = %w{ Das ist alles ? fragte sie . } #ungrammatischer Satz "fragte sie."
+    compare(etalon, input)
+  end
+  def test_tokenization_026
+    input = "Die deutschen Umlaute und Sonderzeichen, wie in Mäuse, Scheiß und Tütchen, sind blöd!"
+    etalon = %w{ Die deutschen Umlaute und Sonderzeichen , wie in Mäuse , Scheiß und Tütchen , sind blöd ! }
+    compare(etalon, input)
+  end
+  def test_tokenization_027
+    input = "Abkürzungen, wie z.B. usw. und d.h. können zu Problemem führen."
+    etalon = %w{ Abkürzungen , wie z.B. usw. und d.h. können zu Problemem führen . }
+    compare(etalon, input)
+  end
+  def test_tokenization_028
+    input = "Es gibt mehr als 1.023.345 Menschen in Deutschland, die keine Tausenderpunkte verstehen."
+    etalon = %w{ Es gibt mehr als 1.023.345 Menschen in Deutschland , die keine Tausenderpunkte verstehen . }
+    compare(etalon, input)
+  end
+  def test_tokenization_029
+    input = "Cocktails, wie Apfel-Martini, Rum-Kirsche-Cola und andere, bereiten nicht nur Menschen Probleme."
+    etalon = %w{ Cocktails , wie Apfel-Martini , Rum-Kirsche-Cola und andere , bereiten nicht nur Menschen Probleme . }
+    compare(etalon, input)
+  end
+  def test_tokenization_030 #Ellipsis
+    input = "Der Satz endet in einer Ellips..."
+    etalon = %w{ Der Satz endet in einer Ellips... } #die elliptischen Punkte sollten nicht vom Wort getrennt werden
+    compare(etalon, input)
+  end
+  def test_tokenization_031 #Fehlende Leerzeichen
+    input = "Der Satz endet.Das Leerzeichen fehlt."
+    etalon = %w{ Der Satz endet . Das Leerzeichen fehlt . } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_032 #Bindestriche
+    input = "Das Bindeglied - manisch-depressives Verhalten, binden-verbinden"
+    etalon = %w{ Das Bindeglied - manisch-depressives Verhalten , binden - verbinden}
+    compare(etalon, input)
+  end
+  def test_tokenization_033 #Abkuerzungen
+    input = "Der Satz enthielt z.B. Fehler"
+    etalon = %w{ Der Satz enthielt z.B. Fehler } #/\.\s(?=[A-Z])/ wuerde hinter Punkt den Satz beenden
+    compare(etalon, input)
+  end
+  def test_tokenization_034 #Fehlende Grossbuchstaben
+    input = "Der Satz endet. der Satz beginnt"
+    etalon = %w{ Der Satz endet . der Satz beginnt } #/\.\s(?=[A-Z])/ wuerde die Saetze nicht trennen
+    compare(etalon, input)
+  end
+  def test_tokenization_035 #Franzoesisch
+    input = "L'art de l'univers, c'est un art"
+    etalon = %w{ L' art de l' univers , c'est un art } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_036 #James Bond
+    input = "Bond,... James Bond."
+    etalon = %w{ Bond , ... James Bond . } #Kontrovers!
+    compare(etalon, input)
+  end
+  def test_tokenization_037 #Inches
+    input = "The square had four 9\" sides"
+    etalon = %w{ The square had four 9" sides }
+    compare(etalon, input)
+  end
+  def test_tokenization_039 #Abkuerzung zugleich Lexikon-Eintrag
+    input = "In fig. 3, a fig can be seen. Fig. no. 4 shows no fig."
+    etalon = %w{ In fig. 3 , a fig can be seen . Fig. no. 4 shows no fig . } #fig sowohl als Abkuerzung als auch als Wort
+    compare(etalon, input)
+  end
+  def test_tokenization_040 #Leerzeichen-getrennte Zusammengehörigkeiten
+    input = "They booked the flight New York-Los Angeles"
+    etalon = ["They", "booked", "the", "flight", "New York", "-", "Los Angeles"] #oder mit Bindestrich verbunden
+    compare(etalon, input)
+  end
+  def test_tokenization_041 #Ordinale
+    input = "Der 1. Platz ging an den Sieger"
+    etalon = %w{ Der 1. Platz ging an den Sieger }
+    compare(etalon, input)
+  end
+  def test_tokenization_042 #Klitika
+    input = "Er war's, stimmt's?"
+    etalon = %w{ Er war es , stimmt es ? } #Kontrovers! Benoetigt komplexere Analyse
+    compare(etalon, input)
+  end
+  #Datums- und Zeitangaben
+  def test_tokenization_043
+    input = "Es passierte am 13. Januar 2011 um 12:13 Uhr"
+    etalon = ["Es", "passierte", "am", "13. Januar 2011", "um", "12:13 Uhr"]
+    compare(etalon, input)
+  end
+  #Eingebettete Sätze
+  def test_tokenization_044
+    input = '"This is all?" George asked.'
+    etalon = %w{ This is all ? George asked . } #kann zu ungrammatischen Saetzen fuehren
+    compare(etalon, input)
+  end
+  def test_tokenization_046 #Eingebettete Saetze 2
+    input = '"Das ist alles?" fragte sie.'
+    etalon = %w{Das ist alles ? fragte sie .} #ungrammatischer Satz "fragte sie."
+    compare(etalon, input)
+  end
+  private
+  def compare(exp_result, input)
+    act_result = @de_tokenizer.tokenize(input)
+    assert_equal(exp_result, act_result)
+  end
+end

data/test/test_tokenizer.rb ADDED Viewed

@@ -0,0 +1,22 @@
+require 'tokenizer/tokenizer'
+require 'test/unit'
+class TestTokenizer < Test::Unit::TestCase
+	def setup
+		@t = Tokenizer::Tokenizer.new
+		@result = @t.tokenize("test string")
+	end # setup
+	def test_has_method
+		assert(@t.respond_to?(:tokenize))
+	end #test_has_method
+	def test_returns_array
+		assert_instance_of(Array, @result)
+	end #test_returns_array
+	def test_returns_noempty_array
+		assert_equal(false, @result.empty?)
+	end #test_returns_noempty_array
+end #TestTokenizer

data/test/test_version.rb ADDED Viewed

@@ -0,0 +1,13 @@
+require 'tokenizer'
+require 'test/unit'
+class TestVersion < Test::Unit::TestCase
+	def test_version
+		assert(Tokenizer::VERSION.is_a?(String), "Falscher Objekttyp fuer VERSION")
+		assert_equal(false, Tokenizer::VERSION.empty?)
+	end # test_version
+	def setup
+		@t=Tokenizer::Tokenizer.new(:de)
+	end #setup
+end # TestVersion

metadata ADDED Viewed

@@ -0,0 +1,109 @@
+--- !ruby/object:Gem::Specification
+name: tokenizer_project_uni-trier_j-v
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+  prerelease:
+platform: ruby
+authors:
+- Julian Vaudroz
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2011-11-29 00:00:00.000000000Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: rdoc
+  requirement: &24644520 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: 3.9.1
+  type: :development
+  prerelease: false
+  version_requirements: *24644520
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: &24644220 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - =
+      - !ruby/object:Gem::Version
+        version: 0.8.7
+  type: :development
+  prerelease: false
+  version_requirements: *24644220
+- !ruby/object:Gem::Dependency
+  name: yard
+  requirement: &24643992 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: *24643992
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: &24643716 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: *24643716
+description: A simple multilingual tokenizer for NLP tasks. This tool provides a CLI
+  and a library for linguistic tokenization which is an anavoidable step for many
+  HLT (human language technology) tasks in the preprocessing phase for further syntactic,
+  semantic and other higher level processing goals. Use it for tokenization of German,
+  English and French texts.
+email: julian-v@online.de
+executables:
+- tokenize
+extensions: []
+extra_rdoc_files:
+- CHANGELOG.rdoc
+- README.rdoc
+- LICENSE.rdoc
+files:
+- lib/tokenizer.rb
+- lib/tokenizer/tokenizer.rb
+- lib/tokenizer/version.rb
+- README.rdoc
+- LICENSE.rdoc
+- CHANGELOG.rdoc
+- test/test_de_tokenizer_dev.rb
+- test/test_version.rb
+- test/test_tokenizer.rb
+- bin/tokenize
+homepage: ''
+licenses: []
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: 1.8.7
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project: tokenizer_project_uni-trier_j-v
+rubygems_version: 1.8.11
+signing_key:
+specification_version: 3
+summary: Tokenizer is a linguistic tool intended to split a text into tokens.
+test_files:
+- test/test_de_tokenizer_dev.rb
+- test/test_version.rb
+- test/test_tokenizer.rb