RubyGems - morfologik - Versions diffs - 0.0.3 - Mend

morfologik 0.0.3

Files changed (5) hide show

data/lib/morfologik.rb +106 -0
data/lib/morfologik/jar/morfologik-tools-1.5.2-standalone.jar +0 -0
data/lib/morfologik/output_parser.rb +61 -0
data/lib/morfologik/tagset_parser.rb +123 -0
metadata +50 -0

data/lib/morfologik.rb ADDED Viewed

@@ -0,0 +1,106 @@
+#encoding:utf-8
+require 'pathname'
+require 'open3'
+require 'awesome_print'
+require 'morfologik/output_parser'
+class Morfologik
+  attr_reader :jar
+  def initialize(options={})
+    @jar = options[:jar] || default_jar
+    raise LoadError, "Morfologik .jar file not found" unless jar_file_exists?
+    @output_parser = OutputParser.new
+    @ie = options[:input_encoding] || 'UTF-8'
+    @oe = options[:output_encoding] || 'UTF-8'
+  end
+  # Stems words giving their stems, categories and tags.
+  #
+  # @param [String, Array<String>] words words to stem
+  # @return [Hash] analysis for each recognized word
+  # @example
+  #   Morfologik.new.stem("ma")
+  #   # => {
+  #     "ma" => [
+  #      {
+  #            :stem => "mieć",
+  #        :category => "verb",
+  #          :values => [
+  #            { "tense" => "fin", "number" => "sg", "person" => "ter", "aspect" => "imperf" }
+  #          ]
+  #      },
+  #      {
+  #            :stem => "mój",
+  #        :category => "adj",
+  #          :values => [
+  #            { "number" => "sg", "case" => "nom", "gender" => "f", "degree" => "pos" },
+  #            { "number" => "sg", "case" => "voc", "gender" => "f", "degree" => "pos" }
+  #          ]
+  #      }
+  #   }
+  def stem(words)
+    output = run_jar(words.kind_of?(String) ? words.split : words)
+    @output_parser.parse(output)
+  end
+  alias_method :lemmatize, :stem
+  # Stems words giving only their stems.
+  #
+  # @param (see #stem)
+  # @return [Hash] stems for each recognized word
+  # @example
+  #   # => { "ma" => [ "mieć", "mój" ] }
+  def stem_simple(words)
+    output = run_jar(words.kind_of?(String) ? words.split : words)
+    @output_parser.parse_stems_only(output)
+  end
+  alias_method :lemmatize_simple, :stem_simple
+  def categories(words)
+    output = run_jar(words.kind_of?(String) ? words.split : words)
+    @output_parser.parse_categories_only(output)
+  end
+  # Checks if given words have at least one common stem. Returns nil if analysis fail.
+  #
+  # @param [String] *words words to check
+  # @return [true, false, nil]
+  def equal_stems?(*words)
+    return nil if words.uniq.size < 2
+    stems = @output_parser.parse_stems_only(run_jar(words))
+    return nil unless words.uniq.size == stems.keys.size
+    not stems.values.inject(&:&).empty?
+  end
+  private
+  def run_jar(words)
+    cmd = "echo '#{words.uniq.join(' ')}' | java -jar #{@jar} plstem -ie #{@ie} -oe #{@oe}"
+    result = []
+    Open3.popen3(cmd) do |i, o, e, t|
+      o.each_line { |line| result << line unless line.start_with?('Processed') }
+    end
+    return result
+  end
+  def jar_file_exists?
+    File.exists?(@jar) and File.extname(@jar) == '.jar'
+  end
+  def default_jar
+    path = File.dirname(__FILE__) + '/morfologik/jar/morfologik-tools-1.5.2-standalone.jar'
+    Pathname.new(path).realpath.cleanpath.to_s
+  end
+end

data/lib/morfologik/jar/morfologik-tools-1.5.2-standalone.jar ADDED Viewed

Binary file

data/lib/morfologik/output_parser.rb ADDED Viewed

@@ -0,0 +1,61 @@
+require 'morfologik/tagset_parser'
+class Morfologik
+  class OutputParser
+    def initialize
+      @tagset_parser = TagsetParser.new
+    end
+    def parse(output)
+      output.inject({}) do |result, line|
+        word, stem, desc = line.split
+        if stem_found?(stem)
+          desc.split('+').each do |tags|
+            category, values = @tagset_parser.parse(tags)
+            morf = { :stem => stem, :category => category, :values => values }
+            result.has_key?(word) ? result[word] << morf : result[word] = [morf]
+          end
+        end
+        result
+      end
+    end
+    def parse_stems_only(output)
+      output.inject({}) do |result, line|
+        word, stem = line.split[0..1]
+        if stem_found?(stem)
+          result.has_key?(word) ? result[word] << stem : result[word] = [stem]
+          result[word].uniq!
+        end
+        result
+      end
+    end
+    def parse_categories_only(output)
+      output.inject({}) do |result, line|
+        word, stem, tags = line.split
+        if stem_found?(stem)
+          category = tags.split(':').first
+          result.has_key?(word) ? result[word] << category : result[word] = [category]
+          result[word].uniq!
+        end
+        result
+      end
+    end
+    private
+    def stem_found?(stem)
+      stem != '-'
+    end
+  end
+end

data/lib/morfologik/tagset_parser.rb ADDED Viewed

@@ -0,0 +1,123 @@
+class Morfologik
+  class TagsetParser
+    TAGS = {
+      "adj" => "pos",
+      "adja" => "pos",
+      "adjp" => "pos",
+      "adv" => "pos",
+      "num" => "pos",
+      "ppron12" => "pos",
+      "ppron3" => "pos",
+      "pred" => "pos",
+      "prep" => "pos",
+      "siebie" => "pos",
+      "subst" => "pos",
+      "verb" => "pos",
+      "conj" => "pos",
+      "qub" => "pos",
+      "burk" => "pos",    # bound word
+      "interj" => "pos",  # interjection
+      "interp" => "pos",  # interpunction
+      "xxx" => "pos",     # alien
+      "brev" => "pos",    # abbreviation
+      "nie" => "pos",
+      "ign" => "pos",
+      "sg" => "number",
+      "pl" => "number",
+      "pltant" => "number",
+      "nom" => "case",
+      "gen" => "case",
+      "acc" => "case",
+      "dat" => "case",
+      "inst" => "case",
+      "loc" => "case",
+      "voc" => "case",
+      "pos" => "degree",
+      "comp" => "degree",
+      "sup" => "degree",
+      "m" => "gender",
+      "m1" => "gender",
+      "m2" => "gender",
+      "m3" => "gender",
+      "m4" => "gender",
+      "n" => "gender",
+      "f" => "gender",
+      "n1" => "gender",
+      "n2" => "gender",
+      "p1" => "gender",
+      "p2" => "gender",
+      "p3" => "gender",
+      "pri" => "person",
+      "sec" => "person",
+      "ter" => "person",
+      "depr" => "depreciativity",
+      "winien" => "winien",
+      "aff" => "negation",
+      "neg" => "negation",
+      "perf" => "aspect",
+      "imperf" => "aspect",
+      "?perf" => "aspect",
+      "nakc" => "accentability",
+      "akc" => "accentability",
+      "praep" => "post-prepositionality",
+      "npraep" => "post-prepositionality",
+      "ger" => "tense",
+      "imps" => "tense",
+      "inf" => "tense",
+      "fin" => "tense",
+      "bedzie" => "tense",
+      "praet" => "tense",
+      "refl" => "tense",
+      "pact" => "tense",
+      "pant" => "tense",
+      "pcon" => "tense",
+      "ppas" => "tense",
+      "impt" => "mode",
+      "pot" => "mode",
+      "indecl" => "uninflected",
+      "irreg" => "irregularity",
+      "pun" => "fullstoppedness",
+      "npun" => "fullstoppedness",
+      "wok" => "vocalicity",
+      "nwok" => "vocalicity",
+      "agl" => "agglutination",
+      "nagl" => "agglutination",
+      "_" => "unknown",
+      "congr" => "unknown",
+      "rec" => "unknown"
+    }
+    def parse(raw_tags)
+      tags = raw_tags.split(':')
+      category = find_part_of_speech(tags)
+      values = split_tags(tags)
+      return category, values
+    end
+    private
+    def find_part_of_speech(tags)
+      tags.shift
+    end
+    def split_tags(tags)
+      atom_tags = tags.map { |t| t.split('.') }
+      all = atom_tags.inject(1) { |c,t| c * t.size }
+      atom_tags.each_with_index do |tags, i|
+        atom_tags[i] += tags while atom_tags[i].size < all
+      end
+      result = []
+      all.times do |i|
+       result << atom_tags.map { |t| t[i] }.inject({}) { |hsh, t| hsh[TAGS[t]] = t; hsh }
+      end
+      return result
+    end
+  end
+end

metadata ADDED Viewed

@@ -0,0 +1,50 @@
+--- !ruby/object:Gem::Specification
+name: morfologik
+version: !ruby/object:Gem::Version
+  version: 0.0.3
+  prerelease:
+platform: ruby
+authors:
+- snukky
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2012-09-22 00:00:00.000000000 Z
+dependencies: []
+description: Ruby MRI bindings for morfologik-stemming library (Polish morphological
+  analyzer)  written in Java.
+email:
+- snk987@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- lib/morfologik.rb
+- lib/morfologik/output_parser.rb
+- lib/morfologik/tagset_parser.rb
+- lib/morfologik/jar/morfologik-tools-1.5.2-standalone.jar
+homepage: http://github.com/snukky/morfologik
+licenses: []
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 1.8.10
+signing_key:
+specification_version: 3
+summary: Ruby bindings for Morfologik.
+test_files: []