RubyGems - text_nlp - Versions diffs - 0.0.0 → 0.0.1 - Mend

text_nlp 0.0.0 → 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

data/.gitignore CHANGED Viewed

@@ -7,4 +7,5 @@ tmp/**/*
 bin/*
 vendor/gems/*
 !vendor/gems/cache/
-.sass-cache/*
+.sass-cache/*
+*.gem

data/lib/text_nlp/expressions.rb ADDED Viewed

@@ -0,0 +1,75 @@
+# encoding: UTF-8
+class TextNlp
+  class Expressions
+    attr_accessor :values
+    def initialize(expressions = [])
+      @root, @values = {}, []
+      expressions.each { |expr| self << expr }
+    end
+    def <<(expression)
+      node = @root
+      expression = expression.normalize
+      @values << expression
+      tokens = expression.tokenize
+      tokens_count = tokens.size
+      tokens.each_with_index do |token,i|
+        unless node.key?(token)
+          node[token] = {}
+          node[token][:parent] = node
+        end
+        node = node[token]
+        if (i == (tokens_count-1)) # leaf
+          node[:leaf] = 1
+        end
+      end
+    end
+    def any?(text)
+      (find(text).size > 0)
+    end
+    def expressionize(text)
+      expressions = find(text).sort { |e1,e2| e2.tokenize.size <=> e1.tokenize.size }
+      text = text.tokenize.join(',')
+      expressions.each { |expr| text.gsub!(expr.tokenize.join(','), expr) }
+      text.split(',')
+    end
+    def find(text)
+      find_expressions(0,text.normalize.tokenize.map { |t| t })
+    end
+    private
+    def find_expressions(start_index, tokens, expressions = [])
+      node, leaf, expr = @root, false, []
+      tokens[start_index..-1].each_with_index do |token,i|
+        if (node.key?(token))
+          node = node[token]
+          expr << token
+        else
+          while (expr.size > 0 && node)
+            if node.key?(:leaf)
+              expressions << expr.join(' ')
+              break
+            end
+            expr.pop
+            node = node[:parent]
+          end
+          break
+        end
+      end
+      start_index = expr.size > 0 ? (start_index + expr.size) : (start_index + 1)
+      if (start_index <= (tokens.size - 1))
+        find_expressions(start_index, tokens, expressions)
+      else
+        expressions << expr.join(' ') if (expr.size > 0 && node.key?(:leaf) )
+      end
+      expressions
+    end
+  end
+end

data/lib/text_nlp/normalizer.rb CHANGED Viewed

@@ -1,9 +1,7 @@
 # encoding: UTF-8
 class TextNlp
-  class Normalizer
-    def initialize
-    end
+  class Normalizer
     def normalize(text)
       text.downcase!
       text.tr!("éèàçîêô","eeacieo")

data/lib/text_nlp/pattern.rb ADDED Viewed

@@ -0,0 +1,123 @@
+# encoding: UTF-8
+class TextNlp
+  class Pattern
+    attr_reader :root
+    def initialize(root_or_string = nil)
+      if (root_or_string.is_a?(String))
+        @root = parse(root_or_string)
+      else
+        @root = root_or_string
+      end
+    end
+    def <<(node)
+      @root << node
+    end
+    def match?(text)
+      @root.evaluate(text)
+    end
+    private
+    def parse(expr)
+      operators = ['||','&&']
+      current_expression, node, opened, closed = '', nil, 0, 0
+      expr.chars.each_with_index do |char,i|
+        if (char == '(')
+          opened += 1
+          current_expression << char if ((opened - closed) > 1)
+        elsif (char == ')')
+          closed += 1
+          current_expression << char if ((opened - closed) > 0)
+        elsif ((opened == closed) && (operators.include?(expr[i-1..i])))
+          node = operator_node(expr[i-1..i])
+          node << parse(current_expression[0..-2])
+          node << parse(expr[i+1..-1])
+          break;
+        else
+          current_expression << char
+        end
+      end
+      unless node
+        if (current_expression.match(/\|{2}|&{2}/))
+          node = parse(current_expression)
+        else
+          node = current_expression[0..0] == '!' ? Not.new(current_expression[1..-1]) : Unary.new(current_expression)
+        end
+      end
+      node
+    end
+    def operator_node(operator)
+      node = case operator
+        when '||' then Or.new
+        when '&&' then And.new
+      end
+      node
+    end
+    class Composite
+      attr_reader :nodes
+      def initialize(*nodes)
+        @nodes = nodes || []
+      end
+      def <<(node)
+        @nodes << node
+      end
+      def values
+        @nodes.map { |node| node.values }.flatten
+      end
+    end
+    class And < Composite
+      def evaluate(expr)
+        @nodes.each do |node|
+          return false unless node.evaluate(expr)
+        end
+        return true
+      end
+    end
+    class Or < Composite
+      def evaluate(expr)
+        @nodes.each do |node|
+          return true if node.evaluate(expr)
+        end
+        return false
+      end
+    end
+    class Unary
+      attr_reader :value
+      def initialize(value)
+        @value = value
+        @expressions = Expressions.new([@value])
+      end
+      def evaluate(expr)
+        @expressions.any?(expr)
+      end
+      def values
+        [value]
+      end
+    end
+    class Not < Unary
+      def evaluate(expr)
+        !super(expr)
+      end
+      def values
+        []
+      end
+    end
+  end
+end

data/lib/text_nlp/string.rb ADDED Viewed

@@ -0,0 +1,36 @@
+# encoding: UTF-8
+class String
+  attr_accessor :normalized
+  class << self
+    attr_accessor :normalizer
+    attr_accessor :tokenizer
+  end
+  def normalize
+    unless normalized()
+      new_string = (String.normalizer || TextNlp::Normalizer.new).normalize(self)
+      new_string.normalized = true
+      return new_string
+    end
+    self
+  end
+  def tokenize
+    (String.tokenizer || TextNlp::Tokenizer.new).tokenize(self)
+  end
+  def similarity(text)
+    score = 0.0
+    tokens1 = self.normalize.tokenize
+    tokens2 = text.normalize.tokenize
+    if (tokens1.size > 0 && tokens2.size > 0)
+      intersection = tokens1 & tokens2
+      score = (((intersection.size.to_f / tokens1.size.to_f) + (intersection.size.to_f / tokens2.size.to_f)) / 2)
+    end
+    score
+  end
+end

data/lib/text_nlp/tokenizer.rb ADDED Viewed

@@ -0,0 +1,9 @@
+# encoding: UTF-8
+class TextNlp
+  class Tokenizer
+    def tokenize(text)
+      text.split(/\s+/)
+    end
+  end
+end

data/lib/text_nlp.rb CHANGED Viewed

@@ -3,6 +3,10 @@
 $:.unshift(File.dirname(__FILE__) + '/../lib')
 require "text_nlp/normalizer.rb"
+require "text_nlp/tokenizer.rb"
+require "text_nlp/string.rb"
+require "text_nlp/expressions.rb"
+require "text_nlp/pattern.rb"
 class TextNlp
 end

data/spec/expressions_spec.rb ADDED Viewed

@@ -0,0 +1,33 @@
+# encoding: utf-8
+require "spec_helper"
+describe TextNlp::Expressions do
+  it "should find the expressions" do
+    expression_values = ['nicolas sarkozy','nicolas sarkozy 1er de france','carla bruni','carla bruni sarkozy a']
+    etree = TextNlp::Expressions.new(expression_values)
+    expressions = etree.find('nicolas sarkozy 1er de italie est marie a carla bruni qui de fait est devenue carla bruni sarkozy a')
+    expressions.size.should eq 3
+    ['nicolas sarkozy','carla bruni','carla bruni sarkozy a'].each { |e| expressions.include?(e).should be_true }
+    expression_values.size.should eq etree.values.size
+    expression_values.each do |v|
+      etree.values.include?(v).should be_true
+    end
+  end
+  it "should expressionize the text" do
+    expression_values = ['nicolas sarkozy','nicolas sarkozy 1er de france','carla bruni','carla bruni sarkozy a']
+    etree = TextNlp::Expressions.new(expression_values)
+    expressions = etree.expressionize('nicolas sarkozy 1er de italie est marie a carla bruni qui de fait est devenue carla bruni sarkozy a')
+    expressions.should eq ['nicolas sarkozy','1er','de','italie','est','marie','a','carla bruni','qui','de','fait','est','devenue','carla bruni sarkozy a']
+    ['nicolas sarkozy','1er','de','italie','est','marie','a','carla bruni','qui','de','fait','est','devenue','carla bruni sarkozy a'].each { |e| expressions.include?(e).should be_true }
+  end
+  it "should returns true or false if any expression present in text" do
+    etree = TextNlp::Expressions.new(['olympique de marseille','lyon'])
+    etree.any?("l olympique de marseille").should be_true
+    etree.any?("lyon c est plus ce que c etait").should be_true
+    etree.any?("marseille pres du vieux port").should be_false
+  end
+end

data/spec/pattern_spec.rb ADDED Viewed

@@ -0,0 +1,13 @@
+# encoding: utf-8
+require "spec_helper"
+describe TextNlp::Pattern do
+  it "should match or not the pattern" do
+    TextNlp::Pattern.new("((bd)||(bande dessinée))&&!samsung").match?("cette bd est super").should be_true
+    TextNlp::Pattern.new("((bd)||(bande dessinée))&&!samsung").match?("cette bd est illisible sur samsung NTC").should be_false
+    TextNlp::Pattern.new("((bd)||(bande dessinée))&&!samsung").match?("cette bande dessinée est illisible sur samsung NTC").should be_false
+    TextNlp::Pattern.new("((bd)||(bande dessinée))&&!samsung").match?("cette bande dessinée est illisible").should be_true
+  end
+end

data/spec/string_spec.rb ADDED Viewed

@@ -0,0 +1,36 @@
+# encoding: utf-8
+require "spec_helper"
+describe String do
+  before(:each) { String.normalizer = nil; String.tokenizer = nil; }
+  it "should call normalizer" do
+    text = "TOTO"
+    normalizer = double()
+    String.normalizer = normalizer
+    normalizer.stub(:normalize) { |txt| txt.downcase }
+    normalizer.should_receive(:normalize).with(text)
+    text = text.normalize
+    text.should eq "TOTO".downcase
+    normalizer.should_not_receive(:normalize).with(text)
+    text.normalize.should eq "TOTO".downcase
+  end
+  it "should call tokenizer" do
+    text = "TOTO"
+    tokenizer = double()
+    String.tokenizer = tokenizer
+    tokenizer.should_receive(:tokenize).with(text)
+    text.tokenize
+  end
+  it "should compute similarity" do
+    "il fait chaud".similarity("il fait chaud").should eq 1.0
+    "il fait chaud".similarity("putin c nul ici").should eq 0.0
+    "il fait chaud".similarity("youhou ca le fait").should be_within(0.01).of(0.29)
+    "".similarity("il fait chaud").should eq 0.0
+    "il fait chaud".similarity("").should eq 0.0
+  end
+end

data/spec/tokenizer_spec.rb ADDED Viewed

@@ -0,0 +1,11 @@
+# encoding: utf-8
+require "spec_helper"
+describe TextNlp::Tokenizer do
+  it "should tokenize text" do
+    n = TextNlp::Tokenizer.new
+    n.tokenize("Comment q'ça    se fait ?   blabla?").should eq ["Comment","q'ça","se","fait","?","blabla?"]
+  end
+end

data/text_nlp.gemspec CHANGED Viewed

@@ -1,6 +1,6 @@
 Gem::Specification.new do |s|
   s.name          = 'text_nlp'
-  s.version       = '0.0.0'
+  s.version       = '0.0.1'
   s.date          = '2011-07-05'
   s.summary       = "A minimalist NLP library"
   s.description   = s.summary

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: text_nlp
 version: !ruby/object:Gem::Version
-  version: 0.0.0
+  version: 0.0.1
   prerelease:
 platform: ruby
 authors:
@@ -26,10 +26,17 @@ files:
 - README
 - Rakefile
 - lib/text_nlp.rb
+- lib/text_nlp/expressions.rb
 - lib/text_nlp/normalizer.rb
+- lib/text_nlp/pattern.rb
+- lib/text_nlp/string.rb
+- lib/text_nlp/tokenizer.rb
+- spec/expressions_spec.rb
 - spec/normalizer_spec.rb
+- spec/pattern_spec.rb
 - spec/spec_helper.rb
-- text_nlp-0.0.0.gem
+- spec/string_spec.rb
+- spec/tokenizer_spec.rb
 - text_nlp.gemspec
 homepage: http://github.com/fonzo14/text_nlp
 licenses: []