RubyGems - word_scoop - Versions diffs - 2.0.1 → 2.1.0 - Mend

word_scoop 2.0.1 → 2.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

checksums.yaml +7 -0
data/.gitignore +23 -0
data/Gemfile +4 -0
data/README.md +66 -0
data/Rakefile +17 -24
data/benchmark/article.txt +43 -0
data/benchmark/keywords.txt +56720 -0
data/benchmark/measure.rb +37 -0
data/ext/{extconf.rb → word_scoop/extconf.rb} +0 -0
data/ext/{word_scoop.c → word_scoop/word_scoop.c} +36 -4
data/ext/{word_scoop.h → word_scoop/word_scoop.h} +4 -1
data/lib/word_scoop/version.rb +3 -0
data/lib/word_scoop.rb +2 -3
data/spec/spec_helper.rb +2 -0
data/spec/unit/word_scoop_spec.rb +28 -0
data/word_scoop.gemspec +26 -0
metadata +99 -82
data/README.rdoc +0 -35

data/benchmark/measure.rb ADDED Viewed

@@ -0,0 +1,37 @@
+# coding: utf-8
+require 'benchmark'
+$LOAD_PATH.unshift File.expand_path('../../lib', __FILE__)
+require 'word_scoop'
+class WordScoopBenchmark
+  def initialize
+    keywords = []
+    File.open(File.expand_path("../keywords.txt", __FILE__), "r") do |f|
+      f.each do |line|
+        keywords << line.strip
+      end
+    end
+    @keywords = keywords.uniq
+    @article = File.read(File.expand_path("../article.txt", __FILE__))
+    puts "keywords size\t#{@keywords.size}"
+    puts "article size\t#{@article.size}\n\n"
+  end
+  def run
+    keywords_size = @keywords.size
+    Benchmark.bm(7, "avg") do |x|
+      tree = nil
+      regist_ms = x.report("register") { tree = WordScoop.new(@keywords) }
+      searcg_ms = x.report("search") { 1000.times{ tree.search(@article) }}
+      regist_avg = regist_ms.real * 1000 * 1000 / keywords_size
+      puts "1 word regist avg\t#{"%.03f" % regist_avg} µs"
+      puts "search avg\t\t#{"%.03f" % searcg_ms.real} ms"
+    end
+  end
+end
+WordScoopBenchmark.new.run if File.basename($PROGRAM_NAME) == File.basename(__FILE__)

data/ext/{extconf.rb → word_scoop/extconf.rb} RENAMED Viewed

File without changes

data/ext/{word_scoop.c → word_scoop/word_scoop.c} RENAMED Viewed

@@ -10,6 +10,7 @@
 #include <stdlib.h>
 #include <string.h>
 #include <ruby.h>
+#include <ruby/encoding.h>
 #include "word_scoop.h"
@@ -86,6 +87,13 @@ void destroy_node(node n)
     free(n);
 }
+// add encoding info
+static VALUE add_encode(VALUE str, rb_encoding *enc)
+{
+  rb_enc_associate(str, enc);
+  return str;
+}
 //-----------------------------------------------------------
 // Ruby Methods
 // ----------------------------------------------------------
@@ -154,8 +162,10 @@ static VALUE t_search(VALUE self, VALUE str)
     char *text;
     int i, head_i, tail_i, total_len;
     VALUE array;
+    rb_encoding *enc;
     array = rb_ary_new();
+    enc = rb_enc_get(str);
     text = StringValuePtr(str);
     Data_Get_Struct(self, struct _node, root);
@@ -180,7 +190,12 @@ static VALUE t_search(VALUE self, VALUE str)
         } else {
             if (head_i != -1) {
                 if (tail_i != -1) {
-                    rb_funcall(array, rb_intern("push"), 1, rb_str_new(&text[head_i], (tail_i - head_i + 1)));
+                    rb_funcall(
+                        array,
+                        rb_intern("push"),
+                        1,
+                        add_encode(rb_str_new(&text[head_i], (tail_i - head_i + 1)), enc)
+                    );
                     i = tail_i;
                     tail_i = -1;
                 } else {
@@ -205,8 +220,10 @@ static VALUE t_filter_hrml(VALUE self, VALUE str)
     char *text, *inner_tag;
     int i, head_i, tail_i, copy_head_i, total_len;
     VALUE change_str, url_base, word;
+    rb_encoding *enc;
     change_str = rb_str_new2(EMPTY_STRING);
+    enc = rb_enc_get(str);
     text = StringValuePtr(str);
     Data_Get_Struct(self, struct _node, root);
@@ -271,11 +288,21 @@ static VALUE t_filter_hrml(VALUE self, VALUE str)
             if (head_i != -1) {
                 if (tail_i != -1) {
                     if (copy_head_i < head_i) {
-                        rb_funcall(change_str, rb_intern("concat"), 1, rb_str_new(&text[copy_head_i], (head_i - copy_head_i)));
+                        rb_funcall(
+                            change_str,
+                            rb_intern("concat"),
+                            1,
+                            add_encode(rb_str_new(&text[copy_head_i], (head_i - copy_head_i)), enc)
+                        );
                     }
                     word = rb_str_new(&text[head_i], (tail_i - head_i + 1));
-                    rb_funcall(change_str, rb_intern("concat"), 1, rb_funcall(url_base, rb_intern("%"), 1, rb_assoc_new(word, word)));
+                    rb_funcall(
+                        change_str,
+                        rb_intern("concat"),
+                        1,
+                        add_encode(rb_funcall(url_base, rb_intern("%"), 1, rb_assoc_new(word, word)), enc)
+                    );
                     i = tail_i;
                     copy_head_i = tail_i + 1;
                     tail_i = -1;
@@ -291,7 +318,12 @@ static VALUE t_filter_hrml(VALUE self, VALUE str)
     if (copy_head_i == 0) {
         return str;
     } else {
-        rb_funcall(change_str, rb_intern("concat"), 1, rb_str_new(&text[copy_head_i], (total_len - copy_head_i)));
+        rb_funcall(
+            change_str,
+            rb_intern("concat"),
+            1,
+            add_encode(rb_str_new(&text[copy_head_i], (total_len - copy_head_i)), enc)
+        );
         return change_str;
     }
 }

data/ext/{word_scoop.h → word_scoop/word_scoop.h} RENAMED Viewed

@@ -29,7 +29,7 @@ typedef char bool;
 #define EMPTY_STRING ""
 #define LINK_URL_VARIABLE "@link_url"
-#define DEAULT_LINK_URL "<a href=\"http://www.kaeruspoon.net/keywords/%s\">%s</a>"
+#define DEAULT_LINK_URL "<a href='http://ja.wikipedia.org/wiki/%s'>%s</a>"
 // node is 1 byte character
 typedef struct _node {
@@ -57,6 +57,9 @@ node search_child_or_create(node, char);
 // free memory all child and self
 void destroy_node(node);
+// add encoding info
+static VALUE add_encode(VALUE, rb_encoding *);
 //-----------------------------------------------------------
 // Ruby Methods
 // ----------------------------------------------------------

data/lib/word_scoop/version.rb ADDED Viewed

@@ -0,0 +1,3 @@
+class WordScoop
+  VERSION = '2.1.0'
+end

data/lib/word_scoop.rb CHANGED Viewed

@@ -1,10 +1,9 @@
 $:.unshift(File.dirname(__FILE__)) unless
   $:.include?(File.dirname(__FILE__)) || $:.include?(File.expand_path(File.dirname(__FILE__)))
-require 'word_scoop.so'
-class WordScoop
-  VERSION = '2.0.0'
+require 'word_scoop/word_scoop.bundle'
+class WordScoop
   attr_accessor :link_url
 end

data/spec/spec_helper.rb ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ $LOAD_PATH.unshift File.expand_path('../../lib', __FILE__)
2	+ require 'word_scoop'

data/spec/unit/word_scoop_spec.rb ADDED Viewed

@@ -0,0 +1,28 @@
+# coding: utf-8
+require 'spec_helper'
+describe WordScoop do
+  before(:each) do
+    keywords = %w|ninja 忍者|
+    @tree = WordScoop.new(keywords)
+  end
+  context "#serch" do
+    it "pickup keywords" do
+      pickup = @tree.search("I am a ninja. 私は忍者です。Are you a ninja?")
+      expect(pickup).to eq(%w|ninja 忍者 ninja|)
+    end
+  end
+  context "#filter_html" do
+    it "add link to keywords" do
+      text = "I am a ninja. 私は忍者です。Are you a ninja?"
+      html = @tree.filter_html(text)
+      expect(html).to eq(
+        text.gsub(/ninja|忍者/) do |keyword|
+          "<a href='http://ja.wikipedia.org/wiki/#{keyword}'>#{keyword}</a>"
+        end
+      )
+    end
+  end
+end

data/word_scoop.gemspec ADDED Viewed

@@ -0,0 +1,26 @@
+# coding: utf-8
+lib = File.expand_path('../lib', __FILE__)
+$LOAD_PATH.unshift(lib) unless $LOAD_PATH.include?(lib)
+require 'word_scoop/version'
+Gem::Specification.new do |spec|
+  spec.name          = "word_scoop"
+  spec.version       = WordScoop::VERSION
+  spec.authors       = ["Tsukasa OISHI"]
+  spec.email         = ["tsukasa.oishi@gmail.com"]
+  spec.summary       = %q{WordScoop will pick up keywords that have been pre-registered from the text.}
+  spec.description   = %q{WordScoop will pick up keywords that have been pre-registered from the text.}
+  spec.homepage      = "https://github.com/tsukasaoishi/word_scoop"
+  spec.license       = "MIT"
+  spec.files         = `git ls-files -z`.split("\x0")
+  spec.executables   = spec.files.grep(%r{^bin/}) { |f| File.basename(f) }
+  spec.test_files    = spec.files.grep(%r{^(test|spec|features)/})
+  spec.require_paths = ["lib", "ext"]
+  spec.extensions    = ["ext/word_scoop/extconf.rb"]
+  spec.add_development_dependency "bundler", "~> 1.6"
+  spec.add_development_dependency "rake", '~> 10.0'
+  spec.add_development_dependency "rspec", '~> 2.14'
+  spec.add_development_dependency "rake-compiler", '~> 0.9'
+end

metadata CHANGED Viewed

@@ -1,105 +1,122 @@
---- !ruby/object:Gem::Specification
+--- !ruby/object:Gem::Specification
 name: word_scoop
-version: !ruby/object:Gem::Version
-  prerelease: false
-  segments:
-  - 2
-  - 0
-  - 1
-  version: 2.0.1
+version: !ruby/object:Gem::Version
+  version: 2.1.0
 platform: ruby
-authors:
+authors:
 - Tsukasa OISHI
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2011-01-23 00:00:00 +09:00
-default_executable:
-dependencies:
-- !ruby/object:Gem::Dependency
-  name: newgem
+date: 2014-06-20 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '10.0'
+  type: :development
   prerelease: false
-  requirement: &id001 !ruby/object:Gem::Requirement
-    none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        segments:
-        - 1
-        - 2
-        - 3
-        version: 1.2.3
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '10.0'
+- !ruby/object:Gem::Dependency
+  name: rspec
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2.14'
   type: :development
-  version_requirements: *id001
-- !ruby/object:Gem::Dependency
-  name: hoe
   prerelease: false
-  requirement: &id002 !ruby/object:Gem::Requirement
-    none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        segments:
-        - 1
-        - 8
-        - 0
-        version: 1.8.0
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2.14'
+- !ruby/object:Gem::Dependency
+  name: rake-compiler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.9'
   type: :development
-  version_requirements: *id002
-description: WordScoop is a library that searching keyword in text.
-email:
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.9'
+description: WordScoop will pick up keywords that have been pre-registered from the
+  text.
+email:
 - tsukasa.oishi@gmail.com
 executables: []
-extensions:
-- ext/extconf.rb
-extra_rdoc_files:
-- History.txt
-- Manifest.txt
-- README.rdoc
-files:
+extensions:
+- ext/word_scoop/extconf.rb
+extra_rdoc_files: []
+files:
+- ".gitignore"
+- Gemfile
 - History.txt
 - Manifest.txt
-- README.rdoc
+- README.md
 - Rakefile
+- benchmark/article.txt
+- benchmark/keywords.txt
+- benchmark/measure.rb
+- ext/word_scoop/extconf.rb
+- ext/word_scoop/word_scoop.c
+- ext/word_scoop/word_scoop.h
 - lib/word_scoop.rb
-- ext/extconf.rb
-- ext/word_scoop.c
-- ext/word_scoop.h
-has_rdoc: true
-homepage: http://www.kaeruspoon.net/
-licenses: []
+- lib/word_scoop/version.rb
+- spec/spec_helper.rb
+- spec/unit/word_scoop_spec.rb
+- word_scoop.gemspec
+homepage: https://github.com/tsukasaoishi/word_scoop
+licenses:
+- MIT
+metadata: {}
 post_install_message:
-rdoc_options:
-- --main
-- README.rdoc
-require_paths:
+rdoc_options: []
+require_paths:
 - lib
 - ext
-required_ruby_version: !ruby/object:Gem::Requirement
-  none: false
-  requirements:
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
   - - ">="
-    - !ruby/object:Gem::Version
-      segments:
-      - 0
-      version: "0"
-required_rubygems_version: !ruby/object:Gem::Requirement
-  none: false
-  requirements:
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
   - - ">="
-    - !ruby/object:Gem::Version
-      segments:
-      - 0
-      version: "0"
+    - !ruby/object:Gem::Version
+      version: '0'
 requirements: []
-rubyforge_project: word_scoop
-rubygems_version: 1.3.7
+rubyforge_project:
+rubygems_version: 2.2.2
 signing_key:
-specification_version: 2
-summary: WordScoop is a library that searching keyword in text.
-test_files: []
+specification_version: 4
+summary: WordScoop will pick up keywords that have been pre-registered from the text.
+test_files:
+- spec/spec_helper.rb
+- spec/unit/word_scoop_spec.rb

data/README.rdoc DELETED Viewed

@@ -1,35 +0,0 @@
-= WordScoop
-= Description
-WordScoop is a library that searching keyword in text.
-= How to
-== Register keywords
- keywords = WordScoop.new(["Ruby", "Rails"])
-== Add keyword
-keywords << "Tsukasa"
-== Keyword in the text is picked up
- keywords.search("I Love Ruby") #=> ["Ruby"]
-== HTML text support
-=== URL is registered
- keyword.link_url = %Q|<a href="http://ja.wikipedia.org/wiki/%s">%s</a>|
- (Default is %Q|http://www.kaeruspoon.net/keywords/%s>%s</a>|)
-=== Keyword in the text is enclosed with HTML 'a' tag
- keywords.filter_html("I Love Ruby") #=> %Q|I Love <a href="http://ja.wikipedia.org/wiki/Ruby">Ruby</a>|
-== INSTALL:
-sudo gem install word_scoop
-== LICENSE:
-WordScoop is released under the MIT license.