RubyGems - sosowa - Versions diffs - 0.2 → 0.3 - Mend

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,9 @@
+## 0.3
+* Sosowa#Logを追加。作品集単位で抽象化出来るようになりました。殆どの場合、このクラスはArrayとして振る舞います。
+* Sosowa#Log.logで絶対作品集番号を得ることが出来ます。このメソッドは最新作品集であっても0では無く実際の番号が割り振られます。
+* Sosowa#Log.next_page, Sosowa#Log.prev_pageが追加されました。前後のページを取得してSosowa#Logを返します。
+* 0.3のサンプルはtest/feature-0.3.rbで確認することが出来ます。
 ## 0.2
 * Sosowa::Novel.titleを追加。むしろどうして今まで無かった
 * Sosowa::Author, Sosowa::Commentが取得出来ないバグを修正

data/README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 # Sosowa
-創想話パーサー for Ruby 1.9.x
+創想話パーサー for Ruby 1.9.x<br>
 samples/に各種サンプルが入っています。
 ## Requirements

data/lib/sosowa/parser.rb CHANGED Viewed

@@ -8,16 +8,29 @@ module Sosowa
     def search(query, args={})
       params = Sosowa.serialize_parameter({:mode => :search, :type => (args[:type] ? args[:type] : :insubject), :query => query.tosjis})
-      parse_index(URI.join(Sosowa::BASE_URL, params))
+      parse_index(@agent.get(URI.join(Sosowa::BASE_URL, params)))
     end
     def fetch_index(log)
       params = Sosowa.serialize_parameter({:log => log})
-      parse_index(URI.join(Sosowa::BASE_URL, params))
+      page = @agent.get(URI.join(Sosowa::BASE_URL, params))
+      indexes = parse_index(page)
+      abs_log_num = parse_absolute_log_number(page)
+      Log.new(indexes, abs_log_num)
+    end
+    def parse_absolute_log_number(page)
+      li = page.search(%{ul[@id="pages"] li > *})
+      log = li.size
+      li.each do |l|
+        if l.attributes["id"] && l.attributes["id"].value == "selectedPage"
+          return log
+        end
+        log -= 1
+      end
     end
-    def parse_index(url)
-      page = @agent.get(url)
+    def parse_index(page)
       indexes = []
       tr = page.search("tr")
       tr = tr[1, tr.size-1]

data/lib/sosowa/scheme.rb CHANGED Viewed

@@ -39,18 +39,20 @@ module Sosowa
       review = header[3][1].split("/")
       comments = []
       comment_element = (@page/%{div[@class="comments"] > dl > *})
-      comment_element[1, comment_element.size-1].each_slice(2) do |element|
-        bobj = element[0].search("b").map{|n| n.inner_html.to_s.toutf8.strip}
-        point = element[0].search("span").inner_html.to_s.toutf8.to_i
-        id = element[0].inner_html.to_s.toutf8.split(/\r?\n/).map{|n| n.strip}[1].to_i
-        comment = Comment.new(
-          :id => id,
-          :point => point,
-          :name => bobj[0],
-          :created_at => Time.parse(bobj[1].gsub(/[^\/\d\s:]/, "")),
-          :text => element[1].inner_html.to_s.toutf8.strip
-        )
-        comments << comment
+      if comment_element.size > 0
+        comment_element[1, comment_element.size-1].each_slice(2) do |element|
+          bobj = element[0].search("b").map{|n| n.inner_html.to_s.toutf8.strip}
+          point = element[0].search("span").inner_html.to_s.toutf8.to_i
+          id = element[0].inner_html.to_s.toutf8.split(/\r?\n/).map{|n| n.strip}[1].to_i
+          comment = Comment.new(
+            :id => id,
+            :point => point,
+            :name => bobj[0],
+            :created_at => Time.parse(bobj[1].gsub(/[^\/\d\s:]/, "")),
+            :text => element[1].inner_html.to_s.toutf8.strip
+            )
+          comments << comment
+        end
       end
       novel = {
         :title => title,
@@ -92,11 +94,11 @@ module Sosowa
   end
   class Comment < Scheme
   end
   class Author < Scheme
   end
   class Index < Scheme
@@ -105,4 +107,26 @@ module Sosowa
     end
     alias_method :get, :fetch
   end
+  class Log < Array
+    attr_reader :log
+    def initialize(page, log=0)
+      @page = page
+      @log = log
+      super(page)
+    end
+    def next_page
+      parser = Parser.new
+      parser.fetch_index(@log-1)
+    end
+    alias_method :next, :next_page
+    def prev_page
+      parser = Parser.new
+      parser.fetch_index(@log+1)
+    end
+    alias_method :prev, :prev_page
+  end
 end

data/lib/sosowa/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Sosowa
-  VERSION = "0.2"
+  VERSION = "0.3"
 end

data/samples/chara_recognize.rb ADDED Viewed

@@ -0,0 +1,37 @@
+#!/usr/bin/env ruby
+# coding: utf-8
+# 創想話の最新版から適当なSSのテキストを取得してMeCab(+ 東方MeCab辞書)を用いてテキスト中のセリフの発言者を予測します。
+# 精度低いので誰かちゃんとしたの作ってください！
+require "mecab-modern"
+require "kconv"
+require "sosowa"
+require "pp"
+puts "東方MeCab辞書をダウンロード中..."
+system("curl -L https://github.com/oame/thdic-mecab/raw/master/pkg/thdic-mecab.dic > thdic-mecab.dic") unless FileTest.exists? "thdic-mecab.dic"
+puts "完了. MeCab::Taggerを初期化します"
+mecab = MeCab::Tagger.new#("-u thdic-mecab.dic")
+#novel = Sosowa.get.sample.fetch
+novel = Sosowa.get(:log => 170, :key => 1342037924)
+puts "-"*30
+puts novel.title
+puts "作者: #{novel.author.name}"
+puts "-"*30
+lines = novel.text.gsub(/\r?\n/, "").split("<br>").reject{|t| t == ""}.map{|n| n.strip}
+num = 0
+lines.each do |line|
+  name_nodes = mecab.parseToNode(line).select{|n| n.feature =~ /名詞,固有名詞,人名/}
+  unless name_nodes[0]
+    num += 1
+    next
+  end
+  unless lines[num+1] =~ /(「|」)/
+    num += 1
+    next
+  end
+  puts "#{name_nodes[0].surface}: #{lines[num+1]}"
+  num += 1
+end

data/samples/feature-0.3.rb ADDED Viewed

@@ -0,0 +1,17 @@
+#!/usr/bin/env ruby
+# coding: utf-8
+require "sosowa"
+# 最新版の作品集を取得
+latest = Sosowa.get
+# 最新版よりひとつ古い作品集を取得
+next_log = latest.next_page
+# 最近版から直近3ページまで遡ってSSのタイトルを列挙する
+3.times do |n|
+  Sosowa.get(:log => latest.log - n).each do |index|
+    puts index.title
+  end
+end

data/samples/tf-idf.rb CHANGED Viewed

@@ -1,42 +1,15 @@
 #!/usr/bin/env ruby
 # coding: utf-8
 # 創想話の最新版から適当なSSのテキストを取得してMeCab(+ 東方MeCab辞書)を用いて代表キーワード候補を名詞限定で選出し、TF-IDF法による特徴語抽出を行います。
-# 注意: ugigi gemが必要です
+# 注意: ugigi gemとmecab-modern gemが必要です
-require "MeCab"
+require "mecab-modern"
 require "kconv"
 require "sosowa"
 require "ugigi"
-module MeCab
-  class Tagger
-    alias_method :parseToNode_org, :parseToNode
-    private :parseToNode_org
-    def parseToNode(*args)
-      node = parseToNode_org(*args)
-      nodes = []
-      while node
-        nodes.push(node)
-        node = node.next
-      end
-      return nodes[1, nodes.size - 2]
-    end
-  end
-  class Node
-    alias_method :feature_org, :feature
-    alias_method :surface_org, :surface
-    private :feature_org
-    private :surface_org
-    def feature ; feature_org.toutf8 end
-    def surface ; surface_org.toutf8 end
-  end
-end
 puts "東方MeCab辞書をダウンロード中..."
-system("curl -L https://github.com/oame/thdic-mecab/raw/master/pkg/thdic-mecab.dic > thdic-mecab.dic")
+system("curl -L https://github.com/oame/thdic-mecab/raw/master/pkg/thdic-mecab.dic > thdic-mecab.dic") unless FileTest.exists? "thdic-mecab.dic"
 puts "完了. MeCab::Taggerを初期化します"
 mecab = MeCab::Tagger.new("-u thdic-mecab.dic")

data/samples/token_segment.rb CHANGED Viewed

@@ -1,34 +1,18 @@
 #!/usr/bin/env ruby
 # coding: utf-8
 # 創想話の最新版から適当なSSを取得してMeCab(+ 東方MeCab辞書)を用いてトークナイズします。
+# mecab-modern gemが必要です
-require "MeCab"
+require "mecab-modern"
 require "sosowa"
-module MeCab
-  class Tagger
-    alias_method :parseToNode_org, :parseToNode
-    private :parseToNode_org
-    def parseToNode(*args)
-      node = parseToNode_org(*args)
-      nodes = []
-      while node
-        nodes.push(node)
-        node = node.next
-      end
-      return nodes[1, nodes.size - 2]
-    end
-  end
-end
 puts "Fetching thdic-mecab..."
-system("curl -L https://github.com/oame/thdic-mecab/raw/master/pkg/thdic-mecab.dic > thdic-mecab.dic")
+system("curl -L https://github.com/oame/thdic-mecab/raw/master/pkg/thdic-mecab.dic > thdic-mecab.dic") unless FileTest.exists? "thdic-mecab.dic"
 puts "Done. Initialize MeCab::Tagger"
 mecab = MeCab::Tagger.new("-u thdic-mecab.dic")
-text = Sosowa.get.sample.fetch.text.gsub(/(<br>|\r?\n)/, "")
+text = Sosowa.get.sample.fetch.text.plain
 tokens = mecab.parseToNode(text)
 tokens.each do |token|
   puts token.feature

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: sosowa
 version: !ruby/object:Gem::Version
-  version: '0.2'
+  version: '0.3'
   prerelease:
 platform: ruby
 authors:
@@ -9,11 +9,11 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-07-11 00:00:00.000000000Z
+date: 2012-07-21 00:00:00.000000000Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: mechanize
-  requirement: &70146581283880 !ruby/object:Gem::Requirement
+  requirement: &70129121669320 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -21,7 +21,7 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70146581283880
+  version_requirements: *70129121669320
 description: Sosowa Parser for Ruby
 email:
 - oame@oameya.com
@@ -39,6 +39,8 @@ files:
 - lib/sosowa/parser.rb
 - lib/sosowa/scheme.rb
 - lib/sosowa/version.rb
+- samples/chara_recognize.rb
+- samples/feature-0.3.rb
 - samples/tf-idf.rb
 - samples/token_segment.rb
 - sosowa.gemspec

sosowa 0.2 → 0.3