RubyGems - baiduserp - Versions diffs - 2.1.6 → 2.1.14 - Mend

baiduserp 2.1.6 → 2.1.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: f9ab6771775f8898485a11610cbb943f18c2104f
-  data.tar.gz: dcc6a0c371330b1cc9fffcd675b5f54f185a02bf
+  metadata.gz: d5fe173a0b067ff22f37a68ab8cd4d633b556630
+  data.tar.gz: e42a0a457467435480fd7cf7e82dfbfac88b9691
 SHA512:
-  metadata.gz: 8c3589e23d461f3629dd9419d3b595f17c6cab74262bd9764f105d719dc3be39c25f9bae3ad0be55a2dd820cac68eac5fb1000dbe187f2b2b3c98cf57dc5470b
-  data.tar.gz: bb1609eaffcf0f201f52956c6883927127383d8f19ab41edbd90fe6204bebbbd3a97ef6a2ce4908ab6fea07dcaf4c0091e69c4baa41f47addc205a7dba9b3aa5
+  metadata.gz: c4d75fa5fb5429aaa2e9a0293203dd624b4724aab1a1a7e5f3b39dba74b40a9c2bcbd82ec21c6318bc8f8955fa70a7d8a17c7dfef57049ba4e8e8f8366d6ab55
+  data.tar.gz: 90f9f95d9f822d278f0c755ce0f4048b6201f089f999ebf9b3976981d504e35b3f1b09ddf5d85a698e002f56fd30f769689f0e8d56c737f58d815a31a53156ca

data/lib/baiduserp/client.rb CHANGED Viewed

@@ -11,23 +11,48 @@ module Baiduserp
     include HTTParty
     base_uri 'www.baidu.com'
     follow_redirects false
-    headers "User-Agent" => self.rand_ua
+    headers "User-Agent" => self.rand_ua, "Referer" => 'http://www.baidu.com/'
-    def self.get_serp(url, retries = 6)
+    def self.get_serp(url,retries = 3)
+      self.new.get_serp(url,retries)
+    end
+    def get_serp(url, retries = 3)
       if retries > 0
         begin
-          response = self.get(url)
-        rescue Timeout::Error => e
+          response = self.class.get(url)
+        rescue StandardError => e
           puts e.class
           puts e.message
           sleep(10)
           retry
         end
         if response.code != 200
-          sleep(rand(60)+60)
-          response = self.get_serp(url,retries - 1)
+          puts response
+          puts "Retry on URL: #{url}"
+          sleep(rand(60)+1200)
+          response = self.class.get_serp(url,retries - 1)
+        end
+        if response.nil?
+          puts "Still error after 3 tries, sleep 3600s now."
+          sleep(3600)
+          response = self.class.get_serp(url)
         end
-        return response.body
+        if response.headers['Content-Length'].to_i != response.body.bytesize
+          issue_file = "/tmp/baiduserp_crawler_issue_#{Time.now.strftime("%Y%m%d%H%M%S")}.html"
+          open(issue_file,'w').puts(response.body)
+          puts "Notice:"
+          puts "Baiduserp get an error when crawl SERP: response size (#{response.headers['Content-Length']}) not match body size."
+          puts "Please see file #{issue_file} for body content."
+          puts "Sleep 10s and retry"
+          sleep(10)
+          response = self.class.get_serp(url)
+        end
+        return response
       else
         return nil
       end

data/lib/baiduserp/helper.rb CHANGED Viewed

@@ -8,7 +8,14 @@ module Baiduserp
         noko.first.content.strip
       end
+      def parse_data_click(str)
+        JSON.parse(str
+                     .gsub("'",'"')
+                     .gsub(/({|,)([a-zA-Z0-9_]+):/, '\1"\2":')
+                     #.gsub(/'*([a-zA-Z0-9_]+)'*:/, '"\1":')
+                     #.gsub(/:'([^(',\")]*)'(,|})/,':"\1"\2')
+                   )
+      end
     end
   end
 end

data/lib/baiduserp/parser.rb CHANGED Viewed

@@ -1,6 +1,7 @@
 # -*- coding: utf-8 -*-
 require 'nokogiri'
 require 'uri'
+require 'json'
 require 'baiduserp/client'
 require 'baiduserp/helper'
 require 'baiduserp/result'
@@ -47,15 +48,16 @@ module Baiduserp
     def get_search_html(keyword,page=1)
       keyword = keyword.gsub(" ","+")
       page = page.to_i > 1 ? "&pn=#{page.to_i-1}0" : ""
-      serp_url = URI.escape("http://www.baidu.com/s?wd=#{keyword}#{page}&ie=utf-8")
-      Client.get_serp(serp_url)
+      serp_url = URI.escape("http://www.baidu.com/s?wd=#{keyword}#{page}&rsv_bp=0&ch=&tn=baidu&bar=&rsv_spt=3&ie=utf-8&rsv_sug3=2&rsv_sug=0&rsv_sug1=2&rsv_sug4=24&inputT=#{1000+rand(1000)}")
+      # serp_url = URI.escape("http://www.baidu.com/s?wd=#{keyword}#{page}&ie=utf-8")
+      Client.get_serp(serp_url).body
     end
     def parse_file(file_path)
       if File.exists? file_path
         html = open(file_path).read
       else
-        html = Client.get_serp(file_path)
+        html = Client.get_serp(file_path).body
       end
       parse html
     end

data/lib/baiduserp/result.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+require 'domainatrix'
 module Baiduserp
   class Result < Hash
     def seo_urls
@@ -9,19 +11,23 @@ module Baiduserp
       self[:ranks].each do |rank|
         url = rank[:url].to_s
         next if url.empty?
-        result << URI(URI.escape(rank[:url])).host.downcase
+        result << Addressable::URI.parse(rank[:url]).host
       end
       result
     end
-    def sem_sites
+    def sem_urls
       result = []
       (self[:ads_top] + self[:ads_right]).each do |ad|
         site = ad[:site].to_s
         next if site.empty?
-        result << ad[:site].downcase
+        result << ad[:site]
       end
       result
     end
+    def sem_sites
+      sem_urls
+    end
   end
 end

data/lib/baiduserp/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Baiduserp
-  VERSION = "2.1.6"
+  VERSION = "2.1.14"
 end

data/lib/parsers/con_ar.rb ADDED Viewed

@@ -0,0 +1,14 @@
+class Baiduserp::Parser
+  def _parse_con_ar(file)
+    result = []
+    divs = file[:doc].search("div#content_right div#con-ar").first
+    return [] if divs.nil?
+    divs.children.each do |div|
+      next unless div['class'].to_s.include?('result-op')
+      result << {:tpl => div['tpl'],
+        :data_click => Baiduserp::Helper.parse_data_click(div['data-click'])
+      }
+    end
+    result
+  end
+end

data/lib/parsers/zhixin.rb CHANGED Viewed

@@ -6,7 +6,9 @@ class Baiduserp::Parser
         :srcid => zxl['srcid'],
         :fk => zxl['fk'],
         :tpl => zxl['tpl'],
-        :mu => zxl['mu'] }
+        :mu => zxl['mu'],
+        :data_click => Baiduserp::Helper.parse_data_click(zxl['data-click'])
+      }
     end
     result
   end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: baiduserp
 version: !ruby/object:Gem::Version
-  version: 2.1.6
+  version: 2.1.14
 platform: ruby
 authors:
 - MingQian Zhang
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-11-07 00:00:00.000000000 Z
+date: 2013-11-28 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -38,6 +38,20 @@ dependencies:
     - - '>='
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: domainatrix
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
 description: Parse Baidu SERP result page.
 email:
 - zmingqian@qq.com
@@ -54,6 +68,7 @@ files:
 - lib/baiduserp.rb
 - lib/parsers/ads_right.rb
 - lib/parsers/ads_top.rb
+- lib/parsers/con_ar.rb
 - lib/parsers/pinpaizhuanqu.rb
 - lib/parsers/ranks.rb
 - lib/parsers/related_keywords.rb