RubyGems - roro_crawler - Versions diffs - 0.0.3 → 0.0.4 - Mend

roro_crawler 0.0.3 → 0.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

checksums.yaml +4 -4
data/Rakefile +6 -1
data/lib/roro_crawler.rb +6 -4
data/lib/roro_crawler/base.rb +40 -0
data/lib/roro_crawler/methods.rb +18 -0
data/lib/roro_crawler/version.rb +2 -2
data/spec/roro_crawler/base_spec.rb +68 -0
data/spec/roro_crawler_spec.rb +1 -0
data/spec/spec_helper.rb +14 -10
metadata +65 -10
data/lib/roro_crawler/crawler_class.rb +0 -98
data/lib/roro_crawler/crawler_handler.rb +0 -13
data/lib/tasks/crawler_tasks.rake +0 -4
data/spec/crawler_class_spec.rb +0 -23
data/spec/crawler_handler_spec.rb +0 -21

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: c624947b38a0356ad347fe2305b5ca5b42b26a80
-  data.tar.gz: 17658d2929d346b2302448288876d48587ac88c9
+  metadata.gz: 9d5915884d8cf5013726ac53c6373dab6061f984
+  data.tar.gz: a83f6c9f6f7019b7d58a08588e63989b1fbf6ca9
 SHA512:
-  metadata.gz: 016a1722e2afbf2726515d71f7f1b4b26288ee3dc6b4035c7313ea49c129f9040c240754c0d69befa54793b1e7475b7ad61fac0d875c5db3be964338e6a7a4d6
-  data.tar.gz: eb792990a4f3f2935356771aef37cbadfdb066660fba4a5fbf0ee82ae3718b125bf7183cdaf37efa759cb56152c3bc59715659459146e806670610c81a5aba89
+  metadata.gz: b3b91e75d2b5cf527ec7c2bdd7d783ece4002fbf6374403dbe4eeeed551d12488ee7487b044602b585e71cf3f954a8a6702df5d5fd22fc4af08c8dbddae9b03e
+  data.tar.gz: a84a083837e112f18403a43e60b162b2430d2cb326614a2cee2578bb2d8849905dd386abc7348ff91797dfb052987f12b99a8d0a6d7c44c77c174dc196602279

data/Rakefile CHANGED

@@ -16,7 +16,6 @@ end
 Bundler::GemHelper.install_tasks
 require 'rake/testtask'
@@ -30,3 +29,9 @@ end
 task default: :test
+require 'rspec/core/rake_task'
+RSpec::Core::RakeTask.new
+task default: :spec

data/lib/roro_crawler.rb CHANGED

@@ -1,5 +1,7 @@
 # require all files in dir name is same with __FILE_-
-dirname = __FILE__.split('/').last.gsub(/\.rb/, '')
-Dir[File.expand_path("../#{dirname}/*", __FILE__)].each do |file|
-  require file
-end
+require 'roro_support'
+require 'headless'
+$LOAD_PATH.unshift File.expand_path('../roro_crawler', __FILE__)
+require 'methods'
+require 'base'

data/lib/roro_crawler/base.rb ADDED

@@ -0,0 +1,40 @@
+module RoRoCrawler
+  class Base
+    include RoRoSupport::Crawler
+    def spider(url, auchor_selector, intr_selector)
+      @url = url
+      @home_url = get_home_url(url)
+      @auchor_selector = auchor_selector
+      @intr_selector = intr_selector
+      get_link_titles
+      get_intrs
+      browser_close
+    end
+    def get_link_titles
+      @link_titles = get_tags_attrs_from(@url, @auchor_selector, 'href', 'text')
+    end
+    def get_intrs
+      raise "#{@link_titles} is nil" if @link_titles.nil?
+      @link_title_intrs = @link_titles.dup
+      @link_title_intrs.each do |link_content|
+        if link_content[0][/http/]
+          link = link_content[0]
+        else
+          link = "#{@home_url}#{link_content[0]}"
+        end
+        link_content << intr = get_tags_attrs_from(link, @intr_selector, 'text')
+        raise "crawler find multi intrs according #{@intr_selector}, please make @intr_selector more exactly, error intr is #{intr}" unless intr.is_a? String
+       link_content
+      end
+    end
+    def handler(&blk)
+      handle @link_title_intrs, &blk
+    end
+  end
+end

data/lib/roro_crawler/methods.rb ADDED

@@ -0,0 +1,18 @@
+#require 'nokogiri'
+#module RoRoCrawler
+#  module Methods
+#    include ::RoRoSupport::Crawler
+#    def get_intr_from(html)
+#      doc = Nokogiri::HTML.parse html
+#      doc.css('.jobIntro, .j_i')
+#      .gsub(/(本站提醒:如何识别虚假招聘信息？求职必看，切勿受骗上当！)|(如何写一份简单、直接、高效的求职信？)/, '')
+#    end
+#
+#    def get_links_contents_from(url, selector)
+#      as = @browser.css @link_selector
+#      unless as.nil?
+#        @offers = as.collect('text', 'href')
+#      end
+#    end
+#  end
+#end

data/lib/roro_crawler/version.rb CHANGED

@@ -1,3 +1,3 @@
-module Crawler
-  VERSION = "0.0.3"
+module RoRoCrawler
+  VERSION = "0.0.4"
 end

data/spec/roro_crawler/base_spec.rb ADDED

@@ -0,0 +1,68 @@
+require 'spec_helper'
+describe ::RoRoCrawler::Base do
+  before do
+    #Headless.new.start
+  end
+  it 'spider yjs' do
+    url = 'http://s.yingjiesheng.com/result.jsp?keyword=%E5%89%8D%E7%AB%AF%E5%AE%9E%E4%B9%A0&city=0&jobtype=0&do=1&stype=0'
+    expect(
+        ::RoRoCrawler::Base.new.spider(url, 'h3.title>a', '.job, .j_i')
+    ).not_to raise_error
+  end
+  describe 'spider v2ex' do
+    before do
+      @v2ex_spider = Base.new
+    end
+    it 'case1' do
+      url = 'http://www.v2ex.com/go/jobs?p=1'
+      expect(
+          ::RoRoCrawler::Base.new.spider(url, 'span.item_title>a', '.topic_content')
+      ).not_to raise_error
+    end
+    it 'case2' do
+      @v2ex_spider.instance_variable_set(:@link_titles, [
+          ["/t/79990#reply63", "[北京/杭州] 阿里巴巴2014校园招聘优秀人才内部同事推荐计划"]
+      ])
+      @v2ex_spider.instance_variable_set(:@home_url, "http://www.v2ex.com")
+      @v2ex_spider.instance_variable_set(:@intr_selector, ".cell>.topic_content")
+      @v2ex_spider.get_intrs
+    end
+  end
+  it 'spider ruby-china' do
+    url = 'http://ruby-china.org/topics/node25'
+    expect(
+        ::RoRoCrawler::Base.new.spider(url, '.title>a', '.entry_content')
+    ).not_to raise_error
+  end
+  it 'spider ruby-china intr not nil' do
+    expect(
+        get_tags_attrs_from('http://ruby-china.org/topics/13700', '.body.entry-content', 'inner_html')
+    ).not_to be_empty
+  end
+  it 'handler' do
+    ::RoRoCrawler::Base.class_eval do
+      def handler(&blk)
+        results = [
+            [1, 2, 3],
+            [4, 5, 6],
+            [7, 8, 9]
+        ]
+        handle results, &blk
+      end
+    end
+    ::RoRoCrawler::Base.new.handler do |a, b, c|
+      expect(a.to_s).to match /^\d$/
+      expect(b.to_s).to match /^\d$/
+      expect(c.to_s).to match /^\d$/
+    end
+  end
+end

data/spec/roro_crawler_spec.rb ADDED

	@@ -0,0 +1 @@
1	+ require 'spec_helper'

data/spec/spec_helper.rb CHANGED

@@ -1,13 +1,17 @@
-# This file was generated by the `rspec --init` command. Conventionally, all
-# specs live under a `spec` directory, which RSpec adds to the `$LOAD_PATH`.
-# Require this file using `require "spec_helper"` to ensure that it is only
-# loaded once.
-#
-# See http://rubydoc.info/gems/rspec-core/RSpec/Core/Configuration
+$LOAD_PATH.unshift File.expand_path('../../lib', __FILE__)
 Bundler.require
-require 'active_support'
-require File.expand_path('../../lib/roro_crawler', __FILE__)
+require 'roro_support'
+require 'roro_crawler'
+include ::RoRoSupport::Crawler
+include ::RoRoCrawler
 RSpec.configure do |config|
-  config.before :all do
-  end
+  config.treat_symbols_as_metadata_keys_with_true_values = true
+  config.run_all_when_everything_filtered = true
+  config.filter_run :focus
+  # Run specs in random order to surface order dependencies. If you find an
+  # order dependency and want to debug it, you can fix the order by providing
+  # the seed, which is printed after each run.
+  #     --seed 1234
+  config.order = 'random'
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: roro_crawler
 version: !ruby/object:Gem::Version
-  version: 0.0.3
+  version: 0.0.4
 platform: ruby
 authors:
 - roro
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-08-25 00:00:00.000000000 Z
+date: 2013-09-06 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rails
@@ -24,26 +24,81 @@ dependencies:
     - - ~>
       - !ruby/object:Gem::Version
         version: 4.0.0
+- !ruby/object:Gem::Dependency
+  name: watir-rails
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: headless
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: grit
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
 description: ''
 email:
-- roro@gmail.com
+- zhuxingruo3@gmail.com
 executables: []
 extensions: []
 extra_rdoc_files: []
 files:
-- lib/roro_crawler/crawler_handler.rb
 - lib/roro_crawler/version.rb
-- lib/roro_crawler/crawler_class.rb
+- lib/roro_crawler/base.rb
+- lib/roro_crawler/methods.rb
 - lib/roro_crawler.rb
-- lib/tasks/crawler_tasks.rake
 - MIT-LICENSE
 - Rakefile
 - README.rdoc
 - spec/fixtures/intr.html
 - spec/fixtures/list.html
 - spec/spec_helper.rb
-- spec/crawler_handler_spec.rb
-- spec/crawler_class_spec.rb
+- spec/roro_crawler/base_spec.rb
+- spec/roro_crawler_spec.rb
 homepage: ''
 licenses: []
 metadata: {}
@@ -71,5 +126,5 @@ test_files:
 - spec/fixtures/intr.html
 - spec/fixtures/list.html
 - spec/spec_helper.rb
-- spec/crawler_handler_spec.rb
-- spec/crawler_class_spec.rb
+- spec/roro_crawler/base_spec.rb
+- spec/roro_crawler_spec.rb

data/lib/roro_crawler/crawler_class.rb DELETED

@@ -1,98 +0,0 @@
-require 'roro_support'
-require 'active_support'
-require File.expand_path('../crawler_handler', __FILE__)
-include Crawler
-module Crawler
-  class Klass
-    attr_accessor :offers, :browser, :link, :title, :intr, :page
-    def initialize(options={})
-      @visible = options[:visible]
-      @link_selector = 'h3.title>a'
-      @offers = Hash.new
-      @page = 0
-      if @visible
-        @browser = crawler visible: @visible
-      else
-        @browser = crawler
-      end
-    end
-    def goto_next
-      @page += 1
-      @browser.goto "http://s.yingjiesheng.com/result.jsp?keyword=web&start=#{@page*10}&period=0&sort=score&jobtype=0"
-    end
-    def site(keyword, page_num, options={})
-      if url.nil?
-        p <<-MSG
-        please add
-def site
-  url = 'http://website.com'
-  super
-end
-        MSG
-      end
-      @browser.goto url
-      page_num.to_i.times do
-        links
-        link_contents
-        "http://s.yingjiesheng.com/result.jsp?keyword=web&start=#{@page*10}&period=0&sort=score&jobtype=0"
-        goto_next
-      end
-      @browser.close
-    end
-    def close
-      @browser.close
-    end
-    def links
-      as = @browser.css @link_selector
-      unless as.nil?
-        @offers = as.
-collect('text', 'href')
-      end
-    end
-    def link_contents
-      @offers.each do |title, link|
-        if title && link
-          @title = title
-          @link = link
-          @intr = msg link
-          safe_save
-        end
-      end
-    end
-    def safe_save
-      msg = <<-MSG
-      title: #{@title}
-      link: #{@link}
-      MSG
-      Rails.logger.info msg
-      p @intr
-      return if @intr.nil?
-      Offer.create(link: @link, title: @title, intr: @intr, from: 'yjs')
-    end
-    def msg(href)
-      if href[/http\:\/\/www\.yingjiesheng\.com\/job\-\w+/]
-        @browser.goto href
-        return Handler.get_intr_from(@browser.html)
-      end
-    end
-  end
-end

data/lib/roro_crawler/crawler_handler.rb DELETED

@@ -1,13 +0,0 @@
-require 'nokogiri'
-module Crawler
-  module Handler
-    class << self
-      def get_intr_from(html)
-        doc = Nokogiri::HTML.parse html
-        doc.css('.jobIntro, .j_i')
-        .text
-        .gsub(/(本站提醒:如何识别虚假招聘信息？求职必看，切勿受骗上当！)|(如何写一份简单、直接、高效的求职信？)/, '')
-      end
-    end
-  end
-end

data/lib/tasks/crawler_tasks.rake DELETED

@@ -1,4 +0,0 @@
-# desc "Explaining what the task does"
-# task :roro_crawler do
-#   # Task goes here
-# end

data/spec/crawler_class_spec.rb DELETED

@@ -1,23 +0,0 @@
-require 'spec_helper'
-require 'roro_support'
-describe 'Crawler' do
-  before do
-  end
-  after do
-    if @c.browser
-    end
-  end
-  describe "links" do
-    before do
-    end
-    it 'links can get links correctly' do
-    end
-  end
-end

data/spec/crawler_handler_spec.rb DELETED

@@ -1,21 +0,0 @@
-require 'spec_helper'
-include Crawler
-describe "Handler" do
-  describe 'get_intr_from' do
-    before :all do
-      @pass = lambda do
-        content = File.read(@fixtures[:intr])
-        intr = Handler::get_intr_from content
-        print intr
-        expect(intr.length).to be < 1000
-        expect(intr).not_to include "本站提醒:如何识别虚假招聘信息？求职必看，切勿受骗上当！"
-        expect(intr).not_to include "如何写一份简单、直接、高效的求职信？"
-      end
-    end
-    it 'pass spec1' do
-      @pass.call
-    end
-  end
-end