RubyGems - scrape - Versions diffs - 0.2.4 → 0.3.0 - Mend

scrape 0.2.4 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

data/Gemfile.lock +8 -1
data/README.md +2 -0
data/lib/scrape.rb +24 -4
data/lib/scrape/application.rb +13 -17
data/lib/scrape/core_ext/array.rb +1 -1
data/lib/scrape/core_ext/string.rb +1 -1
data/lib/scrape/dsl.rb +5 -0
data/lib/scrape/robots_txt.rb +3 -1
data/lib/scrape/site.rb +18 -1
data/lib/scrape/version.rb +1 -1
data/scrape.gemspec +2 -0
data/test/test_helper.rb +3 -0
data/test/unit/application_test.rb +13 -17
data/test/unit/dsl_test.rb +7 -0
data/test/unit/scrape_test.rb +21 -8
data/test/unit/site_test.rb +10 -1
metadata +34 -2

data/Gemfile.lock CHANGED

@@ -1,13 +1,18 @@
 PATH
   remote: .
   specs:
-    scrape (0.2.4)
+    scrape (0.3.0)
 GEM
   remote: http://rubygems.org/
   specs:
     addressable (2.2.8)
     crack (0.3.1)
+    faraday (0.8.1)
+      multipart-post (~> 1.1)
+    faraday_middleware (0.8.8)
+      faraday (>= 0.7.4, < 0.9)
+    multipart-post (1.1.5)
     nokogiri (1.5.5)
     webmock (1.8.7)
       addressable (>= 2.2.7)
@@ -18,6 +23,8 @@ PLATFORMS
 DEPENDENCIES
   addressable (~> 2.2.8)
+  faraday (~> 0.8.0)
+  faraday_middleware (~> 0.8.8)
   nokogiri (~> 1.5.5)
   scrape!
   webmock (~> 1.8.7)

data/README.md CHANGED

@@ -13,6 +13,8 @@ end
 site "http://www.tumblr.com" # Can define multiple sites
+queue "http://www.tumblr.com/tagged" # Add specified urls to scrape
 match "/tagged" do |doc|
   # Do what ever we want with the document.
 end

data/lib/scrape.rb CHANGED

@@ -1,6 +1,8 @@
 require "rubygems"
 require "logger"
-require "open-uri"
+require "addressable/uri"
+require "faraday"
+require "faraday_middleware"
 $: << File.dirname(__FILE__)
@@ -18,6 +20,7 @@ module Scrape
   autoload 'RobotsTxtRules', 'scrape/robots_txt_rules'
   class FileNotFound < Exception; end
+  class HTTPError < StandardError; end
   class << self
     attr_writer :user_agent
@@ -38,9 +41,26 @@ module Scrape
       Application.new path
     end
-    def open url, headers = {}, &block
-      headers = {"User-Agent" => user_agent}.merge(headers)
-      super(url, headers, &block).read
+    def open url, headers = nil, &block
+      url = Addressable::URI.parse url
+      headers ||= {}
+      conn = Faraday.new :url => url.to_s do |faraday|
+        faraday.response :follow_redirects, :cookies => :all, :limit => 3
+        faraday.adapter Faraday.default_adapter
+      end
+      conn.headers[:user_agent] = user_agent
+      res = conn.get url.request_uri do |req|
+        headers.each{|key, val| req[key] = val }
+      end
+      if res.success?
+        res.body
+      else
+        raise HTTPError, res.status
+      end
     end
   end
 end

data/lib/scrape/application.rb CHANGED

@@ -3,38 +3,35 @@ class Scrape::Application
   def initialize scrapefile, options = {}, loader = Scrape::DefaultLoader
     @scrapefile = File.expand_path scrapefile
-    @options = options
+    @options = options.dup
     @loader = loader.class == Class ? loader.new(self) : loader
     @sites = {}
-    @queue = []
-    @history = []
+    reset
   end
   def run
     load_scrapefile
+    @queue = sites.values.map{|site| site.to_s } if @queue.empty?
     while url = @queue.shift
       @history << url
-      begin
-        if site = self[url]
-          if urls = site.parse(url)
-            enqueue *urls
-            Scrape.logger.info "Parsed #{url}, found #{urls.length} urls."
-          else
-            Scrape.logger.info "Parsed #{url}."
-          end
+      if site = self[url]
+        if urls = site.parse(url)
+          enqueue *urls
+          Scrape.logger.info "Parsed #{url}, found #{urls.length} urls."
         else
-          Scrape.logger.info "No rules defined for #{url}"
+          Scrape.logger.info "Parsed #{url}."
         end
-      rescue OpenURI::HTTPError => e
-        Scrape.logger.info "Error loading #{url}: #{e.message}"
+      else
+        Scrape.logger.info "No rules defined for #{url}"
       end
     end
   end
   def reset
     @history = []
-    @queue = sites.values.map{|site| site.to_s }
+    @queue = []
   end
   def queue
@@ -54,7 +51,7 @@ class Scrape::Application
   def add_site site, options = {}
     case site
     when String
-      site = Scrape::Site.new site, options
+      site = Scrape::Site.new site, options.dup
       @sites.update site.to_s => site
       site
     end
@@ -63,7 +60,6 @@ class Scrape::Application
   def load_scrapefile
     return if @scrapefile_loaded
     loader.load(scrapefile)
-    reset
     @scrapefile_loaded = true
   end
 end

data/lib/scrape/core_ext/array.rb CHANGED

@@ -1,5 +1,5 @@
 class Array
   def extract_options!
     last.instance_of?(Hash) ? pop : {}
-  end unless instance_methods.include?(:extract_options!)
+  end unless Array.respond_to?(:extract_options!)
 end

data/lib/scrape/core_ext/string.rb CHANGED

@@ -2,5 +2,5 @@ class String
   def starts_with str
     str = str.to_str
     self[0, str.length] == str
-  end unless instance_methods.include?(:starts_with)
+  end unless String.respond_to?(:starts_with)
 end

data/lib/scrape/dsl.rb CHANGED

@@ -15,4 +15,9 @@ class Scrape::DSL
     matches = @sites.map{|site| site.add_match matcher, &proc }
     matches.size == 1 ? matches.first : matches
   end
+  def enqueue *urls
+    @application.enqueue *urls
+  end
+  alias_method :queue, :enqueue
 end

data/lib/scrape/robots_txt.rb CHANGED

@@ -29,6 +29,7 @@ class Scrape::RobotsTxt
   end
   def self.parse content
+    return if content.nil?
     rules, user_agent = Hash.new, nil
     content.split("\n").each do |line|
@@ -49,7 +50,8 @@ class Scrape::RobotsTxt
   def self.load url, default = true
     url = Addressable::URI.join(url, "/robots.txt") if default
     parse Scrape.open(url)
-  rescue OpenURI::HTTPError
+  rescue Scrape::HTTPError
+    Scrape.logger.warn "Failed to obtain robots.txt: #{url}"
     nil
   end
   public :load

data/lib/scrape/site.rb CHANGED

@@ -20,7 +20,7 @@ class Scrape::Site
   def open url
     headers = Hash.new
-    headers['Set-Cookie'] = options[:cookie].to_s if options.has_key? :cookie
+    headers[:cookie] = cookie if options[:cookie]
     Scrape.open url, headers
   end
@@ -31,6 +31,9 @@ class Scrape::Site
     @matches.each{|match| match.invoke doc, url if match =~ url }
     doc.css("a[href]").map{|node| normalize node['href'], url }.select{|url| accept? url }
+  rescue Scrape::HTTPError => e
+    Scrape.logger.info "Error loading #{url}: #{e.message}"
+    nil
   end
   def accept? url
@@ -55,4 +58,18 @@ private
   def disallowed? url
     !options[:ignore_robots_txt] && robots_txt =~ Addressable::URI.parse(url).path
   end
+  def cookie
+    cookie = options[:cookie]
+    case cookie
+    when Hash
+      cookie.map{|name, val| "#{encode(name)}=#{encode(val)}" }.join("; ")
+    when String
+      cookie
+    end
+  end
+  def encode str
+    str.to_s.gsub(" ", "%20").gsub(",", "%2C").gsub(";", "%3B")
+  end
 end

data/lib/scrape/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Scrape
-  VERSION = '0.2.4' unless defined? ::Scrape::VERSION
+  VERSION = '0.3.0' unless defined? ::Scrape::VERSION
 end

data/scrape.gemspec CHANGED

@@ -20,4 +20,6 @@ Gem::Specification.new do |s|
   s.add_development_dependency "nokogiri", "~> 1.5.5"
   s.add_development_dependency "addressable", "~> 2.2.8"
+  s.add_development_dependency "faraday", "~> 0.8.0"
+  s.add_development_dependency "faraday_middleware", "~> 0.8.8"
 end

data/test/test_helper.rb CHANGED

@@ -8,6 +8,9 @@ Bundler.setup(:default, :test)
 require "scrape"
+# surpress log messages while we're testing
+Scrape.logger = Class.new{ def method_missing name, *args; end }.new
 class Scrape::TestCase < MiniTest::Unit::TestCase
   class << self
     def test name, &block

data/test/unit/application_test.rb CHANGED

@@ -18,37 +18,33 @@ class ApplicationTest < Scrape::TestCase
   end
   test "#[] should return the site that matches the given url" do
-    site1 = Scrape::Site.new "http://example.com"
-    site2 = Scrape::Site.new "http://example.org"
     app = Scrape::Application.new(".")
-    app.sites.update site1.to_s => site1, site2.to_s => site2
+    site1 = app.add_site "http://example.com"
+    app.add_site "http://example.org"
     assert_equal site1, app["http://example.com"]
   end
   test "#[] should return the site that is relative to the given url" do
-    site1 = Scrape::Site.new "http://example.com"
-    site2 = Scrape::Site.new "http://example.org"
     app = Scrape::Application.new(".")
-    app.sites.update site1.to_s => site1, site2.to_s => site2
+    site1 = app.add_site "http://example.com"
+    app.add_site "http://example.org"
     assert_equal site1, app["http://example.com/test"]
   end
   test "#[] should return nil when no site matches the given url" do
-    site1 = Scrape::Site.new "http://example.com"
-    site2 = Scrape::Site.new "http://example.org"
     app = Scrape::Application.new(".")
-    app.sites.update site1.to_s => site1, site2.to_s => site2
+    app.add_site "http://example.com"
+    app.add_site "http://example.org"
     assert_nil app["http://example.net"]
   end
-  test "#reset should enqueue the sites that have been defined" do
-    site1 = Scrape::Site.new "http://example.com"
-    site2 = Scrape::Site.new "http://example.org"
-    app = Scrape::Application.new(".")
-    app.sites.update site1.to_s => site1, site2.to_s => site2
-    app.reset
-    assert_equal ["http://example.com", "http://example.org"], app.queue
-  end
+  # test "#reset should enqueue the sites that have been defined" do
+  #   app = Scrape::Application.new(".")
+  #   app.add_site "http://example.com"
+  #   app.add_site "http://example.org"
+  #   app.reset
+  #   assert_equal ["http://example.com", "http://example.org"], app.queue
+  # end
   test "#run should load the specified file" do
     filepath = File.join(SUPPORT_FILES, 'test1.scrape')

data/test/unit/dsl_test.rb CHANGED

@@ -40,4 +40,11 @@ class DSLTest < Scrape::TestCase
       dsl.match("test"){|*args|}
     end
   end
+  test "#enqueue should add the specified urls to the queue" do
+    app = Scrape::Application.new(".")
+    dsl = Scrape::DSL.new app
+    dsl.enqueue "http://example.com"
+    assert_equal ["http://example.com"], app.queue
+  end
 end

data/test/unit/scrape_test.rb CHANGED

@@ -1,25 +1,38 @@
 require "test_helper"
 class ScrapeTest < Scrape::TestCase
-  test "#user_agent should return default when not set" do
+  test ".user_agent should return default when not set" do
     assert_equal Scrape.user_agent, "Scrape/#{Scrape::VERSION}"
   end
-  test "#load_scrapefile should return a new application" do
+  test ".load_scrapefile should return a new application" do
     app = Scrape.load_scrapefile '.'
     assert_kind_of Scrape::Application, app
   end
-  test "#open should send a request to the specified url and return the contents" do
-    stub_request(:get, "http://example.com/").to_return(:status => 200, :body => "booyah")
-    assert_equal "booyah", Scrape.open("http://example.com")
-  end
-  test "#open should set the user agent in the request header" do
+  test ".open should set the user agent in the request header" do
     stub_request(:get, "http://example.com/").
       with(:headers => {"User-Agent" => "Scrape/#{Scrape::VERSION}"}).
       to_return(:status => 200, :body => "")
     Scrape.open("http://example.com")
     assert true
   end
+  test ".open should redirect when response is indicates redirection" do
+    stub_request(:get, "http://example.com/foo").
+      to_return(:status => 301, :headers => {:location => "http://example.com/bar"})
+    stub_request(:get, "http://example.com/bar").
+      to_return(:status => 200, :body => "booyah")
+    Scrape.open("http://example.com/foo")
+    assert true
+  end
+  test ".open should raise error when not successful" do
+    stub_request(:get, "http://example.com/").
+      to_return(:status => 404, :body => "")
+    assert_raises Scrape::HTTPError do
+      Scrape.open("http://example.com")
+    end
+  end
 end

data/test/unit/site_test.rb CHANGED

@@ -9,13 +9,22 @@ class SiteTest < Scrape::TestCase
   test "#open should include cookie header when cookie option is set" do
     stub_request(:get, "http://www.example.com/").
-      with(:headers => {'Set-Cookie'=>'omnom'}).
+      with(:headers => {'Cookie' => 'omnom'}).
       to_return(:status => 200, :body => "")
     site = Scrape::Site.new "http://www.example.com", :cookie => "omnom"
     site.open "http://www.example.com"
   end
+  test "#open should include cookie header when cookie option is a hash" do
+    stub_request(:get, "http://www.example.com/").
+      with(:headers => {'Cookie' => 'foo=bar'}).
+      to_return(:status => 200, :body => "")
+    site = Scrape::Site.new "http://www.example.com", :cookie => {:foo => "bar"}
+    site.open "http://www.example.com"
+  end
   test "#parse should return absolute urls that match the site's url" do
     stub_request(:get, "http://www.example.com/test").
       with(:headers => {"User-Agent" => Scrape.user_agent}).

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: scrape
 version: !ruby/object:Gem::Version
-  version: 0.2.4
+  version: 0.3.0
   prerelease:
 platform: ruby
 authors:
@@ -9,7 +9,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-07-16 00:00:00.000000000 Z
+date: 2012-07-22 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -43,6 +43,38 @@ dependencies:
     - - ~>
       - !ruby/object:Gem::Version
         version: 2.2.8
+- !ruby/object:Gem::Dependency
+  name: faraday
+  requirement: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: 0.8.0
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: 0.8.0
+- !ruby/object:Gem::Dependency
+  name: faraday_middleware
+  requirement: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: 0.8.8
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: 0.8.8
 description: An easy to use utility to scrape websites using a DSL similar to rake.
 email:
 - evilmarty@gmail.com