RubyGems - sagrone_scraper - Versions diffs - 0.0.2 → 0.0.3 - Mend

sagrone_scraper 0.0.2 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +5 -0
data/README.md +47 -5
data/lib/sagrone_scraper.rb +34 -0
data/lib/sagrone_scraper/parser.rb +9 -1
data/lib/sagrone_scraper/version.rb +1 -1
data/spec/sagrone_scraper/agent_spec.rb +6 -4
data/spec/sagrone_scraper/parser_spec.rb +21 -10
data/spec/sagrone_scraper_spec.rb +73 -0
data/spec/spec_helper.rb +2 -0
data/spec/stub_helper.rb +1 -1
data/spec/support/test_parsers/twitter_parser.rb +17 -0
data/spec/{test_responses → support/test_responses}/twitter.com:Milano_JS +0 -0
data/spec/{test_responses → support/test_responses}/www.example.com +0 -0
metadata +8 -6

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 82fc9ba674d9d3398b5f596d513fbb8eeb8abe3b
-  data.tar.gz: a8acac43dc318b6dcad951d57d3e1ce59478c67d
+  metadata.gz: 80b3c30080aba0c8b1da8cfdcdefbb8e6ef527e1
+  data.tar.gz: c9992757e44377ed3081089f0348cdf1535e8a8e
 SHA512:
-  metadata.gz: 0dc5041f027f685ac241fcf0e103d3d8a6fa225002cdedd65a2f072fafb43904d3514a7cabad9a83bb0d3f02a3f7241c2c8dbeffdb48f133439f308319462870
-  data.tar.gz: 15644f0da27c4cb3f2452ac11958261acc7d0bd5e3e0539a7d7817b47f5c5096ea3f0d107b2f456f34f6fe8273fb7742128cd72f5c142c8416a521262ffb8e09
+  metadata.gz: 97477b7732ec3485aa7ba5ef2c7cb16ac130d6b1a1f6ee8b57deb5cf53fb6ae50bafdec13d1c575dbc382a748583a3e70b0da55660bd7065daaebc1479d466c4
+  data.tar.gz: fc8762b63b3429dcbd004bbdc39c6ef5bd7351e8b483ec8185c79b985ab5b2091601005a533270fc511e16d329f31a20616e1ea068f2b7ce7c3a0b3928087c5f

data/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,10 @@
 ### HEAD
+### 0.0.3
+- add `SagroneScraper::Parser.can_parse?(url)` class method, which must be  implemented in subclasses
+- add `SagroneScraper` logic to _scrape_ a URL based on a set of _registered parsers_
 ### 0.0.2
 - add `SagroneScraper::Parser`

data/README.md CHANGED Viewed

@@ -3,7 +3,7 @@
 [![Gem Version](https://badge.fury.io/rb/sagrone_scraper.svg)](http://badge.fury.io/rb/sagrone_scraper)
 [![Build Status](https://travis-ci.org/Sagrone/scraper.svg?branch=master)](https://travis-ci.org/Sagrone/scraper)
-Simple library to scrap web pages. Bellow you will find information on [how to use it](#usage).
+Simple library to scrap web pages. Bellow you will find information on [how to use it](#basic-usage).
 ## Table of Contents
@@ -12,6 +12,7 @@ Simple library to scrap web pages. Bellow you will find information on [how to u
 - [Modules](#modules)
   + [`SagroneScraper::Agent`](#sagronescraperagent)
   + [`SagroneScraper::Parser`](#sagronescraperparser)
+  + [`SagroneScraper.scrape`](#sagronescraperscrape)
 ## Installation
@@ -40,7 +41,7 @@ The agent is responsible for scraping a web page from a URL. Here is how you can
 1. one way is to pass it a `url` option
     ```ruby
-    require 'sagrone_scraper/agent'
+    require 'sagrone_scraper'
     agent = SagroneScraper::Agent.new(url: 'https://twitter.com/Milano_JS')
     agent.page
@@ -53,7 +54,7 @@ The agent is responsible for scraping a web page from a URL. Here is how you can
 2. another way is to pass a `page` option (`Mechanize::Page`)
     ```ruby
-    require 'sagrone_scraper/agent'
+    require 'sagrone_scraper'
     mechanize_agent = Mechanize.new { |agent| agent.user_agent_alias = 'Linux Firefox' }
     page = mechanize_agent.get('https://twitter.com/Milano_JS')
@@ -74,11 +75,16 @@ The _parser_ is responsible for extracting structured data from a _page_. The pa
 Example usage:
 ```ruby
-require 'sagrone_scraper/agent'
-require 'sagrone_scraper/parser'
+require 'sagrone_scraper'
 # 1) First define a custom parser, for example twitter.
 class TwitterParser < SagroneScraper::Parser
+  TWITTER_PROFILE_URL = /^https?:\/\/twitter.com\/(\w)+\/?$/i
+  def self.can_parse?(url)
+    url.match(TWITTER_PROFILE_URL)
+  end
   def bio
     page.at('.ProfileHeaderCard-bio').text
   end
@@ -100,6 +106,42 @@ parser.attributes
 # => {bio: "Javascript User Group Milano #milanojs", location: "Milan, Italy"}
 ```
+#### `SagroneScraper.scrape`
+This is the simplest way to scrape a web page:
+```ruby
+require 'sagrone_scraper'
+# 1) First we define a custom parser, for example twitter.
+class TwitterParser < SagroneScraper::Parser
+  TWITTER_PROFILE_URL = /^https?:\/\/twitter.com\/(\w)+\/?$/i
+  def self.can_parse?(url)
+    url.match(TWITTER_PROFILE_URL)
+  end
+  def bio
+    page.at('.ProfileHeaderCard-bio').text
+  end
+  def location
+    page.at('.ProfileHeaderCard-locationText').text
+  end
+end
+# 2) We register the parser.
+SagroneScraper.register_parser('TwitterParser')
+# 3) We can query for registered parsers.
+SagroneScraper.registered_parsers
+# => ['TwitterParser']
+# 4) We can now scrape twitter profile URLs.
+SagroneScraper.scrape(url: 'https://twitter.com/Milano_JS')
+# => {bio: "Javascript User Group Milano #milanojs", location: "Milan, Italy"}
+```
 ## Contributing
 1. Fork it ( https://github.com/[my-github-username]/sagrone_scraper/fork )

data/lib/sagrone_scraper.rb CHANGED Viewed

@@ -1,7 +1,41 @@
 require "sagrone_scraper/version"
+require "sagrone_scraper/agent"
+require "sagrone_scraper/parser"
 module SagroneScraper
+  Error = Class.new(RuntimeError)
   def self.version
     VERSION
   end
+  def self.registered_parsers
+    @registered_parsers ||= []
+  end
+  def self.register_parser(name)
+    return if registered_parsers.include?(name)
+    parser_class = Object.const_get(name)
+    raise Error.new("Expected parser to be a SagroneScraper::Parser.") unless parser_class.ancestors.include?(SagroneScraper::Parser)
+    registered_parsers.push(name)
+  end
+  def self.scrape(options)
+    url = options.fetch(:url) do
+            raise Error.new('Option "url" must be provided.')
+          end
+    parser_class = registered_parsers
+                    .map { |parser_name| Object.const_get(parser_name) }
+                    .find { |parser_class| parser_class.can_parse?(url) }
+    raise Error.new("No registed parser can parse URL #{url}") unless parser_class
+    agent = SagroneScraper::Agent.new(url: url)
+    parser = parser_class.new(page: agent.page)
+    parser.parse_page!
+    parser.attributes
+  end
 end

data/lib/sagrone_scraper/parser.rb CHANGED Viewed

@@ -4,22 +4,30 @@ module SagroneScraper
   class Parser
     Error = Class.new(RuntimeError)
-    attr_reader :page, :attributes
+    attr_reader :page, :page_url, :attributes
     def initialize(options = {})
       @page = options.fetch(:page) do
                 raise Error.new('Option "page" must be provided.')
               end
+      @page_url = @page.uri.to_s
       @attributes = {}
     end
     def parse_page!
+      return unless self.class.can_parse?(page_url)
       self.class.method_names.each do |name|
         attributes[name] = send(name)
       end
       nil
     end
+    def self.can_parse?(url)
+      class_with_method = "#{self}.can_parse?(url)"
+      raise NotImplementedError.new("Expected #{class_with_method} to be implemented.")
+    end
     private
     def self.method_names

data/lib/sagrone_scraper/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module SagroneScraper
-  VERSION = "0.0.2"
+  VERSION = "0.0.3"
 end

data/spec/sagrone_scraper/agent_spec.rb CHANGED Viewed

@@ -27,8 +27,10 @@ RSpec.describe SagroneScraper::Agent do
       end
       it 'when options is empty' do
-        expect { described_class.new }.to raise_error(SagroneScraper::Agent::Error,
-                                                      /Exactly one option must be provided: "url" or "page"/)
+        expect {
+          described_class.new
+        }.to raise_error(SagroneScraper::Agent::Error,
+                          'Exactly one option must be provided: "url" or "page"')
       end
       it 'when both options are present' do
@@ -37,7 +39,7 @@ RSpec.describe SagroneScraper::Agent do
         expect {
           described_class.new(url: 'http://example.com', page: page)
         }.to raise_error(SagroneScraper::Agent::Error,
-                          /Exactly one option must be provided: "url" or "page"/)
+                          'Exactly one option must be provided: "url" or "page"')
       end
     end
@@ -61,7 +63,7 @@ RSpec.describe SagroneScraper::Agent do
         @invalid_url = 'not-a-url'
         expect { agent }.to raise_error(SagroneScraper::Agent::Error,
-                                        /absolute URL needed \(not not-a-url\)/)
+                                        'absolute URL needed (not not-a-url)')
       end
       it 'should require absolute path' do

data/spec/sagrone_scraper/parser_spec.rb CHANGED Viewed

@@ -4,7 +4,9 @@ require 'sagrone_scraper/parser'
 RSpec.describe SagroneScraper::Parser do
   describe '#initialize' do
     it 'requires a "page" option' do
-      expect { described_class.new }.to raise_error(SagroneScraper::Parser::Error, /Option "page" must be provided./)
+      expect {
+        described_class.new
+      }.to raise_error(SagroneScraper::Parser::Error, 'Option "page" must be provided.')
     end
   end
@@ -16,8 +18,17 @@ RSpec.describe SagroneScraper::Parser do
       it { expect(parser.page).to be_a(Mechanize::Page) }
     end
+    describe '#page_url' do
+      it { expect(parser.page_url).to be }
+      it { expect(parser.page_url).to eq page.uri.to_s }
+    end
     describe '#parse_page!' do
-      it { expect(parser.parse_page!).to eq nil }
+      it do
+        expect {
+          parser.parse_page!
+        }.to raise_error(NotImplementedError, "Expected #{described_class}.can_parse?(url) to be implemented.")
+      end
     end
     describe '#attributes' do
@@ -25,17 +36,17 @@ RSpec.describe SagroneScraper::Parser do
     end
   end
-  describe 'create custom TwitterParser from SagroneScraper::Parser' do
-    class TwitterParser < SagroneScraper::Parser
-      def bio
-        page.at('.ProfileHeaderCard-bio').text
-      end
-      def location
-        page.at('.ProfileHeaderCard-locationText').text
+  describe 'class methods' do
+    describe '.can_parse?(url)' do
+      it do
+        expect {
+          described_class.can_parse?('url')
+        }.to raise_error(NotImplementedError, "Expected #{described_class}.can_parse?(url) to be implemented.")
       end
     end
+  end
+  describe 'create custom TwitterParser from SagroneScraper::Parser' do
     before do
       stub_request_for('https://twitter.com/Milano_JS', 'twitter.com:Milano_JS')
     end

data/spec/sagrone_scraper_spec.rb CHANGED Viewed

@@ -5,4 +5,77 @@ RSpec.describe SagroneScraper do
   describe '.version' do
     it { expect(SagroneScraper.version).to be_a(String) }
   end
+  context 'parsers registered' do
+    before do
+      described_class.registered_parsers.clear
+    end
+    describe '.registered_parsers' do
+      it { expect(described_class.registered_parsers).to be_empty }
+      it { expect(described_class.registered_parsers).to be_a(Array) }
+    end
+    describe '.register_parser(name)' do
+      TestParser = Class.new(SagroneScraper::Parser)
+      NotParser = Class.new
+      it 'should check parser name is an existing constant' do
+        expect {
+          described_class.register_parser('Unknown')
+        }.to raise_error(NameError, 'uninitialized constant Unknown')
+      end
+      it 'should check parser class inherits from SagroneScraper::Parser' do
+        expect {
+          described_class.register_parser('NotParser')
+        }.to raise_error(SagroneScraper::Error, 'Expected parser to be a SagroneScraper::Parser.')
+      end
+      it 'after adding a "parser" should have it registered' do
+        described_class.register_parser('TestParser')
+        expect(described_class.registered_parsers).to include('TestParser')
+        expect(described_class.registered_parsers.size).to eq 1
+      end
+      it 'adding same "parser" multiple times should register it once' do
+        described_class.register_parser('TestParser')
+        described_class.register_parser('TestParser')
+        expect(described_class.registered_parsers).to include('TestParser')
+        expect(described_class.registered_parsers.size).to eq 1
+      end
+    end
+  end
+  describe '.scrape' do
+    before do
+      SagroneScraper.registered_parsers.clear
+      SagroneScraper.register_parser('TwitterParser')
+      stub_request_for('https://twitter.com/Milano_JS', 'twitter.com:Milano_JS')
+    end
+    it 'should `url` option' do
+      expect {
+        described_class.scrape({})
+      }.to raise_error(SagroneScraper::Error, 'Option "url" must be provided.')
+    end
+    it 'should scrape URL if registered parser knows how to parse it' do
+      expected_attributes = {
+        bio: "Javascript User Group Milano #milanojs",
+        location: "Milan, Italy"
+      }
+      expect(described_class.scrape(url: 'https://twitter.com/Milano_JS')).to eq(expected_attributes)
+    end
+    it 'should return raise error if no registered paser can parse the URL' do
+      expect {
+        described_class.scrape(url: 'https://twitter.com/Milano_JS/media')
+      }.to raise_error(SagroneScraper::Error, "No registed parser can parse URL https://twitter.com/Milano_JS/media")
+    end
+  end
 end

data/spec/spec_helper.rb CHANGED Viewed

@@ -1,5 +1,7 @@
 require 'stub_helper'
+Dir["./spec/support/**/*.rb"].sort.each { |file| require file }
 RSpec.configure do |config|
   config.include(StubHelper)

data/spec/stub_helper.rb CHANGED Viewed

@@ -17,6 +17,6 @@ module StubHelper
   end
   def get_response_file(name)
-    IO.read(File.join('spec/test_responses', "#{name}"))
+    IO.read(File.join('spec/support/test_responses', "#{name}"))
   end
 end

data/spec/support/test_parsers/twitter_parser.rb ADDED Viewed

@@ -0,0 +1,17 @@
+require 'sagrone_scraper/parser'
+class TwitterParser < SagroneScraper::Parser
+  TWITTER_PROFILE_URL = /^https?:\/\/twitter.com\/(\w)+\/?$/i
+  def self.can_parse?(url)
+    url.match(TWITTER_PROFILE_URL)
+  end
+  def bio
+    page.at('.ProfileHeaderCard-bio').text
+  end
+  def location
+    page.at('.ProfileHeaderCard-locationText').text
+  end
+end

data/spec/{test_responses → support/test_responses}/twitter.com:Milano_JS RENAMED Viewed

File without changes

data/spec/{test_responses → support/test_responses}/www.example.com RENAMED Viewed

File without changes

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: sagrone_scraper
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3
 platform: ruby
 authors:
 - Marius Colacioiu
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2015-03-06 00:00:00.000000000 Z
+date: 2015-03-10 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: mechanize
@@ -121,8 +121,9 @@ files:
 - spec/sagrone_scraper_spec.rb
 - spec/spec_helper.rb
 - spec/stub_helper.rb
-- spec/test_responses/twitter.com:Milano_JS
-- spec/test_responses/www.example.com
+- spec/support/test_parsers/twitter_parser.rb
+- spec/support/test_responses/twitter.com:Milano_JS
+- spec/support/test_responses/www.example.com
 homepage: ''
 licenses:
 - Apache License 2.0
@@ -153,5 +154,6 @@ test_files:
 - spec/sagrone_scraper_spec.rb
 - spec/spec_helper.rb
 - spec/stub_helper.rb
-- spec/test_responses/twitter.com:Milano_JS
-- spec/test_responses/www.example.com
+- spec/support/test_parsers/twitter_parser.rb
+- spec/support/test_responses/twitter.com:Milano_JS
+- spec/support/test_responses/www.example.com