RubyGems - klepto - Versions diffs - 0.1.0 → 0.2.0 - Mend

klepto 0.1.0 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (19) hide show

data/README.md +120 -89
data/lib/klepto.rb +2 -2
data/lib/klepto/config.rb +18 -0
data/lib/klepto/structure.rb +88 -0
data/lib/klepto/version.rb +1 -1
data/samples/bieber.html +4859 -0
data/samples/concept.rb +50 -0
data/spec/lib/klepto/config_spec.rb +23 -0
data/spec/lib/klepto/structure_spec.rb +105 -0
data/spec/lib/klepto_spec.rb +1 -58
data/spec/orm/active_record.rb +2 -2
data/spec/spec_helper.rb +1 -1
metadata +22 -23
data/lib/klepto/bot.rb +0 -59
data/lib/klepto/crawler.rb +0 -72
data/samples/example.rb +0 -49
data/spec/lib/klepto/bot_spec.rb +0 -40
data/spec/lib/klepto/crawler_spec.rb +0 -88
data/spec/lib/klepto/dsl_spec.rb +0 -6

data/samples/concept.rb ADDED

@@ -0,0 +1,50 @@
+#! /usr/bin/env ruby
+require 'bundler/setup'
+require 'klepto'
+@structure = Klepto::Structure.crawl('https://twitter.com/justinbieber')
+  config.headers 'Referer' => 'http://www.twitter.com'
+  config.steps [
+    [:GET, 'https://twitter.com/login'],
+    [:POST,'https://twitter.com/sessions',
+      {
+        session: {
+          username_or_email: 'example',
+          password:'123456'
+        }
+      }
+    ]
+  ]
+  config.urls 'https://twitter.com/justinbieber',
+              'https://twitter.com/ladygaga'
+  # config.cookies 'jsession' => 'abcdefg1234567890'
+  # config.on_http_status(500,404){}
+  # assertions do
+  # end
+  # config.on_failed_assertion(){}
+  # Structur the content
+  name      'h1.fullname'
+  username  '.username span.screen-name'
+  links     'span.url a', :list, :attr => 'href'
+  tweets    'li.stream-item', :collection do |node|
+    # You can access the current parent node
+    twitter_id  node['data-item-id']
+    # Defaults to innerText
+    content '.content p', :css
+    # get an attribute off an element
+    timestamp '._timestamp', :attr => 'data-time'
+    permalink '.time a', :css, :attr => :href
+  end
+end
+# @resources = @structure.parse! #=> Array[Hash]
+# @resources.each do |resource|
+#   User.create(resource)
+# end

data/spec/lib/klepto/config_spec.rb ADDED

@@ -0,0 +1,23 @@
+require 'spec_helper'
+describe Klepto::Config do
+  before(:each) do
+    @config = Klepto::Config.new
+    @config.headers({'Referer' => 'http://example.com'})
+    @config.urls 'http://example.com', 'http://www.iana.org'
+  end
+  it 'should be able to set headers' do
+    @config.headers['Referer'].should eq('http://example.com')
+  end
+  it 'should be able to set URLs' do
+    @config.urls.should == ['http://example.com', 'http://www.iana.org']
+  end
+  pending 'should be able to set cookies'
+  pending 'should be able to set steps'
+  pending 'should be able to set assertions'
+  pending 'should be able to set on_http_status handler'
+  pending 'should be able to set on_failed_assertion handler'
+end

data/spec/lib/klepto/structure_spec.rb ADDED

@@ -0,0 +1,105 @@
+require 'spec_helper'
+require 'pp'
+describe Klepto::Structure do
+  describe 'Klepto::Structure.build' do
+    before(:each) do
+      @page = Capybara::Node::Simple.new(open("./samples/bieber.html").read)
+      @structure = Klepto::Structure.build(@page){
+        name      'h1.fullname'
+        username "//span[contains(concat(' ',normalize-space(@class),' '),' screen-name ')]", :syntax => :xpath
+        tweet_ids 'li.stream-item', :match => :all, :attr => 'data-item-id'
+        links 'span.url a', :match => :all do |node|
+          node[:href]
+        end
+        last_tweet 'li.stream-item', :as => :resource do
+          twitter_id do |node|
+            node['data-item-id']
+          end
+          content '.content p'
+          timestamp '._timestamp', :attr => 'data-time'
+          permalink '.time a', :attr => :href
+        end
+        tweets    'li.stream-item', :as => :collection do
+          twitter_id do |node|
+            node['data-item-id']
+          end
+          tweet '.content p', :css
+          timestamp '._timestamp', :attr => 'data-time'
+          permalink '.time a', :css, :attr => :href
+        end
+      }
+    end
+    it 'should structure the data' do
+      @structure[:name].should match(/Justin/i)
+      @structure[:links].should == ["http://www.youtube.com/justinbieber"]
+      @structure[:username].should eq '@justinbieber'
+      @structure[:last_tweet][:twitter_id].should == @structure[:tweets].first[:twitter_id]
+    end
+  end
+  describe 'Klepto::Structure.crawl' do
+    before(:each) do
+      config = {
+        :headers => {
+          'Referer'     => 'http://www.twitter.com',
+          'X-Sup-Dawg'  => "Yo, What's up?"
+        }
+      }
+      @structure = Klepto::Structure.crawl("https://twitter.com/justinbieber", config){
+        # Structure that stuff
+        name      'h1.fullname'
+        username "//span[contains(concat(' ',normalize-space(@class),' '),' screen-name ')]", :syntax => :xpath
+        tweet_ids 'li.stream-item', :match => :all, :attr => 'data-item-id'
+        links 'span.url a', :match => :all do |node|
+          node[:href]
+        end
+        last_tweet 'li.stream-item', :as => :resource do
+          twitter_id do |node|
+            node['data-item-id']
+          end
+          content '.content p'
+          timestamp '._timestamp', :attr => 'data-time'
+          permalink '.time a', :attr => :href
+        end
+        tweets    'li.stream-item', :as => :collection do
+          twitter_id do |node|
+            node['data-item-id']
+          end
+          tweet '.content p', :css
+          timestamp '._timestamp', :attr => 'data-time'
+          permalink '.time a', :css, :attr => :href
+        end
+        after_crawl do |resource|
+          @user = User.new
+          @user.name = resource[:name]
+          @user.username = resource[:username]
+          @user.save
+          resource[:tweets].each do |tweet|
+            Tweet.create(tweet)
+          end
+        end
+      }
+    end
+    it 'should structure the data' do
+      @structure.first[:name].should match(/Justin/i)
+      @structure.first[:links].should == ["http://www.youtube.com/justinbieber"]
+      @structure.first[:username].should eq '@justinbieber'
+      @structure.first[:last_tweet][:twitter_id].should == @structure.first[:tweets].first[:twitter_id]
+    end
+    it 'should store the data' do
+      User.count.should be(1)
+      Tweet.count.should_not be(0)
+    end
+  end
+end

data/spec/lib/klepto_spec.rb CHANGED

@@ -4,61 +4,4 @@ describe Klepto do
   it "should have a version" do
     Klepto::VERSION.should_not be_nil
   end
-end
-describe 'Scraping pages', :skip => false do
-  before(:each) do
-    @bot = Klepto::Bot.new do
-      syntax :css
-      headers({
-        'Referer'     => 'https://twitter.com',
-        'User-Agent'  => "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/534.51.22 (KHTML, like Gecko) Version/5.1.1 Safari/534.51.22"
-      })
-      urls  'https://twitter.com/justinbieber'
-      crawl 'body' do
-        scrape "h1.fullname", :name
-        scrape '.username span.screen-name', :username
-        save do |params|
-          user = User.find_by_name(params[:username]) || User.new
-          user.update_attributes params
-        end
-      end
-      crawl 'li.stream-item' do
-        scrape do |node|
-          {:twitter_id => node['data-item-id']}
-        end
-        scrape '.content p', :content
-        scrape '._timestamp' do |node|
-          {timestamp: node['data-time']}
-        end
-        scrape '.time a' do |node|
-          {permalink: node[:href]}
-        end
-        save do |params|
-          tweet = Tweet.find_by_twitter_id(params[:twitter_id]) || Tweet.new
-          tweet.update_attributes params
-        end
-      end
-    end
-    @bot.start!
-  end
-  it 'should have collected some resources' do
-    @bot.crawlers.should have(2).crawlers
-    @bot.crawlers.first.resources.should have(1).user
-  end
-  it 'should persist resources' do
-    User.count.should be(1)
-    Tweet.count.should_not be(0)
-  end
-end
+end

data/spec/orm/active_record.rb CHANGED

@@ -9,7 +9,7 @@ ActiveRecord::Migration.verbose = false
 class TestMigration < ActiveRecord::Migration
   def self.up
     create_table :tweets, :force => true do |t|
-      t.string :content
+      t.string :tweet
       t.string :twitter_id
       t.integer :timestamp
       t.string :permalink
@@ -28,7 +28,7 @@ class TestMigration < ActiveRecord::Migration
 end
 class Tweet < ActiveRecord::Base
-  validates_presence_of :timestamp, :twitter_id, :permalink, :content
+  validates_presence_of :timestamp, :twitter_id, :permalink, :tweet
 end
 class User < ActiveRecord::Base

data/spec/spec_helper.rb CHANGED

@@ -28,5 +28,5 @@ RSpec.configure do |config|
   }
   config.after(:all) { TestMigration.down }
   config.treat_symbols_as_metadata_keys_with_true_values = true
-  config.filter_run_excluding :skip => true
+  #config.filter_run_including :only => true
 end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: klepto
 version: !ruby/object:Gem::Version
-  version: 0.1.0
+  version: 0.2.0
   prerelease:
 platform: ruby
 authors:
@@ -9,11 +9,11 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-04-10 00:00:00.000000000 Z
+date: 2013-04-18 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: docile
-  requirement: &70348289181900 !ruby/object:Gem::Requirement
+  requirement: &70231930844560 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -21,10 +21,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70348289181900
+  version_requirements: *70231930844560
 - !ruby/object:Gem::Dependency
   name: poltergeist
-  requirement: &70348289181040 !ruby/object:Gem::Requirement
+  requirement: &70231930843200 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - =
@@ -32,10 +32,10 @@ dependencies:
         version: 1.1.0
   type: :runtime
   prerelease: false
-  version_requirements: *70348289181040
+  version_requirements: *70231930843200
 - !ruby/object:Gem::Dependency
   name: capybara
-  requirement: &70348289179880 !ruby/object:Gem::Requirement
+  requirement: &70231930839840 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - =
@@ -43,10 +43,10 @@ dependencies:
         version: 2.0.2
   type: :runtime
   prerelease: false
-  version_requirements: *70348289179880
+  version_requirements: *70231930839840
 - !ruby/object:Gem::Dependency
   name: nokogiri
-  requirement: &70348289179180 !ruby/object:Gem::Requirement
+  requirement: &70231930836140 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ~>
@@ -54,10 +54,10 @@ dependencies:
         version: 1.5.6
   type: :runtime
   prerelease: false
-  version_requirements: *70348289179180
+  version_requirements: *70231930836140
 - !ruby/object:Gem::Dependency
   name: activesupport
-  requirement: &70348289178640 !ruby/object:Gem::Requirement
+  requirement: &70231930835280 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -65,10 +65,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70348289178640
+  version_requirements: *70231930835280
 - !ruby/object:Gem::Dependency
   name: multi_json
-  requirement: &70348289177300 !ruby/object:Gem::Requirement
+  requirement: &70231930834460 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ~>
@@ -76,7 +76,7 @@ dependencies:
         version: '1.0'
   type: :runtime
   prerelease: false
-  version_requirements: *70348289177300
+  version_requirements: *70231930834460
 description: Tearing up web pages into ActiveRecord resources
 email:
 - github@coryodaniel.com
@@ -94,12 +94,13 @@ files:
 - Rakefile
 - klepto.gemspec
 - lib/klepto.rb
-- lib/klepto/bot.rb
 - lib/klepto/browser.rb
-- lib/klepto/crawler.rb
+- lib/klepto/config.rb
+- lib/klepto/structure.rb
 - lib/klepto/tasks.rb
 - lib/klepto/version.rb
-- samples/example.rb
+- samples/bieber.html
+- samples/concept.rb
 - spec/cassettes/Klepto_Crawler/dsl_interaction/should_crawl_the_resource.yml
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_be_able_to_designate_scraping_of_a_set_of_nodes.yml
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_be_able_to_designate_scraping_of_a_single_node_with_a_block.yml
@@ -107,10 +108,9 @@ files:
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_be_able_to_scrape_the_node_that_the_crawler_is_scoped_to.yml
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_have_a_CSS_scope.yml
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_have_a_desired_syntax.yml
-- spec/lib/klepto/bot_spec.rb
 - spec/lib/klepto/browser_spec.rb
-- spec/lib/klepto/crawler_spec.rb
-- spec/lib/klepto/dsl_spec.rb
+- spec/lib/klepto/config_spec.rb
+- spec/lib/klepto/structure_spec.rb
 - spec/lib/klepto_spec.rb
 - spec/orm/active_record.rb
 - spec/orm/database.example.yml
@@ -147,10 +147,9 @@ test_files:
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_be_able_to_scrape_the_node_that_the_crawler_is_scoped_to.yml
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_have_a_CSS_scope.yml
 - spec/cassettes/Klepto_Crawler/standard_interaction/should_have_a_desired_syntax.yml
-- spec/lib/klepto/bot_spec.rb
 - spec/lib/klepto/browser_spec.rb
-- spec/lib/klepto/crawler_spec.rb
-- spec/lib/klepto/dsl_spec.rb
+- spec/lib/klepto/config_spec.rb
+- spec/lib/klepto/structure_spec.rb
 - spec/lib/klepto_spec.rb
 - spec/orm/active_record.rb
 - spec/orm/database.example.yml

data/lib/klepto/bot.rb DELETED

@@ -1,59 +0,0 @@
-module Klepto
-  class Bot
-    def initialize(*args, &block)
-      @syntax     = :css
-      @is_dry_run = false
-      @urls       = []
-      @crawlers   = []
-      @browser    = Klepto::Browser.new
-      Docile.dsl_eval(self, &block) if block_given?
-    end
-    attr_reader :browser, :crawlers
-    def dry_run!
-      @is_dry_run = true
-    end
-    def dry_run?
-      !!@is_dry_run
-    end
-    def syntax(kind=nil)
-      @syntax = kind unless kind.nil?
-      @syntax
-    end
-    def headers(_headers)
-      @browser.set_headers(_headers)
-    end
-    def url(*args)
-      @urls += args
-    end
-    alias :urls :url
-    def crawl(scope, options={}, &block)
-      options[:syntax] = @syntax
-      @crawlers << Klepto::Crawler.new(scope, options, &block)
-    end
-    def start!
-      @urls.each do |url|
-        browser.fetch!(url)
-        @crawlers.each do |crawler|
-          crawler.crawl browser.page
-        end
-      end
-      @crawlers.each do |crawler|
-        if dry_run?
-          pp crawler.resources
-        else
-          crawler.persist!
-        end
-      end
-    end
-  end
-end