RubyGems - site_mapper - Versions diffs - 0.0.6 → 0.0.7 - Mend

site_mapper 0.0.6 → 0.0.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 6870976b0c732915cd3077c0be8bbfd6f92d7f45
-  data.tar.gz: 1f2949d91774c87dd2f156b562ffb9e532f924fe
+  metadata.gz: 472f6b099e7d4c2fe67862faf59b703c65e39a8c
+  data.tar.gz: ce4b315b256fdded26a12665f50d60dccf127ea3
 SHA512:
-  metadata.gz: d736d6c6d62c55e9f38417bb9061dfb19de907ef00d2e41cb31bd1d190d92fd16b319d02483673c333cfcc6cf6feed720906b2ba914957f13f602fc595ef2223
-  data.tar.gz: 69661165ac90ede2611f2d24ba43c58c1eed7b17c5405b23d00df0de023e4896210f75ab152e8d2311832ee4aa828d17c59887e0e943e00b8a0daa34d2d3b1ad
+  metadata.gz: 971616d2f3dd773e63be7d01259582099fd285538b52e04cbcc8055958d98fa57644d84e5546408401c390c6fc56ff70b9ecfc13b2c97bd15660a0a81dd98107
+  data.tar.gz: e27f9ae323e7a536696625071b30b9d046bbaced373e9ae798cd2083556c27bf228ff197a154a2291900b89fc4510264a4565ad1592a86a330f83989f2914a8f

data/lib/site_mapper/crawl_url.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 module SiteMapper
-  # Crawl URL formatter
+  # Crawl URL formatter.
   class CrawlUrl
     attr_reader :resolved_base_url, :base_hostname
@@ -11,7 +11,7 @@ module SiteMapper
     # Given a link it constructs the absolute path,
     # if valid URL & URL has same domain as @resolved_base_url.
-    # @return [String] with absolute path to resource.
+    # @return [String] with absolute path to resource
     # @param [String, String] raw_url from link element and current page URL
     # @example Construct absolute URL for '/path', example.com
     #   cu = CrawlUrl.new('example.com')

data/lib/site_mapper/crawler.rb CHANGED Viewed

@@ -8,12 +8,13 @@ module SiteMapper
       'User-Agent' => "SiteMapper/#{SiteMapper::VERSION} (+#{CRAWLER_INFO_LINK})"
     }
-    def initialize(url, resolve = false)
+    def initialize(url, resolve: false)
       base_url     = Request.resolve_url(url)
       @options     = { resolve: resolve }
       @crawl_url   = CrawlUrl.new(base_url)
       @fetch_queue = CrawlQueue.new
       @processed   = Set.new
+      @robots      = Robots.new(base_url, HEADERS_HASH['User-Agent'])
     end
     # @see #collect_urls
@@ -21,7 +22,7 @@ module SiteMapper
       new(base_url).collect_urls { |url| yield(url) }
     end
-    # Collects all links on domain for domain
+    # Collects all links on domain for domain.
     # @return [Array] with links.
     # @example URLs for example.com
     #   crawler = Crawler.new('example.com')
@@ -52,14 +53,15 @@ module SiteMapper
       link_elements = Request.get_page(get_url).css('a') rescue []
       @processed << get_url
       link_elements.each do |page_link|
-        absolute_url = @crawl_url.absolute_url_from(page_link.attr('href'), get_url)
-        if absolute_url
-          url = resolve(absolute_url)
-          @fetch_queue << url unless @processed.include?(url)
-        end
+        url = @crawl_url.absolute_url_from(page_link.attr('href'), get_url)
+        @fetch_queue << url if url && eligible_for_queue?(resolve(url))
       end
     end
+    def eligible_for_queue?(url)
+      @robots.allowed?(url) && !@processed.include?(url)
+    end
     def resolve(url)
       @options[:resolve] ? Request.resolve_url(url) : url
     end

data/lib/site_mapper/request.rb CHANGED Viewed

@@ -1,13 +1,16 @@
 require 'url_resolver' # TODO: Allow users to use any resolver
 module SiteMapper
+  # Get webpage wrapper.
   class Request
     INFO_LINK  = 'https://rubygems.org/gems/site_mapper'
     USER_AGENT = "SiteMapper/#{SiteMapper::VERSION} (+#{INFO_LINK})"
     class << self
-      def get_page(url, document_type = :html)
-        Nokogiri::HTML(Request.get_response(url).body)
+      # Given an URL get it then parse it with Nokogiri::HTML.
+      # @return [Nokogiri::HTML] a nokogiri HTML object
+      def get_page(url)
+        Nokogiri::HTML(Request.get_response_body(url))
       end
       def get_response(url, resolve = false)
@@ -21,12 +24,29 @@ module SiteMapper
         http.request(request)
       end
+      # Get response body, rescues with nil if an exception is raised
+      # @see #get_response
+      def get_response_body(*args)
+        get_response(*args).body rescue nil
+      end
+      # Resolve an URL string and follows redirects
+      # if the URL can't be resolved the original URL is returned.
+      # @return [String] a URL string that potentially is a redirected URL
+      # @example Resolve google.com
+      #    resolve_url('google.com')
+      #    # => 'https://www.google.com'
       def resolve_url(url, with_query: true)
         resolved = UrlResolver.resolve(url)
         resolved = remove_query(resolved) unless with_query
         resolved
       end
+      # Removes query string from URL string.
+      # @return [String] an URL string without query
+      # @example Removes query string
+      #    remove_query('example.com/path?q=keyword')
+      #    # => 'example.com/path'
       def remove_query(url)
         index = url.index('?')
         index.nil? ? url : url[0...index]

data/lib/site_mapper/robots.rb ADDED Viewed

@@ -0,0 +1,144 @@
+# Based on: https://rubygems.org/gems/robots, v0.10.1
+module SiteMapper
+  # Provided a base URL it checks whether a given URL is
+  # allowed to be crawled according to /robots.txt
+  # @see https://rubygems.org/gems/robots
+  class Robots
+    # Parses robots.txt
+    class ParsedRobots
+      def initialize(body, user_agent)
+        @other     = {}
+        @disallows = {}
+        @allows    = {}
+        @delays    = {}
+        parse(body)
+      end
+      # Parse robots.txt body.
+      def parse(body)
+        agent = /.*/
+        body  = body || "User-agent: *\nAllow: /\n"
+        body  = body.downcase
+        body.each_line.each do |line|
+          next if line =~ /^\s*(#.*|$)/
+          arr   = line.split(':')
+          key   = arr.shift
+          value = arr.join(':').strip
+          value.strip!
+          case key
+          when 'user-agent'
+            agent = to_regex(value)
+          when 'allow'
+            @allows[agent] ||= []
+            @allows[agent] << to_regex(value)
+          when 'disallow'
+            @disallows[agent] ||= []
+            @disallows[agent] << to_regex(value)
+          when 'crawl-delay'
+            @delays[agent] = value.to_i
+          else
+            @other[key] ||= []
+            @other[key] << value
+          end
+        end
+        @parsed = true
+      end
+      # @return [Boolean] true if uri is allowed to be crawled
+      # @example Check if http://www.google.com/googlesites is allowed to be crawled
+      #    uri = URI.parse('http://www.google.com/googlesites')
+      #    robots.allowed?(uri, 'SiteMapper') # => false (as of 2014-10-22)
+      def allowed?(uri, user_agent)
+        return true unless @parsed
+        allowed = true
+        path    = uri.request_uri
+        @disallows.each do |key, value|
+          if user_agent =~ key
+            value.each do |rule|
+              if path =~ rule
+                allowed = false
+              end
+            end
+          end
+        end
+        @allows.each do |key, value|
+          unless allowed
+            if user_agent =~ key
+              value.each do |rule|
+                if path =~ rule
+                  allowed = true
+                end
+              end
+            end
+          end
+        end
+        allowed
+      end
+      # @return [Hash] key/value pairs from robots.txt
+      def other_values
+        @other
+      end
+      protected
+      def to_regex(pattern)
+        return /should-not-match-anything-123456789/ if pattern.strip.empty?
+        pattern = Regexp.escape(pattern)
+        pattern.gsub!(Regexp.escape('*'), '.*')
+        Regexp.compile("^#{pattern}")
+      end
+    end
+    def initialize(url, user_agent)
+      @user_agent = user_agent
+      @parsed     = {}
+      @robots_txt = Request.get_response_body("#{url}/robots.txt", true)
+    end
+    # @return [Boolean] true if uri is allowed to be crawled
+    # @example Check if http://www.google.com/googlesites is allowed to be crawled
+    #    robots = Robots.new('google.com', 'SiteMapper')
+    #    robots.allowed?('http://www.google.com/googlesites') # => false (as of 2014-10-22)
+    def allowed?(uri)
+      uri  = to_uri(uri)
+      host = uri.host
+      @parsed[host] ||= ParsedRobots.new(@robots_txt, @user_agent)
+      @parsed[host].allowed?(uri, @user_agent)
+    rescue
+      true
+    end
+    # @return [Array] array of sitemaps defined in robots.txt
+    # @example Get sitemap for google.com
+    #    robots = Robots.new('google.com', 'SiteMapper')
+    #    robots.sitemaps
+    def sitemaps
+      uri    = to_uri(uri)
+      values = other_values(uri.host)
+      values['sitemap'] or []
+    rescue
+      []
+    end
+    # @return [Hash] key/value pairs from robots.txt
+    # @example Get other values for google.com
+    #    robots = Robots.new('google.com', 'SiteMapper')
+    #    robots.other_values
+    def other_values(uri)
+      uri  = to_uri(uri)
+      host = uri.host
+      @parsed[host] ||= ParsedRobots.new(@robots_txt, @user_agent)
+      @parsed[host].other_values
+    end
+    private
+    def to_uri(uri)
+      uri = URI.parse(uri.to_s) unless uri.is_a?(URI)
+      uri
+    end
+  end
+end

data/lib/site_mapper/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module SiteMapper
-  VERSION = '0.0.6'
+  VERSION = '0.0.7'
 end

data/lib/site_mapper.rb CHANGED Viewed

@@ -3,6 +3,7 @@ require 'net/http'
 require 'site_mapper/version'
 require 'site_mapper/request'
+require 'site_mapper/robots'
 require 'site_mapper/crawler'
 require 'site_mapper/crawl_url'

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: site_mapper
 version: !ruby/object:Gem::Version
-  version: 0.0.6
+  version: 0.0.7
 platform: ruby
 authors:
 - Jacob Burenstam
@@ -108,7 +108,7 @@ dependencies:
     - - ~>
       - !ruby/object:Gem::Version
         version: '0.7'
-description: Find all links on domain to domain.
+description: Map all links on a given site.
 email:
 - burenstam@gmail.com
 executables:
@@ -117,11 +117,12 @@ extensions: []
 extra_rdoc_files: []
 files:
 - bin/site_mapper
-- lib/site_mapper.rb
 - lib/site_mapper/crawl_url.rb
 - lib/site_mapper/crawler.rb
 - lib/site_mapper/request.rb
+- lib/site_mapper/robots.rb
 - lib/site_mapper/version.rb
+- lib/site_mapper.rb
 homepage: https://github.com/buren/site_mapper
 licenses:
 - MIT
@@ -142,9 +143,9 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.2.2
+rubygems_version: 2.0.0
 signing_key:
 specification_version: 4
-summary: Find all links on domain to domain
+summary: Map all links on a given site.
 test_files: []
 has_rdoc: