RubyGems - cobweb - Versions diffs - 1.0.11 → 1.0.12 - Mend

cobweb 1.0.11 → 1.0.12

Files changed (34) hide show

data/README.textile +4 -3
data/lib/cobweb.rb +31 -8
data/lib/cobweb_crawler.rb +7 -8
data/lib/cobweb_process_job.rb +1 -1
data/lib/cobweb_version.rb +1 -1
data/lib/crawl.rb +11 -4
data/lib/crawl_finished_worker.rb +27 -0
data/lib/crawl_helper.rb +250 -0
data/lib/crawl_job.rb +2 -2
data/lib/crawl_process_worker.rb +31 -0
data/lib/crawl_worker.rb +118 -0
data/lib/sidekiq/cobweb_helper.rb +16 -0
data/lib/stats.rb +12 -11
data/lib/uri_helper.rb +8 -0
data/spec/cobweb/cobweb_crawl_helper_spec.rb +4 -1
data/spec/cobweb/cobweb_crawl_spec.rb +29 -13
data/spec/cobweb/cobweb_crawler_spec.rb +33 -14
data/spec/cobweb/cobweb_links_spec.rb +2 -1
data/spec/cobweb/cobweb_spec.rb +3 -0
data/spec/cobweb/content_link_parser_spec.rb +4 -0
data/spec/cobweb/{cobweb_job_spec.rb → crawl_job_spec.rb} +52 -9
data/spec/cobweb/crawl_worker_spec.rb +250 -0
data/spec/cobweb/robots_spec.rb +2 -1
data/spec/http_stubs.rb +95 -0
data/spec/samples/sample_site/{boxgrid.html → boxgrid>withsillyname.html} +1 -1
data/spec/samples/sample_site/dashboard.html +1 -1
data/spec/samples/sample_site/forms.html +1 -1
data/spec/samples/sample_site/gallery.html +1 -1
data/spec/samples/sample_site/more.html +1 -1
data/spec/samples/sample_site/tables.html +1 -1
data/spec/samples/sample_site/typography.html +1 -1
data/spec/spec_helper.rb +6 -88
metadata +85 -35
data/spec/cobweb/site_test_spec.rb.tmp +0 -101

data/README.textile CHANGED Viewed

@@ -1,10 +1,11 @@
-h1. Cobweb v1.0.11
+h1. Cobweb v1.0.12
 "@cobweb_gem":https://twitter.com/cobweb_gem
-!https://secure.travis-ci.org/stewartmckee/cobweb.png?branch=master!
+!https://badge.fury.io/rb/cobweb.png!:http://badge.fury.io/rb/cobweb
 !https://gemnasium.com/stewartmckee/cobweb.png!
+!https://coveralls.io/repos/stewartmckee/cobweb/badge.png?branch=master(Coverage Status)!:https://coveralls.io/r/stewartmckee/cobweb
 h2. Intro

data/lib/cobweb.rb CHANGED Viewed

@@ -33,8 +33,14 @@ class Cobweb
     default_use_encoding_safe_process_job_to  false
     default_follow_redirects_to               true
     default_redirect_limit_to                 10
-    default_processing_queue_to               "CobwebProcessJob"
-    default_crawl_finished_queue_to           "CobwebFinishedJob"
+    default_queue_system_to                   :resque
+    if @options[:queue_system] == :resque
+      default_processing_queue_to               "CobwebProcessJob"
+      default_crawl_finished_queue_to           "CobwebFinishedJob"
+    else
+      default_processing_queue_to               "CrawlProcessWorker"
+      default_crawl_finished_queue_to           "CrawlFinishedWorker"
+    end
     default_quiet_to                          true
     default_debug_to                          false
     default_cache_to                          300
@@ -49,7 +55,7 @@ class Cobweb
     default_user_agent_to                     "cobweb/#{Cobweb.version} (ruby/#{RUBY_VERSION} nokogiri/#{Nokogiri::VERSION})"
     default_valid_mime_types_to                ["*/*"]
     default_raise_exceptions_to               false
-    default_store_refered_url_to              false
+    default_store_inbound_links_to            false
   end
@@ -80,7 +86,14 @@ class Cobweb
     # add internal_urls into redis
     @options[:internal_urls].map{|url| @redis.sadd("internal_urls", url)}
-    Resque.enqueue(CrawlJob, request)
+    if @options[:queue_system] == :resque
+      Resque.enqueue(CrawlJob, request)
+    elsif @options[:queue_system] == :sidekiq
+      CrawlWorker.perform_async(request)
+    else
+      raise "Unknown queue system: #{content_request[:queue_system]}"
+    end
     request
   end
@@ -124,8 +137,13 @@ class Cobweb
     # check if it has already been cached
     if ((@options[:cache_type] == :crawl_based && redis.get(unique_id)) || (@options[:cache_type] == :full && full_redis.get(unique_id))) && @options[:cache]
-      puts "Cache hit for #{url}" unless @options[:quiet]
-      content = HashUtil.deep_symbolize_keys(Marshal.load(redis.get(unique_id)))
+      if @options[:cache_type] == :crawl_based
+        puts "Cache hit for #{url}" unless @options[:quiet]
+        content = HashUtil.deep_symbolize_keys(Marshal.load(redis.get(unique_id)))
+      else
+        puts "Cache hit for #{url}" unless @options[:quiet]
+        content = HashUtil.deep_symbolize_keys(Marshal.load(full_redis.get(unique_id)))
+      end
     else
       # retrieve data
       #unless @http && @http.address == uri.host && @http.port == uri.inferred_port
@@ -204,8 +222,13 @@ class Cobweb
         end
         # add content to cache if required
         if @options[:cache]
-          redis.set(unique_id, Marshal.dump(content))
-          redis.expire unique_id, @options[:cache].to_i
+          if @options[:cache_type] == :crawl_based
+            redis.set(unique_id, Marshal.dump(content))
+            redis.expire unique_id, @options[:cache].to_i
+          else
+            full_redis.set(unique_id, Marshal.dump(content))
+            full_redis.expire unique_id, @options[:cache].to_i
+          end
         end
       rescue RedirectError => e
         raise e if @options[:raise_exceptions]

data/lib/cobweb_crawler.rb CHANGED Viewed

@@ -96,14 +96,12 @@ class CobwebCrawler
             @redis.sadd "crawled", url.to_s
             @redis.incr "crawl-counter"
-            internal_links = ContentLinkParser.new(url, content[:body]).all_links(:valid_schemes => [:http, :https])
+            document_links = ContentLinkParser.new(url, content[:body]).all_links(:valid_schemes => [:http, :https]).uniq
             # select the link if its internal (eliminate external before expensive lookups in queued and crawled)
             cobweb_links = CobwebLinks.new(@options)
-            internal_links = internal_links.select{|link| cobweb_links.internal?(link) || (@options[:crawl_linked_external] && cobweb_links.internal?(url.to_s) && !cobweb_links.matches_external?(link))}
-            all_internal_links = internal_links
+            internal_links = document_links.select{|link| cobweb_links.internal?(link) || (@options[:crawl_linked_external] && cobweb_links.internal?(url.to_s) && !cobweb_links.matches_external?(link))}
             # reject the link if we've crawled it or queued it
             internal_links.reject!{|link| @redis.sismember("crawled", link)}
@@ -120,12 +118,13 @@ class CobwebCrawler
               @queue_counter += 1
             end
-            if @options[:store_refered_url]
-              all_internal_links.each do |link|
-                @redis.sadd("inbound_links_#{Digest::MD5.hexdigest(link)}", url)
+            if @options[:store_inbound_links]
+              document_links.each do |target_link|
+                target_uri = UriHelper.parse(target_link)
+                @redis.sadd("inbound_links_#{Digest::MD5.hexdigest(target_uri.to_s)}", UriHelper.parse(url).to_s)
               end
             end
             @crawl_counter = @redis.scard("crawled").to_i
             @queue_counter = @redis.scard("queued").to_i

data/lib/cobweb_process_job.rb CHANGED Viewed

@@ -6,7 +6,7 @@ class CobwebProcessJob
   # Resque perform method
   def self.perform(content)
-    content = HashHelper.symbolize_keys(content)
+    content = HashUtil.deep_symbolize_keys(content)
     puts "Dummy Processing for #{content[:url]}"
     #ap content.keys

data/lib/cobweb_version.rb CHANGED Viewed

@@ -3,7 +3,7 @@ class CobwebVersion
   # Returns a string of the current version
   def self.version
-    "1.0.11"
+    "1.0.12"
   end
 end

data/lib/crawl.rb CHANGED Viewed

@@ -88,11 +88,12 @@ module CobwebModule
       @cobweb_links = CobwebLinks.new(@options)
       if within_queue_limits?
-        internal_links = ContentLinkParser.new(@options[:url], content.body, @options).all_links(:valid_schemes => [:http, :https])
+        document_links = ContentLinkParser.new(@options[:url], content.body, @options).all_links(:valid_schemes => [:http, :https])
         #get rid of duplicate links in the same page.
-        internal_links.uniq!
+        document_links.uniq!
         # select the link if its internal
-        internal_links.select! { |link| @cobweb_links.internal?(link) }
+        internal_links = document_links.select{ |link| @cobweb_links.internal?(link) }
         # reject the link if we've crawled it or queued it
         internal_links.reject! { |link| @redis.sismember("crawled", link) }
@@ -111,6 +112,13 @@ module CobwebModule
             end
           end
         end
+        if @options[:store_inbound_links]
+          document_links.each do |link|
+            uri = URI.parse(link)
+            @redis.sadd("inbound_links_#{Digest::MD5.hexdigest(uri.to_s)}", url)
+          end
+        end
       end
     end
@@ -180,7 +188,6 @@ module CobwebModule
     def finished
       set_first_to_finish
-      debug_ap "CRAWL FINISHED  #{@options[:url]}, #{counters}, #{@redis.get("original_base_url")}, #{@redis.get("crawled_base_url")}"
       @stats.end_crawl(@options)
     end

data/lib/crawl_finished_worker.rb ADDED Viewed

@@ -0,0 +1,27 @@
+require 'sidekiq'
+require File.expand_path(File.dirname(__FILE__) + '/sidekiq/cobweb_helper')
+# If your client is single-threaded, we just need a single connection in our Redis connection pool
+#Sidekiq.configure_client do |config|
+#  config.redis = { :namespace => 'x', :size => 1, :url => 'redis://localhost:6379/14' }
+#end
+# Sidekiq server is multi-threaded so our Redis connection pool size defaults to concurrency (-c)
+#Sidekiq.configure_server do |config|
+#  config.redis = { :namespace => 'x', :url => 'redis://localhost:6379/14' }
+#end
+class CrawlFinishedWorker
+  include Sidekiq::Worker
+  sidekiq_options queue: "crawl_finished_worker"
+  def perform(statistics)
+    puts "Dummy Finished Job"
+    ap statistics
+  end
+end

data/lib/crawl_helper.rb ADDED Viewed

@@ -0,0 +1,250 @@
+class CrawlHelper
+  require "net/https"
+  require "uri"
+  require "redis"
+  require 'namespaced_redis'
+  def self.crawl_page(content_request)
+    # change all hash keys to symbols
+    content_request = HashUtil.deep_symbolize_keys(content_request)
+    @content_request = content_request
+    content_request[:redis_options] = {} unless content_request.has_key? :redis_options
+    content_request[:crawl_limit_by_page] = false unless content_request.has_key? :crawl_limit_by_page
+    content_request[:valid_mime_types] = ["*/*"] unless content_request.has_key? :valid_mime_types
+    content_request[:queue_system] = content_request[:queue_system].to_sym
+    @redis = NamespacedRedis.new(content_request[:redis_options], "cobweb-#{Cobweb.version}-#{content_request[:crawl_id]}")
+    @stats = Stats.new(content_request)
+    @debug = content_request[:debug]
+    decrement_queue_counter
+    # check we haven't crawled this url before
+    unless @redis.sismember "crawled", content_request[:url]
+      # if there is no limit or we're still under it lets get the url
+      if within_crawl_limits?(content_request[:crawl_limit])
+        content = Cobweb.new(content_request).get(content_request[:url], content_request)
+        if content_request[:url] == @redis.get("original_base_url")
+           @redis.set("crawled_base_url", content[:base_url])
+        end
+        if is_permitted_type(content)
+          begin
+            # move the url from the queued list to the crawled list - for both the original url, and the content url (to handle redirects)
+            @redis.srem "queued", content_request[:url]
+            @redis.sadd "crawled", content_request[:url]
+            @redis.srem "queued", content[:url]
+            @redis.sadd "crawled", content[:url]
+            # increment the counter if we are not limiting by page only || we are limiting count by page and it is a page
+            if content_request[:crawl_limit_by_page]
+              if content[:mime_type].match("text/html")
+                increment_crawl_started_counter
+              end
+            else
+              increment_crawl_started_counter
+            end
+            ## update statistics
+            @stats.update_status("Crawling #{content_request[:url]}...")
+            @stats.update_statistics(content)
+            # set the base url if this is the first page
+            set_base_url @redis, content, content_request
+            @cobweb_links = CobwebLinks.new(content_request)
+            if within_queue_limits?(content_request[:crawl_limit])
+              internal_links = ContentLinkParser.new(content_request[:url], content[:body], content_request).all_links(:valid_schemes => [:http, :https])
+              # select the link if its internal
+              internal_links.select! { |link| @cobweb_links.internal?(link) }
+              # reject the link if we've crawled it or queued it
+              internal_links.reject! { |link| @redis.sismember("crawled", link) }
+              internal_links.reject! { |link| @redis.sismember("queued", link) }
+              internal_links.each do |link|
+                enqueue_content(content_request, link) if within_queue_limits?(content_request[:crawl_limit])
+              end
+            end
+            # enqueue to processing queue
+            send_to_processing_queue(content, content_request)
+            #if the enqueue counter has been requested update that
+            if content_request.has_key? :enqueue_counter_key
+              enqueue_redis = NamespacedRedis.new(content_request[:redis_options], content_request[:enqueue_counter_namespace].to_s)
+              current_count = enqueue_redis.hget(content_request[:enqueue_counter_key], content_request[:enqueue_counter_field]).to_i
+              enqueue_redis.hset(content_request[:enqueue_counter_key], content_request[:enqueue_counter_field], current_count+1)
+            end
+          ensure
+            #update the queued and crawled lists if we are within the crawl limits.
+            # update the queue and crawl counts -- doing this very late in the piece so that the following transaction all occurs at once.
+            # really we should do this with a lock https://github.com/PatrickTulskie/redis-lock
+            if content_request[:crawl_limit_by_page]
+              if content[:mime_type].match("text/html")
+                increment_crawl_counter
+              end
+            else
+              increment_crawl_counter
+            end
+            puts "Crawled: #{@crawl_counter} Limit: #{content_request[:crawl_limit]} Queued: #{@queue_counter} In Progress: #{@crawl_started_counter-@crawl_counter}" if @debug
+          end
+        else
+          puts "ignoring #{content_request[:url]} as mime_type is #{content[:mime_type]}" if content_request[:debug]
+        end
+      else
+        puts "ignoring #{content_request[:url]} as outside of crawl limits." if content_request[:debug]
+      end
+    else
+      @redis.srem "queued", content_request[:url]
+      puts "Already crawled #{content_request[:url]}" if content_request[:debug]
+    end
+    # if there's nothing left queued or the crawled limit has been reached
+    refresh_counters
+    if content_request[:crawl_limit].nil? || content_request[:crawl_limit] == 0
+      if @queue_counter+@crawl_started_counter-@crawl_counter == 0
+        finished(content_request)
+      end
+    elsif (@queue_counter +@crawl_started_counter-@crawl_counter)== 0 || @crawl_counter >= content_request[:crawl_limit].to_i
+      finished(content_request)
+    end
+  end
+  # Sets the crawl status to 'Crawl Finished' and enqueues the crawl finished job
+  def self.finished(content_request)
+    # finished
+    if @redis.hget("statistics", "current_status")!= "Crawl Finished"
+      ap "CRAWL FINISHED  #{content_request[:url]}, #{counters}, #{@redis.get("original_base_url")}, #{@redis.get("crawled_base_url")}" if content_request[:debug]
+      @stats.end_crawl(content_request)
+      additional_stats = {:crawl_id => content_request[:crawl_id], :crawled_base_url => @redis.get("crawled_base_url")}
+      additional_stats[:redis_options] = content_request[:redis_options] unless content_request[:redis_options] == {}
+      additional_stats[:source_id] = content_request[:source_id] unless content_request[:source_id].nil?
+      if content_request[:queue_system] == :resque
+        Resque.enqueue(const_get(content_request[:crawl_finished_queue]), @stats.get_statistics.merge(additional_stats))
+      elsif content_request[:queue_system] == :sidekiq
+        puts "Queueing Finished on Sidekiq"
+        const_get(content_request[:crawl_finished_queue]).perform_async(@stats.get_statistics.merge(additional_stats))
+      else
+        raise "Unknown queue system: #{content_request[:queue_system]}"
+      end
+    else
+      # nothing to report here, we're skipping the remaining urls as we're outside of the crawl limit
+    end
+  end
+  # Enqueues the content to the processing queue setup in options
+  def self.send_to_processing_queue(content, content_request)
+    content_to_send = content.merge({:internal_urls => content_request[:internal_urls], :redis_options => content_request[:redis_options], :source_id => content_request[:source_id], :crawl_id => content_request[:crawl_id]})
+    if content_request[:direct_call_process_job]
+      clazz = const_get(content_request[:processing_queue])
+      clazz.perform(content_to_send)
+    elsif content_request[:use_encoding_safe_process_job]
+      content_to_send[:body] = Base64.encode64(content[:body])
+      content_to_send[:processing_queue] = content_request[:processing_queue]
+      Resque.enqueue(EncodingSafeProcessJob, content_to_send)
+    else
+      if content_request[:queue_system] == :resque
+        Resque.enqueue(const_get(content_request[:processing_queue]), content_to_send)
+      elsif content_request[:queue_system] == :sidekiq
+        puts "Queueing on Sidekiq"
+        const_get(content_request[:processing_queue]).perform_async(content_to_send)
+      else
+        raise "Unknown queue system: #{content_request[:queue_system]}"
+      end
+    end
+    puts "#{content_request[:url]} has been sent for processing. use_encoding_safe_process_job: #{content_request[:use_encoding_safe_process_job]}" if content_request[:debug]
+  end
+  private
+  # Helper method to determine if this content is to be processed or not
+  def self.is_permitted_type(content)
+    @content_request[:valid_mime_types].each do |mime_type|
+      return true if content[:mime_type].match(Cobweb.escape_pattern_for_regex(mime_type))
+    end
+    false
+  end
+  # Returns true if the crawl count is within limits
+  def self.within_crawl_limits?(crawl_limit)
+    refresh_counters
+    crawl_limit.nil? or @crawl_started_counter < crawl_limit.to_i
+  end
+  # Returns true if the queue count is calculated to be still within limits when complete
+  def self.within_queue_limits?(crawl_limit)
+    refresh_counters
+    (@content_request[:crawl_limit_by_page]&& (crawl_limit.nil? or @crawl_counter < crawl_limit.to_i)) || within_crawl_limits?(crawl_limit) && (crawl_limit.nil? || (@queue_counter + @crawl_counter) < crawl_limit.to_i)
+  end
+  # Sets the base url in redis.  If the first page is a redirect, it sets the base_url to the destination
+  def self.set_base_url(redis, content, content_request)
+    if redis.get("base_url").nil?
+      unless content[:redirect_through].nil? || content[:redirect_through].empty? || !content_request[:first_page_redirect_internal]
+        uri = Addressable::URI.parse(content[:redirect_through].last)
+        redis.sadd("internal_urls", [uri.scheme, "://", uri.host, "/*"].join)
+      end
+      redis.set("base_url", content[:url])
+    end
+  end
+  # Enqueues content to the crawl_job queue
+  def self.enqueue_content(content_request, link)
+    new_request = content_request.clone
+    new_request[:url] = link
+    new_request[:parent] = content_request[:url]
+    if content_request[:queue_system] == :resque
+      Resque.enqueue(CrawlJob, new_request)
+    elsif content_request[:queue_system] == :sidekiq
+      puts "Queueing content on Sidekiq"
+      CrawlWorker.perform_async(new_request)
+    else
+      raise "Unknown queue system: #{content_request[:queue_system]}"
+    end
+    @redis.sadd "queued", link
+    increment_queue_counter
+  end
+  # Increments the queue counter and refreshes crawl counters
+  def self.increment_queue_counter
+    @redis.incr "queue-counter"
+    refresh_counters
+  end
+  # Increments the crawl counter and refreshes crawl counters
+  def self.increment_crawl_counter
+    @redis.incr "crawl-counter"
+    refresh_counters
+  end
+  def self.increment_crawl_started_counter
+    @redis.incr "crawl-started-counter"
+    refresh_counters
+  end
+  # Decrements the queue counter and refreshes crawl counters
+  def self.decrement_queue_counter
+    @redis.decr "queue-counter"
+    refresh_counters
+  end
+  # Refreshes the crawl counters
+  def self.refresh_counters
+    @crawl_counter = @redis.get("crawl-counter").to_i
+    @crawl_started_counter = @redis.get("crawl-started-counter").to_i
+    @queue_counter = @redis.get("queue-counter").to_i
+  end
+  def self.print_counters
+    puts counters
+  end
+  def self.counters
+    "@crawl_counter: #{@crawl_counter} @crawl_started_counter: #{@crawl_started_counter} @queue_counter: #{@queue_counter}"
+  end
+end