RubyGems - cobweb - Versions diffs - 0.0.72 → 0.0.73 - Mend

cobweb 0.0.72 → 0.0.73

Files changed (5) hide show

data/README.textile CHANGED Viewed

@@ -1,5 +1,5 @@
-h1. Cobweb v0.0.72
+h1. Cobweb v0.0.73
 "@cobweb_gem":https://twitter.com/cobweb_gem

data/lib/cobweb_crawl_helper.rb CHANGED Viewed

@@ -22,9 +22,8 @@ class CobwebCrawlHelper
     # set status as cancelled now so that we don't enqueue any further pages
     self.statistics.end_crawl(@data, true)
-    puts "end_crawl: #{self.statistics.get_status}"
     if options[:finished_resque_queue]
-      puts "enqueueing finished job..."
       additional_stats = {:crawl_id => id, :crawled_base_url => @stats.redis.get("crawled_base_url")}
       additional_stats[:redis_options] = @data[:redis_options] unless @data[:redis_options] == {}
@@ -33,18 +32,23 @@ class CobwebCrawlHelper
       Resque.enqueue(options[:finished_resque_queue], @stats.get_statistics.merge(additional_stats))
     end
-    position = 0
-    job_items = Resque.peek(options[:queue_name], position, BATCH_SIZE)
-    until job_items.empty?
-      puts "Batch: #{position} : #{job_items.count}"
+    counter = 0
+    while(counter < 200) do
+      break if self.statistics.get_status == CANCELLED
+      sleep 1
+      counter += 1
+    end
+    position = Resque.size(options[:queue_name])
+    until position == 0
+      position-=BATCH_SIZE
+      position = 0 if position < 0
+      job_items = Resque.peek(options[:queue_name], position, BATCH_SIZE)
       job_items.each do |item|
         if item["args"][0]["crawl_id"] == id
           # remove this job from the queue
           Resque.dequeue(CrawlJob, item["args"][0])
         end
       end
-      job_items = Resque.peek(options[:queue_name], position+=BATCH_SIZE, BATCH_SIZE)
     end
   end

data/lib/cobweb_version.rb CHANGED Viewed

@@ -3,7 +3,7 @@ class CobwebVersion
   # Returns a string of the current version
   def self.version
-    "0.0.72"
+    "0.0.73"
   end
 end

data/lib/crawl_job.rb CHANGED Viewed

@@ -28,84 +28,92 @@ class CrawlJob
     # check we haven't crawled this url before
     unless @redis.sismember "crawled", content_request[:url]
       # if there is no limit or we're still under it lets get the url
-      if within_crawl_limits?(content_request[:crawl_limit]) and @crawl.status != CobwebCrawlHelper::CANCELLED
-        content = Cobweb.new(content_request).get(content_request[:url], content_request)
-        if content_request[:url] == @redis.get("original_base_url")
-           @redis.set("crawled_base_url", content[:base_url])
-        end
-        if is_permitted_type(content)
-          begin
-            @redis.incr "inprogress"
-            # move the url from the queued list to the crawled list - for both the original url, and the content url (to handle redirects)
-            @redis.srem "queued", content_request[:url]
-            @redis.sadd "crawled", content_request[:url]
-            @redis.srem "queued", content[:url]
-            @redis.sadd "crawled", content[:url]
-            # increment the counter if we are not limiting by page only || we are limiting count by page and it is a page
-            if content_request[:crawl_limit_by_page]
-              if content[:mime_type].match("text/html")
+      if within_crawl_limits?(content_request[:crawl_limit])
+        if @crawl.status != CobwebCrawlHelper::CANCELLED
+          content = Cobweb.new(content_request).get(content_request[:url], content_request)
+          if content_request[:url] == @redis.get("original_base_url")
+             @redis.set("crawled_base_url", content[:base_url])
+          end
+          if is_permitted_type(content)
+            begin
+              @redis.incr "inprogress"
+              # move the url from the queued list to the crawled list - for both the original url, and the content url (to handle redirects)
+              @redis.srem "queued", content_request[:url]
+              @redis.sadd "crawled", content_request[:url]
+              @redis.srem "queued", content[:url]
+              @redis.sadd "crawled", content[:url]
+              # increment the counter if we are not limiting by page only || we are limiting count by page and it is a page
+              if content_request[:crawl_limit_by_page]
+                if content[:mime_type].match("text/html")
+                  increment_crawl_started_counter
+                end
+              else
                 increment_crawl_started_counter
               end
-            else
-              increment_crawl_started_counter
-            end
-            ## update statistics
-            @stats.update_status("Crawling #{content_request[:url]}...")
-            @stats.update_statistics(content)
+              ## update statistics
+              @stats.update_status("Crawling #{content_request[:url]}...")
+              @stats.update_statistics(content)
-            # set the base url if this is the first page
-            set_base_url @redis, content, content_request
+              # set the base url if this is the first page
+              set_base_url @redis, content, content_request
-            @cobweb_links = CobwebLinks.new(content_request)
-            if within_queue_limits?(content_request[:crawl_limit])
-              internal_links = ContentLinkParser.new(content_request[:url], content[:body], content_request).all_links(:valid_schemes => [:http, :https])
-              #get rid of duplicate links in the same page.
-              internal_links.uniq!
-              # select the link if its internal
-              internal_links.select! { |link| @cobweb_links.internal?(link) }
+              @cobweb_links = CobwebLinks.new(content_request)
+              if within_queue_limits?(content_request[:crawl_limit])
+                internal_links = ContentLinkParser.new(content_request[:url], content[:body], content_request).all_links(:valid_schemes => [:http, :https])
+                #get rid of duplicate links in the same page.
+                internal_links.uniq!
+                # select the link if its internal
+                internal_links.select! { |link| @cobweb_links.internal?(link) }
-              # reject the link if we've crawled it or queued it
-              internal_links.reject! { |link| @redis.sismember("crawled", link) }
-              internal_links.reject! { |link| @redis.sismember("queued", link) }
+                # reject the link if we've crawled it or queued it
+                internal_links.reject! { |link| @redis.sismember("crawled", link) }
+                internal_links.reject! { |link| @redis.sismember("queued", link) }
-              internal_links.each do |link|
-                puts link
-                puts "Not enqueuing due to cancelled crawl" if @crawl.status == CobwebCrawlHelper::CANCELLED
-                if within_queue_limits?(content_request[:crawl_limit]) and @crawl.status != CobwebCrawlHelper::CANCELLED
-                  enqueue_content(content_request, link)
+                internal_links.each do |link|
+                  puts link
+                  puts "Not enqueuing due to cancelled crawl" if @crawl.status == CobwebCrawlHelper::CANCELLED
+                  if within_queue_limits?(content_request[:crawl_limit])
+                    if @crawl.status != CobwebCrawlHelper::CANCELLED
+                      enqueue_content(content_request, link)
+                    else
+                      puts "Cannot enqueue new content as crawl has been cancelled." if content_request[:debug]
+                    end
+                  end
                 end
               end
-            end
-            # enqueue to processing queue
-            send_to_processing_queue(content, content_request)
+              # enqueue to processing queue
+              send_to_processing_queue(content, content_request)
-            #if the enqueue counter has been requested update that
-            if content_request.has_key?(:enqueue_counter_key)
-              enqueue_redis = NamespacedRedis.new(content_request[:redis_options], content_request[:enqueue_counter_namespace].to_s)
-              current_count = enqueue_redis.hget(content_request[:enqueue_counter_key], content_request[:enqueue_counter_field]).to_i
-              enqueue_redis.hset(content_request[:enqueue_counter_key], content_request[:enqueue_counter_field], current_count+1)
-            end
+              #if the enqueue counter has been requested update that
+              if content_request.has_key?(:enqueue_counter_key)
+                enqueue_redis = NamespacedRedis.new(content_request[:redis_options], content_request[:enqueue_counter_namespace].to_s)
+                current_count = enqueue_redis.hget(content_request[:enqueue_counter_key], content_request[:enqueue_counter_field]).to_i
+                enqueue_redis.hset(content_request[:enqueue_counter_key], content_request[:enqueue_counter_field], current_count+1)
+              end
-          ensure
-            @redis.decr "inprogress"
-            #update the queued and crawled lists if we are within the crawl limits.
+            ensure
+              @redis.decr "inprogress"
+              #update the queued and crawled lists if we are within the crawl limits.
-            # update the queue and crawl counts -- doing this very late in the piece so that the following transaction all occurs at once.
-            # really we should do this with a lock https://github.com/PatrickTulskie/redis-lock
-            # stewart: i'm looking at the layout of this, think that there is scope for cleaning up the perform method to be more DRY.
-            if content_request[:crawl_limit_by_page]
-              if content[:mime_type].match("text/html")
+              # update the queue and crawl counts -- doing this very late in the piece so that the following transaction all occurs at once.
+              # really we should do this with a lock https://github.com/PatrickTulskie/redis-lock
+              # stewart: i'm looking at the layout of this, think that there is scope for cleaning up the perform method to be more DRY.
+              if content_request[:crawl_limit_by_page]
+                if content[:mime_type].match("text/html")
+                  increment_crawl_counter
+                end
+              else
                 increment_crawl_counter
               end
-            else
-              increment_crawl_counter
+              puts "Crawled: #{crawl_counter} Limit: #{content_request[:crawl_limit]} Queued: #{queue_counter} In Progress: #{crawl_started_counter-crawl_counter}" if @debug
             end
-            puts "Crawled: #{crawl_counter} Limit: #{content_request[:crawl_limit]} Queued: #{queue_counter} In Progress: #{crawl_started_counter-crawl_counter}" if @debug
+          else
+            puts "ignoring #{content_request[:url]} as mime_type is #{content[:mime_type]}" if content_request[:debug]
           end
         else
-          puts "ignoring #{content_request[:url]} as mime_type is #{content[:mime_type]}" if content_request[:debug]
+          puts "ignoring #{content_request[:url]} as crawl has been cancelled." if content_request[:debug]
         end
       else
         puts "ignoring #{content_request[:url]} as outside of crawl limits." if content_request[:debug]

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: cobweb
 version: !ruby/object:Gem::Version
-  version: 0.0.72
+  version: 0.0.73
   prerelease:
 platform: ruby
 authors:
@@ -13,7 +13,7 @@ date: 2012-09-20 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: resque
-  requirement: &70308627743380 !ruby/object:Gem::Requirement
+  requirement: &70226914018080 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -21,10 +21,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627743380
+  version_requirements: *70226914018080
 - !ruby/object:Gem::Dependency
   name: redis
-  requirement: &70308627741840 !ruby/object:Gem::Requirement
+  requirement: &70226914017080 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -32,10 +32,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627741840
+  version_requirements: *70226914017080
 - !ruby/object:Gem::Dependency
   name: nokogiri
-  requirement: &70308627741060 !ruby/object:Gem::Requirement
+  requirement: &70226914016400 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -43,10 +43,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627741060
+  version_requirements: *70226914016400
 - !ruby/object:Gem::Dependency
   name: addressable
-  requirement: &70308627740200 !ruby/object:Gem::Requirement
+  requirement: &70226914015220 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -54,10 +54,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627740200
+  version_requirements: *70226914015220
 - !ruby/object:Gem::Dependency
   name: rspec
-  requirement: &70308627739500 !ruby/object:Gem::Requirement
+  requirement: &70226914014640 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -65,10 +65,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627739500
+  version_requirements: *70226914014640
 - !ruby/object:Gem::Dependency
   name: awesome_print
-  requirement: &70308627739020 !ruby/object:Gem::Requirement
+  requirement: &70226914013860 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -76,10 +76,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627739020
+  version_requirements: *70226914013860
 - !ruby/object:Gem::Dependency
   name: sinatra
-  requirement: &70308627738100 !ruby/object:Gem::Requirement
+  requirement: &70226914013140 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -87,10 +87,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627738100
+  version_requirements: *70226914013140
 - !ruby/object:Gem::Dependency
   name: thin
-  requirement: &70308627737580 !ruby/object:Gem::Requirement
+  requirement: &70226914012280 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -98,10 +98,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627737580
+  version_requirements: *70226914012280
 - !ruby/object:Gem::Dependency
   name: haml
-  requirement: &70308627737040 !ruby/object:Gem::Requirement
+  requirement: &70226914011460 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -109,10 +109,10 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627737040
+  version_requirements: *70226914011460
 - !ruby/object:Gem::Dependency
   name: namespaced_redis
-  requirement: &70308627736400 !ruby/object:Gem::Requirement
+  requirement: &70226914010720 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -120,10 +120,10 @@ dependencies:
         version: 1.0.2
   type: :runtime
   prerelease: false
-  version_requirements: *70308627736400
+  version_requirements: *70226914010720
 - !ruby/object:Gem::Dependency
   name: json
-  requirement: &70308627735860 !ruby/object:Gem::Requirement
+  requirement: &70226914010260 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -131,7 +131,7 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70308627735860
+  version_requirements: *70226914010260
 description: Cobweb is a web crawler that can use resque to cluster crawls to quickly
   crawl extremely large sites which is much more perofmant than multi-threaded crawlers.  It
   is also a standalone crawler that has a sophisticated statistics monitoring interface