RubyGems - simplecrawler - Versions diffs - 0.1.0 → 0.1.1 - Mend

simplecrawler 0.1.0 → 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

data/examples/accessibility_report.rb +11 -3
data/examples/find_pdfs.rb +20 -0
data/lib/document.rb +16 -0
data/lib/simplecrawler.rb +11 -22
data/tests/simplecrawler_test.rb +1 -0
metadata +4 -2

data/examples/accessibility_report.rb CHANGED

@@ -1,3 +1,8 @@
+# == Basic accessibility report - SimpleCrawler example
+# Author::    Peter Krantz (http://www.peterkrantz.com)
+#
+# This is an example of how SimpleCrawler can be used together with Raakt and Ruport to check basic accessibility of an entire website. For details on the error message id:s generated in the report see http://www.peterkrantz.com/raakt/wiki/error-message-ids
+#
 require '../lib/simplecrawler.rb'
 require 'raakt'
 require 'ruport'
@@ -5,9 +10,9 @@ require 'ruport'
 # Set up a new crawler
 sc = SimpleCrawler::Crawler.new(ARGV[0])
 sc.skip_patterns = ["\\.doc$", "\\.pdf$", "\\.xls$", "\\.pdf$", "\\.zip$"]
-sc.maxcount = 10
+sc.maxcount = 100
-report_data = Ruport::Data::Table.new :column_names => ["Url", "Error count"]
+report_data = Ruport::Data::Table.new :column_names => ["Url", "Error"]
 sc.crawl { |document|
@@ -15,8 +20,11 @@ sc.crawl { |document|
 	raakt = Raakt::Test.new(document.data)
 	result = raakt.all
 	puts "#{result.length}\t#{document.uri}"
 	if result.length > 0
-		report_data << [document.uri, result.length]
+		for error in result
+			report_data << [document.uri, error.eid.to_s]
+		end
 	end
 }

data/examples/find_pdfs.rb ADDED

@@ -0,0 +1,20 @@
+# == Find PDF documents - SimpleCrawler example
+# Author::    Peter Krantz (http://www.peterkrantz.com)
+#
+# This is an example of how SimpleCrawler can be used to find dcuments of a specific type on a website.
+#
+require '../lib/simplecrawler.rb'
+require 'raakt'
+require 'ruport'
+# Set up a new crawler
+sc = SimpleCrawler::Crawler.new(ARGV[0])
+sc.maxcount = 200 #Only crawl 200 pages
+sc.crawl { |document|
+	if document.headers["content-type"] == "application/pdf"
+		puts document.uri
+	end
+}

data/lib/document.rb ADDED

@@ -0,0 +1,16 @@
+module SimpleCrawler
+	class Document
+		attr_accessor :uri, :data, :headers, :fetched_at, :http_status
+		def to_s
+			puts "Document"
+			puts " .uri:\t\t#{uri}"
+			puts " .fetched_at:\t#{fetched_at}"
+			puts " .headers:"
+			for header in headers
+				puts "   #{header[0]}: #{header[1]}"
+			end
+			puts " .data.length:\t#{(data.length)}"
+		end
+	end
+end

data/lib/simplecrawler.rb CHANGED

@@ -20,28 +20,10 @@ module SimpleCrawler
 	require 'rubygems'
 	require 'hpricot'
 	require 'open-uri'
+	require File.dirname(__FILE__) + '/document'
 	MARKUP_MIME_TYPES = ["text/html", "text/xml", "application/xml", "application/xhtml+xml"]
-	VERSION = "0.1.0"
-	class Document
-		attr_accessor :uri, :data, :headers, :fetched_at
-		def to_s
-			puts "Document"
-			puts " .uri:\t\t#{uri}"
-			puts " .fetched_at:\t#{fetched_at}"
-			puts " .headers:"
-			for header in headers
-				puts "   #{header[0]}: #{header[1]}"
-			end
-			puts " .data.length:\t#{(data.length)}"
-		end
-	end
+	VERSION = "0.1.1"
 	class Crawler
@@ -58,6 +40,11 @@ module SimpleCrawler
 		end
+		# Override this method for your own logging needs.
+		def log(message)
+			puts message
+		end
 		# Check if a path should be ignored because it matches a skip pattern or is already visited.
 		def skip_uri?(uri)
@@ -119,6 +106,8 @@ module SimpleCrawler
 				uri.path = uri.path + path if path != "/"
 				doc.uri = uri
+				log("Trying #{uri}")
 				file = open(uri)
 				mime_type = file.meta["content-type"].split(";")[0] if file.meta["content-type"]
@@ -132,8 +121,8 @@ module SimpleCrawler
 				doc.headers = file.meta
 				doc.fetched_at = Time.now
 			rescue Exception
-				puts "Error: #{$!}"
-				return ""
+				log("Error fetching [#{uri}]: #{$!}")
+				return doc
 			end
 			return doc
 		end

data/tests/simplecrawler_test.rb CHANGED

@@ -98,4 +98,5 @@ class SimpleCrawlerTest < Test::Unit::TestCase
 	  @simplecrawler.queue_local_links(doc)
 	  assert_equal 1, @simplecrawler.queue.length
   end
 end

metadata CHANGED

@@ -3,8 +3,8 @@ rubygems_version: 0.9.2
 specification_version: 1
 name: simplecrawler
 version: !ruby/object:Gem::Version
-  version: 0.1.0
-date: 2007-08-27 00:00:00 +02:00
+  version: 0.1.1
+date: 2007-08-30 00:00:00 +02:00
 summary: A generic library for web crawling.
 require_paths:
 - lib
@@ -30,10 +30,12 @@ authors:
 - Peter Krantz
 files:
 - README
+- lib/document.rb
 - lib/simplecrawler.rb
 - tests/simplecrawler_test.rb
 - examples/accessibility_report.rb
 - examples/crawl.rb
+- examples/find_pdfs.rb
 - examples/list_site_links.rb
 test_files:
 - tests/simplecrawler_test.rb