RubyGems - wayback_archiver - Versions diffs - 0.0.6 → 0.0.7 - Mend

wayback_archiver 0.0.6 → 0.0.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

checksums.yaml +4 -4
data/lib/wayback_archiver/archive.rb +6 -4
data/lib/wayback_archiver/collector.rb +7 -7
data/lib/wayback_archiver/crawl_url.rb +69 -0
data/lib/wayback_archiver/crawler.rb +32 -22
data/lib/wayback_archiver/request.rb +15 -8
data/lib/wayback_archiver/version.rb +1 -1
data/lib/wayback_archiver.rb +4 -4
metadata +58 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: aee3e5d863178ea9283eb2b723e347d17aefa6b1
-  data.tar.gz: 597d40bdfa0d7538477dbbba3f6671a72f22d82a
+  metadata.gz: ddbffea2e55297390c66201d287b85fb6336d864
+  data.tar.gz: b419745edba1f8dcf9d6e83ce5b74cd70c9abd0f
 SHA512:
-  metadata.gz: 37f2b0372499d7999eed48a80647218127de4d240c661260f18011456c281956cdf778aa3bd66852be08caa3f0cfc03fdf8668895644197c31d1889cb464ddbe
-  data.tar.gz: 505e63ed0e5ce661d96acee3e53d2c950f1e550e611ce64951d7011e76642f595f26e1cc6f522581e3253d1317c1496e861ace64a19032418deb7d14c4f4f991
+  metadata.gz: 5bb23d2bab242cc55d1a9e851e5fd719431371f2149a2640ce34ede4be817f881ace982d39cff04691d435b140bbc54419bf90affb28d0621261cb9ee7d34a69
+  data.tar.gz: 91c6651a5cbeb1333a9f24ab3596ee0b284c54e4aa7c375b158bf6c3bbb54892a6c78c930a1942a3dcc9f4e0ab937c60a08e3f60a8339f0e9342cea6f0959c5f

data/lib/wayback_archiver/archive.rb CHANGED Viewed

@@ -3,7 +3,7 @@ module WaybackArchiver
     MAX_THREAD_COUNT = 8
     def self.post(all_urls)
-      puts "Request will be sent with max #{MAX_THREAD_COUNT} parallel threads"
+      puts "Request are sent with up to #{MAX_THREAD_COUNT} parallel threads"
       puts "Total urls to be sent: #{all_urls.length}"
       threads    = []
@@ -11,18 +11,20 @@ module WaybackArchiver
       all_urls.each_slice(group_size).to_a.each do |urls|
         threads << Thread.new do
           urls.each_with_index do |url, index|
-            request_url = "#{BASE_URL}#{url}"
+            resolved_url = Request.resolve_url(url)
+            request_url  = "#{BASE_URL}#{resolved_url}"
             begin
               res = Request.get_response(request_url)
-              print "#{url}    #{res.code} => #{res.message} \n"
+              puts "[#{res.code}, #{res.message}] #{resolved_url}"
             rescue Exception => e
               puts "Error message: #{e.message}"
-              puts "Failed to archive: #{url}"
+              puts "Failed to archive: #{resolved_url}"
             end
           end
         end
       end
       threads.each(&:join)
+      puts "#{all_urls.length} URLs sent to Internet archive"
       all_urls
     end
   end

data/lib/wayback_archiver/collector.rb CHANGED Viewed

@@ -1,27 +1,27 @@
 module WaybackArchiver
   class Collector
     class << self
       def urls_from_sitemap(url)
-        urls     = Array.new
-        xml_data = Request.get_response(url).body
+        urls     = []
+        xml_data = Request.get_response(Request.resolve_url(url)).body
         document = REXML::Document.new(xml_data)
         document.elements.each('urlset/url/loc') { |element| urls << element.text }
         urls
       end
+      def urls_from_crawl(url)
+        Crawler.collect_urls(url)
+      end
       def urls_from_file(path)
         raise ArgumentError, "No such file: #{path}" unless File.exist?(path)
-        urls = Array.new
+        urls = []
         text = File.open(path).read
         text.gsub!(/\r\n?/, "\n") # Normalize line endings
         text.each_line { |line| urls << line.gsub(/\n/, '').strip }
         urls.reject(&:empty?)
       end
     end
   end
 end

data/lib/wayback_archiver/crawl_url.rb ADDED Viewed

@@ -0,0 +1,69 @@
+module WaybackArchiver
+  class CrawlUrl
+    attr_reader :resolved_base_url, :base_hostname
+    def initialize(base_url)
+      @resolved_base_url = Request.resolve_url(base_url)
+      @base_hostname     = URI.parse(@resolved_base_url).host
+    end
+    def absolute_url_from(raw_url, get_url)
+      return nil unless eligible_url?(raw_url)
+      parsed_url = URI.parse(raw_url) rescue URI.parse('')
+      if parsed_url.relative?
+        url_from_relative(raw_url, get_url)
+      elsif base_hostname.eql?(parsed_url.hostname)
+        raw_url
+      else
+        nil
+      end
+    end
+    private
+    def url_from_relative(url, current_page_url)
+      if url.start_with?('/')
+        "#{without_path_suffix(resolved_base_url)}#{url}"
+      elsif url.start_with?('../')
+        "#{url_from_dotted_url(url, current_page_url)}"
+      else
+        "#{with_path_suffix(resolved_base_url)}#{url}"
+      end
+    end
+    def url_from_dotted_url(url, current_page_url)
+      absolute_url = with_path_suffix(current_page_url.dup)
+      found_dots   = without_path_suffix(url).scan('../').length
+      removed_dots = 0
+      max_levels   = 4
+      while found_dots >= removed_dots && max_levels > removed_dots
+        index = absolute_url.rindex('/') or break
+        absolute_url = absolute_url[0..(index - 1)]
+        removed_dots += 1
+      end
+      "#{with_path_suffix(absolute_url)}#{url.gsub('../', '')}"
+    end
+    def with_path_suffix(passed_url)
+      url = passed_url.dup
+      url.end_with?('/') ? url : url << '/'
+    end
+    def without_path_suffix(passed_url)
+      url = passed_url.dup
+      url.end_with?('/') ? url[0...(url.length - 1)] : url
+    end
+    def eligible_url?(href)
+      return false if href.nil? || href.empty?
+      dont_start   = %w(javascript: callto: mailto: tel: skype: facetime: wtai: #)
+      dont_include = %w(/email-protection#)
+      dont_end     = %w(.zip .rar .pdf .exe .dmg .pkg .dpkg .bat)
+      dont_start.each   { |pattern| return false if href.start_with?(pattern) }
+      dont_include.each { |pattern| return false if href.include?(pattern) }
+      dont_end.each     { |pattern| return false if href.end_with?(pattern) }
+      true
+    end
+  end
+end

data/lib/wayback_archiver/crawler.rb CHANGED Viewed

@@ -1,22 +1,27 @@
 require 'set'
 require 'nokogiri'
-require 'open-uri'
 module WaybackArchiver
   class Crawler
-    def initialize(base_url)
-      @base_url    = base_url
-      @hostname    = URI.parse(@base_url).host
+    CRAWLER_INFO_LINK = 'https://rubygems.org/gems/wayback_archiver'
+    HEADERS_HASH      = {
+      'User-Agent' => "WaybackArchiver/#{VERSION} (+#{CRAWLER_INFO_LINK})"
+    }
+    def initialize(url, resolve: false)
+      base_url     = Request.resolve_url(url)
+      @options     = { resolve: resolve }
+      @crawl_url   = CrawlUrl.new(base_url)
       @fetch_queue = Set.new
       @procesed    = Set.new
-      @fetch_queue << @base_url
+      @fetch_queue << @crawl_url.resolved_base_url
     end
     def self.collect_urls(base_url)
       new(base_url).collect_urls
     end
-    def collect_urls
+    def collect_urls
       until @fetch_queue.empty?
         url = @fetch_queue.first
         @fetch_queue.delete(@fetch_queue.first)
@@ -24,27 +29,32 @@ module WaybackArchiver
       end
       puts "Crawling finished, #{@procesed.length} links found"
       @procesed.to_a
+    rescue Interrupt, IRB::Abort
+      puts 'Crawl interrupted.'
+      @fetch_queue.to_a
     end
-    def page_links(url)
-      puts "Queue length: #{@fetch_queue.length}, Parsing: #{url}"
-      link_elements = Nokogiri::HTML(open(url)).css('a') rescue []
-      @procesed << url
-      link_elements.each do |link|
-        href = sanitize_url(link.attr('href'))
-        @fetch_queue << href if href && !@procesed.include?(href)
+    private
+    def page_links(get_url)
+      puts "Queue length: #{@fetch_queue.length}, Parsing: #{get_url}"
+      link_elements = get_page(get_url).css('a') rescue []
+      @procesed << get_url
+      link_elements.each do |page_link|
+        absolute_url = @crawl_url.absolute_url_from(page_link.attr('href'), get_url)
+        if absolute_url
+          resolved_url = resolve(absolute_url)
+          @fetch_queue << resolved_url if !@procesed.include?(resolved_url)
+        end
       end
     end
-    def sanitize_url(raw_url)
-      url = URI.parse(raw_url) rescue URI.parse('')
-      if url.host.nil?
-        sanitized_url  = "#{@base_url}#{url.path}"
-        sanitized_url += "?#{url.query}" unless url.query.nil?
-        sanitized_url
-      else
-        raw_url if raw_url.include?(@base_url) && @hostname.eql?(url.hostname)
-      end
+    def get_page(url)
+      Nokogiri::HTML(Request.get_response(url).body)
+    end
+    def resolve(url)
+      @options[:resolve] ? Request.resolve_url(url) : url
     end
   end
 end

data/lib/wayback_archiver/request.rb CHANGED Viewed

@@ -1,16 +1,23 @@
+require 'url_resolver' # TODO: Allow users to use any resolver
 module WaybackArchiver
   class Request
+    INFO_LINK  = 'https://rubygems.org/gems/wayback_archiver'
+    USER_AGENT = "WaybackArchiver/#{VERSION} (+#{INFO_LINK})"
-    def self.get_response(url)
-      uri = URI.parse(url)
-      http = Net::HTTP.new(uri.host, uri.port)
-      http.use_ssl = true if url.include?('https://')
+    def self.get_response(url, resolve: false)
+      resolved_url = resolve ? resolve_url(url) : url
+      uri          = URI.parse(resolved_url)
+      http         = Net::HTTP.new(uri.host, uri.port)
+      http.use_ssl = true if resolved_url.include?('https://')
-      request  = Net::HTTP::Get.new(uri.request_uri)
-      response = http.request(request)
-      response
+      request = Net::HTTP::Get.new(uri.request_uri)
+      request['User-Agent'] = USER_AGENT
+      http.request(request)
     end
+    def self.resolve_url(url)
+      UrlResolver.resolve(url)
+    end
   end
 end

data/lib/wayback_archiver/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module WaybackArchiver
-  VERSION = '0.0.6'
+  VERSION = '0.0.7'
 end

data/lib/wayback_archiver.rb CHANGED Viewed

@@ -6,6 +6,7 @@ require 'wayback_archiver/collector'
 require 'wayback_archiver/archive'
 require 'wayback_archiver/request'
 require 'wayback_archiver/crawler'
+require 'wayback_archiver/crawl_url'
 module WaybackArchiver
   BASE_URL = 'https://web.archive.org/save/'
@@ -15,15 +16,14 @@ module WaybackArchiver
     when 'sitemap'
       Collector.urls_from_sitemap("#{source}/sitemap.xml")
     when 'url'
-      Array(source)
+      [Request.resolve_url(source)]
     when 'file'
       Collector.urls_from_file(source)
     when 'crawl', 'crawler'
-      Crawler.collect_urls(source)
+      Collector.urls_from_crawl(source)
     else
-      raise ArgumentError, "Unknown type: '#{from}'. Allowed types: sitemap, url, file, crawler"
+      raise ArgumentError, "Unknown type: '#{from}'. Allowed types: sitemap, url, file, crawl"
     end
     Archive.post(urls)
   end
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: wayback_archiver
 version: !ruby/object:Gem::Version
-  version: 0.0.6
+  version: 0.0.7
 platform: ruby
 authors:
 - Jacob Burenstam
@@ -24,6 +24,20 @@ dependencies:
     - - '>='
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: url_resolver
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: bundler
   requirement: !ruby/object:Gem::Requirement
@@ -52,6 +66,48 @@ dependencies:
     - - '>='
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: rspec
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: yard
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: coveralls
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '0'
 description: 'Send URLs to Wayback Machine. From: sitemap, file or single URL.'
 email:
 - burenstam@gmail.com
@@ -63,6 +119,7 @@ files:
 - bin/wayback_archiver
 - lib/wayback_archiver/archive.rb
 - lib/wayback_archiver/collector.rb
+- lib/wayback_archiver/crawl_url.rb
 - lib/wayback_archiver/crawler.rb
 - lib/wayback_archiver/request.rb
 - lib/wayback_archiver/version.rb