RubyGems - snapcrawl - Versions diffs - 0.2.1 → 0.2.2 - Mend

snapcrawl 0.2.1 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 7f8bfcb13d6d049104a97fe95b4f20527c9e93f9
-  data.tar.gz: 5d39a2e40270cbe8ddfd5e0863016a665059e747
+  metadata.gz: e2794d3fe40619ef7de870f738767419cdb893fc
+  data.tar.gz: 6a866a6ac4808e7a522e67db0415e31d1d463b62
 SHA512:
-  metadata.gz: c0ad7d74dff9e73d5892870cf162c2b61c96a3f316f6ffedf2b9bd84c09c080bf0e330d32a9f567d4f3e8bec14964afe2773e010177236f438046e3f06b87624
-  data.tar.gz: 015a6dd81b525bcd59cc52360c5d4989542646af72e84e48a350719cb4b88751e6def5ab201b81de9c256c7036e9894dc5ca03ae30829e7a8d4ab2de0af47aaa
+  metadata.gz: 6195bff2403b3c4e7900b6c6e33e962eafa37bbbfed78940da5fce4152318bb6715073ce78bc8d7865451eb287a9e57aa77806064634e9e388c20fef8c5f929a
+  data.tar.gz: f2b0207a6b976a34e1554adaa305f415191903cdd51b7dfd7bf70735fd225f4ef7de58589ed3aa179cde10e621be170b93897c3523f9e323cbfddf35dfca854f

data/README.md CHANGED

@@ -1,5 +1,10 @@
 # SnapCrawl - crawl a website and take screenshots
+[![Gem Version](https://badge.fury.io/rb/snapcrawl.svg)](http://badge.fury.io/rb/snapcrawl)
+[![Code Climate](https://codeclimate.com/github/DannyBen/snapcrawl/badges/gpa.svg)](https://codeclimate.com/github/DannyBen/snapcrawl)
+[![Dependency Status](https://gemnasium.com/DannyBen/snapcrawl.svg)](https://gemnasium.com/DannyBen/snapcrawl)
 SnapCrawl is a command line utility for crawling a website and saving
 screenshots.
@@ -18,8 +23,8 @@ screenshots.
 ## Usage
-	$ snapcrawl --help
+	$ snapcrawl --help
     Snapcrawl
     Usage:
@@ -46,11 +51,18 @@ screenshots.
       snapcrawl go example.com -d2 > out.txt 2> err.txt &
       snapcrawl go example.com -W360 -H480
       snapcrawl go example.com --selector "#main-content"
-      snapcrawl go example.com --only "products|collections"
+      snapcrawl go example.com --only "products|collections"
 ---
 ## Notes
 1. If a URL cannot be found, SnapCrawl will report to stderr.
-   You can create a report by running `snapcrawl go example.com 2> err.txt`
+   You can create a report by running `snapcrawl go example.com 2> err.txt`
+## Todo
+- [x] Tests (probably against some ad hoc sinatra)
+- [ ] Make ths test server start/stop automatically when testing
+- [ ] Move ignored file extensions and mailto/tel links to config
+- [ ] Add screen size presets (also to user-overridable config)

data/lib/snapcrawl/crawler.rb CHANGED

@@ -18,10 +18,10 @@ module Snapcrawl
     def initialize
       @storefile  = "snapcrawl.pstore"
       @store      = PStore.new(@storefile)
-      @done       = []
     end
     def handle(args)
+      @done = []
       begin
         execute Docopt::docopt(doc, argv: args)
       rescue Docopt::Exit => e
@@ -34,6 +34,12 @@ module Snapcrawl
       crawl args['<url>'].dup, opts_from_args(args)
     end
+    def clear_cache
+      FileUtils.rm @storefile if File.exist? @storefile
+    end
+    private
     def crawl(url, opts={})
       defaults = {
         width: 1280,
@@ -54,8 +60,6 @@ module Snapcrawl
       end
     end
-    private
     def crawl_and_snap(urls)
       new_urls = []
       urls.each do |url|
@@ -94,7 +98,7 @@ module Snapcrawl
       fetch_opts[:div]    = @opts.selector if @opts.selector
       # :top => 0, :left => 0, :width => 100, :height => 100 # dimensions for a specific area
-      screenshot = f.fetch fetch_opts
+      f.fetch fetch_opts
       say "done"
     end
@@ -128,12 +132,12 @@ module Snapcrawl
     # mkdir the screenshots folder, if needed
     def make_screenshot_dir(dir)
-      Dir.exists? dir or FileUtils.mkdir_p dir
+      Dir.exist? dir or FileUtils.mkdir_p dir
     end
     # Convert any string to a proper handle
     def handelize(str)
-      str.downcase.gsub /[^a-z0-9]+/, '-'
+      str.downcase.gsub(/[^a-z0-9]+/, '-')
     end
     # Return proper image path for a UR
@@ -148,7 +152,7 @@ module Snapcrawl
     # Return true if the file exists and is not too old
     def file_fresh?(file)
-      File.exist?(file) and file_age(file) < @opts.age
+      @opts.age > 0 and File.exist?(file) and file_age(file) < @opts.age
     end
     # Return file age in seconds
@@ -158,27 +162,33 @@ module Snapcrawl
     # Process an array of links and return a better one
     def normalize_links(links)
-      # Remove the #hash part from all links
-      links = links.map {|link| link.attribute('href').to_s.gsub(/#.+$/, '')}
+      extensions = "png|gif|jpg|pdf|zip"
+      beginnings = "mailto|tel"
-      # Make unique and remove empties
-      links = links.uniq.reject {|link| link.empty?}
+      links_array = []
-      # Remove links to images and other files
-      extensions = "png|gif|jpg|pdf|zip"
-      links = links.reject {|link| link =~ /\.(#{extensions})(\?.*)?$/}
+      links.each_with_index do |link|
+        link = link.attribute('href').to_s
-      # Remove mailto, tel links
-      beginnings = "mailto|tel"
-      links = links.reject {|link| link =~ /^(#{beginnings})/}
+        # remove #hash
+        link.gsub!(/#.+$/, '')
+        next if link.empty?
-      # Add the base domain to relative URLs
-      links = links.map {|link| link =~ /^http/ ? link : "http://#{@base}#{link}"}
+        # Remove links to images and other files then to mailto/tel
+        next if link =~ /\.(#{extensions})(\?.*)?$/
+        next if link =~ /^(#{beginnings})/
+        # Add the base domain to relative URLs
+        link = link =~ /^http/ ? link : "#{@opts.base}#{link}"
+        link = "http://#{link}" unless link =~ /^http/
-      # Keep only links in our base domain
-      links = links.select {|link| link =~ /https?:\/\/#{@base}.*/}
+        # Keep only links in our base domain
+        next unless link.include? @opts.base
-      links
+        links_array << link
+      end
+      links_array.uniq
     end
     def show_version

data/lib/snapcrawl/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Snapcrawl
-  VERSION = "0.2.1"
+  VERSION = "0.2.2"
 end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: snapcrawl
 version: !ruby/object:Gem::Version
-  version: 0.2.1
+  version: 0.2.2
 platform: ruby
 authors:
 - Danny Ben Shitrit
@@ -24,20 +24,6 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '0.3'
-- !ruby/object:Gem::Dependency
-  name: net-ssh
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - "~>"
-      - !ruby/object:Gem::Version
-        version: '3.0'
-  type: :runtime
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - "~>"
-      - !ruby/object:Gem::Version
-        version: '3.0'
 - !ruby/object:Gem::Dependency
   name: docopt
   requirement: !ruby/object:Gem::Requirement
@@ -108,6 +94,48 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '0.2'
+- !ruby/object:Gem::Dependency
+  name: minitest
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '5.8'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '5.8'
+- !ruby/object:Gem::Dependency
+  name: minitest-reporters
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.1'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.1'
+- !ruby/object:Gem::Dependency
+  name: simplecov
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.10'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.10'
 description: Snapcrawl is a command line utility for crawling a website and saving
   screenshots.
 email: db@dannyben.com