npm - powerdlz23 - Versions diffs - 1.2.3 → 1.2.5 - Mend

powerdlz23 1.2.3 → 1.2.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

package/Spider/README.md +19 -0
package/Spider/domain.py +18 -0
package/Spider/general.py +51 -0
package/Spider/link_finder.py +25 -0
package/Spider/main.py +50 -0
package/Spider/spider.py +74 -0
package/crawler/.formatter.exs +5 -0
package/crawler/.github/workflows/ci.yml +29 -0
package/crawler/.recode.exs +33 -0
package/crawler/.tool-versions +2 -0
package/crawler/CHANGELOG.md +82 -0
package/crawler/README.md +198 -0
package/crawler/architecture.svg +4 -0
package/crawler/config/config.exs +9 -0
package/crawler/config/dev.exs +5 -0
package/crawler/config/test.exs +5 -0
package/crawler/examples/google_search/scraper.ex +37 -0
package/crawler/examples/google_search/url_filter.ex +11 -0
package/crawler/examples/google_search.ex +77 -0
package/crawler/lib/crawler/dispatcher/worker.ex +14 -0
package/crawler/lib/crawler/dispatcher.ex +20 -0
package/crawler/lib/crawler/fetcher/header_preparer.ex +60 -0
package/crawler/lib/crawler/fetcher/modifier.ex +45 -0
package/crawler/lib/crawler/fetcher/policer.ex +77 -0
package/crawler/lib/crawler/fetcher/recorder.ex +55 -0
package/crawler/lib/crawler/fetcher/requester.ex +32 -0
package/crawler/lib/crawler/fetcher/retrier.ex +43 -0
package/crawler/lib/crawler/fetcher/url_filter.ex +26 -0
package/crawler/lib/crawler/fetcher.ex +81 -0
package/crawler/lib/crawler/http.ex +7 -0
package/crawler/lib/crawler/linker/path_builder.ex +71 -0
package/crawler/lib/crawler/linker/path_expander.ex +59 -0
package/crawler/lib/crawler/linker/path_finder.ex +106 -0
package/crawler/lib/crawler/linker/path_offliner.ex +59 -0
package/crawler/lib/crawler/linker/path_prefixer.ex +46 -0
package/crawler/lib/crawler/linker.ex +173 -0
package/crawler/lib/crawler/options.ex +127 -0
package/crawler/lib/crawler/parser/css_parser.ex +37 -0
package/crawler/lib/crawler/parser/guarder.ex +38 -0
package/crawler/lib/crawler/parser/html_parser.ex +41 -0
package/crawler/lib/crawler/parser/link_parser/link_expander.ex +32 -0
package/crawler/lib/crawler/parser/link_parser.ex +50 -0
package/crawler/lib/crawler/parser.ex +122 -0
package/crawler/lib/crawler/queue_handler.ex +45 -0
package/crawler/lib/crawler/scraper.ex +28 -0
package/crawler/lib/crawler/snapper/dir_maker.ex +45 -0
package/crawler/lib/crawler/snapper/link_replacer.ex +95 -0
package/crawler/lib/crawler/snapper.ex +82 -0
package/crawler/lib/crawler/store/counter.ex +19 -0
package/crawler/lib/crawler/store/page.ex +7 -0
package/crawler/lib/crawler/store.ex +87 -0
package/crawler/lib/crawler/worker.ex +62 -0
package/crawler/lib/crawler.ex +91 -0
package/crawler/mix.exs +78 -0
package/crawler/mix.lock +40 -0
package/crawler/test/fixtures/introducing-elixir.jpg +0 -0
package/crawler/test/integration_test.exs +135 -0
package/crawler/test/lib/crawler/dispatcher/worker_test.exs +7 -0
package/crawler/test/lib/crawler/dispatcher_test.exs +5 -0
package/crawler/test/lib/crawler/fetcher/header_preparer_test.exs +7 -0
package/crawler/test/lib/crawler/fetcher/policer_test.exs +71 -0
package/crawler/test/lib/crawler/fetcher/recorder_test.exs +9 -0
package/crawler/test/lib/crawler/fetcher/requester_test.exs +9 -0
package/crawler/test/lib/crawler/fetcher/retrier_test.exs +7 -0
package/crawler/test/lib/crawler/fetcher/url_filter_test.exs +7 -0
package/crawler/test/lib/crawler/fetcher_test.exs +153 -0
package/crawler/test/lib/crawler/http_test.exs +47 -0
package/crawler/test/lib/crawler/linker/path_builder_test.exs +7 -0
package/crawler/test/lib/crawler/linker/path_expander_test.exs +7 -0
package/crawler/test/lib/crawler/linker/path_finder_test.exs +7 -0
package/crawler/test/lib/crawler/linker/path_offliner_test.exs +7 -0
package/crawler/test/lib/crawler/linker/path_prefixer_test.exs +7 -0
package/crawler/test/lib/crawler/linker_test.exs +7 -0
package/crawler/test/lib/crawler/options_test.exs +7 -0
package/crawler/test/lib/crawler/parser/css_parser_test.exs +7 -0
package/crawler/test/lib/crawler/parser/guarder_test.exs +7 -0
package/crawler/test/lib/crawler/parser/html_parser_test.exs +7 -0
package/crawler/test/lib/crawler/parser/link_parser/link_expander_test.exs +7 -0
package/crawler/test/lib/crawler/parser/link_parser_test.exs +7 -0
package/crawler/test/lib/crawler/parser_test.exs +8 -0
package/crawler/test/lib/crawler/queue_handler_test.exs +7 -0
package/crawler/test/lib/crawler/scraper_test.exs +7 -0
package/crawler/test/lib/crawler/snapper/dir_maker_test.exs +7 -0
package/crawler/test/lib/crawler/snapper/link_replacer_test.exs +7 -0
package/crawler/test/lib/crawler/snapper_test.exs +9 -0
package/crawler/test/lib/crawler/worker_test.exs +5 -0
package/crawler/test/lib/crawler_test.exs +295 -0
package/crawler/test/support/test_case.ex +24 -0
package/crawler/test/support/test_helpers.ex +28 -0
package/crawler/test/test_helper.exs +7 -0
package/grell/.rspec +2 -0
package/grell/.travis.yml +28 -0
package/grell/CHANGELOG.md +111 -0
package/grell/Gemfile +7 -0
package/grell/LICENSE.txt +22 -0
package/grell/README.md +213 -0
package/grell/Rakefile +2 -0
package/grell/grell.gemspec +36 -0
package/grell/lib/grell/capybara_driver.rb +44 -0
package/grell/lib/grell/crawler.rb +83 -0
package/grell/lib/grell/crawler_manager.rb +84 -0
package/grell/lib/grell/grell_logger.rb +10 -0
package/grell/lib/grell/page.rb +275 -0
package/grell/lib/grell/page_collection.rb +62 -0
package/grell/lib/grell/rawpage.rb +62 -0
package/grell/lib/grell/reader.rb +18 -0
package/grell/lib/grell/version.rb +3 -0
package/grell/lib/grell.rb +11 -0
package/grell/spec/lib/capybara_driver_spec.rb +38 -0
package/grell/spec/lib/crawler_manager_spec.rb +174 -0
package/grell/spec/lib/crawler_spec.rb +361 -0
package/grell/spec/lib/page_collection_spec.rb +159 -0
package/grell/spec/lib/page_spec.rb +418 -0
package/grell/spec/lib/reader_spec.rb +43 -0
package/grell/spec/spec_helper.rb +66 -0
package/heartmagic/config.py +1 -0
package/heartmagic/heart.py +3 -0
package/heartmagic/pytransform/__init__.py +483 -0
package/heartmagic/pytransform/_pytransform.dll +0 -0
package/heartmagic/pytransform/_pytransform.so +0 -0
package/httpStatusCode/README.md +2 -0
package/httpStatusCode/httpStatusCode.js +4 -0
package/httpStatusCode/reasonPhrases.js +344 -0
package/httpStatusCode/statusCodes.js +344 -0
package/package.json +1 -1
package/rubyretriever/.rspec +2 -0
package/rubyretriever/.travis.yml +7 -0
package/rubyretriever/Gemfile +3 -0
package/rubyretriever/Gemfile.lock +64 -0
package/rubyretriever/LICENSE +20 -0
package/rubyretriever/Rakefile +7 -0
package/rubyretriever/bin/rr +79 -0
package/rubyretriever/lib/retriever/cli.rb +25 -0
package/rubyretriever/lib/retriever/core_ext.rb +13 -0
package/rubyretriever/lib/retriever/fetch.rb +268 -0
package/rubyretriever/lib/retriever/fetchfiles.rb +71 -0
package/rubyretriever/lib/retriever/fetchseo.rb +18 -0
package/rubyretriever/lib/retriever/fetchsitemap.rb +43 -0
package/rubyretriever/lib/retriever/link.rb +47 -0
package/rubyretriever/lib/retriever/openuri_redirect_patch.rb +8 -0
package/rubyretriever/lib/retriever/page.rb +104 -0
package/rubyretriever/lib/retriever/page_iterator.rb +21 -0
package/rubyretriever/lib/retriever/target.rb +47 -0
package/rubyretriever/lib/retriever/version.rb +4 -0
package/rubyretriever/lib/retriever.rb +15 -0
package/rubyretriever/readme.md +166 -0
package/rubyretriever/rubyretriever.gemspec +41 -0
package/rubyretriever/spec/link_spec.rb +77 -0
package/rubyretriever/spec/page_spec.rb +94 -0
package/rubyretriever/spec/retriever_spec.rb +84 -0
package/rubyretriever/spec/spec_helper.rb +17 -0
package/rubyretriever/spec/target_spec.rb +55 -0
package/snapcrawl/.changelog.old.md +157 -0
package/snapcrawl/.gitattributes +1 -0
package/snapcrawl/.github/workflows/test.yml +41 -0
package/snapcrawl/.rspec +3 -0
package/snapcrawl/.rubocop.yml +23 -0
package/snapcrawl/CHANGELOG.md +182 -0
package/snapcrawl/Gemfile +15 -0
package/snapcrawl/LICENSE +21 -0
package/snapcrawl/README.md +135 -0
package/snapcrawl/Runfile +35 -0
package/snapcrawl/bin/snapcrawl +25 -0
package/snapcrawl/lib/snapcrawl/cli.rb +52 -0
package/snapcrawl/lib/snapcrawl/config.rb +60 -0
package/snapcrawl/lib/snapcrawl/crawler.rb +98 -0
package/snapcrawl/lib/snapcrawl/dependencies.rb +21 -0
package/snapcrawl/lib/snapcrawl/exceptions.rb +5 -0
package/snapcrawl/lib/snapcrawl/log_helpers.rb +36 -0
package/snapcrawl/lib/snapcrawl/page.rb +118 -0
package/snapcrawl/lib/snapcrawl/pretty_logger.rb +11 -0
package/snapcrawl/lib/snapcrawl/refinements/pair_split.rb +26 -0
package/snapcrawl/lib/snapcrawl/refinements/string_refinements.rb +13 -0
package/snapcrawl/lib/snapcrawl/screenshot.rb +73 -0
package/snapcrawl/lib/snapcrawl/templates/config.yml +49 -0
package/snapcrawl/lib/snapcrawl/templates/docopt.txt +26 -0
package/snapcrawl/lib/snapcrawl/version.rb +3 -0
package/snapcrawl/lib/snapcrawl.rb +20 -0
package/snapcrawl/snapcrawl.gemspec +27 -0
package/snapcrawl/snapcrawl.yml +41 -0
package/snapcrawl/spec/README.md +16 -0
package/snapcrawl/spec/approvals/bin/help +26 -0
package/snapcrawl/spec/approvals/bin/usage +4 -0
package/snapcrawl/spec/approvals/cli/usage +4 -0
package/snapcrawl/spec/approvals/config/defaults +15 -0
package/snapcrawl/spec/approvals/config/minimal +15 -0
package/snapcrawl/spec/approvals/integration/blacklist +14 -0
package/snapcrawl/spec/approvals/integration/default-config +14 -0
package/snapcrawl/spec/approvals/integration/depth-0 +6 -0
package/snapcrawl/spec/approvals/integration/depth-3 +6 -0
package/snapcrawl/spec/approvals/integration/log-color-no +6 -0
package/snapcrawl/spec/approvals/integration/screenshot-error +3 -0
package/snapcrawl/spec/approvals/integration/whitelist +14 -0
package/snapcrawl/spec/approvals/models/pretty_logger/colors +1 -0
package/snapcrawl/spec/fixtures/config/minimal.yml +4 -0
package/snapcrawl/spec/server/config.ru +97 -0
package/snapcrawl/spec/snapcrawl/bin_spec.rb +15 -0
package/snapcrawl/spec/snapcrawl/cli_spec.rb +9 -0
package/snapcrawl/spec/snapcrawl/config_spec.rb +26 -0
package/snapcrawl/spec/snapcrawl/integration_spec.rb +65 -0
package/snapcrawl/spec/snapcrawl/page_spec.rb +89 -0
package/snapcrawl/spec/snapcrawl/pretty_logger_spec.rb +19 -0
package/snapcrawl/spec/snapcrawl/refinements/pair_split_spec.rb +27 -0
package/snapcrawl/spec/snapcrawl/refinements/string_refinements_spec.rb +29 -0
package/snapcrawl/spec/snapcrawl/screenshot_spec.rb +62 -0
package/snapcrawl/spec/spec_helper.rb +22 -0
package/snapcrawl/spec/spec_mixin.rb +10 -0

package/snapcrawl/lib/snapcrawl/cli.rb ADDED Viewed

@@ -0,0 +1,52 @@
+require 'colsole'
+require 'docopt'
+require 'fileutils'
+module Snapcrawl
+  class CLI
+    include Colsole
+    using StringRefinements
+    using PairSplit
+    def call(args = [])
+      execute Docopt.docopt(docopt, version: VERSION, argv: args)
+    rescue Docopt::Exit => e
+      puts e.message
+    end
+  private
+    def execute(args)
+      config_file = args['--config']
+      Config.load config_file if config_file
+      tweaks = args['SETTINGS'].pair_split
+      apply_tweaks tweaks if tweaks
+      Dependencies.verify
+      $logger.debug 'initializing cli'
+      FileUtils.mkdir_p Config.snaps_dir
+      url = args['URL'].protocolize
+      crawler = Crawler.new url
+      crawler.crawl
+    end
+    def docopt
+      @docopt ||= File.read docopt_path
+    end
+    def docopt_path
+      File.expand_path 'templates/docopt.txt', __dir__
+    end
+    def apply_tweaks(tweaks)
+      tweaks.each do |key, value|
+        Config.settings[key] = value
+        $logger.level = value if key == 'log_level'
+      end
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/config.rb ADDED Viewed

@@ -0,0 +1,60 @@
+require 'sting'
+require 'fileutils'
+module Snapcrawl
+  class Config < Sting
+    class << self
+      def load(file = nil)
+        reset!
+        push defaults
+        return unless file
+        file = "#{file}.yml" unless /\.ya?ml$/.match?(file)
+        # FIXME: Cannot use logger here due to the "chicken and egg" with
+        #        Config. The $logger is available, but it was not yet fully
+        #        configured with log_level etc.
+        if File.exist? file
+          # $logger.debug "loading config file g`#{file}`"
+          push file
+        else
+          # $logger.debug "creating config file g`#{file}`"
+          create_config file
+        end
+      end
+    private
+      def defaults
+        {
+          depth:                 1,
+          width:                 1280,
+          height:                0,
+          cache_life:            86_400,
+          cache_dir:             'cache',
+          snaps_dir:             'snaps',
+          name_template:         '%{url}',
+          url_whitelist:         nil,
+          url_blacklist:         nil,
+          css_selector:          nil,
+          log_level:             1,
+          log_color:             'auto',
+          skip_ssl_verification: false,
+          screenshot_delay:      nil,
+        }
+      end
+      def create_config(file)
+        content = File.read config_template
+        dir = File.dirname file
+        FileUtils.mkdir_p dir
+        File.write file, content
+      end
+      def config_template
+        File.expand_path 'templates/config.yml', __dir__
+      end
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/crawler.rb ADDED Viewed

@@ -0,0 +1,98 @@
+require 'fileutils'
+module Snapcrawl
+  class Crawler
+    using StringRefinements
+    attr_reader :url
+    def initialize(url)
+      $logger.debug "initializing crawler with g`#{url}`"
+      config_for_display = Config.settings.dup
+      config_for_display['name_template'] = '%%{url}'
+      $logger.debug "config #{config_for_display}"
+      @url = url
+    end
+    def crawl
+      Dependencies.verify
+      todo[url] = Page.new url
+      process_todo while todo.any?
+    end
+  private
+    def process_todo
+      $logger.debug "processing queue: g`#{todo.count} remaining`"
+      url, page = todo.shift
+      done.push url
+      return unless process_page page
+      register_sub_pages page.pages if page.depth < Config.depth
+    end
+    def register_sub_pages(pages)
+      pages.each do |sub_page|
+        next if todo.has_key?(sub_page) || done.include?(sub_page)
+        if Config.url_whitelist && sub_page.path !~ (/#{Config.url_whitelist}/)
+          $logger.debug "ignoring mu`#{sub_page.url}`, reason: whitelist"
+          next
+        end
+        if Config.url_blacklist && sub_page.path =~ (/#{Config.url_blacklist}/)
+          $logger.debug "ignoring mu`#{sub_page.url}`, reason: blacklist"
+          next
+        end
+        todo[sub_page.url] = sub_page
+      end
+    end
+    def process_page(page)
+      outfile = "#{Config.snaps_dir}/#{Config.name_template}.png" % { url: page.url.to_slug }
+      $logger.info "processing mu`#{page.url}`, depth: #{page.depth}"
+      unless page.valid?
+        $logger.debug "page #{page.path} is invalid, aborting process"
+        return false
+      end
+      if file_fresh? outfile
+        $logger.info "screenshot for #{page.path} already exists"
+      else
+        $logger.info "gb`capturing screenshot for #{page.path}`"
+        save_screenshot page, outfile
+      end
+      true
+    end
+    def save_screenshot(page, outfile)
+      page.save_screenshot outfile
+    rescue => e
+      $logger.error "screenshot error on mu`#{page.path}` - r`#{e.class}`: #{e.message}"
+    end
+    def file_fresh?(file)
+      Config.cache_life.positive? and File.exist?(file) and file_age(file) < Config.cache_life
+    end
+    def file_age(file)
+      (Time.now - File.stat(file).mtime).to_i
+    end
+    def todo
+      @todo ||= {}
+    end
+    def done
+      @done ||= []
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/dependencies.rb ADDED Viewed

@@ -0,0 +1,21 @@
+require 'colsole'
+module Snapcrawl
+  class Dependencies
+    class << self
+      include Colsole
+      def verify
+        return if @verified
+        $logger.debug 'verifying g`phantomjs` is present'
+        raise MissingPhantomJS unless command_exist? 'phantomjs'
+        $logger.debug 'verifying g`imagemagick` is present'
+        raise MissingImageMagick unless command_exist? 'convert'
+        @verified = true
+      end
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/exceptions.rb ADDED Viewed

@@ -0,0 +1,5 @@
+module Snapcrawl
+  class MissingPhantomJS < StandardError; end
+  class MissingImageMagick < StandardError; end
+  class ScreenshotError < StandardError; end
+end

package/snapcrawl/lib/snapcrawl/log_helpers.rb ADDED Viewed

@@ -0,0 +1,36 @@
+require 'colsole'
+module Snapcrawl
+  module LogHelpers
+    include Colsole
+    SEVERITY_COLORS = {
+      'INFO'  => :b,
+      'WARN'  => :y,
+      'ERROR' => :r,
+      'FATAL' => :r,
+      'DEBUG' => :c,
+    }
+    def log_formatter
+      proc do |severity, _time, _prog, message|
+        severity_color = SEVERITY_COLORS[severity]
+        line = "#{severity_color}`#{severity.rjust 5}` : #{message}\n"
+        use_colors? ? colorize(line) : strip_colors(line)
+      end
+    end
+    def use_colors?
+      @use_colors ||= (Config.log_color == 'auto' ? tty? : Config.log_color)
+    end
+    def tty?
+      case ENV['TTY']
+      when 'on' then true
+      when 'off' then false
+      else
+        $stdout.tty?
+      end
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/page.rb ADDED Viewed

@@ -0,0 +1,118 @@
+require 'addressable/uri'
+require 'fileutils'
+require 'httparty'
+require 'lightly'
+require 'nokogiri'
+module Snapcrawl
+  class Page
+    using StringRefinements
+    attr_reader :url, :depth
+    EXTENSION_BLACKLIST = 'png|gif|jpg|pdf|zip'
+    PROTOCOL_BLACKLIST = 'mailto|tel'
+    def initialize(url, depth: 0)
+      @url = url.protocolize
+      @depth = depth
+    end
+    def valid?
+      http_response&.success?
+    end
+    def site
+      @site ||= Addressable::URI.parse(url).site
+    end
+    def path
+      @path ||= Addressable::URI.parse(url).request_uri
+    end
+    def links
+      return nil unless valid?
+      doc = Nokogiri::HTML http_response.body
+      normalize_links doc.css('a')
+    end
+    def pages
+      return nil unless valid?
+      links.map { |link| Page.new link, depth: depth + 1 }
+    end
+    def save_screenshot(outfile)
+      return false unless valid?
+      Screenshot.new(url).save outfile
+    end
+  private
+    def http_response
+      @http_response ||= http_response!
+    end
+    def http_response!
+      response = cache.get(url) { HTTParty.get url, httparty_options }
+      unless response.success?
+        $logger.warn "http error on mu`#{url}`, code: y`#{response.code}`, message: #{response.message.strip}"
+      end
+      response
+    rescue => e
+      $logger.error "http error on mu`#{url}` - r`#{e.class}`: #{e.message}"
+      nil
+    end
+    def httparty_options
+      Config.skip_ssl_verification ? { verify: false } : {}
+    end
+    def normalize_links(links)
+      result = []
+      links.each do |link|
+        valid_link = normalize_link link
+        result << valid_link if valid_link
+      end
+      result.uniq
+    end
+    def normalize_link(link)
+      link = link.attribute('href').to_s.dup
+      # Remove #hash
+      link.gsub!(/#.+$/, '')
+      return nil if link.empty?
+      # Remove links to specific extensions and protocols
+      return nil if /\.(#{EXTENSION_BLACKLIST})(\?.*)?$/o.match?(link)
+      return nil if /^(#{PROTOCOL_BLACKLIST}):/o.match?(link)
+      # Strip spaces
+      link.strip!
+      # Convert relative links to absolute
+      begin
+        link = Addressable::URI.join(url, link).to_s.dup
+      rescue => e
+        $logger.warn "r`#{e.class}`: #{e.message} on #{path} (link: #{link})"
+        return nil
+      end
+      # Keep only links in our base domain
+      return nil unless link.include? site
+      link
+    end
+    def cache
+      Lightly.new life: Config.cache_life
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/pretty_logger.rb ADDED Viewed

@@ -0,0 +1,11 @@
+require 'logger'
+module Snapcrawl
+  class PrettyLogger
+    extend LogHelpers
+    def self.new
+      Logger.new($stdout, formatter: log_formatter, level: Config.log_level)
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/refinements/pair_split.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module Snapcrawl
+  module PairSplit
+    refine Array do
+      def pair_split
+        false_values = %w[no false]
+        true_values = %w[yes true]
+        to_h do |pair|
+          key, value = pair.split '='
+          value = if /^\d+$/.match?(value)
+            value.to_i
+          elsif false_values.include? value
+            false
+          elsif true_values.include? value
+            true
+          else
+            value
+          end
+          [key, value]
+        end
+      end
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/refinements/string_refinements.rb ADDED Viewed

@@ -0,0 +1,13 @@
+module Snapcrawl
+  module StringRefinements
+    refine String do
+      def to_slug
+        downcase.gsub(/[^a-z0-9]+/, '-')
+      end
+      def protocolize
+        /^http/.match?(self) ? self : "http://#{self}"
+      end
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/screenshot.rb ADDED Viewed

@@ -0,0 +1,73 @@
+require 'webshot'
+module Snapcrawl
+  class Screenshot
+    using StringRefinements
+    attr_reader :url
+    def initialize(url)
+      @url = url
+    end
+    def save(outfile = nil)
+      outfile ||= "#{url.to_slug}.png"
+      webshot_capture url, outfile
+    end
+  private
+    def webshot_capture(url, image_path)
+      webshot_capture! url, image_path
+    rescue => e
+      raise ScreenshotError, "#{e.class} #{e.message}"
+    end
+    def webshot_capture!(url, image_path)
+      hide_output do
+        webshot.capture url, image_path, webshot_options do |magick|
+          magick.combine_options do |c|
+            c.background 'white'
+            c.gravity 'north'
+            c.quality 100
+            c.extent Config.height.positive? ? "#{Config.width}x#{Config.height}" : "#{Config.width}x"
+          end
+        end
+      end
+    end
+    def webshot_options
+      result = { allowed_status_codes: [404, 401, 403] }
+      if Config.css_selector
+        result[:selector] = Config.css_selector
+        result[:full] = false
+      end
+      if Config.screenshot_delay
+        result[:timeout] = Config.screenshot_delay
+      end
+      result
+    end
+    def webshot
+      @webshot ||= Webshot::Screenshot.instance
+    end
+    # The webshot gem messes with stdout/stderr streams so we keep it in
+    # check by using this method. Also, in some sites (e.g. uown.co) it
+    # prints some output to stdout, this is why we override $stdout for
+    # the duration of the run.
+    def hide_output
+      keep_stdout = $stdout
+      keep_stderr = $stderr
+      $stdout = StringIO.new
+      $stderr = StringIO.new
+      yield
+    ensure
+      $stdout = keep_stdout
+      $stderr = keep_stderr
+    end
+  end
+end

package/snapcrawl/lib/snapcrawl/templates/config.yml ADDED Viewed

@@ -0,0 +1,49 @@
+# All values below are the default values
+# log level (0-4) 0=DEBUG 1=INFO 2=WARN 3=ERROR 4=FATAL
+log_level: 1
+# log_color (yes, no, auto)
+# yes  = always show log color
+# no   = never use colors
+# auto = only use colors when running in an interactive terminal
+log_color: auto
+# number of levels to crawl, 0 means capture only the root URL
+depth: 1
+# screenshot width in pixels
+width: 1280
+# screenshot height in pixels, 0 means the entire height
+height: 0
+# number of seconds to consider the page cache and its screenshot fresh
+cache_life: 86400
+# where to store the HTML page cache
+cache_dir: cache
+# where to store screenshots
+snaps_dir: snaps
+# screenshot filename template, where '%{url}' will be replaced with a
+# slug version of the URL (no need to include the .png extension)
+name_template: '%{url}'
+# urls not matching this regular expression will be ignored
+url_whitelist:
+# urls matching this regular expression will be ignored
+url_blacklist:
+# take a screenshot of this CSS selector only
+css_selector:
+# when true, ignore SSL related errors
+skip_ssl_verification: false
+# set to any number of seconds to wait for the page to load before taking
+# a screenshot, leave empty to not wait at all (only needed for pages with
+# animations or other post-load events).
+screenshot_delay:

package/snapcrawl/lib/snapcrawl/templates/docopt.txt ADDED Viewed

@@ -0,0 +1,26 @@
+Snapcrawl
+Usage:
+  snapcrawl URL [--config FILE] [SETTINGS...]
+  snapcrawl -h | --help
+  snapcrawl -v | --version
+Options:
+  -c, --config FILE
+    Path to config file, with or without the .yml extension.
+    A sample file will be created if not found.
+    The default filename is 'snapcrawl.yml'.
+  -h, --help
+    Show this screen
+  -v, --version
+    Show version number
+Settings:
+  Provide any of the options available in the config as 'key=value'.
+Examples:
+  snapcrawl example.com
+  snapcrawl example.com --config simple
+  snapcrawl example.com depth=1 log_level=2 width=768

package/snapcrawl/lib/snapcrawl/version.rb ADDED Viewed

@@ -0,0 +1,3 @@
+module Snapcrawl
+  VERSION = '0.5.4'
+end

package/snapcrawl/lib/snapcrawl.rb ADDED Viewed

@@ -0,0 +1,20 @@
+require 'snapcrawl/version'
+require 'snapcrawl/exceptions'
+require 'snapcrawl/refinements/pair_split'
+require 'snapcrawl/refinements/string_refinements'
+require 'snapcrawl/log_helpers'
+require 'snapcrawl/pretty_logger'
+require 'snapcrawl/dependencies'
+require 'snapcrawl/config'
+require 'snapcrawl/screenshot'
+require 'snapcrawl/page'
+require 'snapcrawl/crawler'
+require 'snapcrawl/cli'
+if ENV['BYEBUG']
+  require 'byebug'
+  require 'lp'
+end
+Snapcrawl::Config.load
+$logger = Snapcrawl::PrettyLogger.new

package/snapcrawl/snapcrawl.gemspec ADDED Viewed

@@ -0,0 +1,27 @@
+lib = File.expand_path('lib', __dir__)
+$LOAD_PATH.unshift(lib) unless $LOAD_PATH.include?(lib)
+require 'snapcrawl/version'
+Gem::Specification.new do |s|
+  s.name        = 'snapcrawl'
+  s.version     = Snapcrawl::VERSION
+  s.summary     = 'Crawl a website and take screenshots (CLI + Library)'
+  s.description = 'Snapcrawl is a command line utility for crawling a website and saving screenshots.'
+  s.authors     = ['Danny Ben Shitrit']
+  s.email       = 'db@dannyben.com'
+  s.files       = Dir['README.md', 'lib/**/*']
+  s.executables = ['snapcrawl']
+  s.homepage    = 'https://github.com/DannyBen/snapcrawl'
+  s.license     = 'MIT'
+  s.required_ruby_version = '>= 3.0'
+  s.add_runtime_dependency 'addressable', '~> 2.7'
+  s.add_runtime_dependency 'colsole', '>= 0.8.1', '< 2'
+  s.add_runtime_dependency 'docopt', '~> 0.6'
+  s.add_runtime_dependency 'httparty', '~> 0.21'
+  s.add_runtime_dependency 'lightly', '~> 0.3'
+  s.add_runtime_dependency 'nokogiri', '~> 1.10'
+  s.add_runtime_dependency 'sting', '~> 0.4'
+  s.add_runtime_dependency 'webshot', '~> 0.1'
+  s.metadata['rubygems_mfa_required'] = 'true'
+end

package/snapcrawl/snapcrawl.yml ADDED Viewed

@@ -0,0 +1,41 @@
+# All values below are the default values
+# log level (0-4) 0=DEBUG 1=INFO 2=WARN 3=ERROR 4=FATAL
+log_level: 1
+# log_color (yes, no, auto)
+# yes  = always show log color
+# no   = never use colors
+# auto = only use colors when running in an interactive terminal
+log_color: auto
+# number of levels to crawl, 0 means capture only the root URL
+depth: 1
+# screenshot width in pixels
+width: 1280
+# screenshot height in pixels, 0 means the entire height
+height: 0
+# number of seconds to consider the page cache and its screenshot fresh
+cache_life: 86400
+# where to store the HTML page cache
+cache_dir: cache
+# where to store screenshots
+snaps_dir: snaps
+# screenshot filename template, where '%{url}' will be replaced with a
+# slug version of the URL (no need to include the .png extension)
+name_template: '%{url}'
+# urls not matching this regular expression will be ignored
+url_whitelist:
+# urls matching this regular expression will be ignored
+url_blacklist:
+# take a screenshot of this CSS selector only
+css_selector: