RubyGems - lame-sitemapper - Versions diffs - 0.1.0 - Mend

lame-sitemapper 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (21) hide show

checksums.yaml +7 -0
data/.gitignore +4 -0
data/.rspec +3 -0
data/Gemfile +16 -0
data/LICENSE +21 -0
data/README.md +37 -0
data/bin/console +14 -0
data/bin/setup +9 -0
data/exe/lame-sitemapper +7 -0
data/lame-sitemapper.gemspec +34 -0
data/lib/cli.rb +120 -0
data/lib/core.rb +105 -0
data/lib/lame_sitemapper.rb +27 -0
data/lib/lame_sitemapper/version.rb +5 -0
data/lib/page.rb +124 -0
data/lib/report_generator.rb +181 -0
data/lib/scraper.rb +138 -0
data/lib/settings.yml +28 -0
data/lib/url_helper.rb +56 -0
data/lib/web_helper.rb +29 -0
metadata +271 -0

checksums.yaml ADDED

@@ -0,0 +1,7 @@
+---
+SHA256:
+  metadata.gz: c783779dbc3421bcd12f2efb44e6d55fb4d96275621d1733015893c1c5168ce9
+  data.tar.gz: af111696eb28cc307ef70d72b0c44e66c0dc2ea4ded5eea075ecc4912e350f3a
+SHA512:
+  metadata.gz: 2626d9617f772a6bfef6b62bb66f01fc58a68c2caa46c93636cc8b76118ed8ce4e19df96cc9efc619e4f0f42f43b3a71262d0df0b4e13289ab7f12cd2de323ed
+  data.tar.gz: 188db116c63128a3a3ad2486a9b7e38b6da8fdd5fbce0326f792840cbf3b0723f4c2f99a892b38e59f1537ccd18c538ed4541895319da23f11adf1e6d7987fde

data/.gitignore ADDED

@@ -0,0 +1,4 @@
+/tmp/
+*.gem
+*.log
+Gemfile.lock

data/.rspec ADDED

@@ -0,0 +1,3 @@
+--color
+--format documentation
+--require spec_helper

data/Gemfile ADDED

@@ -0,0 +1,16 @@
+source "https://rubygems.org"
+gemspec
+gem "typhoeus"
+gem "nokogiri"
+gem "webrobots"
+gem "addressable"
+gem "public_suffix"
+gem "digest-murmurhash"
+gem "graphviz"
+gem "activesupport"
+group :development, :test do
+  gem "rspec"
+end

data/LICENSE ADDED

@@ -0,0 +1,21 @@
+The MIT License (MIT)
+Copyright (c) 2014 Orest Kulik
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

data/README.md ADDED

@@ -0,0 +1,37 @@
+# lame-sitemapper
+A tool for a simple, static web pages hierarchy exploration. It starts from the arbitrary page you provide and descents into the tree of links until it has either traversed all possible content on the web site or has stopped at some predefined traversal depth. It is written in Ruby and implemented as a CLI application. Based on user preference, it can output text reports in a standard sitemap.xml form (used by many search engines), a dot file (for easier site hierarchy visualization, [graphviz][graphviz] compatible), a plain text file (displaying detailed hierarchical relations between pages) and a simple HTML format.
+The main challenge in web site links traversal is to know if some link has been previously seen and, accordingly, not to explore any further in that direction. This prevents infinite traversal of pages, jumping from link to link forever.
+See [http://www.nisdom.com/blog/2014/04/12/a-simple-ruby-sitemap-dot-xml-generator/][nisdom-sitemapper] for more details.
+## Features
+* Obeys robots.txt (can be optionally disregarded).
+* Produces 4 different types of reports. Possible values are 'text', 'sitemap', 'html' and 'graph'.
+* Tracks HTTP redirects.
+* Possibility to choose the number of concurrent threads.
+## Installation
+Install it from RubyGems.org using `gem install lame-sitemapper`.
+## Examples
+Crawls up to depth 3 of page links, usees 6 threads, disregards robots.txt and creates a hierarchical text report:
+```
+lame-sitemapper "http://www.some.site.mom" -l 0 -d 3 -t 6 --no-robots
+```
+Crawls up to depth 4, uses 6 threads, disregards robots.txt, creates dot file, converts it to png file and opens it (you need to have installed [graphviz][graphviz]):
+```
+lame-sitemapper "http://www.some.site.mom" -l 0 -d 4 -t 6 --no-robots
+  -r graph > site.dot && dot -Tpng site.dot > site.png && open site.png
+```
+Traverses up to level 2, obeys robots.txt and creates an html report:
+```
+lame-sitemapper "http://www.some.site.mom" -d 2 -r html > site.html
+  && open site.html
+```
+[graphviz]: http://www.graphviz.org/
+[github-sitemapper]: http://github.com/okulik/lame-sitemapper/
+[bundler]: http://bundler.io/
+[nisdom-sitemapper]: http://www.nisdom.com/blog/2014/04/12/a-simple-ruby-sitemap-dot-xml-generator/

data/bin/console ADDED

@@ -0,0 +1,14 @@
+#!/usr/bin/env ruby
+require "bundler/setup"
+require "lame_sitemapper"
+# You can add fixtures and/or initialization code here to make experimenting
+# with your gem easier. You can also use a different console, if you like.
+# (If you use this, don't forget to add pry to your Gemfile!)
+# require "pry"
+# Pry.start
+require "irb"
+IRB.start(__FILE__)

data/bin/setup ADDED

@@ -0,0 +1,9 @@
+#!/usr/bin/env bash
+set -euo pipefail
+IFS=$'\n\t'
+set -vx
+bundle install
+# Do any other automated setup that you need to do here

data/exe/lame-sitemapper ADDED

@@ -0,0 +1,7 @@
+#!/usr/bin/env ruby
+require "bundler/setup"
+require "cli"
+LameSitemapper::Cli.new($stdout, ARGV, File.basename(__FILE__)).run

data/lame-sitemapper.gemspec ADDED

@@ -0,0 +1,34 @@
+require_relative "lib/lame_sitemapper/version"
+Gem::Specification.new do |spec|
+  spec.name          = "lame-sitemapper"
+  spec.version       = LameSitemapper::VERSION
+  spec.authors       = ["Orest Kulik"]
+  spec.email         = ["orest@nisdom.com"]
+  spec.summary       = %q{A tool for a simple, static web pages hierarchy exploration.}
+  spec.description   = %q{It starts from the arbitrary page you provide and descents into the tree of links until it has either traversed all possible content on the web site or has stopped at some predefined traversal depth. It is written in Ruby and implemented as a CLI application. Based on user preference, it can output text reports in a standard sitemap.xml form (used by many search engines), a dot file (for easier site hierarchy visualization, graphviz compatible), a plain text file (displaying detailed hierarchical relations between pages) and a simple HTML format.}
+  spec.required_ruby_version = Gem::Requirement.new(">= 2.3.0")
+  spec.metadata["source_code_uri"] = "https://github.com/okulik/lame-sitemapper"
+  spec.files         = Dir.chdir(File.expand_path('..', __FILE__)) do
+    `git ls-files -z`.split("\x0").reject { |f| f.match(%r{^(spec)/}) }
+  end
+  spec.bindir        = "exe"
+  spec.executables   = spec.files.grep(%r{^exe/}) { |f| File.basename(f) }
+  spec.require_paths = ["lib"]
+  spec.add_runtime_dependency("typhoeus", "~> 0.6", ">= 0.6.8")
+  spec.add_runtime_dependency("nokogiri", "~> 1.6", ">= 1.6.1")
+  spec.add_runtime_dependency("webrobots", "~> 0.1", ">= 0.1.1")
+  spec.add_runtime_dependency("addressable", "~> 2.3", ">= 2.3.6")
+  spec.add_runtime_dependency("public_suffix", "~> 1.4", ">= 1.4.2")
+  spec.add_runtime_dependency("digest-murmurhash", "~> 0.3", ">= 0.3.0")
+  spec.add_runtime_dependency("graphviz", "~> 0.4", ">= 0.4.0")
+  spec.add_runtime_dependency("activesupport", "~> 6.0", ">= 6.0.3.2")
+  spec.add_development_dependency("pry")
+  spec.add_development_dependency("pry-doc")
+  spec.add_development_dependency("pry-byebug")
+end

data/lib/cli.rb ADDED

@@ -0,0 +1,120 @@
+# frozen_string_literal: true
+require "optparse"
+require "ostruct"
+require "lame_sitemapper"
+require "core"
+require "url_helper"
+require "report_generator"
+module LameSitemapper
+  class Cli
+    attr_reader :opt_parser
+    def initialize(out = nil, args = [], run_file = File.basename(__FILE__))
+      @out = out
+      @args = args
+      @options = OpenStruct.new
+      @options.use_robots = LameSitemapper::SETTINGS[:use_robots]
+      @options.max_page_depth = LameSitemapper::SETTINGS[:max_page_depth]
+      @options.log_level = LameSitemapper::SETTINGS[:log_level].to_i
+      @options.report_type = LameSitemapper::SETTINGS[:report_type]
+      @options.frequency_type = LameSitemapper::SETTINGS[:sitemap_frequency_type]
+      @options.scraper_threads = LameSitemapper::SETTINGS[:scraper_threads].to_i
+      Thread.current[:name] = "**"
+      @opt_parser = OptionParser.new do |opts|
+        opts.banner = "Generate sitemap.xml for a given url."
+        opts.separator ""
+        opts.separator "Usage: ruby #{run_file} [options] <uri>"
+        opts.separator "url needs to be in the form of e.g. http://www.nisdom.com"
+        opts.separator ""
+        opts.separator "Specific options:"
+        opts.on("--[no-]robots", "Run with robots.txt") do |r|
+          @options.use_robots = r
+        end
+        opts.on("-l", "--log-level LEVEL", "Set log level from 0 to 4, 0 is most verbose (default 1)") do |level|
+          if level.to_i < 0 || level.to_i > 4
+            @out.puts opts if @out
+            exit
+          end
+          LOGGER.level = level.to_i
+        end
+        opts.on("-d", "--depth DEPTH", "Set maximum page traversal depth from 1 to 10 (default 10)") do |depth|
+          if depth.to_i < 1 || depth.to_i > 10
+            @out.puts opts if @out
+            exit
+          end
+          @options.max_page_depth = depth.to_i
+        end
+        report_types = [:text, :sitemap, :html, :graph, :test_yml]
+        opts.on("-r", "--report-type TYPE", report_types, "Set report type #{report_types.map {|f| '\'' + f.to_s + '\''}.join(", ")} (defalut 'text')") do |type|
+          @options.report_type = type
+        end
+        change_frequency = [:none, :always, :hourly, :daily, :weekly, :monthly, :yearly, :never]
+        opts.on("--change-frequency FREQ", change_frequency, "Set sitemap's page change frequency #{change_frequency.map {|f| '\'' + f.to_s + '\''}.join(", ")} (default 'daily')") do |freq|
+          @options.frequency_type = freq
+        end
+        opts.on("-t", "--scraper-threads NUM", "Set number of scraper threads from 1 to 10 (default 1)") do |num|
+          if num.to_i < 1 || num.to_i > 10
+            @out.puts opts if @out
+            exit
+          end
+          @options.scraper_threads = num.to_i
+        end
+        opts.separator ""
+        opts.separator "Common options:"
+        opts.on_tail("-h", "--help", "Display this screen") do
+          @out.puts opts if @out
+          exit
+        end
+        opts.on_tail("-v", "--version", "Show version") do
+          @out.puts LameSitemapper::VERSION if @out
+          exit
+        end
+      end
+    end
+    def run
+      @opt_parser.parse! @args
+      if @args.empty?
+        @out.puts @opt_parser if @out
+        exit
+      end
+      start_url = @args.shift
+      normalized_host = UrlHelper::get_normalized_host(start_url)
+      normalized_start_url = UrlHelper::get_normalized_url(normalized_host, start_url)
+      if normalized_host.nil? || normalized_start_url.nil?
+        @out.puts @opt_parser if @out
+        exit
+      end
+      LOGGER.info "starting with #{normalized_start_url}, options #{@options.inspect}"
+      start_time = Time.now
+      root, normalized_start_url = Core.new(@out, @options).start(normalized_host, normalized_start_url)
+      return unless root
+      LOGGER.info "found #{root.count} pages in #{Time.now - start_time}s"
+      @out.puts ReportGenerator.new(@options, normalized_start_url).send("to_#{@options.report_type}", root) if @out
+    rescue OptionParser::InvalidArgument, OptionParser::InvalidOption, OptionParser::MissingArgument =>e
+      @out.puts e if @out
+      @out.puts @opt_parser if @out
+      exit
+    end
+  end
+end

data/lib/core.rb ADDED

@@ -0,0 +1,105 @@
+# frozen_string_literal: true
+require "typhoeus"
+require "webrobots"
+require "addressable/uri"
+require_relative "scraper"
+require_relative "page"
+require_relative "url_helper"
+require_relative "web_helper"
+module LameSitemapper
+  class Core
+    def initialize(out, opts)
+      @out = out
+      @opts = opts
+    end
+    def start(host, start_url)
+      if @opts.use_robots
+        @robots = WebRobots.new(SETTINGS[:web_settings][:useragent], {
+          crawl_delay: :sleep,
+          :http_get => lambda do |url|
+            response = WebHelper.get_http_response(url)
+            return unless response
+            return response.body.force_encoding("UTF-8")
+          end
+        })
+        if error = @robots.error(host)
+          msg = "unable to fetch robots.txt"
+          LOGGER.fatal msg
+          $stderr.puts msg
+          return [nil, start_url]
+        end
+      end
+      # check if our host redirects to somewhere else, if it does, change start_url to redirect url
+      response = WebHelper.get_http_response(start_url, :head)
+      unless response
+        msg = "unable to fetch starting url"
+        LOGGER.fatal msg
+        $stderr.puts msg
+        return [nil, start_url]
+      end
+      if response.redirect_count.to_i > 0
+        host = UrlHelper::get_normalized_host(response.effective_url)
+        start_url = UrlHelper::get_normalized_url(host, response.effective_url)
+      end
+      urls_queue = Queue.new
+      pages_queue = Queue.new
+      seen_urls = {}
+      threads = []
+      root = nil
+      Thread.abort_on_exception = true
+      (1..@opts.scraper_threads.to_i).each_with_index do |index|
+        threads << Thread.new { Scraper.new(seen_urls, urls_queue, pages_queue, index, @opts, @robots).run }
+      end
+      urls_queue.push(host: host, url: start_url, depth: 0, parent: root)
+      loop do
+        msg = pages_queue.pop
+        if msg[:page]
+          if LOGGER.info?
+            if msg[:page].scraped?
+              details = ": a(#{msg[:page].anchors.count}), img(#{msg[:page].images.count}), link(#{msg[:page].links.count}), script(#{msg[:page].scripts.count})"
+            else
+              details = ": #{msg[:page].format_codes}"
+            end
+            LOGGER.info "#{UrlHelper.log_prefix(msg[:depth])} created at #{msg[:page].path}#{details}"
+          end
+          msg[:page].anchors.each do |anchor|
+            urls_queue.push(host: host, url: anchor, depth: msg[:depth] + 1, parent: msg[:page])
+          end
+          if msg[:parent].nil?
+            root = msg[:page]
+          else
+            msg[:parent].sub_pages << msg[:page]
+          end
+        end
+        if urls_queue.empty? && pages_queue.empty?
+          until urls_queue.num_waiting == threads.size
+            Thread.pass
+          end
+          if pages_queue.empty?
+            threads.size.times { urls_queue << nil }
+            break
+          end
+        end
+      end
+      threads.each { |thread| thread.join }
+      [root, start_url]
+    end
+  end
+end

data/lib/lame_sitemapper.rb ADDED

@@ -0,0 +1,27 @@
+# frozen_string_literal: true
+require "time"
+require "logger"
+require "yaml"
+require "active_support/core_ext/hash/conversions"
+require_relative "lame_sitemapper/version"
+module LameSitemapper
+  SETTINGS = begin
+    settings_file = File.join(__dir__, "settings.yml")
+    env = $PROGRAM_NAME =~ /rspec$/i ? "test" : "production"
+    YAML::load(IO.read(settings_file))[env].deep_symbolize_keys
+  end
+  LOGGER = begin
+    log_file = SETTINGS[:log][:file_name]
+    Logger.new(log_file, SETTINGS[:log][:file_count], SETTINGS[:log][:file_size]).tap do |logger|
+      logger.level = SETTINGS[:log_level].to_i
+      logger.datetime_format = "%Y-%m-%d %H:%M:%S "
+      logger.formatter = proc do |severity, datetime, progname, msg|
+        "[#{datetime.strftime('%Y-%m-%d %H:%M:%S')} #{Thread.current[:name]}] #{severity[0]} -- : #{msg}\n"
+      end
+    end
+  end
+end

data/lib/lame_sitemapper/version.rb ADDED

@@ -0,0 +1,5 @@
+# frozen_string_literal: true
+module LameSitemapper
+  VERSION = "0.1.0"
+end

data/lib/page.rb ADDED

@@ -0,0 +1,124 @@
+# frozen_string_literal: true
+require "forwardable"
+module LameSitemapper
+  class Page
+    extend Forwardable
+    def_delegators :each, :count
+    attr_accessor :path
+    attr_reader :sub_pages
+    attr_reader :anchors
+    attr_reader :images
+    attr_reader :links
+    attr_reader :scripts
+    NON_SCRAPED_DEPTH = 1
+    NON_SCRAPED_DOMAIN = 2
+    NON_SCRAPED_ROBOTS = 4
+    NON_SCRAPED_NO_HTML = 8
+    NON_SCRAPED_NOT_ACCESSIBLE = 16
+    def initialize(path)
+      @path = path
+      @sub_pages = []
+      @anchors = []
+      @images = []
+      @links = []
+      @scripts = []
+      @non_scraped_code = 0
+    end
+    def <<(page)
+      @sub_pages << page
+      self
+    end
+    def scraped?
+      @non_scraped_code == 0
+    end
+    def robots_forbidden?
+      @non_scraped_code & Page::NON_SCRAPED_ROBOTS > 0
+    end
+    def robots_forbidden=(value)
+      if value
+        @non_scraped_code |= Page::NON_SCRAPED_ROBOTS
+      else
+        @non_scraped_code &= ~Page::NON_SCRAPED_ROBOTS
+      end
+    end
+    def external_domain?
+      @non_scraped_code & Page::NON_SCRAPED_DOMAIN > 0
+    end
+    def external_domain=(value)
+      if value
+        @non_scraped_code |= Page::NON_SCRAPED_DOMAIN
+      else
+        @non_scraped_code &= ~Page::NON_SCRAPED_DOMAIN
+      end
+    end
+    def depth_reached?
+      @non_scraped_code & Page::NON_SCRAPED_DEPTH > 0
+    end
+    def depth_reached=(value)
+      if value
+        @non_scraped_code |= Page::NON_SCRAPED_DEPTH
+      else
+        @non_scraped_code &= ~Page::NON_SCRAPED_DEPTH
+      end
+    end
+    def no_html?
+      @non_scraped_code & Page::NON_SCRAPED_NO_HTML > 0
+    end
+    def no_html=(value)
+      if value
+        @non_scraped_code |= Page::NON_SCRAPED_NO_HTML
+      else
+        @non_scraped_code &= ~Page::NON_SCRAPED_NO_HTML
+      end
+    end
+    def not_accessible?
+      @non_scraped_code & Page::NON_SCRAPED_NOT_ACCESSIBLE > 0
+    end
+    def not_accessible=(value)
+      if value
+        @non_scraped_code |= Page::NON_SCRAPED_NOT_ACCESSIBLE
+      else
+        @non_scraped_code &= ~Page::NON_SCRAPED_NOT_ACCESSIBLE
+      end
+    end
+    def format_codes
+      reasons = []
+      reasons << "depth" if depth_reached?
+      reasons << "robots" if robots_forbidden?
+      reasons << "ext" if external_domain?
+      reasons << "nohtml" if no_html?
+      reasons << "noacc" if not_accessible?
+      "#{reasons.join('|')} "
+    end
+    def each(&block)
+      return enum_for(:each) unless block_given?
+      yield self
+      @sub_pages.each { |p| p.each(&block) }
+    end
+  end
+end

data/lib/report_generator.rb ADDED

@@ -0,0 +1,181 @@
+# frozen_string_literal: true
+require "graphviz"
+require_relative "page"
+module LameSitemapper
+  class ReportGenerator
+    INDENT = " "
+    XML_PROLOG = <<-EOS
+<?xml version="1.0" encoding="UTF-8"?>
+<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
+EOS
+    XML_EPILOG = "</urlset>"
+    XML_NODE_TEMPLATE1 = <<-EOS
+<url>
+  <loc>%s</loc>
+</url>
+EOS
+    XML_NODE_TEMPLATE2 = <<-EOS
+<url>
+  <loc>%s</loc>
+  <changefreq>%s</changefreq>
+</url>
+EOS
+    HTML_PROLOG = <<-EOS
+<html>
+  <head>
+    <title>%s sitemap</title>
+  </head>
+  <body>
+    <h1>Site %s</h1>
+EOS
+    HTML_EPILOG = <<-EOS
+</body>
+</html>
+EOS
+    def initialize options, host
+      @options = options
+      @host = host
+    end
+    def to_text(page)
+      out = []
+      tree_to_text(page, out)
+      out.join
+    end
+    def to_sitemap(page)
+      out = []
+      out << XML_PROLOG
+      page.each do |p|
+        if @options.frequency_type != :none
+          out << XML_NODE_TEMPLATE2 % [ p.path, @options.frequency_type ]
+        else
+          out << XML_NODE_TEMPLATE1 % [ p.path ]
+        end
+      end
+      out << XML_EPILOG
+      out.join
+    end
+    def to_html(page)
+      out = []
+      out << HTML_PROLOG % [ page.path, page.path ]
+      page.each do |p|
+        out << "<h2>#{scraped_mark(p)}#{p.format_codes}<a href=\"#{p.path}\">#{p.path}</a></h2>\n"
+        if p.scraped?
+          out << "<h3>Images</h3>\n" if p.images.count > 0
+          p.images.each do |img|
+            uri = UrlHelper.get_normalized_url(@host, img)
+            out << "<div>\n"
+            out << "<a href=\"#{uri}\">#{uri}</a>\n"
+            out << "</div>\n"
+          end
+          out << "<h3>Links</h3>\n" if p.links.count > 0
+          p.links.each do |link|
+            uri = UrlHelper.get_normalized_url(@host, link)
+            out << "<div>\n"
+            out << "<p>#{uri}</p>\n"
+            out << "</div>\n"
+          end
+          out << "<h3>Scripts</h3>\n" if p.scripts.count > 0
+          p.scripts.each do |script|
+            uri = UrlHelper.get_normalized_url(@host, script)
+            out << "<div>\n"
+            out << "<p>#{uri}</p>\n"
+            out << "</div>\n"
+          end
+        end
+      end
+      out << HTML_EPILOG
+      out.join
+    end
+    def to_graph(page)
+      graph = Graphviz::Graph.new
+      tree_to_graph(page, graph)
+      graph.to_dot
+    end
+    def to_test_yml(page)
+      out = []
+      tree_to_test_yml(page, out)
+      out.join
+    end
+    private
+    def tree_to_graph(page, node)
+      n = node.add_node(page.path.to_s)
+      unless page.scraped?
+        n.attributes[:shape] = "box"
+        n.attributes[:color] = (
+          if page.robots_forbidden?
+            "crimson"
+          elsif page.depth_reached?
+            "darkorange"
+          elsif page.external_domain?
+            "deeppink"
+          elsif page.no_html?
+            "blue"
+          elsif page.not_accessible?
+            "blueviolet"
+          end
+        )
+      end
+      page.sub_pages.each do |p|
+        tree_to_graph(p, n)
+      end
+    end
+    def tree_to_text(page, out, depth=0)
+      indent = INDENT * 2 * depth
+      if page.scraped?
+        details = ": a(#{page.anchors.count}), img(#{page.images.count}), link(#{page.links.count}), script(#{page.scripts.count})"
+      else
+        details = ": #{page.format_codes}"
+      end
+      out << "#{indent}(#{depth})#{scraped_mark(page)}page #{page.path}#{details}\n"
+      return unless page.scraped?
+      if page.images.count > 0
+        out << "#{indent}#{INDENT}images:\n"
+        page.images.each { |img| out << "#{indent}#{INDENT*2}#{img}\n" }
+      end
+      if page.links.count > 0
+        out << "#{indent}#{INDENT}links:\n"
+        page.links.each { |link| out << "#{indent}#{INDENT*2}#{link}\n" }
+      end
+      if page.scripts.count > 0
+        out << "#{indent}#{INDENT}scripts:\n"
+        page.scripts.each { |script| out << "#{indent}#{INDENT*2}#{script}\n" }
+      end
+      if page.sub_pages.count > 0
+        out << "#{indent}#{INDENT}pages:\n"
+        page.sub_pages.each do |sub_page|
+          tree_to_text(sub_page, out, depth + 1)
+        end
+      end
+    end
+    def tree_to_test_yml(page, out)
+      if page.scraped?
+        out << "\"#{page.path}\": \"\n"
+        out << "<html><body>\n"
+        page.sub_pages.each do |p|
+          out << "  <a href=\\\"#{p.path}\\\"></a>\n"
+        end
+        out << "</body></html>\"\n"
+        page.sub_pages.each do |p|
+          tree_to_test_yml(p, out)
+        end
+      end
+    end
+    def scraped_mark(page)
+      page.scraped? ? "* " : " "
+    end
+  end
+end

data/lib/scraper.rb ADDED

@@ -0,0 +1,138 @@
+# frozen_string_literal: true
+require "digest/murmurhash"
+require_relative "page"
+require_relative "url_helper"
+require_relative "web_helper"
+module LameSitemapper
+  class Scraper
+    EXTRACT_TAGS = [
+      ["//a/@href", "anchors"],
+      ["//img/@src", "images"],
+      ["//link/@href", "links"],
+      ["//script/@src", "scripts"]
+    ]
+    def initialize(seen_urls, urls_queue, pages_queue, index, opts, robots)
+      @seen_urls = seen_urls
+      @urls_queue = urls_queue
+      @pages_queue = pages_queue
+      @index = index
+      @opts = opts
+      @robots = robots
+    end
+    def run
+      Thread.current[:name] = "%02d" % @index
+      LOGGER.debug "running scraper #{@index}"
+      loop do
+        msg = @urls_queue.pop
+        unless msg
+          LOGGER.debug "scraper #{@index} received finish message"
+          break
+        end
+        page = create_page(msg)
+        @pages_queue.push(page: page, url: msg[:url], depth: msg[:depth], parent: msg[:parent])
+      end
+    end
+    private
+    def create_page(args)
+      normalized_url = UrlHelper.get_normalized_url(args[:host], args[:url])
+      unless normalized_url
+        LOGGER.error "failed to normalize url #{args[:url]}"
+        return
+      end
+      return if is_url_already_seen?(normalized_url, args[:depth])
+      set_already_seen_url(normalized_url)
+      page = Page.new(normalized_url)
+      return page unless should_crawl_page?(args[:host], page, args[:depth])
+      response = WebHelper.get_http_response(normalized_url)
+      unless response
+        LOGGER.error "failed to get resource for #{normalized_url}"
+        page.not_accessible = true
+        return page
+      end
+      if response.headers && response.headers["Content-Type"] !~ /text\/html/
+        LOGGER.debug "#{UrlHelper.log_prefix(args[:depth])} stopping, #{page.path} is not html"
+        page.no_html = true
+        return page
+      end
+      # if we had redirect, verify url once more
+      if response.redirect_count.to_i > 0
+        normalized_url = UrlHelper.get_normalized_url(args[:host], response.effective_url)
+        unless normalized_url
+          LOGGER.error "failed to normalize url #{response.effective_url}"
+          return page
+        end
+        page.path = normalized_url # modify path to match redirect
+        return if is_url_already_seen?(normalized_url, args[:depth])
+        set_already_seen_url(normalized_url)
+        return page unless should_crawl_page?(args[:host], page, args[:depth])
+      end
+      doc = Nokogiri::HTML(response.body)
+      unless doc
+        LOGGER.error "failed to parse document from url #{normalized_url}"
+        return page
+      end
+      EXTRACT_TAGS.each do |expression, collection|
+        doc.xpath(expression).each { |attr| page.send(collection) << attr.value }
+        page.instance_variable_set("@#{collection}", page.send(collection).reject(&:empty?).uniq)
+      end
+      LOGGER.debug "#{UrlHelper.log_prefix(args[:depth])} scraped page at #{normalized_url}"
+      page
+    end
+    def is_url_already_seen?(url, depth)
+      if @seen_urls[Digest::MurmurHash64B.hexdigest(url.omit(:scheme).to_s)]
+        LOGGER.debug "#{UrlHelper.log_prefix(depth)} skipping #{url}, already seen"
+        return true
+      end
+      false
+    end
+    def set_already_seen_url(url)
+      @seen_urls[Digest::MurmurHash64B.hexdigest(url.omit(:scheme).to_s)] = true
+    end
+    def should_crawl_page?(host, page, depth)
+      # check if url is on the same domain as host
+      unless UrlHelper.is_url_same_domain?(host, page.path)
+        LOGGER.debug "#{UrlHelper.log_prefix(depth)} stopping, #{page.path} is ext host"
+        page.external_domain = true
+        return false
+      end
+      # check if url is allowed with robots.txt
+      if @robots && @robots.disallowed?(page.path.to_s)
+        LOGGER.debug "#{UrlHelper.log_prefix(depth)} stopping, #{page.path} is robots.txt disallowed"
+        page.robots_forbidden = true
+        return false
+      end
+      # check if max traversal depth has been reached
+      if depth >= @opts[:max_page_depth].to_i
+        LOGGER.debug "#{UrlHelper.log_prefix(depth)} stopping, max traversal depth reached"
+        page.depth_reached = true
+        return false
+      end
+      true
+    end
+  end
+end

data/lib/settings.yml ADDED

@@ -0,0 +1,28 @@
+default: &default
+  max_page_depth: 10
+  log_level: 1
+  use_robots: true
+  web_settings:
+    followlocation: true
+    ssl_verifypeer: false
+    ssl_verifyhost: 2
+    useragent: lame-sitemapper v0.0.0.1
+    connecttimeout: 5
+    timeout: 5
+  report_type: text
+  sitemap_frequency_type: daily
+  scraper_threads: 5
+  log:
+    file_name: crawl.log
+    file_count: 10
+    file_size: 10485760
+production:
+  <<: *default
+test:
+  <<: *default
+  log_level: 0
+  scraper_threads: 1
+  log:
+    file_name: crawl-test.log
+    file_count: 10
+    file_size: 10485760

data/lib/url_helper.rb ADDED

@@ -0,0 +1,56 @@
+# frozen_string_literal: true
+require "addressable/uri"
+require "public_suffix"
+module LameSitemapper
+  class UrlHelper
+    SUPPORTED_SCHEMAS = %w(http https)
+    LOG_INDENT = " " * 2
+    def self.get_normalized_host(host_string)
+      host_url = Addressable::URI.heuristic_parse(host_string, scheme: "http")
+      return unless SUPPORTED_SCHEMAS.include?(host_url.scheme)
+      return unless host_url.host
+      return if host_url.host =~ /\s/
+      return unless PublicSuffix.valid?(host_url.host)
+      host_url.omit!(:path, :query, :fragment)
+      Addressable::URI.encode(host_url, ::Addressable::URI).normalize
+    rescue Addressable::URI::InvalidURIError, TypeError
+      nil
+    end
+    def self.get_normalized_url(host_url, resource_url)
+      host_url = Addressable::URI.parse(host_url)
+      resource_url = Addressable::URI.parse(resource_url)
+      m = {}
+      m[:scheme] = host_url.scheme unless resource_url.scheme
+      unless resource_url.host
+        m[:host] = host_url.host
+        m[:port] = host_url.port
+      end
+      resource_url.merge!(m) unless m.empty?
+      return unless SUPPORTED_SCHEMAS.include?(resource_url.scheme)
+      return unless PublicSuffix.valid?(resource_url.host)
+      resource_url.omit!(:fragment)
+      resource_url.query = resource_url.query.split("&").map(&:strip).sort.join("&") unless resource_url.query.nil? || resource_url.query.empty?
+      Addressable::URI.encode(resource_url, ::Addressable::URI).normalize
+    rescue Addressable::URI::InvalidURIError, TypeError
+      nil
+    end
+    def self.is_url_same_domain?(host_url, resource_url)
+      host_url = Addressable::URI.parse(host_url)
+      resource_url = Addressable::URI.parse(resource_url)
+      host_url.host == resource_url.host
+    end
+    def self.log_prefix(depth)
+      "#{LOG_INDENT * depth}(#{depth})"
+    end
+  end
+end

data/lib/web_helper.rb ADDED

@@ -0,0 +1,29 @@
+# frozen_string_literal: true
+require "typhoeus"
+module LameSitemapper
+  class WebHelper
+    def self.get_http_response(url, method=:get)
+      response = Typhoeus.send(method, url.to_s, SETTINGS[:web_settings])
+      return if response.nil?
+      if response.timed_out?
+        LOGGER.warn "resource at #{url} timed-out"
+        return
+      end
+      unless response.success?
+        LOGGER.warn "resource at #{url} returned error code #{response.code}"
+        return
+      end
+      if response.body.nil?
+        LOGGER.warn "resource at #{url} returned empty body"
+        return
+      end
+      response
+    end
+  end
+end

metadata ADDED

@@ -0,0 +1,271 @@
+--- !ruby/object:Gem::Specification
+name: lame-sitemapper
+version: !ruby/object:Gem::Version
+  version: 0.1.0
+platform: ruby
+authors:
+- Orest Kulik
+autorequire:
+bindir: exe
+cert_chain: []
+date: 2020-08-26 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: typhoeus
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.6'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.6.8
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.6'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.6.8
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.6.1
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.6.1
+- !ruby/object:Gem::Dependency
+  name: webrobots
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.1'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.1.1
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.1'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.1.1
+- !ruby/object:Gem::Dependency
+  name: addressable
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2.3'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 2.3.6
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2.3'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 2.3.6
+- !ruby/object:Gem::Dependency
+  name: public_suffix
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.4'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.4.2
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.4'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.4.2
+- !ruby/object:Gem::Dependency
+  name: digest-murmurhash
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.3.0
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.3'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.3.0
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.3'
+- !ruby/object:Gem::Dependency
+  name: graphviz
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.4.0
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.4'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.4.0
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.4'
+- !ruby/object:Gem::Dependency
+  name: activesupport
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '6.0'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 6.0.3.2
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '6.0'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 6.0.3.2
+- !ruby/object:Gem::Dependency
+  name: pry
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: pry-doc
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: pry-byebug
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+description: It starts from the arbitrary page you provide and descents into the tree
+  of links until it has either traversed all possible content on the web site or has
+  stopped at some predefined traversal depth. It is written in Ruby and implemented
+  as a CLI application. Based on user preference, it can output text reports in a
+  standard sitemap.xml form (used by many search engines), a dot file (for easier
+  site hierarchy visualization, graphviz compatible), a plain text file (displaying
+  detailed hierarchical relations between pages) and a simple HTML format.
+email:
+- orest@nisdom.com
+executables:
+- lame-sitemapper
+extensions: []
+extra_rdoc_files: []
+files:
+- ".gitignore"
+- ".rspec"
+- Gemfile
+- LICENSE
+- README.md
+- bin/console
+- bin/setup
+- exe/lame-sitemapper
+- lame-sitemapper.gemspec
+- lib/cli.rb
+- lib/core.rb
+- lib/lame_sitemapper.rb
+- lib/lame_sitemapper/version.rb
+- lib/page.rb
+- lib/report_generator.rb
+- lib/scraper.rb
+- lib/settings.yml
+- lib/url_helper.rb
+- lib/web_helper.rb
+homepage:
+licenses: []
+metadata:
+  source_code_uri: https://github.com/okulik/lame-sitemapper
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: 2.3.0
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubygems_version: 3.0.3
+signing_key:
+specification_version: 4
+summary: A tool for a simple, static web pages hierarchy exploration.
+test_files: []