RubyGems - yz_crawler - Versions diffs - 0.0.1 - Mend

yz_crawler 0.0.1

Files changed (8) hide show

checksums.yaml +7 -0
data/bin/crawler +5 -0
data/lib/command_line_argument_parser.rb +53 -0
data/lib/spider.rb +84 -0
data/lib/url_store.rb +24 -0
data/lib/url_utils.rb +57 -0
data/lib/yz_crawler.rb +28 -0
metadata +64 -0

checksums.yaml ADDED

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 542b185a0e5259a82d4cec6d035f7c98803bb33f
+  data.tar.gz: e239ada03adc864e69f68df622414a80783c0fdd
+SHA512:
+  metadata.gz: d4ff22cf76e3231bedf8ad7dea38124e1436510630e79c00e287e0110eead766d2e621e672b1d99ca166142fe9506079f6076e70d6129526ab3c6673cccc5fbd
+  data.tar.gz: 5603c47b7754586165410e91754abf8f63a366bc0236390f087cd64dff9e0a1fea123e73412eb9b04d4e89eff5b005b522ad9da209144251df9ccc5d75c3d85a

data/bin/crawler ADDED

@@ -0,0 +1,5 @@
+#!/usr/bin/env ruby
+require 'yz_crawler'
+crawler = YzCrawler.new
+crawler.crawl

data/lib/command_line_argument_parser.rb ADDED

@@ -0,0 +1,53 @@
+require 'getoptlong'
+class CommandLineArgumentParser
+  WEB_CRAWLER = 'web'
+  DOMAIN_CRAWLER = 'domain'
+  attr_reader :crawl_type, :crawl_depth, :page_limit, :url_file
+  def initialize
+    unless ARGV.length >= 1
+      display_usage
+      exit
+    end
+    @opts = GetoptLong.new(
+      ["--crawl", "-c", GetoptLong::REQUIRED_ARGUMENT],
+      ["--crawl-depth", "-d", GetoptLong::OPTIONAL_ARGUMENT],
+      ["--page-limit", "-p", GetoptLong::OPTIONAL_ARGUMENT],
+      ["--url-file", "-f", GetoptLong::OPTIONAL_ARGUMENT]
+    )
+    @crawl_type = "data.txt"
+    @crawl_depth = 3
+    @page_limit = 100
+    @url_file = 'urls.txt'
+  end
+  def display_usage
+    p "Sample usage:"
+    p "ruby search-engine-main.rb -c web -d 3 -p 100 -f 'urls.txt'"
+    p "-c must be either 'web' or 'domain', will default to 'web' is you type garbage "
+  end
+  def parse_arguments
+    @opts.each do |opt, arg|
+      case opt
+      when '--crawl'
+        ensure_crawl_type_correct(arg)
+      when '--crawl-depth'
+        @crawl_depth = arg.to_i
+      when '--page-limit'
+        @page_limit = arg.to_i
+      when '--url-file'
+        @url_file = arg
+      end
+    end
+  end
+  def ensure_crawl_type_correct(value)
+    if value != WEB_CRAWLER && value != DOMAIN_CRAWLER
+      @crawl_type = WEB_CRAWLER
+    else
+      @crawl_type = value
+    end
+  end
+end

data/lib/spider.rb ADDED

@@ -0,0 +1,84 @@
+require 'net/http'
+require 'uri'
+require 'open-uri'
+require 'rubygems'
+require 'hpricot'
+require 'url_utils'
+class Spider
+  include UrlUtils
+  def initialize
+    @already_visited = {}
+  end
+  def crawl_web(urls, depth=2, page_limit = 100)
+    depth.times do
+      next_urls = []
+      urls.each do |url|
+        url_object = open_url(url)
+        next if url_object.nil?
+        url = update_url_if_redirected(url_object)
+        parsed_doc = parse_url(url_object)
+        next if parsed_doc.nil?
+        @already_visited[url] = true if @already_visited[url].nil?
+        return if @already_visited.size == page_limit
+        next_urls += (find_urls_on_page(parsed_doc, url) - @already_visited.keys)
+        next_urls.uniq!
+      end
+      urls = next_urls
+    end
+  end
+  def crawl_domain(url, page_limit = 100)
+    return if @already_visited.size == page_limit
+    url_object = open_url(url)
+    return if url_object.nil?
+    parsed_doc = parse_url(url_object)
+    return if parsed_doc.nil?
+    @already_visited[url] = true if @already_visited[url].nil?
+    page_urls = find_urls_on_page(parsed_doc, url)
+    page_urls.each do |page_url|
+      if urls_on_same_domain?(url, page_url) && @already_visited[page_url].nil?
+        crawl_domain(page_url)
+      end
+    end
+  end
+  private
+  def open_url(url)
+    open(url)
+  rescue
+    puts "Unable to open url: " + url
+  end
+  def update_url_if_redirected(url_object)
+    url_object.base_uri.to_s
+  end
+  def parse_url(url_object)
+    doc = Hpricot(url_object) #nokogiri
+    puts 'Crawling url ' + url_object.base_uri.to_s
+    doc
+  rescue
+    puts 'Could not parse url: ' + url_object.base_uri.to_s
+  end
+  def find_urls_on_page(parsed_doc, current_url)
+    parsed_doc.search('a[@href]').each_with_object([]) do |x, urls_list|
+      new_url = x['href'].split('#')[0]
+      if new_url
+        # complicated feature: make_absolute
+        new_url = make_absolute(current_url, new_url) if relative?(new_url)
+        urls_list.push(new_url)
+      end
+    end
+  end
+end

data/lib/url_store.rb ADDED

@@ -0,0 +1,24 @@
+class UrlStore
+  attr_reader :urls
+  alias :get_urls :urls
+  def initialize(url_file)
+    @urls = read_urls_from_file(url_file)
+  end
+  def get_url
+    @urls[0]
+  end
+  def read_urls_from_file(url_file)
+    urls = []
+    File.open(url_file, 'r') do |file|
+      file.readlines.each do |line|
+        urls.push(line.chomp)
+      end
+    end
+    urls
+  end
+  private :read_urls_from_file
+end

data/lib/url_utils.rb ADDED

@@ -0,0 +1,57 @@
+module UrlUtils
+  def relative?(url)
+    !url.match(/^http/)
+  end
+  def make_absolute(potential_base, relative_url)
+    if relative_url.match(/^\//)
+      create_absolute_url_from_base(potential_base, relative_url)
+    else
+      create_absolute_url_from_context(potential_base, relative_url)
+    end
+  end
+  def urls_on_same_domain?(url1, url2)
+    get_domain(url1) == get_domain(url2)
+  end
+  def get_domain(url)
+    remove_extra_paths(url)
+  end
+  private
+  def create_absolute_url_from_base(potential_base, relative_url)
+    remove_extra_paths(potential_base) + relative_url
+  end
+  def remove_extra_paths(potential_base)
+    index_to_start_slash_search = potential_base.index('://')+3
+    index_of_first_relevant_slash = potential_base.index('/', index_to_start_slash_search)
+    if index_of_first_relevant_slash != nil
+      potential_base[0, index_of_first_relevant_slash]
+    else
+    	potential_base
+    end
+  end
+  def create_absolute_url_from_context(potential_base, relative_url)
+    absolute_url = nil
+    if potential_base.match(/\/$/)
+      absolute_url = potential_base+relative_url
+    else
+      last_index_of_slash = potential_base.rindex('/')
+      if potential_base[last_index_of_slash-2, 2] == ':/'
+        absolute_url = potential_base+'/'+relative_url
+      else
+        last_index_of_dot = potential_base.rindex('.')
+        if last_index_of_dot < last_index_of_slash
+          absolute_url = potential_base+'/'+relative_url
+        else
+          absolute_url = potential_base[0, last_index_of_slash+1] + relative_url
+        end
+      end
+    end
+    absolute_url
+  end
+end

data/lib/yz_crawler.rb ADDED

@@ -0,0 +1,28 @@
+require 'spider'
+require 'command_line_argument_parser'
+require 'url_store'
+class YzCrawler
+  def initialize
+    @argument_parser = CommandLineArgumentParser.new
+    @argument_parser.parse_arguments
+    @spider = Spider.new
+    @url_store = UrlStore.new(@argument_parser.url_file)
+  end
+  def crawl
+    if @argument_parser.crawl_type == CommandLineArgumentParser::WEB_CRAWLER
+      @spider.crawl_web(
+        @url_store.get_urls,
+        @argument_parser.crawl_depth,
+        @argument_parser.page_limit
+      )
+    else
+      @spider.crawl_domain(
+        @url_store.get_url,
+        @argument_parser.page_limit
+      )
+    end
+  end
+end

metadata ADDED

@@ -0,0 +1,64 @@
+--- !ruby/object:Gem::Specification
+name: yz_crawler
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+platform: ruby
+authors:
+- Yang Zhao
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2015-03-22 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: hpricot
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.8'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.8'
+description: A simple web crawler gem
+email: yang.notold@gmail.com
+executables:
+- crawler
+extensions: []
+extra_rdoc_files: []
+files:
+- bin/crawler
+- lib/command_line_argument_parser.rb
+- lib/spider.rb
+- lib/url_store.rb
+- lib/url_utils.rb
+- lib/yz_crawler.rb
+homepage: http://rubygems.org/gems/yz_crawler
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.4.3
+signing_key:
+specification_version: 4
+summary: My first gem
+test_files: []