RubyGems - requestmanager - Versions diffs - 0.0.1 - Mend

requestmanager 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 4f67cdd4a24c5e45ff2509d3d934a1a9024178b8
+  data.tar.gz: ff5e527045259cb2207062af68042afd968f4c3f
+SHA512:
+  metadata.gz: 3419dea05f953ecb677c97cb4a7c06ba6cd264e79b4b8baa4cfa94bac8c0081550615a9b2039402c32e960900eb48e651723380b19d5309137c83e6d4ff78a92
+  data.tar.gz: cdfec6f8eda2883212ee9fdb0cd4fabe11c37b6e8cb525f86fbc05576e8f84dca905a3ecb3bc689474b308d9c4faa68ebdbe47163c4cf83896364a6988e2bff9

data/lib/requestmanager.rb ADDED Viewed

@@ -0,0 +1,77 @@
+require 'selenium-webdriver'
+require 'uri'
+require 'pry'
+class RequestManager
+  def initialize(proxy_list, request_interval)
+    @proxy_list = parse_proxy_list(proxy_list)
+    @request_interval = request_interval
+    @used_proxies = Hash.new
+  end
+  # Get the page requested
+  def get_page(url, form_input = nil)
+    chosen_proxy = @proxy_list != nil ? get_random_proxy(url) : nil
+    driver = gen_driver(chosen_proxy)
+    driver.navigate.to url
+    puts "Getting page " + url
+    # Handle form input if there is any
+    if form_input
+      element = driver.find_element(name: "q")
+      element.send_keys form_input
+      element.submit
+    end
+    page_html = driver.page_source
+    driver.quit
+    return page_html
+  end
+  # Generate driver for searches
+  def gen_driver(chosen_proxy)
+    # Profile settings
+    profile = Selenium::WebDriver::Firefox::Profile.new
+    profile['intl.accept_languages'] = 'en'
+    # Set proxy if proxy list, otherwise sleep
+    if chosen_proxy
+      proxy = Selenium::WebDriver::Proxy.new(http: chosen_proxy, ssl: chosen_proxy)
+      profile.proxy = proxy
+    else
+      sleep(rand(@request_interval[0]..@request_interval[1]))
+    end
+    return Selenium::WebDriver.for :firefox, profile: profile
+  end
+  # Choose a random proxy that hasn't been used recently
+  def get_random_proxy(url)
+    max = @proxy_list.length
+    chosen = @proxy_list[Random.rand(max)]
+    # Only use proxy if it hasn't been used in last n seconds on same host
+    if is_not_used?(chosen, url)
+      @used_proxies[chosen] = [Time.now, URI.parse(url).host]
+      return chosen[0]+":"+chosen[1]
+    else
+      sleep(0.005)
+      get_random_proxy(url)
+    end
+  end
+  # Checks if a proxy has been used on domain in the last 20 seconds
+  def is_not_used?(chosen, url)
+    return (!@used_proxies[chosen] ||
+            @used_proxies[chosen][0] <= Time.now-@request_interval[0] ||
+            @used_proxies[chosen][1] != URI.parse(url).host)
+  end
+  # Parse the proxy list
+  def parse_proxy_list(proxy_file)
+    if proxy_file
+      return IO.readlines(proxy_file).map{ |proxy| proxy.strip.split(":")}
+    end
+  end
+end

metadata ADDED Viewed

@@ -0,0 +1,45 @@
+--- !ruby/object:Gem::Specification
+name: requestmanager
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+platform: ruby
+authors:
+- M. C. McGrath
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2015-11-01 00:00:00.000000000 Z
+dependencies: []
+description: Manages proxies, wait intervals, etc
+email: shidash@shidash.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- lib/requestmanager.rb
+homepage: https://github.com/TransparencyToolkit/linkedincrawler
+licenses:
+- GPL
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.4.8
+signing_key:
+specification_version: 4
+summary: Manages scraper http requests
+test_files: []
+has_rdoc: