RubyGems - indeedcrawler - Versions diffs - 0.0.2 → 0.0.3 - Mend

indeedcrawler 0.0.2 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 733c0a9b4b19d7441025971ab8cd432a4a016b65
-  data.tar.gz: 165539a0a501c1f730b408a5ffaa7d9c9bce2f27
+  metadata.gz: 8d72ad14e0778839a3c4240834a4c10ebb94111e
+  data.tar.gz: e5a4bc28084ad26a63d0814c868eb18a6ba4565d
 SHA512:
-  metadata.gz: f0de486ae6199adec6ef6b432bd879b22f8fd9cad92c746fad755cba272c778f52cd125d1ed3198c14540712726432417d8784869cc714d144e4af8a71e37865
-  data.tar.gz: 22666895be68a355c658c7321c763c7de50ef29a29ad63d56f7221e8b970f5cb6a0ec87cc48ec66cd8ea4519b30c7fde5bbb3c048347e88aab5a403e5fd63f20
+  metadata.gz: 9d27cfc99eae6badb5643454a3b4b45192720d9e9df3530dbfe4bc2b766b84fb1dd414082a66c2d2cb777c634e6de542f19e9e69551a099f9ce95e182372b5b1
+  data.tar.gz: a4af2a1ed5dad981de77f48fccaa9025f2ceae7f3d59ad487f4698f89c3b10d523890b0552f3a9e86bf8942dc7526341938d3863da066330893a30480209071f

data/lib/indeedcrawler.rb CHANGED Viewed

@@ -3,9 +3,10 @@ require 'uri'
 require 'requestmanager'
 require 'nokogiri'
 require 'indeedparser'
+require 'curb'
 class IndeedCrawler
-  def initialize(search_query, location, proxy_list, wait_time, browser_num)
+  def initialize(search_query, location, proxy_list, wait_time, browser_num, cm_hash)
     # Info for query
     @search_query = search_query
     @location = location
@@ -16,6 +17,10 @@ class IndeedCrawler
     # Result tracking
     @all_resume_links = Array.new
     @output = Array.new
+    # Handle crawler manager info
+    @cm_url = cm_hash[:crawler_manager_url] if cm_hash
+    @selector_id = cm_hash[:selector_id] if cm_hash
   end
   # Append query
@@ -70,15 +75,38 @@ class IndeedCrawler
         # Parse resume and add to results
         i = IndeedParser.new(resume, link, {time_scraped: Time.now})
         results = JSON.parse(i.get_results_by_job)
-        results.each do |result|
-          @output.push(result)
-        end
+        report_results(results, link)
       rescue
       end
     end
   end
+  # Figure out how to report results
+  def report_results(results, link)
+    if @cm_url
+      report_incremental(results, link)
+    else
+      report_batch(results)
+    end
+  end
+  # Report all results in one JSON
+  def report_batch(results)
+    results.each do |result|
+      @output.push(result)
+    end
+  end
+  # Report results back to Harvester incrementally
+  def report_incremental(results, link)
+    curl_url = @cm_url+"/relay_results"
+    c = Curl::Easy.http_post(curl_url,
+                             Curl::PostField.content('selector_id', @selector_id),
+                             Curl::PostField.content('status_message', "Collected " + link),
+                             Curl::PostField.content('results', JSON.pretty_generate(results)))
+  end
   # Get all the profile links
   def collect_it_all
     # Generate URL

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: indeedcrawler
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3
 platform: ruby
 authors:
 - M. C. McGrath
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2015-12-23 00:00:00.000000000 Z
+date: 2016-10-05 00:00:00.000000000 Z
 dependencies: []
 description: Crawls Indeed resumes
 email: shidash@transparencytoolkit.org