RubyGems - generalscraper - Versions diffs - 0.0.23 → 0.0.24 - Mend

generalscraper 0.0.23 → 0.0.24

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 85b3d91e96159d5f3cd36961664721d9bd5e7313
-  data.tar.gz: 7568e30d7343d9be690e48e0369f7cb3db194a81
+  metadata.gz: c14621c2ab26d98c1a4f8998a47de2454c6bbfad
+  data.tar.gz: d388fab99cffa9ec89e283428e85015c545b9c1e
 SHA512:
-  metadata.gz: b88b2d814a08bc24b68ed337e4e973471a57c02d1fa9323156ccd7a93f5dab754dde734e48326378e203e5c11599ee1e0be789d45eb728016feb194b0949094b
-  data.tar.gz: 5f32fd7d6da2aea69a4654a2e3e3662bcbce88412252a4b366048ffe14d02e0d33a7f57b653138b9de9eb1a7f2117cf38023072b8936a9cbd10e0e5ed7f001b7
+  metadata.gz: a6b5058cb399dc7e5deb8e9fc2b5ea6ba9097ad9339f32c470a2e58c95688ca261a05769c6dce3c1a85cd93b9a884bd458e8737f11a5c9343839048fcd116a7e
+  data.tar.gz: 0700a3c861858921cba2ff45867a7afc33bd2233a748e4a0e9e98a09aa1b061a453edd97a6ddaaf5f3e73ec5209fecea80771143e846d512d0f78be8e70ec866

data/lib/generalscraper.rb CHANGED Viewed

@@ -30,6 +30,7 @@ class GeneralScraper
   def search
     check_results(@requests.get_page("http://google.com", @operators + " " + @searchterm),
                   "http://google.com", (@operators + " " + @searchterm))
+    report_status("Got search results for " + @operators.to_s + " " + @searchterm.to_s)
   end
   # Check that page with links loaded
@@ -45,13 +46,15 @@ class GeneralScraper
         check_results(@requests.get_updated_current_page)
       else # Restart and try again if CAPTCHA-solving not enabled
+        report_status("CAPTCHA Found. CAPTCHA solving not enabled. Trying to restart browser.")
         @requests.restart_browser
         check_results(@requests.get_page(requested_page), requested_page)
       end
     else # No CAPTCHA found :)
       begin
         navigate_save_results(page)
-      rescue Exception
+      rescue => e
+        report_status("Error: " + e.to_s + " Retrying...")
         @requests.restart_browser
         check_results(@requests.get_page(requested_page), requested_page)
       end
@@ -66,8 +69,8 @@ class GeneralScraper
     return yield(html).inject(Array.new) do |link_arr, al|
       begin
         link_arr.push(al["href"])
-      rescue
+      rescue => e
+        report_status("Error getting links: " + e.to_s)
       end
       link_arr
@@ -85,6 +88,7 @@ class GeneralScraper
     # Go to next page
     next_pages = get_links(page) {|html| html.css("#pnnext")}
     next_pages.each do |link|
+      report_status("Going to next page: google.com"+link)
       next_search_page("google.com"+link)
     end
   end
@@ -114,6 +118,7 @@ class GeneralScraper
       end
     end
+    report_status("Finished collecting data for " + @operators.to_s + " " + @searchterm.to_s)
     @requests.close_all_browsers
   end
@@ -135,6 +140,16 @@ class GeneralScraper
                              Curl::PostField.content('results', JSON.pretty_generate([results])))
   end
+  # Report Harvester status message
+  def report_status(status_msg)
+    if @cm_url
+      curl_url = @cm_url+"/update_status"
+      c = Curl::Easy.http_post(curl_url,
+                               Curl::PostField.content('selector_id', @selector_id),
+                               Curl::PostField.content('status_message', status_msg))
+    end
+  end
   # Add page hash to output for bulk reporting
   def report_bulk(results)
     @output.push(results)

data/lib/parse_page.rb CHANGED Viewed

@@ -16,6 +16,7 @@ module ParsePage
       begin
         return getPDF(url, pagehash)
       rescue
+        report_status("PDF parsing failed for "+url.to_s)
         return nil
       end
     else

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: generalscraper
 version: !ruby/object:Gem::Version
-  version: 0.0.23
+  version: 0.0.24
 platform: ruby
 authors:
 - M. C. McGrath
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-10-08 00:00:00.000000000 Z
+date: 2016-10-30 00:00:00.000000000 Z
 dependencies: []
 description: Scrapes Google
 email: shidash@shidash.com