RubyGems - generalscraper - Versions diffs - 0.0.22 → 0.0.23 - Mend

generalscraper 0.0.22 → 0.0.23

Files changed (3) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 264365c642b1995ce23c7cc565a395fc56fcb9c7
-  data.tar.gz: 99b7f3830bc03a3d93ae08540ac6aa0192e28199
+  metadata.gz: 85b3d91e96159d5f3cd36961664721d9bd5e7313
+  data.tar.gz: 7568e30d7343d9be690e48e0369f7cb3db194a81
 SHA512:
-  metadata.gz: 97a3705bd544858a13bc89efa05018502e5395a1a0a4c68ed25fd49944d0338a74e621503547f7828f5faabe40888a542ce4b837e3a8c51abce04af88317845d
-  data.tar.gz: cd9c7d9d4d6673a6f27f3e9dd275f14e478e10694250f5e2c621307f249394d050688d56248c0a726266705c42ee25fd37fba7c70e45e045f1cf3afffdbf1e16
+  metadata.gz: b88b2d814a08bc24b68ed337e4e973471a57c02d1fa9323156ccd7a93f5dab754dde734e48326378e203e5c11599ee1e0be789d45eb728016feb194b0949094b
+  data.tar.gz: 5f32fd7d6da2aea69a4654a2e3e3662bcbce88412252a4b366048ffe14d02e0d33a7f57b653138b9de9eb1a7f2117cf38023072b8936a9cbd10e0e5ed7f001b7

data/lib/parse_page.rb CHANGED Viewed

@@ -3,20 +3,21 @@ require 'uploadconvert'
 module ParsePage
   # Get both page metadata and text
   def getPageData(url)
-    begin
-      page = @requests.get_page(url)
-      html = Nokogiri::HTML(page)
-      pagehash = getMetadata(url, html)
-      pagehash = getContent(url, pagehash, html)
-      return pagehash
-    rescue
-    end
+    page = @requests.get_page(url)
+    html = Nokogiri::HTML(page)
+    pagehash = getMetadata(url, html)
+    pagehash = getContent(url, pagehash, html)
+    return pagehash
   end
   # Get the page content by type of page
   def getContent(url, pagehash, html)
     if url.include? ".pdf"
-      return getPDF(url, pagehash)
+      begin
+        return getPDF(url, pagehash)
+      rescue
+        return nil
+      end
     else
       return getHTMLText(url, pagehash, html)
     end
@@ -30,7 +31,7 @@ module ParsePage
   # Download and extract text from PDF
   def getPDF(url, pagehash)
-    `wget -P public/uploads #{url}`
+    `wget --tries=2 -P public/uploads #{url}`
     path = url.split("/")
     # OCR PDF and save fields
@@ -51,7 +52,7 @@ module ParsePage
     pagehash[:date_retrieved] = Time.now
     # Get title and meta tag info
-    pagehash[:title] = fixEncode(html.css("title").text)
+    pagehash[:page_title] = fixEncode(html.css("title").text)
     html.css("meta").each do |m|
       if m
         pagehash[m['name']] = fixEncode(m['content'])

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: generalscraper
 version: !ruby/object:Gem::Version
-  version: 0.0.22
+  version: 0.0.23
 platform: ruby
 authors:
 - M. C. McGrath