RubyGems - generalscraper - Versions diffs - 0.0.22 → 0.0.23 - Mend

generalscraper 0.0.22 → 0.0.23

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 264365c642b1995ce23c7cc565a395fc56fcb9c7
-  data.tar.gz: 99b7f3830bc03a3d93ae08540ac6aa0192e28199
+  metadata.gz: 85b3d91e96159d5f3cd36961664721d9bd5e7313
+  data.tar.gz: 7568e30d7343d9be690e48e0369f7cb3db194a81
 SHA512:
-  metadata.gz: 97a3705bd544858a13bc89efa05018502e5395a1a0a4c68ed25fd49944d0338a74e621503547f7828f5faabe40888a542ce4b837e3a8c51abce04af88317845d
-  data.tar.gz: cd9c7d9d4d6673a6f27f3e9dd275f14e478e10694250f5e2c621307f249394d050688d56248c0a726266705c42ee25fd37fba7c70e45e045f1cf3afffdbf1e16
+  metadata.gz: b88b2d814a08bc24b68ed337e4e973471a57c02d1fa9323156ccd7a93f5dab754dde734e48326378e203e5c11599ee1e0be789d45eb728016feb194b0949094b
+  data.tar.gz: 5f32fd7d6da2aea69a4654a2e3e3662bcbce88412252a4b366048ffe14d02e0d33a7f57b653138b9de9eb1a7f2117cf38023072b8936a9cbd10e0e5ed7f001b7

data/lib/parse_page.rb CHANGED Viewed

@@ -3,20 +3,21 @@ require 'uploadconvert'
 module ParsePage
   # Get both page metadata and text
   def getPageData(url)
-    begin
-      page = @requests.get_page(url)
-      html = Nokogiri::HTML(page)
-      pagehash = getMetadata(url, html)
-      pagehash = getContent(url, pagehash, html)
-      return pagehash
-    rescue
-    end
+    page = @requests.get_page(url)
+    html = Nokogiri::HTML(page)
+    pagehash = getMetadata(url, html)
+    pagehash = getContent(url, pagehash, html)
+    return pagehash
   end
   # Get the page content by type of page
   def getContent(url, pagehash, html)
     if url.include? ".pdf"
-      return getPDF(url, pagehash)
+      begin
+        return getPDF(url, pagehash)
+      rescue
+        return nil
+      end
     else
       return getHTMLText(url, pagehash, html)
     end
@@ -30,7 +31,7 @@ module ParsePage
   # Download and extract text from PDF
   def getPDF(url, pagehash)
-    `wget -P public/uploads #{url}`
+    `wget --tries=2 -P public/uploads #{url}`
     path = url.split("/")
     # OCR PDF and save fields
@@ -51,7 +52,7 @@ module ParsePage
     pagehash[:date_retrieved] = Time.now
     # Get title and meta tag info
-    pagehash[:title] = fixEncode(html.css("title").text)
+    pagehash[:page_title] = fixEncode(html.css("title").text)
     html.css("meta").each do |m|
       if m
         pagehash[m['name']] = fixEncode(m['content'])

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: generalscraper
 version: !ruby/object:Gem::Version
-  version: 0.0.22
+  version: 0.0.23
 platform: ruby
 authors:
 - M. C. McGrath