RubyGems - webxtractor - Versions diffs - 0.0.3 - Mend

webxtractor 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 2648fcab56f4879a51dbaeb6300a572a71b43ac2
+  data.tar.gz: ec3d4bb9409bf610379e632912f91640dc0305ce
+SHA512:
+  metadata.gz: d6f48d46163786d466d87aeec573d932494557dd34ee01d7419a115fdc8ab9176a5a8f60e112c2ce624e3b513414374051fa984ed816a7cadbe4b964fec4fdbb
+  data.tar.gz: fdba6ee9ee7a7d7b64b16ea0e9e803a83b0883640e5bd964c4b183dd21098f5c9576a9d55d61809dbbeb11d3dd0049ce387b77b110bec40840ea39f844ee8c87

data/lib/webxtractor.rb ADDED Viewed

@@ -0,0 +1,33 @@
+require 'ostruct'
+require 'nokogiri'
+class Webxtractor
+  def self.get(url=nil)
+    return unless url
+    uri = URI.parse(url)
+    parse(uri.read)
+  end
+  def self.parse(body)
+    page = Nokogiri::HTML(body)
+    result = OpenStruct.new
+    result.title = get_tag('title', page)
+    result.h1 = get_tag('h1', page)
+    result
+  end
+  def self.get_tag(selector, page)
+    element = page.css(selector)
+    if element.size > 1
+      element.map {|x| normalize(x.text) }
+    else
+      normalize(element.text)
+    end
+  end
+  def self.normalize(content='')
+    return if content.nil?
+    content.gsub(/(\r\n|\n|\r)/," ")
+    content.gsub(/\s+/, " ").strip
+  end
+end

metadata ADDED Viewed

@@ -0,0 +1,84 @@
+--- !ruby/object:Gem::Specification
+name: webxtractor
+version: !ruby/object:Gem::Version
+  version: 0.0.3
+platform: ruby
+authors:
+- schmierkov
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2016-01-24 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.6.7.2
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.6.7.2
+- !ruby/object:Gem::Dependency
+  name: pry-byebug
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '3.3'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 3.3.0
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '3.3'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 3.3.0
+description: A simple content extractor
+email: github@schmierkov.de
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- lib/webxtractor.rb
+homepage: https://github.com/schmierkov/webxtractor
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.4.8
+signing_key:
+specification_version: 4
+summary: Extracts meta informations from a HTML Page
+test_files: []