RubyGems - webtractor - Versions diffs - 0.0.1 - Mend

webtractor 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

checksums.yaml +15 -0
data/LICENSE +8 -0
data/README.md +92 -0
data/lib/webtractor/extractor.rb +47 -0
data/lib/webtractor/filters/biggest_block.rb +37 -0
data/lib/webtractor/filters/default_filter.rb +22 -0
data/lib/webtractor/filters/filter_group.rb +18 -0
data/lib/webtractor/filters/remove_attrs.rb +12 -0
data/lib/webtractor/filters/remove_comments.rb +9 -0
data/lib/webtractor/filters/remove_embeds.rb +9 -0
data/lib/webtractor/filters/remove_empty.rb +18 -0
data/lib/webtractor/filters/remove_footer.rb +8 -0
data/lib/webtractor/filters/remove_forms.rb +8 -0
data/lib/webtractor/filters/remove_images.rb +8 -0
data/lib/webtractor/filters/remove_menus.rb +35 -0
data/lib/webtractor/filters/remove_noncontent.rb +9 -0
data/lib/webtractor/filters/remove_noncontent_elements.rb +9 -0
data/lib/webtractor/filters/remove_scripts.rb +9 -0
data/lib/webtractor/filters/remove_smallest.rb +19 -0
data/lib/webtractor/filters/remove_styles.rb +8 -0
data/lib/webtractor/filters/remove_tables.rb +8 -0
data/lib/webtractor/result.rb +11 -0
data/lib/webtractor/version.rb +3 -0
data/lib/webtractor.rb +29 -0
metadata +112 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,15 @@
+---
+!binary "U0hBMQ==":
+  metadata.gz: !binary |-
+    ZWVkNmUwOWUwYTdjYmMyMDYwZWVjOWNhNWE1MGYyZmJmNGNjMzRkNw==
+  data.tar.gz: !binary |-
+    ODlmZWZiNDFjZjg0ZDI4ODRjYjk2ZWVkZDY0YjBkNDMxY2VlMDk3Nw==
+SHA512:
+  metadata.gz: !binary |-
+    YTk4NzRiNTkxNDVkZmJhNDkxZDFkNmUwODVkZThmYjc1MDA3MDk2ZjZlMTg1
+    YjBmNzM2NjU5NGU2Y2RjYjkzNzRkZmEwZDcwZTk1NzUyNzVkNThlOTBjMGNi
+    MGJhOWY5YWRiNjhlOTc3OTFhMGMxY2IxMTFhY2QwNDVjZGRlNjI=
+  data.tar.gz: !binary |-
+    OWNlOTdjMTg2MDA3YzhhYzkwMDE3OTU0NjUzZDllZDY5M2FkY2NjOWZjYjAx
+    ZTk2MDJmODc5OWQ0ZGZjZjIzYzA4YmU4NTQ4MWY3M2E4ZTg3NjY0ODE4ZjM1
+    YTlmMWZiOWIxNzlmZWI2YzY5MzllMDVmZTFhNzJlMzZkZjViODk=

data/LICENSE ADDED Viewed

@@ -0,0 +1,8 @@
+/*
+ * ----------------------------------------------------------------------------
+ * "THE BEER-WARE LICENSE" (Revision 42):
+ * As long as you retain this notice you can do whatever you want with this
+ * stuff. If we meet some day, and you think this stuff is worth it, you can
+ * buy me a beer in return. Rene Klacan
+ * ----------------------------------------------------------------------------
+ */

data/README.md ADDED Viewed

@@ -0,0 +1,92 @@
+# Webtractor
+The Webtractor is a ruby library which is able to extract main content
+from webpages like news, blogs, etc. As a result you can just a main
+content without any boilerplate (menu, footer, comments, etc).
+## Installation
+You can install it directly via gem:
+```
+gem install webtractor
+```
+Or you can put it in your Gemfile:
+```ruby
+gem 'webtractor'
+```
+Then run:
+```
+bundle install
+```
+## Basic usage
+```ruby
+extractor = Webtractor::Extractor.new
+result = extractor.extract_from_url
+'http://techcrunch.com/2014/05/24/dont-believe-anyone-who-tells-you-learning-to-code-is-easy/'
+puts result.text
+```
+Or
+```ruby
+extractor = Webtractor::Extractor.new
+result = extractor.extract '<html><body>...</body></html>'
+```
+Or
+```ruby
+page = Nokogiri::HTML(...)
+extractor = Webtractor::Extractor.new
+result = extractor.extract_from_xml page
+```
+You can also access Nokogiri document from result via xml attribute:
+```ruby
+puts result.xml.xpath('...').text
+```
+## Advanced usage
+Process of getting main content from the webpage is really simple. It
+consists of applying multiple filters on the document where every filter
+gets on input output of the last applied filter.
+You can look at the names of default filters:
+```ruby
+p Webtractor::Filters::DefaultFilter.new.filters.map{|f| f.class.to_s}
+```
+You can remove any filter:
+```ruby
+extractor.remove_filter Webtractor::Filters::RemoveComments
+```
+Or you can also create your own filter. It can be any class which
+implements *process* method which takes page as an argument and returns
+page:
+```ruby
+class RemoveBolds
+  def process page
+    page.css('b').remove
+    page
+  end
+end
+extractor.add_filter RemoveBolds.new
+```
+## License
+This library is distributed under the Bearware license.

data/lib/webtractor/extractor.rb ADDED Viewed

@@ -0,0 +1,47 @@
+module Webtractor
+  class Extractor
+    attr_accessor :filters
+    def initialize params={}
+      @filters = params[:filters] || [Filters::DefaultFilter.new]
+      @cache = params[:cache] || false
+      @cache_params = params[:cache_params] || {}
+    end
+    def extract text
+      extract_from_xml(Nokogiri::HTML(text))
+    end
+    def extract_from_xml page
+      title = page.xpath('//head/title').text
+      @filters.each do |filter|
+        page = filter.process(page)
+      end
+      Result.new(title, page)
+    end
+    def extract_from_url url
+      content = Cachy.cache_if(@cache, "webtractor.#{url}", @cache_params) do
+        open(url).read
+      end
+      extract(content)
+    end
+    def add_filter filter
+      if filter.is_a?(Class)
+        @filters << filter.new
+      else
+        @filters << filter
+      end
+    end
+    def remove_filter filter
+      filter = filter.class unless filter.is_a?(Class)
+      @filters = @filters.reject!{|f| f.is_a?(filter)}
+    end
+    def clear_filters
+      @filters.clear
+    end
+  end
+end

data/lib/webtractor/filters/biggest_block.rb ADDED Viewed

@@ -0,0 +1,37 @@
+module Webtractor::Filters
+  class BiggestBlock
+    def initialize threshold=50.0
+      @threshold = threshold
+    end
+    def process page
+      @nodes = {}
+      explore(page.name, page.at('body'))
+      @nodes = Hash[@nodes.sort.reverse]
+      max = @nodes.keys[0]
+      last_percents = 100.0
+      last_node = @nodes.values[0]
+      @nodes.each do |size, node|
+        percents = size.to_f/max*100
+        diff = last_percents - percents
+        return last_node if diff > @threshold
+        last_percents = percents
+        last_node = node
+      end
+      page
+    end
+    def explore path, node
+      path += "/#{node.name}"
+      size = node.text ? node.text.size : 0
+      @nodes[size] = node
+      node.children.each do |child|
+        explore(path, child)
+      end
+    end
+  end
+end

data/lib/webtractor/filters/default_filter.rb ADDED Viewed

@@ -0,0 +1,22 @@
+module Webtractor::Filters
+  class DefaultFilter < FilterGroup
+    def filters
+      [
+        RemoveScripts.new,
+        RemoveStyles.new,
+        RemoveImages.new,
+        RemoveForms.new,
+        RemoveTables.new,
+        RemoveComments.new,
+        RemoveNoncontent.new,
+        RemoveMenus.new,
+        RemoveFooter.new,
+        RemoveEmbeds.new,
+        RemoveSmallest.new,
+        RemoveEmpty.new,
+        RemoveAttrs.new,
+        BiggestBlock.new,
+      ]
+    end
+  end
+end

data/lib/webtractor/filters/filter_group.rb ADDED Viewed

@@ -0,0 +1,18 @@
+module Webtractor::Filters
+  class FilterGroup
+    def initialize fs=nil
+      @filters = fs || filters
+    end
+    def filters
+      []
+    end
+    def process page
+      @filters.each do |filter|
+        page = filter.process(page)
+      end
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_attrs.rb ADDED Viewed

@@ -0,0 +1,12 @@
+module Webtractor::Filters
+  class RemoveAttrs
+    def process page
+      page.css('*').each do |a|
+        a.attributes.each do |attr, value|
+          a.attributes[attr].remove
+        end
+      end
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_comments.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module Webtractor::Filters
+  class RemoveComments
+    def process page
+      page.xpath('//*[contains(@class, "comment")]').remove
+      page.xpath('//*[contains(@id, "comment")]').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_embeds.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module Webtractor::Filters
+  class RemoveEmbeds
+    def process page
+      page.css('embed').remove
+      page.css('object').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_empty.rb ADDED Viewed

@@ -0,0 +1,18 @@
+module Webtractor::Filters
+  class RemoveEmpty
+    def process page
+      explore(page.name, page.at('body'))
+      page
+    end
+    def explore path, node
+      path += "/#{node.name}"
+      node.children.each do |child|
+        explore(path, child)
+      end
+      node.remove if node.text.nil? || node.text.strip == ''
+    end
+  end
+end

data/lib/webtractor/filters/remove_footer.rb ADDED Viewed

@@ -0,0 +1,8 @@
+module Webtractor::Filters
+  class RemoveFooter
+    def process page
+      page.css('footer').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_forms.rb ADDED Viewed

@@ -0,0 +1,8 @@
+module Webtractor::Filters
+  class RemoveForms
+    def process page
+      page.css('form').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_images.rb ADDED Viewed

@@ -0,0 +1,8 @@
+module Webtractor::Filters
+  class RemoveImages
+    def process page
+      page.css('img').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_menus.rb ADDED Viewed

@@ -0,0 +1,35 @@
+module Webtractor::Filters
+  class RemoveMenus
+    def process page
+      page.css('nav').remove
+      page.css('.pane').remove
+      page.css('.carousel').remove
+      page.css('ul').each do |ul|
+        li_count = ul.css('li').count
+        a_count = ul.xpath('./a[@href]').count
+        ul.remove if a_count >= li_count.to_f/2
+      end
+      explore(page.name, page.at('body'))
+      page
+    end
+    def explore path, node
+      path += "/#{node.name}"
+      node.children.each do |child|
+        explore(path, child)
+      end
+      return if node.name == 'p'
+      links_count = node.xpath('./a').size
+      if links_count > 0 && links_count.to_f/node.children.count > 0.3
+        node.remove
+      end
+    end
+  end
+end

data/lib/webtractor/filters/remove_noncontent.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module Webtractor::Filters
+  class RemoveNoncontent
+    def process page
+      page.css('br').remove
+      page.css('hr').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_noncontent_elements.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module Webtractor::Filters
+  class RemoveNoncontentElements
+    def process page
+      page.css('br').remove
+      page.css('hr').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_scripts.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module Webtractor::Filters
+  class RemoveScripts
+    def process page
+      page.css('script').remove
+      page.css('noscript').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_smallest.rb ADDED Viewed

@@ -0,0 +1,19 @@
+module Webtractor::Filters
+  class RemoveSmallest
+    def process page
+      explore(page.name, page.at('body'))
+      page
+    end
+    def explore path, node
+      path += "/#{node.name}"
+      words = (node.text || '').split
+      node.children.each do |child|
+        explore(path, child)
+      end
+      node.remove if words.count < node.children.count
+    end
+  end
+end

data/lib/webtractor/filters/remove_styles.rb ADDED Viewed

@@ -0,0 +1,8 @@
+module Webtractor::Filters
+  class RemoveStyles
+    def process page
+      page.css('style').remove
+      page
+    end
+  end
+end

data/lib/webtractor/filters/remove_tables.rb ADDED Viewed

@@ -0,0 +1,8 @@
+module Webtractor::Filters
+  class RemoveTables
+    def process page
+      page.css('table').remove
+      page
+    end
+  end
+end

data/lib/webtractor/result.rb ADDED Viewed

@@ -0,0 +1,11 @@
+module Webtractor
+  class Result
+    attr_accessor :title, :text, :xml
+    def initialize title, xml
+      @title = title
+      @text = xml.text
+      @xml = xml
+    end
+  end
+end

data/lib/webtractor/version.rb ADDED Viewed

@@ -0,0 +1,3 @@
+module Webtractor
+  VERSION = '0.0.1'
+end

data/lib/webtractor.rb ADDED Viewed

@@ -0,0 +1,29 @@
+require 'open-uri'
+require 'nokogiri'
+require 'cachy'
+require 'moneta'
+require 'webtractor/extractor'
+require 'webtractor/result'
+require 'webtractor/filters/filter_group'
+require 'webtractor/filters/default_filter'
+require 'webtractor/filters/remove_scripts'
+require 'webtractor/filters/remove_styles'
+require 'webtractor/filters/remove_images'
+require 'webtractor/filters/remove_forms'
+require 'webtractor/filters/remove_tables'
+require 'webtractor/filters/remove_comments'
+require 'webtractor/filters/remove_noncontent'
+require 'webtractor/filters/remove_menus'
+require 'webtractor/filters/remove_footer'
+require 'webtractor/filters/remove_embeds'
+require 'webtractor/filters/remove_smallest'
+require 'webtractor/filters/remove_empty'
+require 'webtractor/filters/remove_attrs'
+require 'webtractor/filters/biggest_block'
+begin
+  Cachy.cache_store
+rescue RuntimeError
+  Cachy.cache_store = Moneta.new(:File, dir: '/tmp/webtractor.cache')
+end

metadata ADDED Viewed

@@ -0,0 +1,112 @@
+--- !ruby/object:Gem::Specification
+name: webtractor
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+platform: ruby
+authors:
+- Rene Klacan
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2014-05-25 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: cachy
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: moneta
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+description: The Webtractor library can extract main content from websites like news,
+  blogs, etc without unwanted boilerplate (menus, footer, comments)
+email:
+- rene@klacan.sk
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- LICENSE
+- README.md
+- lib/webtractor.rb
+- lib/webtractor/extractor.rb
+- lib/webtractor/filters/biggest_block.rb
+- lib/webtractor/filters/default_filter.rb
+- lib/webtractor/filters/filter_group.rb
+- lib/webtractor/filters/remove_attrs.rb
+- lib/webtractor/filters/remove_comments.rb
+- lib/webtractor/filters/remove_embeds.rb
+- lib/webtractor/filters/remove_empty.rb
+- lib/webtractor/filters/remove_footer.rb
+- lib/webtractor/filters/remove_forms.rb
+- lib/webtractor/filters/remove_images.rb
+- lib/webtractor/filters/remove_menus.rb
+- lib/webtractor/filters/remove_noncontent.rb
+- lib/webtractor/filters/remove_noncontent_elements.rb
+- lib/webtractor/filters/remove_scripts.rb
+- lib/webtractor/filters/remove_smallest.rb
+- lib/webtractor/filters/remove_styles.rb
+- lib/webtractor/filters/remove_tables.rb
+- lib/webtractor/result.rb
+- lib/webtractor/version.rb
+homepage: https://github.com/reneklacan/webtractor
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '1.9'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.2.2
+signing_key:
+specification_version: 4
+summary: The Webtractor library can extract main content from websites like news,
+  blogs, etc without unwanted boilerplate (menus, footer, comments)
+test_files: []
+has_rdoc: