RubyGems - feedalizer - Versions diffs - 0.1.2 → 0.2.0 - Mend

feedalizer 0.1.2 → 0.2.0

Files changed (21) hide show

checksums.yaml +7 -0
data/.gitignore +16 -0
data/Gemfile +4 -0
data/LICENSE +19 -0
data/README.md +40 -0
data/Rakefile +1 -13
data/bin/console +14 -0
data/bin/setup +7 -0
data/examples/pjvault.rb +11 -12
data/feedalizer.gemspec +30 -0
data/lib/feedalizer.rb +39 -46
data/lib/feedalizer/version.rb +3 -0
data/tests/test_feedalizer.rb +21 -26
metadata +83 -74
data/CHANGELOG.txt +0 -7
data/COPYING.txt +0 -18
data/Manifest.txt +0 -13
data/README.txt +0 -24
data/TODO.txt +0 -7
data/bin/feedalizer +0 -5
data/examples/sydsvenskan-nemi.rb +0 -28

checksums.yaml ADDED

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 0f9d3ffbc7dc6296bf18bc94cd999592f788e813
+  data.tar.gz: 65edab2aeb654ae667f8383bce810683cace8273
+SHA512:
+  metadata.gz: cc579dec7cb4956b79724e0905694288fbba120dd5b0998b6822492fcda349f42a373570f501d80c5e78598ab91d3e9a5db40a4b4848441c8e615b957ba33148
+  data.tar.gz: f4b56bb1bf76eabc9604efb852b191a90ae69c3bb1462c9c0994f20672f383628bf8de49397a85c11157f4782f3d344867b797a629221932fc2a025a5670e7fe

data/.gitignore ADDED

@@ -0,0 +1,16 @@
+/.bundle/
+/.yardoc
+/Gemfile.lock
+/_yardoc/
+/coverage/
+/doc/
+/pkg/
+/spec/reports/
+/tmp/
+.DS_Store
+.idea
+._*
+.~*
+*.swp
+*.iml

data/Gemfile ADDED

@@ -0,0 +1,4 @@
+source 'https://rubygems.org'
+# Specify your gem's dependencies in feedalizer.gemspec
+gemspec

data/LICENSE ADDED

@@ -0,0 +1,19 @@
+Copyright (c) <2015> Michaël Rigart <michael@netronix.be>
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in
+all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+THE SOFTWARE.

data/README.md ADDED

@@ -0,0 +1,40 @@
+[![Code Climate](https://codeclimate.com/github/michaelrigart/feedalizer/badges/gpa.svg)](https://codeclimate.com/github/michaelrigart/feedalizer)
+# Feedalizer
+Feedalizer is a *small* Ruby library that glues together Oga with the standard RSS library in a way that makes it easy to transform web pages into RSS feeds. If you ask me, it makes it *too* easy.
+This gem was originally created by [Christoffer Sawicki](http://qerub.se/feedalizer) who made the last version 0.1.2. During my search for a way to convert web pages to RSS feeds, I came upon this Gem and decided to revive it again. It originally used [Hpricot](https://github.com/hpricot/hpricot) which isn't supported anymore. So I just yanked it out and replaced it with [Oga](https://github.com/YorickPeterse/oga).
+In the process, I made some minor adjustments to the Gem layout.
+Christoffer has been so kind to grant me author approval on RubyGems.org so I could make the necessary changes to update this gem.
+## Installation
+Add this line to your application's Gemfile:
+```ruby
+gem 'feedalizer'
+```
+And then execute:
+    $ bundle
+Or install it yourself as:
+    $ gem install feedalizer
+## Usage
+First of all, see the included examples and take a quick look at the code.
+## Development
+After checking out the repo, run `bin/setup` to install dependencies. Then, run `rake false` to run the tests. You can also run `bin/console` for an interactive prompt that will allow you to experiment.
+## Contributing
+Bug reports and pull requests are welcome on GitHub at https://github.com/michaelrigart/feedalizer.

data/Rakefile CHANGED

@@ -1,14 +1,2 @@
-require "hoe"
+require 'bundler/gem_tasks'
-$LOAD_PATH.unshift("lib")
-require "feedalizer"
-Hoe.new("feedalizer", Feedalizer::VERSION) do |p|
-  p.summary = "Transforms web pages into RSS feeds"
-  p.developer "Christoffer Sawicki", "christoffer.sawicki@gmail.com"
-  p.extra_deps = %<hpricot>
-  p.changes = "" # See CHANGELOG.txt
-  # All other necessary information is collected from README.txt
-end

data/bin/console ADDED

@@ -0,0 +1,14 @@
+#!/usr/bin/env ruby
+require 'bundler/setup'
+require 'feedalizer'
+# You can add fixtures and/or initialization code here to make experimenting
+# with your gem easier. You can also use a different console, if you like.
+# (If you use this, don't forget to add pry to your Gemfile!)
+# require "pry"
+# Pry.start
+require 'irb'
+IRB.start

data/bin/setup ADDED

@@ -0,0 +1,7 @@
+#!/bin/bash
+set -euo pipefail
+IFS=$'\n\t'
+bundle install
+# Do any other automated setup that you need to do here

data/examples/pjvault.rb CHANGED

@@ -2,23 +2,22 @@
 # This script was contributed by Christian Neukirchen, thanks!
-$LOAD_PATH.unshift File.join(File.dirname(__FILE__), "..", "lib")
+$LOAD_PATH.unshift File.join(File.dirname(__FILE__), '..', 'lib')
-require "feedalizer"
-require "time"
+require 'feedalizer'
+require 'time'
-feedalize("http://pjvault.com/news.html") do
-  feed.title = "Pearl Jam Vault"
-  feed.description = "Pearl Jam News and Reviews"
+feedalize('http://pjvault.com/news77.html') do
+  feed.title = 'Pearl Jam Vault'
+  feed.description = 'Pearl Jam News and Reviews'
-  scrape_items("li") do |rss_item, html_element|
-    link = html_element.search("a").first
+  scrape_items('//LI') do |rss_item, html_element|
+    link = html_element.xpath('a').first
-    rss_item.link  = link.attributes["href"]
-    rss_item.date  = Time.parse(html_element.to_s)
-    rss_item.title = link.children.last.to_s
+    rss_item.link  = link.get('href')
+    rss_item.title = link.inner_text
-    rss_item.description = html_element.inner_html
+    rss_item.description = html_element.inner_text
   end
   output!

data/feedalizer.gemspec ADDED

@@ -0,0 +1,30 @@
+# coding: utf-8
+lib = File.expand_path('../lib', __FILE__)
+$LOAD_PATH.unshift(lib) unless $LOAD_PATH.include?(lib)
+require 'feedalizer/version'
+Gem::Specification.new do |spec|
+  spec.name          = 'feedalizer'
+  spec.version       = Feedalizer::VERSION
+  spec.authors       = ['Michaël Rigart', 'Christoffer Sawicki']
+  spec.email         = ['michael@netronix.be']
+  spec.summary       = 'Ruby library to transform web pages into RSS feeds.'
+  spec.description   = 'Feedalizer is a *small* Ruby library that glues together
+Hpricot with the standard RSS library in a way that makes it easy to transform
+web pages into RSS feeds. If you ask me, it makes it *too* easy.'
+  spec.homepage      = 'https://github.com/michaelrigart/feedalizer'
+  spec.files         = `git ls-files -z`.split("\x0").reject { |f| f.match(%r{^(test|spec|features)/}) }
+  spec.bindir        = 'exe'
+  spec.executables   = spec.files.grep(%r{^exe/}) { |f| File.basename(f) }
+  spec.require_paths = ['lib']
+  spec.license       = 'MIT'
+  spec.add_dependency 'oga', '~> 1.2'
+  spec.add_development_dependency 'bundler', '~> 1.10'
+  spec.add_development_dependency 'rake', '~> 10.0'
+end

data/lib/feedalizer.rb CHANGED

@@ -1,65 +1,58 @@
-require "rss/maker"
-require "open-uri"
-require "hpricot"
+require 'feedalizer/version'
+require 'rss/maker'
+require 'open-uri'
+require 'oga'
-class Feedalizer
-  VERSION = "0.1.2"
-  IDENTIFIER = "Feedalizer/#{VERSION} (http://termos.vemod.net/feedalizer)"
-  attr_reader :page
+module Feedalizer
+  class Feed
+    IDENTIFIER = "Feedalizer/#{Feedalizer::VERSION} (https://github.com/michaelrigart/feedalizer)"
-  def initialize(url, &block)
-    @page = grab_page(url)
-    @rss = RSS::Maker::RSS20.new
+    attr_reader :page
-    feed.generator = IDENTIFIER
-    feed.link = url
-    feed.description = "Scraped from #{url}"
+    def initialize(url, &block)
+      @page = grab_page(url)
+      @rss = RSS::Maker::RSS20.new
-    instance_eval(&block) if block
-  end
+      feed.generator = IDENTIFIER
+      feed.link = url
+      feed.description = "Scraped from #{url}"
-  def feed
-    @rss.channel
-  end
+      instance_eval(&block) if block
+    end
-  def scrape_items(hpricot_query, limit = 15)
-    elements = @page.search(hpricot_query)
-    elements.first(limit).each do |html_element|
-      rss_item = @rss.items.new_item
-      yield rss_item, html_element
+    def feed
+      @rss.channel
     end
-  end
-  def grab_page(url)
-    open(url) { |io| Hpricot(io) }
-  end
+    def scrape_items(query, limit = 15)
+      elements = @page.xpath(query)
+      elements.first(limit).each do |html_element|
+        rss_item = @rss.items.new_item
+        yield rss_item, html_element
+      end
+    end
-  def output
-    if @rss.respond_to?(:to_feed) # Ruby >= 1.8.7
+    def grab_page(url)
+      open(url) { |io| Oga.parse_html(io) }
+    end
+    def output
       @rss.to_feed.to_s
-    else
-      @rss.to_rss.to_s
     end
-  end
-  def output!(target = STDOUT)
-    target << output
-  end
+    def output!(target = STDOUT)
+      target << output
+    end
-  def debug!
-    @rss.items.each do |item|
-      STDERR.puts [ item.title, item.date, item.link ].join("; ")
+    def debug!
+      @rss.items.each do |item|
+        STDERR.puts [item.title, item.date, item.link].join('; ')
+      end
     end
   end
-  # Backwards-compatibility
-  alias_method :parse_source, :grab_page
-  alias_method :source, :page
 end
 # A handy wrapper for Feedalizer.new :-)
 def feedalize(*args, &block)
-  Feedalizer.new(*args, &block)
+  Feedalizer::Feed.new(*args, &block)
 end

data/lib/feedalizer/version.rb ADDED

@@ -0,0 +1,3 @@
+module Feedalizer
+  VERSION = '0.2.0'
+end

data/tests/test_feedalizer.rb CHANGED

@@ -2,25 +2,25 @@
 $LOAD_PATH.unshift File.join(File.dirname(__FILE__), '..', 'lib')
-require "test/unit"
-require "feedalizer"
+require 'minitest/autorun'
+require 'feedalizer'
-class TestFeedalizer < Test::Unit::TestCase
-  TEST_FILE = File.join(File.dirname(__FILE__), "test.html")
+class TestFeedalizer < Minitest::Test
+  TEST_FILE = File.join(File.dirname(__FILE__), 'test.html')
   def setup
-    @feedalizer = Feedalizer.new(TEST_FILE)
+    @feedalizer = Feedalizer::Feed.new(TEST_FILE)
   end
   def test_construction
     assert_kind_of RSS::Maker::RSS20::Channel, @feedalizer.feed
-    assert_kind_of Hpricot::Doc, @feedalizer.page
+    assert_kind_of Oga::XML::Document, @feedalizer.page
   end
   def test_block
     inside = nil
-    Feedalizer.new(TEST_FILE) { inside = self } rescue nil
-    assert_kind_of Feedalizer, inside
+    Feedalizer::Feed.new(TEST_FILE) { inside = self }
+    assert_kind_of Feedalizer::Feed, inside
   end
   def test_defaults
@@ -29,17 +29,17 @@ class TestFeedalizer < Test::Unit::TestCase
   end
   def test_page
-    assert_equal "Test", @feedalizer.page.search("html/head/title").text
+    assert_equal 'Test', @feedalizer.page.xpath('/html/head/title').text
   end
   def test_scrape_items
     elements = []
-    @feedalizer.scrape_items("div.item") do |item, element|
+    @feedalizer.scrape_items('//div[@class="item"]') do |item, element|
       elements << element
       assert_kind_of RSS::Maker::RSS20::Items::Item, item
-      assert_kind_of Hpricot::Elem, element
+      assert_kind_of Oga::XML::Element, element
     end
     assert_equal 2, elements.size
@@ -48,7 +48,7 @@ class TestFeedalizer < Test::Unit::TestCase
   def test_scrape_items_limit
     elements = []
-    @feedalizer.scrape_items("div.item", 1) do |item, element|
+    @feedalizer.scrape_items('//div[@class="item"]', 1) do |_item, element|
       elements << element
     end
@@ -56,30 +56,25 @@ class TestFeedalizer < Test::Unit::TestCase
   end
   def test_grab_page
-    assert_kind_of Hpricot::Doc, @feedalizer.grab_page(TEST_FILE)
+    assert_kind_of Oga::XML::Document, @feedalizer.grab_page(TEST_FILE)
   end
   def test_existance_of_generator
     f = @feedalizer.feed
-    f.about = f.title = f.description = "..."
-    assert @feedalizer.output.include?("Feedalizer")
+    f.about = f.title = f.description = '...'
+    assert @feedalizer.output.include?('Feedalizer')
   end
   def test_output
     f = @feedalizer.feed
-    f.about = f.title = f.description = "..."
+    f.about = f.title = f.description = '...'
     output = @feedalizer.output
-    assert output.include?("<rss")
+    assert output.include?('<rss')
     assert output.size > 320
   end
-  def test_backwards_compatibility
-    assert @feedalizer.respond_to?(:page)
-    assert @feedalizer.respond_to?(:parse_source)
-  end
 end

metadata CHANGED

@@ -1,95 +1,104 @@
---- !ruby/object:Gem::Specification
+--- !ruby/object:Gem::Specification
 name: feedalizer
-version: !ruby/object:Gem::Version
-  version: 0.1.2
+version: !ruby/object:Gem::Version
+  version: 0.2.0
 platform: ruby
-authors:
+authors:
+- Michaël Rigart
 - Christoffer Sawicki
 autorequire:
-bindir: bin
+bindir: exe
 cert_chain: []
-date: 2009-11-23 00:00:00 +01:00
-default_executable:
-dependencies:
-- !ruby/object:Gem::Dependency
-  name: hpricot
+date: 2015-08-17 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: oga
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.2'
   type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: "0"
-    version:
-- !ruby/object:Gem::Dependency
-  name: hoe
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.2'
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.10'
   type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: 1.8.0
-    version:
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.10'
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '10.0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '10.0'
 description: |-
-  Feedalizer is a *small* Ruby library that glues together Hpricot with the
-  standard RSS library in a way that makes it easy to transform web pages into
-  RSS feeds. If you ask me, it makes it *too* easy.
-email:
-- christoffer.sawicki@gmail.com
-executables:
-- feedalizer
+  Feedalizer is a *small* Ruby library that glues together
+  Hpricot with the standard RSS library in a way that makes it easy to transform
+  web pages into RSS feeds. If you ask me, it makes it *too* easy.
+email:
+- michael@netronix.be
+executables: []
 extensions: []
-extra_rdoc_files:
-- CHANGELOG.txt
-- COPYING.txt
-- Manifest.txt
-- README.txt
-- TODO.txt
-files:
-- bin/feedalizer
-- CHANGELOG.txt
-- COPYING.txt
+extra_rdoc_files: []
+files:
+- ".gitignore"
+- Gemfile
+- LICENSE
+- README.md
+- Rakefile
+- bin/console
+- bin/setup
 - examples/pjvault.rb
-- examples/sydsvenskan-nemi.rb
+- feedalizer.gemspec
 - lib/feedalizer.rb
+- lib/feedalizer/version.rb
 - logo.svg
-- Manifest.txt
-- Rakefile
-- README.txt
 - tests/test.html
 - tests/test_feedalizer.rb
-- TODO.txt
-has_rdoc: true
-homepage: http://termos.vemod.net/feedalizer
-licenses: []
+homepage: https://github.com/michaelrigart/feedalizer
+licenses:
+- MIT
+metadata: {}
 post_install_message:
-rdoc_options:
-- --main
-- README.txt
-require_paths:
+rdoc_options: []
+require_paths:
 - lib
-required_ruby_version: !ruby/object:Gem::Requirement
-  requirements:
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
   - - ">="
-    - !ruby/object:Gem::Version
-      version: "0"
-  version:
-required_rubygems_version: !ruby/object:Gem::Requirement
-  requirements:
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
   - - ">="
-    - !ruby/object:Gem::Version
-      version: "0"
-  version:
+    - !ruby/object:Gem::Version
+      version: '0'
 requirements: []
-rubyforge_project: feedalizer
-rubygems_version: 1.3.5
+rubyforge_project:
+rubygems_version: 2.4.5
 signing_key:
-specification_version: 3
-summary: Transforms web pages into RSS feeds
+specification_version: 4
+summary: Ruby library to transform web pages into RSS feeds.
 test_files: []

data/CHANGELOG.txt DELETED

@@ -1,7 +0,0 @@
-Noteworthy changes:
-2006-08-23: Added optional limit parameter to scrape_items. (Thanks to Thanh Vinh Tang for the hint that it is needed.)
-2006-10-11: Release of version 0.1.0.
-2007-07-09: Feedalizer now uses RSS 2.0 instead of RSS 1.0.
-2008-03-27: Improved examples/sydsvenskan-nemi.rb.
-2008-03-27: Release of version 0.1.1.

data/COPYING.txt DELETED

@@ -1,18 +0,0 @@
-Copyright (c) 2006-2008 Christoffer Sawicki <christoffer.sawicki@gmail.com>
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to
-deal in the Software without restriction, including without limitation the
-rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
-sell copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-The above copyright notice and this permission notice shall be included in
-all copies or substantial portions of the Software.
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
-THE AUTHORS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER
-IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
-CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

data/Manifest.txt DELETED

@@ -1,13 +0,0 @@
-bin/feedalizer
-CHANGELOG.txt
-COPYING.txt
-examples/pjvault.rb
-examples/sydsvenskan-nemi.rb
-lib/feedalizer.rb
-logo.svg
-Manifest.txt
-Rakefile
-README.txt
-tests/test.html
-tests/test_feedalizer.rb
-TODO.txt

data/README.txt DELETED

@@ -1,24 +0,0 @@
-= Feedalizer
-http://termos.vemod.net/feedalizer
-== Description
-Feedalizer is a *small* Ruby library that glues together Hpricot with the
-standard RSS library in a way that makes it easy to transform web pages into
-RSS feeds. If you ask me, it makes it *too* easy.
-== Documentation
-First of all, see the included examples and take a quick look at the code.
-Then read some documentation for the two libraries that are used:
-* Hpricot:
-  http://code.whytheluckystiff.net/hpricot/
-* RSS::Maker:
-  http://www.cozmixng.org/~rwiki/?cmd=view;name=RSS+Parser%3A%3AReference.en
-== License
-See link:COPYING.txt.

data/TODO.txt DELETED

@@ -1,7 +0,0 @@
-* Add more examples
-* Write some documentation (tutorial?)
-* Add note about CGI
-* Cache the retrieved HTML during script development?
-* Write unit test(s) for debug mode.
-* Add timeout control (a bit tricky to do nicely)
-* Restructure CHANGELOG.txt

data/bin/feedalizer DELETED

@@ -1,5 +0,0 @@
-#!/usr/bin/env ruby
-require "feedalizer"
-eval(ARGF.read)

data/examples/sydsvenskan-nemi.rb DELETED

@@ -1,28 +0,0 @@
-#!/usr/bin/env ruby
-$LOAD_PATH.unshift File.join(File.dirname(__FILE__), "..", "lib")
-require "feedalizer"
-require "time"
-feedalize("http://sydsvenskan.se/serier/nemi/index.jsp?context=serie") do
-  feed.title = "Nemi"
-  feed.description = "Daily Nemi strip scraped from Sydsvenskan"
-  scrape_items("option") do |rss_item, html_element|
-    link = html_element.attributes["value"]
-    date = Time.parse(html_element.inner_html)
-    rss_item.title = [feed.title, date.strftime("%Y-%m-%d")].join(", ")
-    rss_item.description = grab_page(link).search("//img[@width=600]")
-    rss_item.date = date
-    rss_item.link = link
-    rss_item.guid.isPermaLink = true
-    rss_item.guid.content = link
-  end
-  if __FILE__ == $0
-    output!(ARGV[0] ? File.open(ARGV[0], "w") : STDOUT)
-  end
-end