RubyGems - agiley-feedzirra - Versions diffs - 0.0.24 - Mend

agiley-feedzirra 0.0.24

Files changed (32) hide show

data/README.textile +208 -0
data/Rakefile +56 -0
data/lib/core_ext/date.rb +21 -0
data/lib/core_ext/string.rb +9 -0
data/lib/feedzirra.rb +41 -0
data/lib/feedzirra/feed.rb +325 -0
data/lib/feedzirra/feed_entry_utilities.rb +45 -0
data/lib/feedzirra/feed_utilities.rb +72 -0
data/lib/feedzirra/parser/atom.rb +35 -0
data/lib/feedzirra/parser/atom_entry.rb +39 -0
data/lib/feedzirra/parser/atom_feed_burner.rb +27 -0
data/lib/feedzirra/parser/atom_feed_burner_entry.rb +35 -0
data/lib/feedzirra/parser/itunes_rss.rb +50 -0
data/lib/feedzirra/parser/itunes_rss_item.rb +31 -0
data/lib/feedzirra/parser/itunes_rss_owner.rb +12 -0
data/lib/feedzirra/parser/rss.rb +28 -0
data/lib/feedzirra/parser/rss_entry.rb +42 -0
data/spec/feedzirra/feed_entry_utilities_spec.rb +52 -0
data/spec/feedzirra/feed_spec.rb +556 -0
data/spec/feedzirra/feed_utilities_spec.rb +149 -0
data/spec/feedzirra/parser/atom_entry_spec.rb +49 -0
data/spec/feedzirra/parser/atom_feed_burner_entry_spec.rb +42 -0
data/spec/feedzirra/parser/atom_feed_burner_spec.rb +39 -0
data/spec/feedzirra/parser/atom_spec.rb +43 -0
data/spec/feedzirra/parser/itunes_rss_item_spec.rb +48 -0
data/spec/feedzirra/parser/itunes_rss_owner_spec.rb +18 -0
data/spec/feedzirra/parser/itunes_rss_spec.rb +50 -0
data/spec/feedzirra/parser/rss_entry_spec.rb +41 -0
data/spec/feedzirra/parser/rss_spec.rb +41 -0
data/spec/spec.opts +2 -0
data/spec/spec_helper.rb +58 -0
metadata +220 -0

data/lib/feedzirra/feed_entry_utilities.rb ADDED

@@ -0,0 +1,45 @@
+module Feedzirra
+  module FeedEntryUtilities
+    def published
+      @published || @updated
+    end
+    def parse_datetime(string)
+      begin
+        DateTime.parse(string).in_time_zone
+      rescue
+        puts "DATE CAN'T BE PARSED: #{string}"
+        nil
+      end
+    end
+    ##
+    # Returns the id of the entry or its url if not id is present, as some formats don't support it
+    def id
+      @entry_id || @url
+    end
+    ##
+    # Writter for published. By default, we keep the "oldest" publish time found.
+    def published=(val)
+      parsed = parse_datetime(val)
+      @published = parsed if !@published || parsed < @published
+    end
+    ##
+    # Writter for udapted. By default, we keep the most recenet update time found.
+    def updated=(val)
+      parsed = parse_datetime(val)
+      @updated = parsed if !@updated || parsed > @updated
+    end
+    def sanitize!
+      self.title.sanitize!   if self.title
+      self.author.sanitize!  if self.author
+      self.summary.sanitize! if self.summary
+      self.content.sanitize! if self.content
+    end
+    alias_method :last_modified, :published
+  end
+end

data/lib/feedzirra/feed_utilities.rb ADDED

@@ -0,0 +1,72 @@
+module Feedzirra
+  module FeedUtilities
+    UPDATABLE_ATTRIBUTES = %w(title feed_url url last_modified etag)
+    attr_writer   :new_entries, :updated, :last_modified
+    attr_accessor :etag
+    def last_modified
+      @last_modified ||= begin
+        entry = entries.reject {|e| e.published.nil? }.sort_by { |entry| entry.published if entry.published }.last
+        entry ? entry.published : nil
+      end
+    end
+    def updated?
+      @updated
+    end
+    def new_entries
+      @new_entries ||= []
+    end
+    def has_new_entries?
+      new_entries.size > 0
+    end
+    def update_from_feed(feed)
+      self.new_entries += find_new_entries_for(feed)
+      self.entries.unshift(*self.new_entries)
+      @updated = false
+      UPDATABLE_ATTRIBUTES.each do |name|
+        updated = update_attribute(feed, name)
+        @updated ||= updated
+      end
+    end
+    def update_attribute(feed, name)
+      old_value, new_value = send(name), feed.send(name)
+      if old_value != new_value
+        send("#{name}=", new_value)
+      end
+    end
+    def sanitize_entries!
+      entries.each {|entry| entry.sanitize!}
+    end
+    private
+    def find_new_entries_for(feed)
+      # this implementation is a hack, which is why it's so ugly.
+      # it's to get around the fact that not all feeds have a published date.
+      # however, they're always ordered with the newest one first.
+      # So we go through the entries just parsed and insert each one as a new entry
+      # until we get to one that has the same url as the the newest for the feed
+      return feed.entries if self.entries.length == 0
+      latest_entry = self.entries.first
+      found_new_entries = []
+      feed.entries.each do |entry|
+        break if entry.url == latest_entry.url
+        found_new_entries << entry
+      end
+      found_new_entries
+    end
+    def existing_entry?(test_entry)
+      entries.any? { |entry| entry.url == test_entry.url }
+    end
+  end
+end

data/lib/feedzirra/parser/atom.rb ADDED

@@ -0,0 +1,35 @@
+module Feedzirra
+  module Parser
+    # == Summary
+    # Parser for dealing with Atom feeds.
+    #
+    # == Attributes
+    # * title
+    # * feed_url
+    # * url
+    # * entries
+    class Atom
+      include SAXMachine
+      include FeedUtilities
+      element :title
+      element :link, :as => :url, :value => :href, :with => {:type => "text/html"}
+      element :link, :as => :feed_url, :value => :href, :with => {:type => "application/atom+xml"}
+      elements :link, :as => :links, :value => :href
+      elements :entry, :as => :entries, :class => AtomEntry
+      def self.able_to_parse?(xml) #:nodoc:
+        xml =~ /(Atom)|(#{Regexp.escape("http://purl.org/atom")})/
+      end
+      def url
+        @url || links.last
+      end
+      def feed_url
+        @feed_url || links.first
+      end
+    end
+  end
+end

data/lib/feedzirra/parser/atom_entry.rb ADDED

@@ -0,0 +1,39 @@
+module Feedzirra
+  module Parser
+    # == Summary
+    # Parser for dealing with Atom feed entries.
+    #
+    # == Attributes
+    # * title
+    # * url
+    # * author
+    # * content
+    # * summary
+    # * published
+    # * categories
+    class AtomEntry
+      include SAXMachine
+      include FeedEntryUtilities
+      element :title
+      element :link, :as => :url, :value => :href, :with => {:type => "text/html", :rel => "alternate"}
+      element :name, :as => :author
+      element :content
+      element :summary
+      element :published
+      element :id, :as => :entry_id
+      element :created, :as => :published
+      element :issued, :as => :published
+      element :updated
+      element :modified, :as => :updated
+      elements :category, :as => :categories, :value => :term
+      elements :link, :as => :links, :value => :href
+      def url
+        @url || links.first
+      end
+    end
+  end
+end

data/lib/feedzirra/parser/atom_feed_burner.rb ADDED

@@ -0,0 +1,27 @@
+module Feedzirra
+  module Parser
+    # == Summary
+    # Parser for dealing with Feedburner Atom feeds.
+    #
+    # == Attributes
+    # * title
+    # * feed_url
+    # * url
+    # * entries
+    class AtomFeedBurner
+      include SAXMachine
+      include FeedUtilities
+      element :title
+      element :link, :as => :url, :value => :href, :with => {:type => "text/html"}
+      element :link, :as => :feed_url, :value => :href, :with => {:type => "application/atom+xml"}
+      elements :entry, :as => :entries, :class => AtomFeedBurnerEntry
+      def self.able_to_parse?(xml) #:nodoc:
+        (xml =~ /Atom/ && xml =~ /feedburner/) || false
+      end
+    end
+  end
+end

data/lib/feedzirra/parser/atom_feed_burner_entry.rb ADDED

@@ -0,0 +1,35 @@
+module Feedzirra
+  module Parser
+    # == Summary
+    # Parser for dealing with Feedburner Atom feed entries.
+    #
+    # == Attributes
+    # * title
+    # * url
+    # * author
+    # * content
+    # * summary
+    # * published
+    # * categories
+    class AtomFeedBurnerEntry
+      include SAXMachine
+      include FeedEntryUtilities
+      element :title
+      element :name, :as => :author
+      element :link, :as => :url, :value => :href, :with => {:type => "text/html", :rel => "alternate"}
+      element :"feedburner:origLink", :as => :url
+      element :summary
+      element :content
+      element :published
+      element :id, :as => :entry_id
+      element :issued, :as => :published
+      element :created, :as => :published
+      element :updated
+      element :modified, :as => :updated
+      elements :category, :as => :categories, :value => :term
+    end
+  end
+end

data/lib/feedzirra/parser/itunes_rss.rb ADDED

@@ -0,0 +1,50 @@
+module Feedzirra
+  module Parser
+    # iTunes is RSS 2.0 + some apple extensions
+    # Source: http://www.apple.com/itunes/whatson/podcasts/specs.html
+    class ITunesRSS
+      include SAXMachine
+      include FeedUtilities
+      attr_accessor :feed_url
+      # RSS 2.0 elements that need including
+      element :copyright
+      element :description
+      element :language
+      element :managingEditor
+      element :title
+      element :link, :as => :url
+      # If author is not present use managingEditor on the channel
+      element :"itunes:author", :as => :itunes_author
+      element :"itunes:block", :as => :itunes_block
+      element :"itunes:image", :value => :href, :as => :itunes_image
+      element :"itunes:explicit", :as => :itunes_explicit
+      element :"itunes:keywords", :as => :itunes_keywords
+      # New URL for the podcast feed
+      element :"itunes:new-feed-url", :as => :itunes_new_feed_url
+      element :"itunes:subtitle", :as => :itunes_subtitle
+      # If summary is not present, use the description tag
+      element :"itunes:summary", :as => :itunes_summary
+      # iTunes RSS feeds can have multiple main categories...
+      # ...and multiple sub-categories per category
+      # TODO subcategories not supported correctly - they are at the same level
+      #   as the main categories
+      elements :"itunes:category", :as => :itunes_categories, :value => :text
+      elements :"itunes:owner", :as => :itunes_owners, :class => ITunesRSSOwner
+      elements :item, :as => :entries, :class => ITunesRSSItem
+      def self.able_to_parse?(xml)
+        xml =~ /xmlns:itunes=\"http:\/\/www.itunes.com\/dtds\/podcast-1.0.dtd\"/
+      end
+    end
+  end
+end

data/lib/feedzirra/parser/itunes_rss_item.rb ADDED

@@ -0,0 +1,31 @@
+module Feedzirra
+  module Parser
+    # iTunes extensions to the standard RSS2.0 item
+    # Source: http://www.apple.com/itunes/whatson/podcasts/specs.html
+    class ITunesRSSItem
+      include SAXMachine
+      include FeedUtilities
+      element :author
+      element :guid
+      element :title
+      element :link, :as => :url
+      element :description, :as => :summary
+      element :pubDate, :as => :published
+      # If author is not present use author tag on the item
+      element :"itunes:author", :as => :itunes_author
+      element :"itunes:block", :as => :itunes_block
+      element :"itunes:duration", :as => :itunes_duration
+      element :"itunes:explicit", :as => :itunes_explicit
+      element :"itunes:keywords", :as => :itunes_keywords
+      element :"itunes:subtitle", :as => :itunes_subtitle
+      # If summary is not present, use the description tag
+      element :"itunes:summary", :as => :itunes_summary
+      element :enclosure, :value => :length, :as => :enclosure_length
+      element :enclosure, :value => :type, :as => :enclosure_type
+      element :enclosure, :value => :url, :as => :enclosure_url
+    end
+  end
+end

data/lib/feedzirra/parser/itunes_rss_owner.rb ADDED

@@ -0,0 +1,12 @@
+module Feedzirra
+  module Parser
+    class ITunesRSSOwner
+      include SAXMachine
+      include FeedUtilities
+      element :"itunes:name", :as => :name
+      element :"itunes:email", :as => :email
+    end
+  end
+end

data/lib/feedzirra/parser/rss.rb ADDED

@@ -0,0 +1,28 @@
+module Feedzirra
+  module Parser
+    # == Summary
+    # Parser for dealing with RSS feeds.
+    #
+    # == Attributes
+    # * title
+    # * feed_url
+    # * url
+    # * entries
+    class RSS
+      include SAXMachine
+      include FeedUtilities
+      element :title
+      element :link, :as => :url
+      elements :item, :as => :entries, :class => RSSEntry
+      attr_accessor :feed_url
+      def self.able_to_parse?(xml) #:nodoc:
+        xml =~ /\<rss|\<rdf/
+      end
+    end
+  end
+end

data/lib/feedzirra/parser/rss_entry.rb ADDED

@@ -0,0 +1,42 @@
+module Feedzirra
+  module Parser
+    # == Summary
+    # Parser for dealing with RDF feed entries.
+    #
+    # == Attributes
+    # * title
+    # * url
+    # * author
+    # * content
+    # * summary
+    # * published
+    # * categories
+    class RSSEntry
+      include SAXMachine
+      include FeedEntryUtilities
+      element :title
+      element :link, :as => :url
+      element :"dc:creator", :as => :author
+      element :author, :as => :author
+      element :"content:encoded", :as => :content
+      element :description, :as => :summary
+      element :pubDate, :as => :published
+      element :pubdate, :as => :published
+      element :"dc:date", :as => :published
+      element :"dc:Date", :as => :published
+      element :"dcterms:created", :as => :published
+      element :"dcterms:modified", :as => :updated
+      element :issued, :as => :published
+      elements :category, :as => :categories
+      element :guid, :as => :entry_id
+    end
+  end
+end

data/spec/feedzirra/feed_entry_utilities_spec.rb ADDED

@@ -0,0 +1,52 @@
+require File.dirname(__FILE__) + '/../spec_helper'
+describe Feedzirra::FeedUtilities do
+  before(:each) do
+    @klass = Class.new do
+      include Feedzirra::FeedEntryUtilities
+    end
+  end
+  describe "handling dates" do
+    it "should parse an ISO 8601 formatted datetime into Time" do
+      time = @klass.new.parse_datetime("2008-02-20T8:05:00-010:00")
+      time.class.should == Time
+      time.to_s.should == "Wed Feb 20 18:05:00 UTC 2008"
+    end
+  end
+  describe "sanitizing" do
+    before(:each) do
+      @feed = Feedzirra::Feed.parse(sample_atom_feed)
+      @entry = @feed.entries.first
+    end
+    it "should provide a sanitized title" do
+      new_title = "<script>this is not safe</script>" + @entry.title
+      @entry.title = new_title
+      @entry.title.sanitize.should == Loofah.scrub_fragment(new_title, :prune).to_s
+    end
+    it "should sanitize content in place" do
+      new_content = "<script>" + @entry.content
+      @entry.content = new_content.dup
+      @entry.content.sanitize!.should == Loofah.scrub_fragment(new_content, :prune).to_s
+      @entry.content.should == Loofah.scrub_fragment(new_content, :prune).to_s
+    end
+    it "should sanitize things in place" do
+      @entry.title   += "<script>"
+      @entry.author  += "<script>"
+      @entry.content += "<script>"
+      cleaned_title   = Loofah.scrub_fragment(@entry.title, :prune).to_s
+      cleaned_author  = Loofah.scrub_fragment(@entry.author, :prune).to_s
+      cleaned_content = Loofah.scrub_fragment(@entry.content, :prune).to_s
+      @entry.sanitize!
+      @entry.title.should   == cleaned_title
+      @entry.author.should  == cleaned_author
+      @entry.content.should == cleaned_content
+    end
+  end
+end