RubyGems - feedjira - Versions diffs - 2.2.0 → 3.1.2 - Mend

feedjira 2.2.0 → 3.1.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (91) hide show

checksums.yaml +4 -4
data/.github/ISSUE_TEMPLATE/feed-parsing.md +15 -0
data/.rubocop.yml +32 -8
data/.rubocop_todo.yml +11 -0
data/.travis.yml +3 -7
data/CHANGELOG.md +18 -9
data/CODE_OF_CONDUCT.md +74 -0
data/Gemfile +8 -5
data/README.md +46 -99
data/Rakefile +8 -6
data/feedjira.gemspec +31 -20
data/lib/feedjira.rb +75 -41
data/lib/feedjira/atom_entry_utilities.rb +51 -0
data/lib/feedjira/configuration.rb +8 -10
data/lib/feedjira/core_ext.rb +5 -3
data/lib/feedjira/core_ext/date.rb +2 -1
data/lib/feedjira/core_ext/string.rb +2 -1
data/lib/feedjira/core_ext/time.rb +12 -12
data/lib/feedjira/date_time_utilities.rb +8 -10
data/lib/feedjira/date_time_utilities/date_time_epoch_parser.rb +3 -2
data/lib/feedjira/date_time_utilities/date_time_language_parser.rb +4 -4
data/lib/feedjira/date_time_utilities/date_time_pattern_parser.rb +11 -15
data/lib/feedjira/feed.rb +12 -82
data/lib/feedjira/feed_entry_utilities.rb +14 -7
data/lib/feedjira/feed_utilities.rb +5 -4
data/lib/feedjira/parser.rb +6 -1
data/lib/feedjira/parser/atom.rb +6 -5
data/lib/feedjira/parser/atom_entry.rb +4 -21
data/lib/feedjira/parser/atom_feed_burner.rb +7 -6
data/lib/feedjira/parser/atom_feed_burner_entry.rb +7 -18
data/lib/feedjira/parser/atom_google_alerts.rb +26 -0
data/lib/feedjira/parser/atom_google_alerts_entry.rb +21 -0
data/lib/feedjira/parser/atom_youtube.rb +4 -3
data/lib/feedjira/parser/atom_youtube_entry.rb +9 -8
data/lib/feedjira/parser/globally_unique_identifier.rb +21 -0
data/lib/feedjira/parser/google_docs_atom.rb +6 -6
data/lib/feedjira/parser/google_docs_atom_entry.rb +3 -19
data/lib/feedjira/parser/itunes_rss.rb +4 -3
data/lib/feedjira/parser/itunes_rss_category.rb +6 -5
data/lib/feedjira/parser/itunes_rss_item.rb +5 -8
data/lib/feedjira/parser/itunes_rss_owner.rb +2 -1
data/lib/feedjira/parser/json_feed.rb +41 -0
data/lib/feedjira/parser/json_feed_item.rb +57 -0
data/lib/feedjira/parser/podlove_chapter.rb +4 -3
data/lib/feedjira/parser/rss.rb +5 -3
data/lib/feedjira/parser/rss_entry.rb +3 -24
data/lib/feedjira/parser/rss_feed_burner.rb +4 -3
data/lib/feedjira/parser/rss_feed_burner_entry.rb +6 -26
data/lib/feedjira/parser/rss_image.rb +2 -0
data/lib/feedjira/preprocessor.rb +4 -4
data/lib/feedjira/rss_entry_utilities.rb +53 -0
data/lib/feedjira/version.rb +3 -1
data/spec/feedjira/configuration_spec.rb +11 -16
data/spec/feedjira/date_time_utilities_spec.rb +22 -20
data/spec/feedjira/feed_entry_utilities_spec.rb +20 -18
data/spec/feedjira/feed_spec.rb +17 -229
data/spec/feedjira/feed_utilities_spec.rb +75 -73
data/spec/feedjira/parser/atom_entry_spec.rb +41 -38
data/spec/feedjira/parser/atom_feed_burner_entry_spec.rb +22 -20
data/spec/feedjira/parser/atom_feed_burner_spec.rb +122 -118
data/spec/feedjira/parser/atom_google_alerts_entry_spec.rb +34 -0
data/spec/feedjira/parser/atom_google_alerts_spec.rb +62 -0
data/spec/feedjira/parser/atom_spec.rb +83 -77
data/spec/feedjira/parser/atom_youtube_entry_spec.rb +41 -39
data/spec/feedjira/parser/atom_youtube_spec.rb +21 -19
data/spec/feedjira/parser/google_docs_atom_entry_spec.rb +10 -8
data/spec/feedjira/parser/google_docs_atom_spec.rb +25 -21
data/spec/feedjira/parser/itunes_rss_item_spec.rb +39 -37
data/spec/feedjira/parser/itunes_rss_owner_spec.rb +7 -5
data/spec/feedjira/parser/itunes_rss_spec.rb +120 -116
data/spec/feedjira/parser/json_feed_item_spec.rb +81 -0
data/spec/feedjira/parser/json_feed_spec.rb +55 -0
data/spec/feedjira/parser/podlove_chapter_spec.rb +14 -12
data/spec/feedjira/parser/rss_entry_spec.rb +56 -34
data/spec/feedjira/parser/rss_feed_burner_entry_spec.rb +36 -34
data/spec/feedjira/parser/rss_feed_burner_spec.rb +49 -45
data/spec/feedjira/parser/rss_spec.rb +38 -36
data/spec/feedjira/preprocessor_spec.rb +9 -7
data/spec/feedjira_spec.rb +166 -0
data/spec/sample_feeds.rb +32 -29
data/spec/sample_feeds/HuffPostCanada.xml +279 -0
data/spec/sample_feeds/Permalinks.xml +22 -0
data/spec/sample_feeds/a10.xml +72 -0
data/spec/sample_feeds/google_alerts_atom.xml +1 -0
data/spec/sample_feeds/json_feed.json +156 -0
data/spec/spec_helper.rb +7 -5
metadata +59 -70
data/Dangerfile +0 -1
data/fixtures/vcr_cassettes/fetch_failure.yml +0 -62
data/fixtures/vcr_cassettes/parse_error.yml +0 -222
data/fixtures/vcr_cassettes/success.yml +0 -281

data/lib/feedjira/date_time_utilities/date_time_pattern_parser.rb CHANGED

@@ -1,32 +1,28 @@
-# rubocop:disable Style/Documentation
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module DateTimeUtilities
     class DateTimePatternParser
-      # rubocop:disable Style/AsciiComments
       # Japanese Symbols are required for strange Date Strings like
       # '水, 31 8 2016 07:37:00 PDT'
-      JAPANESE_SYMBOLS = %w(日 月 火 水 木 金 土).freeze
-      PATTERNS = ['%m/%d/%Y %T %p', '%d %m %Y %T %Z'].freeze
+      JAPANESE_SYMBOLS = %w[日 月 火 水 木 金 土].freeze
+      PATTERNS = ["%m/%d/%Y %T %p", "%d %m %Y %T %Z"].freeze
-      # rubocop:disable Metrics/MethodLength
       def self.parse(string)
         PATTERNS.each do |p|
-          begin
-            datetime = DateTime.strptime(prepare(string), p)
-            return datetime
-          rescue StandardError => e
-            Feedjira.logger.debug("Failed to parse date #{string}")
-            Feedjira.logger.debug(e)
-            nil
-          end
+          datetime = DateTime.strptime(prepare(string), p)
+          return datetime
+        rescue StandardError => e
+          Feedjira.logger.debug("Failed to parse date #{string}")
+          Feedjira.logger.debug(e)
+          nil
         end
         raise "No pattern matched #{string}"
       end
       def self.prepare(string)
         rgx = Regexp.new("^(#{JAPANESE_SYMBOLS.join('|')}),\s")
-        string.gsub(rgx, '')
+        string.gsub(rgx, "")
       end
       private_class_method :prepare
     end

data/lib/feedjira/feed.rb CHANGED

@@ -1,60 +1,35 @@
-# rubocop:disable Style/Documentation
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   class Feed
     class << self
-      def parse_with(parser, xml, &block)
-        parser.parse xml, &block
-      end
-      def parse(xml, &block)
-        parser = determine_feed_parser_for_xml(xml)
-        raise NoParserAvailable, 'No valid parser for XML.' unless parser
-        parse_with parser, xml, &block
-      end
-      def determine_feed_parser_for_xml(xml)
-        start_of_doc = xml.slice(0, 2000)
-        feed_classes.detect { |klass| klass.able_to_parse?(start_of_doc) }
-      end
-      def add_feed_class(klass)
-        feed_classes.unshift klass
-      end
-      def feed_classes
-        @feed_classes ||= Feedjira.parsers
-      end
-      def reset_parsers!
-        @feed_classes = nil
-      end
       def add_common_feed_element(element_tag, options = {})
-        feed_classes.each do |k|
-          k.element element_tag, options
+        Feedjira.parsers.each do |k|
+          k.element(element_tag, options)
         end
       end
       def add_common_feed_elements(element_tag, options = {})
-        feed_classes.each do |k|
-          k.elements element_tag, options
+        Feedjira.parsers.each do |k|
+          k.elements(element_tag, options)
         end
       end
       def add_common_feed_entry_element(element_tag, options = {})
-        call_on_each_feed_entry :element, element_tag, options
+        call_on_each_feed_entry(:element, element_tag, options)
       end
       def add_common_feed_entry_elements(element_tag, options = {})
-        call_on_each_feed_entry :elements, element_tag, options
+        call_on_each_feed_entry(:elements, element_tag, options)
       end
+      private
       def call_on_each_feed_entry(method, *parameters)
-        feed_classes.each do |klass|
+        Feedjira.parsers.each do |klass|
           klass.sax_config.collection_elements.each_value do |value|
             collection_configs = value.select do |v|
-              v.accessor == 'entries' && v.data_class.class == Class
+              v.accessor == "entries" && v.data_class.class == Class
             end
             collection_configs.each do |config|
@@ -63,51 +38,6 @@ module Feedjira
           end
         end
       end
-      def fetch_and_parse(url)
-        response = connection(url).get
-        unless response.success?
-          raise FetchFailure, "Fetch failed - #{response.status}"
-        end
-        feed = parse response.body
-        feed.feed_url = url
-        feed.etag = response.headers['etag'].to_s.delete '"'
-        feed.last_modified = parse_last_modified(response)
-        feed
-      end
-      # rubocop:disable LineLength
-      def connection(url)
-        Faraday.new(url: url, headers: headers, request: request_options) do |conn|
-          conn.use FaradayMiddleware::FollowRedirects, limit: Feedjira.follow_redirect_limit
-          conn.adapter(*Faraday.default_adapter)
-        end
-      end
-      # rubocop:enable LineLength
-      private
-      def headers
-        {
-          user_agent: Feedjira.user_agent
-        }
-      end
-      def request_options
-        {
-          timeout: Feedjira.request_timeout
-        }
-      end
-      def parse_last_modified(response)
-        lm = response.headers['last-modified']
-        DateTime.parse(lm).to_time
-      rescue StandardError => e
-        Feedjira.logger.warn { "Failed to parse last modified '#{lm}'" }
-        Feedjira.logger.debug(e)
-        nil
-      end
     end
   end
 end

data/lib/feedjira/feed_entry_utilities.rb CHANGED

@@ -1,5 +1,5 @@
-# rubocop:disable Style/Documentation
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module FeedEntryUtilities
     include Enumerable
@@ -13,16 +13,18 @@ module Feedjira
       DateTime.parse(string).feed_utils_to_gm_time
     rescue StandardError => e
       Feedjira.logger.warn { "Failed to parse date #{string.inspect}" }
-      Feedjira.logger.debug(e)
+      Feedjira.logger.warn(e)
       nil
     end
     ##
     # Returns the id of the entry or its url if not id is present, as some
     # formats don't support it
+    # rubocop:disable Naming/MemoizedInstanceVariableName
     def id
       @entry_id ||= @url
     end
+    # rubocop:enable Naming/MemoizedInstanceVariableName
     ##
     # Writer for published. By default, we keep the "oldest" publish time found.
@@ -39,9 +41,9 @@ module Feedjira
     end
     def sanitize!
-      %w(title author summary content image).each do |name|
+      %w[title author summary content image].each do |name|
         if respond_to?(name) && send(name).respond_to?(:sanitize!)
-          send(name).send :sanitize!
+          send(name).send(:sanitize!)
         end
       end
     end
@@ -49,10 +51,15 @@ module Feedjira
     alias last_modified published
     def each
-      @rss_fields ||= instance_variables
+      @rss_fields ||= instance_variables.map do |ivar|
+        ivar.to_s.sub("@", "")
+      end.select do |field| # rubocop:disable Style/MultilineBlockChain
+        # select callable (public) methods only
+        respond_to?(field)
+      end
       @rss_fields.each do |field|
-        yield(field.to_s.sub('@', ''), instance_variable_get(field))
+        yield(field, instance_variable_get(:"@#{field}"))
       end
     end

data/lib/feedjira/feed_utilities.rb CHANGED

@@ -1,8 +1,8 @@
-# rubocop:disable Style/Documentation
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module FeedUtilities
-    UPDATABLE_ATTRIBUTES = %w(title feed_url url last_modified etag).freeze
+    UPDATABLE_ATTRIBUTES = %w[title feed_url url last_modified etag].freeze
     attr_writer   :new_entries, :updated, :last_modified
     attr_accessor :etag
@@ -43,7 +43,7 @@ module Feedjira
     def last_modified
       @last_modified ||= begin
         published = entries.reject { |e| e.published.nil? }
-        entry = published.sort_by { |e| e.published if e.published }.last
+        entry = published.max_by(&:published)
         entry ? entry.published : nil
       end
     end
@@ -102,6 +102,7 @@ module Feedjira
       feed.entries.each do |entry|
         break unless new_entry?(entry, latest_entry)
         found_new_entries << entry
       end

data/lib/feedjira/parser.rb CHANGED

@@ -1 +1,6 @@
-module Feedjira::Parser; end # rubocop:disable Style/Documentation
+# frozen_string_literal: true
+module Feedjira
+  module Parser
+  end
+end

data/lib/feedjira/parser/atom.rb CHANGED

@@ -1,4 +1,5 @@
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module Parser
     # Parser for dealing with Atom feeds.
@@ -8,14 +9,14 @@ module Feedjira
       element :title
       element :subtitle, as: :description
-      element :link, as: :url, value: :href, with: { type: 'text/html' }
-      element :link, as: :feed_url, value: :href, with: { rel: 'self' }
+      element :link, as: :url, value: :href, with: { type: "text/html" }
+      element :link, as: :feed_url, value: :href, with: { rel: "self" }
       elements :link, as: :links, value: :href
-      elements :link, as: :hubs, value: :href, with: { rel: 'hub' }
+      elements :link, as: :hubs, value: :href, with: { rel: "hub" }
       elements :entry, as: :entries, class: AtomEntry
       def self.able_to_parse?(xml)
-        %r{\<feed[^\>]+xmlns\s?=\s?[\"\'](http://www\.w3\.org/2005/Atom|http://purl\.org/atom/ns\#)[\"\'][^\>]*\>} =~ xml # rubocop:disable Metrics/LineLength
+        %r{<feed[^>]+xmlns\s?=\s?["'](http://www\.w3\.org/2005/Atom|http://purl\.org/atom/ns\#)["'][^>]*>} =~ xml
       end
       def url

data/lib/feedjira/parser/atom_entry.rb CHANGED

@@ -1,32 +1,15 @@
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module Parser
     # Parser for dealing with Atom feed entries.
     class AtomEntry
       include SAXMachine
       include FeedEntryUtilities
+      include AtomEntryUtilities
-      element :title
-      element :link, as: :url, value: :href, with: { type: 'text/html', rel: 'alternate' } # rubocop:disable Metrics/LineLength
-      element :name, as: :author
-      element :content
-      element :summary
+      element :"media:thumbnail", as: :image, value: :url
       element :"media:content", as: :image, value: :url
-      element :enclosure, as: :image, value: :href
-      element :published
-      element :id, as: :entry_id
-      element :created, as: :published
-      element :issued, as: :published
-      element :updated
-      element :modified, as: :updated
-      elements :category, as: :categories, value: :term
-      elements :link, as: :links, value: :href
-      def url
-        @url ||= links.first
-      end
     end
   end
 end

data/lib/feedjira/parser/atom_feed_burner.rb CHANGED

@@ -1,4 +1,5 @@
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module Parser
     # Parser for dealing with Feedburner Atom feeds.
@@ -9,18 +10,18 @@ module Feedjira
       element :title
       element :subtitle, as: :description
       element :link, as: :url_text_html, value: :href,
-                     with: { type: 'text/html' }
+                     with: { type: "text/html" }
       element :link, as: :url_notype, value: :href, with: { type: nil }
-      element :link, as: :feed_url_link, value: :href, with: { type: 'application/atom+xml' } # rubocop:disable Metrics/LineLength
+      element :link, as: :feed_url_link, value: :href, with: { type: "application/atom+xml" }
       element :"atom10:link", as: :feed_url_atom10_link, value: :href,
-                              with: { type: 'application/atom+xml' }
-      elements :"atom10:link", as: :hubs, value: :href, with: { rel: 'hub' }
+                              with: { type: "application/atom+xml" }
+      elements :"atom10:link", as: :hubs, value: :href, with: { rel: "hub" }
       elements :entry, as: :entries, class: AtomFeedBurnerEntry
       attr_writer :url, :feed_url
       def self.able_to_parse?(xml)
-        ((/Atom/ =~ xml) && (/feedburner/ =~ xml) && !(/\<rss|\<rdf/ =~ xml)) || false # rubocop:disable Metrics/LineLength
+        ((/<feed/ =~ xml) && (/Atom/ =~ xml) && (/feedburner/ =~ xml) && !(/<rss|<rdf/ =~ xml)) || false
       end
       # Feed url is <link> with type="text/html" if present,

data/lib/feedjira/parser/atom_feed_burner_entry.rb CHANGED

@@ -1,32 +1,21 @@
-# rubocop:disable Style/DocumentationMethod
+# frozen_string_literal: true
 module Feedjira
   module Parser
     # Parser for dealing with Feedburner Atom feed entries.
     class AtomFeedBurnerEntry
       include SAXMachine
       include FeedEntryUtilities
+      include AtomEntryUtilities
-      element :title
-      element :name, as: :author
-      element :link, as: :url, value: :href, with: { type: 'text/html', rel: 'alternate' } # rubocop:disable Metrics/LineLength
-      element :"feedburner:origLink", as: :url
-      element :summary
-      element :content
+      element :"feedburner:origLink", as: :orig_link
+      private :orig_link
+      element :"media:thumbnail", as: :image, value: :url
       element :"media:content", as: :image, value: :url
-      element :enclosure, as: :image, value: :href
-      element :published
-      element :id, as: :entry_id
-      element :issued, as: :published
-      element :created, as: :published
-      element :updated
-      element :modified, as: :updated
-      elements :category, as: :categories, value: :term
-      elements :link, as: :links, value: :href
       def url
-        @url ||= links.first
+        orig_link || super
       end
     end
   end

data/lib/feedjira/parser/atom_google_alerts.rb ADDED

@@ -0,0 +1,26 @@
+# frozen_string_literal: true
+module Feedjira
+  module Parser
+    # Parser for dealing with Feedburner Atom feeds.
+    class AtomGoogleAlerts
+      include SAXMachine
+      include FeedUtilities
+      element :title
+      element :subtitle, as: :description
+      element :link, as: :feed_url, value: :href, with: { rel: "self" }
+      element :link, as: :url, value: :href, with: { rel: "self" }
+      elements :link, as: :links, value: :href
+      elements :entry, as: :entries, class: AtomGoogleAlertsEntry
+      def self.able_to_parse?(xml)
+        Atom.able_to_parse?(xml) && (%r{<id>tag:google\.com,2005:[^<]+/com\.google/alerts/} === xml) # rubocop:disable Style/CaseEquality
+      end
+      def self.preprocess(xml)
+        Preprocessor.new(xml).to_xml
+      end
+    end
+  end
+end

data/lib/feedjira/parser/atom_google_alerts_entry.rb ADDED

@@ -0,0 +1,21 @@
+# frozen_string_literal: true
+module Feedjira
+  module Parser
+    # Parser for dealing with Feedburner Atom feed entries.
+    class AtomGoogleAlertsEntry
+      include SAXMachine
+      include FeedEntryUtilities
+      include AtomEntryUtilities
+      def url
+        url = super
+        return unless url&.start_with?("https://www.google.com/url?")
+        uri = URI(url)
+        cons = URI.decode_www_form(uri.query).assoc("url")
+        cons && cons[1]
+      end
+    end
+  end
+end