RubyGems - epub-parser - Versions diffs - 0.1.8 → 0.1.9 - Mend

epub-parser 0.1.8 → 0.1.9

Files changed (29) hide show

checksums.yaml +4 -4
data/.travis.yml +1 -1
data/CHANGELOG.markdown +12 -0
data/README.markdown +11 -27
data/Rakefile +1 -14
data/docs/Home.markdown +2 -2
data/docs/Searcher.markdown +47 -27
data/epub-parser.gemspec +3 -6
data/lib/epub.rb +0 -9
data/lib/epub/book/features.rb +3 -3
data/lib/epub/content_document/navigation.rb +15 -4
data/lib/epub/content_document/xhtml.rb +2 -1
data/lib/epub/parser/content_document.rb +1 -1
data/lib/epub/parser/publication.rb +5 -5
data/lib/epub/parser/version.rb +1 -1
data/lib/epub/publication/package.rb +1 -1
data/lib/epub/publication/package/guide.rb +3 -5
data/lib/epub/publication/package/manifest.rb +18 -5
data/lib/epub/publication/package/metadata.rb +4 -4
data/lib/epub/publication/package/spine.rb +1 -1
data/lib/epub/searcher.rb +10 -0
data/lib/epub/searcher/publication.rb +6 -4
data/lib/epub/searcher/result.rb +31 -0
data/lib/epub/searcher/xhtml.rb +113 -17
data/test/test_content_document.rb +21 -0
data/test/test_inspect.rb +1 -1
data/test/test_publication.rb +55 -2
data/test/test_searcher.rb +45 -20
metadata +18 -46

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 0e0b5095d398c04f70b55444777389325b51b34a
-  data.tar.gz: f34bca3b4e1f8840b4caa58b11ffc00b95855794
+  metadata.gz: 1b57da74df66cba76e58cbb0098d7d5618ec1188
+  data.tar.gz: 66d1bf92e61f15da35215d0d46638ec7801e5993
 SHA512:
-  metadata.gz: bd4a31dca34f82fbc9eca34f53b3b5806c99cb91257c7efe97b1f1eca35edcf9beda7a38ee62eb3a43953587beab6283353fb94e9add1858acdb599750c32ee3
-  data.tar.gz: 719e99aad4b05a6f784e9c69f438f98319be7c330f70fb79531e41d1ec9b027893de4d01875f0ee3cca23a443606f744c6699c7e635159145bfeeeed07fd41f3
+  metadata.gz: 2a499a7de09c4b906b84d63e10e104f3dd00d028f8e4700a979343cbcade7edd06f63d3651422070a55139de64461b4fcf5b3edb46de477d8fe1d5e675509a01
+  data.tar.gz: 2b223250e08e3e9061042bbcd7b9e36662ac86542a7144e84bac71081f18b7b591fcf0acb03c6cfec14ac24b1b3fa256ede7ff2fedb6c0d0807ec14a7267387a

data/.travis.yml CHANGED Viewed

@@ -1,4 +1,4 @@
 rvm:
-  - "1.9.3"
   - "2.0.0"
   - "2.1.0"
+  - "2.2.0"

data/CHANGELOG.markdown CHANGED Viewed

@@ -1,6 +1,18 @@
 CHANGELOG
 =========
+0.1.9
+-----
+* Introduce [Nokogumbo][] for XHTML Content Documents
+* Stop support for Ruby 1.9
+* Remove `EPUB.included` method. Now including `EPUB` module empowers nothing of EPUB features. Include `EPUB::Book::Features` instead.
+* Add `EPUB::Searcher::XHTML::Seamless` and make it default searcher
+* Add `EPUB::Publication::Package::Manifest#each_nav`
+* Stop to use enumerabler gem
+[nokogumbo]: https://github.com/rubys/nokogumbo/
 0.1.8
 -----

data/README.markdown CHANGED Viewed

@@ -92,7 +92,7 @@ See {file:docs/EpubOpen} for more info.
 REQUIREMENTS
 ------------
-* Ruby 1.9.3 or later
+* Ruby 2.0.0 or later
 * `patch` command to install Nokogiri
 * C compiler to compile Zip/Ruby and Nokogiri
@@ -110,6 +110,16 @@ If you find other gems, please tell me or request a pull request.
 RECENT CHANGES
 --------------
+### 0.1.9
+* Introduce [Nokogumbo][] for XHTML Content Documents
+* Stop support for Ruby 1.9
+* Remove `EPUB.included` method. Now including `EPUB` module empowers nothing of EPUB features. Include `EPUB::Book::Features` instead.
+* Add `EPUB::Searcher::XHTML::Seamless` and make it default searcher
+* Add `EPUB::Publication::Package::Manifest#each_nav`
+[nokogumbo]: https://github.com/rubys/nokogumbo/
 ### 0.1.8
 * Explicity #close each zip member file that has been opened via #fopen(Thanks [xunker][]!)
@@ -125,32 +135,6 @@ RECENT CHANGES
 * [Experimental]Add `EPUB::Searcher` module. See {file:Searcher.markdown} for details
 * Detect and set character encoding in `EPUB::Publication::Package::Item#read`
-### 0.1.6
-* Remove `EPUB.parse` method
-* Remove `EPUB::Publication::Package::Metadata#to_hash`
-* Add `EPUB::Publication::Package::Metadata::Identifier`
-* Remove `MethodDecorators::Deprecated`
-* Make `EPUB::Parser::OCF::CONTAINER_FILE` and other constants deprecated
-* Make `EPUB::Publication::Package::Metadata::Link#rel` a `Set`
-* Add exception class `EPUB::Constants::MediaType::UnsupportedMediaType`
-* Make `EPUB::Constants::MediaType::UnsupportedError` deprecated
-* Add `EPUB::Publication::Package::Item#find_item_by_relative_iri`
-* Add `EPUB::Publication::Package::Item#cover_image?`
-* Add `EPUB::Book::Features` module and move methods of `EPUB` module to it.(Thanks, [takahashim][]!)
-* Make including `EPUB` deprecated
-* Parse `hidden` attribute of `nav` elements
-* [Experimental]Add `EPUB::ContentDocument::Navigation::Item#traverse`
-[takahashim]: https://github.com/takahashim
-### 0.1.5
-* Add `ContentDocument::XHTML#title`
-* Add `Manifest::Item#xhtml?`
-* Add `--words` and `--char` options to `epubinfo` command
-* API change: `OCF::Container::Rootfile#full_path` became Addressable::URI object rather than `String`
-* Add `ContentDocument::XHTML#rexml` and `#nokogiri`
-* Inspect more readably
 See {file:CHANGELOG.markdown} for older changelogs and details.
 TODOS

data/Rakefile CHANGED Viewed

@@ -51,18 +51,5 @@ namespace :doc do
 end
 namespace :gem do
-  desc "Build epub-parser-#{EPUB::Parser::VERSION}.gem into the pkg directory."
-  task :build do
-    Bundler::GemHelper.new.build_gem
-  end
-  desc "Build and install epub-parser-#{EPUB::Parser::VERSION}.gem into system gems."
-  task :install do
-    Bundler::GemHelper.new.install_gem
-  end
-  desc "Create tag v#{EPUB::Parser::VERSION} and build and push epub-parser-#{EPUB::Parser::VERSION}.gem to Rubygems"
-  task :release => :test do
-    Bundler::GemHelper.new.release_gem
-  end
+  Bundler::GemHelper.install_tasks
 end

data/docs/Home.markdown CHANGED Viewed

@@ -56,7 +56,7 @@ And {EPUB::Publication::Package::Manifest::Item Item} provides syntax suger {EPU
 For several utilities of Item, see {file:docs/Item.markdown} page.
-By the way, although `book` above is a {EPUB::Book} object, all features are provided by {EPUB} module. Therefore YourBook class can include the features of {EPUB}:
+By the way, although `book` above is a {EPUB::Book} object, all features are provided by {EPUB::Book::Features} module. Therefore YourBook class can include the features of {EPUB::Book::Features}:
     require 'epub'
@@ -99,7 +99,7 @@ More documentations are avaiable in:
 Requirements
 ------------
-* Ruby 1.9.3 or later
+* Ruby 2.0.0 or later
 * C compiler to compile Zip/Ruby and Nokogiri
 Note

data/docs/Searcher.markdown CHANGED Viewed

@@ -10,35 +10,35 @@ Example
     epub = EPUB::Parser.parse('childrens-literature-20130206.epub')
     search_word = 'INTRODUCTORY'
-    results = EPUB::Searcher.search(epub.package, search_word)
-    # => [#<EPUB::Searcher::Result:0x007f74d2b31548
-    #   @end_steps=[#<EPUB::Searcher::Result::Step:0x007f74d2b7baa8 @index=12, @type=:character>],
+    results = EPUB::Searcher.search(epub, search_word)
+    # => [#<EPUB::Searcher::Result:0x007f938ed517a8
+    #   @end_steps=[#<EPUB::Searcher::Result::Step:0x007f938ed51a50 @index=12, @info={}, @type=:character>],
     #   @parent_steps=
-    #    [#<EPUB::Searcher::Result::Step:0x007f74d2b81318 @index=2, @name="spine", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7f4c8 @index=1, @type=:itemref>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7d560 @index=1, @name="body", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7d308 @index=0, @name="nav", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7cdb8 @index=1, @name="ol", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7cb38 @index=0, @name="li", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7c5e8 @index=1, @name="ol", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7bf80 @index=1, @name="li", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7bd28 @index=0, @name="a", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b7bb70 @index=0, @type=:text>],
-    #   @start_steps=[#<EPUB::Searcher::Result::Step:0x007f74d2b7baf8 @index=0, @type=:character>]>,
-    #  #<EPUB::Searcher::Result:0x007f74d294e258
-    #   @end_steps=[#<EPUB::Searcher::Result::Step:0x007f74d2b0f8d0 @index=12, @type=:character>],
+    #    [#<EPUB::Searcher::Result::Step:0x007f938f1c1e78 @index=2, @info={:name=>"spine", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938f1caa78 @index=1, @info={:id=>nil}, @type=:itemref>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed521d0 @index=1, @info={:name=>"body", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed52158 @index=0, @info={:name=>"nav", :id=>"toc"}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed52108 @index=1, @info={:name=>"ol", :id=>"tocList"}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed52090 @index=0, @info={:name=>"li", :id=>"np-313"}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed52040 @index=1, @info={:name=>"ol", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed51ff0 @index=1, @info={:name=>"li", :id=>"np-317"}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed51f78 @index=0, @info={:name=>"a", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed51f28 @index=0, @info={}, @type=:text>],
+    #   @start_steps=[#<EPUB::Searcher::Result::Step:0x007f938ed51e88 @index=0, @info={}, @type=:character>]>,
+    #  #<EPUB::Searcher::Result:0x007f938ef8f5d8
+    #   @end_steps=[#<EPUB::Searcher::Result::Step:0x007f938ef8f808 @index=12, @info={}, @type=:character>],
     #   @parent_steps=
-    #    [#<EPUB::Searcher::Result::Step:0x007f74d2b81318 @index=2, @name="spine", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b314f8 @index=2, @type=:itemref>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b2fb80 @index=1, @name="body", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b2f900 @index=0, @name="section", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b10578 @index=3, @name="section", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b0fb50 @index=1, @name="h3", @type=:element>,
-    #     # #<EPUB::Searcher::Result::Step:0x007f74d2b0f998 @index=0, @type=:text>],
-    #   @start_steps=[#<EPUB::Searcher::Result::Step:0x007f74d2b0f920 @index=0, @type=:character>]>]
+    #    [#<EPUB::Searcher::Result::Step:0x007f938f1c1e78 @index=2, @info={:name=>"spine", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ed51730 @index=2, @info={:id=>nil}, @type=:itemref>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ef8fce0 @index=1, @info={:name=>"body", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ef8fc90 @index=0, @info={:name=>"section", :id=>"pgepubid00492"}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ef8fc40 @index=3, @info={:name=>"section", :id=>"pgepubid00498"}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ef8fbf0 @index=1, @info={:name=>"h3", :id=>nil}, @type=:element>,
+    #     #<EPUB::Searcher::Result::Step:0x007f938ef8fb28 @index=0, @info={}, @type=:text>],
+    #   @start_steps=[#<EPUB::Searcher::Result::Step:0x007f938ef8fa88 @index=0, @info={}, @type=:character>]>]
     puts results.collect(&:to_cfi_s)
-    # /6/4!/4/2/4/2/4/4/2/1,:0,:12
-    # /6/6!/4/2/8/4/1,:0,:12
+    # /6/4!/4/2[toc]/4[tocList]/2[np-313]/4/4[np-317]/2/1,:0,:12
+    # /6/6!/4/2[pgepubid00492]/8[pgepubid00498]/4/1,:0,:12
     # => nil
 Search result
@@ -46,10 +46,26 @@ Search result
 Search result is an array of {EPUB::Searcher::Result} and it may be converted to an EPUBCFI string by {EPUB::Searcher::Result#to_cfi_s}.
+Seamless XHTML Searcher
+-----------------------
+Now default searcher for XHTML is *seamless* searcher, which ignores tags when searching.
+You can search words 'search word' from XHTML document below:
+    <html>
+      <head>
+        <title>Sample document</title>
+      </head>
+      <body>
+        <p><em>search</em> word</p>
+      </body>
+    </html>
 Restricted XHTML Searcher
 -------------------------
-Now searcher for XHTML documents is *restricted*, which means that it can search from only single elements. For instance, it can find 'search word' from XHTML document below:
+You can also use *restricted* searcher, which means that it can search from only single elements. For instance, it can find 'search word' from XHTML document below:
     <html>
       <head>
@@ -72,3 +88,7 @@ But cannot from document below:
     </html>
 because the words 'search' and 'word' are not in the same element.
+To use restricted searcher, specify `algorithm` option for `search` method:
+    results = EPUB::Searcher.search(epub, search_word, algorithm: :restricted)

data/epub-parser.gemspec CHANGED Viewed

@@ -11,8 +11,7 @@ Gem::Specification.new do |s|
   s.summary     = %q{EPUB 3 Parser}
   s.description = %q{Parse EPUB 3 book loosely}
   s.license     = 'MIT'
-  # s.rubyforge_project = "epub-parser"
+  s.required_ruby_version = '> 2'
   s.files         = `git ls-files`.split("\n")
                     .push('test/fixtures/book/OPS/ルートファイル.opf')
@@ -38,13 +37,11 @@ Gem::Specification.new do |s|
   s.add_development_dependency 'gem-man'
   s.add_development_dependency 'ronn'
   s.add_development_dependency 'epzip'
-  s.add_development_dependency 'epubcheck'
-  s.add_development_dependency 'epub_validator'
   s.add_development_dependency 'aruba'
-  s.add_runtime_dependency 'enumerabler'
   s.add_runtime_dependency 'zipruby'
   s.add_runtime_dependency 'nokogiri', '~> 1.6'
+  s.add_runtime_dependency 'nokogumbo'
   s.add_runtime_dependency 'addressable', '>= 2.3.5'
-  s.add_runtime_dependency 'rchardet'
+  s.add_runtime_dependency 'rchardet', '< 1.6'
 end

data/lib/epub.rb CHANGED Viewed

@@ -3,12 +3,3 @@ require 'epub/ocf'
 require 'epub/publication'
 require 'epub/content_document'
 require 'epub/book/features'
-module EPUB
-  class << self
-    def included(base)
-      warn 'Including EPUB module is deprecated. Include EPUB::Book::Features instead.'
-      base.__send__ :include, EPUB::Book::Features
-    end
-  end
-end

data/lib/epub/book/features.rb CHANGED Viewed

@@ -17,7 +17,7 @@ module EPUB
         end
       end
-      %w[ title main_title subtitle short_title collection_title edition_title extended_title description date unique_identifier ].each do |met|
+      %w[title main_title subtitle short_title collection_title edition_title extended_title description date unique_identifier].each do |met|
         define_method met do
           metadata.__send__(met)
         end
@@ -25,7 +25,7 @@ module EPUB
       %w[nav].each do |met|
         define_method met do
-          manifest.__send__ met
+          manifest.__send__(met)
         end
       end
@@ -39,7 +39,7 @@ module EPUB
         if block_given?
           enum.each &blk
         else
-          enum
+          enum.each
         end
       end

data/lib/epub/content_document/navigation.rb CHANGED Viewed

@@ -9,20 +9,20 @@ module EPUB
       end
       def toc
-        navigations.selector {|nav| nav.type == Navigation::Type::TOC}.first
+        navigations.find(&:toc?)
       end
       def page_list
-        navigations.selector {|nav| nav.type == Nagivation::Type::PAGE_LIST}.first
+        navigations.find(&:page_list?)
       end
       def landmarks
-        navigations.selector {|nav| nav.type == Navigation::Type::LANDMARKS}.first
+        navigations.find(&:landmarks?)
       end
       # Enumerator version of toc
-      #  Usage: nagivation.enum_for(:contents)
       def contents
+        enum_for(:each_content).to_a
       end
       # Enumerator version of page_list
@@ -30,8 +30,13 @@ module EPUB
       def pages
       end
+      # @todo Enumerator version of landmarks
       # iterator for #toc
       def each_content
+        toc.traverse do |content, _|
+          yield content
+        end
       end
       # iterator for #page_list
@@ -89,6 +94,12 @@ module EPUB
         alias navigations= items=
         alias heading text
         alias heading= text=
+        %w[toc page_list landmarks].each do |type|
+          define_method "#{type}?" do
+            type == Type.const_get(type.upcase)
+          end
+        end
       end
       class ItemList < Array

data/lib/epub/content_document/xhtml.rb CHANGED Viewed

@@ -34,7 +34,8 @@ module EPUB
       # @return [Nokogiri::XML::Document] content as Nokogiri::XML::Document object
       def nokogiri
-        @nokogiri ||= Nokogiri.XML(raw_document)
+        require 'nokogumbo'
+        @nokogiri ||= Nokogiri.HTML5(raw_document)
       end
     end
   end

data/lib/epub/parser/content_document.rb CHANGED Viewed

@@ -87,7 +87,7 @@ module EPUB
             item.text = extract_attribute(a_or_span, 'title').to_s if item.text.nil? || item.text.empty?
           end
           item.href = Addressable::URI.parse(extract_attribute(a_or_span, 'href'))
-          item.item = @item.manifest.items.selector {|it| it.href.request_uri == item.href.request_uri}.first
+          item.item = @item.manifest.items.find {|it| it.href.request_uri == item.href.request_uri}
         end
         item.items = element.xpath('./xhtml:ol[1]/xhtml:li', EPUB::NAMESPACES).map {|li| parse_navigation_item(li)}

data/lib/epub/parser/publication.rb CHANGED Viewed

@@ -55,7 +55,7 @@ module EPUB
         }
         metadata.titles = extract_model(elem, id_map, './dc:title', :Title)
         metadata.languages = extract_model(elem, id_map, './dc:language', :DCMES, %w[id])
-        %w[ contributor coverage creator date description format publisher relation source subject type ].each do |dcmes|
+        %w[contributor coverage creator date description format publisher relation source subject type].each do |dcmes|
           metadata.__send__ "#{dcmes}s=", extract_model(elem, id_map, "./dc:#{dcmes}")
         end
         metadata.rights = extract_model(elem, id_map, './dc:rights')
@@ -82,7 +82,7 @@ module EPUB
         fallback_map = {}
         elem.xpath('./opf:item', EPUB::NAMESPACES).each do |e|
           item = EPUB::Publication::Package::Manifest::Item.new
-          %w[ id media-type media-overlay ].each do |attr|
+          %w[id media-type media-overlay].each do |attr|
             item.__send__ "#{attr.gsub(/-/, '_')}=", extract_attribute(e, attr)
           end
           item.href = Addressable::URI.parse(extract_attribute(e, 'href'))
@@ -102,13 +102,13 @@ module EPUB
       def parse_spine
         spine = @package.spine = EPUB::Publication::Package::Spine.new
         elem = @doc.xpath('/opf:package/opf:spine', EPUB::NAMESPACES).first
-        %w[ id toc page-progression-direction ].each do |attr|
+        %w[id toc page-progression-direction].each do |attr|
           spine.__send__ "#{attr.gsub(/-/, '_')}=", extract_attribute(elem, attr)
         end
         elem.xpath('./opf:itemref', EPUB::NAMESPACES).each do |e|
           itemref = EPUB::Publication::Package::Spine::Itemref.new
-          %w[ idref id ].each do |attr|
+          %w[idref id].each do |attr|
             itemref.__send__ "#{attr}=", extract_attribute(e, attr)
           end
           itemref.linear = (extract_attribute(e, 'linear') != 'no')
@@ -124,7 +124,7 @@ module EPUB
         guide = @package.guide = EPUB::Publication::Package::Guide.new
         @doc.xpath('/opf:package/opf:guide/opf:reference', EPUB::NAMESPACES).each do |ref|
           reference = EPUB::Publication::Package::Guide::Reference.new
-          %w[ type title ].each do |attr|
+          %w[type title].each do |attr|
             reference.__send__ "#{attr}=", extract_attribute(ref, attr)
           end
           reference.href = Addressable::URI.parse(extract_attribute(ref, 'href'))

data/lib/epub/parser/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 module EPUB
   class Parser
-    VERSION = "0.1.8"
+    VERSION = "0.1.9"
   end
 end

data/lib/epub/publication/package.rb CHANGED Viewed

@@ -25,7 +25,7 @@ module EPUB
         end
       end
-      attr_accessor :book,
+      attr_accessor :book,
                     :version, :prefix, :xml_lang, :dir, :id
       attr_reader *CONTENT_MODELS
       alias lang  xml_lang

data/lib/epub/publication/package/guide.rb CHANGED Viewed

@@ -1,5 +1,3 @@
-require 'enumerabler'
 module EPUB
   module Publication
     class Package
@@ -29,9 +27,9 @@ module EPUB
             return @item if @item
             request_uri = href.request_uri
-            @item = @guide.package.manifest.items.selector do |item|
+            @item = @guide.package.manifest.items.find {|item|
               item.href.request_uri == request_uri
-            end.first
+            }
           end
         end
@@ -41,7 +39,7 @@ module EPUB
             var = instance_variable_get "@#{method_name}"
             return var if var
-            var = references.selector {|ref| ref.type == type}.first
+            var = references.find {|ref| ref.type == type}
             instance_variable_set "@#{method_name}", var
           end
         end

data/lib/epub/publication/package/manifest.rb CHANGED Viewed

@@ -1,5 +1,4 @@
 require 'set'
-require 'enumerabler'
 require 'rchardet'
 require 'epub/constants'
 require 'epub/parser/content_document'
@@ -24,8 +23,18 @@ module EPUB
           self
         end
+        def each_nav
+          if block_given?
+            each_item do |item|
+              yield item if item.nav?
+            end
+          else
+            each_item.lazy.select(&:nav?)
+          end
+        end
         def navs
-          items.selector(&:nav?)
+          items.select(&:nav?)
         end
         def nav
@@ -33,12 +42,16 @@ module EPUB
         end
         def cover_image
-          items.selector(&:cover_image?).first
+          items.select(&:cover_image?).first
         end
         def each_item
-          @items.each_value do |item|
-            yield item
+          if block_given?
+            @items.each_value do |item|
+              yield item
+            end
+          else
+            @items.each_value
           end
         end

data/lib/epub/publication/package/metadata.rb CHANGED Viewed

@@ -30,7 +30,7 @@ module EPUB
           titles.sort.join("\n")
         end
-        %w[ main short collection edition extended ].each do |type|
+        %w[main short collection edition extended].each do |type|
           define_method "#{type}_title" do
             titles.select {|title| title.title_type.to_s == type}.sort.join(' ')
           end
@@ -41,7 +41,7 @@ module EPUB
         end
         def description
-          descriptions.join ' '
+          descriptions.join(' ')
         end
         def date
@@ -64,7 +64,7 @@ module EPUB
         end
         module Refinee
-          PROPERTIES = %w[ alternate-script display-seq file-as group-position identifier-type meta-auth role title-type ]
+          PROPERTIES = %w[alternate-script display-seq file-as group-position identifier-type meta-auth role title-type]
           attr_writer :refiners
@@ -76,7 +76,7 @@ module EPUB
             met = voc.gsub(/-/, '_')
             attr_writer met
             define_method met do
-              refiners.selector {|refiner| refiner.property == voc}.first
+              refiners.find {|refiner| refiner.property == voc}
             end
           end
         end

data/lib/epub/publication/package/spine.rb CHANGED Viewed

@@ -36,7 +36,7 @@ module EPUB
         # @return [Enumerator] Enumerator which yeilds {Manifest::Item}
         #   referred by each of {#itemrefs}
         def items
-          itemrefs.collector {|itemref| itemref.item}
+          itemrefs.collect {|itemref| itemref.item}
         end
         class Itemref

data/lib/epub/searcher.rb CHANGED Viewed

@@ -1,3 +1,13 @@
 require 'epub/searcher/result'
 require 'epub/searcher/publication'
 require 'epub/searcher/xhtml'
+module EPUB
+  module Searcher
+    class << self
+      def search(epub, word, **options)
+        Publication.search(epub.package, word, options)
+      end
+    end
+  end
+end

data/lib/epub/searcher/publication.rb CHANGED Viewed

@@ -4,8 +4,9 @@ module EPUB
   module Searcher
     class Publication
       class << self
-        def search(package, word)
-          new(word).search(package)
+        # @todo Use named argument in the future
+        def search(package, word, **options)
+          new(word).search(package, options)
         end
       end
@@ -13,14 +14,15 @@ module EPUB
         @word = word
       end
-      def search(package)
+      # @todo Use named argument in the future
+      def search(package, algorithm: :seamless)
         results = []
         spine = package.spine
         spine_step = Result::Step.new(:element, 2, {:name => 'spine', :id => spine.id})
         spine.each_itemref.with_index do |itemref, index|
           itemref_step = Result::Step.new(:itemref, index, {:id => itemref.id})
-          XHTML::Restricted.search(Nokogiri.XML(itemref.item.read), @word).each do |sub_result|
+          XHTML::ALGORITHMS[algorithm].search(Nokogiri.XML(itemref.item.read), @word).each do |sub_result|
             results << Result.new([spine_step, itemref_step] + sub_result.parent_steps, sub_result.start_steps, sub_result.end_steps)
           end
         end

data/lib/epub/searcher/result.rb CHANGED Viewed

@@ -1,6 +1,37 @@
 module EPUB
   module Searcher
     class Result
+      class << self
+        # @example
+        #   Result.aggregate_step_intersection([a, b, c], [a, b, d]) # => [[a, b], [c], [d]]
+        # @example
+        #   Result.aggregate_step_intersection([a, b, c], [a, d, c]) # => [[a], [b, c], [d, c]]
+        #   # Note that c here is not included in the first element of returned value.
+        # @param steps1 [Array<Step>, Array<Array>]
+        # @param steps2 [Array<Step>, Array<Array>]
+        # @return [Array<Array<Array>>] Thee arrays:
+        #   1. "intersection" of +steps1+ and +steps2+. "intersection" here is not the term of mathmatics
+        #   2. remaining steps of +steps1+
+        #   3. remaining steps of +steps2+
+        def aggregate_step_intersection(steps1, steps2)
+          intersection = []
+          steps1_remaining = []
+          steps2_remaining = []
+          broken = false
+          steps1.zip steps2 do |step1, step2|
+            broken = true unless step1 && step2 && step1 == step2
+            if broken
+              steps1_remaining << step1 unless step1.nil?
+              steps2_remaining << step2 unless step2.nil?
+            else
+              intersection << step1
+            end
+          end
+          [intersection, steps1_remaining, steps2_remaining]
+        end
+      end
       attr_reader :parent_steps, :start_steps, :end_steps
       # @param parent_steps [Array<Step>] common steps between start and end

data/lib/epub/searcher/xhtml.rb CHANGED Viewed

@@ -4,36 +4,38 @@ require 'epub/parser/utils'
 module EPUB
   module Searcher
     class XHTML
-      class Restricted
-        class << self
-          # @param element [Nokogiri::XML::Element, Nokogiri::XML::Document]
-          # @param word [String]
-          # @return [Array<Result>]
-          def search(element, word)
-            new(word).search(element.respond_to?(:root) ? element.root : element)
-          end
-        end
+      ALGORITHMS = {}
+      class << self
+        # @param element [Nokogiri::XML::Element, Nokogiri::XML::Document]
         # @param word [String]
-        def initialize(word)
-          @word = word
+        # @return [Array<Result>]
+        def search(element, word)
+          new(element.respond_to?(:root) ? element.root : element).search(word)
         end
+      end
+      # @param word [String]
+      def initialize(element)
+        @element = element
+      end
+      class Restricted < self
         # @param element [Nokogiri::XML::Element]
         # @return [Array<Result>]
-        def search(element)
+        def search(word, element=nil)
           results = []
           elem_index = 0
-          element.children.each do |child|
+          (element || @element).children.each do |child|
             if child.element?
               child_step = Result::Step.new(:element, elem_index, {:name => child.name, :id => Parser::Utils.extract_attribute(child, 'id')})
               if child.name == 'img'
-                if Parser::Utils.extract_attribute(child, 'alt').index(@word)
+                if Parser::Utils.extract_attribute(child, 'alt').index(word)
                   results << Result.new([child_step], nil, nil)
                 end
               else
-                search(child).each do |sub_result|
+                search(word, child).each do |sub_result|
                   results << Result.new([child_step] + sub_result.parent_steps, sub_result.start_steps, sub_result.end_steps)
                 end
               end
@@ -42,8 +44,8 @@ module EPUB
               text_index = elem_index
               char_index = 0
               text_step = Result::Step.new(:text, text_index)
-              while char_index = child.text.index(@word, char_index)
-                results << Result.new([text_step], [Result::Step.new(:character, char_index)], [Result::Step.new(:character, char_index + @word.length)])
+              while char_index = child.text.index(word, char_index)
+                results << Result.new([text_step], [Result::Step.new(:character, char_index)], [Result::Step.new(:character, char_index + word.length)])
                 char_index += 1
               end
             end
@@ -52,6 +54,100 @@ module EPUB
           results
         end
       end
+      ALGORITHMS[:restricted] = Restricted
+      class Seamless < self
+        def search(word)
+          unless @indices
+            @indices, @content = build_indices(@element)
+          end
+          visit(@indices, @content, word)
+        end
+        def build_indices(element)
+          indices = {}
+          content = ''
+          elem_index = 0
+          element.children.each do |child|
+            if child.element?
+              child_step = [:element, elem_index, {:name => child.name, :id => Parser::Utils.extract_attribute(child, 'id')}]
+              elem_index += 1
+              if child.name == 'img'
+                alt = Parser::Utils.extract_attribute(child, 'alt')
+                next if alt.nil? || alt.empty?
+                indices[content.length] = [child_step]
+                content << alt
+              else
+                # TODO: Consider block level elements
+                content_length = content.length
+                sub_indices, sub_content = build_indices(child)
+                sub_indices.each_pair do |sub_pos, child_steps|
+                  indices[content_length + sub_pos] = [child_step] + child_steps
+                end
+                content << sub_content
+              end
+            elsif child.text? || child.cdata?
+              text_index = elem_index
+              text_step = [:text, text_index]
+              indices[content.length] = [text_step]
+              content << child.content
+            end
+          end
+          [indices, content]
+        end
+        private
+        def visit(indices, content, word)
+          results = []
+          offsets = indices.keys
+          i = 0
+          while i = content.index(word, i)
+            offset = find_offset(offsets, i)
+            start_steps = to_result_steps(indices[offset])
+            last_step = start_steps.last
+            if last_step.info[:name] == 'img'
+              parent_steps = start_steps
+              start_steps = end_steps = nil
+            else
+              word_length = word.length
+              start_char_step = Result::Step.new(:character, i - offset)
+              end_offset = find_offset(offsets, i + word_length, true)
+              end_steps = to_result_steps(indices[end_offset])
+              end_char_step = Result::Step.new(:character, i + word_length - end_offset)
+              parent_steps, start_steps, end_steps = Result.aggregate_step_intersection(start_steps, end_steps)
+              start_steps << start_char_step
+              end_steps << end_char_step
+            end
+            results << Result.new(parent_steps, start_steps, end_steps)
+            i += 1
+          end
+          results
+        end
+        # Find max offset greater than or equal to index
+        # @param offsets [Array<Integer>] keys of indices
+        # @param index [Integer] position of search word in content string
+        # @todo: more efficient algorithm
+        def find_offset(offsets, index, for_end_position=false)
+          comparison_operator = for_end_position ? :< : :<=
+          l = offsets.length
+          offset_index = (0..l).bsearch {|i|
+            o = offsets[l - i]
+            next false unless o
+            o.send(comparison_operator, index)
+          }
+          offsets[l - offset_index]
+        end
+        def to_result_steps(steps)
+          steps.map {|step| Result::Step.new(*step)}
+        end
+      end
+      ALGORITHMS[:seamless] = Seamless
     end
   end
 end

data/test/test_content_document.rb CHANGED Viewed

@@ -52,6 +52,27 @@ class TestContentDocument < Test::Unit::TestCase
   end
   class TestNavigationDocument < self
+    def test_toc_returns_nav_with_type_toc
+      navigation = Navigation.new
+      toc = Navigation::Navigation.new.tap {|nav| nav.type = 'toc'}
+      navigation.navigations << toc
+      assert_same toc, navigation.toc
+    end
+    def test_contents_returns_items_of_toc
+      manifest = EPUB::Publication::Package::Manifest.new
+      item = EPUB::Publication::Package::Manifest::Item.new
+      item.media_type = 'application/xhtml+xml'
+      item.properties = %w[nav]
+      item.href = Addressable::URI.parse('nav.xhtml')
+      stub(item).read {File.read(File.expand_path('../fixtures/book/OPS/nav.xhtml', __FILE__))}
+      manifest << item
+      nav_doc = EPUB::Parser::ContentDocument.new(item).parse
+      assert_equal ['Table of Contents', '一ページ目', '二ページ目', '第一節', '第二節', '第三節', '第四節'], nav_doc.contents.collect(&:text)
+    end
     def test_item_hidden_returns_true_when_it_has_some_value
       item = Navigation::Item.new.tap {|item| item.hidden = ''}
       assert_true item.hidden?

data/test/test_inspect.rb CHANGED Viewed

@@ -45,7 +45,7 @@ class TestInspect < Test::Unit::TestCase
         title.content = 'Book Title'
         @metadata.titles << title
-        title_pattern = RUBY_VERSION >= '2.0' ? '@dc_titles=[#<EPUB::Publication::Package::Metadata::Title' : 'Book Title'
+        title_pattern = '@dc_titles=[#<EPUB::Publication::Package::Metadata::Title'
         assert_match title_pattern, @metadata.inspect
       end

data/test/test_publication.rb CHANGED Viewed

@@ -23,14 +23,14 @@ class TestPublication < Test::Unit::TestCase
       refiner = Package::Metadata::Meta.new
       refinee = Package::Metadata::Meta.new
       refiner.refines = refinee
-      assert_same refinee.refiners.first, refiner
+      assert_same refinee.refiners.first, refiner
     end
     def test_link_refines_setter_connect_refinee_to_the_link
       refiner = Package::Metadata::Link.new
       refinee = Package::Metadata::Meta.new
       refiner.refines = refinee
-      assert_same refinee.refiners.first, refiner
+      assert_same refinee.refiners.first, refiner
     end
     def test_title_returns_extended_title_when_it_exists
@@ -184,6 +184,59 @@ class TestPublication < Test::Unit::TestCase
   class TestManifest < TestPublication
     include EPUB::Publication
+    def setup
+      @manifest = EPUB::Publication::Package::Manifest.new
+      @nav1 = EPUB::Publication::Package::Manifest::Item.new
+      @nav1.id = 'nav1'
+      @nav1.properties = %w[nav]
+      @nav2 = EPUB::Publication::Package::Manifest::Item.new
+      @nav2.id = 'nav2'
+      @nav2.properties = %w[nav]
+      @item = EPUB::Publication::Package::Manifest::Item.new
+      @item.id = 'item'
+      @cover_image = EPUB::Publication::Package::Manifest::Item.new
+      @cover_image.id = 'cover-image'
+      @cover_image.properties = %w[cover-image]
+      @manifest << @nav1 << @item << @nav2 << @cover_image
+    end
+    def test_each_item_returns_enumerator_when_no_block_given
+      assert_instance_of Enumerator, @manifest.each_item
+    end
+    def test_each_nav_iterates_over_items_with_nav_property
+      navs = [@nav1, @nav2]
+      i = 0
+      @manifest.each_nav do |nav|
+        assert_same navs[i], nav
+        i += 1
+      end
+    end
+    def test_each_nav_returns_iterable_object_when_no_block_given
+      navs = [@nav1, @nav2]
+      assert_respond_to @manifest.each_nav, :each
+      @manifest.each_nav.with_index do |nav, i|
+        assert_same navs[i], nav
+      end
+    end
+    def test_navs_iterates_over_items_with_nav_property
+      navs = [@nav1, @nav2]
+      @manifest.navs.each_with_index do |nav, i|
+        assert_same navs[i], nav
+      end
+    end
+    def test_nav_returns_first_item_with_nav_property
+      assert_same @nav1, @manifest.nav
+    end
+    def test_cover_image_returns_item_with_cover_image_property
+      assert_same @cover_image, @manifest.cover_image
+    end
     class TestItem < TestManifest
       def test_content_document_returns_nil_when_not_xhtml_nor_svg
         item = EPUB::Publication::Package::Manifest::Item.new

data/test/test_searcher.rb CHANGED Viewed

@@ -46,36 +46,61 @@ class TestSearcher < Test::Unit::TestCase
       @nav = @doc.search('nav').first
     end
-    def test_no_result
-      assert_empty EPUB::Searcher::XHTML::Restricted.search(@h1, 'no result')
-    end
+    module TestSearch
+      def test_no_result
+        assert_empty @searcher.search(@h1, 'no result')
+      end
-    def test_simple
-      assert_equal results([[[[:text, 0]], [[:character, 9]], [[:character, 16]]]]), EPUB::Searcher::XHTML::Restricted.search(@h1, 'Content')
-    end
+      def test_simple
+        assert_equal results([[[[:text, 0]], [[:character, 9]], [[:character, 16]]]]), @searcher.search(@h1, 'Content')
+      end
-    def test_multiple_text_result
-      assert_equal results([[[[:text, 0]], [[:character, 6]], [[:character, 7]]], [[[:text, 0]], [[:character, 10]], [[:character, 11]]]]), EPUB::Searcher::XHTML::Restricted.search(@h1, 'o')
-    end
+      def test_multiple_text_result
+        assert_equal results([[[[:text, 0]], [[:character, 6]], [[:character, 7]]], [[[:text, 0]], [[:character, 10]], [[:character, 11]]]]), @searcher.search(@h1, 'o')
+      end
-    def test_text_after_element
-      elem = Nokogiri.XML('<root><elem>inner</elem>after</root>')
+      def test_text_after_element
+        elem = Nokogiri.XML('<root><elem>inner</elem>after</root>')
-      assert_equal results([[[[:text, 1]], [[:character, 0]], [[:character, 5]]]]), EPUB::Searcher::XHTML::Restricted.search(elem, 'after')
-    end
+        assert_equal results([[[[:text, 1]], [[:character, 0]], [[:character, 5]]]]), @searcher.search(elem, 'after')
+      end
-    def test_entity_reference
-      elem = Nokogiri.XML('<root>before&lt;after</root>')
+      def test_entity_reference
+        elem = Nokogiri.XML('<root>before&lt;after</root>')
-      assert_equal results([[[[:text, 0]], [[:character, 6]], [[:character, 7]]]]), EPUB::Searcher::XHTML::Restricted.search(elem, '<')
+        assert_equal results([[[[:text, 0]], [[:character, 6]], [[:character, 7]]]]), @searcher.search(elem, '<')
+      end
+      def test_nested_result
+        assert_equal results([[[[:element, 1, {:name => 'ol', :id => nil}], [:element, 1, {:name => 'li', :id => nil}], [:element, 1, {:name => 'ol', :id => nil}], [:element, 1, {:name => 'li', :id => nil}], [:element, 0, {:name => 'a', :id => nil}], [:text, 0]], [[:character, 0]], [[:character, 3]]]]), @searcher.search(@nav, '第二節')
+      end
+      def test_img
+        assert_equal [result([[[:element, 1, {:name => 'ol', :id => nil}], [:element, 1, {:name => 'li', :id => nil}], [:element, 1, {:name => 'ol', :id => nil}], [:element, 2, {:name => 'li', :id => nil}], [:element, 0, {:name => 'a', :id => nil}], [:element, 0, {:name => 'img', :id => nil}]], nil, nil])], @searcher.search(@nav, '第三節')
+      end
     end
-    def test_nested_result
-      assert_equal results([[[[:element, 1, {:name => 'ol', :id => nil}], [:element, 1, {:name => 'li', :id => nil}], [:element, 1, {:name => 'ol', :id => nil}], [:element, 1, {:name => 'li', :id => nil}], [:element, 0, {:name => 'a', :id => nil}], [:text, 0]], [[:character, 0]], [[:character, 3]]]]), EPUB::Searcher::XHTML::Restricted.search(@nav, '第二節')
+    class TestRestricted < self
+      include TestSearch
+      def setup
+        super
+        @searcher = EPUB::Searcher::XHTML::Restricted
+      end
     end
-    def test_img
-      assert_equal [result([[[:element, 1, {:name => 'ol', :id => nil}], [:element, 1, {:name => 'li', :id => nil}], [:element, 1, {:name => 'ol', :id => nil}], [:element, 2, {:name => 'li', :id => nil}], [:element, 0, {:name => 'a', :id => nil}], [:element, 0, {:name => 'img', :id => nil}]], nil, nil])], EPUB::Searcher::XHTML::Restricted.search(@nav, '第三節')
+    class TestSeamless < self
+      include TestSearch
+      def setup
+        super
+        @searcher = EPUB::Searcher::XHTML::Seamless
+      end
+      def test_seamless
+        elem = Nokogiri.XML('<root>This <em>includes</em> a child element.</root>')
+        assert_equal results([[[], [[:text, 0], [:character, 0]], [[:text, 1], [:character, 17]]]]), @searcher.search(elem, 'This includes a child element.')
+      end
     end
     class TestResult < self

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: epub-parser
 version: !ruby/object:Gem::Version
-  version: 0.1.8
+  version: 0.1.9
 platform: ruby
 authors:
 - KITAITI Makoto
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-10-06 00:00:00.000000000 Z
+date: 2015-06-09 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rake
@@ -179,21 +179,7 @@ dependencies:
       - !ruby/object:Gem::Version
         version: '0'
 - !ruby/object:Gem::Dependency
-  name: epubcheck
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-- !ruby/object:Gem::Dependency
-  name: epub_validator
+  name: aruba
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
@@ -207,13 +193,13 @@ dependencies:
       - !ruby/object:Gem::Version
         version: '0'
 - !ruby/object:Gem::Dependency
-  name: aruba
+  name: zipruby
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
-  type: :development
+  type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
@@ -221,21 +207,21 @@ dependencies:
       - !ruby/object:Gem::Version
         version: '0'
 - !ruby/object:Gem::Dependency
-  name: enumerabler
+  name: nokogiri
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
+    - - "~>"
       - !ruby/object:Gem::Version
-        version: '0'
+        version: '1.6'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
+    - - "~>"
       - !ruby/object:Gem::Version
-        version: '0'
+        version: '1.6'
 - !ruby/object:Gem::Dependency
-  name: zipruby
+  name: nokogumbo
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
@@ -248,20 +234,6 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
-- !ruby/object:Gem::Dependency
-  name: nokogiri
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - "~>"
-      - !ruby/object:Gem::Version
-        version: '1.6'
-  type: :runtime
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - "~>"
-      - !ruby/object:Gem::Version
-        version: '1.6'
 - !ruby/object:Gem::Dependency
   name: addressable
   requirement: !ruby/object:Gem::Requirement
@@ -280,16 +252,16 @@ dependencies:
   name: rchardet
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
+    - - "<"
       - !ruby/object:Gem::Version
-        version: '0'
+        version: '1.6'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
+    - - "<"
       - !ruby/object:Gem::Version
-        version: '0'
+        version: '1.6'
 description: Parse EPUB 3 book loosely
 email:
 - KitaitiMakoto@gmail.com
@@ -395,9 +367,9 @@ require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
   requirements:
-  - - ">="
+  - - ">"
     - !ruby/object:Gem::Version
-      version: '0'
+      version: '2'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
@@ -405,7 +377,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.2.2
+rubygems_version: 2.4.6
 signing_key:
 specification_version: 4
 summary: EPUB 3 Parser