RubyGems - wp2txt - Versions diffs - 0.7.0 → 0.7.5 - Mend

wp2txt 0.7.0 → 0.7.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 80f68e6c1ac855160575f85f4d78ca378f0a1c2b
-  data.tar.gz: 16bbac80e7139ea63dd46baf54fb5deaf0840e59
+  metadata.gz: 911e08e181a6bedb664b797d49183d0988daeba5
+  data.tar.gz: 076d1349a8aa8cf454dac42bdce7b89a82f3fca0
 SHA512:
-  metadata.gz: 004d26fa39aae4eb194858cf85ae8aad33f65dc556a08bbfc499ead05d49e70af4f5ba5e708354aa816cd6b38d8e9860866cefa7d6c0730058e9a186ff9eec31
-  data.tar.gz: c2523b8afeab165c37de028eedff36e719a2472f9440469e4041c342b08463d439351a89523d959ff28d53364c76a2af44502113bb2084eacbbc8ac14306f8a4
+  metadata.gz: 4ebc035e4f1635f150294d8b79eb474457a280707a416688f3e7712bb7788d15888b6718bfd6f4e3a790e6fb8a7623e1415255fde913bfe658dd237fa7f599cd
+  data.tar.gz: ccee00a9e1b85186d52d0b3c07b52c04fff1ecd133ff245010943312cf37e279874b5f3a757880c005ad877e957df6a4176af2269f40b3c3210951530eb4c511

data/bin/benchmark.rb CHANGED

@@ -22,12 +22,13 @@ Benchmark.bm do |x|
   x.report do
     wpconv = Wp2txt::Runner.new(parent, input_file, output_dir, tfile_size, convert, strip_tmarker)
     wpconv.extract_text do |article|
-      title = format_wiki! article.title
-      title = "[[#{title}]]\n"
+      format_wiki!(article.title)
+      title = "[[#{article.title}]]\n"
+      convert_characters!(title)
-        contents = "\nCATEGORIES: "
-        contents += article.categories.join(", ")
-        contents += "\n\n"
+      contents = "\nCATEGORIES: "
+      contents += article.categories.join(", ")
+      contents += "\n\n"
       article.elements.each do |e|
         case e.first
@@ -55,10 +56,11 @@ Benchmark.bm do |x|
         else
           next
         end
-        contents += line
-        remove_templates!(contents)
+        contents << line
       end
+      format_article!(contents)
+      convert_characters!(contents)
       ##### cleanup #####
       if /\A\s*\z/m =~ contents
         result = ""

data/bin/wp2txt CHANGED

@@ -50,6 +50,7 @@ convert = opts[:convert]
 strip_tmarker = opts[:marker] ? false : true
 opt_array = [:title, :list, :heading, :table, :redirect]
 $leave_template = true if opts[:template]
+$leave_table = true if opts[:table]
 config = {}
 opt_array.each do |opt|
   config[opt] = opts[opt]
@@ -61,6 +62,7 @@ wpconv = Wp2txt::Runner.new(parent, input_file, output_dir, tfile_size, convert,
 wpconv.extract_text do |article|
   format_wiki!(article.title)
   title = "[[#{article.title}]]\n"
+  convert_characters!(title)
   if opts[:category] && !article.categories.empty?
     contents = "\nCATEGORIES: "
@@ -118,18 +120,8 @@ wpconv.extract_text do |article|
     end
     contents << line
   end
-  remove_directive!(contents)
-  remove_emphasis!(contents)
-  mndash!(contents)
-  make_reference!(contents)
-  format_ref!(contents)
-  remove_hr!(contents)
-  remove_tag!(contents)
-  special_chr!(contents)
-  correct_inline_template!(contents) unless $leave_template
-  remove_templates!(contents) unless $leave_template
+  format_article!(contents)
+  convert_characters!(contents)
   ##### cleanup #####
   if /\A\s*\z/m =~ contents

data/error_log.txt ADDED

	@@ -0,0 +1 @@
1	+ [[アンパサンド]]

data/lib/wp2txt/utils.rb CHANGED

@@ -3,6 +3,7 @@
 require 'strscan'
 require 'find'
+require 'htmlentities'
 ###################################################
 # global variables to save resource for generating regexps
@@ -10,6 +11,12 @@ require 'find'
 # those with a trailing number 2 represent closing tag/markup
 # those without a trailing number contain both opening/closing tags/markups
+$html_decoder = HTMLEntities.new
+$entities = ['&nbsp;', '&lt;', '&gt;', '&amp;', '&quot;'].zip([' ', '<', '>', '&', '"'])
+$html_hash  = Hash[*$entities.flatten]
+$html_regex = Regexp.new("(" + $html_hash.keys.join("|") + ")")
 $in_template_regex = Regexp.new('^\s*\{\{[^\}]+\}\}\s*$')
 $in_link_regex = Regexp.new('^\s*\[.*\]\s*$')
@@ -43,6 +50,9 @@ $blank_line_regex = Regexp.new('^\s*$')
 $redirect_regex = Regexp.new('#(?:REDIRECT|転送)\s+\[\[(.+)\]\]', Regexp::IGNORECASE)
+$remove_tag_regex = Regexp.new("\<[^\<\>]*\>")
+$remove_directives_regex = Regexp.new("\_\_[^\_]*\_\_")
 $remove_emphasis_regex = Regexp.new('(' + Regexp.escape("''") + '+)(.+?)\1')
 $chrref_to_utf_regex = Regexp.new('&#(x?)([0-9a-fA-F]+);')
 $mndash_regex = Regexp.new('\{(mdash|ndash|–)\}')
@@ -58,8 +68,8 @@ $list_marks_regex = Regexp.new('\A[\*\#\;\:\ ]+')
 $pre_marks_regex = Regexp.new('\A\^\ ')
 $def_marks_regex = Regexp.new('\A[\;\:\ ]+')
 $onset_bar_regex = Regexp.new('\A[^\|]+\z')
-$remove_table_regex = Regexp.new('\{\|[^\{\|\}]*?\|\}', Regexp::MULTILINE)
-$remove_clade_regex = Regexp.new('\{\{(?:C|c)lade[^\{\}]*\}\}', Regexp::MULTILINE)
+# $remove_table_regex = Regexp.new('\{\|[^\{\|\}]*?\|\}', Regexp::MULTILINE)
+# $remove_clade_regex = Regexp.new('\{\{(?:C|c)lade[^\{\}]*\}\}', Regexp::MULTILINE)
 $category_patterns = ["Category", "Categoria"].join("|")
 $category_regex = Regexp.new('[\{\[\|\b](?:' + $category_patterns + ')\:(.*?)[\}\]\|\b]', Regexp::IGNORECASE)
@@ -74,22 +84,16 @@ $single_square_bracket_regex = Regexp.new("(#{Regexp.escape('[')}|#{Regexp.escap
 $double_square_bracket_regex = Regexp.new("(#{Regexp.escape('[[')}|#{Regexp.escape(']]')})", Regexp::MULTILINE)
 $single_curly_bracket_regex = Regexp.new("(#{Regexp.escape('{')}|#{Regexp.escape('}')})", Regexp::MULTILINE)
 $double_curly_bracket_regex = Regexp.new("(#{Regexp.escape('{{')}|#{Regexp.escape('}}')})", Regexp::MULTILINE)
+$curly_square_bracket_regex = Regexp.new("(#{Regexp.escape('{|')}|#{Regexp.escape('|}')})", Regexp::MULTILINE)
 ###################################################
 module Wp2txt
-  def format_wiki!(text, has_retried = false)
+  def convert_characters!(text, has_retried = false)
     begin
       text << ""
       chrref_to_utf!(text)
-      escape_nowiki!(text)
-      process_interwiki_links!(text)
-      process_external_links!(text)
-      unescape_nowiki!(text)
+      special_chr!(text)
     rescue # detect invalid byte sequence in UTF-8
       if has_retried
@@ -102,11 +106,34 @@ module Wp2txt
       else
         text.encode!("UTF-16")
         text.encode!("UTF-8")
-        format_wiki!(text, true)
+        convert_characters!(text, true)
       end
     end
   end
+  def format_wiki!(text, has_retried = false)
+    escape_nowiki!(text)
+    process_interwiki_links!(text)
+    process_external_links!(text)
+    unescape_nowiki!(text)
+  end
+  def format_article!(text)
+    remove_directive!(text)
+    remove_emphasis!(text)
+    mndash!(text)
+    make_reference!(text)
+    format_ref!(text)
+    remove_hr!(text)
+    remove_tag!(text)
+    convert_characters!(text)
+    correct_inline_template!(text) unless $leave_template
+    remove_templates!(text) unless $leave_template
+    remove_table!(text) unless $leave_table
+  end
   #################### parser for nested structure ####################
   def process_nested_structure(scanner, left, right, recur_count, &block)
@@ -120,6 +147,8 @@ module Wp2txt
       regex = $single_curly_bracket_regex
     elsif left == "{{" && right == "}}"
       regex = $double_curly_bracket_regex
+    elsif left == "{|" && right == "|}"
+      regex = $curly_square_bracket_regex
     else
       regex = Regexp.new('(#{Regexp.escape(left)}|#{Regexp.escape(right)})', Regexp::MULTILINE)
     end
@@ -154,15 +183,6 @@ module Wp2txt
   end
   #################### methods used from format_wiki ####################
-  def remove_templates!(str)
-    scanner = StringScanner.new(str)
-    result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
-      ""
-    end
-    str.replace(result)
-  end
   def escape_nowiki!(str)
     if @nowikis
       @nowikis.clear
@@ -213,80 +233,42 @@ module Wp2txt
     str.replace(result)
   end
-  def special_chr!(str)
-    unless $sp_hash
-      html = ['&nbsp;', '&lt;', '&gt;', '&amp;', '&quot;']\
-      .zip([' ', '<', '>', '&', '"'])
-      umraut_accent = ['&Agrave;', '&Aacute;', '&Acirc;', '&Atilde;', '&Auml;',
-      '&Aring;', '&AElig;', '&Ccedil;', '&Egrave;', '&Eacute;', '&Ecirc;',
-      '&Euml;', '&Igrave;', '&Iacute;', '&Icirc;', '&Iuml;', '&Ntilde;',
-      '&Ograve;', '&Oacute;', '&Ocirc;', '&Otilde;', '&Ouml;', '&Oslash;',
-      '&Ugrave;', '&Uacute;', '&Ucirc;', '&Uuml;', '&szlig;', '&agrave;',
-      '&aacute;', '&acirc;', '&atilde;', '&auml;', '&aring;', '&aelig;',
-      '&ccedil;', '&egrave;', '&eacute;', '&ecirc;', '&euml;', '&igrave;',
-      '&iacute;', '&icirc;', '&iuml;', '&ntilde;', '&ograve;', '&oacute;',
-      '&ocirc;', '&oelig;', '&otilde;', '&ouml;', '&oslash;', '&ugrave;',
-      '&uacute;', '&ucirc;', '&uuml;', '&yuml;']\
-      .zip(['À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í',
-      'Î', 'Ï', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'ß', 'à',
-      'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï',
-      'ñ', 'ò', 'ó', 'ô','œ', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ÿ'])
-      punctuation = ['&iquest;', '&iexcl;', '&laquo;', '&raquo;', '&sect;',
-      '&para;', '&dagger;', '&Dagger;', '&bull;', '&ndash;', '&mdash;']\
-      .zip(['¿', '¡', '«', '»', '§', '¶', '†', '‡', '•', '–', '—'])
-      commercial = ['&trade;', '&copy;', '&reg;', '&cent;', '&euro;', '&yen;',
-      '&pound;', '&curren;'].zip(['™', '©', '®', '¢', '€', '¥', '£', '¤'])
-      greek_chr = ['&alpha;', '&beta;', '&gamma;', '&delta;', '&epsilon;',
-      '&zeta;', '&eta;', '&theta;', '&iota;', '&kappa;', '&lambda;', '&mu;',
-      '&nu;', '&xi;', '&omicron;', '&pi;', '&rho;', '&sigma;', '&sigmaf;',
-      '&tau;', '&upsilon;', '&phi;', '&chi;', '&psi;', '&omega;', '&Gamma;',
-      '&Delta;', '&Theta;', '&Lambda;', '&Xi;', '&Pi;', '&Sigma;', '&Phi;',
-      '&Psi;', '&Omega;']\
-      .zip(['α', 'β', 'γ', 'δ', 'ε', 'ζ', 'η', 'θ', 'ι', 'κ', 'λ',
-      'μ', 'ν', 'ξ', 'ο', 'π', 'ρ', 'σ', 'ς', 'τ', 'υ', 'φ', 'χ',
-      'ψ', 'ω', 'Γ', 'Δ', 'Θ', 'Λ', 'Ξ', 'Π', 'Σ', 'Φ', 'Ψ', 'Ω'])
-      math_chr1 = ['&int;', '&sum;', '&prod;', '&radic;', '&minus;', '&plusmn;',
-      '&infin;', '&asymp;', '&prop;', '&equiv;', '&ne;', '&le;', '&ge;',
-      '&times;', '&middot;', '&divide;', '&part;', '&prime;', '&Prime;',
-      '&nabla;', '&permil;', '&deg;', '&there4;', '&oslash;', '&isin;', '&cap;',
-      '&cup;', '&sub;', '&sup;', '&sube;', '&supe;', '&not;', '&and;', '&or;',
-      '&exist;', '&forall;', '&rArr;', '&hArr;', '&rarr;', '&harr;', '&uarr;']\
-      .zip(['∫', '∑', '∏', '√', '−', '±', '∞', '≈', '∝', '≡', '≠', '≤',
-      '≥', '×', '·', '÷', '∂', '′', '″', '∇', '‰', '°', '∴', 'ø', '∈',
-      '∩', '∪', '⊂', '⊃', '⊆', '⊇', '¬', '∧', '∨', '∃', '∀', '⇒',
-      '⇔', '→', '↔', '↑'])
-      math_chr2 = ['&alefsym;', '&notin;'].zip(['ℵ', '∉'])
-      others = ['&uml;', '&ordf;',
-      '&macr;', '&acute;', '&micro;', '&cedil;', '&ordm;', '&lsquo;', '&rsquo;',
-      '&ldquo;', '&sbquo;', '&rdquo;', '&bdquo;', '&spades;', '&clubs;', '&loz;',
-      '&hearts;', '&larr;', '&diams;', '&lsaquo;', '&rsaquo;', '&darr;']\
-      .zip(['¨', 'ª', '¯', '´', 'µ', '¸', 'º', '‘', '’', '“', '‚', '”',
-      '„', '♠', '♣', '◊', '♥', '←', '♦', '‹', '›', '↓'] )
-      spc_array = html + umraut_accent + punctuation + commercial + greek_chr +
-                  math_chr1 + math_chr2 + others
-      $sp_hash  = Hash[*spc_array.flatten]
-      $sp_regex = Regexp.new("(" + $sp_hash.keys.join("|") + ")")
+  #################### methods used from format_article ####################
+  def remove_templates!(str)
+    scanner = StringScanner.new(str)
+    result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
+      ""
     end
-    #str.gsub!("&amp;"){'&'}
-    str.gsub!($sp_regex) do
-      $sp_hash[$1]
+    str.replace(result)
+  end
+  def remove_table!(str)
+    scanner = StringScanner.new(str)
+    result = process_nested_structure(scanner, "{|", "|}", $limit_recur) do |contents|
+      ""
     end
+    str.replace(result)
+  end
+  def special_chr!(str)
+    str.replace $html_decoder.decode(str)
   end
-  def remove_tag!(str, tagset = ['<', '>'])
+  def remove_inbetween!(str, tagset = ['<', '>'])
     tagsets = Regexp.quote(tagset.uniq.join(""))
     regex = /#{Regexp.escape(tagset[0])}[^#{tagsets}]*#{Regexp.escape(tagset[1])}/
     str.gsub!(regex, "")
   end
+  def remove_tag!(str)
+    str.gsub!($remove_tag_regex, "")
+  end
+  def remove_directive!(str)
+    str.gsub!($remove_directives_regex, "")
+  end
   def remove_emphasis!(str)
     str.gsub!($remove_emphasis_regex) do
       $2
@@ -311,10 +293,6 @@ module Wp2txt
     end
     return true
   end
-  def remove_directive!(str)
-    remove_tag!(str, ['__', '__'])
-  end
   def mndash!(str)
     str.gsub!($mndash_regex, "–")
@@ -364,40 +342,40 @@ module Wp2txt
   #################### methods currently unused ####################
-  def process_template(str)
-    scanner = StringScanner.new(str)
-    result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
-      parts = contents.split("|")
-      case parts.size
-      when 0
-        ""
-      when 1
-        parts.first || ""
-      else
-        if parts.last.split("=").size > 1
-          parts.first || ""
-        else
-          parts.last || ""
-        end
-      end
-    end
-    result
-  end
-  def remove_table(str)
-    new_str = str.gsub($remove_table_regex, "")
-    if str != new_str
-      new_str = remove_table(new_str)
-    end
-    new_str = remove_table(new_str) unless str == new_str
-    return new_str
-  end
+  # def process_template(str)
+  #   scanner = StringScanner.new(str)
+  #   result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
+  #     parts = contents.split("|")
+  #     case parts.size
+  #     when 0
+  #       ""
+  #     when 1
+  #       parts.first || ""
+  #     else
+  #       if parts.last.split("=").size > 1
+  #         parts.first || ""
+  #       else
+  #         parts.last || ""
+  #       end
+  #     end
+  #   end
+  #   result
+  # end
+  # def remove_table(str)
+  #   new_str = str.gsub($remove_table_regex, "")
+  #   if str != new_str
+  #     new_str = remove_table(new_str)
+  #   end
+  #   new_str = remove_table(new_str) unless str == new_str
+  #   return new_str
+  # end
-  def remove_clade(page)
-    new_page = page.gsub($remove_clade_regex, "")
-    new_page = remove_clade(new_page) unless page == new_page
-    new_page
-  end
+  # def remove_clade(page)
+  #   new_page = page.gsub($remove_clade_regex, "")
+  #   new_page = remove_clade(new_page) unless page == new_page
+  #   new_page
+  # end
   #################### file related utilities ####################

data/lib/wp2txt/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Wp2txt
-  VERSION = "0.7.0"
+  VERSION = "0.7.5"
 end

data/spec/utils_spec.rb CHANGED

@@ -44,7 +44,7 @@ describe "Wp2txt" do
   describe "special_chr!" do
     it "replaces character references with real characters" do
       str_before = "&nbsp; &lt; &gt; &amp; &quot;"
-      str_after  = "  < > & \""
+      str_after  = "  < > & \""
       special_chr!(str_before)
       expect(str_before).to eq str_after
     end
@@ -77,21 +77,22 @@ describe "Wp2txt" do
     end
   end
-  describe "remove_table" do
+  describe "remove_table!" do
     it "removes table formated parts" do
       str_before = "{| ... \n{| ... \n ...|}\n ...|}"
       str_after  = ""
-      expect(remove_table(str_before)).to eq str_after
+      remove_table!(str_before)
+      expect(str_before).to eq str_after
     end
   end
-  describe "remove_clade" do
-    it "removes clade formated parts" do
-      str_before = "\{\{clade ... \n ... \n ... \n\}\}"
-      str_after  = ""
-      expect(remove_clade(str_before)).to eq str_after
-    end
-  end
+  # describe "remove_clade" do
+  #   it "removes clade formated parts" do
+  #     str_before = "\{\{clade ... \n ... \n ... \n\}\}"
+  #     str_after  = ""
+  #     expect(remove_clade(str_before)).to eq str_after
+  #   end
+  # end
   describe "remove_hr!" do
     it "removes horizontal lines" do
@@ -102,15 +103,15 @@ describe "Wp2txt" do
     end
   end
-  describe "remove_tag!" do
-    it "removes tags" do
+  describe "remove_inbetween!" do
+    it "removes tags and its contents" do
       str_before = "<tag>abc</tag>"
       str_after  = "abc"
       remove_tag!(str_before)
       expect(str_before).to eq str_after
       str_before = "[tag]def[/tag]"
       str_after  = "def"
-      remove_tag!(str_before, ['[', ']'])
+      remove_inbetween!(str_before, ['[', ']'])
       expect(str_before).to eq str_after
     end
   end
@@ -183,34 +184,34 @@ describe "Wp2txt" do
     end
   end
-  describe "process_template" do
-    it "removes brackets and leaving some text" do
-      str_before = "{{}}"
-      str_after = ""
-      expect(process_template(str_before)).to eq str_after
-      str_before = "{{lang|en|Japan}}"
-      str_after  = "Japan"
-      expect(process_template(str_before)).to eq str_after
-      str_before = "{{a|b=c|d=f}}"
-      str_after  = "a"
-      expect(process_template(str_before)).to eq str_after
-      str_before = "{{a|b|{{c|d|e}}}}"
-      str_after  = "e"
-      expect(process_template(str_before)).to eq str_after
-    end
-  end
+  # describe "process_template" do
+  #   it "removes brackets and leaving some text" do
+  #     str_before = "{{}}"
+  #     str_after = ""
+  #     expect(process_template(str_before)).to eq str_after
+  #     str_before = "{{lang|en|Japan}}"
+  #     str_after  = "Japan"
+  #     expect(process_template(str_before)).to eq str_after
+  #     str_before = "{{a|b=c|d=f}}"
+  #     str_after  = "a"
+  #     expect(process_template(str_before)).to eq str_after
+  #     str_before = "{{a|b|{{c|d|e}}}}"
+  #     str_after  = "e"
+  #     expect(process_template(str_before)).to eq str_after
+  #   end
+  # end
-#   describe "expand_template" do
-#     it "gets data corresponding to a given template using mediawiki api" do
-#       uri = "http://en.wiktionary.org/w/api.php"
-#       template = "{{en-verb}}"
-#       word = "kick"
-#       expanded = expand_template(uri, template, word)
-#       html =<<EOD
-# <span class=\"infl-inline\"><b class=\"Latn \" lang=\"en\">kick</b> (''third-person singular simple present'' <span class=\"form-of third-person-singular-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicks#English|kicks]]</span>'''</span>, ''present participle'' <span class=\"form-of present-participle-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicking#English|kicking]]</span>'''</span>, ''simple past and past participle'' <span class=\"form-of simple-past-and-participle-form-of\"> '''<span class=\"Latn \" lang=\"en\">[[kicked#English|kicked]]</span>'''</span>)</span>[[Category:English verbs|kick]]
-# EOD
-#       html.strip!
-#       expanded.should == html
-#     end
-#   end
+  #   describe "expand_template" do
+  #     it "gets data corresponding to a given template using mediawiki api" do
+  #       uri = "http://en.wiktionary.org/w/api.php"
+  #       template = "{{en-verb}}"
+  #       word = "kick"
+  #       expanded = expand_template(uri, template, word)
+  #       html =<<EOD
+  # <span class=\"infl-inline\"><b class=\"Latn \" lang=\"en\">kick</b> (''third-person singular simple present'' <span class=\"form-of third-person-singular-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicks#English|kicks]]</span>'''</span>, ''present participle'' <span class=\"form-of present-participle-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicking#English|kicking]]</span>'''</span>, ''simple past and past participle'' <span class=\"form-of simple-past-and-participle-form-of\"> '''<span class=\"Latn \" lang=\"en\">[[kicked#English|kicked]]</span>'''</span>)</span>[[Category:English verbs|kick]]
+  # EOD
+  #       html.strip!
+  #       expanded.should == html
+  #     end
+  #   end
 end

data/wp2txt.gemspec CHANGED

@@ -23,5 +23,6 @@ Gem::Specification.new do |s|
   # s.add_development_dependency "rake"
   s.add_dependency "nokogiri"
+  s.add_dependency "htmlentities"
   s.add_dependency "trollop"
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: wp2txt
 version: !ruby/object:Gem::Version
-  version: 0.7.0
+  version: 0.7.5
 platform: ruby
 authors:
 - Yoichiro Hasebe
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-11-29 00:00:00.000000000 Z
+date: 2014-11-30 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -24,6 +24,20 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: htmlentities
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: trollop
   requirement: !ruby/object:Gem::Requirement
@@ -56,6 +70,7 @@ files:
 - bin/benchmark.rb
 - bin/wp2txt
 - data/testdata.bz2
+- error_log.txt
 - lib/wp2txt.rb
 - lib/wp2txt/article.rb
 - lib/wp2txt/mw_api.rb