RubyGems - wp2txt - Versions diffs - 0.7.0 → 0.7.5 - Mend

wp2txt 0.7.0 → 0.7.5

Files changed (9) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 80f68e6c1ac855160575f85f4d78ca378f0a1c2b
-  data.tar.gz: 16bbac80e7139ea63dd46baf54fb5deaf0840e59
+  metadata.gz: 911e08e181a6bedb664b797d49183d0988daeba5
+  data.tar.gz: 076d1349a8aa8cf454dac42bdce7b89a82f3fca0
 SHA512:
-  metadata.gz: 004d26fa39aae4eb194858cf85ae8aad33f65dc556a08bbfc499ead05d49e70af4f5ba5e708354aa816cd6b38d8e9860866cefa7d6c0730058e9a186ff9eec31
-  data.tar.gz: c2523b8afeab165c37de028eedff36e719a2472f9440469e4041c342b08463d439351a89523d959ff28d53364c76a2af44502113bb2084eacbbc8ac14306f8a4
+  metadata.gz: 4ebc035e4f1635f150294d8b79eb474457a280707a416688f3e7712bb7788d15888b6718bfd6f4e3a790e6fb8a7623e1415255fde913bfe658dd237fa7f599cd
+  data.tar.gz: ccee00a9e1b85186d52d0b3c07b52c04fff1ecd133ff245010943312cf37e279874b5f3a757880c005ad877e957df6a4176af2269f40b3c3210951530eb4c511

data/bin/benchmark.rb CHANGED

@@ -22,12 +22,13 @@ Benchmark.bm do |x|
   x.report do
     wpconv = Wp2txt::Runner.new(parent, input_file, output_dir, tfile_size, convert, strip_tmarker)
     wpconv.extract_text do |article|
-      title = format_wiki! article.title
-      title = "[[#{title}]]\n"
+      format_wiki!(article.title)
+      title = "[[#{article.title}]]\n"
+      convert_characters!(title)
-        contents = "\nCATEGORIES: "
-        contents += article.categories.join(", ")
-        contents += "\n\n"
+      contents = "\nCATEGORIES: "
+      contents += article.categories.join(", ")
+      contents += "\n\n"
       article.elements.each do |e|
         case e.first
@@ -55,10 +56,11 @@ Benchmark.bm do |x|
         else
           next
         end
-        contents += line
-        remove_templates!(contents)
+        contents << line
       end
+      format_article!(contents)
+      convert_characters!(contents)
       ##### cleanup #####
       if /\A\s*\z/m =~ contents
         result = ""

data/bin/wp2txt CHANGED

@@ -50,6 +50,7 @@ convert = opts[:convert]
 strip_tmarker = opts[:marker] ? false : true
 opt_array = [:title, :list, :heading, :table, :redirect]
 $leave_template = true if opts[:template]
+$leave_table = true if opts[:table]
 config = {}
 opt_array.each do |opt|
   config[opt] = opts[opt]
@@ -61,6 +62,7 @@ wpconv = Wp2txt::Runner.new(parent, input_file, output_dir, tfile_size, convert,
 wpconv.extract_text do |article|
   format_wiki!(article.title)
   title = "[[#{article.title}]]\n"
+  convert_characters!(title)
   if opts[:category] && !article.categories.empty?
     contents = "\nCATEGORIES: "
@@ -118,18 +120,8 @@ wpconv.extract_text do |article|
     end
     contents << line
   end
-  remove_directive!(contents)
-  remove_emphasis!(contents)
-  mndash!(contents)
-  make_reference!(contents)
-  format_ref!(contents)
-  remove_hr!(contents)
-  remove_tag!(contents)
-  special_chr!(contents)
-  correct_inline_template!(contents) unless $leave_template
-  remove_templates!(contents) unless $leave_template
+  format_article!(contents)
+  convert_characters!(contents)
   ##### cleanup #####
   if /\A\s*\z/m =~ contents

data/error_log.txt ADDED

	@@ -0,0 +1 @@
1	+ [[アンパサンド]]

data/lib/wp2txt/utils.rb CHANGED

@@ -3,6 +3,7 @@
 require 'strscan'
 require 'find'
+require 'htmlentities'
 ###################################################
 # global variables to save resource for generating regexps
@@ -10,6 +11,12 @@ require 'find'
 # those with a trailing number 2 represent closing tag/markup
 # those without a trailing number contain both opening/closing tags/markups
+$html_decoder = HTMLEntities.new
+$entities = ['&nbsp;', '&lt;', '&gt;', '&amp;', '&quot;'].zip([' ', '<', '>', '&', '"'])
+$html_hash  = Hash[*$entities.flatten]
+$html_regex = Regexp.new("(" + $html_hash.keys.join("|") + ")")
 $in_template_regex = Regexp.new('^\s*\{\{[^\}]+\}\}\s*$')
 $in_link_regex = Regexp.new('^\s*\[.*\]\s*$')
@@ -43,6 +50,9 @@ $blank_line_regex = Regexp.new('^\s*$')
 $redirect_regex = Regexp.new('#(?:REDIRECT|転送)\s+\[\[(.+)\]\]', Regexp::IGNORECASE)
+$remove_tag_regex = Regexp.new("\<[^\<\>]*\>")
+$remove_directives_regex = Regexp.new("\_\_[^\_]*\_\_")
 $remove_emphasis_regex = Regexp.new('(' + Regexp.escape("''") + '+)(.+?)\1')
 $chrref_to_utf_regex = Regexp.new('&#(x?)([0-9a-fA-F]+);')
 $mndash_regex = Regexp.new('\{(mdash|ndash|–)\}')
@@ -58,8 +68,8 @@ $list_marks_regex = Regexp.new('\A[\*\#\;\:\ ]+')
 $pre_marks_regex = Regexp.new('\A\^\ ')
 $def_marks_regex = Regexp.new('\A[\;\:\ ]+')
 $onset_bar_regex = Regexp.new('\A[^\|]+\z')
-$remove_table_regex = Regexp.new('\{\|[^\{\|\}]*?\|\}', Regexp::MULTILINE)
-$remove_clade_regex = Regexp.new('\{\{(?:C|c)lade[^\{\}]*\}\}', Regexp::MULTILINE)
+# $remove_table_regex = Regexp.new('\{\|[^\{\|\}]*?\|\}', Regexp::MULTILINE)
+# $remove_clade_regex = Regexp.new('\{\{(?:C|c)lade[^\{\}]*\}\}', Regexp::MULTILINE)
 $category_patterns = ["Category", "Categoria"].join("|")
 $category_regex = Regexp.new('[\{\[\|\b](?:' + $category_patterns + ')\:(.*?)[\}\]\|\b]', Regexp::IGNORECASE)
@@ -74,22 +84,16 @@ $single_square_bracket_regex = Regexp.new("(#{Regexp.escape('[')}|#{Regexp.escap
 $double_square_bracket_regex = Regexp.new("(#{Regexp.escape('[[')}|#{Regexp.escape(']]')})", Regexp::MULTILINE)
 $single_curly_bracket_regex = Regexp.new("(#{Regexp.escape('{')}|#{Regexp.escape('}')})", Regexp::MULTILINE)
 $double_curly_bracket_regex = Regexp.new("(#{Regexp.escape('{{')}|#{Regexp.escape('}}')})", Regexp::MULTILINE)
+$curly_square_bracket_regex = Regexp.new("(#{Regexp.escape('{|')}|#{Regexp.escape('|}')})", Regexp::MULTILINE)
 ###################################################
 module Wp2txt
-  def format_wiki!(text, has_retried = false)
+  def convert_characters!(text, has_retried = false)
     begin
       text << ""
       chrref_to_utf!(text)
-      escape_nowiki!(text)
-      process_interwiki_links!(text)
-      process_external_links!(text)
-      unescape_nowiki!(text)
+      special_chr!(text)
     rescue # detect invalid byte sequence in UTF-8
       if has_retried
@@ -102,11 +106,34 @@ module Wp2txt
       else
         text.encode!("UTF-16")
         text.encode!("UTF-8")
-        format_wiki!(text, true)
+        convert_characters!(text, true)
       end
     end
   end
+  def format_wiki!(text, has_retried = false)
+    escape_nowiki!(text)
+    process_interwiki_links!(text)
+    process_external_links!(text)
+    unescape_nowiki!(text)
+  end
+  def format_article!(text)
+    remove_directive!(text)
+    remove_emphasis!(text)
+    mndash!(text)
+    make_reference!(text)
+    format_ref!(text)
+    remove_hr!(text)
+    remove_tag!(text)
+    convert_characters!(text)
+    correct_inline_template!(text) unless $leave_template
+    remove_templates!(text) unless $leave_template
+    remove_table!(text) unless $leave_table
+  end
   #################### parser for nested structure ####################
   def process_nested_structure(scanner, left, right, recur_count, &block)
@@ -120,6 +147,8 @@ module Wp2txt
       regex = $single_curly_bracket_regex
     elsif left == "{{" && right == "}}"
       regex = $double_curly_bracket_regex
+    elsif left == "{|" && right == "|}"
+      regex = $curly_square_bracket_regex
     else
       regex = Regexp.new('(#{Regexp.escape(left)}|#{Regexp.escape(right)})', Regexp::MULTILINE)
     end
@@ -154,15 +183,6 @@ module Wp2txt
   end
   #################### methods used from format_wiki ####################
-  def remove_templates!(str)
-    scanner = StringScanner.new(str)
-    result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
-      ""
-    end
-    str.replace(result)
-  end
   def escape_nowiki!(str)
     if @nowikis
       @nowikis.clear
@@ -213,80 +233,42 @@ module Wp2txt
     str.replace(result)
   end
-  def special_chr!(str)
-    unless $sp_hash
-      html = ['&nbsp;', '&lt;', '&gt;', '&amp;', '&quot;']\
-      .zip([' ', '<', '>', '&', '"'])
-      umraut_accent = ['&Agrave;', '&Aacute;', '&Acirc;', '&Atilde;', '&Auml;',
-      '&Aring;', '&AElig;', '&Ccedil;', '&Egrave;', '&Eacute;', '&Ecirc;',
-      '&Euml;', '&Igrave;', '&Iacute;', '&Icirc;', '&Iuml;', '&Ntilde;',
-      '&Ograve;', '&Oacute;', '&Ocirc;', '&Otilde;', '&Ouml;', '&Oslash;',
-      '&Ugrave;', '&Uacute;', '&Ucirc;', '&Uuml;', '&szlig;', '&agrave;',
-      '&aacute;', '&acirc;', '&atilde;', '&auml;', '&aring;', '&aelig;',
-      '&ccedil;', '&egrave;', '&eacute;', '&ecirc;', '&euml;', '&igrave;',
-      '&iacute;', '&icirc;', '&iuml;', '&ntilde;', '&ograve;', '&oacute;',
-      '&ocirc;', '&oelig;', '&otilde;', '&ouml;', '&oslash;', '&ugrave;',
-      '&uacute;', '&ucirc;', '&uuml;', '&yuml;']\
-      .zip(['À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í',
-      'Î', 'Ï', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'ß', 'à',
-      'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï',
-      'ñ', 'ò', 'ó', 'ô','œ', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ÿ'])
-      punctuation = ['&iquest;', '&iexcl;', '&laquo;', '&raquo;', '&sect;',
-      '&para;', '&dagger;', '&Dagger;', '&bull;', '&ndash;', '&mdash;']\
-      .zip(['¿', '¡', '«', '»', '§', '¶', '†', '‡', '•', '–', '—'])
-      commercial = ['&trade;', '&copy;', '&reg;', '&cent;', '&euro;', '&yen;',
-      '&pound;', '&curren;'].zip(['™', '©', '®', '¢', '€', '¥', '£', '¤'])
-      greek_chr = ['&alpha;', '&beta;', '&gamma;', '&delta;', '&epsilon;',
-      '&zeta;', '&eta;', '&theta;', '&iota;', '&kappa;', '&lambda;', '&mu;',
-      '&nu;', '&xi;', '&omicron;', '&pi;', '&rho;', '&sigma;', '&sigmaf;',
-      '&tau;', '&upsilon;', '&phi;', '&chi;', '&psi;', '&omega;', '&Gamma;',
-      '&Delta;', '&Theta;', '&Lambda;', '&Xi;', '&Pi;', '&Sigma;', '&Phi;',
-      '&Psi;', '&Omega;']\
-      .zip(['α', 'β', 'γ', 'δ', 'ε', 'ζ', 'η', 'θ', 'ι', 'κ', 'λ',
-      'μ', 'ν', 'ξ', 'ο', 'π', 'ρ', 'σ', 'ς', 'τ', 'υ', 'φ', 'χ',
-      'ψ', 'ω', 'Γ', 'Δ', 'Θ', 'Λ', 'Ξ', 'Π', 'Σ', 'Φ', 'Ψ', 'Ω'])
-      math_chr1 = ['&int;', '&sum;', '&prod;', '&radic;', '&minus;', '&plusmn;',
-      '&infin;', '&asymp;', '&prop;', '&equiv;', '&ne;', '&le;', '&ge;',
-      '&times;', '&middot;', '&divide;', '&part;', '&prime;', '&Prime;',
-      '&nabla;', '&permil;', '&deg;', '&there4;', '&oslash;', '&isin;', '&cap;',
-      '&cup;', '&sub;', '&sup;', '&sube;', '&supe;', '&not;', '&and;', '&or;',
-      '&exist;', '&forall;', '&rArr;', '&hArr;', '&rarr;', '&harr;', '&uarr;']\
-      .zip(['∫', '∑', '∏', '√', '−', '±', '∞', '≈', '∝', '≡', '≠', '≤',
-      '≥', '×', '·', '÷', '∂', '′', '″', '∇', '‰', '°', '∴', 'ø', '∈',
-      '∩', '∪', '⊂', '⊃', '⊆', '⊇', '¬', '∧', '∨', '∃', '∀', '⇒',
-      '⇔', '→', '↔', '↑'])
-      math_chr2 = ['&alefsym;', '&notin;'].zip(['ℵ', '∉'])
-      others = ['&uml;', '&ordf;',
-      '&macr;', '&acute;', '&micro;', '&cedil;', '&ordm;', '&lsquo;', '&rsquo;',
-      '&ldquo;', '&sbquo;', '&rdquo;', '&bdquo;', '&spades;', '&clubs;', '&loz;',
-      '&hearts;', '&larr;', '&diams;', '&lsaquo;', '&rsaquo;', '&darr;']\
-      .zip(['¨', 'ª', '¯', '´', 'µ', '¸', 'º', '‘', '’', '“', '‚', '”',
-      '„', '♠', '♣', '◊', '♥', '←', '♦', '‹', '›', '↓'] )
-      spc_array = html + umraut_accent + punctuation + commercial + greek_chr +
-                  math_chr1 + math_chr2 + others
-      $sp_hash  = Hash[*spc_array.flatten]
-      $sp_regex = Regexp.new("(" + $sp_hash.keys.join("|") + ")")
+  #################### methods used from format_article ####################
+  def remove_templates!(str)
+    scanner = StringScanner.new(str)
+    result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
+      ""
     end
-    #str.gsub!("&amp;"){'&'}
-    str.gsub!($sp_regex) do
-      $sp_hash[$1]
+    str.replace(result)
+  end
+  def remove_table!(str)
+    scanner = StringScanner.new(str)
+    result = process_nested_structure(scanner, "{|", "|}", $limit_recur) do |contents|
+      ""
     end
+    str.replace(result)
+  end
+  def special_chr!(str)
+    str.replace $html_decoder.decode(str)
   end
-  def remove_tag!(str, tagset = ['<', '>'])
+  def remove_inbetween!(str, tagset = ['<', '>'])
     tagsets = Regexp.quote(tagset.uniq.join(""))
     regex = /#{Regexp.escape(tagset[0])}[^#{tagsets}]*#{Regexp.escape(tagset[1])}/
     str.gsub!(regex, "")
   end
+  def remove_tag!(str)
+    str.gsub!($remove_tag_regex, "")
+  end
+  def remove_directive!(str)
+    str.gsub!($remove_directives_regex, "")
+  end
   def remove_emphasis!(str)
     str.gsub!($remove_emphasis_regex) do
       $2
@@ -311,10 +293,6 @@ module Wp2txt
     end
     return true
   end
-  def remove_directive!(str)
-    remove_tag!(str, ['__', '__'])
-  end
   def mndash!(str)
     str.gsub!($mndash_regex, "–")
@@ -364,40 +342,40 @@ module Wp2txt
   #################### methods currently unused ####################
-  def process_template(str)
-    scanner = StringScanner.new(str)
-    result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
-      parts = contents.split("|")
-      case parts.size
-      when 0
-        ""
-      when 1
-        parts.first || ""
-      else
-        if parts.last.split("=").size > 1
-          parts.first || ""
-        else
-          parts.last || ""
-        end
-      end
-    end
-    result
-  end
-  def remove_table(str)
-    new_str = str.gsub($remove_table_regex, "")
-    if str != new_str
-      new_str = remove_table(new_str)
-    end
-    new_str = remove_table(new_str) unless str == new_str
-    return new_str
-  end
+  # def process_template(str)
+  #   scanner = StringScanner.new(str)
+  #   result = process_nested_structure(scanner, "{{", "}}", $limit_recur) do |contents|
+  #     parts = contents.split("|")
+  #     case parts.size
+  #     when 0
+  #       ""
+  #     when 1
+  #       parts.first || ""
+  #     else
+  #       if parts.last.split("=").size > 1
+  #         parts.first || ""
+  #       else
+  #         parts.last || ""
+  #       end
+  #     end
+  #   end
+  #   result
+  # end
+  # def remove_table(str)
+  #   new_str = str.gsub($remove_table_regex, "")
+  #   if str != new_str
+  #     new_str = remove_table(new_str)
+  #   end
+  #   new_str = remove_table(new_str) unless str == new_str
+  #   return new_str
+  # end
-  def remove_clade(page)
-    new_page = page.gsub($remove_clade_regex, "")
-    new_page = remove_clade(new_page) unless page == new_page
-    new_page
-  end
+  # def remove_clade(page)
+  #   new_page = page.gsub($remove_clade_regex, "")
+  #   new_page = remove_clade(new_page) unless page == new_page
+  #   new_page
+  # end
   #################### file related utilities ####################

data/lib/wp2txt/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Wp2txt
-  VERSION = "0.7.0"
+  VERSION = "0.7.5"
 end

data/spec/utils_spec.rb CHANGED

@@ -44,7 +44,7 @@ describe "Wp2txt" do
   describe "special_chr!" do
     it "replaces character references with real characters" do
       str_before = "&nbsp; &lt; &gt; &amp; &quot;"
-      str_after  = "  < > & \""
+      str_after  = "  < > & \""
       special_chr!(str_before)
       expect(str_before).to eq str_after
     end
@@ -77,21 +77,22 @@ describe "Wp2txt" do
     end
   end
-  describe "remove_table" do
+  describe "remove_table!" do
     it "removes table formated parts" do
       str_before = "{| ... \n{| ... \n ...|}\n ...|}"
       str_after  = ""
-      expect(remove_table(str_before)).to eq str_after
+      remove_table!(str_before)
+      expect(str_before).to eq str_after
     end
   end
-  describe "remove_clade" do
-    it "removes clade formated parts" do
-      str_before = "\{\{clade ... \n ... \n ... \n\}\}"
-      str_after  = ""
-      expect(remove_clade(str_before)).to eq str_after
-    end
-  end
+  # describe "remove_clade" do
+  #   it "removes clade formated parts" do
+  #     str_before = "\{\{clade ... \n ... \n ... \n\}\}"
+  #     str_after  = ""
+  #     expect(remove_clade(str_before)).to eq str_after
+  #   end
+  # end
   describe "remove_hr!" do
     it "removes horizontal lines" do
@@ -102,15 +103,15 @@ describe "Wp2txt" do
     end
   end
-  describe "remove_tag!" do
-    it "removes tags" do
+  describe "remove_inbetween!" do
+    it "removes tags and its contents" do
       str_before = "<tag>abc</tag>"
       str_after  = "abc"
       remove_tag!(str_before)
       expect(str_before).to eq str_after
       str_before = "[tag]def[/tag]"
       str_after  = "def"
-      remove_tag!(str_before, ['[', ']'])
+      remove_inbetween!(str_before, ['[', ']'])
       expect(str_before).to eq str_after
     end
   end
@@ -183,34 +184,34 @@ describe "Wp2txt" do
     end
   end
-  describe "process_template" do
-    it "removes brackets and leaving some text" do
-      str_before = "{{}}"
-      str_after = ""
-      expect(process_template(str_before)).to eq str_after
-      str_before = "{{lang|en|Japan}}"
-      str_after  = "Japan"
-      expect(process_template(str_before)).to eq str_after
-      str_before = "{{a|b=c|d=f}}"
-      str_after  = "a"
-      expect(process_template(str_before)).to eq str_after
-      str_before = "{{a|b|{{c|d|e}}}}"
-      str_after  = "e"
-      expect(process_template(str_before)).to eq str_after
-    end
-  end
+  # describe "process_template" do
+  #   it "removes brackets and leaving some text" do
+  #     str_before = "{{}}"
+  #     str_after = ""
+  #     expect(process_template(str_before)).to eq str_after
+  #     str_before = "{{lang|en|Japan}}"
+  #     str_after  = "Japan"
+  #     expect(process_template(str_before)).to eq str_after
+  #     str_before = "{{a|b=c|d=f}}"
+  #     str_after  = "a"
+  #     expect(process_template(str_before)).to eq str_after
+  #     str_before = "{{a|b|{{c|d|e}}}}"
+  #     str_after  = "e"
+  #     expect(process_template(str_before)).to eq str_after
+  #   end
+  # end
-#   describe "expand_template" do
-#     it "gets data corresponding to a given template using mediawiki api" do
-#       uri = "http://en.wiktionary.org/w/api.php"
-#       template = "{{en-verb}}"
-#       word = "kick"
-#       expanded = expand_template(uri, template, word)
-#       html =<<EOD
-# <span class=\"infl-inline\"><b class=\"Latn \" lang=\"en\">kick</b> (''third-person singular simple present'' <span class=\"form-of third-person-singular-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicks#English|kicks]]</span>'''</span>, ''present participle'' <span class=\"form-of present-participle-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicking#English|kicking]]</span>'''</span>, ''simple past and past participle'' <span class=\"form-of simple-past-and-participle-form-of\"> '''<span class=\"Latn \" lang=\"en\">[[kicked#English|kicked]]</span>'''</span>)</span>[[Category:English verbs|kick]]
-# EOD
-#       html.strip!
-#       expanded.should == html
-#     end
-#   end
+  #   describe "expand_template" do
+  #     it "gets data corresponding to a given template using mediawiki api" do
+  #       uri = "http://en.wiktionary.org/w/api.php"
+  #       template = "{{en-verb}}"
+  #       word = "kick"
+  #       expanded = expand_template(uri, template, word)
+  #       html =<<EOD
+  # <span class=\"infl-inline\"><b class=\"Latn \" lang=\"en\">kick</b> (''third-person singular simple present'' <span class=\"form-of third-person-singular-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicks#English|kicks]]</span>'''</span>, ''present participle'' <span class=\"form-of present-participle-form-of\">'''<span class=\"Latn \" lang=\"en\">[[kicking#English|kicking]]</span>'''</span>, ''simple past and past participle'' <span class=\"form-of simple-past-and-participle-form-of\"> '''<span class=\"Latn \" lang=\"en\">[[kicked#English|kicked]]</span>'''</span>)</span>[[Category:English verbs|kick]]
+  # EOD
+  #       html.strip!
+  #       expanded.should == html
+  #     end
+  #   end
 end

data/wp2txt.gemspec CHANGED

@@ -23,5 +23,6 @@ Gem::Specification.new do |s|
   # s.add_development_dependency "rake"
   s.add_dependency "nokogiri"
+  s.add_dependency "htmlentities"
   s.add_dependency "trollop"
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: wp2txt
 version: !ruby/object:Gem::Version
-  version: 0.7.0
+  version: 0.7.5
 platform: ruby
 authors:
 - Yoichiro Hasebe
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-11-29 00:00:00.000000000 Z
+date: 2014-11-30 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -24,6 +24,20 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: htmlentities
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: trollop
   requirement: !ruby/object:Gem::Requirement
@@ -56,6 +70,7 @@ files:
 - bin/benchmark.rb
 - bin/wp2txt
 - data/testdata.bz2
+- error_log.txt
 - lib/wp2txt.rb
 - lib/wp2txt/article.rb
 - lib/wp2txt/mw_api.rb