RubyGems - reverse_markdown - Versions diffs - 3.0.1 → 3.0.2 - Mend

reverse_markdown 3.0.1 → 3.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

checksums.yaml +4 -4
data/.github/workflows/ci.yml +1 -14
data/CHANGELOG.md +7 -0
data/README.md +6 -0
data/lib/reverse_markdown/converters/base.rb +20 -0
data/lib/reverse_markdown/converters/em.rb +1 -1
data/lib/reverse_markdown/converters/h.rb +4 -1
data/lib/reverse_markdown/converters/strong.rb +1 -1
data/lib/reverse_markdown/converters/text.rb +42 -3
data/lib/reverse_markdown/version.rb +1 -1
data/reverse_markdown.gemspec +0 -1
data/spec/assets/anchors.html +1 -1
data/spec/assets/basic.html +4 -4
data/spec/assets/code.html +0 -1
data/spec/assets/from_the_wild.html +2 -2
data/spec/assets/html_fragment.html +1 -1
data/spec/assets/lists.html +2 -2
data/spec/assets/paragraphs.html +1 -1
data/spec/components/basic_spec.rb +28 -0
data/spec/components/from_the_wild_spec.rb +1 -1
data/spec/lib/reverse_markdown/converters/em_spec.rb +28 -0
data/spec/lib/reverse_markdown/converters/h_spec.rb +16 -0
data/spec/lib/reverse_markdown/converters/strong_spec.rb +8 -0
data/spec/lib/reverse_markdown/converters/text_spec.rb +1 -1
metadata +6 -16

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 71599ffe8eb3e568f71c10ac33d6f6e8010c340075659ebb759026dcb5e55993
-  data.tar.gz: eb6b3608de31ab57229ddc202ac9b941824442b03eedc02dc8a8e12edd59c08d
+  metadata.gz: d374ce991c236ccd344ef88d17531e3dc845bc4eb76015f5237f2646be1b3b66
+  data.tar.gz: 3bb3e85c76d512647fe7c70f983b22113775c2ab02bc7410dec85cfd06c46cb8
 SHA512:
-  metadata.gz: 254da531c9557092c906bf885a8672b5ff6762a81a99a0acca628eea44013364d9fb5ebc34360af000ff3754253951454c93a61f89aecc2112e2c1931a349069
-  data.tar.gz: 60c65f05fb636ba4a574f5fcca1fd8700e187830e94729ca19ef66be4ee7dacf6d3ee7bee2d8d2d32c215fd7aa3ecbd05a030abdf68534e91b92e9172e452366
+  metadata.gz: 1c860d94f4b07ae28cd2553e86c6538ebcaecd861a25bb695879ed2f69b6da6459c2ff9884d7c86127c18dac6217ddd3b41ee8e069eaa012e04b9d6d280cebd4
+  data.tar.gz: 1025d7a735a38f59d2e921d5e7fb29e41b007a238eca7052bba16b319316695a50dc15f1729b47f2c27887244000b0c5a2b3d386be1765ee0c37578f5be2978d

data/.github/workflows/ci.yml CHANGED Viewed

@@ -13,7 +13,7 @@ jobs:
     runs-on: ubuntu-latest
     strategy:
       matrix:
-        ruby-version: [ '2.7', '3.0', '3.1', '3.2', '3.3', 'jruby-9.4' ]
+        ruby-version: [ '2.7', '3.0', '3.1', '3.2', '3.3', '4.0', 'jruby-9.4' ]
     steps:
       - name: Checkout code
@@ -31,18 +31,5 @@ jobs:
       - name: Run tests
         run: bundle exec rspec
-      - name: Run Code Climate Test Reporter
-        run: |
-          curl -L https://codeclimate.com/downloads/test-reporter/test-reporter-latest-linux-amd64 > ./cc-test-reporter
-          chmod +x ./cc-test-reporter
-          ./cc-test-reporter before-build
       - name: Run tests
         run: bundle exec rspec
-      - name: Upload Code Climate Coverage Report
-        if: matrix.ruby-version == '3.3'
-        env:
-          CC_TEST_REPORTER_ID: ${{ secrets.CC_TEST_REPORTER_ID }}
-        run: |
-          ./cc-test-reporter after-build --exit-code $?

data/CHANGELOG.md CHANGED Viewed

@@ -1,6 +1,13 @@
 # Change Log
 All notable changes to this project will be documented in this file.
+## 3.0.2 - January 2026
+- Add support for ruby 4.0
+- Some cleanup of test cases, thanks @joelhawksley, see #107
+- Fix whitespace collapsing between inline elements, see #34
+- Fix whitespace around links, see #91
+- Split emphasis markers at paragraph breaks, merge heading lines, see #95
 ## 3.0.1 - December 2025
 - Use https instead of http

data/README.md CHANGED Viewed

@@ -8,6 +8,12 @@ Transform html into markdown. Useful for example if you want to import html into
 See [Change Log](CHANGELOG.md)
+## Limitations
+A perfect HTML to Markdown conversion is not possible. HTML is far more expressive than Markdown - it supports tables with merged cells, arbitrary nesting, inline styles, and countless other features that have no Markdown equivalent.
+This gem aims to provide good enough defaults for most common cases. It handles standard content well but does not attempt to solve every edge case. If you have highly specific conversion needs, you can [write custom converters](https://github.com/xijo/reverse_markdown/wiki/Write-your-own-converter) to handle them.
 ## Requirements
 1. [Nokogiri](http://nokogiri.org/)

data/lib/reverse_markdown/converters/base.rb CHANGED Viewed

@@ -15,6 +15,26 @@ module ReverseMarkdown
         string.gsub(/(?<!\\)[*_]/, '*' => '\*', '_' => '\_')
       end
+      # Wrap content with markers (e.g., ** or _), splitting at paragraph breaks
+      # so markers don't span across breaks (which breaks markdown rendering)
+      def wrap_with_markers(content, marker)
+        # Split on paragraph breaks, preserving the breaks
+        segments = content.split(/(\s*\n\s*\n\s*)/)
+        segments.map.with_index do |segment, i|
+          if i.odd?  # This is a break segment (captured delimiter)
+            segment
+          elsif segment.strip.empty?
+            segment
+          else
+            # Wrap with markers, preserving border whitespace
+            leading = segment[/\A\s*/]
+            trailing = segment[/\s*\z/]
+            "#{leading}#{marker}#{segment.strip}#{marker}#{trailing}"
+          end
+        end.join
+      end
       def extract_title(node)
         title = escape_keychars(node['title'].to_s)
         title.empty? ? '' : %[ "#{title}"]

data/lib/reverse_markdown/converters/em.rb CHANGED Viewed

@@ -6,7 +6,7 @@ module ReverseMarkdown
         if content.strip.empty? || state[:already_italic]
           content
         else
-          "#{content[/^\s*/]}_#{content.strip}_#{content[/\s*$/]}"
+          wrap_with_markers(content, '_')
         end
       end
     end

data/lib/reverse_markdown/converters/h.rb CHANGED Viewed

@@ -3,7 +3,10 @@ module ReverseMarkdown
     class H < Base
       def convert(node, state = {})
         prefix = '#' * node.name[/\d/].to_i
-        ["\n", prefix, ' ', treat_children(node, state), "\n"].join
+        content = treat_children(node, state).strip
+        # Merge lines into one (markdown headings can't span multiple lines)
+        content = content.split(/\s*\n\s*/).join(' ')
+        "\n#{prefix} #{content}\n"
       end
     end

data/lib/reverse_markdown/converters/strong.rb CHANGED Viewed

@@ -6,7 +6,7 @@ module ReverseMarkdown
         if content.strip.empty? || state[:already_strong]
           content
         else
-          "#{content[/^\s*/]}**#{content.strip}**#{content[/\s*$/]}"
+          wrap_with_markers(content, '**')
         end
       end
     end

data/lib/reverse_markdown/converters/text.rb CHANGED Viewed

@@ -11,12 +11,20 @@ module ReverseMarkdown
       private
+      INLINE_ELEMENTS = [:a, :abbr, :b, :bdi, :bdo, :cite, :code, :data, :del,
+                          :dfn, :em, :i, :ins, :kbd, :mark, :q, :rp, :rt, :ruby,
+                          :s, :samp, :small, :span, :strong, :sub, :sup, :time,
+                          :u, :var, :wbr, :font, :tt].freeze
       def treat_empty(node)
         parent = node.parent.name.to_sym
         if [:ol, :ul].include?(parent)  # Otherwise the identation is broken
           ''
         elsif node.text == ' '          # Regular whitespace text node
           ' '
+        elsif INLINE_ELEMENTS.include?(parent) && node.text =~ /\n/
+          # Preserve newlines between inline elements as space (HTML whitespace collapsing)
+          ' '
         else
           ''
         end
@@ -25,7 +33,7 @@ module ReverseMarkdown
       def treat_text(node)
         text = node.text
         text = preserve_nbsp(text)
-        text = remove_border_newlines(text)
+        text = remove_border_newlines(text, node)
         text = remove_inner_newlines(text)
         text = escape_keychars(text)
@@ -43,8 +51,39 @@ module ReverseMarkdown
         text.gsub(/[<>]/, '>' => '\>', '<' => '\<')
       end
-      def remove_border_newlines(text)
-        text.gsub(/\A\n+/, '').gsub(/\n+\z/, '')
+      def remove_border_newlines(text, node)
+        # Convert leading newlines to space if there's preceding inline content
+        result = if has_adjacent_inline_content?(node, :previous)
+          text.gsub(/\A\n+/, ' ')
+        else
+          text.gsub(/\A\n+/, '')
+        end
+        # Convert trailing newlines to space if there's following inline content
+        if has_adjacent_inline_content?(node, :next)
+          result.gsub(/\n+\z/, ' ')
+        else
+          result.gsub(/\n+\z/, '')
+        end
+      end
+      def has_adjacent_inline_content?(node, direction)
+        sibling = direction == :next ? node.next_sibling : node.previous_sibling
+        while sibling
+          if sibling.text?
+            return true unless sibling.text.strip.empty?
+          elsif INLINE_ELEMENTS.include?(sibling.name.to_sym)
+            return true
+          else
+            return false
+          end
+          sibling = direction == :next ? sibling.next_sibling : sibling.previous_sibling
+        end
+        parent = node.parent
+        return false unless INLINE_ELEMENTS.include?(parent.name.to_sym)
+        has_adjacent_inline_content?(parent, direction)
       end
       def remove_inner_newlines(text)

data/lib/reverse_markdown/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module ReverseMarkdown
-  VERSION = '3.0.1'
+  VERSION = '3.0.2'
 end

data/reverse_markdown.gemspec CHANGED Viewed

@@ -24,5 +24,4 @@ Gem::Specification.new do |s|
   s.add_development_dependency 'rake'
   s.add_development_dependency 'kramdown'
   s.add_development_dependency 'debug' unless RUBY_ENGINE == 'jruby'
-  s.add_development_dependency 'codeclimate-test-reporter'
 end

data/spec/assets/anchors.html CHANGED Viewed

@@ -9,7 +9,7 @@
     Even with stripped elements inbetween: !<span><a href="http://still.not.an.image.foobar.com">there</a></span> should be an extra space.
     ignore <a href="foo.html">   </a> anchor tags with no link text
-    not ignore <a href="foo.html"><img src="image.png" alt="An Image" /></a> anchor tags with images
+    not ignore <a href="foo.html"><img src="image.png" alt="An Image"></a> anchor tags with images
     pass through the text of <a href="#content">internal jumplinks</a> without treating them as links
     pass through the text of <a id="content">anchor tags with no href</a> without treating them as links

data/spec/assets/basic.html CHANGED Viewed

@@ -11,7 +11,7 @@
     <em>em tag content</em>
     before <em></em> and after empty em tags
     before <em> </em> and after em tags containing whitespace
-    before <em> <em> <br /> </em> </em> and after em tags containing whitespace
+    before <em> <em> <br> </em> </em> and after em tags containing whitespace
     <em><em>double em tags</em></em>
     <p><em><em>double em tags in p tag</em></em></p>
     a<em> em with leading and trailing </em>whitespace
@@ -22,7 +22,7 @@
     <strong>strong tag content</strong>
     before <strong></strong> and after empty strong tags
     before <strong> </strong> and after strong tags containing whitespace
-    before <strong> <strong> <br /> </strong> </strong> and after strong tags containing whitespace
+    before <strong> <strong> <br> </strong> </strong> and after strong tags containing whitespace
     <strong><strong>double strong tags</strong></strong>
     <p><strong><strong>double strong tags in p tag</strong></strong></p>
     before
@@ -39,10 +39,10 @@
     <b>b tag content</b>
     <i>i tag content</i>
-    br tags become double space followed by newline<br/>
+    br tags become double space followed by newline<br>
     before hr
-    <hr/>
+    <hr>
     after hr
     <div>section 1</div>

data/spec/assets/code.html CHANGED Viewed

@@ -19,4 +19,3 @@ end tell
   </body>
 </html>

data/spec/assets/from_the_wild.html CHANGED Viewed

@@ -1,14 +1,14 @@
 <p>
   <strong>
     <strong>
-      .<br />
+      .<br>
     </strong>
     *** intentcast
   </strong>
   : logo design
   <strong>
     <strong>
-      <br />
+      <br>
     </strong>
   </strong>
   <strong>

data/spec/assets/html_fragment.html CHANGED Viewed

@@ -1,3 +1,3 @@
 naked text 1
 <p>paragraph text</p>
-naked text 2
+naked text 2

data/spec/assets/lists.html CHANGED Viewed

@@ -35,7 +35,7 @@
     <ul>
       <li class="toclevel-1 tocsection-1"><a href="Basic_concepts"><span class="tocnumber">1</span> <span class="toctext">Basic concepts</span></a></li>
       <li class="toclevel-1 tocsection-2"><a href="History_of_the_idea"><span class="tocnumber">2</span> <span class="toctext">History of the idea</span></a></li>
-      <li class="toclevel-1 tocsection-3"><a href="Intelligence_explosion"><span class="tocnumber">3</span> <span class="toctext">Intelligence explosion</span></a>
+      <li class="toclevel-1 tocsection-3"><a href="Intelligence_explosion"><span class="tocnumber">3</span> <span class="toctext">Intelligence explosion</span></a></li>
     </ul>
     <ul>
@@ -86,7 +86,7 @@
           <li>bravo alpha</li>
           <li>bravo bravo
             <ul>
-              <li>bravo bravo alpha</i>
+              <li>bravo bravo alpha</li>
             </ul>
           </li>
         </ul>

data/spec/assets/paragraphs.html CHANGED Viewed

@@ -21,4 +21,4 @@
       <strong><em>Combination:&nbsp;</em></strong>
     </p>
   </body>
-</html>
+</html>

data/spec/components/basic_spec.rb CHANGED Viewed

@@ -40,4 +40,32 @@ describe ReverseMarkdown do
   it { is_expected.to match /before hr \n\* \* \*\n after hr/ }
   it { is_expected.to match /section 1\n ?\nsection 2/ }
+  describe 'whitespace handling between inline elements' do
+    it 'preserves whitespace (including newlines) between spans' do
+      input = "<span>Hello\n</span><span>World</span>"
+      result = ReverseMarkdown.convert(input)
+      expect(result).to eq "Hello World"
+    end
+    it 'preserves whitespace between inline elements in paragraphs' do
+      input = "<p><span>Hello\n</span><span>World</span></p>"
+      result = ReverseMarkdown.convert(input)
+      expect(result).to eq "Hello World\n\n"
+    end
+    it 'preserves whitespace between nested inline elements' do
+      # The text "A" is nested inside <span> inside <em>, but <em> has a following sibling
+      # This requires traversing up through parent nodes to find following content
+      input = "<p><em><span>A\n</span></em><span>B</span></p>"
+      result = ReverseMarkdown.convert(input)
+      expect(result).to eq "_A_ B\n\n"
+    end
+    it 'preserves whitespace surrounding links' do
+      # Issue #91: newlines around inline elements should become spaces
+      result = ReverseMarkdown.convert("a\n<a href='1'>link</a>\nis good")
+      expect(result.strip).to eq "a [link](1) is good"
+    end
+  end
 end

data/spec/components/from_the_wild_spec.rb CHANGED Viewed

@@ -6,7 +6,7 @@ describe ReverseMarkdown do
   subject { ReverseMarkdown.convert(input) }
   it "should make sense of strong-crazy markup (as seen in the wild)" do
-    expect(subject).to include "**.  \n \\*\\*\\* intentcast** : logo design   \n **.**\n\n"
+    expect(subject).to include "**.  \n  \\*\\*\\* intentcast** : logo design     \n    **.**\n\n"
   end
   it "should not over escape * or _" do

data/spec/lib/reverse_markdown/converters/em_spec.rb ADDED Viewed

@@ -0,0 +1,28 @@
+require 'spec_helper'
+describe ReverseMarkdown::Converters::Em do
+  let(:converter) { ReverseMarkdown::Converters::Em.new }
+  it 'returns an empty string if the node is empty' do
+    input = node_for('<em></em>')
+    expect(converter.convert(input)).to eq ''
+  end
+  it 'returns just the content if the em tag is nested in another em' do
+    input = node_for('<em><em>foo</em></em>')
+    expect(converter.convert(input.children.first, already_italic: true)).to eq 'foo'
+  end
+  it 'moves border whitespaces outside of the delimiters tag' do
+    input = node_for("<em> \n foo </em>")
+    expect(converter.convert(input)).to eq " _foo_ "
+  end
+  it 'splits markers at paragraph breaks' do
+    # Issue #95: <br><br> inside em creates a paragraph break
+    # Markers must be split so markdown renders correctly
+    result = ReverseMarkdown.convert('<em>hello<br><br>world</em>')
+    expect(result).to include('_hello_')
+    expect(result).to include('_world_')
+  end
+end

data/spec/lib/reverse_markdown/converters/h_spec.rb ADDED Viewed

@@ -0,0 +1,16 @@
+require 'spec_helper'
+describe ReverseMarkdown::Converters::H do
+  let(:converter) { ReverseMarkdown::Converters::H.new }
+  it 'merges line breaks into single line' do
+    # Markdown headings can't span multiple lines, so merge them
+    result = ReverseMarkdown.convert('<h1>foo<br>bar</h1>')
+    expect(result.strip).to eq '# foo bar'
+  end
+  it 'handles multiple line breaks' do
+    result = ReverseMarkdown.convert('<h2>a<br>b<br>c</h2>')
+    expect(result.strip).to eq '## a b c'
+  end
+end

data/spec/lib/reverse_markdown/converters/strong_spec.rb CHANGED Viewed

@@ -17,4 +17,12 @@ describe ReverseMarkdown::Converters::Strong do
     input = node_for("<strong> \n foo </strong>")
     expect(converter.convert(input)).to eq " **foo** "
   end
+  it 'splits markers at paragraph breaks' do
+    # Issue #95: <br><br> inside strong creates a paragraph break
+    # Markers must be split so markdown renders correctly
+    result = ReverseMarkdown.convert('<strong>hello<br><br>world</strong>')
+    expect(result).to include('**hello**')
+    expect(result).to include('**world**')
+  end
 end

data/spec/lib/reverse_markdown/converters/text_spec.rb CHANGED Viewed

@@ -22,7 +22,7 @@ describe ReverseMarkdown::Converters::Text do
     expect(result).to eq 'foo bar'
   end
-  it 'removes trailing newlines' do
+  it 'removes trailing newlines when no following content' do
     input = node_for("<p>foo bar\n\n</p>")
     result = converter.convert(input)
     expect(result).to eq 'foo bar'

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: reverse_markdown
 version: !ruby/object:Gem::Version
-  version: 3.0.1
+  version: 3.0.2
 platform: ruby
 authors:
 - Johannes Opper
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2025-12-05 00:00:00.000000000 Z
+date: 2026-01-20 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -94,20 +94,6 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
-- !ruby/object:Gem::Dependency
-  name: codeclimate-test-reporter
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
 description: Map simple html back into markdown, e.g. if you want to import existing
   html data in your application.
 email:
@@ -195,7 +181,9 @@ files:
 - spec/lib/reverse_markdown/converters/br_spec.rb
 - spec/lib/reverse_markdown/converters/del_spec.rb
 - spec/lib/reverse_markdown/converters/details_spec.rb
+- spec/lib/reverse_markdown/converters/em_spec.rb
 - spec/lib/reverse_markdown/converters/figure_spec.rb
+- spec/lib/reverse_markdown/converters/h_spec.rb
 - spec/lib/reverse_markdown/converters/li_spec.rb
 - spec/lib/reverse_markdown/converters/pre_spec.rb
 - spec/lib/reverse_markdown/converters/strong_spec.rb
@@ -260,7 +248,9 @@ test_files:
 - spec/lib/reverse_markdown/converters/br_spec.rb
 - spec/lib/reverse_markdown/converters/del_spec.rb
 - spec/lib/reverse_markdown/converters/details_spec.rb
+- spec/lib/reverse_markdown/converters/em_spec.rb
 - spec/lib/reverse_markdown/converters/figure_spec.rb
+- spec/lib/reverse_markdown/converters/h_spec.rb
 - spec/lib/reverse_markdown/converters/li_spec.rb
 - spec/lib/reverse_markdown/converters/pre_spec.rb
 - spec/lib/reverse_markdown/converters/strong_spec.rb