RubyGems - chunker-ruby - Versions diffs - 0.1.1 → 0.2.0 - Mend

chunker-ruby 0.1.1 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/lib/chunker_ruby/base_splitter.rb +38 -20
data/lib/chunker_ruby/semantic.rb +29 -12
data/lib/chunker_ruby/token.rb +1 -1
data/lib/chunker_ruby/version.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 2ef1a60bf60351dc527abc378d992bfa05b0de0d9c64af3db4edbb63b9539c61
-  data.tar.gz: 01452e12091762a1dee9e86b2613e525a3dd9536cd51fd5d52da19e4a4f829dd
+  metadata.gz: '0296653d093ff4ab8cfb8752ba9ba000fce26878a116341940a0b5ae23d8bf0d'
+  data.tar.gz: 3de883b592a703d1190d83e0cc4c0250998fb195de3c3d672dd6c97a78688f33
 SHA512:
-  metadata.gz: a4b276bd94c9c0e7c6749223eecf8e78aa578f65866a4ab98f0d53e6245fc29ff622e6d8d262d3937c22b1f9e35e23f875c3ca52d5fc188138090c251ce1de29
-  data.tar.gz: d4c86c9423f92c20526a4f771c61e95f24edc7a11bf6920189d0eb408213c49e6f9828e02b1c6cb25121953a2f352a9b8c9f9e46db42af0ec5eca98b71820a2a
+  metadata.gz: ad7ab58fcfa9abb0e5c6e1b97b7519ab24906ea16b9d641b25954a6d74c50a02ab852a60cc5e537e67b37f2668bc6e629b3635ff9015939e85923c3a6215fd19
+  data.tar.gz: 99f9997b05d00fb5f0406ff95ddd385b48446f6b0ed1c203e56e6bdf5018bab859d1ffe53d633238f7d573fae28f3b0aca611ef0dcdc3da683d608f1318515ed

data/lib/chunker_ruby/base_splitter.rb CHANGED Viewed

@@ -24,47 +24,63 @@ module ChunkerRuby
     private
     def build_chunks(pieces, original_text, metadata: {})
-      chunks = []
-      current_pos = 0
+      # Pre-compute offsets for each piece to avoid re-searching (fixes duplicate text)
+      piece_offsets = compute_piece_offsets(pieces, original_text)
+      merged = merge_pieces_with_offsets(pieces, piece_offsets)
-      merged = merge_pieces(pieces)
+      merged.map.with_index do |entry|
+        next if entry[:text].strip.empty?
-      merged.each do |chunk_text|
-        next if chunk_text.strip.empty?
-        # Find the actual position starting from current_pos
-        offset = original_text.index(chunk_text, current_pos) || current_pos
-        chunks << Chunk.new(
-          text: chunk_text,
-          index: chunks.size,
-          offset: offset,
+        Chunk.new(
+          text: entry[:text],
+          index: 0, # will be reindexed below
+          offset: entry[:offset],
           metadata: metadata.dup
         )
-        current_pos = offset + chunk_text.length
+      end.compact.each_with_index.map do |chunk, i|
+        Chunk.new(text: chunk.text, index: i, offset: chunk.offset, metadata: chunk.metadata)
       end
+    end
-      chunks
+    def compute_piece_offsets(pieces, original_text)
+      offsets = []
+      pos = 0
+      pieces.each do |piece|
+        idx = original_text.index(piece, pos)
+        if idx
+          offsets << idx
+          pos = idx + piece.length
+        else
+          offsets << pos
+        end
+      end
+      offsets
     end
     def merge_pieces(pieces)
+      merge_pieces_with_offsets(pieces, nil).map { |e| e[:text] }
+    end
+    def merge_pieces_with_offsets(pieces, piece_offsets)
       merged = []
       current_parts = []
+      current_offsets = []
       current_length = 0
-      pieces.each do |piece|
+      pieces.each_with_index do |piece, i|
         piece_len = piece.length
         if current_length + piece_len > @chunk_size && !current_parts.empty?
-          merged << current_parts.join
+          merged << { text: current_parts.join, offset: current_offsets.first || 0 }
           # Handle overlap: keep trailing parts that fit within overlap size
           overlap_parts = []
+          overlap_offsets = []
           overlap_length = 0
-          current_parts.reverse_each do |part|
+          current_parts.zip(current_offsets).reverse_each do |part, off|
             if overlap_length + part.length <= @chunk_overlap
               overlap_parts.unshift(part)
+              overlap_offsets.unshift(off)
               overlap_length += part.length
             else
               break
@@ -72,14 +88,16 @@ module ChunkerRuby
           end
           current_parts = overlap_parts
+          current_offsets = overlap_offsets
           current_length = overlap_length
         end
         current_parts << piece
+        current_offsets << (piece_offsets ? piece_offsets[i] : 0)
         current_length += piece_len
       end
-      merged << current_parts.join unless current_parts.empty?
+      merged << { text: current_parts.join, offset: current_offsets.first || 0 } unless current_parts.empty?
       merged
     end

data/lib/chunker_ruby/semantic.rb CHANGED Viewed

@@ -24,7 +24,9 @@ module ChunkerRuby
     private
     def split_into_sentences(text)
-      parts = text.split(/(?<=[.!?])\s+/)
+      # Use scan to preserve exact boundaries without losing whitespace info
+      parts = text.scan(/[^.!?]*[.!?]+\s*|[^.!?]+/)
+      parts.map! { |s| s.rstrip }
       parts.reject(&:empty?)
     end
@@ -48,14 +50,27 @@ module ChunkerRuby
     def build_semantic_chunks(sentences, split_points, original_text, metadata)
       chunks = []
-      current_pos = 0
       boundaries = [-1] + split_points + [sentences.length - 1]
+      # Pre-compute sentence positions in original text
+      sent_offsets = []
+      spos = 0
+      sentences.each do |s|
+        idx = original_text.index(s, spos)
+        sent_offsets << (idx || spos)
+        spos = (idx || spos) + s.length
+      end
       (0...boundaries.length - 1).each do |i|
         start_idx = boundaries[i] + 1
         end_idx = boundaries[i + 1]
         chunk_sentences = sentences[start_idx..end_idx]
-        chunk_text = chunk_sentences.join(" ")
+        # Extract chunk from original text to preserve spacing
+        chunk_start = sent_offsets[start_idx]
+        chunk_end = sent_offsets[end_idx] + sentences[end_idx].length
+        chunk_text = original_text[chunk_start...chunk_end].rstrip
+        chunk_text = chunk_sentences.join(" ") if chunk_text.strip.empty?
         # Enforce size constraints
         if chunk_text.length > @chunk_size
@@ -65,8 +80,7 @@ module ChunkerRuby
           )
           sub_chunks = sub_splitter.split(chunk_text, metadata: metadata)
           sub_chunks.each do |sc|
-            offset = original_text.index(sc.text, current_pos) || current_pos
-            current_pos = offset + sc.text.length
+            offset = chunk_start + (sc.offset || 0)
             chunks << Chunk.new(
               text: sc.text,
               index: chunks.size,
@@ -74,9 +88,10 @@ module ChunkerRuby
               metadata: sc.metadata
             )
           end
+          current_pos = chunk_end
         elsif chunk_text.length >= @min_chunk_size
-          offset = original_text.index(chunk_text, current_pos) || current_pos
-          current_pos = offset + chunk_text.length
+          offset = chunk_start
+          current_pos = chunk_end
           chunks << Chunk.new(
             text: chunk_text,
             index: chunks.size,
@@ -86,17 +101,19 @@ module ChunkerRuby
         elsif !chunks.empty?
           # Merge small chunk with previous
           prev = chunks.pop
-          merged = prev.text + " " + chunk_text
+          merged_end = chunk_end
+          merged_text = original_text[prev.offset...merged_end].rstrip
+          merged_text = prev.text + " " + chunk_text if merged_text.strip.empty?
           chunks << Chunk.new(
-            text: merged,
+            text: merged_text,
             index: prev.index,
             offset: prev.offset,
             metadata: prev.metadata
           )
-          current_pos = prev.offset + merged.length
+          current_pos = merged_end
         else
-          offset = original_text.index(chunk_text, current_pos) || current_pos
-          current_pos = offset + chunk_text.length
+          offset = chunk_start
+          current_pos = chunk_end
           chunks << Chunk.new(
             text: chunk_text,
             index: chunks.size,

data/lib/chunker_ruby/token.rb CHANGED Viewed

@@ -54,7 +54,7 @@ module ChunkerRuby
         stripped = raw_text.strip
         offset = text.index(stripped, current_pos) || current_pos
-        current_pos = offset + stripped.length
+        current_pos = offset + [stripped.length, 1].max
         chunks << Chunk.new(
           text: raw_text,

data/lib/chunker_ruby/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module ChunkerRuby
-  VERSION = "0.1.1"
+  VERSION = "0.2.0"
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: chunker-ruby
 version: !ruby/object:Gem::Version
-  version: 0.1.1
+  version: 0.2.0
 platform: ruby
 authors:
 - Johannes Dwi Cahyo