PyPI - sentencex - Versions diffs - 1.0.2__tar.gz → 1.0.4__tar.gz - Mend

sentencex 1.0.2tar.gz → 1.0.4tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of sentencex might be problematic. Click here for more details.

Files changed (123) hide show

{sentencex-1.0.2 → sentencex-1.0.4}/Cargo.lock RENAMED Viewed

@@ -653,7 +653,7 @@ checksum = "cd0b0ec5f1c1ca621c432a25813d8d60c88abe6d3e08a3eb9cf37d97a0fe3d73"
 [[package]]
 name = "sentencex"
-version = "0.1.2"
+version = "0.1.4"
 dependencies = [
  "clap",
  "criterion",
@@ -666,7 +666,7 @@ dependencies = [
 [[package]]
 name = "sentencex-js"
-version = "1.0.2"
+version = "1.0.4"
 dependencies = [
  "neon",
  "neon-build",
@@ -675,7 +675,7 @@ dependencies = [
 [[package]]
 name = "sentencex-py"
-version = "0.1.1"
+version = "0.1.4"
 dependencies = [
  "pyo3",
  "sentencex",
@@ -683,7 +683,7 @@ dependencies = [
 [[package]]
 name = "sentencex-wasm"
-version = "0.1.3"
+version = "0.1.4"
 dependencies = [
  "sentencex",
  "serde",

{sentencex-1.0.2 → sentencex-1.0.4}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: sentencex
-Version: 1.0.2
+Version: 1.0.4
 Classifier: Intended Audience :: Developers
 Classifier: Intended Audience :: Science/Research
 Classifier: Topic :: Text Processing

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/Cargo.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [package]
 name = "sentencex-py"
-version = "0.1.1"
+version = "0.1.4"
 edition = "2024"
 description = "Sentence segmentation library with wide language support optimized for speed and utility."
 authors = ["Santhosh Thottingal <santhosh.thottingal@gmail.com>"]

sentencex-1.0.4/bindings/python/publish.sh ADDED Viewed

@@ -0,0 +1,6 @@
+#!/bin/bash
+# Build and publish at pypi
+uv tool run maturin build -i python3.12
+uv tool run maturin build -i python3.13
+uv tool run maturin build -i python3.14
+uv tool run maturin publish

sentencex-1.0.4/paris.txt ADDED Viewed

@@ -0,0 +1,59 @@
+	Paris (
+	French pronunciation:
+		[paʁi]
+		 (
+				listen
+		)) Another sentence
+	ends here.
+[
+  '\n' +
+    '\tParis (\n' +
+    '\tFrench pronunciation:\n' +
+    '\t\n' +
+    '\t\n' +
+    '\t\t[paʁi]\n' +
+    '\t\n' +
+    '\t\n' +
+    '\t\t (\n' +
+    '\t\t\n' +
+    '\t\t\t\n' +
+    '\t\t\t\t\n' +
+    '\t\t\t\t\t\n' +
+    '\t\t\t\t\t\t\n' +
+    '\t\t\t\t\t\t\t\n' +
+    '\t\t\t\t\t\t\n' +
+    '\t\t\t\t\t\n' +
+    '\t\t\t\t\t \n' +
+    '\t\t\t\t\n' +
+    '\t\t\t\tlisten\n' +
+    '\t\t\t\n' +
+    '\t\t)) Another sentence\n' +
+    '\t\n' +
+    '\t\t\n' +
+    '\t\t\t\n' +
+    '\t\t\n' +
+    '\tends here.'
+]
+<p id="mwEA"><span class="cx-segment" data-segmentid="0"><b id="mwEQ">Paris</b> (<small about="#mwt16" data-mw="{&#34;parts&#34;:[{&#34;template&#34;:{&#34;target&#34;:{&#34;wt&#34;:&#34;IPA-fr&#34;,&#34;href&#34;:&#34;./Template:IPA-fr&#34;},&#34;params&#34;:{&#34;1&#34;:{&#34;wt&#34;:&#34;paʁi&#34;},&#34;3&#34;:{&#34;wt&#34;:&#34;Paris1.ogg&#34;}},&#34;i&#34;:0}}]}" id="mwEg" typeof="mw:Transclusion">French pronunciation:</small><span about="#mwt16" class="IPA" title="Representation in the International Phonetic Alphabet (IPA)"><a class="cx-link" data-linkid="1" href="./Help:IPA/French" rel="mw:WikiLink" title="Help:IPA/French">[paʁi]</a></span><small about="#mwt16" class="nowrap" id="mwEw"><span typeof="mw:Entity"> </span>(<span class="unicode haudio"><span class="fn"><span style="white-space:nowrap"><span data-mw="{&#34;caption&#34;:&#34;About this sound&#34;}" typeof="mw:Image"><a href="./File:Paris1.ogg"><img data-file-height="20" data-file-type="drawing" data-file-width="20" height="11" resource="./File:Loudspeaker.svg" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Loudspeaker.svg/11px-Loudspeaker.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Loudspeaker.svg/22px-Loudspeaker.svg.png 2x, //upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Loudspeaker.svg/17px-Loudspeaker.svg.png 1.5x" width="11"></img></a></span><span typeof="mw:Entity"> </span></span><a href="//upload.wikimedia.org/wikipedia/commons/2/2c/Paris1.ogg" rel="mw:MediaLink" title="Paris1.ogg">listen</a></span></span>)</small>) Another sentence<span data-mw="{&#34;caption&#34;:&#34;A different caption&#34;}" typeof="mw:Image"><a href="./File:Paris1232.ogg"><img data-file-height="20" data-file-type="drawing" data-file-width="20" height="11" resource="./File:Loudspeaker.svg" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Loudspeaker.svg/11px-Loudspeaker.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Loudspeaker.svg/22px-Loudspeaker.svg.png 2x, //upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Loudspeaker.svg/17px-Loudspeaker.svg.png 1.5x" width="11"></img></a></span>ends here.</span></p>
+==Categories==
+[]

{sentencex-1.0.2 → sentencex-1.0.4}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "sentencex"
-version = "1.0.2"
+version = "1.0.4"
 requires-python = ">=3.10"
 description = "Sentence segmenter that supports ~300 languages"
 authors = [{name = "Santhosh Thottingal", email = "santhosh.thottingal@gmail.com"}]

{sentencex-1.0.2 → sentencex-1.0.4}/src/constants.rs RENAMED Viewed

@@ -26,7 +26,7 @@ pub fn get_quote_pairs() -> HashMap<&'static str, &'static str> {
 lazy_static::lazy_static! {
     pub static ref PARENS_REGEX: Regex = Regex::new(r"[\(（<{\[](?:[^\)\]}>）]|\\[\)\]}>）])*[\)\]}>）]").unwrap();
     pub static ref EMAIL_REGEX: Regex = Regex::new(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,7}").unwrap();
-    pub static ref NUMBERED_REFERENCE_REGEX: Regex = Regex::new(r"^ ?(\[\d+])+").unwrap();
+    pub static ref NUMBERED_REFERENCE_REGEX: Regex = Regex::new(r"^(\s*\[\d+])+").unwrap();
     pub static ref SPACE_AFTER_SEPARATOR: Regex = Regex::new(r"^\s+").unwrap();
     pub static ref QUOTES_REGEX: Regex = {
         let quote_pairs = get_quote_pairs();

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/language.rs RENAMED Viewed

@@ -42,9 +42,8 @@ pub trait Language {
         let mut boundaries = Vec::with_capacity(estimated_sentences);
         // Split by paragraph breaks (one or more newlines with optional whitespace)
-        let para_split_re = Regex::new(r"\n[\r\s]*\n").unwrap();
+        let para_split_re = Regex::new(r"\n[\r]*\n").unwrap();
         let paragraphs: Vec<&str> = para_split_re.split(text).collect();
         // Pre-calculate all paragraph offsets in one pass
         let mut paragraph_offsets = Vec::with_capacity(paragraphs.len());
         let mut current_offset = 0;

{sentencex-1.0.2 → sentencex-1.0.4}/src/lib.rs RENAMED Viewed

@@ -107,7 +107,7 @@ fn chunk_text(text: &str, chunk_size: usize) -> Vec<&str> {
     let mut chunks = Vec::new();
     // Split by paragraph breaks (one or more newlines with optional whitespace)
-    let re = Regex::new(r"\n[\r\s]*\n").unwrap();
+    let re = Regex::new(r"\n[\r]*\n").unwrap();
     // Get paragraph parts and their positions
     let mut paragraphs = Vec::new();

{sentencex-1.0.2 → sentencex-1.0.4}/src/main.rs RENAMED Viewed

@@ -59,7 +59,7 @@ fn main() {
         let sentences = segment(&cli.language, &text);
         let elapsed = start_time.elapsed();
         for sentence in sentences.iter() {
-            println!("{}", sentence);
+            println!("* {}", sentence);
         }
         eprintln!("Time taken for segment(): {:?}", elapsed);

{sentencex-1.0.2 → sentencex-1.0.4}/tests/en.txt RENAMED Viewed

@@ -259,6 +259,11 @@ Hydrogen is a gas. [1] It is colorless, odorless, tasteless and highly flammable
 Hydrogen is a gas. [1]
 It is colorless, odorless, tasteless and highly flammable
 ===
+Hydrogen is a gas. [1][2] [3] It is colorless, odorless, tasteless and highly flammable
+---
+Hydrogen is a gas. [1][2] [3]
+It is colorless, odorless, tasteless and highly flammable
+===
 This function (see. section 4.2) is important. Let's continue.
 ---
 This function (see. section 4.2) is important.

{sentencex-1.0.2 → sentencex-1.0.4}/.github/workflows/node.yaml RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/.github/workflows/python.yaml RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/.github/workflows/rust.yml RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/.github/workflows/wasm.yaml RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/.gitignore RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/100-0.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/11-0.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/1661-0.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/LICENSE RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/README.md RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/TODO.md RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/benches/segment_benchmark.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/.gitignore RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/.python-version RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/Cargo.lock RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/README.md RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/example.py RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/src/lib.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/tests/__init__.py RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/tests/test_sentencex.py RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/bindings/python/uv.lock RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/demo/index.html RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/examples/rust_example.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/oxygen.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/am.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/ar.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/bg.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/bn.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/da.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/de.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/el.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/en.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/es.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/fi.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/fr.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/gu.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/hi.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/it.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/kk.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/kn.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/ml.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/nl.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/pa.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/pl.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/pt.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/ru.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/sk.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/ta.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/abbrev/te.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/am.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/ar.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/bg.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/bn.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/ca.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/da.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/de.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/el.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/en.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/es.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/fallbacks.yaml RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/fi.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/fr.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/gu.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/hi.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/hy.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/it.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/ja.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/kk.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/kn.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/ml.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/mod.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/mr.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/my.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/nl.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/pa.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/pl.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/pt.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/ru.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/sk.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/ta.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/src/languages/te.rs RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/am.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ar.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/bg.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/bn.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ca.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/da.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/de.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/el.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/es.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/fi.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/fr.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/gu.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/hi.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/hy.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/it.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ja.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/kk.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/kn.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ml.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/mr.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/my.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/nl.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/pa.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/pl.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/pt.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ru.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/sk.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ta.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/te.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/ur.txt RENAMED Viewed

File without changes

{sentencex-1.0.2 → sentencex-1.0.4}/tests/zh.txt RENAMED Viewed

File without changes

sentencex 1.0.2__tar.gz → 1.0.4__tar.gz

Potentially problematic release.

sentencex 1.0.2tar.gz → 1.0.4tar.gz