PyPI - spark-nlp - Versions diffs - 6.0.3__py2.py3-none-any.whl → 6.0.4__py2.py3-none-any.whl - Mend

spark-nlp 6.0.3py2.py3-none-any.whl → 6.0.4py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of spark-nlp might be problematic. Click here for more details.

Files changed (10) hide show

{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/METADATA +5 -5
{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/RECORD +10 -8
sparknlp/__init__.py +1 -1
sparknlp/annotator/dataframe_optimizer.py +216 -0
sparknlp/annotator/embeddings/__init__.py +1 -0
sparknlp/annotator/embeddings/minilm_embeddings.py +189 -0
sparknlp/internal/__init__.py +10 -0
sparknlp/reader/pdf_to_text.py +34 -1
{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/WHEEL +0 -0
{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/top_level.txt +0 -0

{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: spark-nlp
-Version: 6.0.3
+Version: 6.0.4
 Summary: John Snow Labs Spark NLP is a natural language processing library built on top of Apache Spark ML. It provides simple, performant & accurate NLP annotations for machine learning pipelines, that scale easily in a distributed environment.
 Home-page: https://github.com/JohnSnowLabs/spark-nlp
 Author: John Snow Labs
@@ -102,7 +102,7 @@ $ java -version
 $ conda create -n sparknlp python=3.7 -y
 $ conda activate sparknlp
 # spark-nlp by default is based on pyspark 3.x
-$ pip install spark-nlp==6.0.3 pyspark==3.3.1
+$ pip install spark-nlp==6.0.4 pyspark==3.3.1
 ```
 In Python console or Jupyter `Python3` kernel:
@@ -168,7 +168,7 @@ For a quick example of using pipelines and models take a look at our official [d
 ### Apache Spark Support
-Spark NLP *6.0.3* has been built on top of Apache Spark 3.4 while fully supports Apache Spark 3.0.x, 3.1.x, 3.2.x, 3.3.x, 3.4.x, and 3.5.x
+Spark NLP *6.0.4* has been built on top of Apache Spark 3.4 while fully supports Apache Spark 3.0.x, 3.1.x, 3.2.x, 3.3.x, 3.4.x, and 3.5.x
 | Spark NLP | Apache Spark 3.5.x | Apache Spark 3.4.x | Apache Spark 3.3.x | Apache Spark 3.2.x | Apache Spark 3.1.x | Apache Spark 3.0.x | Apache Spark 2.4.x | Apache Spark 2.3.x |
 |-----------|--------------------|--------------------|--------------------|--------------------|--------------------|--------------------|--------------------|--------------------|
@@ -198,7 +198,7 @@ Find out more about 4.x `SparkNLP` versions in our official [documentation](http
 ### Databricks Support
-Spark NLP 6.0.3 has been tested and is compatible with the following runtimes:
+Spark NLP 6.0.4 has been tested and is compatible with the following runtimes:
 | **CPU**            | **GPU**            |
 |--------------------|--------------------|
@@ -215,7 +215,7 @@ We are compatible with older runtimes. For a full list check databricks support
 ### EMR Support
-Spark NLP 6.0.3 has been tested and is compatible with the following EMR releases:
+Spark NLP 6.0.4 has been tested and is compatible with the following EMR releases:
 | **EMR Release**    |
 |--------------------|

{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/RECORD RENAMED Viewed

@@ -3,7 +3,7 @@ com/johnsnowlabs/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,
 com/johnsnowlabs/ml/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 com/johnsnowlabs/ml/ai/__init__.py,sha256=YQiK2M7U4d8y5irPy_HB8ae0mSpqS9583MH44pnKJXc,295
 com/johnsnowlabs/nlp/__init__.py,sha256=DPIVXtONO5xXyOk-HB0-sNiHAcco17NN13zPS_6Uw8c,294
-sparknlp/__init__.py,sha256=wE5XbgWtMI8X1kifJLQ43sFkaUAyfmkZj-wiBtT3YKU,13814
+sparknlp/__init__.py,sha256=4IcJQhg7fuPsgeY0yoV96ZJPK_LVPdXnH3cl_azT7eU,13814
 sparknlp/annotation.py,sha256=I5zOxG5vV2RfPZfqN9enT1i4mo6oBcn3Lrzs37QiOiA,5635
 sparknlp/annotation_audio.py,sha256=iRV_InSVhgvAwSRe9NTbUH9v6OGvTM-FPCpSAKVu0mE,1917
 sparknlp/annotation_image.py,sha256=xhCe8Ko-77XqWVuuYHFrjKqF6zPd8Z-RY_rmZXNwCXU,2547
@@ -13,6 +13,7 @@ sparknlp/util.py,sha256=2Z499Psal-NuEJ4CHQNgHnAJrS73QQNyCzKPo1MavU8,2279
 sparknlp/annotator/__init__.py,sha256=G746SY8dRM_AOf-gaoSKlh7D-2TKGpqqHhGr4XF-b2A,3534
 sparknlp/annotator/chunk2_doc.py,sha256=IJ3_vQHvzjqono90AZUzZ67QSYjwquuMYbN9_HSOVcg,3141
 sparknlp/annotator/chunker.py,sha256=8nz9B7R_mxKxcfJRfKvz2x_T29W3u4izE9k0wfYPzgE,5174
+sparknlp/annotator/dataframe_optimizer.py,sha256=P4GySLzz1lRCZX0UBRF9_IDuXlRS1XvRWz-B2L0zqMA,7771
 sparknlp/annotator/date2_chunk.py,sha256=tW3m_LExmhx8LMFWOGXqMyfNRXSr2dnoEHD-6DrnpXI,3153
 sparknlp/annotator/document_character_text_splitter.py,sha256=oNrOKJAKO2h1wr0bEuSqYrrltIU_Y6J6cTHy70yKy6s,9877
 sparknlp/annotator/document_normalizer.py,sha256=hU2fG6vaPfdngQapoeSu-_zS_LiBZNp2tcVBGl6eTpk,10973
@@ -102,7 +103,7 @@ sparknlp/annotator/cv/vit_for_image_classification.py,sha256=D2V3pxAd3rBi1817lxV
 sparknlp/annotator/dependency/__init__.py,sha256=eV43oXAGaYl2N1XKIEAAZJLNP8gpHm8VxuXDeDlQzR4,774
 sparknlp/annotator/dependency/dependency_parser.py,sha256=SxyvHPp8Hs1Xnm5X1nLTMi095XoQMtfL8pbys15mYAI,11212
 sparknlp/annotator/dependency/typed_dependency_parser.py,sha256=60vPdYkbFk9MPGegg3m9Uik9cMXpMZd8tBvXG39gNww,12456
-sparknlp/annotator/embeddings/__init__.py,sha256=mp1Nb6xooX6YYyJt9xVpYrSPseuJrEpnNKCpp2QiFWo,2466
+sparknlp/annotator/embeddings/__init__.py,sha256=Aw1oaP5DI0OS6259c0TEZZ6j3VFSvYFEerah5a-udVw,2528
 sparknlp/annotator/embeddings/albert_embeddings.py,sha256=6Rd1LIn8oFIpq_ALcJh-RUjPEO7Ht8wsHY6JHSFyMkw,9995
 sparknlp/annotator/embeddings/auto_gguf_embeddings.py,sha256=IlqkPGOH2lmZvxEyDSGX-G90DtTFOe2Rvujfbg5zvlU,20185
 sparknlp/annotator/embeddings/bert_embeddings.py,sha256=HVUjkg56kBcpGZCo-fmPG5uatMDF3swW_lnbpy1SgSI,8463
@@ -118,6 +119,7 @@ sparknlp/annotator/embeddings/e5v_embeddings.py,sha256=NFHO2nxDcgVzyKQ6yz1BWyqtj
 sparknlp/annotator/embeddings/elmo_embeddings.py,sha256=KV-KPs0Pq_OpPaHsnqBz2k_S7VdzyFZ4632IeFNKqJ8,9858
 sparknlp/annotator/embeddings/instructor_embeddings.py,sha256=CTKmbuBOx_KBM4JM-Y1U5LyR-6rrnpoBGbgGE_axS1c,8670
 sparknlp/annotator/embeddings/longformer_embeddings.py,sha256=jS4fxB5O0-d9ta9VKv8ai-17n5YHt5rML8QxUw7K4Io,8754
+sparknlp/annotator/embeddings/minilm_embeddings.py,sha256=iKO3FPA6qkGjJAyPlhYpAWssnrNvlYjYxZaZEC0QDhc,7436
 sparknlp/annotator/embeddings/mpnet_embeddings.py,sha256=7d6E4lS7jjkppDPvty1UHNNrbykkriFiysrxZ_RzL0U,7875
 sparknlp/annotator/embeddings/mxbai_embeddings.py,sha256=kCaYcM3lLYJjhElLK5isdxzJqIvoGZlUKKNkySMUkE8,6017
 sparknlp/annotator/embeddings/nomic_embeddings.py,sha256=WTllH3htx9wDD2Le8pZgKVPM_U8XNmroJb6f4PeVeP8,7347
@@ -225,7 +227,7 @@ sparknlp/common/read_as.py,sha256=imxPGwV7jr4Li_acbo0OAHHRGCBbYv-akzEGaBWEfcY,12
 sparknlp/common/recursive_annotator_approach.py,sha256=vqugBw22cE3Ff7PIpRlnYFuOlchgL0nM26D8j-NdpqU,1449
 sparknlp/common/storage.py,sha256=D91H3p8EIjNspjqAYu6ephRpCUtdcAir4_PrAbkIQWE,4842
 sparknlp/common/utils.py,sha256=Yne6yYcwKxhOZC-U4qfYoDhWUP_6BIaAjI5X_P_df1E,1306
-sparknlp/internal/__init__.py,sha256=ALwce14xOPRxfAPFhlINH4BVH0w3Mjp4_VWV4hSxNJ8,40146
+sparknlp/internal/__init__.py,sha256=wvC7ovDfII5GiYSwNpA1HHttnlXjbFgpYAGV68NsiQo,40446
 sparknlp/internal/annotator_java_ml.py,sha256=UGPoThG0rGXUOXGSQnDzEDW81Mu1s5RPF29v7DFyE3c,1187
 sparknlp/internal/annotator_transformer.py,sha256=fXmc2IWXGybqZpbEU9obmbdBYPc798y42zvSB4tqV9U,1448
 sparknlp/internal/extended_java_wrapper.py,sha256=hwP0133-hDiDf5sBF-P3MtUsuuDj1PpQbtGZQIRwzfk,2240
@@ -243,7 +245,7 @@ sparknlp/pretrained/resource_downloader.py,sha256=8_-rpvO2LsX_Lq4wMPif2ca3RlJZWE
 sparknlp/pretrained/utils.py,sha256=T1MrvW_DaWk_jcOjVLOea0NMFE9w8fe0ZT_5urZ_nEY,1099
 sparknlp/reader/__init__.py,sha256=-Toj3AIBki-zXPpV8ezFTI2LX1yP_rK2bhpoa8nBkTw,685
 sparknlp/reader/enums.py,sha256=MNGug9oJ1BBLM1Pbske13kAabalDzHa2kucF5xzFpHs,770
-sparknlp/reader/pdf_to_text.py,sha256=pI1BBQ44tXn8GIMv--_kZJ3bPP8R9Q1lYejkfhi5pMQ,5739
+sparknlp/reader/pdf_to_text.py,sha256=eWw-cwjosmcSZ9eHso0F5QQoeGBBnwsOhzhCXXvMjZA,7169
 sparknlp/reader/sparknlp_reader.py,sha256=ybnMlwJaBOVbjDw7ng39jcrshlQzexwq98_PTwVeM8g,16779
 sparknlp/training/__init__.py,sha256=qREi9u-5Vc2VjpL6-XZsyvu5jSEIdIhowW7_kKaqMqo,852
 sparknlp/training/conll.py,sha256=wKBiSTrjc6mjsl7Nyt6B8f4yXsDJkZb-sn8iOjix9cE,6961
@@ -275,7 +277,7 @@ sparknlp/training/_tf_graph_builders_1x/ner_dl/dataset_encoder.py,sha256=R4yHFN3
 sparknlp/training/_tf_graph_builders_1x/ner_dl/ner_model.py,sha256=EoCSdcIjqQ3wv13MAuuWrKV8wyVBP0SbOEW41omHlR0,23189
 sparknlp/training/_tf_graph_builders_1x/ner_dl/ner_model_saver.py,sha256=k5CQ7gKV6HZbZMB8cKLUJuZxoZWlP_DFWdZ--aIDwsc,2356
 sparknlp/training/_tf_graph_builders_1x/ner_dl/sentence_grouper.py,sha256=pAxjWhjazSX8Vg0MFqJiuRVw1IbnQNSs-8Xp26L4nko,870
-spark_nlp-6.0.3.dist-info/METADATA,sha256=qMqGlXdyZgzm8D3KkC03Jl73y7S_cAh24necRw1G_Qc,19722
-spark_nlp-6.0.3.dist-info/WHEEL,sha256=JNWh1Fm1UdwIQV075glCn4MVuCRs0sotJIq-J6rbxCU,109
-spark_nlp-6.0.3.dist-info/top_level.txt,sha256=uuytur4pyMRw2H_txNY2ZkaucZHUs22QF8-R03ch_-E,13
-spark_nlp-6.0.3.dist-info/RECORD,,
+spark_nlp-6.0.4.dist-info/METADATA,sha256=xU_AVvIsdTMbYdmEsyU-05YDMQizz-l26J6zKkoC1C8,19722
+spark_nlp-6.0.4.dist-info/WHEEL,sha256=JNWh1Fm1UdwIQV075glCn4MVuCRs0sotJIq-J6rbxCU,109
+spark_nlp-6.0.4.dist-info/top_level.txt,sha256=uuytur4pyMRw2H_txNY2ZkaucZHUs22QF8-R03ch_-E,13
+spark_nlp-6.0.4.dist-info/RECORD,,

sparknlp/__init__.py CHANGED Viewed

@@ -66,7 +66,7 @@ sys.modules['com.johnsnowlabs.ml.ai'] = annotator
 annotators = annotator
 embeddings = annotator
-__version__ = "6.0.3"
+__version__ = "6.0.4"
 def start(gpu=False,

sparknlp/annotator/dataframe_optimizer.py ADDED Viewed

@@ -0,0 +1,216 @@
+#  Copyright 2017-2025 John Snow Labs
+#
+#  Licensed under the Apache License, Version 2.0 (the "License");
+#  you may not use this file except in compliance with the License.
+#  You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+#  Unless required by applicable law or agreed to in writing, software
+#  distributed under the License is distributed on an "AS IS" BASIS,
+#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+#  See the License for the specific language governing permissions and
+#  limitations under the License.
+from pyspark.ml import Transformer
+from pyspark.ml.param.shared import *
+from pyspark.sql import DataFrame
+from typing import Any
+# Custom converter for string-to-string dictionaries
+def toStringDict(value):
+    if not isinstance(value, dict):
+        raise TypeError("Expected a dictionary of strings.")
+    return {str(k): str(v) for k, v in value.items()}
+class DataFrameOptimizer(Transformer):
+    """
+    Optimizes a Spark DataFrame by repartitioning, optionally caching, and persisting it to disk.
+    This transformer is intended to improve performance for Spark NLP pipelines or when preparing
+    data for export. It allows partition tuning via `numPartitions` directly, or indirectly using
+    `executorCores` and `numWorkers`. The DataFrame can also be persisted in a specified format
+    (`csv`, `json`, or `parquet`) with additional writer options.
+    Parameters
+    ----------
+    executorCores : int, optional
+        Number of cores per Spark executor (used to compute number of partitions if `numPartitions` is not set).
+    numWorkers : int, optional
+        Number of executor nodes (used to compute number of partitions if `numPartitions` is not set).
+    numPartitions : int, optional
+        Target number of partitions for the DataFrame (overrides calculation via cores × workers).
+    doCache : bool, default False
+        Whether to cache the DataFrame after repartitioning.
+    persistPath : str, optional
+        Path to save the DataFrame output (if persistence is enabled).
+    persistFormat : str, optional
+        Format to persist the DataFrame in: one of `'csv'`, `'json'`, or `'parquet'`.
+    outputOptions : dict, optional
+        Dictionary of options for the DataFrameWriter (e.g., `{"compression": "snappy"}` for parquet).
+    Examples
+    --------
+    >>> optimizer = DataFrameOptimizer() \\
+    ...     .setExecutorCores(4) \\
+    ...     .setNumWorkers(5) \\
+    ...     .setDoCache(True) \\
+    ...     .setPersistPath("/tmp/out") \\
+    ...     .setPersistFormat("parquet") \\
+    ...     .setOutputOptions({"compression": "snappy"})
+    >>> optimized_df = optimizer.transform(input_df)
+    Notes
+    -----
+    - You must specify either `numPartitions`, or both `executorCores` and `numWorkers`.
+    - Schema is preserved; no columns are modified or removed.
+    """
+    executorCores = Param(
+        Params._dummy(),
+        "executorCores",
+        "Number of cores per executor",
+        typeConverter = TypeConverters.toInt
+    )
+    numWorkers = Param(
+        Params._dummy(),
+        "numWorkers",
+        "Number of Spark workers",
+        typeConverter = TypeConverters.toInt
+    )
+    numPartitions = Param(
+        Params._dummy(),
+        "numPartitions",
+        "Total number of partitions (overrides executorCores * numWorkers)",
+        typeConverter = TypeConverters.toInt
+    )
+    doCache = Param(
+        Params._dummy(),
+        "doCache",
+        "Whether to cache the DataFrame",
+        typeConverter = TypeConverters.toBoolean
+    )
+    persistPath = Param(
+        Params._dummy(),
+        "persistPath",
+        "Optional path to persist the DataFrame",
+        typeConverter = TypeConverters.toString
+    )
+    persistFormat = Param(
+        Params._dummy(),
+        "persistFormat",
+        "Format to persist: parquet, json, csv",
+        typeConverter = TypeConverters.toString
+    )
+    outputOptions = Param(
+        Params._dummy(),
+        "outputOptions",
+        "Additional writer options",
+        typeConverter=toStringDict
+    )
+    def __init__(self):
+        super().__init__()
+        self._setDefault(
+            doCache=False,
+            persistFormat="none",
+            numPartitions=1,
+            executorCores=1,
+            numWorkers=1
+        )
+    # Parameter setters
+    def setExecutorCores(self, value: int):
+        """Set the number of executor cores."""
+        return self._set(executorCores=value)
+    def setNumWorkers(self, value: int):
+        """Set the number of Spark workers."""
+        return self._set(numWorkers=value)
+    def setNumPartitions(self, value: int):
+        """Set the total number of partitions (overrides cores * workers)."""
+        return self._set(numPartitions=value)
+    def setDoCache(self, value: bool):
+        """Set whether to cache the DataFrame."""
+        return self._set(doCache=value)
+    def setPersistPath(self, value: str):
+        """Set the path where the DataFrame should be persisted."""
+        return self._set(persistPath=value)
+    def setPersistFormat(self, value: str):
+        """Set the format to persist the DataFrame (parquet, json, csv)."""
+        return self._set(persistFormat=value)
+    def setOutputOptions(self, value: dict):
+        """Set additional writer options (e.g. for csv headers)."""
+        return self._set(outputOptions=value)
+    # Optional bulk setter
+    def setParams(self, **kwargs: Any):
+        for param, value in kwargs.items():
+            self._set(**{param: value})
+        return self
+    def _transform(self, dataset: DataFrame) -> DataFrame:
+        self._validate_params()
+        part_count = self.getOrDefault(self.numPartitions)
+        cores = self.getOrDefault(self.executorCores)
+        workers = self.getOrDefault(self.numWorkers)
+        if cores is None or workers is None:
+            raise ValueError("Provide either numPartitions or both executorCores and numWorkers")
+        if part_count == 1:
+            part_count = cores * workers
+        optimized_df = dataset.repartition(part_count)
+        if self.getOrDefault(self.doCache):
+            optimized_df = optimized_df.cache()
+        format = self.getOrDefault(self.persistFormat).lower()
+        if format != "none":
+            path = self.getOrDefault(self.persistPath)
+            if not path:
+                raise ValueError("persistPath must be set when persistFormat is not 'none'")
+            writer = optimized_df.write.mode("overwrite")
+            if self.isDefined(self.outputOptions):
+                writer = writer.options(**self.getOrDefault(self.outputOptions))
+            if format == "parquet":
+                writer.parquet(path)
+            elif format == "json":
+                writer.json(path)
+            elif format == "csv":
+                writer.csv(path)
+            else:
+                raise ValueError(f"Unsupported format: {format}")
+        return optimized_df
+    def _validate_params(self):
+        if self.isDefined(self.executorCores):
+            val = self.getOrDefault(self.executorCores)
+            if val <= 0:
+                raise ValueError("executorCores must be > 0")
+        if self.isDefined(self.numWorkers):
+            val = self.getOrDefault(self.numWorkers)
+            if val <= 0:
+                raise ValueError("numWorkers must be > 0")
+        if self.isDefined(self.numPartitions):
+            val = self.getOrDefault(self.numPartitions)
+            if val <= 0:
+                raise ValueError("numPartitions must be > 0")
+        if self.isDefined(self.persistPath) and not self.isDefined(self.persistFormat):
+            raise ValueError("persistFormat must be defined when persistPath is set")

sparknlp/annotator/embeddings/__init__.py CHANGED Viewed

@@ -25,6 +25,7 @@ from sparknlp.annotator.embeddings.elmo_embeddings import *
 from sparknlp.annotator.embeddings.e5_embeddings import *
 from sparknlp.annotator.embeddings.instructor_embeddings import *
 from sparknlp.annotator.embeddings.longformer_embeddings import *
+from sparknlp.annotator.embeddings.minilm_embeddings import *
 from sparknlp.annotator.embeddings.mpnet_embeddings import *
 from sparknlp.annotator.embeddings.roberta_embeddings import *
 from sparknlp.annotator.embeddings.roberta_sentence_embeddings import *

sparknlp/annotator/embeddings/minilm_embeddings.py ADDED Viewed

@@ -0,0 +1,189 @@
+#  Copyright 2017-2022 John Snow Labs
+#
+#  Licensed under the Apache License, Version 2.0 (the "License");
+#  you may not use this file except in compliance with the License.
+#  You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+#  Unless required by applicable law or agreed to in writing, software
+#  distributed under the License is distributed on an "AS IS" BASIS,
+#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+#  See the License for the specific language governing permissions and
+#  limitations under the License.
+"""Contains classes for MiniLMEmbeddings."""
+from sparknlp.common import *
+class MiniLMEmbeddings(AnnotatorModel,
+                           HasEmbeddingsProperties,
+                           HasCaseSensitiveProperties,
+                           HasStorageRef,
+                           HasBatchedAnnotate,
+                           HasMaxSentenceLengthLimit):
+    """Sentence embeddings using MiniLM.
+    MiniLM, a lightweight and efficient sentence embedding model that can generate text embeddings for various NLP tasks (e.g., classification, retrieval, clustering, text evaluation, etc.)
+    Note that this annotator is only supported for Spark Versions 3.4 and up.
+    Pretrained models can be loaded with :meth:`.pretrained` of the companion
+    object:
+    >>> embeddings = MiniLMEmbeddings.pretrained() \\
+    ...     .setInputCols(["document"]) \\
+    ...     .setOutputCol("minilm_embeddings")
+    The default model is ``"minilm_l6_v2"``, if no name is provided.
+    For available pretrained models please see the
+    `Models Hub <https://sparknlp.org/models?q=MiniLM>`__.
+    ====================== ======================
+    Input Annotation types Output Annotation type
+    ====================== ======================
+    ``DOCUMENT``            ``SENTENCE_EMBEDDINGS``
+    ====================== ======================
+    Parameters
+    ----------
+    batchSize
+        Size of every batch , by default 8
+    dimension
+        Number of embedding dimensions, by default 384
+    caseSensitive
+        Whether to ignore case in tokens for embeddings matching, by default False
+    maxSentenceLength
+        Max sentence length to process, by default 512
+    configProtoBytes
+        ConfigProto from tensorflow, serialized into byte array.
+    References
+    ----------
+    `MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers <https://arxiv.org/abs/2002.10957>`__
+    `MiniLM Github Repository <https://github.com/microsoft/unilm/tree/master/minilm>`__
+    **Paper abstract**
+    *We present a simple and effective approach to compress large pre-trained Transformer models
+    by distilling the self-attention module of the last Transformer layer. The compressed model
+    (called MiniLM) can be trained with task-agnostic distillation and then fine-tuned on various
+    downstream tasks. We evaluate MiniLM on the GLUE benchmark and show that it achieves comparable
+    results with BERT-base while being 4.3x smaller and 5.5x faster. We also show that MiniLM can
+    be further compressed to 22x smaller and 12x faster than BERT-base while maintaining comparable
+    performance.*
+    Examples
+    --------
+    >>> import sparknlp
+    >>> from sparknlp.base import *
+    >>> from sparknlp.annotator import *
+    >>> from pyspark.ml import Pipeline
+    >>> documentAssembler = DocumentAssembler() \\
+    ...     .setInputCol("text") \\
+    ...     .setOutputCol("document")
+    >>> embeddings = MiniLMEmbeddings.pretrained() \\
+    ...     .setInputCols(["document"]) \\
+    ...     .setOutputCol("minilm_embeddings")
+    >>> embeddingsFinisher = EmbeddingsFinisher() \\
+    ...     .setInputCols(["minilm_embeddings"]) \\
+    ...     .setOutputCols("finished_embeddings") \\
+    ...     .setOutputAsVector(True)
+    >>> pipeline = Pipeline().setStages([
+    ...     documentAssembler,
+    ...     embeddings,
+    ...     embeddingsFinisher
+    ... ])
+    >>> data = spark.createDataFrame([["This is a sample sentence for embedding generation.",
+    ... "Another example sentence to demonstrate MiniLM embeddings.",
+    ... ]]).toDF("text")
+    >>> result = pipeline.fit(data).transform(data)
+    >>> result.selectExpr("explode(finished_embeddings) as result").show(5, 80)
+    +--------------------------------------------------------------------------------+
+    |                                                                          result|
+    +--------------------------------------------------------------------------------+
+    |[[0.1234567, -0.2345678, 0.3456789, -0.4567890, 0.5678901, -0.6789012...|
+    |[[0.2345678, -0.3456789, 0.4567890, -0.5678901, 0.6789012, -0.7890123...|
+    +--------------------------------------------------------------------------------+
+    """
+    name = "MiniLMEmbeddings"
+    inputAnnotatorTypes = [AnnotatorType.DOCUMENT]
+    outputAnnotatorType = AnnotatorType.SENTENCE_EMBEDDINGS
+    configProtoBytes = Param(Params._dummy(),
+                             "configProtoBytes",
+                             "ConfigProto from tensorflow, serialized into byte array. Get with config_proto.SerializeToString()",
+                             TypeConverters.toListInt)
+    def setConfigProtoBytes(self, b):
+        """Sets configProto from tensorflow, serialized into byte array.
+        Parameters
+        ----------
+        b : List[int]
+            ConfigProto from tensorflow, serialized into byte array
+        """
+        return self._set(configProtoBytes=b)
+    @keyword_only
+    def __init__(self, classname="com.johnsnowlabs.nlp.embeddings.MiniLMEmbeddings", java_model=None):
+        super(MiniLMEmbeddings, self).__init__(
+            classname=classname,
+            java_model=java_model
+        )
+        self._setDefault(
+            dimension=384,
+            batchSize=8,
+            maxSentenceLength=512,
+            caseSensitive=False,
+        )
+    @staticmethod
+    def loadSavedModel(folder, spark_session, use_openvino=False):
+        """Loads a locally saved model.
+        Parameters
+        ----------
+        folder : str
+            Folder of the saved model
+        spark_session : pyspark.sql.SparkSession
+            The current SparkSession
+        use_openvino : bool
+            Use OpenVINO backend
+        Returns
+        -------
+        MiniLMEmbeddings
+            The restored model
+        """
+        from sparknlp.internal import _MiniLMLoader
+        jModel = _MiniLMLoader(folder, spark_session._jsparkSession, use_openvino)._java_obj
+        return MiniLMEmbeddings(java_model=jModel)
+    @staticmethod
+    def pretrained(name="minilm_l6_v2", lang="en", remote_loc=None):
+        """Downloads and loads a pretrained model.
+        Parameters
+        ----------
+        name : str, optional
+            Name of the pretrained model, by default "minilm_l6_v2"
+        lang : str, optional
+            Language of the pretrained model, by default "en"
+        remote_loc : str, optional
+            Optional remote address of the resource, by default None. Will use
+            Spark NLPs repositories otherwise.
+        Returns
+        -------
+        MiniLMEmbeddings
+            The restored model
+        """
+        from sparknlp.pretrained import ResourceDownloader
+        return ResourceDownloader.downloadModel(MiniLMEmbeddings, name, lang, remote_loc)

sparknlp/internal/__init__.py CHANGED Viewed

@@ -257,6 +257,16 @@ class _E5Loader(ExtendedJavaWrapper):
         )
+class _MiniLMLoader(ExtendedJavaWrapper):
+    def __init__(self, path, jspark, use_openvino=False):
+        super(_MiniLMLoader, self).__init__(
+            "com.johnsnowlabs.nlp.embeddings.MiniLMEmbeddings.loadSavedModel",
+            path,
+            jspark,
+            use_openvino,
+        )
 class _BGELoader(ExtendedJavaWrapper):
     def __init__(self, path, jspark):
         super(_BGELoader, self).__init__(

sparknlp/reader/pdf_to_text.py CHANGED Viewed

@@ -1,3 +1,16 @@
+#  Copyright 2017-2025 John Snow Labs
+#
+#  Licensed under the Apache License, Version 2.0 (the "License");
+#  you may not use this file except in compliance with the License.
+#  You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+#  Unless required by applicable law or agreed to in writing, software
+#  distributed under the License is distributed on an "AS IS" BASIS,
+#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+#  See the License for the specific language governing permissions and
+#  limitations under the License.
 from pyspark import keyword_only
 from pyspark.ml.param import Param, Params, TypeConverters
 from pyspark.ml.param.shared import HasInputCol, HasOutputCol
@@ -89,6 +102,14 @@ class PdfToText(JavaTransformer, HasInputCol, HasOutputCol,
                         "Force to extract only number of pages",
                         typeConverter=TypeConverters.toBoolean)
+    extractCoordinates = Param(Params._dummy(), "extractCoordinates",
+                               "Force extract coordinates of text.",
+                               typeConverter=TypeConverters.toBoolean)
+    normalizeLigatures = Param(Params._dummy(), "normalizeLigatures",
+                               "Whether to convert ligature chars such as 'ﬂ' into its corresponding chars (e.g., {'f', 'l'}).",
+                               typeConverter=TypeConverters.toBoolean)
     @keyword_only
     def __init__(self):
         """
@@ -154,4 +175,16 @@ class PdfToText(JavaTransformer, HasInputCol, HasOutputCol,
         """
         Sets the value of :py:attr:`sort`.
         """
-        return self._set(sort=value)
+        return self._set(sort=value)
+    def setExtractCoordinates(self, value):
+        """
+        Sets the value of :py:attr:`extractCoordinates`.
+        """
+        return self._set(extractCoordinates=value)
+    def setNormalizeLigatures(self, value):
+        """
+        Sets the value of :py:attr:`normalizeLigatures`.
+        """
+        return self._set(normalizeLigatures=value)

{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/WHEEL RENAMED Viewed

File without changes

{spark_nlp-6.0.3.dist-info → spark_nlp-6.0.4.dist-info}/top_level.txt RENAMED Viewed

File without changes

spark-nlp 6.0.3__py2.py3-none-any.whl → 6.0.4__py2.py3-none-any.whl

Potentially problematic release.

spark-nlp 6.0.3py2.py3-none-any.whl → 6.0.4py2.py3-none-any.whl