PyPI - fastembed-bio - Versions diffs - 0.1.0__py3-none-any.whl - Mend

fastembed-bio 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (66) hide show

fastembed/__init__.py +24 -0
fastembed/bio/__init__.py +3 -0
fastembed/bio/protein_embedding.py +456 -0
fastembed/common/__init__.py +3 -0
fastembed/common/model_description.py +52 -0
fastembed/common/model_management.py +471 -0
fastembed/common/onnx_model.py +188 -0
fastembed/common/preprocessor_utils.py +84 -0
fastembed/common/types.py +27 -0
fastembed/common/utils.py +69 -0
fastembed/embedding.py +24 -0
fastembed/image/__init__.py +3 -0
fastembed/image/image_embedding.py +135 -0
fastembed/image/image_embedding_base.py +55 -0
fastembed/image/onnx_embedding.py +217 -0
fastembed/image/onnx_image_model.py +156 -0
fastembed/image/transform/functional.py +221 -0
fastembed/image/transform/operators.py +499 -0
fastembed/late_interaction/__init__.py +5 -0
fastembed/late_interaction/colbert.py +301 -0
fastembed/late_interaction/jina_colbert.py +58 -0
fastembed/late_interaction/late_interaction_embedding_base.py +80 -0
fastembed/late_interaction/late_interaction_text_embedding.py +180 -0
fastembed/late_interaction/token_embeddings.py +83 -0
fastembed/late_interaction_multimodal/__init__.py +5 -0
fastembed/late_interaction_multimodal/colmodernvbert.py +532 -0
fastembed/late_interaction_multimodal/colpali.py +327 -0
fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding.py +189 -0
fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding_base.py +86 -0
fastembed/late_interaction_multimodal/onnx_multimodal_model.py +291 -0
fastembed/parallel_processor.py +253 -0
fastembed/postprocess/__init__.py +3 -0
fastembed/postprocess/muvera.py +362 -0
fastembed/py.typed +1 -0
fastembed/rerank/cross_encoder/__init__.py +3 -0
fastembed/rerank/cross_encoder/custom_text_cross_encoder.py +47 -0
fastembed/rerank/cross_encoder/onnx_text_cross_encoder.py +239 -0
fastembed/rerank/cross_encoder/onnx_text_model.py +204 -0
fastembed/rerank/cross_encoder/text_cross_encoder.py +178 -0
fastembed/rerank/cross_encoder/text_cross_encoder_base.py +63 -0
fastembed/sparse/__init__.py +4 -0
fastembed/sparse/bm25.py +359 -0
fastembed/sparse/bm42.py +369 -0
fastembed/sparse/minicoil.py +372 -0
fastembed/sparse/sparse_embedding_base.py +90 -0
fastembed/sparse/sparse_text_embedding.py +143 -0
fastembed/sparse/splade_pp.py +196 -0
fastembed/sparse/utils/minicoil_encoder.py +146 -0
fastembed/sparse/utils/sparse_vectors_converter.py +244 -0
fastembed/sparse/utils/tokenizer.py +120 -0
fastembed/sparse/utils/vocab_resolver.py +202 -0
fastembed/text/__init__.py +3 -0
fastembed/text/clip_embedding.py +56 -0
fastembed/text/custom_text_embedding.py +97 -0
fastembed/text/multitask_embedding.py +109 -0
fastembed/text/onnx_embedding.py +353 -0
fastembed/text/onnx_text_model.py +180 -0
fastembed/text/pooled_embedding.py +136 -0
fastembed/text/pooled_normalized_embedding.py +164 -0
fastembed/text/text_embedding.py +228 -0
fastembed/text/text_embedding_base.py +75 -0
fastembed_bio-0.1.0.dist-info/METADATA +339 -0
fastembed_bio-0.1.0.dist-info/RECORD +66 -0
fastembed_bio-0.1.0.dist-info/WHEEL +4 -0
fastembed_bio-0.1.0.dist-info/licenses/LICENSE +201 -0
fastembed_bio-0.1.0.dist-info/licenses/NOTICE +22 -0

fastembed/late_interaction_multimodal/onnx_multimodal_model.py ADDED Viewed

@@ -0,0 +1,291 @@
+import contextlib
+import os
+from multiprocessing import get_all_start_methods
+from pathlib import Path
+from typing import Any, Iterable, Sequence, Type
+import numpy as np
+from PIL import Image
+from tokenizers import Encoding, Tokenizer
+from fastembed.common import OnnxProvider, ImageInput
+from fastembed.common.onnx_model import EmbeddingWorker, OnnxModel, OnnxOutputContext, T
+from fastembed.common.preprocessor_utils import load_tokenizer, load_preprocessor
+from fastembed.common.types import NumpyArray, Device
+from fastembed.common.utils import iter_batch
+from fastembed.image.transform.operators import Compose
+from fastembed.parallel_processor import ParallelWorkerPool
+class OnnxMultimodalModel(OnnxModel[T]):
+    ONNX_OUTPUT_NAMES: list[str] | None = None
+    def __init__(self) -> None:
+        super().__init__()
+        self.tokenizer: Tokenizer | None = None
+        self.processor: Compose | None = None
+        self.special_token_to_id: dict[str, int] = {}
+    def _preprocess_onnx_text_input(
+        self, onnx_input: dict[str, NumpyArray], **kwargs: Any
+    ) -> dict[str, NumpyArray]:
+        """
+        Preprocess the onnx input.
+        """
+        return onnx_input
+    def _preprocess_onnx_image_input(
+        self, onnx_input: dict[str, NumpyArray], **kwargs: Any
+    ) -> dict[str, NumpyArray]:
+        """
+        Preprocess the onnx input.
+        """
+        return onnx_input
+    @classmethod
+    def _get_text_worker_class(cls) -> Type["TextEmbeddingWorker[T]"]:
+        raise NotImplementedError("Subclasses must implement this method")
+    @classmethod
+    def _get_image_worker_class(cls) -> Type["ImageEmbeddingWorker[T]"]:
+        raise NotImplementedError("Subclasses must implement this method")
+    def _post_process_onnx_image_output(self, output: OnnxOutputContext) -> Iterable[T]:
+        raise NotImplementedError("Subclasses must implement this method")
+    def _post_process_onnx_text_output(self, output: OnnxOutputContext) -> Iterable[T]:
+        raise NotImplementedError("Subclasses must implement this method")
+    def _load_onnx_model(
+        self,
+        model_dir: Path,
+        model_file: str,
+        threads: int | None,
+        providers: Sequence[OnnxProvider] | None = None,
+        cuda: bool | Device = Device.AUTO,
+        device_id: int | None = None,
+        extra_session_options: dict[str, Any] | None = None,
+    ) -> None:
+        super()._load_onnx_model(
+            model_dir=model_dir,
+            model_file=model_file,
+            threads=threads,
+            providers=providers,
+            cuda=cuda,
+            device_id=device_id,
+            extra_session_options=extra_session_options,
+        )
+        self.tokenizer, self.special_token_to_id = load_tokenizer(model_dir=model_dir)
+        assert self.tokenizer is not None
+        self.processor = load_preprocessor(model_dir=model_dir)
+    def load_onnx_model(self) -> None:
+        raise NotImplementedError("Subclasses must implement this method")
+    def tokenize(self, documents: list[str], **kwargs: Any) -> list[Encoding]:
+        return self.tokenizer.encode_batch(documents)  # type: ignore[union-attr]
+    def onnx_embed_text(
+        self,
+        documents: list[str],
+        **kwargs: Any,
+    ) -> OnnxOutputContext:
+        encoded = self.tokenize(documents, **kwargs)
+        input_ids = np.array([e.ids for e in encoded])
+        attention_mask = np.array([e.attention_mask for e in encoded])  # type: ignore[union-attr]
+        input_names = {node.name for node in self.model.get_inputs()}  # type: ignore[union-attr]
+        onnx_input: dict[str, NumpyArray] = {
+            "input_ids": np.array(input_ids, dtype=np.int64),
+        }
+        if "attention_mask" in input_names:
+            onnx_input["attention_mask"] = np.array(attention_mask, dtype=np.int64)
+        if "token_type_ids" in input_names:
+            onnx_input["token_type_ids"] = np.array(
+                [np.zeros(len(e), dtype=np.int64) for e in input_ids], dtype=np.int64
+            )
+        onnx_input = self._preprocess_onnx_text_input(onnx_input, **kwargs)
+        model_output = self.model.run(self.ONNX_OUTPUT_NAMES, onnx_input)  # type: ignore[union-attr]
+        return OnnxOutputContext(
+            model_output=model_output[0],
+            attention_mask=onnx_input.get("attention_mask", attention_mask),
+            input_ids=onnx_input.get("input_ids", input_ids),
+        )
+    def _embed_documents(
+        self,
+        model_name: str,
+        cache_dir: str,
+        documents: str | Iterable[str],
+        batch_size: int = 256,
+        parallel: int | None = None,
+        providers: Sequence[OnnxProvider] | None = None,
+        cuda: bool | Device = Device.AUTO,
+        device_ids: list[int] | None = None,
+        local_files_only: bool = False,
+        specific_model_path: str | None = None,
+        extra_session_options: dict[str, Any] | None = None,
+        **kwargs: Any,
+    ) -> Iterable[T]:
+        is_small = False
+        if isinstance(documents, str):
+            documents = [documents]
+            is_small = True
+        if isinstance(documents, list):
+            if len(documents) < batch_size:
+                is_small = True
+        if parallel is None or is_small:
+            if not hasattr(self, "model") or self.model is None:
+                self.load_onnx_model()
+            for batch in iter_batch(documents, batch_size):
+                yield from self._post_process_onnx_text_output(self.onnx_embed_text(batch))
+        else:
+            if parallel == 0:
+                parallel = os.cpu_count()
+            start_method = "forkserver" if "forkserver" in get_all_start_methods() else "spawn"
+            params = {
+                "model_name": model_name,
+                "cache_dir": cache_dir,
+                "providers": providers,
+                "local_files_only": local_files_only,
+                "specific_model_path": specific_model_path,
+                **kwargs,
+            }
+            if extra_session_options is not None:
+                params.update(extra_session_options)
+            pool = ParallelWorkerPool(
+                num_workers=parallel or 1,
+                worker=self._get_text_worker_class(),
+                cuda=cuda,
+                device_ids=device_ids,
+                start_method=start_method,
+            )
+            for batch in pool.ordered_map(iter_batch(documents, batch_size), **params):
+                yield from self._post_process_onnx_text_output(batch)  # type: ignore
+    def onnx_embed_image(self, images: list[ImageInput], **kwargs: Any) -> OnnxOutputContext:
+        with contextlib.ExitStack() as stack:
+            image_files = [
+                stack.enter_context(Image.open(image))
+                if not isinstance(image, Image.Image)
+                else image
+                for image in images
+            ]
+            assert self.processor is not None, "Processor is not initialized"
+            encoded = np.array(self.processor(image_files))
+        onnx_input = {"pixel_values": encoded}
+        onnx_input = self._preprocess_onnx_image_input(onnx_input, **kwargs)
+        model_output = self.model.run(None, onnx_input)  # type: ignore[union-attr]
+        embeddings = model_output[0].reshape(len(images), -1)
+        return OnnxOutputContext(model_output=embeddings)
+    def _embed_images(
+        self,
+        model_name: str,
+        cache_dir: str,
+        images: Iterable[ImageInput] | ImageInput,
+        batch_size: int = 256,
+        parallel: int | None = None,
+        providers: Sequence[OnnxProvider] | None = None,
+        cuda: bool | Device = Device.AUTO,
+        device_ids: list[int] | None = None,
+        local_files_only: bool = False,
+        specific_model_path: str | None = None,
+        extra_session_options: dict[str, Any] | None = None,
+        **kwargs: Any,
+    ) -> Iterable[T]:
+        is_small = False
+        if isinstance(images, (str, Path, Image.Image)):
+            images = [images]
+            is_small = True
+        if isinstance(images, list) and len(images) < batch_size:
+            is_small = True
+        if parallel is None or is_small:
+            if not hasattr(self, "model") or self.model is None:
+                self.load_onnx_model()
+            for batch in iter_batch(images, batch_size):
+                yield from self._post_process_onnx_image_output(self.onnx_embed_image(batch))
+        else:
+            if parallel == 0:
+                parallel = os.cpu_count()
+            start_method = "forkserver" if "forkserver" in get_all_start_methods() else "spawn"
+            params = {
+                "model_name": model_name,
+                "cache_dir": cache_dir,
+                "providers": providers,
+                "local_files_only": local_files_only,
+                "specific_model_path": specific_model_path,
+                **kwargs,
+            }
+            if extra_session_options is not None:
+                params.update(extra_session_options)
+            pool = ParallelWorkerPool(
+                num_workers=parallel or 1,
+                worker=self._get_image_worker_class(),
+                cuda=cuda,
+                device_ids=device_ids,
+                start_method=start_method,
+            )
+            for batch in pool.ordered_map(iter_batch(images, batch_size), **params):
+                yield from self._post_process_onnx_image_output(batch)  # type: ignore
+class TextEmbeddingWorker(EmbeddingWorker[T]):
+    def __init__(
+        self,
+        model_name: str,
+        cache_dir: str,
+        **kwargs: Any,
+    ):
+        self.model: OnnxMultimodalModel
+        super().__init__(model_name, cache_dir, **kwargs)
+    def init_embedding(
+        self,
+        model_name: str,
+        cache_dir: str,
+        **kwargs: Any,
+    ) -> OnnxMultimodalModel:
+        raise NotImplementedError()
+    def process(self, items: Iterable[tuple[int, Any]]) -> Iterable[tuple[int, Any]]:
+        for idx, batch in items:
+            onnx_output = self.model.onnx_embed_text(batch)
+            yield idx, onnx_output
+class ImageEmbeddingWorker(EmbeddingWorker[T]):
+    def __init__(
+        self,
+        model_name: str,
+        cache_dir: str,
+        **kwargs: Any,
+    ):
+        self.model: OnnxMultimodalModel
+        super().__init__(model_name, cache_dir, **kwargs)
+    def init_embedding(
+        self,
+        model_name: str,
+        cache_dir: str,
+        **kwargs: Any,
+    ) -> OnnxMultimodalModel:
+        raise NotImplementedError()
+    def process(self, items: Iterable[tuple[int, Any]]) -> Iterable[tuple[int, Any]]:
+        for idx, batch in items:
+            embeddings = self.model.onnx_embed_image(batch)
+            yield idx, embeddings

fastembed/parallel_processor.py ADDED Viewed

@@ -0,0 +1,253 @@
+import logging
+import os
+from collections import defaultdict
+from copy import deepcopy
+from enum import Enum
+from multiprocessing import Queue, get_context
+from multiprocessing.context import BaseContext
+from multiprocessing.process import BaseProcess
+from multiprocessing.sharedctypes import Synchronized as BaseValue
+from queue import Empty
+from typing import Any, Iterable, Type
+from fastembed.common.types import Device
+# Single item should be processed in less than:
+processing_timeout = 10 * 60  # seconds
+max_internal_batch_size = 200
+class QueueSignals(str, Enum):
+    stop = "stop"
+    confirm = "confirm"
+    error = "error"
+class Worker:
+    @classmethod
+    def start(cls, *args: Any, **kwargs: Any) -> "Worker":
+        raise NotImplementedError()
+    def process(self, items: Iterable[tuple[int, Any]]) -> Iterable[tuple[int, Any]]:
+        raise NotImplementedError()
+def _worker(
+    worker_class: Type[Worker],
+    input_queue: Queue,
+    output_queue: Queue,
+    num_active_workers: BaseValue,
+    worker_id: int,
+    kwargs: dict[str, Any] | None = None,
+) -> None:
+    """
+    A worker that pulls data pints off the input queue, and places the execution result on the output queue.
+    When there are no data pints left on the input queue, it decrements
+    num_active_workers to signal completion.
+    """
+    if kwargs is None:
+        kwargs = {}
+    logging.info(
+        f"Reader worker: {worker_id} PID: {os.getpid()} Device: {kwargs.get('device_id', 'CPU')}"
+    )
+    try:
+        worker = worker_class.start(**kwargs)
+        # Keep going until you get an item that's None.
+        def input_queue_iterable() -> Iterable[Any]:
+            while True:
+                item = input_queue.get()
+                if item == QueueSignals.stop:
+                    break
+                yield item
+        for processed_item in worker.process(input_queue_iterable()):
+            output_queue.put(processed_item)
+    except Exception as e:  # pylint: disable=broad-except
+        logging.exception(e)
+        output_queue.put(QueueSignals.error)
+    finally:
+        # It's important that we close and join the queue here before
+        # decrementing num_active_workers. Otherwise our parent may join us
+        # before the queue's feeder thread has passed all buffered items to
+        # the underlying pipe resulting in a deadlock.
+        #
+        # See:
+        # https://docs.python.org/3.6/library/multiprocessing.html?highlight=process#pipes-and-queues
+        # https://docs.python.org/3.6/library/multiprocessing.html?highlight=process#programming-guidelines
+        input_queue.close()
+        output_queue.close()
+        input_queue.join_thread()
+        output_queue.join_thread()
+        with num_active_workers.get_lock():
+            num_active_workers.value -= 1
+        logging.info(f"Reader worker {worker_id} finished")
+class ParallelWorkerPool:
+    def __init__(
+        self,
+        num_workers: int,
+        worker: Type[Worker],
+        start_method: str | None = None,
+        device_ids: list[int] | None = None,
+        cuda: bool | Device = Device.AUTO,
+    ):
+        self.worker_class = worker
+        self.num_workers = num_workers
+        self.input_queue: Queue | None = None
+        self.output_queue: Queue | None = None
+        self.ctx: BaseContext = get_context(start_method)
+        self.processes: list[BaseProcess] = []
+        self.queue_size = self.num_workers * max_internal_batch_size
+        self.emergency_shutdown = False
+        self.device_ids = device_ids
+        self.cuda = cuda
+        self.num_active_workers: BaseValue | None = None
+    def start(self, **kwargs: Any) -> None:
+        self.input_queue = self.ctx.Queue(self.queue_size)
+        self.output_queue = self.ctx.Queue(self.queue_size)
+        ctx_value = self.ctx.Value("i", self.num_workers)
+        assert isinstance(ctx_value, BaseValue)
+        self.num_active_workers = ctx_value
+        for worker_id in range(0, self.num_workers):
+            worker_kwargs = deepcopy(kwargs)
+            if self.device_ids:
+                device_id = self.device_ids[worker_id % len(self.device_ids)]
+                worker_kwargs["device_id"] = device_id
+                worker_kwargs["cuda"] = self.cuda
+            assert hasattr(self.ctx, "Process")
+            process = self.ctx.Process(
+                target=_worker,
+                args=(
+                    self.worker_class,
+                    self.input_queue,
+                    self.output_queue,
+                    self.num_active_workers,
+                    worker_id,
+                    worker_kwargs,
+                ),
+            )
+            process.start()
+            self.processes.append(process)
+    def ordered_map(self, stream: Iterable[Any], *args: Any, **kwargs: Any) -> Iterable[Any]:
+        buffer: defaultdict[int, Any] = defaultdict(Any)  # type: ignore
+        next_expected = 0
+        for idx, item in self.semi_ordered_map(stream, *args, **kwargs):
+            buffer[idx] = item
+            while next_expected in buffer:
+                yield buffer.pop(next_expected)
+                next_expected += 1
+    def semi_ordered_map(
+        self, stream: Iterable[Any], *args: Any, **kwargs: Any
+    ) -> Iterable[tuple[int, Any]]:
+        try:
+            self.start(**kwargs)
+            assert self.input_queue is not None, "Input queue was not initialized"
+            assert self.output_queue is not None, "Output queue was not initialized"
+            pushed = 0
+            read = 0
+            for idx, item in enumerate(stream):
+                self.check_worker_health()
+                if pushed - read < self.queue_size:
+                    try:
+                        out_item = self.output_queue.get_nowait()
+                    except Empty:
+                        out_item = None
+                else:
+                    try:
+                        out_item = self.output_queue.get(timeout=processing_timeout)
+                    except Empty as e:
+                        self.join_or_terminate()
+                        raise e
+                if out_item is not None:
+                    if out_item == QueueSignals.error:
+                        self.join_or_terminate()
+                        raise RuntimeError("Thread unexpectedly terminated")
+                    yield out_item
+                    read += 1
+                self.input_queue.put((idx, item))
+                pushed += 1
+            for _ in range(self.num_workers):
+                self.input_queue.put(QueueSignals.stop)
+            while read < pushed:
+                self.check_worker_health()
+                out_item = self.output_queue.get(timeout=processing_timeout)
+                if out_item == QueueSignals.error:
+                    self.join_or_terminate()
+                    raise RuntimeError("Thread unexpectedly terminated")
+                yield out_item
+                read += 1
+        finally:
+            assert self.input_queue is not None, "Input queue is None"
+            assert self.output_queue is not None, "Output queue is None"
+            self.join()
+            self.input_queue.close()
+            self.output_queue.close()
+            if self.emergency_shutdown:
+                self.input_queue.cancel_join_thread()
+                self.output_queue.cancel_join_thread()
+            else:
+                self.input_queue.join_thread()
+                self.output_queue.join_thread()
+    def check_worker_health(self) -> None:
+        """
+        Checks if any worker process has terminated unexpectedly
+        """
+        for process in self.processes:
+            if not process.is_alive() and process.exitcode != 0:
+                self.emergency_shutdown = True
+                self.join_or_terminate()
+                raise RuntimeError(
+                    f"Worker PID: {process.pid} terminated unexpectedly with code {process.exitcode}"
+                )
+    def join_or_terminate(self, timeout: int = 1) -> None:
+        """
+        Emergency shutdown
+        @param timeout:
+        @return:
+        """
+        for process in self.processes:
+            process.join(timeout=timeout)
+            if process.is_alive():
+                process.terminate()
+        self.processes.clear()
+    def join(self) -> None:
+        for process in self.processes:
+            process.join()
+        self.processes.clear()
+    def __del__(self) -> None:
+        """
+        Terminate processes if the user hasn't joined. This is necessary as
+        leaving stray processes running can corrupt shared state. In brief,
+        we've observed shared memory counters being reused (when the memory was
+        free from the perspective of the parent process) while the stray
+        workers still held a reference to them.
+        For a discussion of using destructors in Python in this manner, see
+        https://eli.thegreenplace.net/2009/06/12/safely-using-destructors-in-python/.
+        """
+        for process in self.processes:
+            if process.is_alive():
+                process.terminate()

fastembed/postprocess/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+from fastembed.postprocess.muvera import Muvera
+__all__ = ["Muvera"]