PyPI - ragbits-core - Versions diffs - 0.16.0__py3-none-any.whl → 1.4.0.dev202512021005__py3-none-any.whl - Mend

ragbits-core 0.16.0py3-none-any.whl → 1.4.0.dev202512021005py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (63) hide show

ragbits/core/__init__.py +21 -2
ragbits/core/audit/__init__.py +15 -157
ragbits/core/audit/metrics/__init__.py +83 -0
ragbits/core/audit/metrics/base.py +198 -0
ragbits/core/audit/metrics/logfire.py +19 -0
ragbits/core/audit/metrics/otel.py +65 -0
ragbits/core/audit/traces/__init__.py +171 -0
ragbits/core/audit/{base.py → traces/base.py} +9 -5
ragbits/core/audit/{cli.py → traces/cli.py} +8 -4
ragbits/core/audit/traces/logfire.py +18 -0
ragbits/core/audit/{otel.py → traces/otel.py} +5 -8
ragbits/core/config.py +15 -0
ragbits/core/embeddings/__init__.py +2 -1
ragbits/core/embeddings/base.py +19 -0
ragbits/core/embeddings/dense/base.py +10 -1
ragbits/core/embeddings/dense/fastembed.py +22 -1
ragbits/core/embeddings/dense/litellm.py +37 -10
ragbits/core/embeddings/dense/local.py +15 -1
ragbits/core/embeddings/dense/noop.py +11 -1
ragbits/core/embeddings/dense/vertex_multimodal.py +14 -1
ragbits/core/embeddings/sparse/bag_of_tokens.py +47 -17
ragbits/core/embeddings/sparse/base.py +10 -1
ragbits/core/embeddings/sparse/fastembed.py +25 -2
ragbits/core/llms/__init__.py +3 -3
ragbits/core/llms/base.py +612 -88
ragbits/core/llms/exceptions.py +27 -0
ragbits/core/llms/litellm.py +408 -83
ragbits/core/llms/local.py +180 -41
ragbits/core/llms/mock.py +88 -23
ragbits/core/prompt/__init__.py +2 -2
ragbits/core/prompt/_cli.py +32 -19
ragbits/core/prompt/base.py +105 -19
ragbits/core/prompt/{discovery/prompt_discovery.py → discovery.py} +1 -1
ragbits/core/prompt/exceptions.py +22 -6
ragbits/core/prompt/prompt.py +180 -98
ragbits/core/sources/__init__.py +2 -0
ragbits/core/sources/azure.py +1 -1
ragbits/core/sources/base.py +8 -1
ragbits/core/sources/gcs.py +1 -1
ragbits/core/sources/git.py +1 -1
ragbits/core/sources/google_drive.py +595 -0
ragbits/core/sources/hf.py +71 -31
ragbits/core/sources/local.py +1 -1
ragbits/core/sources/s3.py +1 -1
ragbits/core/utils/config_handling.py +13 -2
ragbits/core/utils/function_schema.py +220 -0
ragbits/core/utils/helpers.py +22 -0
ragbits/core/utils/lazy_litellm.py +44 -0
ragbits/core/vector_stores/base.py +18 -1
ragbits/core/vector_stores/chroma.py +28 -11
ragbits/core/vector_stores/hybrid.py +1 -1
ragbits/core/vector_stores/hybrid_strategies.py +21 -8
ragbits/core/vector_stores/in_memory.py +13 -4
ragbits/core/vector_stores/pgvector.py +123 -47
ragbits/core/vector_stores/qdrant.py +15 -7
ragbits/core/vector_stores/weaviate.py +440 -0
{ragbits_core-0.16.0.dist-info → ragbits_core-1.4.0.dev202512021005.dist-info}/METADATA +22 -6
ragbits_core-1.4.0.dev202512021005.dist-info/RECORD +79 -0
{ragbits_core-0.16.0.dist-info → ragbits_core-1.4.0.dev202512021005.dist-info}/WHEEL +1 -1
ragbits/core/prompt/discovery/__init__.py +0 -3
ragbits/core/prompt/lab/__init__.py +0 -0
ragbits/core/prompt/lab/app.py +0 -262
ragbits_core-0.16.0.dist-info/RECORD +0 -72

ragbits/core/embeddings/sparse/bag_of_tokens.py CHANGED Viewed

@@ -2,8 +2,8 @@ from collections import Counter
 import tiktoken
-from ragbits.core.audit import trace
-from ragbits.core.embeddings.base import SparseVector
+from ragbits.core.audit.traces import trace
+from ragbits.core.embeddings.base import SparseVector, VectorSize
 from ragbits.core.embeddings.sparse.base import SparseEmbedder
 from ragbits.core.options import Options
 from ragbits.core.types import NOT_GIVEN, NotGiven
@@ -12,8 +12,6 @@ from ragbits.core.types import NOT_GIVEN, NotGiven
 class BagOfTokensOptions(Options):
     """A dataclass with definition of BOT options"""
-    model_name: str | None | NotGiven = "gpt-4o"
-    encoding_name: str | None | NotGiven = NOT_GIVEN
     min_token_count: int | None | NotGiven = NOT_GIVEN
@@ -22,6 +20,50 @@ class BagOfTokens(SparseEmbedder[BagOfTokensOptions]):
     options_cls = BagOfTokensOptions
+    def __init__(
+        self,
+        model_name: str | None = None,
+        encoding_name: str | None = None,
+        default_options: BagOfTokensOptions | None = None,
+    ) -> None:
+        """
+        Initialize the BagOfTokens embedder.
+        Args:
+            model_name: Name of the model to use for tokenization (e.g., "gpt-4o").
+            encoding_name: Name of the encoding to use for tokenization.
+            default_options: Default options for the embedder.
+        Raises:
+            ValueError: If both model_name and encoding_name are provided, or if neither is provided.
+        """
+        super().__init__(default_options=default_options)
+        if encoding_name and model_name:
+            raise ValueError("Please specify only one of encoding_name or model_name")
+        if not (encoding_name or model_name):
+            # Default to gpt-4o if neither is specified
+            model_name = "gpt-4o"
+        if encoding_name:
+            self._encoder = tiktoken.get_encoding(encoding_name=encoding_name)
+        elif model_name:
+            self._encoder = tiktoken.encoding_for_model(model_name=model_name)
+        else:
+            raise ValueError("Either encoding_name or model_name needs to be specified")
+    async def get_vector_size(self) -> VectorSize:
+        """
+        Get the vector size for this BagOfTokens model.
+        For BagOfTokens, this returns the tokenizer vocabulary size.
+        Returns:
+            VectorSize object with is_sparse=True and the vocabulary size.
+        """
+        vocab_size = self._encoder.n_vocab
+        return VectorSize(size=vocab_size, is_sparse=True)
     async def embed_text(self, texts: list[str], options: BagOfTokensOptions | None = None) -> list[SparseVector]:
         """
         Transforms a list of texts into sparse vectors using bag-of-tokens representation.
@@ -36,21 +78,9 @@ class BagOfTokens(SparseEmbedder[BagOfTokensOptions]):
         vectors = []
         merged_options = self.default_options | options if options else self.default_options
         with trace(data=texts, options=merged_options.dict()) as outputs:
-            if merged_options.encoding_name and merged_options.model_name:
-                raise ValueError("Please specify only one of encoding_name or model_name")
-            if not (merged_options.encoding_name or merged_options.model_name):
-                raise ValueError("Either encoding_name or model_name needs to be specified")
-            if merged_options.encoding_name:
-                encoder = tiktoken.get_encoding(encoding_name=merged_options.encoding_name)
-            elif merged_options.model_name:
-                encoder = tiktoken.encoding_for_model(model_name=merged_options.model_name)
-            else:
-                raise ValueError("Either encoding_name or model_name needs to be specified")
             min_token_count = merged_options.min_token_count or float("-inf")
             for text in texts:
-                tokens = encoder.encode(text)
+                tokens = self._encoder.encode(text)
                 token_counts = Counter(tokens)
                 non_zero_dims = []
                 non_zero_vals = []

ragbits/core/embeddings/sparse/base.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from abc import ABC, abstractmethod
 from typing import TypeVar
-from ragbits.core.embeddings.base import Embedder, SparseVector
+from ragbits.core.embeddings.base import Embedder, SparseVector, VectorSize
 from ragbits.core.options import Options
 SparseEmbedderOptionsT = TypeVar("SparseEmbedderOptionsT", bound=Options)
@@ -23,6 +23,15 @@ class SparseEmbedder(Embedder[SparseEmbedderOptionsT], ABC):
             list of sparse embeddings.
         """
+    @abstractmethod
+    async def get_vector_size(self) -> VectorSize:
+        """
+        Get information about the sparse vector size/dimensions returned by this embedder.
+        Returns:
+            VectorSize object with is_sparse=True and the vocabulary size.
+        """
     async def embed_image(
         self, images: list[bytes], options: SparseEmbedderOptionsT | None = None
     ) -> list[SparseVector]:

ragbits/core/embeddings/sparse/fastembed.py CHANGED Viewed

@@ -2,8 +2,8 @@ from collections.abc import Callable
 from fastembed import SparseTextEmbedding
-from ragbits.core.audit import trace
-from ragbits.core.embeddings.base import EmbedderOptionsT, SparseVector
+from ragbits.core.audit.traces import trace
+from ragbits.core.embeddings.base import EmbedderOptionsT, SparseVector, VectorSize
 from ragbits.core.embeddings.dense.fastembed import FastEmbedOptions
 from ragbits.core.embeddings.sparse.base import SparseEmbedder
@@ -35,6 +35,29 @@ class FastEmbedSparseEmbedder(SparseEmbedder[FastEmbedOptions]):
         """
         return (self.__class__, (self.model_name, self.use_gpu, self.default_options))
+    async def get_vector_size(self) -> VectorSize:
+        """
+        Get the vector size for this FastEmbed sparse model.
+        For sparse models, this returns the vocabulary size.
+        Returns:
+            VectorSize object with is_sparse=True and the vocabulary size.
+        """
+        # Get model info from FastEmbed's supported models list
+        supported_models = self._model.list_supported_models()
+        model_info = next((model for model in supported_models if model["model"] == self.model_name), None)
+        if model_info and "vocab_size" in model_info:
+            vocab_size = model_info["vocab_size"]
+        else:
+            sample_embedding = await self.embed_text(["sample text with various tokens"])
+            vocab_size = (
+                max(sample_embedding[0].indices) + 1 if sample_embedding and sample_embedding[0].indices else 30000
+            )
+        return VectorSize(size=vocab_size, is_sparse=True)
     async def embed_text(self, data: list[str], options: EmbedderOptionsT | None = None) -> list[SparseVector]:
         """
         Embeds a list of strings into a list of sparse embeddings.

ragbits/core/llms/__init__.py CHANGED Viewed

@@ -1,5 +1,5 @@
-from .base import LLM
+from .base import LLM, ToolCall, Usage
 from .litellm import LiteLLM, LiteLLMOptions
-from .local import LocalLLMOptions
+from .local import LocalLLM, LocalLLMOptions
-__all__ = ["LLM", "LiteLLM", "LiteLLMOptions", "LocalLLMOptions"]
+__all__ = ["LLM", "LiteLLM", "LiteLLMOptions", "LocalLLM", "LocalLLMOptions", "ToolCall", "Usage"]

ragbits-core 0.16.0__py3-none-any.whl → 1.4.0.dev202512021005__py3-none-any.whl

ragbits-core 0.16.0py3-none-any.whl → 1.4.0.dev202512021005py3-none-any.whl