PyPI - hammad-python - Versions diffs - 0.0.14__py3-none-any.whl → 0.0.16__py3-none-any.whl - Mend

hammad-python 0.0.14py3-none-any.whl → 0.0.16py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (122) hide show

hammad/__init__.py +177 -0
hammad/{performance/imports.py → _internal.py} +7 -1
hammad/cache/__init__.py +1 -1
hammad/cli/__init__.py +3 -1
hammad/cli/_runner.py +265 -0
hammad/cli/animations.py +1 -1
hammad/cli/plugins.py +133 -78
hammad/cli/styles/__init__.py +1 -1
hammad/cli/styles/utils.py +149 -3
hammad/data/__init__.py +56 -29
hammad/data/collections/__init__.py +27 -17
hammad/data/collections/collection.py +205 -383
hammad/data/collections/indexes/__init__.py +37 -0
hammad/data/collections/indexes/qdrant/__init__.py +1 -0
hammad/data/collections/indexes/qdrant/index.py +735 -0
hammad/data/collections/indexes/qdrant/settings.py +94 -0
hammad/data/collections/indexes/qdrant/utils.py +220 -0
hammad/data/collections/indexes/tantivy/__init__.py +1 -0
hammad/data/collections/indexes/tantivy/index.py +428 -0
hammad/data/collections/indexes/tantivy/settings.py +51 -0
hammad/data/collections/indexes/tantivy/utils.py +200 -0
hammad/data/configurations/__init__.py +2 -2
hammad/data/configurations/configuration.py +2 -2
hammad/data/models/__init__.py +20 -9
hammad/data/models/extensions/__init__.py +4 -0
hammad/data/models/{pydantic → extensions/pydantic}/__init__.py +6 -19
hammad/data/models/{pydantic → extensions/pydantic}/converters.py +143 -16
hammad/data/models/{base/fields.py → fields.py} +1 -1
hammad/data/models/{base/model.py → model.py} +1 -1
hammad/data/models/{base/utils.py → utils.py} +1 -1
hammad/data/sql/__init__.py +23 -0
hammad/data/sql/database.py +578 -0
hammad/data/sql/types.py +141 -0
hammad/data/types/__init__.py +1 -3
hammad/data/types/file.py +3 -3
hammad/data/types/multimodal/__init__.py +2 -2
hammad/data/types/multimodal/audio.py +2 -2
hammad/data/types/multimodal/image.py +2 -2
hammad/formatting/__init__.py +9 -27
hammad/formatting/json/__init__.py +8 -2
hammad/formatting/json/converters.py +7 -1
hammad/formatting/text/__init__.py +1 -1
hammad/formatting/yaml/__init__.py +1 -1
hammad/genai/__init__.py +78 -0
hammad/genai/agents/__init__.py +1 -0
hammad/genai/agents/types/__init__.py +35 -0
hammad/genai/agents/types/history.py +277 -0
hammad/genai/agents/types/tool.py +490 -0
hammad/genai/embedding_models/__init__.py +41 -0
hammad/{ai/embeddings/client/litellm_embeddings_client.py → genai/embedding_models/embedding_model.py} +47 -142
hammad/genai/embedding_models/embedding_model_name.py +77 -0
hammad/genai/embedding_models/embedding_model_request.py +65 -0
hammad/{ai/embeddings/types.py → genai/embedding_models/embedding_model_response.py} +3 -3
hammad/genai/embedding_models/run.py +161 -0
hammad/genai/language_models/__init__.py +35 -0
hammad/genai/language_models/_streaming.py +622 -0
hammad/genai/language_models/_types.py +276 -0
hammad/genai/language_models/_utils/__init__.py +31 -0
hammad/genai/language_models/_utils/_completions.py +131 -0
hammad/genai/language_models/_utils/_messages.py +89 -0
hammad/genai/language_models/_utils/_requests.py +202 -0
hammad/genai/language_models/_utils/_structured_outputs.py +124 -0
hammad/genai/language_models/language_model.py +734 -0
hammad/genai/language_models/language_model_request.py +135 -0
hammad/genai/language_models/language_model_response.py +219 -0
hammad/genai/language_models/language_model_response_chunk.py +53 -0
hammad/genai/language_models/run.py +530 -0
hammad/genai/multimodal_models.py +48 -0
hammad/genai/rerank_models.py +26 -0
hammad/logging/__init__.py +1 -1
hammad/logging/decorators.py +1 -1
hammad/logging/logger.py +2 -2
hammad/mcp/__init__.py +1 -1
hammad/mcp/client/__init__.py +35 -0
hammad/mcp/client/client.py +105 -4
hammad/mcp/client/client_service.py +10 -3
hammad/mcp/servers/__init__.py +24 -0
hammad/{performance/runtime → runtime}/__init__.py +2 -2
hammad/{performance/runtime → runtime}/decorators.py +1 -1
hammad/{performance/runtime → runtime}/run.py +1 -1
hammad/service/__init__.py +1 -1
hammad/service/create.py +3 -8
hammad/service/decorators.py +8 -8
hammad/typing/__init__.py +28 -0
hammad/web/__init__.py +3 -3
hammad/web/http/client.py +1 -1
hammad/web/models.py +53 -21
hammad/web/search/client.py +99 -52
hammad/web/utils.py +13 -13
hammad_python-0.0.16.dist-info/METADATA +191 -0
hammad_python-0.0.16.dist-info/RECORD +110 -0
hammad/ai/__init__.py +0 -1
hammad/ai/_utils.py +0 -142
hammad/ai/completions/__init__.py +0 -45
hammad/ai/completions/client.py +0 -684
hammad/ai/completions/create.py +0 -710
hammad/ai/completions/settings.py +0 -100
hammad/ai/completions/types.py +0 -792
hammad/ai/completions/utils.py +0 -486
hammad/ai/embeddings/__init__.py +0 -35
hammad/ai/embeddings/client/__init__.py +0 -1
hammad/ai/embeddings/client/base_embeddings_client.py +0 -26
hammad/ai/embeddings/client/fastembed_text_embeddings_client.py +0 -200
hammad/ai/embeddings/create.py +0 -159
hammad/data/collections/base_collection.py +0 -58
hammad/data/collections/searchable_collection.py +0 -556
hammad/data/collections/vector_collection.py +0 -596
hammad/data/databases/__init__.py +0 -21
hammad/data/databases/database.py +0 -902
hammad/data/models/base/__init__.py +0 -35
hammad/data/models/pydantic/models/__init__.py +0 -28
hammad/data/models/pydantic/models/arbitrary_model.py +0 -46
hammad/data/models/pydantic/models/cacheable_model.py +0 -79
hammad/data/models/pydantic/models/fast_model.py +0 -318
hammad/data/models/pydantic/models/function_model.py +0 -176
hammad/data/models/pydantic/models/subscriptable_model.py +0 -63
hammad/performance/__init__.py +0 -36
hammad/py.typed +0 -0
hammad_python-0.0.14.dist-info/METADATA +0 -70
hammad_python-0.0.14.dist-info/RECORD +0 -99
{hammad_python-0.0.14.dist-info → hammad_python-0.0.16.dist-info}/WHEEL +0 -0
{hammad_python-0.0.14.dist-info → hammad_python-0.0.16.dist-info}/licenses/LICENSE +0 -0

hammad/data/collections/collection.py CHANGED Viewed

@@ -1,452 +1,274 @@
 """hammad.data.collections.collection"""
 from typing import (
-    TYPE_CHECKING,
-    Literal,
-    Optional,
-    overload,
     Any,
-    List,
     Callable,
+    Dict,
+    List,
+    Literal,
+    Optional,
+    Type,
+    TypeVar,
     Union,
+    overload,
+    TYPE_CHECKING,
 )
-from typing_extensions import TypedDict
+from pathlib import Path
 if TYPE_CHECKING:
-    from .base_collection import BaseCollection
-    from .searchable_collection import SearchableCollection
-    from .vector_collection import VectorCollection
-Distance = Literal[
-    "cosine",
-    "euclidean",
-    "manhattan",
-    "hamming",
-    "dot",
-    "l2",
-    "l1",
-    "l2_squared",
-    "l1_squared",
-    "cosine_sim",
-    "euclidean_sim",
-    "manhattan_sim",
-    "hamming_sim",
-    "dot_sim",
-]
-class SearchableCollectionSettings(TypedDict, total=False):
-    """Configuration settings for SearchableCollection using tantivy."""
-    heap_size: int
-    num_threads: Optional[int]
-    index_path: Optional[str]
-    schema_builder: Optional[Any]
-    writer_memory: Optional[int]
-    reload_policy: Optional[str]
+    from .indexes.tantivy.index import TantivyCollectionIndex
+    from .indexes.qdrant.index import QdrantCollectionIndex, VectorSearchResult
+    from .indexes.tantivy.settings import (
+        TantivyCollectionIndexSettings,
+        TantivyCollectionIndexQuerySettings,
+    )
+    from .indexes.qdrant.settings import (
+        QdrantCollectionIndexSettings,
+        QdrantCollectionIndexQuerySettings,
+        DistanceMetric,
+    )
+    from ..sql.types import DatabaseItemType
+    from ...genai.embedding_models.embedding_model_name import EmbeddingModelName
+else:
+    from .indexes.tantivy.index import TantivyCollectionIndex
+    from .indexes.qdrant.index import QdrantCollectionIndex, VectorSearchResult
-class VectorCollectionSettings(TypedDict, total=False):
-    """Configuration settings for VectorCollection using Qdrant."""
-    path: Optional[str]
-    host: Optional[str]
-    port: Optional[int]
-    grpc_port: Optional[int]
-    prefer_grpc: Optional[bool]
-    api_key: Optional[str]
-    timeout: Optional[float]
+__all__ = (
+    "Collection",
+    "VectorSearchResult",
+)
 class Collection:
     """
-    A unified collection factory that creates the appropriate collection type
+    A unified collection factory that creates the appropriate collection index type
     based on the provided parameters.
     This class acts as a factory and doesn't contain its own logic - it simply
-    returns instances of SearchableCollection or VectorCollection based on the
-    type parameter.
+    returns instances of TantivyCollectionIndex or QdrantCollectionIndex based on the
+    vector parameter.
+    The main difference from the old approach is that now collections are 'unified'
+    - there's no separate collections interface. Each collection directly uses either
+    a Tantivy or Qdrant index with SQL Database as the storage backend.
     """
     @overload
     def __new__(
         cls,
-        type: Literal["searchable"],
-        name: str,
+        name: str = "default",
         *,
-        schema: Optional[Any] = None,
-        default_ttl: Optional[int] = None,
-        storage_backend: Optional[Any] = None,
-        heap_size: Optional[int] = None,
-        num_threads: Optional[int] = None,
-        index_path: Optional[str] = None,
-        schema_builder: Optional[Any] = None,
-        writer_memory: Optional[int] = None,
-        reload_policy: Optional[str] = None,
-    ) -> "SearchableCollection": ...
+        schema: Optional[Type["DatabaseItemType"]] = None,
+        ttl: Optional[int] = None,
+        path: Optional[Union[Path, str]] = None,
+        vector: Literal[False] = False,
+        # Tantivy-specific parameters
+        fast: bool = True,
+        settings: Optional["TantivyCollectionIndexSettings"] = None,
+        query_settings: Optional["TantivyCollectionIndexQuerySettings"] = None,
+    ) -> "TantivyCollectionIndex": ...
     @overload
     def __new__(
         cls,
-        type: Literal["vector"],
-        name: str,
-        vector_size: int,
+        name: str = "default",
         *,
-        schema: Optional[Any] = None,
-        default_ttl: Optional[int] = None,
-        storage_backend: Optional[Any] = None,
-        distance_metric: Optional[Any] = None,
-        embedding_function: Optional[Callable[[Any], List[float]]] = None,
-        model: Optional[str] = None,
-        # Common embedding parameters
-        format: bool = False,
-        # LiteLLM parameters
-        dimensions: Optional[int] = None,
-        encoding_format: Optional[str] = None,
-        timeout: Optional[int] = None,
-        api_base: Optional[str] = None,
-        api_version: Optional[str] = None,
-        api_key: Optional[str] = None,
-        api_type: Optional[str] = None,
-        caching: bool = False,
-        user: Optional[str] = None,
-        # FastEmbed parameters
-        parallel: Optional[int] = None,
-        batch_size: Optional[int] = None,
-        # Qdrant parameters
-        path: Optional[str] = None,
-        host: Optional[str] = None,
-        port: Optional[int] = None,
-        grpc_port: Optional[int] = None,
-        prefer_grpc: Optional[bool] = None,
-        qdrant_timeout: Optional[float] = None,
-    ) -> "VectorCollection": ...
+        schema: Optional[Type["DatabaseItemType"]] = None,
+        ttl: Optional[int] = None,
+        path: Optional[Union[Path, str]] = None,
+        vector: Literal[True] = True,
+        vector_size: Optional[int] = None,
+        # Vector/Qdrant-specific parameters
+        distance_metric: "DistanceMetric" = "dot",
+        settings: Optional["QdrantCollectionIndexSettings"] = None,
+        query_settings: Optional["QdrantCollectionIndexQuerySettings"] = None,
+        embedding_model: Optional["EmbeddingModelName"] = "openai/text-embedding-3-small",
+        embedding_dimensions: Optional[int] = None,
+        embedding_api_key: Optional[str] = None,
+        embedding_base_url: Optional[str] = None,
+        # Rerank-specific parameters
+        rerank_model: Optional[str] = None,
+        rerank_api_key: Optional[str] = None,
+        rerank_base_url: Optional[str] = None,
+    ) -> "QdrantCollectionIndex": ...
     def __new__(
         cls,
-        type: Literal["searchable", "vector"],
-        name: str,
-        vector_size: Optional[int] = None,
+        name: str = "default",
         *,
-        schema: Optional[Any] = None,
-        default_ttl: Optional[int] = None,
-        storage_backend: Optional[Any] = None,
-        distance_metric: Optional[Any] = None,
-        embedding_function: Optional[Callable[[Any], List[float]]] = None,
-        model: Optional[str] = None,
-        # Common embedding parameters
-        format: bool = False,
-        # LiteLLM parameters
-        dimensions: Optional[int] = None,
-        encoding_format: Optional[str] = None,
-        timeout: Optional[int] = None,
-        api_base: Optional[str] = None,
-        api_version: Optional[str] = None,
-        api_key: Optional[str] = None,
-        api_type: Optional[str] = None,
-        caching: bool = False,
-        user: Optional[str] = None,
-        # FastEmbed parameters
-        parallel: Optional[int] = None,
-        batch_size: Optional[int] = None,
-        # Tantivy parameters (searchable collections only)
-        heap_size: Optional[int] = None,
-        num_threads: Optional[int] = None,
-        index_path: Optional[str] = None,
-        schema_builder: Optional[Any] = None,
-        writer_memory: Optional[int] = None,
-        reload_policy: Optional[str] = None,
-        # Qdrant parameters (vector collections only)
-        path: Optional[str] = None,
-        host: Optional[str] = None,
-        port: Optional[int] = None,
-        grpc_port: Optional[int] = None,
-        prefer_grpc: Optional[bool] = None,
-        qdrant_timeout: Optional[float] = None,
-    ) -> "BaseCollection":
+        schema: Optional[Type["DatabaseItemType"]] = None,
+        ttl: Optional[int] = None,
+        path: Optional[Union[Path, str]] = None,
+        vector: bool = False,
+        vector_size: Optional[int] = None,
+        # Tantivy-specific parameters
+        fast: bool = True,
+        # Unified settings parameters
+        settings: Optional[Union["TantivyCollectionIndexSettings", "QdrantCollectionIndexSettings"]] = None,
+        query_settings: Optional[Union["TantivyCollectionIndexQuerySettings", "QdrantCollectionIndexQuerySettings"]] = None,
+        # Vector/Qdrant-specific parameters
+        distance_metric: "DistanceMetric" = "dot",
+        embedding_model: Optional["EmbeddingModelName"] = "openai/text-embedding-3-small",
+        embedding_dimensions: Optional[int] = None,
+        embedding_api_key: Optional[str] = None,
+        embedding_base_url: Optional[str] = None,
+        # Rerank-specific parameters
+        rerank_model: Optional[str] = None,
+        rerank_api_key: Optional[str] = None,
+        rerank_base_url: Optional[str] = None,
+    ) -> Union["TantivyCollectionIndex", "QdrantCollectionIndex"]:
         """
         Create a collection of the specified type.
         Args:
-            type: Type of collection to create ("searchable" or "vector")
             name: Name of the collection
+            schema: Optional schema type for validation
+            ttl: Default TTL for items in seconds
+            path: File path for storage (None = in-memory)
+            vector: Whether this is a vector collection (True) or text search collection (False)
             vector_size: Size of vectors (required for vector collections)
-            schema: Optional schema for type validation
-            default_ttl: Default TTL for items in seconds
-            storage_backend: Optional storage backend
-            distance_metric: Distance metric for similarity search (vector collections only)
-            embedding_function: Function to convert objects to vectors (vector collections only)
-            Tantivy parameters (searchable collections only):
-            heap_size: Memory allocation for tantivy heap
-            num_threads: Number of threads for tantivy operations
-            index_path: Path to store tantivy index files
-            schema_builder: Custom schema builder for tantivy
-            writer_memory: Memory allocation for tantivy writer
-            reload_policy: Policy for reloading tantivy index
-            Qdrant parameters (vector collections only):
-            path: Path for local Qdrant storage
-            host: Qdrant server host
-            port: Qdrant server port
-            grpc_port: Qdrant gRPC port
-            prefer_grpc: Whether to prefer gRPC over HTTP
-            api_key: API key for Qdrant authentication
-            timeout: Request timeout for Qdrant operations
+            # Tantivy parameters (for non-vector collections):
+            fast: Whether to use fast schema building & indexing
+            # Unified parameters:
+            settings: Collection settings (TantivyCollectionIndexSettings or QdrantCollectionIndexSettings)
+            query_settings: Query behavior settings (TantivyCollectionIndexQuerySettings or QdrantCollectionIndexQuerySettings)
+            # Qdrant parameters (for vector collections):
+            distance_metric: Distance metric for similarity search
+            embedding_model: The embedding model to use (e.g., 'openai/text-embedding-3-small')
+            embedding_dimensions: Number of dimensions for embeddings
+            embedding_api_key: API key for the embedding service
+            embedding_base_url: Base URL for the embedding service
+            # Rerank parameters (for vector collections):
+            rerank_model: The rerank model to use (e.g., 'cohere/rerank-english-v3.0')
+            rerank_api_key: API key for the rerank service
+            rerank_base_url: Base URL for the rerank service
         Returns:
-            A SearchableCollection or VectorCollection instance
+            A TantivyCollectionIndex or QdrantCollectionIndex instance
         """
-        if type == "searchable":
-            from .searchable_collection import SearchableCollection
-            # Build tantivy config from individual parameters
-            tantivy_config = {}
-            if heap_size is not None:
-                tantivy_config["heap_size"] = heap_size
-            if num_threads is not None:
-                tantivy_config["num_threads"] = num_threads
-            if index_path is not None:
-                tantivy_config["index_path"] = index_path
-            if schema_builder is not None:
-                tantivy_config["schema_builder"] = schema_builder
-            if writer_memory is not None:
-                tantivy_config["writer_memory"] = writer_memory
-            if reload_policy is not None:
-                tantivy_config["reload_policy"] = reload_policy
-            return SearchableCollection(
-                name=name,
-                schema=schema,
-                default_ttl=default_ttl,
-                storage_backend=storage_backend,
-                tantivy_config=tantivy_config if tantivy_config else None,
-            )
-        elif type == "vector":
-            if vector_size is None:
-                raise ValueError("vector_size is required for vector collections")
-            try:
-                from .vector_collection import VectorCollection, Distance
-            except ImportError:
-                raise ImportError(
-                    "qdrant-client is required for vector collections. "
-                    "Please install it with 'pip install qdrant-client'."
-                )
-            # Set default distance metric if not provided and Distance is available
-            if distance_metric is None and Distance is not None:
-                distance_metric = Distance.DOT
-            # Build qdrant config from individual parameters
-            qdrant_config = {}
-            if path is not None:
-                qdrant_config["path"] = path
-            if host is not None:
-                qdrant_config["host"] = host
-            if port is not None:
-                qdrant_config["port"] = port
-            if grpc_port is not None:
-                qdrant_config["grpc_port"] = grpc_port
-            if prefer_grpc is not None:
-                qdrant_config["prefer_grpc"] = prefer_grpc
-            if qdrant_timeout is not None:
-                qdrant_config["timeout"] = qdrant_timeout
-            return VectorCollection(
+        if vector:
+            # Vector collection using Qdrant
+            return QdrantCollectionIndex(
                 name=name,
                 vector_size=vector_size,
                 schema=schema,
-                default_ttl=default_ttl,
-                storage_backend=storage_backend,
+                ttl=ttl,
+                path=path,
                 distance_metric=distance_metric,
-                qdrant_config=qdrant_config if qdrant_config else None,
-                embedding_function=embedding_function,
-                model=model,
-                # Common embedding parameters
-                format=format,
-                # LiteLLM parameters
-                dimensions=dimensions,
-                encoding_format=encoding_format,
-                timeout=timeout,
-                api_base=api_base,
-                api_version=api_version,
-                api_key=api_key,
-                api_type=api_type,
-                caching=caching,
-                user=user,
-                # FastEmbed parameters
-                parallel=parallel,
-                batch_size=batch_size,
+                settings=settings,
+                query_settings=query_settings,
+                embedding_model=embedding_model,
+                embedding_dimensions=embedding_dimensions,
+                embedding_api_key=embedding_api_key,
+                embedding_base_url=embedding_base_url,
+                rerank_model=rerank_model,
+                rerank_api_key=rerank_api_key,
+                rerank_base_url=rerank_base_url,
             )
         else:
-            raise ValueError(f"Unsupported collection type: {type}")
+            # Text search collection using Tantivy
+            return TantivyCollectionIndex(
+                name=name,
+                schema=schema,
+                ttl=ttl,
+                path=path,
+                fast=fast,
+                settings=settings,
+                query_settings=query_settings,
+            )
 @overload
 def create_collection(
-    type: Literal["searchable"],
-    name: str,
+    name: str = "default",
     *,
-    schema: Optional[Any] = None,
-    default_ttl: Optional[int] = None,
-    storage_backend: Optional[Any] = None,
-    heap_size: Optional[int] = None,
-    num_threads: Optional[int] = None,
-    index_path: Optional[str] = None,
-    schema_builder: Optional[Any] = None,
-    writer_memory: Optional[int] = None,
-    reload_policy: Optional[str] = None,
-) -> "SearchableCollection": ...
+    schema: Optional[Type["DatabaseItemType"]] = None,
+    ttl: Optional[int] = None,
+    path: Optional[Union[Path, str]] = None,
+    vector: Literal[False] = False,
+    # Tantivy-specific parameters
+    fast: bool = True,
+    settings: Optional["TantivyCollectionIndexSettings"] = None,
+    query_settings: Optional["TantivyCollectionIndexQuerySettings"] = None,
+) -> "TantivyCollectionIndex": ...
 @overload
 def create_collection(
-    type: Literal["vector"],
-    name: str,
-    vector_size: int,
+    name: str = "default",
     *,
-    schema: Optional[Any] = None,
-    default_ttl: Optional[int] = None,
-    storage_backend: Optional[Any] = None,
-    distance_metric: Optional[Any] = None,
+    schema: Optional[Type["DatabaseItemType"]] = None,
+    ttl: Optional[int] = None,
+    path: Optional[Union[Path, str]] = None,
+    vector: Literal[True],
+    vector_size: Optional[int] = None,
+    # Vector/Qdrant-specific parameters
+    distance_metric: "DistanceMetric" = "dot",
+    settings: Optional["QdrantCollectionIndexSettings"] = None,
+    query_settings: Optional["QdrantCollectionIndexQuerySettings"] = None,
     embedding_function: Optional[Callable[[Any], List[float]]] = None,
-    model: Optional[str] = None,
-    # Common embedding parameters
-    format: bool = False,
-    # LiteLLM parameters
-    dimensions: Optional[int] = None,
-    encoding_format: Optional[str] = None,
-    timeout: Optional[int] = None,
-    api_base: Optional[str] = None,
-    api_version: Optional[str] = None,
-    api_key: Optional[str] = None,
-    api_type: Optional[str] = None,
-    caching: bool = False,
-    user: Optional[str] = None,
-    # FastEmbed parameters
-    parallel: Optional[int] = None,
-    batch_size: Optional[int] = None,
-    # Qdrant parameters
-    path: Optional[str] = None,
-    host: Optional[str] = None,
-    port: Optional[int] = None,
-    grpc_port: Optional[int] = None,
-    prefer_grpc: Optional[bool] = None,
-    qdrant_timeout: Optional[float] = None,
-) -> "VectorCollection": ...
+) -> "QdrantCollectionIndex": ...
 def create_collection(
-    type: Literal["searchable", "vector"],
-    name: str,
-    vector_size: Optional[int] = None,
+    name: str = "default",
     *,
-    schema: Optional[Any] = None,
-    default_ttl: Optional[int] = None,
-    storage_backend: Optional[Any] = None,
-    distance_metric: Optional[Any] = None,
+    schema: Optional[Type["DatabaseItemType"]] = None,
+    ttl: Optional[int] = None,
+    path: Optional[Union[Path, str]] = None,
+    vector: bool = False,
+    vector_size: Optional[int] = None,
+    # Tantivy-specific parameters
+    fast: bool = True,
+    # Unified settings parameters
+    settings: Optional[Union["TantivyCollectionIndexSettings", "QdrantCollectionIndexSettings"]] = None,
+    query_settings: Optional[Union["TantivyCollectionIndexQuerySettings", "QdrantCollectionIndexQuerySettings"]] = None,
+    # Vector/Qdrant-specific parameters
+    distance_metric: "DistanceMetric" = "dot",
     embedding_function: Optional[Callable[[Any], List[float]]] = None,
-    model: Optional[str] = None,
-    # Common embedding parameters
-    format: bool = False,
-    # LiteLLM parameters
-    dimensions: Optional[int] = None,
-    encoding_format: Optional[str] = None,
-    timeout: Optional[int] = None,
-    api_base: Optional[str] = None,
-    api_version: Optional[str] = None,
-    api_key: Optional[str] = None,
-    api_type: Optional[str] = None,
-    caching: bool = False,
-    user: Optional[str] = None,
-    # FastEmbed parameters
-    parallel: Optional[int] = None,
-    batch_size: Optional[int] = None,
-    # Tantivy parameters (searchable collections only)
-    heap_size: Optional[int] = None,
-    num_threads: Optional[int] = None,
-    index_path: Optional[str] = None,
-    schema_builder: Optional[Any] = None,
-    writer_memory: Optional[int] = None,
-    reload_policy: Optional[str] = None,
-    # Qdrant parameters (vector collections only)
-    path: Optional[str] = None,
-    host: Optional[str] = None,
-    port: Optional[int] = None,
-    grpc_port: Optional[int] = None,
-    prefer_grpc: Optional[bool] = None,
-    qdrant_timeout: Optional[float] = None,
-) -> "BaseCollection":
+) -> Union["TantivyCollectionIndex", "QdrantCollectionIndex"]:
     """
-    Create a collection of the specified type.
-    This function provides a factory pattern for creating collections.
-    Use the Collection class for a more object-oriented approach.
+    Create a data collection of the specified type. Collections are a unified
+    interface for creating searchable, vectorizable data stores.
     Args:
-        type: Type of collection to create ("searchable" or "vector")
         name: Name of the collection
+        schema: Optional schema type for validation
+        ttl: Default TTL for items in seconds
+        path: File path for storage (None = in-memory)
+        vector: Whether this is a vector collection (True) or text search collection (False)
         vector_size: Size of vectors (required for vector collections)
-        schema: Optional schema for type validation
-        default_ttl: Default TTL for items in seconds
-        storage_backend: Optional storage backend
-        distance_metric: Distance metric for similarity search (vector collections only)
-        embedding_function: Function to convert objects to vectors (vector collections only)
-        Tantivy parameters (searchable collections only):
-        heap_size: Memory allocation for tantivy heap
-        num_threads: Number of threads for tantivy operations
-        index_path: Path to store tantivy index files
-        schema_builder: Custom schema builder for tantivy
-        writer_memory: Memory allocation for tantivy writer
-        reload_policy: Policy for reloading tantivy index
-        Qdrant parameters (vector collections only):
-        path: Path for local Qdrant storage
-        host: Qdrant server host
-        port: Qdrant server port
-        grpc_port: Qdrant gRPC port
-        prefer_grpc: Whether to prefer gRPC over HTTP
-        api_key: API key for Qdrant authentication
-        timeout: Request timeout for Qdrant operations
+        # Tantivy parameters (for non-vector collections):
+        fast: Whether to use fast schema building & indexing
+        # Unified parameters:
+        settings: Collection settings (TantivyCollectionIndexSettings or QdrantCollectionIndexSettings)
+        query_settings: Query behavior settings (TantivyCollectionIndexQuerySettings or QdrantCollectionIndexQuerySettings)
+        # Qdrant parameters (for vector collections):
+        distance_metric: Distance metric for similarity search
+        embedding_model: The embedding model to use (e.g., 'openai/text-embedding-3-small')
+        embedding_dimensions: Number of dimensions for embeddings
+        embedding_api_key: API key for the embedding service
+        embedding_base_url: Base URL for the embedding service
     Returns:
-        A SearchableCollection or VectorCollection instance
+        A TantivyCollectionIndex or QdrantCollectionIndex instance
     """
     return Collection(
-        type=type,
         name=name,
-        vector_size=vector_size,
         schema=schema,
-        default_ttl=default_ttl,
-        storage_backend=storage_backend,
+        ttl=ttl,
+        path=path,
+        vector=vector,
+        vector_size=vector_size,
+        fast=fast,
+        settings=settings,
+        query_settings=query_settings,
         distance_metric=distance_metric,
         embedding_function=embedding_function,
-        model=model,
-        format=format,
-        dimensions=dimensions,
-        encoding_format=encoding_format,
-        timeout=timeout,
-        api_base=api_base,
-        api_version=api_version,
-        api_key=api_key,
-        api_type=api_type,
-        caching=caching,
-        user=user,
-        parallel=parallel,
-        batch_size=batch_size,
-        heap_size=heap_size,
-        num_threads=num_threads,
-        index_path=index_path,
-        schema_builder=schema_builder,
-        writer_memory=writer_memory,
-        reload_policy=reload_policy,
-        path=path,
-        host=host,
-        port=port,
-        grpc_port=grpc_port,
-        prefer_grpc=prefer_grpc,
-        qdrant_timeout=qdrant_timeout,
-    )
+    )

hammad-python 0.0.14__py3-none-any.whl → 0.0.16__py3-none-any.whl

hammad-python 0.0.14py3-none-any.whl → 0.0.16py3-none-any.whl