PyPI - cocoindex-code - Versions diffs - 0.2.29__tar.gz → 0.2.30__tar.gz - Mend

cocoindex-code 0.2.29tar.gz → 0.2.30tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: cocoindex-code
-Version: 0.2.29
+Version: 0.2.30
 Summary: MCP server for indexing and querying codebases using CocoIndex
 Project-URL: Homepage, https://github.com/cocoindex-io/cocoindex-code
 Project-URL: Repository, https://github.com/cocoindex-io/cocoindex-code
@@ -441,7 +441,7 @@ embedding:
   # `ccc init` auto-populates these for known models (e.g. Cohere, Voyage, Nvidia NIM,
   # nomic-ai code-retrieval models, Snowflake arctic-embed).
   # indexing_params:
-  #   input_type: search_document        # litellm: input_type, dimensions
+  #   input_type: search_document        # litellm: input_type
   # query_params:
   #   input_type: search_query           # sentence-transformers: prompt_name
@@ -471,7 +471,7 @@ embedding:
 OpenAI embeddings (`text-embedding-3-*`, `text-embedding-ada-002`) are intentionally not in the list: they're symmetric and have no equivalent knob.
-**Accepted keys:** `prompt_name` (sentence-transformers), `input_type` and `dimensions` (litellm). Other keys are rejected at daemon startup with a clear error.
+**Accepted keys:** `prompt_name` (sentence-transformers) and `input_type` (litellm). Other keys are rejected at daemon startup with a clear error. Note: `dimensions` is intentionally not exposed here — output dimension must be identical for indexing and query, so it's a model-wide setting rather than a per-side knob.
 **Doctor checks both sides.** `ccc doctor` exercises the model once with `indexing_params` and once with `query_params`, reporting each as a separate `Model Check (indexing)` / `Model Check (query)` entry — so a misconfiguration on one side is diagnosable without hiding behind the other.

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/README.md RENAMED Viewed

@@ -397,7 +397,7 @@ embedding:
   # `ccc init` auto-populates these for known models (e.g. Cohere, Voyage, Nvidia NIM,
   # nomic-ai code-retrieval models, Snowflake arctic-embed).
   # indexing_params:
-  #   input_type: search_document        # litellm: input_type, dimensions
+  #   input_type: search_document        # litellm: input_type
   # query_params:
   #   input_type: search_query           # sentence-transformers: prompt_name
@@ -427,7 +427,7 @@ embedding:
 OpenAI embeddings (`text-embedding-3-*`, `text-embedding-ada-002`) are intentionally not in the list: they're symmetric and have no equivalent knob.
-**Accepted keys:** `prompt_name` (sentence-transformers), `input_type` and `dimensions` (litellm). Other keys are rejected at daemon startup with a clear error.
+**Accepted keys:** `prompt_name` (sentence-transformers) and `input_type` (litellm). Other keys are rejected at daemon startup with a clear error. Note: `dimensions` is intentionally not exposed here — output dimension must be identical for indexing and query, so it's a model-wide setting rather than a per-side knob.
 **Doctor checks both sides.** `ccc doctor` exercises the model once with `indexing_params` and once with `query_params`, reporting each as a separate `Model Check (indexing)` / `Model Check (query)` entry — so a misconfiguration on one side is diagnosable without hiding behind the other.

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/src/cocoindex_code/_version.py RENAMED Viewed

@@ -18,7 +18,7 @@ version_tuple: tuple[int | str, ...]
 commit_id: str | None
 __commit_id__: str | None
-__version__ = version = '0.2.29'
-__version_tuple__ = version_tuple = (0, 2, 29)
+__version__ = version = '0.2.30'
+__version_tuple__ = version_tuple = (0, 2, 30)
 __commit_id__ = commit_id = None

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/src/cocoindex_code/daemon.py RENAMED Viewed

@@ -586,7 +586,7 @@ def run_daemon() -> None:
             handshake_warnings.append(
                 _build_backward_compat_warning(user_settings, user_settings_path())
             )
-        embedder = create_embedder(user_settings.embedding)
+        embedder = create_embedder(user_settings.embedding, indexing_params=indexing_params)
     else:
         settings_env_keys = []
         embedder = None

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/src/cocoindex_code/embedder_params.py RENAMED Viewed

@@ -21,13 +21,14 @@ __all__ = [
 # Accepted kwargs per provider.  Intentionally minimal — we only expose knobs
-# that users have reason to tune.  ``normalize_embeddings`` (sentence-
-# transformers) and ``encoding_format`` (litellm) are deliberately excluded
-# because other code assumes unit vectors (query._l2_to_score) and float
-# payloads (litellm_embedder hardcodes encoding_format="float").
+# that users have reason to tune AND that make sense per-side (indexing vs
+# query).  Excluded keys:
+#   - ``normalize_embeddings`` (sentence-transformers): query._l2_to_score
+#     assumes unit vectors.
+#   - ``encoding_format`` (litellm): litellm_embedder hardcodes "float".
 _ACCEPTED_KWARGS: dict[str, frozenset[str]] = {
     "sentence-transformers": frozenset({"prompt_name"}),
-    "litellm": frozenset({"input_type", "dimensions"}),
+    "litellm": frozenset({"input_type"}),
 }

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/src/cocoindex_code/settings.py RENAMED Viewed

@@ -544,7 +544,7 @@ _PARAMS_COMMENT_BY_PROVIDER: dict[str, str] = {
     "litellm": (
         "  #\n"
         "  # Extra kwargs passed to the embedder. Supported keys:\n"
-        "  #   input_type, dimensions\n"
+        "  #   input_type\n"
         "  # indexing_params: {}\n"
         "  # query_params: {}\n"
     ),

{cocoindex_code-0.2.29 → cocoindex_code-0.2.30}/src/cocoindex_code/shared.py RENAMED Viewed

@@ -76,8 +76,26 @@ async def check_embedding(
         return EmbeddingCheckResult(dim=None, error=msg)
-def create_embedder(settings: EmbeddingSettings) -> Embedder:
-    """Create and return an embedder instance based on settings."""
+def create_embedder(
+    settings: EmbeddingSettings,
+    indexing_params: dict[str, Any] | None = None,
+) -> Embedder:
+    """Create and return an embedder instance based on settings.
+    For LiteLLM embedders, *indexing_params* (e.g. ``{"input_type": "passage"}``)
+    are passed to the constructor as default kwargs forwarded into every
+    ``litellm.aembedding`` call — including paths that don't go through
+    :data:`INDEXING_EMBED_PARAMS` (e.g. the dimension probe in ``_get_dim``,
+    or any helper that calls ``embed()`` with no per-side kwargs). Per-call
+    overrides (the ``query_params`` spread at query time) still take effect
+    because :meth:`LiteLLMEmbedder._embed` overlays kwargs on top of the
+    constructor's ``self._kwargs``.
+    *indexing_params* is ignored for sentence-transformers — its constructor
+    doesn't accept arbitrary kwargs; ``prompt_name`` is a per-call argument
+    only and the indexing default is supplied at the call site via
+    :data:`INDEXING_EMBED_PARAMS`.
+    """
     if settings.provider == "sentence-transformers":
         from cocoindex.ops.sentence_transformers import SentenceTransformerEmbedder
@@ -103,6 +121,7 @@ def create_embedder(settings: EmbeddingSettings) -> Embedder:
         instance = PacedLiteLLMEmbedder(
             settings.model,
             min_interval_ms=min_interval_ms,
+            **(dict(indexing_params) if indexing_params else {}),
         )
         logger.info(
             "Embedding model (LiteLLM): %s | min_interval_ms: %s",