PyPI - kodit - Versions diffs - 0.1.14__py3-none-any.whl → 0.1.16__py3-none-any.whl - Mend

kodit 0.1.14py3-none-any.whl → 0.1.16py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kodit might be problematic. Click here for more details.

Files changed (42) hide show

kodit/_version.py +2 -2
kodit/bm25/keyword_search_factory.py +17 -0
kodit/bm25/keyword_search_service.py +34 -0
kodit/bm25/{bm25.py → local_bm25.py} +40 -14
kodit/bm25/vectorchord_bm25.py +193 -0
kodit/cli.py +114 -25
kodit/config.py +9 -2
kodit/database.py +4 -2
kodit/embedding/embedding_factory.py +44 -0
kodit/embedding/embedding_provider/__init__.py +1 -0
kodit/embedding/embedding_provider/embedding_provider.py +60 -0
kodit/embedding/embedding_provider/hash_embedding_provider.py +77 -0
kodit/embedding/embedding_provider/local_embedding_provider.py +58 -0
kodit/embedding/embedding_provider/openai_embedding_provider.py +75 -0
kodit/{search/search_repository.py → embedding/embedding_repository.py} +61 -33
kodit/embedding/local_vector_search_service.py +50 -0
kodit/embedding/vector_search_service.py +38 -0
kodit/embedding/vectorchord_vector_search_service.py +154 -0
kodit/enrichment/__init__.py +1 -0
kodit/enrichment/enrichment_factory.py +23 -0
kodit/enrichment/enrichment_provider/__init__.py +1 -0
kodit/enrichment/enrichment_provider/enrichment_provider.py +16 -0
kodit/enrichment/enrichment_provider/local_enrichment_provider.py +63 -0
kodit/enrichment/enrichment_provider/openai_enrichment_provider.py +77 -0
kodit/enrichment/enrichment_service.py +33 -0
kodit/indexing/fusion.py +67 -0
kodit/indexing/indexing_repository.py +44 -4
kodit/indexing/indexing_service.py +142 -31
kodit/mcp.py +31 -18
kodit/snippets/languages/go.scm +26 -0
kodit/source/source_service.py +9 -3
kodit/util/__init__.py +1 -0
kodit/util/spinner.py +59 -0
{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/METADATA +4 -1
kodit-0.1.16.dist-info/RECORD +64 -0
kodit/embedding/embedding.py +0 -203
kodit/search/__init__.py +0 -1
kodit/search/search_service.py +0 -147
kodit-0.1.14.dist-info/RECORD +0 -44
{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/WHEEL +0 -0
{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/entry_points.txt +0 -0
{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/licenses/LICENSE +0 -0

kodit/source/source_service.py CHANGED Viewed

@@ -109,6 +109,8 @@ class SourceService:
                 uri_or_path_like = uri_or_path_like + ".git"
                 try:
                     return await self._create_git_source(uri_or_path_like)
+                except git.GitCommandError:
+                    raise
                 except ValueError:
                     pass
@@ -197,11 +199,14 @@ class SourceService:
             clone_path.mkdir(parents=True, exist_ok=True)
             try:
-                # Clone the repository
+                self.log.info("Cloning repository", uri=uri, clone_path=str(clone_path))
                 git.Repo.clone_from(uri, clone_path)
             except git.GitCommandError as e:
-                msg = f"Failed to clone repository: {e}"
-                raise ValueError(msg) from e
+                if "already exists and is not an empty directory" in str(e):
+                    self.log.info("Repository already exists, reusing...", uri=uri)
+                else:
+                    msg = f"Failed to clone repository: {e}"
+                    raise ValueError(msg) from e
             source = await self.repository.create_source(
                 Source(uri=uri, cloned_path=str(clone_path)),
@@ -212,6 +217,7 @@ class SourceService:
             file_count = sum(1 for _ in clone_path.rglob("*") if _.is_file())
             # Process each file in the source directory
+            self.log.info("Inspecting files", source_id=source.id)
             for path in tqdm(clone_path.rglob("*"), total=file_count, leave=False):
                 await self._process_file(source.id, path.absolute())

kodit/util/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """Utility functions and classes."""

kodit/util/spinner.py ADDED Viewed

@@ -0,0 +1,59 @@
+"""Spinner for long-running tasks."""
+import itertools
+import sys
+import threading
+import time
+class Spinner:
+    """Spinner for long-running tasks."""
+    def __init__(self, delay: float = 0.1) -> None:
+        """Initialize the spinner."""
+        self.spinner = itertools.cycle(["-", "/", "|", "\\"])
+        self.delay = delay
+        self.busy = False
+        self.spinner_visible = False
+    def write_next(self) -> None:
+        """Write the next character of the spinner."""
+        with self._screen_lock:
+            if not self.spinner_visible:
+                sys.stdout.write(next(self.spinner))
+                self.spinner_visible = True
+                sys.stdout.flush()
+    def remove_spinner(self, cleanup: bool = False) -> None:  # noqa: FBT001, FBT002
+        """Remove the spinner."""
+        with self._screen_lock:
+            if self.spinner_visible:
+                sys.stdout.write("\b")
+                self.spinner_visible = False
+                if cleanup:
+                    sys.stdout.write(" ")  # overwrite spinner with blank
+                    sys.stdout.write("\r")  # move to next line
+                sys.stdout.flush()
+    def spinner_task(self) -> None:
+        """Task that runs the spinner."""
+        while self.busy:
+            self.write_next()
+            time.sleep(self.delay)
+            self.remove_spinner()
+    def __enter__(self) -> None:
+        """Enter the context manager."""
+        if sys.stdout.isatty():
+            self._screen_lock = threading.Lock()
+            self.busy = True
+            self.thread = threading.Thread(target=self.spinner_task)
+            self.thread.start()
+    def __exit__(self, exception: object, value: object, tb: object) -> None:
+        """Exit the context manager."""
+        if sys.stdout.isatty():
+            self.busy = False
+            self.remove_spinner(cleanup=True)
+        else:
+            sys.stdout.write("\r")

{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: kodit
-Version: 0.1.14
+Version: 0.1.16
 Summary: Code indexing for better AI code generation
 Project-URL: Homepage, https://docs.helixml.tech/kodit/
 Project-URL: Documentation, https://docs.helixml.tech/kodit/
@@ -15,12 +15,14 @@ Keywords: ai,indexing,mcp,rag
 Classifier: Development Status :: 2 - Pre-Alpha
 Classifier: Intended Audience :: Developers
 Classifier: Programming Language :: Python :: 3.12
+Classifier: Programming Language :: Python :: 3.13
 Classifier: Topic :: Software Development :: Code Generators
 Requires-Python: >=3.12
 Requires-Dist: aiofiles>=24.1.0
 Requires-Dist: aiosqlite>=0.20.0
 Requires-Dist: alembic>=1.15.2
 Requires-Dist: asgi-correlation-id>=4.3.4
+Requires-Dist: asyncpg>=0.30.0
 Requires-Dist: better-exceptions>=0.3.3
 Requires-Dist: bm25s[core]>=0.2.12
 Requires-Dist: click>=8.1.8
@@ -41,6 +43,7 @@ Requires-Dist: sqlalchemy[asyncio]>=2.0.40
 Requires-Dist: structlog>=25.3.0
 Requires-Dist: tdqm>=0.0.1
 Requires-Dist: tiktoken>=0.9.0
+Requires-Dist: transformers>=4.51.3
 Requires-Dist: tree-sitter-language-pack>=0.7.3
 Requires-Dist: tree-sitter>=0.24.0
 Requires-Dist: uritools>=5.0.0

kodit-0.1.16.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,64 @@
+kodit/.gitignore,sha256=ztkjgRwL9Uud1OEi36hGQeDGk3OLK1NfDEO8YqGYy8o,11
+kodit/__init__.py,sha256=aEKHYninUq1yh6jaNfvJBYg-6fenpN132nJt1UU6Jxs,59
+kodit/_version.py,sha256=VYJNWHISWEW-KD_clKUYcTY_Z30r993Sjws4URJIL0g,513
+kodit/app.py,sha256=Mr5BFHOHx5zppwjC4XPWVvHjwgl1yrKbUjTWXKubJQM,891
+kodit/cli.py,sha256=i7eEt0FdIQGEfXKFte-8fBcZZGE8BPXBp40aGwJDQGI,11323
+kodit/config.py,sha256=2W2u5J8j-Mbt-C4xzOuK-PeuDCx0S_rnCXPhBwvfLT4,4353
+kodit/database.py,sha256=WB1KpVxUYPgiJGU0gJa2hqytYB8wJEJ5z3WayhWzNMU,2403
+kodit/log.py,sha256=HU1OmuxO4FcVw61k4WW7Y4WM7BrDaeplw1PcBHhuIZY,5434
+kodit/mcp.py,sha256=QruyPskWB0_x59pkfj5BBeXuR13GMny5TAZEa2j4U9s,5752
+kodit/middleware.py,sha256=I6FOkqG9-8RH5kR1-0ZoQWfE4qLCB8lZYv8H_OCH29o,2714
+kodit/bm25/__init__.py,sha256=j8zyriNWhbwE5Lbybzg1hQAhANlU9mKHWw4beeUR6og,19
+kodit/bm25/keyword_search_factory.py,sha256=rp-wx3DJsc2KlELK1V337EyeYvmwnMQwUqOo1WVPSmg,631
+kodit/bm25/keyword_search_service.py,sha256=aBbWQKgQmi2re3EIHdXFS00n7Wj3b2D0pZsLZ4qmHfE,754
+kodit/bm25/local_bm25.py,sha256=AAbFhbQDqyL3d7jsPL7W4HsLxdoYctaDsREUXOLy6jM,3260
+kodit/bm25/vectorchord_bm25.py,sha256=_nGrkUReYLLV-L8RIuIVLwjuhSYZl9T532n5OVf0kWs,6393
+kodit/embedding/__init__.py,sha256=h9NXzDA1r-K23nvBajBV-RJzHJN0p3UJ7UQsmdnOoRw,24
+kodit/embedding/embedding_factory.py,sha256=UGnFRyyQXazSUOwyW4Hg7Vq2-kfAoDj9lD4CTLu8x04,1630
+kodit/embedding/embedding_models.py,sha256=rN90vSs86dYiqoawcp8E9jtwY31JoJXYfaDlsJK7uqc,656
+kodit/embedding/embedding_repository.py,sha256=-ux3scpBzel8c0pMH9fNOEsSXFIzl-IfgaWrkTb1szo,6907
+kodit/embedding/local_vector_search_service.py,sha256=hkF0qlfzjyGt400qIX9Mr6B7b7i8WvYIYWN2Z2C_pcs,1907
+kodit/embedding/vector_search_service.py,sha256=pQJ129QjGrAWOXzqkywmgtDRpy8_gtzYgkivyqF9Vrs,1009
+kodit/embedding/vectorchord_vector_search_service.py,sha256=KSs0IMFHHIllwq2d3A0LGqGGZDqO1Ht6K-BCfBBWW0Y,5051
+kodit/embedding/embedding_provider/__init__.py,sha256=h9NXzDA1r-K23nvBajBV-RJzHJN0p3UJ7UQsmdnOoRw,24
+kodit/embedding/embedding_provider/embedding_provider.py,sha256=Tf3bwUsUMzAgoyLFM5qBtOLqPp1qr03TzrwGczkDvy0,1835
+kodit/embedding/embedding_provider/hash_embedding_provider.py,sha256=nAhlhh8j8PqqCCbhVl26Y8ntFBm2vJBCtB4X04g5Wwg,2638
+kodit/embedding/embedding_provider/local_embedding_provider.py,sha256=4ER-UPq506Y0TWU6qcs0nUqw6bSKQkSrdog-DhNQWM8,1906
+kodit/embedding/embedding_provider/openai_embedding_provider.py,sha256=V_jdUXiaGdslplwxMlfgFc4_hAVS2eaJXMTs2C7RiLI,2666
+kodit/enrichment/__init__.py,sha256=vBEolHpKaHUhfINX0dSGyAPlvgpLNAer9YzFtdvCB24,18
+kodit/enrichment/enrichment_factory.py,sha256=vKjkUTdhj74IW2S4GENDWdWMJx6BwUSZjJGDC0i7DSk,787
+kodit/enrichment/enrichment_service.py,sha256=87Sd3gGbEMJYb_wVrHG8L1yGIZmQNR7foUS4_y94azI,977
+kodit/enrichment/enrichment_provider/__init__.py,sha256=klf8iuLVWX4iRz-DZQauFFNAoJC5CByczh48TBZPW-o,27
+kodit/enrichment/enrichment_provider/enrichment_provider.py,sha256=E0H5rq3OENM0yYbA8K_3nSnj5lUHCpoIOqpWLo-2MVU,413
+kodit/enrichment/enrichment_provider/local_enrichment_provider.py,sha256=bR6HR1gH7wtZdMLOwaKdASjvllRo1FlNW9GyZC11zAM,2164
+kodit/enrichment/enrichment_provider/openai_enrichment_provider.py,sha256=gYuFTAeIVdQNlCUvNSPgRoiRwCvRD0C8419h8ubyABA,2725
+kodit/indexing/__init__.py,sha256=cPyi2Iej3G1JFWlWr7X80_UrsMaTu5W5rBwgif1B3xo,75
+kodit/indexing/fusion.py,sha256=TZb4fPAedXdEUXzwzOofW98QIOymdbclBOP1KOijuEk,1674
+kodit/indexing/indexing_models.py,sha256=6NX9HVcj6Pu9ePwHC7n-PWSyAgukpJq0nCNmUIigtbo,1282
+kodit/indexing/indexing_repository.py,sha256=GYHoACUWYKQdVTwP7tfik_TMUD1WUK76nywH88eCSwg,7006
+kodit/indexing/indexing_service.py,sha256=tKcZpi0pzsmF6OpqnqF0Q5HfSXxi5iLTysrVSou4JiQ,10579
+kodit/migrations/README,sha256=ISVtAOvqvKk_5ThM5ioJE-lMkvf9IbknFUFVU_vPma4,58
+kodit/migrations/__init__.py,sha256=lP5MuwlyWRMO6UcDWnQcQ3G-GYHcFb6rl9gYPHJ1sjo,40
+kodit/migrations/env.py,sha256=w1M7OZh-ZeR2dPHS0ByXAUxQjfZQ8xIzMseWuzLDTWw,2469
+kodit/migrations/script.py.mako,sha256=zWziKtiwYKEWuwPV_HBNHwa9LCT45_bi01-uSNFaOOE,703
+kodit/migrations/versions/7c3bbc2ab32b_add_embeddings_table.py,sha256=-61qol9PfQKILCDQRA5jEaats9aGZs9Wdtp-j-38SF4,1644
+kodit/migrations/versions/85155663351e_initial.py,sha256=Cg7zlF871o9ShV5rQMQ1v7hRV7fI59veDY9cjtTrs-8,3306
+kodit/migrations/versions/__init__.py,sha256=9-lHzptItTzq_fomdIRBegQNm4Znx6pVjwD4MiqRIdo,36
+kodit/snippets/__init__.py,sha256=-2coNoCRjTixU9KcP6alpmt7zqf37tCRWH3D7FPJ8dg,48
+kodit/snippets/method_snippets.py,sha256=EVHhSNWahAC5nSXv9fWVFJY2yq25goHdCSCuENC07F8,4145
+kodit/snippets/snippets.py,sha256=mwN0bM1Msu8ZeEsUHyQ7tx3Hj3vZsm8G7Wu4eWSkLY8,1539
+kodit/snippets/languages/__init__.py,sha256=Bj5KKZSls2MQ8ZY1S_nHg447MgGZW-2WZM-oq6vjwwA,1187
+kodit/snippets/languages/csharp.scm,sha256=gbBN4RiV1FBuTJF6orSnDFi8H9JwTw-d4piLJYsWUsc,222
+kodit/snippets/languages/go.scm,sha256=SEX9mTOrhP2KiQW7oflDKkd21u5dK56QbJ4LvTDxY8A,533
+kodit/snippets/languages/python.scm,sha256=ee85R9PBzwye3IMTE7-iVoKWd_ViU3EJISTyrFGrVeo,429
+kodit/source/__init__.py,sha256=1NTZyPdjThVQpZO1Mp1ColVsS7sqYanOVLqnoqV9Ipo,83
+kodit/source/source_models.py,sha256=xb42CaNDO1CUB8SIW-xXMrB6Ji8cFw-yeJ550xBEg9Q,2398
+kodit/source/source_repository.py,sha256=0EksMpoLzdkfe8S4eeCm4Sf7TuxsOzOzaF4BBsMYo-4,3163
+kodit/source/source_service.py,sha256=u_GaH07ewakThQJRfT8O_yZ54A52qLtJuM1bF3xUT2A,9633
+kodit/util/__init__.py,sha256=bPu6CtqDWCRGU7VgW2_aiQrCBi8G89FS6k1PjvDajJ0,37
+kodit/util/spinner.py,sha256=R9bzrHtBiIH6IfLbmsIVHL53s8vg-tqW4lwGGALu4dw,1932
+kodit-0.1.16.dist-info/METADATA,sha256=1lR4ZSTiRBzUv9Gj8FPspv4GU2vWGQU6HSiffWgU2Do,2467
+kodit-0.1.16.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+kodit-0.1.16.dist-info/entry_points.txt,sha256=hoTn-1aKyTItjnY91fnO-rV5uaWQLQ-Vi7V5et2IbHY,40
+kodit-0.1.16.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
+kodit-0.1.16.dist-info/RECORD,,

kodit/embedding/embedding.py DELETED Viewed

@@ -1,203 +0,0 @@
-"""Embedding service."""
-import asyncio
-import os
-from abc import ABC, abstractmethod
-from collections.abc import AsyncGenerator
-from typing import NamedTuple
-import structlog
-import tiktoken
-from openai import AsyncOpenAI
-from sentence_transformers import SentenceTransformer
-TINY = "tiny"
-CODE = "code"
-TEST = "test"
-COMMON_EMBEDDING_MODELS = {
-    TINY: "ibm-granite/granite-embedding-30m-english",
-    CODE: "flax-sentence-embeddings/st-codesearch-distilroberta-base",
-    TEST: "minishlab/potion-base-4M",
-}
-class EmbeddingInput(NamedTuple):
-    """Input for embedding."""
-    id: int
-    text: str
-class EmbeddingOutput(NamedTuple):
-    """Output for embedding."""
-    id: int
-    embedding: list[float]
-class Embedder(ABC):
-    """Embedder interface."""
-    @abstractmethod
-    def embed(
-        self, data: list[EmbeddingInput]
-    ) -> AsyncGenerator[EmbeddingOutput, None]:
-        """Embed a list of documents.
-        The embedding service accepts a massive list of id,strings to embed. Behind the
-        scenes it batches up requests and parallelizes them for performance according to
-        the specifics of the embedding service.
-        The id reference is required because the parallelization may return results out
-        of order.
-        """
-    @abstractmethod
-    def query(self, data: list[str]) -> AsyncGenerator[list[float], None]:
-        """Query the embedding model."""
-def embedding_factory(openai_client: AsyncOpenAI | None = None) -> Embedder:
-    """Create an embedding service."""
-    if openai_client is not None:
-        return OpenAIEmbedder(openai_client)
-    return LocalEmbedder(model_name=TINY)
-class LocalEmbedder(Embedder):
-    """Local embedder."""
-    def __init__(self, model_name: str) -> None:
-        """Initialize the local embedder."""
-        self.log = structlog.get_logger(__name__)
-        self.log.info("Creating local embedder", model_name=model_name)
-        self.model_name = COMMON_EMBEDDING_MODELS.get(model_name, model_name)
-        self.embedding_model = None
-        self.encoding = tiktoken.encoding_for_model("text-embedding-3-small")
-    def _model(self) -> SentenceTransformer:
-        """Get the embedding model."""
-        if self.embedding_model is None:
-            os.environ["TOKENIZERS_PARALLELISM"] = "false"  # Avoid warnings
-            self.embedding_model = SentenceTransformer(
-                self.model_name,
-                trust_remote_code=True,
-                device="cpu",  # Force CPU so we don't have to install accelerate, etc.
-            )
-        return self.embedding_model
-    async def embed(
-        self, data: list[EmbeddingInput]
-    ) -> AsyncGenerator[EmbeddingOutput, None]:
-        """Embed a list of documents."""
-        model = self._model()
-        batched_data = _split_sub_batches(self.encoding, data)
-        for batch in batched_data:
-            embeddings = model.encode(
-                [i.text for i in batch], show_progress_bar=False, batch_size=4
-            )
-            for i, x in zip(batch, embeddings, strict=False):
-                yield EmbeddingOutput(i.id, [float(y) for y in x])
-    async def query(self, data: list[str]) -> AsyncGenerator[list[float], None]:
-        """Query the embedding model."""
-        model = self._model()
-        embeddings = model.encode(data, show_progress_bar=False, batch_size=4)
-        for embedding in embeddings:
-            yield [float(x) for x in embedding]
-OPENAI_MAX_EMBEDDING_SIZE = 8192
-OPENAI_NUM_PARALLEL_TASKS = 10
-def _split_sub_batches(
-    encoding: tiktoken.Encoding, data: list[EmbeddingInput]
-) -> list[list[EmbeddingInput]]:
-    """Split a list of strings into smaller sub-batches."""
-    log = structlog.get_logger(__name__)
-    result = []
-    data_to_process = [s for s in data if s.text.strip()]  # Filter out empty strings
-    while data_to_process:
-        next_batch = []
-        current_tokens = 0
-        while data_to_process:
-            next_item = data_to_process[0]
-            item_tokens = len(encoding.encode(next_item.text))
-            if item_tokens > OPENAI_MAX_EMBEDDING_SIZE:
-                log.warning("Skipping too long snippet", snippet=data_to_process.pop(0))
-                continue
-            if current_tokens + item_tokens > OPENAI_MAX_EMBEDDING_SIZE:
-                break
-            next_batch.append(data_to_process.pop(0))
-            current_tokens += item_tokens
-        if next_batch:
-            result.append(next_batch)
-    return result
-class OpenAIEmbedder(Embedder):
-    """OpenAI embedder."""
-    def __init__(
-        self, openai_client: AsyncOpenAI, model_name: str = "text-embedding-3-small"
-    ) -> None:
-        """Initialize the OpenAI embedder."""
-        self.log = structlog.get_logger(__name__)
-        self.log.info("Creating OpenAI embedder", model_name=model_name)
-        self.openai_client = openai_client
-        self.encoding = tiktoken.encoding_for_model(model_name)
-        self.log = structlog.get_logger(__name__)
-    async def embed(
-        self,
-        data: list[EmbeddingInput],
-    ) -> AsyncGenerator[EmbeddingOutput, None]:
-        """Embed a list of documents."""
-        # First split the list into a list of list where each sublist has fewer than
-        # max tokens.
-        batched_data = _split_sub_batches(self.encoding, data)
-        # Process batches in parallel with a semaphore to limit concurrent requests
-        sem = asyncio.Semaphore(OPENAI_NUM_PARALLEL_TASKS)
-        async def process_batch(batch: list[EmbeddingInput]) -> list[EmbeddingOutput]:
-            async with sem:
-                try:
-                    response = await self.openai_client.embeddings.create(
-                        model="text-embedding-3-small",
-                        input=[i.text for i in batch],
-                    )
-                    return [
-                        EmbeddingOutput(i.id, x.embedding)
-                        for i, x in zip(batch, response.data, strict=False)
-                    ]
-                except Exception as e:
-                    self.log.exception("Error embedding batch", error=str(e))
-                    return []
-        # Create tasks for all batches
-        tasks = [process_batch(batch) for batch in batched_data]
-        # Process all batches and yield results as they complete
-        for task in asyncio.as_completed(tasks):
-            embeddings = await task
-            for e in embeddings:
-                yield e
-    async def query(self, data: list[str]) -> AsyncGenerator[list[float], None]:
-        """Query the embedding model."""
-        async for e in self.embed(
-            [EmbeddingInput(i, text) for i, text in enumerate(data)]
-        ):
-            yield e.embedding

kodit/search/__init__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- """Search for relevant snippets."""

kodit/search/search_service.py DELETED Viewed

@@ -1,147 +0,0 @@
-"""Search service."""
-from pathlib import Path
-import pydantic
-import structlog
-from kodit.bm25.bm25 import BM25Service
-from kodit.embedding.embedding import Embedder
-from kodit.embedding.embedding_models import EmbeddingType
-from kodit.search.search_repository import SearchRepository
-class SearchRequest(pydantic.BaseModel):
-    """Request for a search."""
-    code_query: str | None = None
-    keywords: list[str] | None = None
-    top_k: int = 10
-class SearchResult(pydantic.BaseModel):
-    """Data transfer object for search results.
-    This model represents a single search result, containing both the file path
-    and the matching snippet content.
-    """
-    id: int
-    uri: str
-    content: str
-class Snippet(pydantic.BaseModel):
-    """Snippet model."""
-    content: str
-    file_path: str
-class SearchService:
-    """Service for searching for relevant data."""
-    def __init__(
-        self,
-        repository: SearchRepository,
-        data_dir: Path,
-        embedding_service: Embedder,
-    ) -> None:
-        """Initialize the search service."""
-        self.repository = repository
-        self.log = structlog.get_logger(__name__)
-        self.bm25 = BM25Service(data_dir)
-        self.code_embedding_service = embedding_service
-    async def search(self, request: SearchRequest) -> list[SearchResult]:
-        """Search for relevant data."""
-        fusion_list = []
-        if request.keywords:
-            snippet_ids = await self.repository.list_snippet_ids()
-            # Gather results for each keyword
-            result_ids: list[tuple[int, float]] = []
-            for keyword in request.keywords:
-                results = self.bm25.retrieve(snippet_ids, keyword, request.top_k)
-                result_ids.extend(results)
-            # Sort results by score
-            result_ids.sort(key=lambda x: x[1], reverse=True)
-            self.log.debug("Search results (BM25)", results=result_ids)
-            bm25_results = [x[0] for x in result_ids]
-            fusion_list.append(bm25_results)
-        # Compute embedding for semantic query
-        semantic_results = []
-        if request.code_query:
-            query_embedding = await anext(
-                self.code_embedding_service.query([request.code_query])
-            )
-            query_results = await self.repository.list_semantic_results(
-                EmbeddingType.CODE, query_embedding, top_k=request.top_k
-            )
-            # Sort results by score
-            query_results.sort(key=lambda x: x[1], reverse=True)
-            # Extract the snippet ids from the query results
-            semantic_results = [x[0] for x in query_results]
-            fusion_list.append(semantic_results)
-        if len(fusion_list) == 0:
-            return []
-        # Combine all results together with RFF if required
-        final_results = reciprocal_rank_fusion(fusion_list, k=60)
-        # Extract ids from final results
-        final_ids = [x[0] for x in final_results]
-        # Get snippets from database (up to top_k)
-        search_results = await self.repository.list_snippets_by_ids(
-            final_ids[: request.top_k]
-        )
-        return [
-            SearchResult(
-                id=snippet.id,
-                uri=file.uri,
-                content=snippet.content,
-            )
-            for file, snippet in search_results
-        ]
-def reciprocal_rank_fusion(
-    rankings: list[list[int]], k: float = 60
-) -> list[tuple[int, float]]:
-    """RRF prioritises results that are present in all results.
-    Args:
-        rankings: List of rankers, each containing a list of document ids. Top of the
-        list is considered to be the best result.
-        k: Parameter for RRF.
-    Returns:
-        Dictionary of ids and their scores.
-    """
-    scores = {}
-    for ranker in rankings:
-        for rank in ranker:
-            scores[rank] = float(0)
-    for ranker in rankings:
-        for i, rank in enumerate(ranker):
-            scores[rank] += 1.0 / (k + i)
-    # Create a list of tuples of ids and their scores
-    results = [(rank, scores[rank]) for rank in scores]
-    # Sort results by score
-    results.sort(key=lambda x: x[1], reverse=True)
-    return results

kodit-0.1.14.dist-info/RECORD DELETED Viewed

@@ -1,44 +0,0 @@
-kodit/.gitignore,sha256=ztkjgRwL9Uud1OEi36hGQeDGk3OLK1NfDEO8YqGYy8o,11
-kodit/__init__.py,sha256=aEKHYninUq1yh6jaNfvJBYg-6fenpN132nJt1UU6Jxs,59
-kodit/_version.py,sha256=O_r2EWoixTKREu-RyeL8e93UHfqprj1LCIlwiWXfHcg,513
-kodit/app.py,sha256=Mr5BFHOHx5zppwjC4XPWVvHjwgl1yrKbUjTWXKubJQM,891
-kodit/cli.py,sha256=VLoXFS1xJnQ0TLy3_cO8-B9tCb4NJHiYPfzZtHxpgRY,7784
-kodit/config.py,sha256=TDcLt6fiJn9cI1PoO5AqBqsL_Bxmm9JV5GqRxhj1tLw,4202
-kodit/database.py,sha256=kekSdyEATdb47jxzQemkSOXMNOwnUwmVVTpn9hYaDK8,2356
-kodit/log.py,sha256=HU1OmuxO4FcVw61k4WW7Y4WM7BrDaeplw1PcBHhuIZY,5434
-kodit/mcp.py,sha256=ot5CIH240mSXK3sJcxTf4lBfthq0tcMS8XBGTaHY-n8,5088
-kodit/middleware.py,sha256=I6FOkqG9-8RH5kR1-0ZoQWfE4qLCB8lZYv8H_OCH29o,2714
-kodit/bm25/__init__.py,sha256=j8zyriNWhbwE5Lbybzg1hQAhANlU9mKHWw4beeUR6og,19
-kodit/bm25/bm25.py,sha256=JtgJfsHz-2SHx96zxWjkPFSH7fXkahFMp01cDwl4YBg,2298
-kodit/embedding/__init__.py,sha256=h9NXzDA1r-K23nvBajBV-RJzHJN0p3UJ7UQsmdnOoRw,24
-kodit/embedding/embedding.py,sha256=EMJpHK8ICZk_FjiO9Aqr2IO20qkGOmj_PfA1hyfI7Vk,6745
-kodit/embedding/embedding_models.py,sha256=rN90vSs86dYiqoawcp8E9jtwY31JoJXYfaDlsJK7uqc,656
-kodit/indexing/__init__.py,sha256=cPyi2Iej3G1JFWlWr7X80_UrsMaTu5W5rBwgif1B3xo,75
-kodit/indexing/indexing_models.py,sha256=6NX9HVcj6Pu9ePwHC7n-PWSyAgukpJq0nCNmUIigtbo,1282
-kodit/indexing/indexing_repository.py,sha256=7bkAiBwtr3qlkdhNIalwMwbxezVz_RQGOhLVWPKHwNk,5506
-kodit/indexing/indexing_service.py,sha256=VGfKgbkYEAYP_gIubvhMxo3yThT20ndS5xdg2LxwRgA,6685
-kodit/migrations/README,sha256=ISVtAOvqvKk_5ThM5ioJE-lMkvf9IbknFUFVU_vPma4,58
-kodit/migrations/__init__.py,sha256=lP5MuwlyWRMO6UcDWnQcQ3G-GYHcFb6rl9gYPHJ1sjo,40
-kodit/migrations/env.py,sha256=w1M7OZh-ZeR2dPHS0ByXAUxQjfZQ8xIzMseWuzLDTWw,2469
-kodit/migrations/script.py.mako,sha256=zWziKtiwYKEWuwPV_HBNHwa9LCT45_bi01-uSNFaOOE,703
-kodit/migrations/versions/7c3bbc2ab32b_add_embeddings_table.py,sha256=-61qol9PfQKILCDQRA5jEaats9aGZs9Wdtp-j-38SF4,1644
-kodit/migrations/versions/85155663351e_initial.py,sha256=Cg7zlF871o9ShV5rQMQ1v7hRV7fI59veDY9cjtTrs-8,3306
-kodit/migrations/versions/__init__.py,sha256=9-lHzptItTzq_fomdIRBegQNm4Znx6pVjwD4MiqRIdo,36
-kodit/search/__init__.py,sha256=4QbdjbrlhNKMovmuKHxJnUeZT7KNjTTFU0GdnuwUHdQ,36
-kodit/search/search_repository.py,sha256=r1fkV6-cy9BKsy5J4WTHaY_FcjMaT1PV5qqqq0gvjZw,5833
-kodit/search/search_service.py,sha256=KePkqCAc3CUcrpNsbDc5DqbF6W2m0TG6TDa9-VSJZS0,4227
-kodit/snippets/__init__.py,sha256=-2coNoCRjTixU9KcP6alpmt7zqf37tCRWH3D7FPJ8dg,48
-kodit/snippets/method_snippets.py,sha256=EVHhSNWahAC5nSXv9fWVFJY2yq25goHdCSCuENC07F8,4145
-kodit/snippets/snippets.py,sha256=mwN0bM1Msu8ZeEsUHyQ7tx3Hj3vZsm8G7Wu4eWSkLY8,1539
-kodit/snippets/languages/__init__.py,sha256=Bj5KKZSls2MQ8ZY1S_nHg447MgGZW-2WZM-oq6vjwwA,1187
-kodit/snippets/languages/csharp.scm,sha256=gbBN4RiV1FBuTJF6orSnDFi8H9JwTw-d4piLJYsWUsc,222
-kodit/snippets/languages/python.scm,sha256=ee85R9PBzwye3IMTE7-iVoKWd_ViU3EJISTyrFGrVeo,429
-kodit/source/__init__.py,sha256=1NTZyPdjThVQpZO1Mp1ColVsS7sqYanOVLqnoqV9Ipo,83
-kodit/source/source_models.py,sha256=xb42CaNDO1CUB8SIW-xXMrB6Ji8cFw-yeJ550xBEg9Q,2398
-kodit/source/source_repository.py,sha256=0EksMpoLzdkfe8S4eeCm4Sf7TuxsOzOzaF4BBsMYo-4,3163
-kodit/source/source_service.py,sha256=qBV9FCFQbJppeFrVo4uMgvC_mzWRIKldymp5yqLx9pw,9255
-kodit-0.1.14.dist-info/METADATA,sha256=acFpcf0ODyUSnA1hg4BPlLexpOEh-0yuaqsaWUNopOs,2349
-kodit-0.1.14.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-kodit-0.1.14.dist-info/entry_points.txt,sha256=hoTn-1aKyTItjnY91fnO-rV5uaWQLQ-Vi7V5et2IbHY,40
-kodit-0.1.14.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
-kodit-0.1.14.dist-info/RECORD,,

{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/WHEEL RENAMED Viewed

File without changes

{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{kodit-0.1.14.dist-info → kodit-0.1.16.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

kodit 0.1.14__py3-none-any.whl → 0.1.16__py3-none-any.whl

Potentially problematic release.

kodit 0.1.14py3-none-any.whl → 0.1.16py3-none-any.whl