PyPI - kodit - Versions diffs - 0.4.2__py3-none-any.whl → 0.5.0__py3-none-any.whl - Mend

kodit 0.4.2py3-none-any.whl → 0.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kodit might be problematic. Click here for more details.

Files changed (100) hide show

kodit/_version.py +2 -2
kodit/app.py +59 -24
kodit/application/factories/reporting_factory.py +16 -7
kodit/application/factories/server_factory.py +311 -0
kodit/application/services/code_search_application_service.py +144 -0
kodit/application/services/commit_indexing_application_service.py +543 -0
kodit/application/services/indexing_worker_service.py +13 -46
kodit/application/services/queue_service.py +24 -3
kodit/application/services/reporting.py +70 -54
kodit/application/services/sync_scheduler.py +15 -31
kodit/cli.py +2 -763
kodit/cli_utils.py +2 -9
kodit/config.py +3 -96
kodit/database.py +38 -1
kodit/domain/entities/__init__.py +276 -0
kodit/domain/entities/git.py +190 -0
kodit/domain/factories/__init__.py +1 -0
kodit/domain/factories/git_repo_factory.py +76 -0
kodit/domain/protocols.py +270 -46
kodit/domain/services/bm25_service.py +5 -1
kodit/domain/services/embedding_service.py +3 -0
kodit/domain/services/git_repository_service.py +429 -0
kodit/domain/services/git_service.py +300 -0
kodit/domain/services/task_status_query_service.py +19 -0
kodit/domain/value_objects.py +113 -147
kodit/infrastructure/api/client/__init__.py +0 -2
kodit/infrastructure/api/v1/__init__.py +0 -4
kodit/infrastructure/api/v1/dependencies.py +105 -44
kodit/infrastructure/api/v1/routers/__init__.py +0 -6
kodit/infrastructure/api/v1/routers/commits.py +271 -0
kodit/infrastructure/api/v1/routers/queue.py +2 -2
kodit/infrastructure/api/v1/routers/repositories.py +282 -0
kodit/infrastructure/api/v1/routers/search.py +31 -14
kodit/infrastructure/api/v1/schemas/__init__.py +0 -24
kodit/infrastructure/api/v1/schemas/commit.py +96 -0
kodit/infrastructure/api/v1/schemas/context.py +2 -0
kodit/infrastructure/api/v1/schemas/repository.py +128 -0
kodit/infrastructure/api/v1/schemas/search.py +12 -9
kodit/infrastructure/api/v1/schemas/snippet.py +58 -0
kodit/infrastructure/api/v1/schemas/tag.py +31 -0
kodit/infrastructure/api/v1/schemas/task_status.py +41 -0
kodit/infrastructure/bm25/local_bm25_repository.py +16 -4
kodit/infrastructure/bm25/vectorchord_bm25_repository.py +68 -52
kodit/infrastructure/cloning/git/git_python_adaptor.py +467 -0
kodit/infrastructure/cloning/git/working_copy.py +10 -3
kodit/infrastructure/embedding/embedding_factory.py +3 -2
kodit/infrastructure/embedding/local_vector_search_repository.py +1 -1
kodit/infrastructure/embedding/vectorchord_vector_search_repository.py +111 -84
kodit/infrastructure/enrichment/litellm_enrichment_provider.py +19 -26
kodit/infrastructure/enrichment/local_enrichment_provider.py +41 -30
kodit/infrastructure/indexing/fusion_service.py +1 -1
kodit/infrastructure/mappers/git_mapper.py +193 -0
kodit/infrastructure/mappers/snippet_mapper.py +106 -0
kodit/infrastructure/mappers/task_mapper.py +5 -44
kodit/infrastructure/mappers/task_status_mapper.py +85 -0
kodit/infrastructure/reporting/db_progress.py +23 -0
kodit/infrastructure/reporting/log_progress.py +13 -38
kodit/infrastructure/reporting/telemetry_progress.py +21 -0
kodit/infrastructure/slicing/slicer.py +32 -31
kodit/infrastructure/sqlalchemy/embedding_repository.py +43 -23
kodit/infrastructure/sqlalchemy/entities.py +428 -131
kodit/infrastructure/sqlalchemy/git_branch_repository.py +263 -0
kodit/infrastructure/sqlalchemy/git_commit_repository.py +337 -0
kodit/infrastructure/sqlalchemy/git_repository.py +252 -0
kodit/infrastructure/sqlalchemy/git_tag_repository.py +257 -0
kodit/infrastructure/sqlalchemy/snippet_v2_repository.py +484 -0
kodit/infrastructure/sqlalchemy/task_repository.py +29 -23
kodit/infrastructure/sqlalchemy/task_status_repository.py +91 -0
kodit/infrastructure/sqlalchemy/unit_of_work.py +10 -14
kodit/mcp.py +12 -26
kodit/migrations/env.py +1 -1
kodit/migrations/versions/04b80f802e0c_foreign_key_review.py +100 -0
kodit/migrations/versions/7f15f878c3a1_add_new_git_entities.py +690 -0
kodit/migrations/versions/b9cd1c3fd762_add_task_status.py +77 -0
kodit/migrations/versions/f9e5ef5e688f_add_git_commits_number.py +43 -0
kodit/py.typed +0 -0
kodit/utils/dump_openapi.py +7 -4
kodit/utils/path_utils.py +29 -0
{kodit-0.4.2.dist-info → kodit-0.5.0.dist-info}/METADATA +3 -3
kodit-0.5.0.dist-info/RECORD +137 -0
kodit/application/factories/code_indexing_factory.py +0 -193
kodit/application/services/auto_indexing_service.py +0 -103
kodit/application/services/code_indexing_application_service.py +0 -393
kodit/domain/entities.py +0 -323
kodit/domain/services/index_query_service.py +0 -70
kodit/domain/services/index_service.py +0 -267
kodit/infrastructure/api/client/index_client.py +0 -57
kodit/infrastructure/api/v1/routers/indexes.py +0 -119
kodit/infrastructure/api/v1/schemas/index.py +0 -101
kodit/infrastructure/bm25/bm25_factory.py +0 -28
kodit/infrastructure/cloning/__init__.py +0 -1
kodit/infrastructure/cloning/metadata.py +0 -98
kodit/infrastructure/mappers/index_mapper.py +0 -345
kodit/infrastructure/reporting/tdqm_progress.py +0 -73
kodit/infrastructure/slicing/language_detection_service.py +0 -18
kodit/infrastructure/sqlalchemy/index_repository.py +0 -646
kodit-0.4.2.dist-info/RECORD +0 -119
{kodit-0.4.2.dist-info → kodit-0.5.0.dist-info}/WHEEL +0 -0
{kodit-0.4.2.dist-info → kodit-0.5.0.dist-info}/entry_points.txt +0 -0
{kodit-0.4.2.dist-info → kodit-0.5.0.dist-info}/licenses/LICENSE +0 -0

kodit/infrastructure/api/v1/schemas/snippet.py ADDED Viewed

@@ -0,0 +1,58 @@
+"""Snippet JSON-API schemas."""
+from datetime import datetime
+from pydantic import BaseModel
+class SnippetContentSchema(BaseModel):
+    """Snippet content schema following JSON-API spec."""
+    value: str
+    language: str
+class GitFileSchema(BaseModel):
+    """Git file schema following JSON-API spec."""
+    blob_sha: str
+    path: str
+    mime_type: str
+    size: int
+class EnrichmentSchema(BaseModel):
+    """Enrichment schema following JSON-API spec."""
+    type: str
+    content: str
+class SnippetAttributes(BaseModel):
+    """Snippet attributes following JSON-API spec."""
+    created_at: datetime | None = None
+    updated_at: datetime | None = None
+    derives_from: list[GitFileSchema]
+    content: SnippetContentSchema
+    enrichments: list[EnrichmentSchema]
+class SnippetData(BaseModel):
+    """Snippet data following JSON-API spec."""
+    type: str = "snippet"
+    id: str
+    attributes: SnippetAttributes
+class SnippetResponse(BaseModel):
+    """Single snippet response following JSON-API spec."""
+    data: SnippetData
+class SnippetListResponse(BaseModel):
+    """Snippet list response following JSON-API spec."""
+    data: list[SnippetData]

kodit/infrastructure/api/v1/schemas/tag.py ADDED Viewed

@@ -0,0 +1,31 @@
+"""Tag JSON-API schemas."""
+from pydantic import BaseModel
+class TagAttributes(BaseModel):
+    """Tag attributes following JSON-API spec."""
+    name: str
+    target_commit_sha: str
+    is_version_tag: bool
+class TagData(BaseModel):
+    """Tag data following JSON-API spec."""
+    type: str = "tag"
+    id: str  # The tag name
+    attributes: TagAttributes
+class TagResponse(BaseModel):
+    """Single tag response following JSON-API spec."""
+    data: TagData
+class TagListResponse(BaseModel):
+    """Tag list response following JSON-API spec."""
+    data: list[TagData]

kodit/infrastructure/api/v1/schemas/task_status.py ADDED Viewed

@@ -0,0 +1,41 @@
+"""JSON:API schemas for task status operations."""
+from datetime import datetime
+from pydantic import BaseModel, Field
+class TaskStatusAttributes(BaseModel):
+    """Task status attributes for JSON:API responses."""
+    step: str = Field(..., description="Name of the task/operation")
+    state: str = Field(..., description="Current state of the task")
+    progress: float = Field(
+        default=0.0, ge=0.0, le=100.0, description="Progress percentage (0-100)"
+    )
+    total: int = Field(default=0, description="Total number of items to process")
+    current: int = Field(default=0, description="Current number of items processed")
+    created_at: datetime | None = Field(default=None, description="Task start time")
+    updated_at: datetime | None = Field(default=None, description="Last update time")
+    error: str = Field(default="", description="Error message")
+    message: str = Field(default="", description="Message")
+class TaskStatusData(BaseModel):
+    """Task status data for JSON:API responses."""
+    type: str = "task_status"
+    id: str
+    attributes: TaskStatusAttributes
+class TaskStatusResponse(BaseModel):
+    """JSON:API response for single task status."""
+    data: TaskStatusData
+class TaskStatusListResponse(BaseModel):
+    """JSON:API response for task status list."""
+    data: list[TaskStatusData]

kodit/infrastructure/bm25/local_bm25_repository.py CHANGED Viewed

@@ -37,7 +37,7 @@ class LocalBM25Repository(BM25Repository):
         """
         self.log = structlog.get_logger(__name__)
         self.index_path = data_dir / "bm25s_index"
-        self.snippet_ids: list[int] = []
+        self.snippet_ids: list[str] = []
         self.stemmer = Stemmer.Stemmer("english")
         self.__retriever: bm25s.BM25 | None = None
@@ -76,11 +76,23 @@ class LocalBM25Repository(BM25Repository):
             self.log.warning("Corpus is empty, skipping bm25 index")
             return
-        vocab = self._tokenize([doc.text for doc in request.documents])
+        if not self.snippet_ids and (self.index_path / SNIPPET_IDS_FILE).exists():
+            async with aiofiles.open(self.index_path / SNIPPET_IDS_FILE) as f:
+                self.snippet_ids = json.loads(await f.read())
+        # Filter out documents that have already been indexed
+        new_documents = [
+            doc for doc in request.documents if doc.snippet_id not in self.snippet_ids
+        ]
+        if not new_documents:
+            self.log.info("No new documents to index")
+            return
+        vocab = self._tokenize([doc.text for doc in new_documents])
         self._retriever().index(vocab, show_progress=False)
         self._retriever().save(self.index_path)
         # Replace snippet_ids instead of appending, since the BM25 index is rebuilt
-        self.snippet_ids = [doc.snippet_id for doc in request.documents]
+        self.snippet_ids = [doc.snippet_id for doc in new_documents]
         async with aiofiles.open(self.index_path / SNIPPET_IDS_FILE, "w") as f:
             await f.write(json.dumps(self.snippet_ids))
@@ -121,7 +133,7 @@ class LocalBM25Repository(BM25Repository):
         # Filter results by snippet_ids if provided
         filtered_results = []
         for result, score in zip(results[0], scores[0], strict=True):
-            snippet_id = int(result)
+            snippet_id = result
             if score > 0.0 and (
                 request.snippet_ids is None or snippet_id in request.snippet_ids
             ):

kodit/infrastructure/bm25/vectorchord_bm25_repository.py CHANGED Viewed

@@ -1,9 +1,9 @@
 """VectorChord BM25 repository implementation."""
-from typing import Any
+from collections.abc import Callable
 import structlog
-from sqlalchemy import Result, TextClause, bindparam, text
+from sqlalchemy import bindparam, text
 from sqlalchemy.ext.asyncio import AsyncSession
 from kodit.domain.services.bm25_service import BM25Repository
@@ -13,6 +13,7 @@ from kodit.domain.value_objects import (
     SearchRequest,
     SearchResult,
 )
+from kodit.infrastructure.sqlalchemy.unit_of_work import SqlAlchemyUnitOfWork
 TABLE_NAME = "vectorchord_bm25_documents"
 INDEX_NAME = f"{TABLE_NAME}_idx"
@@ -29,13 +30,17 @@ SET search_path TO
 CREATE_BM25_TABLE = f"""
 CREATE TABLE IF NOT EXISTS {TABLE_NAME} (
     id SERIAL PRIMARY KEY,
-    snippet_id BIGINT NOT NULL,
+    snippet_id VARCHAR(255) NOT NULL,
     passage TEXT NOT NULL,
     embedding bm25vector,
     UNIQUE(snippet_id)
 )
 """
+CHECK_EXISTING_IDS = f"""
+    SELECT snippet_id
+    FROM {TABLE_NAME}
+    WHERE snippet_id = ANY(:snippet_ids)
+"""  # noqa: S608
 CREATE_BM25_INDEX = f"""
 CREATE INDEX IF NOT EXISTS {INDEX_NAME}
 ON {TABLE_NAME}
@@ -103,14 +108,14 @@ WHERE snippet_id IN :snippet_ids
 class VectorChordBM25Repository(BM25Repository):
     """VectorChord BM25 repository implementation."""
-    def __init__(self, session: AsyncSession) -> None:
+    def __init__(self, session_factory: Callable[[], AsyncSession]) -> None:
         """Initialize the VectorChord BM25 repository.
         Args:
             session: The SQLAlchemy async session to use for database operations
         """
-        self.__session = session
+        self.session_factory = session_factory
         self._initialized = False
         self.log = structlog.get_logger(__name__)
@@ -127,41 +132,39 @@ class VectorChordBM25Repository(BM25Repository):
     async def _create_extensions(self) -> None:
         """Create the necessary extensions."""
-        await self.__session.execute(text(CREATE_VCHORD_EXTENSION))
-        await self.__session.execute(text(CREATE_PG_TOKENIZER))
-        await self.__session.execute(text(CREATE_VCHORD_BM25))
-        await self.__session.execute(text(SET_SEARCH_PATH))
-        await self._commit()
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            await session.execute(text(CREATE_VCHORD_EXTENSION))
+            await session.execute(text(CREATE_PG_TOKENIZER))
+            await session.execute(text(CREATE_VCHORD_BM25))
+            await session.execute(text(SET_SEARCH_PATH))
     async def _create_tokenizer_if_not_exists(self) -> None:
         """Create the tokenizer if it doesn't exist."""
-        # Check if tokenizer exists in the catalog
-        result = await self.__session.execute(text(TOKENIZER_NAME_CHECK_QUERY))
-        if result.scalar_one_or_none() is None:
-            # Tokenizer doesn't exist, create it
-            await self.__session.execute(text(LOAD_TOKENIZER))
-            await self._commit()
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            # Check if tokenizer exists in the catalog
+            result = await session.execute(text(TOKENIZER_NAME_CHECK_QUERY))
+            if result.scalar_one_or_none() is None:
+                # Tokenizer doesn't exist, create it
+                await session.execute(text(LOAD_TOKENIZER))
     async def _create_tables(self) -> None:
         """Create the necessary tables in the correct order."""
-        await self.__session.execute(text(CREATE_BM25_TABLE))
-        await self.__session.execute(text(CREATE_BM25_INDEX))
-        await self._commit()
-    async def _execute(
-        self, query: TextClause, param_list: list[Any] | dict[str, Any] | None = None
-    ) -> Result:
-        """Execute a query."""
-        if not self._initialized:
-            await self._initialize()
-        return await self.__session.execute(query, param_list)
-    async def _commit(self) -> None:
-        """Commit the session."""
-        await self.__session.commit()
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            await session.execute(text(CREATE_BM25_TABLE))
+            await session.execute(text(CREATE_BM25_INDEX))
+    async def _get_existing_ids(self, snippet_ids: list[str]) -> set[int]:
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            result = await session.execute(
+                text(CHECK_EXISTING_IDS), {"snippet_ids": snippet_ids}
+            )
+            return {row[0] for row in result.fetchall()}
     async def index_documents(self, request: IndexRequest) -> None:
         """Index documents for BM25 search."""
+        if not self._initialized:
+            await self._initialize()
         # Filter out any documents that don't have a snippet_id or text
         valid_documents = [
             doc
@@ -173,21 +176,35 @@ class VectorChordBM25Repository(BM25Repository):
             self.log.warning("Corpus is empty, skipping bm25 index")
             return
-        # Execute inserts
-        await self._execute(
-            text(INSERT_QUERY),
-            [
-                {"snippet_id": doc.snippet_id, "passage": doc.text}
-                for doc in valid_documents
-            ],
+        # Filter out documents that have already been indexed
+        existing_ids = await self._get_existing_ids(
+            [doc.snippet_id for doc in valid_documents]
         )
+        valid_documents = [
+            doc for doc in valid_documents if doc.snippet_id not in existing_ids
+        ]
-        # Tokenize the new documents with schema qualification
-        await self._execute(text(UPDATE_QUERY))
-        await self._commit()
+        if not valid_documents:
+            self.log.info("No new documents to index")
+            return
+        # Execute inserts
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            await session.execute(
+                text(INSERT_QUERY),
+                [
+                    {"snippet_id": doc.snippet_id, "passage": doc.text}
+                    for doc in valid_documents
+                ],
+            )
+            # Tokenize the new documents with schema qualification
+            await session.execute(text(UPDATE_QUERY))
     async def search(self, request: SearchRequest) -> list[SearchResult]:
         """Search documents using BM25."""
+        if not self._initialized:
+            await self._initialize()
         if not request.query or request.query.strip() == "":
             return []
@@ -203,22 +220,21 @@ class VectorChordBM25Repository(BM25Repository):
                 limit=request.top_k,
             )
-        try:
-            result = await self._execute(sql)
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            result = await session.execute(sql)
             rows = result.mappings().all()
             return [
                 SearchResult(snippet_id=row["snippet_id"], score=row["bm25_score"])
                 for row in rows
             ]
-        except Exception as e:
-            msg = f"Error during BM25 search: {e}"
-            raise RuntimeError(msg) from e
     async def delete_documents(self, request: DeleteRequest) -> None:
         """Delete documents from the index."""
-        await self._execute(
-            text(DELETE_QUERY).bindparams(bindparam("snippet_ids", expanding=True)),
-            {"snippet_ids": request.snippet_ids},
-        )
-        await self._commit()
+        if not self._initialized:
+            await self._initialize()
+        async with SqlAlchemyUnitOfWork(self.session_factory) as session:
+            await session.execute(
+                text(DELETE_QUERY).bindparams(bindparam("snippet_ids", expanding=True)),
+                {"snippet_ids": request.snippet_ids},
+            )

kodit 0.4.2__py3-none-any.whl → 0.5.0__py3-none-any.whl

Potentially problematic release.

kodit 0.4.2py3-none-any.whl → 0.5.0py3-none-any.whl