PyPI - gnosisllm-knowledge - Versions diffs - 0.2.0__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

gnosisllm-knowledge 0.2.0py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (63) hide show

gnosisllm_knowledge/__init__.py +91 -39
gnosisllm_knowledge/api/__init__.py +3 -2
gnosisllm_knowledge/api/knowledge.py +502 -32
gnosisllm_knowledge/api/memory.py +966 -0
gnosisllm_knowledge/backends/__init__.py +14 -5
gnosisllm_knowledge/backends/memory/indexer.py +27 -2
gnosisllm_knowledge/backends/memory/searcher.py +111 -10
gnosisllm_knowledge/backends/opensearch/agentic.py +355 -48
gnosisllm_knowledge/backends/opensearch/config.py +49 -28
gnosisllm_knowledge/backends/opensearch/indexer.py +49 -3
gnosisllm_knowledge/backends/opensearch/mappings.py +14 -5
gnosisllm_knowledge/backends/opensearch/memory/__init__.py +12 -0
gnosisllm_knowledge/backends/opensearch/memory/client.py +1380 -0
gnosisllm_knowledge/backends/opensearch/memory/config.py +127 -0
gnosisllm_knowledge/backends/opensearch/memory/setup.py +322 -0
gnosisllm_knowledge/backends/opensearch/queries.py +33 -33
gnosisllm_knowledge/backends/opensearch/searcher.py +238 -0
gnosisllm_knowledge/backends/opensearch/setup.py +308 -148
gnosisllm_knowledge/cli/app.py +436 -31
gnosisllm_knowledge/cli/commands/agentic.py +26 -9
gnosisllm_knowledge/cli/commands/load.py +169 -19
gnosisllm_knowledge/cli/commands/memory.py +733 -0
gnosisllm_knowledge/cli/commands/search.py +9 -10
gnosisllm_knowledge/cli/commands/setup.py +49 -23
gnosisllm_knowledge/cli/display/service.py +43 -0
gnosisllm_knowledge/cli/utils/config.py +62 -4
gnosisllm_knowledge/core/domain/__init__.py +54 -0
gnosisllm_knowledge/core/domain/discovery.py +166 -0
gnosisllm_knowledge/core/domain/document.py +19 -19
gnosisllm_knowledge/core/domain/memory.py +440 -0
gnosisllm_knowledge/core/domain/result.py +11 -3
gnosisllm_knowledge/core/domain/search.py +12 -25
gnosisllm_knowledge/core/domain/source.py +11 -12
gnosisllm_knowledge/core/events/__init__.py +8 -0
gnosisllm_knowledge/core/events/types.py +198 -5
gnosisllm_knowledge/core/exceptions.py +227 -0
gnosisllm_knowledge/core/interfaces/__init__.py +17 -0
gnosisllm_knowledge/core/interfaces/agentic.py +11 -3
gnosisllm_knowledge/core/interfaces/indexer.py +10 -1
gnosisllm_knowledge/core/interfaces/memory.py +524 -0
gnosisllm_knowledge/core/interfaces/searcher.py +10 -1
gnosisllm_knowledge/core/interfaces/streaming.py +133 -0
gnosisllm_knowledge/core/streaming/__init__.py +36 -0
gnosisllm_knowledge/core/streaming/pipeline.py +228 -0
gnosisllm_knowledge/fetchers/__init__.py +8 -0
gnosisllm_knowledge/fetchers/config.py +27 -0
gnosisllm_knowledge/fetchers/neoreader.py +31 -3
gnosisllm_knowledge/fetchers/neoreader_discovery.py +505 -0
gnosisllm_knowledge/loaders/__init__.py +5 -1
gnosisllm_knowledge/loaders/base.py +3 -4
gnosisllm_knowledge/loaders/discovery.py +338 -0
gnosisllm_knowledge/loaders/discovery_streaming.py +343 -0
gnosisllm_knowledge/loaders/factory.py +46 -0
gnosisllm_knowledge/loaders/sitemap.py +129 -1
gnosisllm_knowledge/loaders/sitemap_streaming.py +258 -0
gnosisllm_knowledge/services/indexing.py +100 -93
gnosisllm_knowledge/services/search.py +84 -31
gnosisllm_knowledge/services/streaming_pipeline.py +334 -0
{gnosisllm_knowledge-0.2.0.dist-info → gnosisllm_knowledge-0.4.0.dist-info}/METADATA +73 -10
gnosisllm_knowledge-0.4.0.dist-info/RECORD +81 -0
gnosisllm_knowledge-0.2.0.dist-info/RECORD +0 -64
{gnosisllm_knowledge-0.2.0.dist-info → gnosisllm_knowledge-0.4.0.dist-info}/WHEEL +0 -0
{gnosisllm_knowledge-0.2.0.dist-info → gnosisllm_knowledge-0.4.0.dist-info}/entry_points.txt +0 -0

gnosisllm_knowledge/backends/opensearch/searcher.py CHANGED Viewed

@@ -2,6 +2,10 @@
 Uses OpenSearch neural search - embeddings are generated automatically
 by the deployed ML model. No Python-side embedding generation needed.
+Note: This module is tenant-agnostic. Multi-tenancy should be handled
+at the API layer by using separate indices per account (e.g.,
+`knowledge-{account_id}`) rather than filtering by account_id.
 """
 from __future__ import annotations
@@ -296,12 +300,25 @@ class OpenSearchKnowledgeSearcher:
             Parsed search results.
         """
         try:
+            logger.debug(f"OpenSearch query: {os_query}")
+            logger.debug(f"Query include_highlights: {query.include_highlights}")
             response = await self._client.search(
                 index=index_name,
                 body=os_query,
                 **params,
             )
+            # Debug: Log first hit to see if highlights are present
+            hits = response.get("hits", {}).get("hits", [])
+            if hits:
+                first_hit = hits[0]
+                logger.debug(f"First hit keys: {first_hit.keys()}")
+                if "highlight" in first_hit:
+                    logger.debug(f"Highlight data: {first_hit['highlight']}")
+                else:
+                    logger.debug("No 'highlight' key in response hit")
             duration_ms = (time.perf_counter() - start_time) * 1000
             return self._parse_response(query, response, duration_ms)
@@ -381,3 +398,224 @@ class OpenSearchKnowledgeSearcher:
             search_after_token=search_after_token,
             has_more=len(items) == query.limit and total_hits > query.offset + len(items),
         )
+    async def get_collections(self, index_name: str) -> list[dict[str, Any]]:
+        """Get unique collections with document counts via aggregation.
+        Args:
+            index_name: Index to query.
+        Returns:
+            List of collections with id, name, and document_count.
+        """
+        try:
+            # Check if index exists
+            exists = await self._client.indices.exists(index=index_name)
+            if not exists:
+                logger.debug(f"Index {index_name} does not exist")
+                return []
+            # Aggregation query for unique collection_ids with counts
+            # Also aggregate collection_name for display
+            query = {
+                "size": 0,
+                "aggs": {
+                    "collections": {
+                        "terms": {
+                            "field": "collection_id",
+                            "size": 1000,  # Max collections to return
+                        },
+                        "aggs": {
+                            "collection_name": {
+                                "terms": {
+                                    "field": "collection_name",
+                                    "size": 1,
+                                }
+                            }
+                        }
+                    }
+                }
+            }
+            response = await self._client.search(index=index_name, body=query)
+            collections = []
+            buckets = response.get("aggregations", {}).get("collections", {}).get("buckets", [])
+            for bucket in buckets:
+                collection_id = bucket.get("key")
+                if not collection_id:
+                    continue
+                doc_count = bucket.get("doc_count", 0)
+                # Get collection name from nested agg or use ID as fallback
+                name_buckets = bucket.get("collection_name", {}).get("buckets", [])
+                collection_name = name_buckets[0].get("key") if name_buckets else collection_id
+                collections.append({
+                    "id": collection_id,
+                    "name": collection_name or collection_id,
+                    "document_count": doc_count,
+                })
+            logger.debug(f"Found {len(collections)} collections in {index_name}")
+            return collections
+        except Exception as e:
+            logger.error(f"Failed to get collections from {index_name}: {e}")
+            return []
+    async def get_stats(self, index_name: str) -> dict[str, Any]:
+        """Get index statistics.
+        Args:
+            index_name: Index to query.
+        Returns:
+            Dictionary with document_count and index info.
+        """
+        try:
+            # Check if index exists
+            exists = await self._client.indices.exists(index=index_name)
+            if not exists:
+                return {
+                    "document_count": 0,
+                    "index_name": index_name,
+                    "exists": False,
+                }
+            # Get index stats
+            stats = await self._client.indices.stats(index=index_name)
+            index_stats = stats.get("indices", {}).get(index_name, {})
+            primaries = index_stats.get("primaries", {})
+            docs = primaries.get("docs", {})
+            return {
+                "document_count": docs.get("count", 0),
+                "index_name": index_name,
+                "exists": True,
+                "size_bytes": primaries.get("store", {}).get("size_in_bytes", 0),
+            }
+        except Exception as e:
+            logger.error(f"Failed to get stats for {index_name}: {e}")
+            return {
+                "document_count": 0,
+                "index_name": index_name,
+                "error": str(e),
+            }
+    async def list_documents(
+        self,
+        index_name: str,
+        *,
+        source_id: str | None = None,
+        collection_id: str | None = None,
+        limit: int = 50,
+        offset: int = 0,
+    ) -> dict[str, Any]:
+        """List documents with optional filters.
+        Note:
+            This method is tenant-agnostic. Multi-tenancy should be handled
+            at the API layer by using separate indices per account.
+        Args:
+            index_name: Index to query (use tenant-specific name for isolation).
+            source_id: Optional source ID filter.
+            collection_id: Optional collection ID filter.
+            limit: Maximum documents to return.
+            offset: Number of documents to skip.
+        Returns:
+            Dictionary with documents, total, limit, offset.
+        """
+        try:
+            # Check if index exists
+            exists = await self._client.indices.exists(index=index_name)
+            if not exists:
+                logger.debug(f"Index {index_name} does not exist")
+                return {
+                    "documents": [],
+                    "total": 0,
+                    "limit": limit,
+                    "offset": offset,
+                }
+            # Build filter clauses
+            filters: list[dict[str, Any]] = []
+            if source_id:
+                filters.append({"term": {"source_id": source_id}})
+            if collection_id:
+                filters.append({"term": {"collection_id": collection_id}})
+            # Build query with match_all and filters
+            query: dict[str, Any] = {
+                "size": limit,
+                "from": offset,
+                "sort": [
+                    {"created_at": {"order": "desc", "unmapped_type": "date"}},
+                    {"_id": {"order": "asc"}},
+                ],
+                "_source": {
+                    "excludes": ["content_embedding"],
+                },
+            }
+            if filters:
+                query["query"] = {
+                    "bool": {
+                        "must": [{"match_all": {}}],
+                        "filter": filters,
+                    }
+                }
+            else:
+                query["query"] = {"match_all": {}}
+            response = await self._client.search(index=index_name, body=query)
+            hits = response.get("hits", {})
+            total = hits.get("total", {})
+            total_hits = total.get("value", 0) if isinstance(total, dict) else total
+            documents = []
+            for hit in hits.get("hits", []):
+                source = hit.get("_source", {})
+                doc = {
+                    "id": hit.get("_id", ""),
+                    "title": source.get("title"),
+                    "url": source.get("url"),
+                    "content_preview": (source.get("content", ""))[:200],
+                    "content": source.get("content"),
+                    "chunk_index": source.get("chunk_index"),
+                    "total_chunks": source.get("total_chunks"),
+                    "source_id": source.get("source_id"),
+                    "collection_id": source.get("collection_id"),
+                    "created_at": source.get("created_at"),
+                    "metadata": source.get("metadata"),
+                }
+                documents.append(doc)
+            logger.debug(
+                f"Listed {len(documents)} documents from {index_name} "
+                f"(total: {total_hits}, source_id: {source_id})"
+            )
+            return {
+                "documents": documents,
+                "total": total_hits,
+                "limit": limit,
+                "offset": offset,
+            }
+        except Exception as e:
+            logger.error(f"Failed to list documents from {index_name}: {e}")
+            return {
+                "documents": [],
+                "total": 0,
+                "limit": limit,
+                "offset": offset,
+            }

gnosisllm-knowledge 0.2.0__py3-none-any.whl → 0.4.0__py3-none-any.whl

gnosisllm-knowledge 0.2.0py3-none-any.whl → 0.4.0py3-none-any.whl