PyPI - haiku.rag - Versions diffs - 0.13.0__tar.gz → 0.13.2__tar.gz - Mend

haiku.rag 0.13.0tar.gz → 0.13.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of haiku.rag might be problematic. Click here for more details.

Files changed (92) hide show

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: haiku.rag
-Version: 0.13.0
+Version: 0.13.2
 Summary: Agentic Retrieval Augmented Generation (RAG) with LanceDB
 Author-email: Yiorgis Gozadinos <ggozadinos@gmail.com>
 License: MIT
@@ -17,19 +17,20 @@ Classifier: Programming Language :: Python :: 3.12
 Classifier: Programming Language :: Python :: 3.13
 Classifier: Typing :: Typed
 Requires-Python: >=3.12
-Requires-Dist: docling>=2.56.1
-Requires-Dist: fastmcp>=2.12.4
+Requires-Dist: docling>=2.58.0
+Requires-Dist: fastmcp>=2.13.0.2
 Requires-Dist: httpx>=0.28.1
 Requires-Dist: lancedb>=0.25.2
-Requires-Dist: pydantic-ai>=1.0.18
-Requires-Dist: pydantic-graph>=1.0.18
-Requires-Dist: pydantic>=2.12.2
-Requires-Dist: python-dotenv>=1.1.1
-Requires-Dist: pyyaml>=6.0.1
+Requires-Dist: pathspec>=0.12.1
+Requires-Dist: pydantic-ai>=1.7.0
+Requires-Dist: pydantic-graph>=1.7.0
+Requires-Dist: pydantic>=2.12.3
+Requires-Dist: python-dotenv>=1.2.1
+Requires-Dist: pyyaml>=6.0.3
 Requires-Dist: rich>=14.2.0
 Requires-Dist: tiktoken>=0.12.0
-Requires-Dist: typer>=0.19.2
-Requires-Dist: watchfiles>=1.1.0
+Requires-Dist: typer<0.20.0,>=0.19.2
+Requires-Dist: watchfiles>=1.1.1
 Provides-Extra: a2a
 Requires-Dist: fasta2a>=0.1.0; extra == 'a2a'
 Provides-Extra: mxbai
@@ -40,6 +41,8 @@ Description-Content-Type: text/markdown
 # Haiku RAG
+mcp-name: io.github.ggozad/haiku-rag
 Retrieval-Augmented Generation (RAG) library built on LanceDB.
 `haiku.rag` is a Retrieval-Augmented Generation (RAG) library built to work with LanceDB as a local vector database. It uses LanceDB for storing embeddings and performs semantic (vector) search as well as full-text search combined through native hybrid search with Reciprocal Rank Fusion. Both open-source (Ollama) as well as commercial (OpenAI, VoyageAI) embedding providers are supported.

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/README.md RENAMED Viewed

@@ -1,5 +1,7 @@
 # Haiku RAG
+mcp-name: io.github.ggozad/haiku-rag
 Retrieval-Augmented Generation (RAG) library built on LanceDB.
 `haiku.rag` is a Retrieval-Augmented Generation (RAG) library built to work with LanceDB as a local vector database. It uses LanceDB for storing embeddings and performs semantic (vector) search as well as full-text search combined through native hybrid search with Reciprocal Rank Fusion. Both open-source (Ollama) as well as commercial (OpenAI, VoyageAI) embedding providers are supported.

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/pyproject.toml RENAMED Viewed

@@ -2,7 +2,7 @@
 name = "haiku.rag"
 description = "Agentic Retrieval Augmented Generation (RAG) with LanceDB"
-version = "0.13.0"
+version = "0.13.2"
 authors = [{ name = "Yiorgis Gozadinos", email = "ggozadinos@gmail.com" }]
 license = { text = "MIT" }
 readme = { file = "README.md", content-type = "text/markdown" }
@@ -22,19 +22,20 @@ classifiers = [
 ]
 dependencies = [
-    "docling>=2.56.1",
-    "fastmcp>=2.12.4",
+    "docling>=2.58.0",
+    "fastmcp>=2.13.0.2",
     "httpx>=0.28.1",
     "lancedb>=0.25.2",
-    "pydantic>=2.12.2",
-    "pydantic-ai>=1.0.18",
-    "pydantic-graph>=1.0.18",
-    "python-dotenv>=1.1.1",
-    "pyyaml>=6.0.1",
+    "pathspec>=0.12.1",
+    "pydantic>=2.12.3",
+    "pydantic-ai>=1.7.0",
+    "pydantic-graph>=1.7.0",
+    "python-dotenv>=1.2.1",
+    "pyyaml>=6.0.3",
     "rich>=14.2.0",
     "tiktoken>=0.12.0",
-    "typer>=0.19.2",
-    "watchfiles>=1.1.0",
+    "typer>=0.19.2,<0.20.0",
+    "watchfiles>=1.1.1",
 ]
 [project.optional-dependencies]
@@ -57,17 +58,17 @@ packages = ["src/haiku"]
 [dependency-groups]
 dev = [
-    "datasets>=4.1.0",
-    "logfire>=4.7.0",
+    "datasets>=4.3.0",
+    "logfire>=4.14.2",
     "mkdocs>=1.6.1",
-    "mkdocs-material>=9.6.14",
-    "pydantic-evals>=1.0.8",
-    "pre-commit>=4.2.0",
-    "pyright>=1.1.406",
+    "mkdocs-material>=9.6.22",
+    "pydantic-evals>=1.7.0",
+    "pre-commit>=4.3.0",
+    "pyright>=1.1.407",
     "pytest>=8.4.2",
     "pytest-asyncio>=1.2.0",
     "pytest-cov>=7.0.0",
-    "ruff>=0.13.0",
+    "ruff>=0.14.2",
 ]
 [tool.ruff]

haiku_rag-0.13.2/server.json ADDED Viewed

@@ -0,0 +1,42 @@
+{
+    "$schema": "https://static.modelcontextprotocol.io/schemas/2025-10-17/server.schema.json",
+    "name": "io.github.ggozad/haiku-rag",
+    "version": "{{VERSION}}",
+    "description": "Agentic Retrieval Augmented Generation (RAG) with LanceDB",
+    "repository": {
+        "url": "https://github.com/ggozad/haiku.rag",
+        "source": "github"
+    },
+    "license": "MIT",
+    "keywords": [
+        "rag",
+        "lancedb",
+        "vector-database",
+        "embeddings",
+        "search",
+        "qa",
+        "research"
+    ],
+    "packages": [
+        {
+            "registryType": "pypi",
+            "registryBaseUrl": "https://pypi.org",
+            "identifier": "haiku-rag",
+            "version": "{{VERSION}}",
+            "runtimeHint": "uvx",
+            "runtimeArguments": [
+                {
+                    "type": "positional",
+                    "value": "serve"
+                },
+                {
+                    "type": "named",
+                    "name": "--mcp"
+                }
+            ],
+            "transport": {
+                "type": "stdio"
+            }
+        }
+    ]
+}

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/app.py RENAMED Viewed

@@ -474,9 +474,7 @@ class HaikuRAGApp:
             # Start file monitor if enabled
             if enable_monitor:
-                monitor = FileWatcher(
-                    paths=Config.storage.monitor_directories, client=client
-                )
+                monitor = FileWatcher(client=client)
                 monitor_task = asyncio.create_task(monitor.observe())
                 tasks.append(monitor_task)

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/config/__init__.py RENAMED Viewed

@@ -1,7 +1,6 @@
 import os
 from haiku.rag.config.loader import (
-    check_for_deprecated_env,
     find_config_file,
     generate_default_config,
     load_config_from_env,
@@ -12,6 +11,7 @@ from haiku.rag.config.models import (
     AppConfig,
     EmbeddingsConfig,
     LanceDBConfig,
+    MonitorConfig,
     OllamaConfig,
     ProcessingConfig,
     ProvidersConfig,
@@ -26,6 +26,7 @@ __all__ = [
     "Config",
     "AppConfig",
     "StorageConfig",
+    "MonitorConfig",
     "LanceDBConfig",
     "EmbeddingsConfig",
     "RerankingConfig",
@@ -49,6 +50,3 @@ if config_path:
     Config = AppConfig.model_validate(yaml_data)
 else:
     Config = AppConfig()
-# Check for deprecated .env file
-check_for_deprecated_env()

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/config/loader.py RENAMED Viewed

@@ -1,5 +1,4 @@
 import os
-import warnings
 from pathlib import Path
 import yaml
@@ -11,7 +10,7 @@ def find_config_file(cli_path: Path | None = None) -> Path | None:
     Search order:
     1. CLI-provided path (via HAIKU_RAG_CONFIG_PATH env var or parameter)
     2. ./haiku.rag.yaml (current directory)
-    3. ~/.config/haiku.rag/config.yaml (user config)
+    3. Platform-specific user config directory
     Returns None if no config file is found.
     """
@@ -30,8 +29,10 @@ def find_config_file(cli_path: Path | None = None) -> Path | None:
     if cwd_config.exists():
         return cwd_config
-    user_config_dir = Path.home() / ".config" / "haiku.rag"
-    user_config = user_config_dir / "config.yaml"
+    # Use same directory as data storage for config
+    from haiku.rag.utils import get_default_data_dir
+    user_config = get_default_data_dir() / "config.yaml"
     if user_config.exists():
         return user_config
@@ -45,29 +46,20 @@ def load_yaml_config(path: Path) -> dict:
     return data or {}
-def check_for_deprecated_env() -> None:
-    """Check for .env file and warn if found."""
-    env_file = Path.cwd() / ".env"
-    if env_file.exists():
-        warnings.warn(
-            ".env file detected but YAML configuration is now preferred. "
-            "Environment variable configuration is deprecated and will be removed in future versions."
-            "Run 'haiku-rag init-config' to generate a YAML config file.",
-            DeprecationWarning,
-            stacklevel=2,
-        )
 def generate_default_config() -> dict:
     """Generate a default YAML config structure with documentation."""
     return {
         "environment": "production",
         "storage": {
             "data_dir": "",
-            "monitor_directories": [],
             "disable_autocreate": False,
             "vacuum_retention_seconds": 60,
         },
+        "monitor": {
+            "directories": [],
+            "ignore_patterns": [],
+            "include_patterns": [],
+        },
         "lancedb": {"uri": "", "api_key": "", "region": ""},
         "embeddings": {
             "provider": "ollama",
@@ -102,7 +94,7 @@ def load_config_from_env() -> dict:
     env_mappings = {
         "ENV": "environment",
         "DEFAULT_DATA_DIR": ("storage", "data_dir"),
-        "MONITOR_DIRECTORIES": ("storage", "monitor_directories"),
+        "MONITOR_DIRECTORIES": ("monitor", "directories"),
         "DISABLE_DB_AUTOCREATE": ("storage", "disable_autocreate"),
         "VACUUM_RETENTION_SECONDS": ("storage", "vacuum_retention_seconds"),
         "LANCEDB_URI": ("lancedb", "uri"),

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/config/models.py RENAMED Viewed

@@ -7,11 +7,16 @@ from haiku.rag.utils import get_default_data_dir
 class StorageConfig(BaseModel):
     data_dir: Path = Field(default_factory=get_default_data_dir)
-    monitor_directories: list[Path] = []
     disable_autocreate: bool = False
     vacuum_retention_seconds: int = 60
+class MonitorConfig(BaseModel):
+    directories: list[Path] = []
+    ignore_patterns: list[str] = []
+    include_patterns: list[str] = []
 class LanceDBConfig(BaseModel):
     uri: str = ""
     api_key: str = ""
@@ -46,7 +51,11 @@ class ProcessingConfig(BaseModel):
 class OllamaConfig(BaseModel):
-    base_url: str = "http://localhost:11434"
+    base_url: str = Field(
+        default_factory=lambda: __import__("os").environ.get(
+            "OLLAMA_BASE_URL", "http://localhost:11434"
+        )
+    )
 class VLLMConfig(BaseModel):
@@ -68,6 +77,7 @@ class A2AConfig(BaseModel):
 class AppConfig(BaseModel):
     environment: str = "production"
     storage: StorageConfig = Field(default_factory=StorageConfig)
+    monitor: MonitorConfig = Field(default_factory=MonitorConfig)
     lancedb: LanceDBConfig = Field(default_factory=LanceDBConfig)
     embeddings: EmbeddingsConfig = Field(default_factory=EmbeddingsConfig)
     reranking: RerankingConfig = Field(default_factory=RerankingConfig)

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/embeddings/__init__.py RENAMED Viewed

@@ -15,7 +15,9 @@ def get_embedder(config: AppConfig = Config) -> EmbedderBase:
     """
     if config.embeddings.provider == "ollama":
-        return OllamaEmbedder(config.embeddings.model, config.embeddings.vector_dim)
+        return OllamaEmbedder(
+            config.embeddings.model, config.embeddings.vector_dim, config
+        )
     if config.embeddings.provider == "voyageai":
         try:
@@ -26,16 +28,22 @@ def get_embedder(config: AppConfig = Config) -> EmbedderBase:
                 "Please install haiku.rag with the 'voyageai' extra: "
                 "uv pip install haiku.rag[voyageai]"
             )
-        return VoyageAIEmbedder(config.embeddings.model, config.embeddings.vector_dim)
+        return VoyageAIEmbedder(
+            config.embeddings.model, config.embeddings.vector_dim, config
+        )
     if config.embeddings.provider == "openai":
         from haiku.rag.embeddings.openai import Embedder as OpenAIEmbedder
-        return OpenAIEmbedder(config.embeddings.model, config.embeddings.vector_dim)
+        return OpenAIEmbedder(
+            config.embeddings.model, config.embeddings.vector_dim, config
+        )
     if config.embeddings.provider == "vllm":
         from haiku.rag.embeddings.vllm import Embedder as VllmEmbedder
-        return VllmEmbedder(config.embeddings.model, config.embeddings.vector_dim)
+        return VllmEmbedder(
+            config.embeddings.model, config.embeddings.vector_dim, config
+        )
     raise ValueError(f"Unsupported embedding provider: {config.embeddings.provider}")

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/embeddings/base.py RENAMED Viewed

@@ -1,15 +1,17 @@
 from typing import overload
-from haiku.rag.config import Config
+from haiku.rag.config import AppConfig, Config
 class EmbedderBase:
     _model: str = Config.embeddings.model
     _vector_dim: int = Config.embeddings.vector_dim
+    _config: AppConfig = Config
-    def __init__(self, model: str, vector_dim: int):
+    def __init__(self, model: str, vector_dim: int, config: AppConfig = Config):
         self._model = model
         self._vector_dim = vector_dim
+        self._config = config
     @overload
     async def embed(self, text: str) -> list[float]: ...

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/embeddings/ollama.py RENAMED Viewed

@@ -2,7 +2,6 @@ from typing import overload
 from openai import AsyncOpenAI
-from haiku.rag.config import Config
 from haiku.rag.embeddings.base import EmbedderBase
@@ -15,7 +14,7 @@ class Embedder(EmbedderBase):
     async def embed(self, text: str | list[str]) -> list[float] | list[list[float]]:
         client = AsyncOpenAI(
-            base_url=f"{Config.providers.ollama.base_url}/v1", api_key="dummy"
+            base_url=f"{self._config.providers.ollama.base_url}/v1", api_key="dummy"
         )
         if not text:
             return []

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/embeddings/vllm.py RENAMED Viewed

@@ -2,7 +2,6 @@ from typing import overload
 from openai import AsyncOpenAI
-from haiku.rag.config import Config
 from haiku.rag.embeddings.base import EmbedderBase
@@ -15,7 +14,8 @@ class Embedder(EmbedderBase):
     async def embed(self, text: str | list[str]) -> list[float] | list[list[float]]:
         client = AsyncOpenAI(
-            base_url=f"{Config.providers.vllm.embeddings_base_url}/v1", api_key="dummy"
+            base_url=f"{self._config.providers.vllm.embeddings_base_url}/v1",
+            api_key="dummy",
         )
         if not text:
             return []

{haiku_rag-0.13.0 → haiku_rag-0.13.2}/src/haiku/rag/monitor.py RENAMED Viewed

@@ -2,9 +2,12 @@ import logging
 from pathlib import Path
 from typing import TYPE_CHECKING
+import pathspec
+from pathspec.patterns.gitwildmatch import GitWildMatchPattern
 from watchfiles import Change, DefaultFilter, awatch
 from haiku.rag.client import HaikuRAG
+from haiku.rag.config import AppConfig, Config
 from haiku.rag.store.models.document import Document
 if TYPE_CHECKING:
@@ -14,25 +17,63 @@ logger = logging.getLogger(__name__)
 class FileFilter(DefaultFilter):
-    def __init__(self, *, ignore_paths: list[Path] | None = None) -> None:
+    def __init__(
+        self,
+        *,
+        ignore_patterns: list[str] | None = None,
+        include_patterns: list[str] | None = None,
+    ) -> None:
         # Lazy import to avoid loading docling
         from haiku.rag.reader import FileReader
         self.extensions = tuple(FileReader.extensions)
-        super().__init__(ignore_paths=ignore_paths)
+        self.ignore_spec = (
+            pathspec.PathSpec.from_lines(GitWildMatchPattern, ignore_patterns)
+            if ignore_patterns
+            else None
+        )
+        self.include_spec = (
+            pathspec.PathSpec.from_lines(GitWildMatchPattern, include_patterns)
+            if include_patterns
+            else None
+        )
+        super().__init__()
     def __call__(self, change: Change, path: str) -> bool:
-        return path.endswith(self.extensions) and super().__call__(change, path)
+        # Check extension filter
+        if not path.endswith(self.extensions):
+            return False
+        # Apply include patterns if specified (whitelist mode)
+        if self.include_spec:
+            if not self.include_spec.match_file(path):
+                return False
+        # Apply ignore patterns (blacklist mode)
+        if self.ignore_spec:
+            if self.ignore_spec.match_file(path):
+                return False
+        # Apply default watchfiles filter
+        return super().__call__(change, path)
 class FileWatcher:
-    def __init__(self, paths: list[Path], client: HaikuRAG):
-        self.paths = paths
+    def __init__(
+        self,
+        client: HaikuRAG,
+        config: AppConfig = Config,
+    ):
+        self.paths = config.monitor.directories
         self.client = client
+        self.ignore_patterns = config.monitor.ignore_patterns or None
+        self.include_patterns = config.monitor.include_patterns or None
     async def observe(self):
         logger.info(f"Watching files in {self.paths}")
-        filter = FileFilter()
+        filter = FileFilter(
+            ignore_patterns=self.ignore_patterns, include_patterns=self.include_patterns
+        )
         await self.refresh()
         async for changes in awatch(*self.paths, watch_filter=filter):
@@ -49,10 +90,17 @@ class FileWatcher:
         # Lazy import to avoid loading docling
         from haiku.rag.reader import FileReader
+        # Create filter to apply same logic as observe()
+        filter = FileFilter(
+            ignore_patterns=self.ignore_patterns, include_patterns=self.include_patterns
+        )
         for path in self.paths:
             for f in Path(path).rglob("**/*"):
                 if f.is_file() and f.suffix in FileReader.extensions:
-                    await self._upsert_document(f)
+                    # Apply pattern filters
+                    if filter(Change.added, str(f)):
+                        await self._upsert_document(f)
     async def _upsert_document(self, file: Path) -> Document | None:
         try:

haiku.rag 0.13.0__tar.gz → 0.13.2__tar.gz

Potentially problematic release.

haiku.rag 0.13.0tar.gz → 0.13.2tar.gz