PyPI - haiku.rag - Versions diffs - 0.13.1__tar.gz → 0.13.3__tar.gz - Mend

haiku.rag 0.13.1tar.gz → 0.13.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of haiku.rag might be problematic. Click here for more details.

Files changed (92) hide show

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: haiku.rag
-Version: 0.13.1
+Version: 0.13.3
 Summary: Agentic Retrieval Augmented Generation (RAG) with LanceDB
 Author-email: Yiorgis Gozadinos <ggozadinos@gmail.com>
 License: MIT
@@ -17,25 +17,30 @@ Classifier: Programming Language :: Python :: 3.12
 Classifier: Programming Language :: Python :: 3.13
 Classifier: Typing :: Typed
 Requires-Python: >=3.12
-Requires-Dist: docling>=2.56.1
-Requires-Dist: fastmcp>=2.12.4
+Requires-Dist: docling>=2.58.0
+Requires-Dist: fastmcp>=2.13.0.2
 Requires-Dist: httpx>=0.28.1
 Requires-Dist: lancedb>=0.25.2
-Requires-Dist: pydantic-ai>=1.0.18
-Requires-Dist: pydantic-graph>=1.0.18
-Requires-Dist: pydantic>=2.12.2
-Requires-Dist: python-dotenv>=1.1.1
-Requires-Dist: pyyaml>=6.0.1
+Requires-Dist: pathspec>=0.12.1
+Requires-Dist: pydantic-ai>=1.7.0
+Requires-Dist: pydantic-graph>=1.7.0
+Requires-Dist: pydantic>=2.12.3
+Requires-Dist: python-dotenv>=1.2.1
+Requires-Dist: pyyaml>=6.0.3
 Requires-Dist: rich>=14.2.0
 Requires-Dist: tiktoken>=0.12.0
-Requires-Dist: typer>=0.19.2
-Requires-Dist: watchfiles>=1.1.0
+Requires-Dist: typer<0.20.0,>=0.19.2
+Requires-Dist: watchfiles>=1.1.1
 Provides-Extra: a2a
 Requires-Dist: fasta2a>=0.1.0; extra == 'a2a'
+Provides-Extra: cohere
+Requires-Dist: cohere>=5.0.0; extra == 'cohere'
 Provides-Extra: mxbai
 Requires-Dist: mxbai-rerank>=0.1.6; extra == 'mxbai'
 Provides-Extra: voyageai
 Requires-Dist: voyageai>=0.3.5; extra == 'voyageai'
+Provides-Extra: zeroentropy
+Requires-Dist: zeroentropy>=0.1.0a6; extra == 'zeroentropy'
 Description-Content-Type: text/markdown
 # Haiku RAG
@@ -55,7 +60,7 @@ Retrieval-Augmented Generation (RAG) library built on LanceDB.
 - **Multiple QA providers**: Any provider/model supported by Pydantic AI
 - **Research graph (multi‑agent)**: Plan → Search → Evaluate → Synthesize with agentic AI
 - **Native hybrid search**: Vector + full-text search with native LanceDB RRF reranking
-- **Reranking**: Default search result reranking with MixedBread AI, Cohere, or vLLM
+- **Reranking**: Default search result reranking with MixedBread AI, Cohere, Zero Entropy, or vLLM
 - **Question answering**: Built-in QA agents on your documents
 - **File monitoring**: Auto-index files when run as server
 - **40+ file formats**: PDF, DOCX, HTML, Markdown, code files, URLs
@@ -78,6 +83,9 @@ haiku-rag add-src document.pdf --meta source=manual
 # Search
 haiku-rag search "query"
+# Search with filters
+haiku-rag search "query" --filter "uri LIKE '%.pdf' AND title LIKE '%paper%'"
 # Ask questions
 haiku-rag ask "Who is the author of haiku.rag?"

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/README.md RENAMED Viewed

@@ -15,7 +15,7 @@ Retrieval-Augmented Generation (RAG) library built on LanceDB.
 - **Multiple QA providers**: Any provider/model supported by Pydantic AI
 - **Research graph (multi‑agent)**: Plan → Search → Evaluate → Synthesize with agentic AI
 - **Native hybrid search**: Vector + full-text search with native LanceDB RRF reranking
-- **Reranking**: Default search result reranking with MixedBread AI, Cohere, or vLLM
+- **Reranking**: Default search result reranking with MixedBread AI, Cohere, Zero Entropy, or vLLM
 - **Question answering**: Built-in QA agents on your documents
 - **File monitoring**: Auto-index files when run as server
 - **40+ file formats**: PDF, DOCX, HTML, Markdown, code files, URLs
@@ -38,6 +38,9 @@ haiku-rag add-src document.pdf --meta source=manual
 # Search
 haiku-rag search "query"
+# Search with filters
+haiku-rag search "query" --filter "uri LIKE '%.pdf' AND title LIKE '%paper%'"
 # Ask questions
 haiku-rag ask "Who is the author of haiku.rag?"

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/pyproject.toml RENAMED Viewed

@@ -2,7 +2,7 @@
 name = "haiku.rag"
 description = "Agentic Retrieval Augmented Generation (RAG) with LanceDB"
-version = "0.13.1"
+version = "0.13.3"
 authors = [{ name = "Yiorgis Gozadinos", email = "ggozadinos@gmail.com" }]
 license = { text = "MIT" }
 readme = { file = "README.md", content-type = "text/markdown" }
@@ -22,25 +22,28 @@ classifiers = [
 ]
 dependencies = [
-    "docling>=2.56.1",
-    "fastmcp>=2.12.4",
+    "docling>=2.58.0",
+    "fastmcp>=2.13.0.2",
     "httpx>=0.28.1",
     "lancedb>=0.25.2",
-    "pydantic>=2.12.2",
-    "pydantic-ai>=1.0.18",
-    "pydantic-graph>=1.0.18",
-    "python-dotenv>=1.1.1",
-    "pyyaml>=6.0.1",
+    "pathspec>=0.12.1",
+    "pydantic>=2.12.3",
+    "pydantic-ai>=1.7.0",
+    "pydantic-graph>=1.7.0",
+    "python-dotenv>=1.2.1",
+    "pyyaml>=6.0.3",
     "rich>=14.2.0",
     "tiktoken>=0.12.0",
-    "typer>=0.19.2",
-    "watchfiles>=1.1.0",
+    "typer>=0.19.2,<0.20.0",
+    "watchfiles>=1.1.1",
 ]
 [project.optional-dependencies]
 voyageai = ["voyageai>=0.3.5"]
 mxbai = ["mxbai-rerank>=0.1.6"]
 a2a = ["fasta2a>=0.1.0"]
+cohere = ["cohere>=5.0.0"]
+zeroentropy = ["zeroentropy>=0.1.0a6"]
 [project.scripts]
 haiku-rag = "haiku.rag.cli:cli"
@@ -57,17 +60,17 @@ packages = ["src/haiku"]
 [dependency-groups]
 dev = [
-    "datasets>=4.1.0",
-    "logfire>=4.7.0",
+    "datasets>=4.3.0",
+    "logfire>=4.14.2",
     "mkdocs>=1.6.1",
-    "mkdocs-material>=9.6.14",
-    "pydantic-evals>=1.0.8",
-    "pre-commit>=4.2.0",
-    "pyright>=1.1.406",
+    "mkdocs-material>=9.6.22",
+    "pydantic-evals>=1.7.0",
+    "pre-commit>=4.3.0",
+    "pyright>=1.1.407",
     "pytest>=8.4.2",
     "pytest-asyncio>=1.2.0",
     "pytest-cov>=7.0.0",
-    "ruff>=0.13.0",
+    "ruff>=0.14.2",
 ]
 [tool.ruff]

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/evaluations/benchmark.py RENAMED Viewed

@@ -1,5 +1,6 @@
 import asyncio
 from collections.abc import Mapping
+from pathlib import Path
 from typing import Any, cast
 import logfire
@@ -12,13 +13,12 @@ from pydantic_evals.reporting import ReportCaseFailure
 from rich.console import Console
 from rich.progress import Progress
-from evaluations.config import DatasetSpec, RetrievalSample
+from evaluations.config import DatasetSpec
 from evaluations.datasets import DATASETS
 from evaluations.llm_judge import ANSWER_EQUIVALENCE_RUBRIC
 from evaluations.prompts import WIX_SUPPORT_PROMPT
-from haiku.rag import logging  # noqa: F401
 from haiku.rag.client import HaikuRAG
-from haiku.rag.config import Config
+from haiku.rag.config import AppConfig, find_config_file, load_yaml_config
 from haiku.rag.logging import configure_cli_logging
 from haiku.rag.qa import get_qa_agent
@@ -30,7 +30,7 @@ configure_cli_logging()
 console = Console()
-async def populate_db(spec: DatasetSpec) -> None:
+async def populate_db(spec: DatasetSpec, config: AppConfig) -> None:
     spec.db_path.parent.mkdir(parents=True, exist_ok=True)
     corpus = spec.document_loader()
     if spec.document_limit is not None:
@@ -38,7 +38,7 @@ async def populate_db(spec: DatasetSpec) -> None:
     with Progress() as progress:
         task = progress.add_task("[green]Populating database...", total=len(corpus))
-        async with HaikuRAG(spec.db_path) as rag:
+        async with HaikuRAG(spec.db_path, config=config) as rag:
             for doc in corpus:
                 doc_mapping = cast(Mapping[str, Any], doc)
                 payload = spec.document_mapper(doc_mapping)
@@ -64,11 +64,9 @@ async def populate_db(spec: DatasetSpec) -> None:
                 progress.advance(task)
-def _is_relevant_match(retrieved_uri: str | None, sample: RetrievalSample) -> bool:
-    return retrieved_uri is not None and retrieved_uri in sample.expected_uris
-async def run_retrieval_benchmark(spec: DatasetSpec) -> dict[str, float] | None:
+async def run_retrieval_benchmark(
+    spec: DatasetSpec, config: AppConfig
+) -> dict[str, float] | None:
     if spec.retrieval_loader is None or spec.retrieval_mapper is None:
         console.print("Skipping retrieval benchmark; no retrieval config.")
         return None
@@ -91,7 +89,7 @@ async def run_retrieval_benchmark(spec: DatasetSpec) -> dict[str, float] | None:
         task = progress.add_task(
             "[blue]Running retrieval benchmark...", total=len(corpus)
         )
-        async with HaikuRAG(spec.db_path) as rag:
+        async with HaikuRAG(spec.db_path, config=config) as rag:
             for doc in corpus:
                 doc_mapping = cast(Mapping[str, Any], doc)
                 sample = spec.retrieval_mapper(doc_mapping)
@@ -161,7 +159,7 @@ async def run_retrieval_benchmark(spec: DatasetSpec) -> dict[str, float] | None:
 async def run_qa_benchmark(
-    spec: DatasetSpec, qa_limit: int | None = None
+    spec: DatasetSpec, config: AppConfig, qa_limit: int | None = None
 ) -> ReportCaseFailure[str, str, dict[str, str]] | None:
     corpus = spec.qa_loader()
     if qa_limit is not None:
@@ -174,7 +172,7 @@ async def run_qa_benchmark(
     judge_model = OpenAIChatModel(
         model_name=QA_JUDGE_MODEL,
-        provider=OllamaProvider(base_url=f"{Config.providers.ollama.base_url}/v1"),
+        provider=OllamaProvider(base_url=f"{config.providers.ollama.base_url}/v1"),
     )
     evaluation_dataset = EvalDataset[str, str, dict[str, str]](
@@ -204,7 +202,7 @@ async def run_qa_benchmark(
             total=len(evaluation_dataset.cases),
         )
-        async with HaikuRAG(spec.db_path) as rag:
+        async with HaikuRAG(spec.db_path, config=config) as rag:
             system_prompt = WIX_SUPPORT_PROMPT if spec.key == "wix" else None
             qa = get_qa_agent(rag, system_prompt=system_prompt)
@@ -272,6 +270,7 @@ async def run_qa_benchmark(
 async def evaluate_dataset(
     spec: DatasetSpec,
+    config: AppConfig,
     skip_db: bool,
     skip_retrieval: bool,
     skip_qa: bool,
@@ -279,15 +278,15 @@ async def evaluate_dataset(
 ) -> None:
     if not skip_db:
         console.print(f"Using dataset: {spec.key}", style="bold magenta")
-        await populate_db(spec)
+        await populate_db(spec, config)
     if not skip_retrieval:
         console.print("Running retrieval benchmarks...", style="bold blue")
-        await run_retrieval_benchmark(spec)
+        await run_retrieval_benchmark(spec, config)
     if not skip_qa:
         console.print("\nRunning QA benchmarks...", style="bold yellow")
-        await run_qa_benchmark(spec, qa_limit=qa_limit)
+        await run_qa_benchmark(spec, config, qa_limit=qa_limit)
 app = typer.Typer(help="Run retrieval and QA benchmarks for configured datasets.")
@@ -296,6 +295,9 @@ app = typer.Typer(help="Run retrieval and QA benchmarks for configured datasets.
 @app.command()
 def run(
     dataset: str = typer.Argument(..., help="Dataset key to evaluate."),
+    config: Path | None = typer.Option(
+        None, "--config", help="Path to haiku.rag YAML config file."
+    ),
     skip_db: bool = typer.Option(
         False, "--skip-db", help="Skip updateing the evaluation db."
     ),
@@ -314,9 +316,28 @@ def run(
             f"Unknown dataset '{dataset}'. Choose from: {valid_datasets}"
         )
+    # Load config from file or use defaults
+    if config:
+        if not config.exists():
+            raise typer.BadParameter(f"Config file not found: {config}")
+        console.print(f"Loading config from: {config}", style="dim")
+        yaml_data = load_yaml_config(config)
+        app_config = AppConfig.model_validate(yaml_data)
+    else:
+        # Try to find config file using standard search path
+        config_path = find_config_file(None)
+        if config_path:
+            console.print(f"Loading config from: {config_path}", style="dim")
+            yaml_data = load_yaml_config(config_path)
+            app_config = AppConfig.model_validate(yaml_data)
+        else:
+            console.print("No config file found, using defaults", style="dim")
+            app_config = AppConfig()
     asyncio.run(
         evaluate_dataset(
             spec=spec,
+            config=app_config,
             skip_db=skip_db,
             skip_retrieval=skip_retrieval,
             skip_qa=skip_qa,

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/app.py RENAMED Viewed

@@ -81,13 +81,10 @@ class HaikuRAGApp:
                 raw = rows[0].get("settings") or "{}"
                 data = json.loads(raw) if isinstance(raw, str) else (raw or {})
                 stored_version = str(data.get("version", stored_version))
-                embed_provider = data.get("EMBEDDINGS_PROVIDER")
-                embed_model = data.get("EMBEDDINGS_MODEL")
-                vector_dim = (
-                    int(data.get("EMBEDDINGS_VECTOR_DIM"))  # pyright: ignore[reportArgumentType]
-                    if data.get("EMBEDDINGS_VECTOR_DIM") is not None
-                    else None
-                )
+                embeddings = data.get("embeddings", {})
+                embed_provider = embeddings.get("provider")
+                embed_model = embeddings.get("model")
+                vector_dim = embeddings.get("vector_dim")
         num_docs = 0
         if "documents" in table_names:
@@ -195,9 +192,9 @@ class HaikuRAGApp:
                     f"[yellow]Document with id {doc_id} not found.[/yellow]"
                 )
-    async def search(self, query: str, limit: int = 5):
+    async def search(self, query: str, limit: int = 5, filter: str | None = None):
         async with HaikuRAG(db_path=self.db_path) as self.client:
-            results = await self.client.search(query, limit=limit)
+            results = await self.client.search(query, limit=limit, filter=filter)
             if not results:
                 self.console.print("[yellow]No results found.[/yellow]")
                 return
@@ -474,9 +471,7 @@ class HaikuRAGApp:
             # Start file monitor if enabled
             if enable_monitor:
-                monitor = FileWatcher(
-                    paths=Config.storage.monitor_directories, client=client
-                )
+                monitor = FileWatcher(client=client)
                 monitor_task = asyncio.create_task(monitor.observe())
                 tasks.append(monitor_task)

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/cli.py RENAMED Viewed

@@ -221,6 +221,12 @@ def search(
         "-l",
         help="Maximum number of results to return",
     ),
+    filter: str | None = typer.Option(
+        None,
+        "--filter",
+        "-f",
+        help="SQL WHERE clause to filter documents (e.g., \"uri LIKE '%arxiv%'\")",
+    ),
     db: Path = typer.Option(
         Config.storage.data_dir / "haiku.rag.lancedb",
         "--db",
@@ -230,7 +236,7 @@ def search(
     from haiku.rag.app import HaikuRAGApp
     app = HaikuRAGApp(db_path=db)
-    asyncio.run(app.search(query=query, limit=limit))
+    asyncio.run(app.search(query=query, limit=limit, filter=filter))
 @cli.command("ask", help="Ask a question using the QA agent")

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/client.py RENAMED Viewed

@@ -135,9 +135,6 @@ class HaikuRAG:
             ValueError: If the file/URL cannot be parsed or doesn't exist
             httpx.RequestError: If URL request fails
         """
-        # Lazy import to avoid loading docling
-        from haiku.rag.reader import FileReader
         # Normalize metadata
         metadata = metadata or {}
@@ -157,15 +154,17 @@ class HaikuRAG:
         # Handle directories
         if source_path.is_dir():
+            from haiku.rag.monitor import FileFilter
             documents = []
-            supported_extensions = set(FileReader.extensions)
-            for file_path in source_path.rglob("*"):
-                if (
-                    file_path.is_file()
-                    and file_path.suffix.lower() in supported_extensions
-                ):
+            filter = FileFilter(
+                ignore_patterns=self._config.monitor.ignore_patterns or None,
+                include_patterns=self._config.monitor.include_patterns or None,
+            )
+            for path in source_path.rglob("*"):
+                if path.is_file() and filter.include_file(str(path)):
                     doc = await self._create_document_from_file(
-                        file_path, title=None, metadata=metadata
+                        path, title=None, metadata=metadata
                     )
                     documents.append(doc)
             return documents
@@ -424,7 +423,11 @@ class HaikuRAG:
         return await self.document_repository.list_all(limit=limit, offset=offset)
     async def search(
-        self, query: str, limit: int = 5, search_type: str = "hybrid"
+        self,
+        query: str,
+        limit: int = 5,
+        search_type: str = "hybrid",
+        filter: str | None = None,
     ) -> list[tuple[Chunk, float]]:
         """Search for relevant chunks using the specified search method with optional reranking.
@@ -432,6 +435,7 @@ class HaikuRAG:
             query: The search query string.
             limit: Maximum number of results to return.
             search_type: Type of search - "vector", "fts", or "hybrid" (default).
+            filter: Optional SQL WHERE clause to filter documents before searching chunks.
         Returns:
             List of (chunk, score) tuples ordered by relevance.
@@ -441,12 +445,12 @@ class HaikuRAG:
         if reranker is None:
             # No reranking - return direct search results
-            return await self.chunk_repository.search(query, limit, search_type)
+            return await self.chunk_repository.search(query, limit, search_type, filter)
         # Get more initial results (3X) for reranking
         search_limit = limit * 3
         search_results = await self.chunk_repository.search(
-            query, search_limit, search_type
+            query, search_limit, search_type, filter
         )
         # Apply reranking

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/config/__init__.py RENAMED Viewed

@@ -11,6 +11,7 @@ from haiku.rag.config.models import (
     AppConfig,
     EmbeddingsConfig,
     LanceDBConfig,
+    MonitorConfig,
     OllamaConfig,
     ProcessingConfig,
     ProvidersConfig,
@@ -25,6 +26,7 @@ __all__ = [
     "Config",
     "AppConfig",
     "StorageConfig",
+    "MonitorConfig",
     "LanceDBConfig",
     "EmbeddingsConfig",
     "RerankingConfig",

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/config/loader.py RENAMED Viewed

@@ -10,7 +10,7 @@ def find_config_file(cli_path: Path | None = None) -> Path | None:
     Search order:
     1. CLI-provided path (via HAIKU_RAG_CONFIG_PATH env var or parameter)
     2. ./haiku.rag.yaml (current directory)
-    3. ~/.config/haiku.rag/config.yaml (user config)
+    3. Platform-specific user config directory
     Returns None if no config file is found.
     """
@@ -29,8 +29,10 @@ def find_config_file(cli_path: Path | None = None) -> Path | None:
     if cwd_config.exists():
         return cwd_config
-    user_config_dir = Path.home() / ".config" / "haiku.rag"
-    user_config = user_config_dir / "config.yaml"
+    # Use same directory as data storage for config
+    from haiku.rag.utils import get_default_data_dir
+    user_config = get_default_data_dir() / "config.yaml"
     if user_config.exists():
         return user_config
@@ -50,10 +52,14 @@ def generate_default_config() -> dict:
         "environment": "production",
         "storage": {
             "data_dir": "",
-            "monitor_directories": [],
             "disable_autocreate": False,
             "vacuum_retention_seconds": 60,
         },
+        "monitor": {
+            "directories": [],
+            "ignore_patterns": [],
+            "include_patterns": [],
+        },
         "lancedb": {"uri": "", "api_key": "", "region": ""},
         "embeddings": {
             "provider": "ollama",
@@ -88,7 +94,7 @@ def load_config_from_env() -> dict:
     env_mappings = {
         "ENV": "environment",
         "DEFAULT_DATA_DIR": ("storage", "data_dir"),
-        "MONITOR_DIRECTORIES": ("storage", "monitor_directories"),
+        "MONITOR_DIRECTORIES": ("monitor", "directories"),
         "DISABLE_DB_AUTOCREATE": ("storage", "disable_autocreate"),
         "VACUUM_RETENTION_SECONDS": ("storage", "vacuum_retention_seconds"),
         "LANCEDB_URI": ("lancedb", "uri"),

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/config/models.py RENAMED Viewed

@@ -7,11 +7,16 @@ from haiku.rag.utils import get_default_data_dir
 class StorageConfig(BaseModel):
     data_dir: Path = Field(default_factory=get_default_data_dir)
-    monitor_directories: list[Path] = []
     disable_autocreate: bool = False
     vacuum_retention_seconds: int = 60
+class MonitorConfig(BaseModel):
+    directories: list[Path] = []
+    ignore_patterns: list[str] = []
+    include_patterns: list[str] = []
 class LanceDBConfig(BaseModel):
     uri: str = ""
     api_key: str = ""
@@ -72,6 +77,7 @@ class A2AConfig(BaseModel):
 class AppConfig(BaseModel):
     environment: str = "production"
     storage: StorageConfig = Field(default_factory=StorageConfig)
+    monitor: MonitorConfig = Field(default_factory=MonitorConfig)
     lancedb: LanceDBConfig = Field(default_factory=LanceDBConfig)
     embeddings: EmbeddingsConfig = Field(default_factory=EmbeddingsConfig)
     reranking: RerankingConfig = Field(default_factory=RerankingConfig)

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/monitor.py RENAMED Viewed

@@ -2,9 +2,12 @@ import logging
 from pathlib import Path
 from typing import TYPE_CHECKING
+import pathspec
+from pathspec.patterns.gitwildmatch import GitWildMatchPattern
 from watchfiles import Change, DefaultFilter, awatch
 from haiku.rag.client import HaikuRAG
+from haiku.rag.config import AppConfig, Config
 from haiku.rag.store.models.document import Document
 if TYPE_CHECKING:
@@ -14,25 +17,70 @@ logger = logging.getLogger(__name__)
 class FileFilter(DefaultFilter):
-    def __init__(self, *, ignore_paths: list[Path] | None = None) -> None:
+    def __init__(
+        self,
+        *,
+        ignore_patterns: list[str] | None = None,
+        include_patterns: list[str] | None = None,
+    ) -> None:
         # Lazy import to avoid loading docling
         from haiku.rag.reader import FileReader
         self.extensions = tuple(FileReader.extensions)
-        super().__init__(ignore_paths=ignore_paths)
+        self.ignore_spec = (
+            pathspec.PathSpec.from_lines(GitWildMatchPattern, ignore_patterns)
+            if ignore_patterns
+            else None
+        )
+        self.include_spec = (
+            pathspec.PathSpec.from_lines(GitWildMatchPattern, include_patterns)
+            if include_patterns
+            else None
+        )
+        super().__init__()
     def __call__(self, change: Change, path: str) -> bool:
-        return path.endswith(self.extensions) and super().__call__(change, path)
+        if not self.include_file(path):
+            return False
+        # Apply default watchfiles filter
+        return super().__call__(change, path)
+    def include_file(self, path: str) -> bool:
+        """Check if a file should be included based on filters."""
+        # Check extension filter
+        if not path.endswith(self.extensions):
+            return False
+        # Apply include patterns if specified (whitelist mode)
+        if self.include_spec:
+            if not self.include_spec.match_file(path):
+                return False
+        # Apply ignore patterns (blacklist mode)
+        if self.ignore_spec:
+            if self.ignore_spec.match_file(path):
+                return False
+        return True
 class FileWatcher:
-    def __init__(self, paths: list[Path], client: HaikuRAG):
-        self.paths = paths
+    def __init__(
+        self,
+        client: HaikuRAG,
+        config: AppConfig = Config,
+    ):
+        self.paths = config.monitor.directories
         self.client = client
+        self.ignore_patterns = config.monitor.ignore_patterns or None
+        self.include_patterns = config.monitor.include_patterns or None
     async def observe(self):
         logger.info(f"Watching files in {self.paths}")
-        filter = FileFilter()
+        filter = FileFilter(
+            ignore_patterns=self.ignore_patterns, include_patterns=self.include_patterns
+        )
         await self.refresh()
         async for changes in awatch(*self.paths, watch_filter=filter):
@@ -49,10 +97,17 @@ class FileWatcher:
         # Lazy import to avoid loading docling
         from haiku.rag.reader import FileReader
+        # Create filter to apply same logic as observe()
+        filter = FileFilter(
+            ignore_patterns=self.ignore_patterns, include_patterns=self.include_patterns
+        )
         for path in self.paths:
             for f in Path(path).rglob("**/*"):
                 if f.is_file() and f.suffix in FileReader.extensions:
-                    await self._upsert_document(f)
+                    # Apply pattern filters
+                    if filter(Change.added, str(f)):
+                        await self._upsert_document(f)
     async def _upsert_document(self, file: Path) -> Document | None:
         try:

{haiku_rag-0.13.1 → haiku_rag-0.13.3}/src/haiku/rag/reranking/__init__.py RENAMED Viewed

@@ -41,5 +41,23 @@ def get_reranker(config: AppConfig = Config) -> RerankerBase | None:
         except ImportError:
             reranker = None
+    elif config.reranking.provider == "vllm":
+        try:
+            from haiku.rag.reranking.vllm import VLLMReranker
+            reranker = VLLMReranker(config.reranking.model)
+        except ImportError:
+            reranker = None
+    elif config.reranking.provider == "zeroentropy":
+        try:
+            from haiku.rag.reranking.zeroentropy import ZeroEntropyReranker
+            # Use configured model or default to zerank-1
+            model = config.reranking.model or "zerank-1"
+            reranker = ZeroEntropyReranker(model)
+        except ImportError:
+            reranker = None
     _reranker_cache[config_id] = reranker
     return reranker

haiku.rag 0.13.1__tar.gz → 0.13.3__tar.gz

Potentially problematic release.

haiku.rag 0.13.1tar.gz → 0.13.3tar.gz