PyPI - remdb - Versions diffs - 0.2.6__py3-none-any.whl - Mend

remdb 0.2.6__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of remdb might be problematic. Click here for more details.

Files changed (187) hide show

rem/__init__.py +2 -0
rem/agentic/README.md +650 -0
rem/agentic/__init__.py +39 -0
rem/agentic/agents/README.md +155 -0
rem/agentic/agents/__init__.py +8 -0
rem/agentic/context.py +148 -0
rem/agentic/context_builder.py +329 -0
rem/agentic/mcp/__init__.py +0 -0
rem/agentic/mcp/tool_wrapper.py +107 -0
rem/agentic/otel/__init__.py +5 -0
rem/agentic/otel/setup.py +151 -0
rem/agentic/providers/phoenix.py +674 -0
rem/agentic/providers/pydantic_ai.py +572 -0
rem/agentic/query.py +117 -0
rem/agentic/query_helper.py +89 -0
rem/agentic/schema.py +396 -0
rem/agentic/serialization.py +245 -0
rem/agentic/tools/__init__.py +5 -0
rem/agentic/tools/rem_tools.py +231 -0
rem/api/README.md +420 -0
rem/api/main.py +324 -0
rem/api/mcp_router/prompts.py +182 -0
rem/api/mcp_router/resources.py +536 -0
rem/api/mcp_router/server.py +213 -0
rem/api/mcp_router/tools.py +584 -0
rem/api/routers/auth.py +229 -0
rem/api/routers/chat/__init__.py +5 -0
rem/api/routers/chat/completions.py +281 -0
rem/api/routers/chat/json_utils.py +76 -0
rem/api/routers/chat/models.py +124 -0
rem/api/routers/chat/streaming.py +185 -0
rem/auth/README.md +258 -0
rem/auth/__init__.py +26 -0
rem/auth/middleware.py +100 -0
rem/auth/providers/__init__.py +13 -0
rem/auth/providers/base.py +376 -0
rem/auth/providers/google.py +163 -0
rem/auth/providers/microsoft.py +237 -0
rem/cli/README.md +455 -0
rem/cli/__init__.py +8 -0
rem/cli/commands/README.md +126 -0
rem/cli/commands/__init__.py +3 -0
rem/cli/commands/ask.py +565 -0
rem/cli/commands/configure.py +423 -0
rem/cli/commands/db.py +493 -0
rem/cli/commands/dreaming.py +324 -0
rem/cli/commands/experiments.py +1124 -0
rem/cli/commands/mcp.py +66 -0
rem/cli/commands/process.py +245 -0
rem/cli/commands/schema.py +183 -0
rem/cli/commands/serve.py +106 -0
rem/cli/dreaming.py +363 -0
rem/cli/main.py +88 -0
rem/config.py +237 -0
rem/mcp_server.py +41 -0
rem/models/core/__init__.py +49 -0
rem/models/core/core_model.py +64 -0
rem/models/core/engram.py +333 -0
rem/models/core/experiment.py +628 -0
rem/models/core/inline_edge.py +132 -0
rem/models/core/rem_query.py +243 -0
rem/models/entities/__init__.py +43 -0
rem/models/entities/file.py +57 -0
rem/models/entities/image_resource.py +88 -0
rem/models/entities/message.py +35 -0
rem/models/entities/moment.py +123 -0
rem/models/entities/ontology.py +191 -0
rem/models/entities/ontology_config.py +131 -0
rem/models/entities/resource.py +95 -0
rem/models/entities/schema.py +87 -0
rem/models/entities/user.py +85 -0
rem/py.typed +0 -0
rem/schemas/README.md +507 -0
rem/schemas/__init__.py +6 -0
rem/schemas/agents/README.md +92 -0
rem/schemas/agents/core/moment-builder.yaml +178 -0
rem/schemas/agents/core/rem-query-agent.yaml +226 -0
rem/schemas/agents/core/resource-affinity-assessor.yaml +99 -0
rem/schemas/agents/core/simple-assistant.yaml +19 -0
rem/schemas/agents/core/user-profile-builder.yaml +163 -0
rem/schemas/agents/examples/contract-analyzer.yaml +317 -0
rem/schemas/agents/examples/contract-extractor.yaml +134 -0
rem/schemas/agents/examples/cv-parser.yaml +263 -0
rem/schemas/agents/examples/hello-world.yaml +37 -0
rem/schemas/agents/examples/query.yaml +54 -0
rem/schemas/agents/examples/simple.yaml +21 -0
rem/schemas/agents/examples/test.yaml +29 -0
rem/schemas/agents/rem.yaml +128 -0
rem/schemas/evaluators/hello-world/default.yaml +77 -0
rem/schemas/evaluators/rem/faithfulness.yaml +219 -0
rem/schemas/evaluators/rem/lookup-correctness.yaml +182 -0
rem/schemas/evaluators/rem/retrieval-precision.yaml +199 -0
rem/schemas/evaluators/rem/retrieval-recall.yaml +211 -0
rem/schemas/evaluators/rem/search-correctness.yaml +192 -0
rem/services/__init__.py +16 -0
rem/services/audio/INTEGRATION.md +308 -0
rem/services/audio/README.md +376 -0
rem/services/audio/__init__.py +15 -0
rem/services/audio/chunker.py +354 -0
rem/services/audio/transcriber.py +259 -0
rem/services/content/README.md +1269 -0
rem/services/content/__init__.py +5 -0
rem/services/content/providers.py +806 -0
rem/services/content/service.py +657 -0
rem/services/dreaming/README.md +230 -0
rem/services/dreaming/__init__.py +53 -0
rem/services/dreaming/affinity_service.py +336 -0
rem/services/dreaming/moment_service.py +264 -0
rem/services/dreaming/ontology_service.py +54 -0
rem/services/dreaming/user_model_service.py +297 -0
rem/services/dreaming/utils.py +39 -0
rem/services/embeddings/__init__.py +11 -0
rem/services/embeddings/api.py +120 -0
rem/services/embeddings/worker.py +421 -0
rem/services/fs/README.md +662 -0
rem/services/fs/__init__.py +62 -0
rem/services/fs/examples.py +206 -0
rem/services/fs/examples_paths.py +204 -0
rem/services/fs/git_provider.py +935 -0
rem/services/fs/local_provider.py +760 -0
rem/services/fs/parsing-hooks-examples.md +172 -0
rem/services/fs/paths.py +276 -0
rem/services/fs/provider.py +460 -0
rem/services/fs/s3_provider.py +1042 -0
rem/services/fs/service.py +186 -0
rem/services/git/README.md +1075 -0
rem/services/git/__init__.py +17 -0
rem/services/git/service.py +469 -0
rem/services/phoenix/EXPERIMENT_DESIGN.md +1146 -0
rem/services/phoenix/README.md +453 -0
rem/services/phoenix/__init__.py +46 -0
rem/services/phoenix/client.py +686 -0
rem/services/phoenix/config.py +88 -0
rem/services/phoenix/prompt_labels.py +477 -0
rem/services/postgres/README.md +575 -0
rem/services/postgres/__init__.py +23 -0
rem/services/postgres/migration_service.py +427 -0
rem/services/postgres/pydantic_to_sqlalchemy.py +232 -0
rem/services/postgres/register_type.py +352 -0
rem/services/postgres/repository.py +337 -0
rem/services/postgres/schema_generator.py +379 -0
rem/services/postgres/service.py +802 -0
rem/services/postgres/sql_builder.py +354 -0
rem/services/rem/README.md +304 -0
rem/services/rem/__init__.py +23 -0
rem/services/rem/exceptions.py +71 -0
rem/services/rem/executor.py +293 -0
rem/services/rem/parser.py +145 -0
rem/services/rem/queries.py +196 -0
rem/services/rem/query.py +371 -0
rem/services/rem/service.py +527 -0
rem/services/session/README.md +374 -0
rem/services/session/__init__.py +6 -0
rem/services/session/compression.py +360 -0
rem/services/session/reload.py +77 -0
rem/settings.py +1235 -0
rem/sql/002_install_models.sql +1068 -0
rem/sql/background_indexes.sql +42 -0
rem/sql/install_models.sql +1038 -0
rem/sql/migrations/001_install.sql +503 -0
rem/sql/migrations/002_install_models.sql +1202 -0
rem/utils/AGENTIC_CHUNKING.md +597 -0
rem/utils/README.md +583 -0
rem/utils/__init__.py +43 -0
rem/utils/agentic_chunking.py +622 -0
rem/utils/batch_ops.py +343 -0
rem/utils/chunking.py +108 -0
rem/utils/clip_embeddings.py +276 -0
rem/utils/dict_utils.py +98 -0
rem/utils/embeddings.py +423 -0
rem/utils/examples/embeddings_example.py +305 -0
rem/utils/examples/sql_types_example.py +202 -0
rem/utils/markdown.py +16 -0
rem/utils/model_helpers.py +236 -0
rem/utils/schema_loader.py +229 -0
rem/utils/sql_types.py +348 -0
rem/utils/user_id.py +81 -0
rem/utils/vision.py +330 -0
rem/workers/README.md +506 -0
rem/workers/__init__.py +5 -0
rem/workers/dreaming.py +502 -0
rem/workers/engram_processor.py +312 -0
rem/workers/sqs_file_processor.py +193 -0
remdb-0.2.6.dist-info/METADATA +1191 -0
remdb-0.2.6.dist-info/RECORD +187 -0
remdb-0.2.6.dist-info/WHEEL +4 -0
remdb-0.2.6.dist-info/entry_points.txt +2 -0

rem/services/fs/parsing-hooks-examples.md ADDED Viewed

@@ -0,0 +1,172 @@
+# fs parsing hooks - extended examples
+Clean pattern for managing parsed file versions in REM filesystem abstraction.
+## convention
+Separate `uploads/` and `parsed/` directories with deterministic path mapping:
+**S3:**
+- Uploads: `s3://rem-io-staging/v1/uploads/user-123/2025/01/19/report.pdf`
+- Parsed:  `s3://rem-io-staging/v1/parsed/user-123/2025/01/19/report.pdf/{resource}`
+**Local:**
+- Uploads: `~/.rem/fs/v1/uploads/user-123/2025/01/19/report.pdf`
+- Parsed:  `~/.rem/fs/v1/parsed/user-123/2025/01/19/report.pdf/{resource}`
+**Resources:**
+- `metadata.json` - parse metadata (provider, timestamp, etc.)
+- `content.md` - primary parsed content (markdown)
+- `images/` - extracted images
+- `tables/` - extracted tables (parquet)
+## basic usage
+```python
+from rem.services.fs import FS
+fs = FS()
+upload_uri = "s3://rem-io-staging/v1/uploads/user-123/2025/01/19/report.pdf"
+# check and read
+if fs.has_parsed(upload_uri):
+    markdown = fs.read_parsed(upload_uri)
+else:
+    # trigger parsing
+    from rem.services.content import ContentService
+    service = ContentService()
+    await service.process_and_save(upload_uri)
+```
+## writing parsed content
+```python
+# write markdown with metadata
+fs.write_parsed(
+    uri,
+    markdown_content,
+    metadata={
+        "provider": "kreuzberg",
+        "page_count": 10,
+        "table_count": 2,
+    }
+)
+# write extracted image
+fs.write_parsed(uri, image_data, resource="images/page_1.png")
+# write extracted table
+fs.write_parsed(uri, table_df, resource="tables/table_0.parquet")
+```
+## reading specific resources
+```python
+# read metadata
+metadata = fs.read_parsed(uri, "metadata.json")
+# read image
+image = fs.read_parsed(uri, "images/page_1.png")
+# read table
+table = fs.read_parsed(uri, "tables/table_0.parquet")
+```
+## discovering resources
+```python
+# list all parsed resources
+resources = fs.list_parsed_resources(uri)
+# ['content.md', 'metadata.json', 'images/page_1.png', 'tables/table_0.parquet']
+# iterate and read
+for resource in resources:
+    if resource.endswith('.png'):
+        image = fs.read_parsed(uri, resource)
+    elif resource.endswith('.parquet'):
+        table = fs.read_parsed(uri, resource)
+```
+## integration with ContentService
+```python
+class ContentService:
+    async def process_and_save(self, uri: str, user_id: str | None = None):
+        # check cache first
+        if self.fs.has_parsed(uri):
+            logger.info(f"using cached parse for {uri}")
+            return self.fs.read_parsed(uri, "metadata.json")
+        # extract and parse
+        result = self.process_uri(uri)
+        markdown = to_markdown(result["content"], Path(uri).name)
+        # write parsed version
+        self.fs.write_parsed(
+            uri,
+            markdown,
+            metadata={
+                "provider": result["provider"],
+                "timestamp": datetime.now().isoformat(),
+                "content_type": result["metadata"].get("content_type"),
+            }
+        )
+        # chunk and save to database...
+```
+## multi-resource parsing
+For complex documents with many extracted resources:
+```python
+# parse pdf and extract everything
+result = parse_pdf_advanced(uri)
+# write markdown
+fs.write_parsed(uri, result.markdown)
+# write images
+for i, img in enumerate(result.images):
+    fs.write_parsed(uri, img, resource=f"images/page_{i}.png")
+# write tables
+for i, table in enumerate(result.tables):
+    fs.write_parsed(uri, table, resource=f"tables/table_{i}.parquet")
+# write metadata
+fs.write_parsed(
+    uri,
+    result.markdown,
+    metadata={
+        "provider": "advanced_parser",
+        "page_count": len(result.images),
+        "table_count": len(result.tables),
+    }
+)
+```
+## benefits
+- **separation of concerns**: parsed files alongside originals, not in database
+- **caching**: check `has_parsed()` before re-parsing expensive files
+- **discoverability**: `list_parsed_resources()` shows what's available
+- **flexibility**: store markdown, images, tables, any extracted content
+- **convention over configuration**: standard `.parsed/` suffix
+## local provider
+Same interface for local files:
+```python
+from rem.services.fs import LocalProvider
+fs = LocalProvider()
+uri = "/data/docs/report.pdf"
+if fs.has_parsed(uri):
+    markdown = fs.read_parsed(uri)
+else:
+    markdown = parse_pdf(uri)
+    fs.write_parsed(uri, markdown, metadata={"provider": "kreuzberg"})
+```

rem/services/fs/paths.py ADDED Viewed

@@ -0,0 +1,276 @@
+"""
+Filesystem path naming conventions for REM.
+Standardized path structure:
+- rem/v1/uploads/{system|user_id}/{yyyy}/{mm}/{dd}/{optional_hh_mm}/
+- Local: $REM_HOME/fs/...
+- S3: s3://{bucket}/...
+Design principles:
+- Consistent hierarchical structure
+- Date-based partitioning for scalability
+- User vs system separation
+- Environment-aware (local vs cloud)
+"""
+import os
+from datetime import datetime, date
+from pathlib import Path
+from typing import Literal
+from rem.settings import settings
+def get_rem_home() -> str:
+    """
+    Get REM_HOME directory for local filesystem.
+    Returns REM_HOME environment variable or defaults to ~/.rem
+    Returns:
+        Absolute path to REM home directory
+    """
+    rem_home = os.getenv("REM_HOME", str(Path.home() / ".rem"))
+    return str(Path(rem_home).expanduser().absolute())
+def get_base_uri(use_s3: bool | None = None) -> str:
+    """
+    Get base URI for file storage.
+    Args:
+        use_s3: Force S3 (True) or local (False). If None, uses S3 in production.
+    Returns:
+        Base URI: s3://{bucket} or $REM_HOME/fs
+    """
+    if use_s3 is None:
+        # Auto-detect: use S3 in production, local in development
+        use_s3 = settings.environment == "production"
+    if use_s3:
+        bucket = settings.s3.bucket_name
+        return f"s3://{bucket}"
+    else:
+        rem_home = get_rem_home()
+        return str(Path(rem_home) / "fs")
+def get_uploads_path(
+    user_id: str | None = None,
+    dt: datetime | date | None = None,
+    include_time: bool = False,
+    use_s3: bool | None = None,
+) -> str:
+    """
+    Get standardized uploads directory path for a given date.
+    Path structure:
+        rem/v1/uploads/{system|user_id}/{yyyy}/{mm}/{dd}/{hh_mm}/
+    Args:
+        user_id: User ID for user-specific uploads. If None, uses "system"
+        dt: Date/datetime for path. If None, uses current time
+        include_time: Include hour/minute in path (default: False)
+        use_s3: Force S3 or local. If None, auto-detects based on environment
+    Returns:
+        Full path: base_uri/rem/v1/uploads/{system|user_id}/yyyy/mm/dd[/hh_mm]
+    Examples:
+        >>> get_uploads_path()
+        '/Users/user/.rem/fs/rem/v1/uploads/system/2025/01/19'
+        >>> get_uploads_path(user_id="user-123", include_time=True)
+        '/Users/user/.rem/fs/rem/v1/uploads/user-123/2025/01/19/14_30'
+        >>> get_uploads_path(use_s3=True)
+        's3://rem-bucket/rem/v1/uploads/system/2025/01/19'
+    """
+    # Get base URI
+    base_uri = get_base_uri(use_s3=use_s3)
+    # Use current time if not provided
+    if dt is None:
+        dt = datetime.now()
+    # Convert date to datetime for consistent handling
+    if isinstance(dt, date) and not isinstance(dt, datetime):
+        dt = datetime.combine(dt, datetime.min.time())
+    # Build path components
+    scope = user_id if user_id else "system"
+    year = dt.strftime("%Y")
+    month = dt.strftime("%m")
+    day = dt.strftime("%d")
+    # Base path
+    parts = [base_uri, "rem", "v1", "uploads", scope, year, month, day]
+    # Add time if requested
+    if include_time:
+        hour_min = dt.strftime("%H_%M")
+        parts.append(hour_min)
+    # Join path (handles both S3 and local)
+    if base_uri.startswith("s3://"):
+        return "/".join(parts)
+    else:
+        return str(Path(*parts))
+def get_versioned_path(
+    resource_type: Literal["schemas", "agents", "tools", "datasets"],
+    name: str,
+    version: str = "v1",
+    use_s3: bool | None = None,
+) -> str:
+    """
+    Get path for versioned resources.
+    Path structure:
+        rem/{version}/{resource_type}/{name}/
+    Args:
+        resource_type: Type of resource (schemas, agents, tools, datasets)
+        name: Resource name
+        version: Version string (default: v1)
+        use_s3: Force S3 or local. If None, auto-detects
+    Returns:
+        Full path: base_uri/rem/{version}/{resource_type}/{name}
+    Examples:
+        >>> get_versioned_path("schemas", "user-schema")
+        '/Users/user/.rem/fs/rem/v1/schemas/user-schema'
+        >>> get_versioned_path("agents", "query-agent", version="v2")
+        '/Users/user/.rem/fs/rem/v2/agents/query-agent'
+    """
+    base_uri = get_base_uri(use_s3=use_s3)
+    parts = [base_uri, "rem", version, resource_type, name]
+    if base_uri.startswith("s3://"):
+        return "/".join(parts)
+    else:
+        return str(Path(*parts))
+def get_user_path(
+    user_id: str,
+    subpath: str | None = None,
+    use_s3: bool | None = None,
+) -> str:
+    """
+    Get user-scoped storage path.
+    Path structure:
+        rem/v1/users/{user_id}/{subpath}/
+    Args:
+        user_id: User ID
+        subpath: Optional subpath (e.g., "documents", "images")
+        use_s3: Force S3 or local. If None, auto-detects
+    Returns:
+        Full path: base_uri/rem/v1/users/{user_id}[/{subpath}]
+    Examples:
+        >>> get_user_path("user-123")
+        '/Users/user/.rem/fs/rem/v1/users/user-123'
+        >>> get_user_path("user-123", "documents")
+        '/Users/user/.rem/fs/rem/v1/users/user-123/documents'
+    """
+    base_uri = get_base_uri(use_s3=use_s3)
+    parts = [base_uri, "rem", "v1", "users", user_id]
+    if subpath:
+        parts.append(subpath)
+    if base_uri.startswith("s3://"):
+        return "/".join(parts)
+    else:
+        return str(Path(*parts))
+def get_temp_path(
+    prefix: str = "tmp",
+    use_s3: bool | None = None,
+) -> str:
+    """
+    Get temporary file storage path.
+    Path structure:
+        rem/v1/temp/{prefix}/{timestamp}/
+    Args:
+        prefix: Prefix for temp directory (default: "tmp")
+        use_s3: Force S3 or local. If None, auto-detects
+    Returns:
+        Full path: base_uri/rem/v1/temp/{prefix}/{timestamp}
+    Examples:
+        >>> get_temp_path()
+        '/Users/user/.rem/fs/rem/v1/temp/tmp/20250119_143045'
+        >>> get_temp_path("processing")
+        '/Users/user/.rem/fs/rem/v1/temp/processing/20250119_143045'
+    """
+    base_uri = get_base_uri(use_s3=use_s3)
+    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+    parts = [base_uri, "rem", "v1", "temp", prefix, timestamp]
+    if base_uri.startswith("s3://"):
+        return "/".join(parts)
+    else:
+        return str(Path(*parts))
+def ensure_dir_exists(path: str) -> str:
+    """
+    Ensure directory exists for local paths (no-op for S3).
+    Args:
+        path: Directory path
+    Returns:
+        The same path (for chaining)
+    """
+    if not path.startswith("s3://"):
+        Path(path).mkdir(parents=True, exist_ok=True)
+    return path
+def join_path(*parts: str, is_s3: bool | None = None) -> str:
+    """
+    Join path parts, handling S3 vs local paths correctly.
+    Args:
+        *parts: Path components to join
+        is_s3: Force S3 (/) or local (os-specific). Auto-detects if None.
+    Returns:
+        Joined path
+    Examples:
+        >>> join_path("s3://bucket", "rem", "v1", "uploads")
+        's3://bucket/rem/v1/uploads'
+        >>> join_path("/home/user", "rem", "data")
+        '/home/user/rem/data'
+    """
+    if not parts:
+        return ""
+    # Auto-detect S3 from first part
+    if is_s3 is None:
+        is_s3 = parts[0].startswith("s3://")
+    if is_s3:
+        # S3: always use forward slash
+        return "/".join(str(p) for p in parts)
+    else:
+        # Local: use Path for OS-specific separators
+        return str(Path(*[str(p) for p in parts]))