PyPI - remdb - Versions diffs - 0.2.6__py3-none-any.whl - Mend

remdb 0.2.6__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of remdb might be problematic. Click here for more details.

Files changed (187) hide show

rem/__init__.py +2 -0
rem/agentic/README.md +650 -0
rem/agentic/__init__.py +39 -0
rem/agentic/agents/README.md +155 -0
rem/agentic/agents/__init__.py +8 -0
rem/agentic/context.py +148 -0
rem/agentic/context_builder.py +329 -0
rem/agentic/mcp/__init__.py +0 -0
rem/agentic/mcp/tool_wrapper.py +107 -0
rem/agentic/otel/__init__.py +5 -0
rem/agentic/otel/setup.py +151 -0
rem/agentic/providers/phoenix.py +674 -0
rem/agentic/providers/pydantic_ai.py +572 -0
rem/agentic/query.py +117 -0
rem/agentic/query_helper.py +89 -0
rem/agentic/schema.py +396 -0
rem/agentic/serialization.py +245 -0
rem/agentic/tools/__init__.py +5 -0
rem/agentic/tools/rem_tools.py +231 -0
rem/api/README.md +420 -0
rem/api/main.py +324 -0
rem/api/mcp_router/prompts.py +182 -0
rem/api/mcp_router/resources.py +536 -0
rem/api/mcp_router/server.py +213 -0
rem/api/mcp_router/tools.py +584 -0
rem/api/routers/auth.py +229 -0
rem/api/routers/chat/__init__.py +5 -0
rem/api/routers/chat/completions.py +281 -0
rem/api/routers/chat/json_utils.py +76 -0
rem/api/routers/chat/models.py +124 -0
rem/api/routers/chat/streaming.py +185 -0
rem/auth/README.md +258 -0
rem/auth/__init__.py +26 -0
rem/auth/middleware.py +100 -0
rem/auth/providers/__init__.py +13 -0
rem/auth/providers/base.py +376 -0
rem/auth/providers/google.py +163 -0
rem/auth/providers/microsoft.py +237 -0
rem/cli/README.md +455 -0
rem/cli/__init__.py +8 -0
rem/cli/commands/README.md +126 -0
rem/cli/commands/__init__.py +3 -0
rem/cli/commands/ask.py +565 -0
rem/cli/commands/configure.py +423 -0
rem/cli/commands/db.py +493 -0
rem/cli/commands/dreaming.py +324 -0
rem/cli/commands/experiments.py +1124 -0
rem/cli/commands/mcp.py +66 -0
rem/cli/commands/process.py +245 -0
rem/cli/commands/schema.py +183 -0
rem/cli/commands/serve.py +106 -0
rem/cli/dreaming.py +363 -0
rem/cli/main.py +88 -0
rem/config.py +237 -0
rem/mcp_server.py +41 -0
rem/models/core/__init__.py +49 -0
rem/models/core/core_model.py +64 -0
rem/models/core/engram.py +333 -0
rem/models/core/experiment.py +628 -0
rem/models/core/inline_edge.py +132 -0
rem/models/core/rem_query.py +243 -0
rem/models/entities/__init__.py +43 -0
rem/models/entities/file.py +57 -0
rem/models/entities/image_resource.py +88 -0
rem/models/entities/message.py +35 -0
rem/models/entities/moment.py +123 -0
rem/models/entities/ontology.py +191 -0
rem/models/entities/ontology_config.py +131 -0
rem/models/entities/resource.py +95 -0
rem/models/entities/schema.py +87 -0
rem/models/entities/user.py +85 -0
rem/py.typed +0 -0
rem/schemas/README.md +507 -0
rem/schemas/__init__.py +6 -0
rem/schemas/agents/README.md +92 -0
rem/schemas/agents/core/moment-builder.yaml +178 -0
rem/schemas/agents/core/rem-query-agent.yaml +226 -0
rem/schemas/agents/core/resource-affinity-assessor.yaml +99 -0
rem/schemas/agents/core/simple-assistant.yaml +19 -0
rem/schemas/agents/core/user-profile-builder.yaml +163 -0
rem/schemas/agents/examples/contract-analyzer.yaml +317 -0
rem/schemas/agents/examples/contract-extractor.yaml +134 -0
rem/schemas/agents/examples/cv-parser.yaml +263 -0
rem/schemas/agents/examples/hello-world.yaml +37 -0
rem/schemas/agents/examples/query.yaml +54 -0
rem/schemas/agents/examples/simple.yaml +21 -0
rem/schemas/agents/examples/test.yaml +29 -0
rem/schemas/agents/rem.yaml +128 -0
rem/schemas/evaluators/hello-world/default.yaml +77 -0
rem/schemas/evaluators/rem/faithfulness.yaml +219 -0
rem/schemas/evaluators/rem/lookup-correctness.yaml +182 -0
rem/schemas/evaluators/rem/retrieval-precision.yaml +199 -0
rem/schemas/evaluators/rem/retrieval-recall.yaml +211 -0
rem/schemas/evaluators/rem/search-correctness.yaml +192 -0
rem/services/__init__.py +16 -0
rem/services/audio/INTEGRATION.md +308 -0
rem/services/audio/README.md +376 -0
rem/services/audio/__init__.py +15 -0
rem/services/audio/chunker.py +354 -0
rem/services/audio/transcriber.py +259 -0
rem/services/content/README.md +1269 -0
rem/services/content/__init__.py +5 -0
rem/services/content/providers.py +806 -0
rem/services/content/service.py +657 -0
rem/services/dreaming/README.md +230 -0
rem/services/dreaming/__init__.py +53 -0
rem/services/dreaming/affinity_service.py +336 -0
rem/services/dreaming/moment_service.py +264 -0
rem/services/dreaming/ontology_service.py +54 -0
rem/services/dreaming/user_model_service.py +297 -0
rem/services/dreaming/utils.py +39 -0
rem/services/embeddings/__init__.py +11 -0
rem/services/embeddings/api.py +120 -0
rem/services/embeddings/worker.py +421 -0
rem/services/fs/README.md +662 -0
rem/services/fs/__init__.py +62 -0
rem/services/fs/examples.py +206 -0
rem/services/fs/examples_paths.py +204 -0
rem/services/fs/git_provider.py +935 -0
rem/services/fs/local_provider.py +760 -0
rem/services/fs/parsing-hooks-examples.md +172 -0
rem/services/fs/paths.py +276 -0
rem/services/fs/provider.py +460 -0
rem/services/fs/s3_provider.py +1042 -0
rem/services/fs/service.py +186 -0
rem/services/git/README.md +1075 -0
rem/services/git/__init__.py +17 -0
rem/services/git/service.py +469 -0
rem/services/phoenix/EXPERIMENT_DESIGN.md +1146 -0
rem/services/phoenix/README.md +453 -0
rem/services/phoenix/__init__.py +46 -0
rem/services/phoenix/client.py +686 -0
rem/services/phoenix/config.py +88 -0
rem/services/phoenix/prompt_labels.py +477 -0
rem/services/postgres/README.md +575 -0
rem/services/postgres/__init__.py +23 -0
rem/services/postgres/migration_service.py +427 -0
rem/services/postgres/pydantic_to_sqlalchemy.py +232 -0
rem/services/postgres/register_type.py +352 -0
rem/services/postgres/repository.py +337 -0
rem/services/postgres/schema_generator.py +379 -0
rem/services/postgres/service.py +802 -0
rem/services/postgres/sql_builder.py +354 -0
rem/services/rem/README.md +304 -0
rem/services/rem/__init__.py +23 -0
rem/services/rem/exceptions.py +71 -0
rem/services/rem/executor.py +293 -0
rem/services/rem/parser.py +145 -0
rem/services/rem/queries.py +196 -0
rem/services/rem/query.py +371 -0
rem/services/rem/service.py +527 -0
rem/services/session/README.md +374 -0
rem/services/session/__init__.py +6 -0
rem/services/session/compression.py +360 -0
rem/services/session/reload.py +77 -0
rem/settings.py +1235 -0
rem/sql/002_install_models.sql +1068 -0
rem/sql/background_indexes.sql +42 -0
rem/sql/install_models.sql +1038 -0
rem/sql/migrations/001_install.sql +503 -0
rem/sql/migrations/002_install_models.sql +1202 -0
rem/utils/AGENTIC_CHUNKING.md +597 -0
rem/utils/README.md +583 -0
rem/utils/__init__.py +43 -0
rem/utils/agentic_chunking.py +622 -0
rem/utils/batch_ops.py +343 -0
rem/utils/chunking.py +108 -0
rem/utils/clip_embeddings.py +276 -0
rem/utils/dict_utils.py +98 -0
rem/utils/embeddings.py +423 -0
rem/utils/examples/embeddings_example.py +305 -0
rem/utils/examples/sql_types_example.py +202 -0
rem/utils/markdown.py +16 -0
rem/utils/model_helpers.py +236 -0
rem/utils/schema_loader.py +229 -0
rem/utils/sql_types.py +348 -0
rem/utils/user_id.py +81 -0
rem/utils/vision.py +330 -0
rem/workers/README.md +506 -0
rem/workers/__init__.py +5 -0
rem/workers/dreaming.py +502 -0
rem/workers/engram_processor.py +312 -0
rem/workers/sqs_file_processor.py +193 -0
remdb-0.2.6.dist-info/METADATA +1191 -0
remdb-0.2.6.dist-info/RECORD +187 -0
remdb-0.2.6.dist-info/WHEEL +4 -0
remdb-0.2.6.dist-info/entry_points.txt +2 -0

rem/workers/dreaming.py ADDED Viewed

@@ -0,0 +1,502 @@
+"""
+Dreaming Worker - REM memory indexing and insight extraction.
+The dreaming worker processes user content to build the REM knowledge graph
+through three core operations:
+1. **User Model Updates**: Extract and update user profiles from activity
+2. **Moment Construction**: Identify temporal narratives from resources
+3. **Resource Affinity**: Build semantic relationships between resources
+Design Philosophy:
+- Lean implementation: Push complex utilities to services/repositories
+- REM-first: Use REM system for all reads and writes
+- Modular: Each operation is independent and composable
+- Observable: Rich logging and metrics
+- Cloud-native: Designed for Kubernetes CronJob execution
+Architecture:
+```
+┌─────────────────────────────────────────────────────────────┐
+│                    Dreaming Worker                          │
+├─────────────────────────────────────────────────────────────┤
+│                                                             │
+│  ┌───────────────┐  ┌───────────────┐  ┌───────────────┐  │
+│  │   User Model  │  │    Moment     │  │   Resource    │  │
+│  │   Updater     │  │  Constructor  │  │   Affinity    │  │
+│  └───────┬───────┘  └───────┬───────┘  └───────┬───────┘  │
+│          │                  │                  │          │
+│          └──────────────────┼──────────────────┘          │
+│                            │                              │
+│                    ┌───────▼───────┐                      │
+│                    │  REM Services │                      │
+│                    │  - Repository │                      │
+│                    │  - Query      │                      │
+│                    │  - Embedding  │                      │
+│                    └───────────────┘                      │
+└─────────────────────────────────────────────────────────────┘
+```
+User Model Updates:
+- Reads recent sessions, moments, resources, files
+- Generates user summary using LLM
+- Updates User entity with latest profile information
+- Adds graph edges to key resources and moments
+Moment Construction:
+- Queries recent resources (lookback window)
+- Uses LLM to extract temporal narratives
+- Creates Moment entities with temporal boundaries
+- Links moments to source resources via graph edges
+- Generates embeddings for moment content
+Resource Affinity:
+- Semantic similarity mode (fast, vector-based)
+- LLM mode (intelligent, context-aware)
+- Creates graph edges between related resources
+- Updates resource entities with affinity edges
+CLI Usage:
+```bash
+# Update user models
+rem-dreaming user-model --user-id=user-123
+# Extract moments for user
+rem-dreaming moments --user-id=user-123 --lookback-hours=24
+# Build resource affinity (semantic mode)
+rem-dreaming affinity --user-id=user-123 --lookback-hours=168
+# Build resource affinity (LLM mode)
+rem-dreaming affinity --user-id=user-123 --use-llm --limit=100
+# Run all operations (recommended for daily cron)
+rem-dreaming full --user-id=user-123
+# Process all active users
+rem-dreaming full --all-users
+```
+Environment Variables:
+- REM_API_URL: REM API endpoint (default: http://rem-api:8000)
+- REM_EMBEDDING_PROVIDER: Embedding provider (default: text-embedding-3-small)
+- REM_DEFAULT_MODEL: LLM model (default: gpt-4o)
+- REM_LOOKBACK_HOURS: Default lookback window (default: 24)
+- OPENAI_API_KEY: OpenAI API key for embeddings/LLM
+Kubernetes CronJob:
+- Daily execution (3 AM): Full indexing for all tenants
+- Resource limits: 512Mi memory, 1 CPU
+- Spot instances: Tolerate node affinity
+- Completion tracking: Save job results to database
+Best Practices:
+- Start with small lookback windows (24-48 hours)
+- Use semantic mode for frequent updates (cheap, fast)
+- Use LLM mode sparingly (expensive, slow)
+- Always use --limit with LLM mode to control costs
+- Monitor embedding/LLM costs in provider dashboard
+Error Handling:
+- Graceful degradation: Continue on partial failures
+- Retry logic: Exponential backoff for transient errors
+- Error reporting: Log errors with context for debugging
+- Job status: Save success/failure status to database
+Performance:
+- Batch operations: Minimize round trips to REM API
+- Streaming: Process large result sets incrementally
+- Parallelization: Use asyncio for concurrent operations
+- Caching: Cache embeddings and LLM responses when possible
+Observability:
+- Structured logging: JSON logs for parsing
+- Metrics: Count processed resources, moments, edges
+- Tracing: OpenTelemetry traces for distributed tracing
+- Alerts: Notify on job failures or anomalies
+"""
+import asyncio
+from datetime import datetime, timedelta, timezone
+from enum import Enum
+from typing import Any, Optional, TYPE_CHECKING
+from uuid import uuid4
+import httpx
+from loguru import logger
+from pydantic import BaseModel, Field
+if TYPE_CHECKING:
+    from ..services.postgres import PostgresService
+    from ..services.dreaming.affinity_service import AffinityMode
+class TaskType(str, Enum):
+    """Dreaming task types."""
+    USER_MODEL = "user_model"
+    MOMENTS = "moments"
+    AFFINITY = "affinity"
+    ONTOLOGY = "ontology"  # Extract domain-specific knowledge from files
+    FULL = "full"
+class DreamingJob(BaseModel):
+    """Dreaming job execution record."""
+    id: str = Field(default_factory=lambda: str(uuid4()))
+    user_id: str
+    task_type: TaskType
+    status: str = "pending"  # pending, running, completed, failed
+    started_at: datetime = Field(default_factory=lambda: datetime.now(timezone.utc))
+    completed_at: Optional[datetime] = None
+    result: dict[str, Any] = Field(default_factory=dict)
+    error: Optional[str] = None
+class DreamingWorker:
+    """
+    REM dreaming worker for memory indexing.
+    Processes user content to build the REM knowledge graph through
+    user model updates, moment construction, and resource affinity.
+    This is a lean implementation that delegates complex operations
+    to REM services and repositories, keeping the worker focused on
+    orchestration and coordination.
+    User-ID First Approach:
+    - All operations are scoped by user_id (primary identifier)
+    - tenant_id field is set equal to user_id in entities (backward compatibility)
+    - In single-user deployments, user_id is the only identifier needed
+    - In future multi-tenant SaaS, tenant_id could group users (e.g., "acme-corp")
+      enabling org-wide dreaming workflows and cross-user knowledge graphs
+    - For now, all filtering and isolation is done via user_id
+    """
+    def __init__(
+        self,
+        rem_api_url: str = "http://rem-api:8000",
+        embedding_provider: str = "text-embedding-3-small",
+        default_model: str = "gpt-4o",
+        lookback_hours: int = 24,
+    ):
+        """
+        Initialize dreaming worker.
+        Args:
+            rem_api_url: REM API endpoint
+            embedding_provider: Embedding provider for vector search
+            default_model: Default LLM model for analysis
+            lookback_hours: Default lookback window in hours
+        """
+        self.rem_api_url = rem_api_url
+        self.embedding_provider = embedding_provider
+        self.default_model = default_model
+        self.lookback_hours = lookback_hours
+        self.client = httpx.AsyncClient(base_url=rem_api_url, timeout=300.0)
+        self._db: "PostgresService | None" = None  # Lazy-loaded database connection
+    async def _ensure_db(self):
+        """
+        Ensure database connection is established.
+        Lazy-loads and caches the database connection for reuse across
+        multiple operations. Connection is shared for the lifetime of
+        the worker instance.
+        Returns:
+            PostgresService instance
+        """
+        if not self._db:
+            from rem.services.postgres import get_postgres_service
+            self._db = get_postgres_service()
+            if not self._db:
+                raise RuntimeError("PostgreSQL service not available")
+            await self._db.connect()
+        return self._db
+    async def close(self):
+        """Close HTTP client and database connection."""
+        await self.client.aclose()
+        if self._db:
+            await self._db.disconnect()
+            self._db = None
+    async def update_user_model(
+        self,
+        user_id: str,
+        time_window_days: int = 30,
+        max_sessions: int = 100,
+        max_moments: int = 20,
+        max_resources: int = 20,
+    ) -> dict[str, Any]:
+        """
+        Update user model from recent activity.
+        Delegates to user_model_service for implementation.
+        Args:
+            user_id: User to process
+            time_window_days: Days to look back for activity (default: 30)
+            max_sessions: Max sessions to analyze
+            max_moments: Max moments to include
+            max_resources: Max resources to include
+        Returns:
+            Statistics about user model update
+        """
+        from rem.services.dreaming import update_user_model as _update_user_model
+        db = await self._ensure_db()
+        return await _update_user_model(
+            user_id=user_id,
+            db=db,
+            default_model=self.default_model,
+            time_window_days=time_window_days,
+            max_messages=max_sessions,  # Map max_sessions to max_messages parameter
+            max_moments=max_moments,
+            max_resources=max_resources,
+        )
+    async def construct_moments(
+        self,
+        user_id: str,
+        lookback_hours: Optional[int] = None,
+        limit: Optional[int] = None,
+    ) -> dict[str, Any]:
+        """
+        Extract moments from resources.
+        Delegates to moment_service for implementation.
+        Args:
+            user_id: User to process
+            lookback_hours: Hours to look back (default: self.lookback_hours)
+            limit: Max resources to process
+        Returns:
+            Statistics about moment construction
+        """
+        from rem.services.dreaming import construct_moments as _construct_moments
+        lookback = lookback_hours or self.lookback_hours
+        db = await self._ensure_db()
+        return await _construct_moments(
+            user_id=user_id,
+            db=db,
+            default_model=self.default_model,
+            lookback_hours=lookback,
+            limit=limit,
+        )
+    async def build_affinity(
+        self,
+        user_id: str,
+        mode: Optional["AffinityMode"] = None,
+        lookback_hours: Optional[int] = None,
+        limit: Optional[int] = None,
+        similarity_threshold: float = 0.7,
+        top_k: int = 3,
+    ) -> dict[str, Any]:
+        """
+        Build resource affinity graph.
+        Delegates to affinity_service for implementation.
+        Args:
+            user_id: User to process
+            mode: Affinity mode (semantic or llm)
+            lookback_hours: Hours to look back (default: self.lookback_hours)
+            limit: Max resources to process (REQUIRED for LLM mode)
+            similarity_threshold: Minimum similarity score for semantic mode (default: 0.7)
+            top_k: Number of similar resources to find per resource (default: 3)
+        Returns:
+            Statistics about affinity construction
+        """
+        from rem.services.dreaming import build_affinity as _build_affinity
+        from rem.services.dreaming.affinity_service import AffinityMode
+        # Default to SEMANTIC mode if not provided
+        if mode is None:
+            mode = AffinityMode.SEMANTIC
+        lookback = lookback_hours or self.lookback_hours
+        db = await self._ensure_db()
+        return await _build_affinity(
+            user_id=user_id,
+            db=db,
+            mode=mode,  # Pass enum member, handled by service
+            default_model=self.default_model,
+            lookback_hours=lookback,
+            limit=limit,
+            similarity_threshold=similarity_threshold,
+            top_k=top_k,
+        )
+    async def extract_ontologies(
+        self,
+        user_id: str,
+        lookback_hours: Optional[int] = None,
+        limit: Optional[int] = None,
+    ) -> dict[str, Any]:
+        """
+        Extract domain-specific knowledge from files using custom agents.
+        Delegates to ontology_service for implementation.
+        Args:
+            user_id: User to process
+            lookback_hours: Hours to look back (default: self.lookback_hours)
+            limit: Max files to process
+        Returns:
+            Statistics about ontology extraction
+        """
+        from rem.services.dreaming import extract_ontologies as _extract_ontologies
+        lookback = lookback_hours or self.lookback_hours
+        return await _extract_ontologies(
+            user_id=user_id,
+            lookback_hours=lookback,
+            limit=limit,
+        )
+    async def process_full(
+        self,
+        user_id: str,
+        use_llm_affinity: bool = False,
+        lookback_hours: Optional[int] = None,
+        extract_ontologies: bool = True,
+    ) -> dict[str, Any]:
+        """
+        Run complete dreaming workflow.
+        Executes all dreaming operations in sequence:
+        1. Extract ontologies from files (if enabled)
+        2. Update user model
+        3. Construct moments
+        4. Build resource affinity
+        Recommended for daily cron execution.
+        Args:
+            user_id: User to process
+            use_llm_affinity: Use LLM mode for affinity (expensive)
+            lookback_hours: Hours to look back
+            extract_ontologies: Whether to run ontology extraction (default: True)
+        Returns:
+            Aggregated statistics from all operations
+        """
+        lookback = lookback_hours or self.lookback_hours
+        results = {
+            "user_id": user_id,
+            "lookback_hours": lookback,
+            "ontologies": {},
+            "user_model": {},
+            "moments": {},
+            "affinity": {},
+        }
+        # Ontology extraction (runs first to extract knowledge before moments)
+        if extract_ontologies:
+            try:
+                results["ontologies"] = await self.extract_ontologies(
+                    user_id=user_id,
+                    lookback_hours=lookback,
+                )
+            except Exception as e:
+                logger.exception("Ontology extraction failed")
+                results["ontologies"] = {"error": str(e)}
+        # User model update
+        try:
+            results["user_model"] = await self.update_user_model(
+                user_id=user_id,
+            )
+        except Exception as e:
+            logger.exception("User model update failed")
+            results["user_model"] = {"error": str(e)}
+        # Moment construction
+        try:
+            results["moments"] = await self.construct_moments(
+                user_id=user_id,
+                lookback_hours=lookback,
+            )
+        except Exception as e:
+            logger.exception("Moment construction failed")
+            results["moments"] = {"error": str(e)}
+        # Resource affinity
+        from rem.services.dreaming.affinity_service import AffinityMode as _AffinityMode
+        affinity_mode = _AffinityMode.LLM if use_llm_affinity else _AffinityMode.SEMANTIC
+        try:
+            results["affinity"] = await self.build_affinity(
+                user_id=user_id,
+                mode=affinity_mode,
+                lookback_hours=lookback,
+            )
+        except Exception as e:
+            logger.exception("Resource affinity building failed")
+            results["affinity"] = {"error": str(e)}
+        return results
+    async def process_all_users(
+        self,
+        task_type: TaskType = TaskType.FULL,
+        use_llm_affinity: bool = False,
+        lookback_hours: Optional[int] = None,
+    ) -> list[dict[str, Any]]:
+        """
+        Process all active users.
+        Queries REM for users with recent activity and processes
+        each user according to task_type.
+        Args:
+            task_type: Task to run for each user
+            use_llm_affinity: Use LLM mode for affinity
+            lookback_hours: Hours to look back
+        Returns:
+            List of results for each user
+        """
+        lookback = lookback_hours or self.lookback_hours
+        # TODO: Query REM for active users
+        # Filter by recent activity (resources with timestamp > cutoff)
+        # Process each user according to task_type
+        # Stub implementation
+        return [
+            {
+                "status": "stub_not_implemented",
+                "message": "Query REM API for users with recent activity",
+            }
+        ]
+async def main():
+    """Main entry point (for testing)."""
+    worker = DreamingWorker()
+    try:
+        # Example: Process single user
+        result = await worker.process_full(
+            user_id="user-123",
+            use_llm_affinity=False,
+            lookback_hours=24,
+        )
+        print(result)
+    finally:
+        await worker.close()
+if __name__ == "__main__":
+    asyncio.run(main())