PyPI - topos-node - Versions diffs - 0.1.0__py3-none-any.whl - Mend

topos-node 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (249) hide show

shared/__init__.py +59 -0
shared/filtering.py +640 -0
shared/schema_registry.py +229 -0
topos/__init__.py +5 -0
topos/__version__.py +6 -0
topos/analytics/__init__.py +15 -0
topos/analytics/duckdb_adapter.py +48 -0
topos/analytics/messenger_communities.py +349 -0
topos/analytics/messenger_graph.py +522 -0
topos/analytics/messenger_labels.py +321 -0
topos/analytics/profiles.py +22 -0
topos/analytics/query_engine.py +64 -0
topos/analytics/raw_queries.py +174 -0
topos/api/__init__.py +1 -0
topos/api/analytics.py +52 -0
topos/api/app_registry.py +31 -0
topos/api/backup.py +15 -0
topos/api/compute_remote.py +175 -0
topos/api/data_commit.py +158 -0
topos/api/data_explorer_table_prefs.py +81 -0
topos/api/db.py +10 -0
topos/api/device.py +25 -0
topos/api/enrichment.py +959 -0
topos/api/filter_lab.py +195 -0
topos/api/health.py +61 -0
topos/api/ingestion_api.py +37 -0
topos/api/ingestion_compat.py +21 -0
topos/api/ingestion_sources.py +600 -0
topos/api/llm.py +76 -0
topos/api/local_mcp.py +46 -0
topos/api/messenger_analytics.py +385 -0
topos/api/query_api.py +13 -0
topos/api/sanitization_ollama_config.py +64 -0
topos/api/source_install.py +324 -0
topos/api/sources.py +13 -0
topos/api/sync.py +10 -0
topos/api/ui_config.py +83 -0
topos/api/uma_data.py +311 -0
topos/api/usage.py +49 -0
topos/api/user_identity.py +46 -0
topos/app.py +239 -0
topos/auth.py +17 -0
topos/canonicalization/__init__.py +1 -0
topos/canonicalization/mappers/__init__.py +22 -0
topos/canonicalization/mappers/base.py +26 -0
topos/canonicalization/mappers/chatgpt_mapper.py +40 -0
topos/canonicalization/mappers/grok_mapper.py +17 -0
topos/canonicalization/mappers/messenger_mapper.py +58 -0
topos/canonicalization/models.py +31 -0
topos/canonicalization/resolver.py +23 -0
topos/cli/__init__.py +1 -0
topos/cli/__main__.py +6 -0
topos/cli/commands.py +132 -0
topos/config/__init__.py +1 -0
topos/config/sanitization_ollama.py +189 -0
topos/config/settings.py +310 -0
topos/contacts/__init__.py +5 -0
topos/contacts/identity.py +24 -0
topos/control_plane_client.py +300 -0
topos/core/__init__.py +1 -0
topos/core/api_models.py +128 -0
topos/core/connection_resilience.py +99 -0
topos/core/device_helpers.py +8 -0
topos/core/errors.py +13 -0
topos/core/events.py +12 -0
topos/core/handlers.py +5625 -0
topos/core/logging.py +175 -0
topos/core/metrics.py +21 -0
topos/core/startup_banner.py +62 -0
topos/core/state.py +682 -0
topos/core/table_layers.py +45 -0
topos/core/types.py +13 -0
topos/data_explorer_table_prefs.py +150 -0
topos/engine/__init__.py +29 -0
topos/engine/backends/__init__.py +50 -0
topos/engine/backends/base.py +21 -0
topos/engine/backends/huggingface.py +151 -0
topos/engine/backends/ollama.py +181 -0
topos/engine/backends/stub.py +22 -0
topos/engine/engine.py +165 -0
topos/engine/intake.py +32 -0
topos/engine/queue_manager.py +112 -0
topos/engine/registration.py +126 -0
topos/engine/result_formatter.py +38 -0
topos/engine/router.py +19 -0
topos/engine/scoped_token.py +82 -0
topos/engine/tasks.py +154 -0
topos/engine/transport.py +44 -0
topos/engine/usage_guard.py +100 -0
topos/engine/usage_observation.py +129 -0
topos/engine/validator.py +23 -0
topos/enrichment/__init__.py +1 -0
topos/enrichment/derived_tables.py +214 -0
topos/enrichment/jobs/__init__.py +30 -0
topos/enrichment/jobs/base.py +54 -0
topos/enrichment/jobs/canonical/__init__.py +1 -0
topos/enrichment/jobs/canonical/embeddings_job.py +27 -0
topos/enrichment/jobs/canonical/emo_27_job.py +97 -0
topos/enrichment/jobs/canonical/entities_job.py +27 -0
topos/enrichment/jobs/canonical/sentiment_job.py +27 -0
topos/enrichment/jobs/canonical/topics_job.py +27 -0
topos/enrichment/jobs/raw/__init__.py +1 -0
topos/enrichment/jobs/raw/attachments_job.py +12 -0
topos/enrichment/jobs/raw/language_job.py +12 -0
topos/enrichment/jobs/raw/time_normalization_job.py +12 -0
topos/enrichment/jobs/raw/tool_calls_job.py +12 -0
topos/enrichment/models/__init__.py +1 -0
topos/enrichment/models/manager.py +8 -0
topos/enrichment/models/registry.py +71 -0
topos/enrichment/models/versioning.py +8 -0
topos/enrichment/orchestrator.py +177 -0
topos/enrichment/processor.py +17 -0
topos/enrichment/progress_bar.py +122 -0
topos/enrichment/website_classifier.py +31 -0
topos/filter_lab/__init__.py +1 -0
topos/filter_lab/bundles.py +300 -0
topos/filter_lab/schema.py +86 -0
topos/filter_lab/service.py +167 -0
topos/filter_lab/store.py +374 -0
topos/filter_lab/worker.py +250 -0
topos/hosted_pool_lease.py +153 -0
topos/ingestion/__init__.py +1 -0
topos/ingestion/checkpoints/__init__.py +6 -0
topos/ingestion/checkpoints/checkpoint_store.py +24 -0
topos/ingestion/checkpoints/sqlite_checkpoint_store.py +82 -0
topos/ingestion/ingest_helpers.py +504 -0
topos/ingestion/jobs.py +91 -0
topos/ingestion/local_sync.py +823 -0
topos/ingestion/log_preview.py +21 -0
topos/ingestion/manager.py +1100 -0
topos/ingestion/parser.py +174 -0
topos/ingestion/parsers/__init__.py +32 -0
topos/ingestion/parsers/base.py +24 -0
topos/ingestion/parsers/browser_parser.py +171 -0
topos/ingestion/parsers/calendar_parser.py +21 -0
topos/ingestion/parsers/chatgpt_conversation_flattener.py +266 -0
topos/ingestion/parsers/chatgpt_parser.py +67 -0
topos/ingestion/parsers/grok_parser.py +21 -0
topos/ingestion/parsers/messenger_parser.py +97 -0
topos/ingestion/progress.py +54 -0
topos/ingestion/sources/__init__.py +20 -0
topos/ingestion/sources/base.py +39 -0
topos/ingestion/sources/calendar.py +29 -0
topos/ingestion/sources/chatgpt.py +29 -0
topos/ingestion/sources/contact_importers.py +274 -0
topos/ingestion/sources/grok.py +29 -0
topos/ingestion/sources/imessage_reader.py +479 -0
topos/ingestion/sources/signal_export_parser.py +132 -0
topos/ingestion/sources/signal_reader.py +491 -0
topos/ingestion/state_machine.py +70 -0
topos/ingestion/triggers/__init__.py +1 -0
topos/ingestion/triggers/file_trigger.py +36 -0
topos/ingestion/triggers/sqlite_trigger.py +18 -0
topos/ingestion/validation/__init__.py +1 -0
topos/ingestion/validation/base.py +27 -0
topos/ingestion/validation/schema_registry.py +111 -0
topos/ingestion/validation/schema_validator.py +13 -0
topos/lineage/__init__.py +1 -0
topos/lineage/provenance.py +9 -0
topos/lineage/tracker.py +9 -0
topos/mcp_stdio_proxy.py +83 -0
topos/observability/__init__.py +1 -0
topos/observability/alerts.py +7 -0
topos/observability/metrics.py +25 -0
topos/observability/tracing.py +18 -0
topos/openai_client.py +69 -0
topos/projections/__init__.py +1 -0
topos/projections/vector_index/__init__.py +1 -0
topos/projections/vector_index/base.py +21 -0
topos/projections/vector_index/builders.py +11 -0
topos/projections/vector_index/health_checks.py +5 -0
topos/rate_limit.py +43 -0
topos/sanitization/__init__.py +16 -0
topos/sanitization/ollama_transforms.py +276 -0
topos/scope_resolution.py +89 -0
topos/services/__init__.py +1 -0
topos/services/container.py +46 -0
topos/services/embeddings/__init__.py +1 -0
topos/services/embeddings/base.py +7 -0
topos/services/embeddings/local.py +9 -0
topos/services/embeddings/remote.py +9 -0
topos/services/interfaces.py +40 -0
topos/services/llm/__init__.py +1 -0
topos/services/llm/base.py +7 -0
topos/services/llm/openai.py +126 -0
topos/services/local.py +123 -0
topos/services/postgres.py +385 -0
topos/sources/__init__.py +6 -0
topos/sources/definitions.py +114 -0
topos/sources/install_service.py +836 -0
topos/sources/registry.py +263 -0
topos/sources/runtime_install.py +427 -0
topos/storage/__init__.py +1 -0
topos/storage/canonical/__init__.py +18 -0
topos/storage/canonical/ai_chat/__init__.py +22 -0
topos/storage/canonical/ai_chat/canonicalizer.py +147 -0
topos/storage/canonical/ai_chat/mapper.py +168 -0
topos/storage/canonical/ai_chat/model.py +87 -0
topos/storage/canonical/ai_chat/tables.py +179 -0
topos/storage/canonical/canonical_store.py +24 -0
topos/storage/canonical/conversations_tables.py +1020 -0
topos/storage/canonical/mapping_store.py +30 -0
topos/storage/canonical/postgres.py +10 -0
topos/storage/db/__init__.py +1 -0
topos/storage/db/client.py +8 -0
topos/storage/db/migrations/__init__.py +1 -0
topos/storage/db/migrations/stage9_column_renames.py +78 -0
topos/storage/db/paths.py +122 -0
topos/storage/db/postgres.py +240 -0
topos/storage/db/schema.py +6 -0
topos/storage/enrichment/__init__.py +1 -0
topos/storage/enrichment/canonical_enrichment_store.py +7 -0
topos/storage/enrichment/raw_enrichment_store.py +18 -0
topos/storage/normalized/__init__.py +1 -0
topos/storage/normalized/normalized_store.py +24 -0
topos/storage/oplog/__init__.py +1 -0
topos/storage/oplog/decision.py +6 -0
topos/storage/oplog/oplog_store.py +17 -0
topos/storage/oplog/postgres.py +10 -0
topos/storage/projections/__init__.py +1 -0
topos/storage/projections/index_ops_store.py +6 -0
topos/storage/projections/vector_index_store.py +6 -0
topos/storage/raw/__init__.py +1 -0
topos/storage/raw/browser_flat_tables.py +303 -0
topos/storage/raw/file_store.py +100 -0
topos/storage/raw/raw_store.py +29 -0
topos/storage/raw/raw_tables_manager.py +295 -0
topos/storage/raw/sqlite_raw_store.py +17 -0
topos/storage/security/encryption.py +21 -0
topos/storage/signal_identity.py +71 -0
topos/storage/source_settings.py +116 -0
topos/storage/user_identity.py +69 -0
topos/sync/__init__.py +5 -0
topos/sync/client.py +272 -0
topos/sync_handlers.py +70 -0
topos/testing/__init__.py +1 -0
topos/testing/lifespan.py +7 -0
topos/uma_contact_enrichment.py +1032 -0
topos/uma_filters.py +669 -0
topos/uma_resource_id.py +24 -0
topos/uma_rpt.py +69 -0
topos/utils/base_object.py +61 -0
topos/websocket_client.py +21 -0
topos_node-0.1.0.dist-info/METADATA +199 -0
topos_node-0.1.0.dist-info/RECORD +249 -0
topos_node-0.1.0.dist-info/WHEEL +5 -0
topos_node-0.1.0.dist-info/entry_points.txt +2 -0
topos_node-0.1.0.dist-info/licenses/LICENSE +201 -0
topos_node-0.1.0.dist-info/top_level.txt +2 -0

topos/uma_filters.py ADDED Viewed

@@ -0,0 +1,669 @@
+from __future__ import annotations
+import asyncio
+import logging
+from datetime import datetime, timedelta, timezone
+from typing import Any, Callable, Dict, List, Optional, Tuple
+from shared.filtering import FieldTransform, FilterManifest, field_transforms_from_storage, filter_manifest_from_storage
+logger = logging.getLogger("topos.uma_filters")
+class UMAFilterError(ValueError):
+    """Raised when a manifest cannot be applied safely."""
+def _parse_iso(s: str) -> Optional[datetime]:
+    try:
+        return datetime.fromisoformat(s.replace("Z", "+00:00"))
+    except Exception:
+        return None
+def _normalize_datetime(value: Any) -> Optional[datetime]:
+    if value is None:
+        return None
+    if isinstance(value, datetime):
+        dt = value
+    elif isinstance(value, str):
+        dt = _parse_iso(value)
+    else:
+        return None
+    if dt is None:
+        return None
+    if dt.tzinfo is None:
+        return dt.replace(tzinfo=timezone.utc)
+    return dt.astimezone(timezone.utc)
+def _resolve_temporal_datetime(row: Dict[str, Any]) -> Optional[datetime]:
+    """Best-effort timestamp resolver for UMA filters across canonical and raw tables."""
+    for field in ("event_at", "ts", "timestamp", "visited_at", "start_time", "end_time"):
+        dt = _normalize_datetime(row.get(field))
+        if dt is not None:
+            return dt
+    return None
+def _resolve_time_field_for_rows(items: List[Dict[str, Any]]) -> str:
+    """Pick the first available temporal field from current rows."""
+    for field in ("event_at", "ts", "timestamp", "visited_at", "start_time", "end_time"):
+        for row in items:
+            if field in row and row.get(field) is not None:
+                return field
+    return "event_at"
+def extract_filter_manifest(filters: Optional[Dict[str, Any]]) -> Optional[FilterManifest]:
+    if not filters or not isinstance(filters, dict):
+        return None
+    manifest = filters.get("filter_manifest")
+    if manifest is None:
+        return None
+    return filter_manifest_from_storage(manifest)
+def extract_field_transforms(filters: Optional[Dict[str, Any]]) -> Optional[List[FieldTransform]]:
+    """Stage 10: Extract field_transforms list from permission filters payload."""
+    if not filters or not isinstance(filters, dict):
+        return None
+    return field_transforms_from_storage(filters.get("field_transforms"))
+def _params_table_id(item_params: Dict[str, Any]) -> str:
+    return str(item_params.get("table_id") or "").strip()
+def _resolve_rolling_window_days(manifest: Optional[FilterManifest], logical_table_id: Optional[str]) -> Optional[int]:
+    """Table-scoped rolling_window_days overrides the global (no table_id) entry for that table."""
+    if manifest is None:
+        return None
+    lt = (logical_table_id or "").strip()
+    global_days: Optional[int] = None
+    scoped_days: Optional[int] = None
+    for item in manifest.filters:
+        if item.filter_id != "rolling_window_days":
+            continue
+        days = item.params.get("days")
+        if not isinstance(days, int):
+            continue
+        tid = _params_table_id(item.params)
+        if tid:
+            if lt and tid == lt:
+                scoped_days = days
+        else:
+            global_days = days
+    if scoped_days is not None and lt:
+        return scoped_days
+    return global_days
+def _resolve_row_caps(manifest: Optional[FilterManifest], logical_table_id: Optional[str]) -> List[int]:
+    """Applicable max_rows / most_recent_n counts: scoped overrides global for this logical table."""
+    if manifest is None:
+        return []
+    lt = (logical_table_id or "").strip()
+    scoped: List[int] = []
+    global_caps: List[int] = []
+    for item in manifest.filters:
+        if item.filter_id not in {"max_rows", "most_recent_n"}:
+            continue
+        count = item.params.get("count")
+        if not isinstance(count, int):
+            continue
+        tid = _params_table_id(item.params)
+        if tid:
+            if lt and tid == lt:
+                scoped.append(max(0, count))
+        else:
+            global_caps.append(max(0, count))
+    return scoped if scoped and lt else global_caps
+def get_limit_cap(requested_limit: int, manifest: Optional[FilterManifest], logical_table_id: Optional[str] = None) -> int:
+    caps = _resolve_row_caps(manifest, logical_table_id)
+    if not caps:
+        return requested_limit
+    return min(requested_limit, min(caps))
+def build_sql_constraints(
+    manifest: Optional[FilterManifest],
+    table_prefix: str,
+    logical_table_id: Optional[str] = None,
+) -> Tuple[str, List[Any]]:
+    if manifest is None:
+        return "", []
+    conditions: List[str] = []
+    params: List[Any] = []
+    eff_days = _resolve_rolling_window_days(manifest, logical_table_id)
+    if eff_days is not None:
+        conditions.append(f"datetime({table_prefix}event_at) >= datetime('now', ?)")
+        params.append(f"-{max(0, eff_days)} days")
+    for item in manifest.filters:
+        if item.filter_id == "rolling_window_days":
+            continue
+        elif item.filter_id == "date_range":
+            start = item.params.get("start")
+            end = item.params.get("end")
+            if start:
+                conditions.append(f"datetime({table_prefix}event_at) >= ?")
+                params.append(str(start).strip())
+            if end:
+                conditions.append(f"datetime({table_prefix}event_at) <= ?")
+                params.append(str(end).strip())
+        elif item.filter_id == "source_filter":
+            source_ids = item.params.get("source_ids") or []
+            if isinstance(source_ids, list) and source_ids:
+                placeholders = ",".join("?" for _ in source_ids)
+                conditions.append(f"{table_prefix}source_id IN ({placeholders})")
+                params.extend(str(sid) for sid in source_ids)
+    if not conditions:
+        return "", []
+    return " AND " + " AND ".join(conditions), params
+def _apply_time_range(
+    items: List[Dict[str, Any]],
+    field: str,
+    start: str,
+    end: str,
+    inclusive: bool = True,
+) -> List[Dict[str, Any]]:
+    start_dt = _normalize_datetime(start)
+    end_dt = _normalize_datetime(end)
+    if start_dt is None or end_dt is None:
+        return items
+    out = []
+    for row in items:
+        val = row.get(field)
+        if val is None:
+            continue
+        dt = _normalize_datetime(val)
+        if dt is None:
+            continue
+        if inclusive:
+            if start_dt <= dt <= end_dt:
+                out.append(row)
+        else:
+            if start_dt < dt < end_dt:
+                out.append(row)
+    return out
+# UMA read path adds these after the DB fetch; they are not physical table columns. Column allowlists
+# are meant to restrict stored fields — keep enrichments when the engine produced them (names still
+# respect contact_display_names + contacts:resolve + sharing_policy upstream).
+_UMA_PRESERVE_THROUGH_COLUMN_ALLOWLIST = frozenset(
+    {"sender_display_name", "sender_is_owner", "is_from_self"}
+)
+def _apply_field_include(items: List[Dict[str, Any]], fields: List[str]) -> List[Dict[str, Any]]:
+    if not fields:
+        return items
+    allowed = set(fields)
+    out: List[Dict[str, Any]] = []
+    for row in items:
+        filtered = {k: v for k, v in row.items() if k in allowed}
+        for key in _UMA_PRESERVE_THROUGH_COLUMN_ALLOWLIST:
+            val = row.get(key)
+            if val is not None and str(val).strip() and key not in filtered:
+                filtered[key] = val
+        out.append(filtered)
+    return out
+def _apply_field_exclude(items: List[Dict[str, Any]], fields: List[str]) -> List[Dict[str, Any]]:
+    if not fields:
+        return items
+    excluded = set(fields)
+    return [{k: v for k, v in row.items() if k not in excluded} for row in items]
+def _apply_source(items: List[Dict[str, Any]], source_ids: Optional[List[str]] = None) -> List[Dict[str, Any]]:
+    allowed = set(source_ids or [])
+    if not allowed:
+        return items
+    return [row for row in items if row.get("source_id") in allowed]
+def _apply_timestamp_to_date(items: List[Dict[str, Any]], field: str = "event_at") -> List[Dict[str, Any]]:
+    out: List[Dict[str, Any]] = []
+    for row in items:
+        updated = dict(row)
+        eff_field = field
+        if field == "event_at" and updated.get("event_at") is None and updated.get("ts") is not None:
+            eff_field = "ts"
+        value = updated.get(eff_field)
+        dt = _normalize_datetime(value)
+        if dt is not None:
+            updated[eff_field] = dt.date().isoformat()
+        out.append(updated)
+    return out
+def _apply_field_transforms(
+    items: List[Dict[str, Any]],
+    field_transforms: List[FieldTransform],
+    table_id: Optional[str] = None,
+    diagnostics: Optional[Dict[str, Any]] = None,
+    progress_hook: Optional[Callable[[int, int, Optional[str]], None]] = None,
+) -> List[Dict[str, Any]]:
+    """Apply field-level transforms (e.g. timestamp_to_date) per row. Only pure transforms implemented here."""
+    if not field_transforms or not items:
+        return items
+    ollama_ids: Tuple[str, ...] = ()
+    apply_ollama: Optional[Callable[..., str]] = None
+    ollama_effective = None
+    try:
+        from topos.config.sanitization_ollama import resolve_sanitization_ollama_effective
+        from topos.config.settings import settings as _settings
+        from topos.core.state import get_db_connection
+        from topos.sanitization.ollama_transforms import (
+            OLLAMA_TRANSFORM_IDS as _ollama_ids,
+            apply_text_transform_with_ollama as _apply_ollama,
+        )
+        ollama_ids = _ollama_ids
+        ollama_effective = resolve_sanitization_ollama_effective(_settings, get_db_connection())
+        if ollama_effective.enabled:
+            apply_ollama = lambda text, tid, p: _apply_ollama(text, tid, p, effective=ollama_effective)
+    except ImportError:
+        pass
+    out: List[Dict[str, Any]] = []
+    stats = diagnostics if isinstance(diagnostics, dict) else None
+    if stats is not None:
+        stats.setdefault("applied_count", 0)
+        stats.setdefault("skipped_count", 0)
+        stats.setdefault("skip_reasons", {})
+    def _skip(reason: str) -> None:
+        if stats is None:
+            return
+        stats["skipped_count"] += 1
+        reasons = stats["skip_reasons"]
+        reasons[reason] = int(reasons.get(reason) or 0) + 1
+    def _applied() -> None:
+        if stats is None:
+            return
+        stats["applied_count"] += 1
+    total_rows = len(items)
+    total_units = max(1, total_rows * max(1, len(field_transforms)))
+    unit_idx = 0
+    for idx, row in enumerate(items, start=1):
+        updated = dict(row)
+        for ft in field_transforms:
+            unit_idx += 1
+            current_filter = f"{ft.transform_id}({ft.field})"
+            if table_id is not None and ft.table_id and ft.table_id != table_id:
+                _skip("table_mismatch")
+                if progress_hook is not None:
+                    try:
+                        progress_hook(unit_idx, total_units, current_filter)
+                    except TypeError:
+                        progress_hook(unit_idx, total_units, None)  # type: ignore[misc]
+                    except Exception:
+                        pass
+                continue
+            if ft.field not in updated:
+                _skip("field_missing")
+                if progress_hook is not None:
+                    try:
+                        progress_hook(unit_idx, total_units, current_filter)
+                    except TypeError:
+                        progress_hook(unit_idx, total_units, None)  # type: ignore[misc]
+                    except Exception:
+                        pass
+                continue
+            if ft.transform_id == "timestamp_to_date":
+                val = updated.get(ft.field)
+                dt = _normalize_datetime(val)
+                if dt is not None:
+                    updated[ft.field] = dt.date().isoformat()
+                    _applied()
+                else:
+                    _skip("value_not_datetime")
+            elif apply_ollama is not None and ft.transform_id in ollama_ids:
+                val = updated.get(ft.field)
+                if isinstance(val, str) and val.strip():
+                    try:
+                        updated[ft.field] = apply_ollama(val, ft.transform_id, dict(ft.params or {}))
+                        _applied()
+                    except Exception as exc:  # noqa: BLE001
+                        logger.warning(
+                            "Ollama field transform %s on field %r failed: %s",
+                            ft.transform_id,
+                            ft.field,
+                            exc,
+                        )
+                        _skip("handler_error")
+                else:
+                    _skip("empty_value")
+            else:
+                _skip("transform_unavailable")
+            if progress_hook is not None:
+                try:
+                    progress_hook(unit_idx, total_units, current_filter)
+                except TypeError:
+                    progress_hook(unit_idx, total_units, None)  # type: ignore[misc]
+                except Exception:
+                    pass
+        out.append(updated)
+    return out
+def apply_filter_manifest(
+    items: List[Dict[str, Any]],
+    manifest: Optional[FilterManifest],
+    field_transforms: Optional[List[FieldTransform]] = None,
+    table_id: Optional[str] = None,
+    diagnostics: Optional[Dict[str, Any]] = None,
+    progress_hook: Optional[Callable[[int, int, Optional[str]], None]] = None,
+) -> List[Dict[str, Any]]:
+    if not items:
+        return items
+    filtered = list(items)
+    eff_days = _resolve_rolling_window_days(manifest, table_id)
+    eff_caps = _resolve_row_caps(manifest, table_id)
+    eff_row_cap = min(eff_caps) if eff_caps else None
+    if manifest is not None:
+        if eff_days is not None:
+            window_start = datetime.now(timezone.utc) - timedelta(days=max(0, eff_days))
+            filtered = [
+                row for row in filtered
+                if (dt := _resolve_temporal_datetime(row)) is not None and dt >= window_start
+            ]
+        for item in manifest.filters:
+            if item.filter_id == "rolling_window_days":
+                continue
+            elif item.filter_id == "date_range":
+                time_field = _resolve_time_field_for_rows(filtered)
+                filtered = _apply_time_range(
+                    filtered,
+                    field=time_field,
+                    start=str(item.params.get("start") or ""),
+                    end=str(item.params.get("end") or ""),
+                    inclusive=True,
+                )
+            elif item.filter_id in {"max_rows", "most_recent_n"}:
+                continue
+            elif item.filter_id == "source_filter":
+                source_ids = item.params.get("source_ids")
+                if not isinstance(source_ids, list):
+                    raise UMAFilterError("source_filter requires source_ids list")
+                filtered = _apply_source(filtered, [str(sid) for sid in source_ids])
+            elif item.filter_id == "column_allowlist":
+                fields = item.params.get("fields")
+                if not isinstance(fields, list):
+                    raise UMAFilterError("column_allowlist requires fields list")
+                filtered = _apply_field_include(filtered, [str(field) for field in fields])
+            elif item.filter_id == "column_blocklist":
+                fields = item.params.get("fields")
+                if not isinstance(fields, list):
+                    raise UMAFilterError("column_blocklist requires fields list")
+                filtered = _apply_field_exclude(filtered, [str(field) for field in fields])
+            elif item.filter_id == "timestamp_to_date":
+                filtered = _apply_timestamp_to_date(filtered)
+            elif item.filter_id in ("contact_display_names", "message_contact_participation"):
+                # Stage 11: applied in uma_contact_enrichment before/after this pass when dataset_id is known.
+                continue
+            elif item.filter_id == "event_contact_participation":
+                continue
+            else:
+                raise UMAFilterError(f"Unsupported manifest filter for this endpoint: {item.filter_id}")
+    if eff_row_cap is not None:
+        filtered = filtered[: max(0, eff_row_cap)]
+    if field_transforms:
+        filtered = _apply_field_transforms(
+            filtered,
+            field_transforms,
+            table_id=table_id,
+            diagnostics=diagnostics,
+            progress_hook=progress_hook,
+        )
+    return filtered
+async def _apply_field_transforms_async(
+    items: List[Dict[str, Any]],
+    field_transforms: List[FieldTransform],
+    table_id: Optional[str] = None,
+    diagnostics: Optional[Dict[str, Any]] = None,
+    progress_hook: Optional[Callable[[int, int, Optional[str]], None]] = None,
+) -> List[Dict[str, Any]]:
+    """Async variant that keeps event loop responsive during LLM transform calls."""
+    if not field_transforms or not items:
+        return items
+    ollama_ids: Tuple[str, ...] = ()
+    apply_ollama_sync: Optional[Callable[..., str]] = None
+    ollama_effective = None
+    try:
+        from topos.config.sanitization_ollama import resolve_sanitization_ollama_effective
+        from topos.config.settings import settings as _settings
+        from topos.core.state import get_db_connection
+        from topos.sanitization.ollama_transforms import (
+            OLLAMA_TRANSFORM_IDS as _ollama_ids,
+            apply_text_transform_with_ollama as _apply_ollama,
+        )
+        ollama_ids = _ollama_ids
+        ollama_effective = resolve_sanitization_ollama_effective(_settings, get_db_connection())
+        if ollama_effective.enabled:
+            apply_ollama_sync = lambda text, tid, p: _apply_ollama(text, tid, p, effective=ollama_effective)
+    except ImportError:
+        pass
+    out: List[Dict[str, Any]] = []
+    stats = diagnostics if isinstance(diagnostics, dict) else None
+    if stats is not None:
+        stats.setdefault("applied_count", 0)
+        stats.setdefault("skipped_count", 0)
+        stats.setdefault("skip_reasons", {})
+    def _skip(reason: str) -> None:
+        if stats is None:
+            return
+        stats["skipped_count"] += 1
+        reasons = stats["skip_reasons"]
+        reasons[reason] = int(reasons.get(reason) or 0) + 1
+    def _applied() -> None:
+        if stats is None:
+            return
+        stats["applied_count"] += 1
+    total_rows = len(items)
+    total_units = max(1, total_rows * max(1, len(field_transforms)))
+    unit_idx = 0
+    for idx, row in enumerate(items, start=1):
+        updated = dict(row)
+        for ft in field_transforms:
+            unit_idx += 1
+            current_filter = f"{ft.transform_id}({ft.field})"
+            if table_id is not None and ft.table_id and ft.table_id != table_id:
+                _skip("table_mismatch")
+                if progress_hook is not None:
+                    try:
+                        progress_hook(unit_idx, total_units, current_filter)
+                    except TypeError:
+                        progress_hook(unit_idx, total_units, None)  # type: ignore[misc]
+                    except Exception:
+                        pass
+                continue
+            if ft.field not in updated:
+                _skip("field_missing")
+                if progress_hook is not None:
+                    try:
+                        progress_hook(unit_idx, total_units, current_filter)
+                    except TypeError:
+                        progress_hook(unit_idx, total_units, None)  # type: ignore[misc]
+                    except Exception:
+                        pass
+                continue
+            if ft.transform_id == "timestamp_to_date":
+                val = updated.get(ft.field)
+                dt = _normalize_datetime(val)
+                if dt is not None:
+                    updated[ft.field] = dt.date().isoformat()
+                    _applied()
+                else:
+                    _skip("value_not_datetime")
+            elif apply_ollama_sync is not None and ft.transform_id in ollama_ids:
+                val = updated.get(ft.field)
+                if isinstance(val, str) and val.strip():
+                    try:
+                        updated[ft.field] = await asyncio.to_thread(
+                            apply_ollama_sync,
+                            val,
+                            ft.transform_id,
+                            dict(ft.params or {}),
+                        )
+                        _applied()
+                    except Exception as exc:  # noqa: BLE001
+                        logger.warning(
+                            "Ollama field transform %s on field %r failed: %s",
+                            ft.transform_id,
+                            ft.field,
+                            exc,
+                        )
+                        _skip("handler_error")
+                else:
+                    _skip("empty_value")
+            else:
+                _skip("transform_unavailable")
+            if progress_hook is not None:
+                try:
+                    progress_hook(unit_idx, total_units, current_filter)
+                except TypeError:
+                    progress_hook(unit_idx, total_units, None)  # type: ignore[misc]
+                except Exception:
+                    pass
+        out.append(updated)
+        # Cooperative yield so websocket ping/pong can proceed while long transform batches run.
+        await asyncio.sleep(0)
+    return out
+async def apply_filter_manifest_async(
+    items: List[Dict[str, Any]],
+    manifest: Optional[FilterManifest],
+    field_transforms: Optional[List[FieldTransform]] = None,
+    table_id: Optional[str] = None,
+    diagnostics: Optional[Dict[str, Any]] = None,
+    progress_hook: Optional[Callable[[int, int, Optional[str]], None]] = None,
+) -> List[Dict[str, Any]]:
+    """Async counterpart of apply_filter_manifest for long-running transform paths."""
+    if not items:
+        return items
+    filtered = list(items)
+    eff_days = _resolve_rolling_window_days(manifest, table_id)
+    eff_caps = _resolve_row_caps(manifest, table_id)
+    eff_row_cap = min(eff_caps) if eff_caps else None
+    if manifest is not None:
+        if eff_days is not None:
+            window_start = datetime.now(timezone.utc) - timedelta(days=max(0, eff_days))
+            filtered = [
+                row for row in filtered
+                if (dt := _resolve_temporal_datetime(row)) is not None and dt >= window_start
+            ]
+        for item in manifest.filters:
+            if item.filter_id == "rolling_window_days":
+                continue
+            elif item.filter_id == "date_range":
+                time_field = _resolve_time_field_for_rows(filtered)
+                filtered = _apply_time_range(
+                    filtered,
+                    field=time_field,
+                    start=str(item.params.get("start") or ""),
+                    end=str(item.params.get("end") or ""),
+                    inclusive=True,
+                )
+            elif item.filter_id in {"max_rows", "most_recent_n"}:
+                continue
+            elif item.filter_id == "source_filter":
+                source_ids = item.params.get("source_ids")
+                if not isinstance(source_ids, list):
+                    raise UMAFilterError("source_filter requires source_ids list")
+                filtered = _apply_source(filtered, [str(sid) for sid in source_ids])
+            elif item.filter_id == "column_allowlist":
+                fields = item.params.get("fields")
+                if not isinstance(fields, list):
+                    raise UMAFilterError("column_allowlist requires fields list")
+                filtered = _apply_field_include(filtered, [str(field) for field in fields])
+            elif item.filter_id == "column_blocklist":
+                fields = item.params.get("fields")
+                if not isinstance(fields, list):
+                    raise UMAFilterError("column_blocklist requires fields list")
+                filtered = _apply_field_exclude(filtered, [str(field) for field in fields])
+            elif item.filter_id == "timestamp_to_date":
+                filtered = _apply_timestamp_to_date(filtered)
+            elif item.filter_id in ("contact_display_names", "message_contact_participation"):
+                continue
+            elif item.filter_id == "event_contact_participation":
+                continue
+            else:
+                raise UMAFilterError(f"Unsupported manifest filter for this endpoint: {item.filter_id}")
+    if eff_row_cap is not None:
+        filtered = filtered[: max(0, eff_row_cap)]
+    if field_transforms:
+        filtered = await _apply_field_transforms_async(
+            filtered,
+            field_transforms,
+            table_id=table_id,
+            diagnostics=diagnostics,
+            progress_hook=progress_hook,
+        )
+    return filtered
+def _apply_single_filter(items: List[Dict[str, Any]], filter_def: Dict[str, Any]) -> List[Dict[str, Any]]:
+    filter_type = filter_def.get("type")
+    if filter_type == "time_range":
+        return _apply_time_range(
+            items,
+            field=filter_def.get("field") or "event_at",
+            start=filter_def.get("start", ""),
+            end=filter_def.get("end", ""),
+            inclusive=filter_def.get("inclusive", True),
+        )
+    if filter_type == "field_include":
+        return _apply_field_include(items, filter_def.get("fields") or [])
+    if filter_type == "field_exclude":
+        return _apply_field_exclude(items, filter_def.get("fields") or [])
+    if filter_type == "source":
+        source_ids = filter_def.get("source_ids")
+        source_id = filter_def.get("source_id")
+        if source_ids is None and source_id is not None:
+            source_ids = [source_id]
+        return _apply_source(items, source_ids)
+    return items
+def apply_filters(
+    items: List[Dict[str, Any]],
+    filters: Optional[Dict[str, Any]],
+    *,
+    max_depth: int = 10,
+) -> List[Dict[str, Any]]:
+    _ = max_depth
+    if not items or not filters:
+        return items
+    if not isinstance(filters, dict):
+        return items
+    try:
+        manifest = extract_filter_manifest(filters)
+        field_transforms = extract_field_transforms(filters)
+        if manifest is not None or field_transforms:
+            return apply_filter_manifest(list(items), manifest, field_transforms=field_transforms)
+        if "type" not in filters:
+            return items
+        return _apply_single_filter(list(items), filters)
+    except UMAFilterError:
+        raise
+    except Exception as exc:  # noqa: BLE001
+        logger.warning("UMA filter application failed: %s", exc)
+        return items

topos/uma_resource_id.py ADDED Viewed

@@ -0,0 +1,24 @@
+"""Parse UMA ``resource_id`` strings on the engine (no control_plane dependency)."""
+from __future__ import annotations
+from typing import Optional
+def parse_dataset_id_from_uma_dataset_resource_id(resource_id: Optional[str]) -> Optional[str]:
+    """
+    For ``dataset:{owner}:{dataset_segments...}:{device_id}``, return the dataset key used in SQLite.
+    ``dataset_id`` may contain colons (e.g. ``{uuid}:default``), so it is everything after the owner
+    and before the final segment (device_id). This must match ``control_plane.uma.models.resource_id_parse``.
+    """
+    rid = (resource_id or "").strip()
+    if not rid:
+        return None
+    parts = rid.split(":")
+    if len(parts) < 4:
+        return None
+    if (parts[0] or "").lower() != "dataset":
+        return None
+    inner = ":".join(parts[2:-1])
+    return inner.strip() or None