PyPI - contractforge-databricks - Versions diffs - 0.1.0__py3-none-any.whl - Mend

contractforge-databricks 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (220) hide show

contractforge_databricks/__init__.py +172 -0
contractforge_databricks/adapter.py +69 -0
contractforge_databricks/annotations/__init__.py +10 -0
contractforge_databricks/annotations/application.py +52 -0
contractforge_databricks/annotations/audit.py +49 -0
contractforge_databricks/annotations/sql.py +142 -0
contractforge_databricks/api.py +65 -0
contractforge_databricks/bundles/__init__.py +9 -0
contractforge_databricks/bundles/assets.py +47 -0
contractforge_databricks/bundles/project.py +213 -0
contractforge_databricks/bundles/project_config.py +133 -0
contractforge_databricks/capabilities/__init__.py +17 -0
contractforge_databricks/capabilities/builders.py +43 -0
contractforge_databricks/capabilities/evaluate.py +162 -0
contractforge_databricks/capabilities/mapping.py +36 -0
contractforge_databricks/capabilities/models.py +44 -0
contractforge_databricks/capabilities/runtime.py +111 -0
contractforge_databricks/capabilities/uc.py +47 -0
contractforge_databricks/cli.py +196 -0
contractforge_databricks/cli_deploy.py +98 -0
contractforge_databricks/cli_governance.py +142 -0
contractforge_databricks/cli_io.py +91 -0
contractforge_databricks/cli_maintenance.py +69 -0
contractforge_databricks/coercion.py +31 -0
contractforge_databricks/contract_extensions.py +70 -0
contractforge_databricks/cost/__init__.py +11 -0
contractforge_databricks/cost/model.py +22 -0
contractforge_databricks/cost/report.py +65 -0
contractforge_databricks/cost/sql.py +136 -0
contractforge_databricks/dashboards/__init__.py +15 -0
contractforge_databricks/dashboards/control_tables.py +150 -0
contractforge_databricks/diagnostics/__init__.py +7 -0
contractforge_databricks/diagnostics/explain.py +40 -0
contractforge_databricks/environment.py +53 -0
contractforge_databricks/evidence/__init__.py +98 -0
contractforge_databricks/evidence/ddl.py +35 -0
contractforge_databricks/evidence/governance_log.py +175 -0
contractforge_databricks/evidence/helpers.py +29 -0
contractforge_databricks/evidence/ops_log.py +210 -0
contractforge_databricks/evidence/records.py +27 -0
contractforge_databricks/evidence/run_log.py +74 -0
contractforge_databricks/evidence/schemas.py +7 -0
contractforge_databricks/evidence/sql.py +144 -0
contractforge_databricks/evidence/tables.py +20 -0
contractforge_databricks/evidence/writer.py +118 -0
contractforge_databricks/execution/__init__.py +70 -0
contractforge_databricks/execution/delta_basic.py +57 -0
contractforge_databricks/execution/hash_diff.py +126 -0
contractforge_databricks/execution/hash_diff_latest.py +142 -0
contractforge_databricks/execution/replace_partitions.py +40 -0
contractforge_databricks/execution/results.py +5 -0
contractforge_databricks/execution/retry.py +36 -0
contractforge_databricks/execution/scd2.py +213 -0
contractforge_databricks/execution/scd2_deletes.py +65 -0
contractforge_databricks/execution/scd2_late.py +30 -0
contractforge_databricks/execution/snapshot.py +77 -0
contractforge_databricks/execution/sql_merge.py +85 -0
contractforge_databricks/execution/tables.py +98 -0
contractforge_databricks/execution/windows.py +58 -0
contractforge_databricks/governance/__init__.py +30 -0
contractforge_databricks/governance/access.py +185 -0
contractforge_databricks/governance/application.py +93 -0
contractforge_databricks/governance/drift.py +49 -0
contractforge_databricks/governance/runtime.py +60 -0
contractforge_databricks/governance/sql.py +31 -0
contractforge_databricks/governance/validation.py +135 -0
contractforge_databricks/lakeflow/__init__.py +21 -0
contractforge_databricks/lakeflow/compatibility.py +194 -0
contractforge_databricks/lakeflow/rendering.py +175 -0
contractforge_databricks/lineage/__init__.py +7 -0
contractforge_databricks/lineage/openlineage.py +182 -0
contractforge_databricks/maintenance/__init__.py +27 -0
contractforge_databricks/maintenance/retention.py +90 -0
contractforge_databricks/maintenance/sql.py +68 -0
contractforge_databricks/metrics/__init__.py +19 -0
contractforge_databricks/metrics/history.py +21 -0
contractforge_databricks/metrics/write.py +63 -0
contractforge_databricks/operations/__init__.py +4 -0
contractforge_databricks/operations/application.py +38 -0
contractforge_databricks/operations/sql.py +95 -0
contractforge_databricks/parity/__init__.py +18 -0
contractforge_databricks/parity/catalog.py +59 -0
contractforge_databricks/parity/models.py +7 -0
contractforge_databricks/parity/scenarios.py +111 -0
contractforge_databricks/partitioning/__init__.py +3 -0
contractforge_databricks/partitioning/predicates.py +28 -0
contractforge_databricks/preparation/__init__.py +47 -0
contractforge_databricks/preparation/deduplicate.py +87 -0
contractforge_databricks/preparation/encoding.py +37 -0
contractforge_databricks/preparation/hashing.py +18 -0
contractforge_databricks/preparation/pyspark.py +178 -0
contractforge_databricks/preparation/pyspark_staging.py +70 -0
contractforge_databricks/preparation/shape.py +209 -0
contractforge_databricks/preparation/shape_validation.py +94 -0
contractforge_databricks/preparation/staging.py +17 -0
contractforge_databricks/preparation/zip_arrays.py +51 -0
contractforge_databricks/presets/__init__.py +3 -0
contractforge_databricks/presets/base.py +24 -0
contractforge_databricks/presets/bronze.py +57 -0
contractforge_databricks/presets/catalog.py +22 -0
contractforge_databricks/presets/core.py +134 -0
contractforge_databricks/presets/gold.py +62 -0
contractforge_databricks/presets/modifiers.py +51 -0
contractforge_databricks/presets/runtime.py +22 -0
contractforge_databricks/presets/silver.py +101 -0
contractforge_databricks/presets/write_engine.py +57 -0
contractforge_databricks/quality/__init__.py +41 -0
contractforge_databricks/quality/evaluation.py +178 -0
contractforge_databricks/quality/persistence.py +81 -0
contractforge_databricks/quality/registry.py +134 -0
contractforge_databricks/quality/results.py +17 -0
contractforge_databricks/quality/sql.py +113 -0
contractforge_databricks/rendering/__init__.py +11 -0
contractforge_databricks/rendering/bundle.py +93 -0
contractforge_databricks/rendering/markdown.py +50 -0
contractforge_databricks/rendering/names.py +56 -0
contractforge_databricks/results.py +15 -0
contractforge_databricks/runtime/__init__.py +101 -0
contractforge_databricks/runtime/available_now.py +147 -0
contractforge_databricks/runtime/bundles.py +211 -0
contractforge_databricks/runtime/cache.py +20 -0
contractforge_databricks/runtime/control_tables.py +19 -0
contractforge_databricks/runtime/deploy.py +197 -0
contractforge_databricks/runtime/detection.py +114 -0
contractforge_databricks/runtime/dry_run.py +46 -0
contractforge_databricks/runtime/errors.py +54 -0
contractforge_databricks/runtime/file_selection.py +109 -0
contractforge_databricks/runtime/finalization.py +168 -0
contractforge_databricks/runtime/governance.py +37 -0
contractforge_databricks/runtime/hooks.py +45 -0
contractforge_databricks/runtime/http_file.py +37 -0
contractforge_databricks/runtime/http_retry.py +15 -0
contractforge_databricks/runtime/http_safety.py +9 -0
contractforge_databricks/runtime/json_materialization.py +97 -0
contractforge_databricks/runtime/lineage.py +164 -0
contractforge_databricks/runtime/maintenance.py +43 -0
contractforge_databricks/runtime/merge_validation.py +98 -0
contractforge_databricks/runtime/metadata.py +21 -0
contractforge_databricks/runtime/metrics.py +34 -0
contractforge_databricks/runtime/models.py +32 -0
contractforge_databricks/runtime/options.py +33 -0
contractforge_databricks/runtime/orchestration_context.py +185 -0
contractforge_databricks/runtime/orchestrator.py +147 -0
contractforge_databricks/runtime/partitioning.py +93 -0
contractforge_databricks/runtime/quality_quarantine.py +92 -0
contractforge_databricks/runtime/rest_api.py +46 -0
contractforge_databricks/runtime/rest_auth.py +21 -0
contractforge_databricks/runtime/rest_pagination.py +21 -0
contractforge_databricks/runtime/run_payload.py +177 -0
contractforge_databricks/runtime/schema.py +106 -0
contractforge_databricks/runtime/source_metadata.py +30 -0
contractforge_databricks/runtime/source_registry.py +43 -0
contractforge_databricks/runtime/source_schema.py +24 -0
contractforge_databricks/runtime/sources.py +208 -0
contractforge_databricks/runtime/spark.py +183 -0
contractforge_databricks/runtime/spark_defaults.py +35 -0
contractforge_databricks/runtime/storage_auth.py +132 -0
contractforge_databricks/runtime/streaming.py +131 -0
contractforge_databricks/runtime/success.py +104 -0
contractforge_databricks/runtime/utils.py +52 -0
contractforge_databricks/runtime/watermark.py +71 -0
contractforge_databricks/runtime/windows.py +184 -0
contractforge_databricks/runtime/write.py +66 -0
contractforge_databricks/runtime/write_flow.py +146 -0
contractforge_databricks/runtime/write_strategy.py +40 -0
contractforge_databricks/schema/__init__.py +21 -0
contractforge_databricks/schema/diff.py +11 -0
contractforge_databricks/schema/policy.py +33 -0
contractforge_databricks/schema/sync.py +23 -0
contractforge_databricks/security/__init__.py +21 -0
contractforge_databricks/security/errors.py +5 -0
contractforge_databricks/security/redaction.py +5 -0
contractforge_databricks/security/secrets.py +114 -0
contractforge_databricks/security/source_policy.py +17 -0
contractforge_databricks/shapes/__init__.py +3 -0
contractforge_databricks/shapes/sql.py +123 -0
contractforge_databricks/sources/__init__.py +67 -0
contractforge_databricks/sources/artifacts.py +100 -0
contractforge_databricks/sources/autoloader.py +48 -0
contractforge_databricks/sources/bounded_streams.py +44 -0
contractforge_databricks/sources/classification.py +115 -0
contractforge_databricks/sources/delta_share.py +21 -0
contractforge_databricks/sources/files.py +48 -0
contractforge_databricks/sources/http_file.py +46 -0
contractforge_databricks/sources/interpret.py +76 -0
contractforge_databricks/sources/jdbc.py +32 -0
contractforge_databricks/sources/metadata.py +18 -0
contractforge_databricks/sources/native_passthrough.py +33 -0
contractforge_databricks/sources/rds_iam.py +15 -0
contractforge_databricks/sources/rds_iam_runtime.py +191 -0
contractforge_databricks/sources/rest_api.py +33 -0
contractforge_databricks/sources/support.py +50 -0
contractforge_databricks/sources/table_refs.py +65 -0
contractforge_databricks/sql/__init__.py +4 -0
contractforge_databricks/sql/identifiers.py +17 -0
contractforge_databricks/sql/literals.py +36 -0
contractforge_databricks/state/__init__.py +39 -0
contractforge_databricks/state/ddl.py +24 -0
contractforge_databricks/state/migrations.py +146 -0
contractforge_databricks/state/queries.py +149 -0
contractforge_databricks/state/sql.py +116 -0
contractforge_databricks/state/tables.py +9 -0
contractforge_databricks/state/writer.py +83 -0
contractforge_databricks/templates/__init__.py +15 -0
contractforge_databricks/templates/catalog.py +205 -0
contractforge_databricks/templates/catalog_parity.py +85 -0
contractforge_databricks/templates/core.py +83 -0
contractforge_databricks/templates/enrichment.py +175 -0
contractforge_databricks/transforms/__init__.py +3 -0
contractforge_databricks/transforms/sql.py +118 -0
contractforge_databricks/watermark/__init__.py +6 -0
contractforge_databricks/watermark/sql.py +91 -0
contractforge_databricks/write_modes/__init__.py +20 -0
contractforge_databricks/write_modes/registry.py +44 -0
contractforge_databricks/write_modes/sql.py +33 -0
contractforge_databricks/write_modes/strategy.py +192 -0
contractforge_databricks-0.1.0.dist-info/METADATA +34 -0
contractforge_databricks-0.1.0.dist-info/RECORD +220 -0
contractforge_databricks-0.1.0.dist-info/WHEEL +4 -0
contractforge_databricks-0.1.0.dist-info/entry_points.txt +2 -0

contractforge_databricks/preparation/shape.py ADDED Viewed

@@ -0,0 +1,209 @@
+"""Optional PySpark execution for declarative shape intent."""
+from __future__ import annotations
+from typing import Any
+from contractforge_databricks.preparation.shape_validation import (
+    CARDINALITY_CHANGING_MODES,
+    as_dict,
+    as_list,
+    data_type_at_path,
+    flatten_config,
+    is_excluded,
+    path_col,
+    validate_cardinality_policy,
+    validate_cartesian_arrays,
+    validate_columns,
+)
+from contractforge_databricks.preparation.zip_arrays import apply_zip_arrays
+def apply_shape(df: Any, shape: dict[str, Any] | None, *, layer: str = "silver") -> Any:
+    """Apply portable shape intent with PySpark DataFrame operations."""
+    if not shape:
+        return df
+    validate_cardinality_policy(shape, layer)
+    validate_cartesian_arrays(shape)
+    df = _apply_parse_json(df, as_list(shape.get("parse_json")))
+    df = apply_zip_arrays(df, as_list(shape.get("zip_arrays")))
+    df = _apply_arrays(df, as_list(shape.get("arrays")))
+    df = _drop_shape_intermediates(df, shape)
+    df = _apply_columns(df, as_dict(shape.get("columns")))
+    return _apply_flatten(df, shape.get("flatten"))
+def _apply_parse_json(df: Any, configs: list[dict[str, Any]]) -> Any:
+    from pyspark.sql import functions as F
+    from pyspark.sql.types import StringType
+    for config in configs:
+        column = str(config["column"])
+        validate_columns(df, {column: True}, "shape.parse_json")
+        cast_input = str(config.get("cast_input") or "").strip().upper()
+        source_expr = path_col(F, column)
+        if cast_input == "STRING":
+            source_expr = source_expr.cast("string")
+        elif cast_input:
+            raise ValueError(f"shape.parse_json.{column}.cast_input={cast_input!r} is not supported")
+        else:
+            data_type = data_type_at_path(getattr(df, "schema", None), column)
+            if data_type is not None and not isinstance(data_type, StringType):
+                raise ValueError(
+                    f"shape.parse_json.{column} must be string;"
+                    " declare cast_input: STRING to coerce a binary/non-string source column"
+                )
+        schema = config.get("schema")
+        if not schema:
+            raise ValueError("shape.parse_json requires schema for runtime execution")
+        alias = str(config.get("alias") or column)
+        df = df.withColumn(alias, F.from_json(source_expr, str(schema)))
+        if config.get("drop_source") and alias != column:
+            df = df.drop(column)
+    return df
+def _apply_arrays(df: Any, arrays: list[dict[str, Any]]) -> Any:
+    from pyspark.sql import functions as F
+    from pyspark.sql.types import ArrayType
+    pending = [config for config in arrays if str(config.get("mode", "keep")) != "keep"]
+    while pending:
+        progressed = False
+        remaining = []
+        for config in pending:
+            top_level = str(config["path"]).split(".", 1)[0]
+            if top_level not in set(getattr(df, "columns", ()) or ()):
+                remaining.append(config)
+                continue
+            df = _apply_array_config(df, config, F, ArrayType)
+            progressed = True
+        if not progressed:
+            unresolved = [str(config["path"]) for config in remaining]
+            raise ValueError(f"shape.arrays contains unresolved paths: {unresolved}")
+        pending = remaining
+    return df
+def _apply_array_config(df: Any, config: dict[str, Any], functions: Any, array_type: Any) -> Any:
+        mode = str(config.get("mode", "keep"))
+        path = str(config["path"])
+        data_type = data_type_at_path(getattr(df, "schema", None), path)
+        if data_type is not None and not isinstance(data_type, array_type):
+            raise ValueError(f"shape.arrays.{path} must be array")
+        alias = str(config.get("alias") or path.replace(".", "_"))
+        column = path_col(functions, path)
+        if mode == "to_json":
+            expr = functions.to_json(column)
+        elif mode == "size":
+            expr = functions.size(column)
+        elif mode == "first":
+            expr = functions.element_at(column, 1)
+        elif mode == "explode":
+            expr = functions.explode(column)
+        elif mode == "explode_outer":
+            expr = functions.explode_outer(column)
+        else:
+            raise ValueError(f"shape.arrays mode {mode!r} is not supported")
+        return df.withColumn(alias, expr)
+def _apply_columns(df: Any, columns: dict[str, Any]) -> Any:
+    if not columns:
+        return df
+    from pyspark.sql import functions as F
+    projected = []
+    for path, config in columns.items():
+        if isinstance(config, str):
+            alias = config
+            expr = path_col(F, str(path))
+        else:
+            alias = str(config.get("alias") or str(path).replace(".", "_"))
+            expr = F.expr(str(config["expression"])) if config.get("expression") else path_col(F, str(path))
+            if config.get("cast"):
+                expr = expr.cast(str(config["cast"]))
+        projected.append(expr.alias(str(alias)))
+    return df.select(*projected)
+def _apply_flatten(df: Any, flatten: object) -> Any:
+    config = flatten_config(flatten)
+    if not config["enabled"]:
+        return df
+    from pyspark.sql.types import StructType
+    from pyspark.sql import functions as F
+    projections = []
+    aliases = set()
+    top_level = set(getattr(df, "columns", ()) or ())
+    separator = str(config["separator"])
+    max_depth = int(config["max_depth"])
+    include = set(config["include"])
+    exclude = set(config["exclude"])
+    for field in getattr(getattr(df, "schema", None), "fields", ()):
+        if include and field.name not in include:
+            projections.append(path_col(F, field.name).alias(field.name))
+            aliases.add(field.name)
+            continue
+        if is_excluded(field.name, exclude):
+            projections.append(path_col(F, field.name).alias(field.name))
+            aliases.add(field.name)
+            continue
+        if isinstance(field.dataType, StructType):
+            for path, alias in _struct_leaf_paths(field.dataType, field.name, separator, max_depth=max_depth):
+                if is_excluded(path, exclude):
+                    continue
+                if alias in top_level:
+                    continue
+                if alias in aliases:
+                    raise ValueError(f"shape.flatten would create duplicate column: {alias}")
+                projections.append(path_col(F, path).alias(alias))
+                aliases.add(alias)
+        else:
+            if field.name in aliases:
+                raise ValueError(f"shape.flatten would create duplicate column: {field.name}")
+            projections.append(path_col(F, field.name).alias(field.name))
+            aliases.add(field.name)
+    return df.select(*projections) if projections else df
+def _drop_shape_intermediates(df: Any, shape: dict[str, Any]) -> Any:
+    if shape.get("columns"):
+        return df
+    arrays = as_list(shape.get("arrays"))
+    array_paths = [str(item["path"]) for item in arrays]
+    zip_aliases = {
+        str(config["alias"])
+        for config in as_list(shape.get("zip_arrays"))
+        if any(path == str(config["alias"]) or path.startswith(f"{config['alias']}.") for path in array_paths)
+    }
+    exploded_aliases = {
+        str(item.get("alias") or str(item["path"]).replace(".", "_"))
+        for item in arrays
+        if item.get("mode") in CARDINALITY_CHANGING_MODES
+        and any(
+            path != str(item["path"])
+            and (
+                path == str(item.get("alias") or str(item["path"]).replace(".", "_"))
+                or path.startswith(f"{item.get('alias') or str(item['path']).replace('.', '_')}.")
+            )
+            for path in array_paths
+        )
+    }
+    to_drop = sorted((zip_aliases | exploded_aliases) & set(getattr(df, "columns", ()) or ()))
+    return df.drop(*to_drop) if to_drop else df
+def _struct_leaf_paths(struct: Any, prefix: str, separator: str, *, max_depth: int, depth: int = 1) -> list[tuple[str, str]]:
+    from pyspark.sql.types import StructType
+    leaves = []
+    for field in struct.fields:
+        path = f"{prefix}.{field.name}"
+        if isinstance(field.dataType, StructType) and depth < max_depth:
+            leaves.extend(_struct_leaf_paths(field.dataType, path, separator, max_depth=max_depth, depth=depth + 1))
+        else:
+            leaves.append((path, path.replace(".", separator)))
+    return leaves

contractforge_databricks/preparation/shape_validation.py ADDED Viewed

@@ -0,0 +1,94 @@
+"""Validation helpers for Databricks shape execution."""
+from __future__ import annotations
+from typing import Any
+CARDINALITY_CHANGING_MODES = frozenset({"explode", "explode_outer"})
+def validate_cardinality_policy(shape: dict[str, Any], layer: str) -> None:
+    if layer != "bronze" or shape.get("allow_cardinality_change_on_bronze"):
+        return
+    changing = [item["path"] for item in as_list(shape.get("arrays")) if item.get("mode") in CARDINALITY_CHANGING_MODES]
+    if changing:
+        raise ValueError(f"shape cardinality change is blocked in bronze by default: {changing}")
+def validate_cartesian_arrays(shape: dict[str, Any]) -> None:
+    groups: dict[str, list[dict[str, Any]]] = {}
+    for item in as_list(shape.get("arrays")):
+        if item.get("mode") not in CARDINALITY_CHANGING_MODES:
+            continue
+        groups.setdefault(parent_path(str(item["path"])), []).append(item)
+    conflicts = {
+        parent: [str(item["path"]) for item in items if not item.get("allow_cartesian")]
+        for parent, items in groups.items()
+        if len(items) > 1 and any(not item.get("allow_cartesian") for item in items)
+    }
+    if conflicts:
+        raise ValueError(f"shape contains sibling explodes that may create a cartesian product: {conflicts}")
+def validate_columns(df: Any, columns: dict[str, Any], context: str) -> None:
+    available = set(getattr(df, "columns", ()) or ())
+    missing = sorted(str(column) for column in columns if str(column).split(".", 1)[0] not in available)
+    if missing:
+        raise ValueError(f"{context} references missing columns: {missing}")
+def data_type_at_path(schema: Any, path: str) -> Any | None:
+    from pyspark.sql.types import ArrayType, StructType
+    current = schema
+    for part in path.split("."):
+        if isinstance(current, ArrayType):
+            current = current.elementType
+        if not isinstance(current, StructType):
+            return None
+        field = next((item for item in current.fields if item.name == part), None)
+        if field is None:
+            return None
+        current = field.dataType
+    return current
+def flatten_config(flatten: object) -> dict[str, Any]:
+    if isinstance(flatten, bool):
+        return {"enabled": flatten, "separator": "_", "max_depth": 10, "include": [], "exclude": []}
+    config = as_dict(flatten)
+    return {
+        "enabled": bool(config.get("enabled", False)),
+        "separator": config.get("separator", "_"),
+        "max_depth": config.get("max_depth", 10),
+        "include": string_list(config.get("include")),
+        "exclude": string_list(config.get("exclude")),
+    }
+def path_col(functions: Any, path: str) -> Any:
+    return functions.col(".".join(f"`{part}`" for part in path.split(".")))
+def parent_path(path: str) -> str:
+    return ".".join(path.split(".")[:-1])
+def is_excluded(path: str, exclude: set[str]) -> bool:
+    return path in exclude or any(path.startswith(f"{item}.") for item in exclude)
+def as_dict(value: object) -> dict[str, Any]:
+    return dict(value) if isinstance(value, dict) else {}
+def as_list(value: object) -> list[dict[str, Any]]:
+    return [dict(item) for item in value or () if isinstance(item, dict)]
+def string_list(value: object) -> list[str]:
+    if value is None:
+        return []
+    if isinstance(value, str):
+        return [value]
+    return [str(item) for item in value]  # type: ignore[union-attr]

contractforge_databricks/preparation/staging.py ADDED Viewed

@@ -0,0 +1,17 @@
+"""Compatibility exports for platform-neutral staging specifications."""
+from contractforge_core.preparation import (
+    HashDiffStageSpec,
+    SCD2StageSpec,
+    SnapshotStageSpec,
+    scd2_stage_spec_from_contract,
+    snapshot_stage_spec_from_contract,
+)
+__all__ = [
+    "HashDiffStageSpec",
+    "SCD2StageSpec",
+    "SnapshotStageSpec",
+    "scd2_stage_spec_from_contract",
+    "snapshot_stage_spec_from_contract",
+]

contractforge_databricks/preparation/zip_arrays.py ADDED Viewed

@@ -0,0 +1,51 @@
+"""PySpark execution for shape.zip_arrays."""
+from __future__ import annotations
+from typing import Any
+from contractforge_databricks.preparation.shape_validation import as_dict, data_type_at_path, path_col, validate_columns
+def apply_zip_arrays(df: Any, configs: list[dict[str, Any]]) -> Any:
+    """Zip parallel arrays and rename struct fields according to the contract."""
+    from pyspark.sql import functions as F
+    from pyspark.sql.types import ArrayType
+    aliases = set(getattr(df, "columns", ()) or ())
+    for config_idx, config in enumerate(configs):
+        alias = str(config["alias"])
+        if alias in aliases:
+            raise ValueError(f"shape.zip_arrays would collide with existing column: {alias}")
+        columns = as_dict(config.get("columns"))
+        if not columns:
+            raise ValueError("shape.zip_arrays.columns is required")
+        validate_columns(df, {path: True for path in columns}, "shape.zip_arrays")
+        temp_columns = []
+        for path, field_alias in columns.items():
+            data_type = data_type_at_path(getattr(df, "schema", None), path)
+            if data_type is not None and not isinstance(data_type, ArrayType):
+                raise ValueError(f"shape.zip_arrays.{path} must be array")
+            temp = _unique_temp_column(getattr(df, "columns", ()) or (), f"__cf_shape_zip_{config_idx}_{len(temp_columns)}")
+            df = df.withColumn(temp, path_col(F, str(path)))
+            temp_columns.append((temp, str(field_alias)))
+        zipped = F.arrays_zip(*[F.col(temp) for temp, _ in temp_columns])
+        renamed = F.transform(
+            zipped,
+            lambda item: F.struct(*[item.getField(temp).alias(field_alias) for temp, field_alias in temp_columns]),
+        )
+        df = df.withColumn(alias, renamed).drop(*[temp for temp, _ in temp_columns])
+        aliases.add(alias)
+    return df
+def _unique_temp_column(columns: object, prefix: str) -> str:
+    existing = set(columns or ())
+    candidate = prefix
+    idx = 0
+    while candidate in existing:
+        idx += 1
+        candidate = f"{prefix}_{idx}"
+    return candidate

contractforge_databricks/presets/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+from contractforge_databricks.presets.core import apply_preset, get_preset, list_presets, preset_details, register_preset
+__all__ = ["apply_preset", "get_preset", "list_presets", "preset_details", "register_preset"]

contractforge_databricks/presets/base.py ADDED Viewed

@@ -0,0 +1,24 @@
+"""Shared Databricks preset metadata helpers."""
+from __future__ import annotations
+from typing import Any
+Preset = dict[str, Any]
+PRESET_META_KEY = "_preset"
+def meta(
+    name: str,
+    category: str,
+    kind: str,
+    description: str,
+    required_fields: list[str] | None = None,
+) -> dict[str, Any]:
+    return {
+        "name": name,
+        "description": description,
+        "category": category,
+        "kind": kind,
+        "required_fields": list(required_fields or []),
+    }

contractforge_databricks/presets/bronze.py ADDED Viewed

@@ -0,0 +1,57 @@
+"""Bronze Databricks presets ported from ContractForge."""
+from __future__ import annotations
+from contractforge_databricks.presets.base import PRESET_META_KEY, Preset, meta
+BRONZE_PRESETS: dict[str, Preset] = {
+    "bronze_file_append": {
+        PRESET_META_KEY: meta("bronze_file_append", "bronze", "ingestion", "Bronze append for batch files."),
+        "layer": "bronze",
+        "mode": "scd0_append",
+        "schema_policy": "additive_only",
+        "on_quality_fail": "fail",
+    },
+    "bronze_table_append": {
+        PRESET_META_KEY: meta("bronze_table_append", "bronze", "ingestion", "Bronze append for table replication."),
+        "layer": "bronze",
+        "mode": "scd0_append",
+        "schema_policy": "additive_only",
+        "on_quality_fail": "fail",
+    },
+    "bronze_autoloader_append": {
+        PRESET_META_KEY: meta(
+            "bronze_autoloader_append",
+            "bronze",
+            "ingestion",
+            "Bronze available-now Auto Loader append.",
+            ["source.path", "source.progress_location", "source.schema_tracking_location", "target_table"],
+        ),
+        "source": {"type": "incremental_files", "trigger": "available_now", "format": "parquet"},
+        "layer": "bronze",
+        "mode": "scd0_append",
+        "schema_policy": "additive_only",
+        "on_quality_fail": "fail",
+        "idempotency_policy": "skip_if_success",
+    },
+    "bronze_full_overwrite": {
+        PRESET_META_KEY: meta("bronze_full_overwrite", "bronze", "ingestion", "Bronze full snapshot overwrite."),
+        "layer": "bronze",
+        "mode": "scd0_overwrite",
+        "schema_policy": "additive_only",
+        "on_quality_fail": "fail",
+    },
+    "bronze_partition_overwrite": {
+        PRESET_META_KEY: meta(
+            "bronze_partition_overwrite",
+            "bronze",
+            "ingestion",
+            "Bronze overwrite for one controlled partition.",
+            ["extensions.databricks.partition_column", "extensions.databricks.partition_value"],
+        ),
+        "layer": "bronze",
+        "mode": "scd0_overwrite",
+        "schema_policy": "additive_only",
+        "on_quality_fail": "fail",
+    },
+}

contractforge_databricks/presets/catalog.py ADDED Viewed

@@ -0,0 +1,22 @@
+"""Databricks-owned preset catalog ported from ContractForge."""
+from __future__ import annotations
+from contractforge_databricks.presets.base import PRESET_META_KEY as PRESET_META_KEY, Preset
+from contractforge_databricks.presets.bronze import BRONZE_PRESETS
+from contractforge_databricks.presets.gold import GOLD_PRESETS
+from contractforge_databricks.presets.modifiers import DELTA_PRESETS, GOVERNANCE_PRESETS, QUALITY_PRESETS
+from contractforge_databricks.presets.runtime import RUNTIME_PRESETS
+from contractforge_databricks.presets.silver import SILVER_PRESETS
+from contractforge_databricks.presets.write_engine import WRITE_ENGINE_PRESETS
+BUILTIN_PRESETS: dict[str, Preset] = {
+    **BRONZE_PRESETS,
+    **SILVER_PRESETS,
+    **GOLD_PRESETS,
+    **QUALITY_PRESETS,
+    **DELTA_PRESETS,
+    **GOVERNANCE_PRESETS,
+    **RUNTIME_PRESETS,
+    **WRITE_ENGINE_PRESETS,
+}

contractforge_databricks/presets/core.py ADDED Viewed

@@ -0,0 +1,134 @@
+"""Preset helpers for Databricks adapter examples and templates."""
+from __future__ import annotations
+from copy import deepcopy
+from typing import Any
+from contractforge_databricks.presets.catalog import BUILTIN_PRESETS, PRESET_META_KEY, Preset
+PRESETS: dict[str, Preset] = deepcopy(BUILTIN_PRESETS)
+def list_presets() -> list[str]:
+    return sorted(PRESETS)
+def get_preset(name: str) -> Preset:
+    if name not in PRESETS:
+        raise ValueError(f"Preset not found: {name}. valid presets: {list_presets()}")
+    return deepcopy(PRESETS[name])
+def register_preset(name: str, preset: Preset, *, override: bool = False) -> None:
+    normalized_name = str(name or "").strip()
+    if not normalized_name:
+        raise ValueError("preset name cannot be empty")
+    if not isinstance(preset, dict):
+        raise ValueError("preset must be a dict")
+    if normalized_name in PRESETS and not override:
+        raise ValueError(f"Preset already registered: {normalized_name}")
+    payload = deepcopy(preset)
+    meta = dict(payload.get(PRESET_META_KEY) or {})
+    meta.setdefault("name", normalized_name)
+    meta.setdefault("description", "")
+    meta.setdefault("category", "custom")
+    meta.setdefault("kind", "modifier")
+    meta.setdefault("required_fields", [])
+    payload[PRESET_META_KEY] = meta
+    PRESETS[normalized_name] = payload
+def preset_details(name: str) -> dict[str, Any]:
+    preset = get_preset(name)
+    meta = dict(preset.pop(PRESET_META_KEY, {}))
+    return {
+        "name": name,
+        "description": meta.get("description", ""),
+        "category": meta.get("category", "custom"),
+        "kind": meta.get("kind", "modifier"),
+        "required_fields": list(meta.get("required_fields") or []),
+        "sets": sorted(_flatten_keys(preset)),
+    }
+def apply_preset(contract: dict[str, Any]) -> dict[str, Any]:
+    names = _preset_names(contract)
+    expanded: dict[str, Any] = {}
+    metas = []
+    for name in names:
+        preset = get_preset(name)
+        metas.append(dict(preset.pop(PRESET_META_KEY, {})))
+        expanded = _deep_merge(expanded, preset)
+    explicit = _copy(contract)
+    explicit.pop("preset", None)
+    explicit.pop("presets", None)
+    expanded = _deep_merge(expanded, explicit)
+    expanded["applied_presets"] = names
+    _validate_exclusive(metas)
+    _validate_required(expanded, metas)
+    return expanded
+def _preset_names(contract: dict[str, Any]) -> list[str]:
+    raw = contract.get("preset", contract.get("presets", []))
+    if raw is None:
+        return []
+    values = raw if isinstance(raw, list) else [raw]
+    names = [str(item).strip() for item in values]
+    if any(not name for name in names):
+        raise ValueError("preset cannot contain empty values")
+    return names
+def _deep_merge(base: dict[str, Any], override: dict[str, Any]) -> dict[str, Any]:
+    result = deepcopy(base)
+    for key, value in override.items():
+        if key in result and isinstance(result[key], dict) and isinstance(value, dict):
+            result[key] = _deep_merge(result[key], value)
+        else:
+            result[key] = _copy(value)
+    return result
+def _copy(value: Any) -> Any:
+    return deepcopy(value)
+def _validate_exclusive(metas: list[dict[str, Any]]) -> None:
+    kinds: dict[str, list[str]] = {}
+    for meta in metas:
+        kinds.setdefault(str(meta.get("kind") or "modifier"), []).append(str(meta.get("name") or "unknown"))
+    for kind in ("ingestion", "runtime"):
+        if len(kinds.get(kind, [])) > 1:
+            raise ValueError(f"Presets of kind {kind} are exclusive; received: {kinds[kind]}")
+def _validate_required(contract: dict[str, Any], metas: list[dict[str, Any]]) -> None:
+    missing = []
+    for meta in metas:
+        for field in meta.get("required_fields") or []:
+            if not _has_value(contract, str(field)):
+                missing.append(f"{meta.get('name')}:{field}")
+    if missing:
+        raise ValueError(f"Missing required fields for presets: {missing}")
+def _has_value(contract: dict[str, Any], field_path: str) -> bool:
+    current: Any = contract
+    for part in field_path.split("."):
+        if not isinstance(current, dict) or part not in current:
+            return False
+        current = current[part]
+    return current is not None and (not isinstance(current, (str, list, tuple, dict)) or bool(current))
+def _flatten_keys(payload: dict[str, Any], prefix: str = "") -> list[str]:
+    keys = []
+    for key, value in payload.items():
+        path = f"{prefix}.{key}" if prefix else str(key)
+        if isinstance(value, dict):
+            keys.extend(_flatten_keys(value, path))
+        else:
+            keys.append(path)
+    return keys

contractforge_databricks/presets/gold.py ADDED Viewed

@@ -0,0 +1,62 @@
+"""Gold Databricks presets ported from ContractForge."""
+from __future__ import annotations
+from contractforge_databricks.presets.base import PRESET_META_KEY, Preset, meta
+GOLD_PRESETS: dict[str, Preset] = {
+    "gold_full_refresh": {
+        PRESET_META_KEY: meta("gold_full_refresh", "gold", "ingestion", "Gold full refresh."),
+        "layer": "gold",
+        "mode": "scd0_overwrite",
+        "schema_policy": "strict",
+        "on_quality_fail": "fail",
+    },
+    "gold_partition_refresh": {
+        PRESET_META_KEY: meta(
+            "gold_partition_refresh",
+            "gold",
+            "ingestion",
+            "Gold recalculated by partition.",
+            ["extensions.databricks.partition_column", "extensions.databricks.partition_value"],
+        ),
+        "layer": "gold",
+        "mode": "scd0_overwrite",
+        "schema_policy": "strict",
+        "on_quality_fail": "fail",
+    },
+    "gold_replace_partitions": {
+        PRESET_META_KEY: meta(
+            "gold_replace_partitions",
+            "gold",
+            "ingestion",
+            "Gold declarative replacement of complete partitions.",
+            ["extensions.databricks.merge_partition_column"],
+        ),
+        "layer": "gold",
+        "mode": "scd1_upsert",
+        "extensions": {
+            "databricks": {
+                "merge_strategy": "replace_partitions",
+                "replace_partitions_source_complete": True,
+            }
+        },
+        "schema_policy": "strict",
+        "on_quality_fail": "fail",
+    },
+    "gold_snapshot_serving": {
+        PRESET_META_KEY: meta("gold_snapshot_serving", "gold", "ingestion", "Gold snapshot serving.", ["merge_keys"]),
+        "layer": "gold",
+        "mode": "snapshot_soft_delete",
+        "schema_policy": "strict",
+        "on_quality_fail": "fail",
+    },
+    "gold_scd1_serving": {
+        PRESET_META_KEY: meta("gold_scd1_serving", "gold", "ingestion", "Gold SCD1 serving.", ["merge_keys"]),
+        "layer": "gold",
+        "mode": "scd1_upsert",
+        "extensions": {"databricks": {"merge_strategy": "delta"}},
+        "schema_policy": "strict",
+        "on_quality_fail": "fail",
+    },
+}