PyPI - fabricks - Versions diffs - 3.0.11__py3-none-any.whl - Mend

fabricks 3.0.11__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

fabricks/__init__.py +0 -0
fabricks/api/__init__.py +11 -0
fabricks/api/cdc/__init__.py +6 -0
fabricks/api/cdc/nocdc.py +3 -0
fabricks/api/cdc/scd1.py +3 -0
fabricks/api/cdc/scd2.py +3 -0
fabricks/api/context.py +27 -0
fabricks/api/core.py +4 -0
fabricks/api/deploy.py +3 -0
fabricks/api/exceptions.py +19 -0
fabricks/api/extenders.py +3 -0
fabricks/api/job_schema.py +3 -0
fabricks/api/log.py +3 -0
fabricks/api/masks.py +3 -0
fabricks/api/metastore/__init__.py +10 -0
fabricks/api/metastore/database.py +3 -0
fabricks/api/metastore/table.py +3 -0
fabricks/api/metastore/view.py +6 -0
fabricks/api/notebooks/__init__.py +0 -0
fabricks/api/notebooks/cluster.py +6 -0
fabricks/api/notebooks/initialize.py +42 -0
fabricks/api/notebooks/process.py +54 -0
fabricks/api/notebooks/run.py +59 -0
fabricks/api/notebooks/schedule.py +75 -0
fabricks/api/notebooks/terminate.py +31 -0
fabricks/api/parsers.py +3 -0
fabricks/api/schedules.py +3 -0
fabricks/api/udfs.py +3 -0
fabricks/api/utils.py +9 -0
fabricks/api/version.py +3 -0
fabricks/api/views.py +6 -0
fabricks/cdc/__init__.py +14 -0
fabricks/cdc/base/__init__.py +4 -0
fabricks/cdc/base/_types.py +10 -0
fabricks/cdc/base/cdc.py +5 -0
fabricks/cdc/base/configurator.py +223 -0
fabricks/cdc/base/generator.py +177 -0
fabricks/cdc/base/merger.py +110 -0
fabricks/cdc/base/processor.py +471 -0
fabricks/cdc/cdc.py +5 -0
fabricks/cdc/nocdc.py +20 -0
fabricks/cdc/scd.py +22 -0
fabricks/cdc/scd1.py +15 -0
fabricks/cdc/scd2.py +15 -0
fabricks/cdc/templates/__init__.py +0 -0
fabricks/cdc/templates/ctes/base.sql.jinja +35 -0
fabricks/cdc/templates/ctes/current.sql.jinja +28 -0
fabricks/cdc/templates/ctes/deduplicate_hash.sql.jinja +32 -0
fabricks/cdc/templates/ctes/deduplicate_key.sql.jinja +31 -0
fabricks/cdc/templates/ctes/rectify.sql.jinja +113 -0
fabricks/cdc/templates/ctes/slice.sql.jinja +1 -0
fabricks/cdc/templates/filter.sql.jinja +4 -0
fabricks/cdc/templates/filters/final.sql.jinja +4 -0
fabricks/cdc/templates/filters/latest.sql.jinja +17 -0
fabricks/cdc/templates/filters/update.sql.jinja +30 -0
fabricks/cdc/templates/macros/bactick.sql.jinja +1 -0
fabricks/cdc/templates/macros/hash.sql.jinja +18 -0
fabricks/cdc/templates/merge.sql.jinja +3 -0
fabricks/cdc/templates/merges/nocdc.sql.jinja +41 -0
fabricks/cdc/templates/merges/scd1.sql.jinja +73 -0
fabricks/cdc/templates/merges/scd2.sql.jinja +54 -0
fabricks/cdc/templates/queries/__init__.py +0 -0
fabricks/cdc/templates/queries/context.sql.jinja +186 -0
fabricks/cdc/templates/queries/final.sql.jinja +1 -0
fabricks/cdc/templates/queries/nocdc/complete.sql.jinja +10 -0
fabricks/cdc/templates/queries/nocdc/update.sql.jinja +34 -0
fabricks/cdc/templates/queries/scd1.sql.jinja +85 -0
fabricks/cdc/templates/queries/scd2.sql.jinja +98 -0
fabricks/cdc/templates/query.sql.jinja +15 -0
fabricks/context/__init__.py +72 -0
fabricks/context/_types.py +133 -0
fabricks/context/config/__init__.py +92 -0
fabricks/context/config/utils.py +53 -0
fabricks/context/log.py +77 -0
fabricks/context/runtime.py +117 -0
fabricks/context/secret.py +103 -0
fabricks/context/spark_session.py +82 -0
fabricks/context/utils.py +80 -0
fabricks/core/__init__.py +4 -0
fabricks/core/dags/__init__.py +9 -0
fabricks/core/dags/base.py +99 -0
fabricks/core/dags/generator.py +157 -0
fabricks/core/dags/log.py +12 -0
fabricks/core/dags/processor.py +228 -0
fabricks/core/dags/run.py +39 -0
fabricks/core/dags/terminator.py +25 -0
fabricks/core/dags/utils.py +54 -0
fabricks/core/extenders.py +33 -0
fabricks/core/job_schema.py +32 -0
fabricks/core/jobs/__init__.py +21 -0
fabricks/core/jobs/base/__init__.py +10 -0
fabricks/core/jobs/base/_types.py +284 -0
fabricks/core/jobs/base/checker.py +139 -0
fabricks/core/jobs/base/configurator.py +306 -0
fabricks/core/jobs/base/exception.py +85 -0
fabricks/core/jobs/base/generator.py +447 -0
fabricks/core/jobs/base/invoker.py +206 -0
fabricks/core/jobs/base/job.py +5 -0
fabricks/core/jobs/base/processor.py +249 -0
fabricks/core/jobs/bronze.py +395 -0
fabricks/core/jobs/get_job.py +127 -0
fabricks/core/jobs/get_job_conf.py +152 -0
fabricks/core/jobs/get_job_id.py +31 -0
fabricks/core/jobs/get_jobs.py +107 -0
fabricks/core/jobs/get_schedule.py +10 -0
fabricks/core/jobs/get_schedules.py +32 -0
fabricks/core/jobs/gold.py +415 -0
fabricks/core/jobs/silver.py +373 -0
fabricks/core/masks.py +52 -0
fabricks/core/parsers/__init__.py +12 -0
fabricks/core/parsers/_types.py +6 -0
fabricks/core/parsers/base.py +95 -0
fabricks/core/parsers/decorator.py +11 -0
fabricks/core/parsers/get_parser.py +26 -0
fabricks/core/parsers/utils.py +69 -0
fabricks/core/schedules/__init__.py +14 -0
fabricks/core/schedules/diagrams.py +21 -0
fabricks/core/schedules/generate.py +20 -0
fabricks/core/schedules/get_schedule.py +5 -0
fabricks/core/schedules/get_schedules.py +9 -0
fabricks/core/schedules/process.py +9 -0
fabricks/core/schedules/run.py +3 -0
fabricks/core/schedules/terminate.py +6 -0
fabricks/core/schedules/views.py +61 -0
fabricks/core/steps/__init__.py +4 -0
fabricks/core/steps/_types.py +7 -0
fabricks/core/steps/base.py +423 -0
fabricks/core/steps/get_step.py +10 -0
fabricks/core/steps/get_step_conf.py +26 -0
fabricks/core/udfs.py +106 -0
fabricks/core/views.py +41 -0
fabricks/deploy/__init__.py +92 -0
fabricks/deploy/masks.py +8 -0
fabricks/deploy/notebooks.py +71 -0
fabricks/deploy/schedules.py +10 -0
fabricks/deploy/tables.py +82 -0
fabricks/deploy/udfs.py +19 -0
fabricks/deploy/utils.py +36 -0
fabricks/deploy/views.py +509 -0
fabricks/metastore/README.md +3 -0
fabricks/metastore/__init__.py +5 -0
fabricks/metastore/_types.py +65 -0
fabricks/metastore/database.py +65 -0
fabricks/metastore/dbobject.py +66 -0
fabricks/metastore/pyproject.toml +20 -0
fabricks/metastore/table.py +768 -0
fabricks/metastore/utils.py +51 -0
fabricks/metastore/view.py +53 -0
fabricks/utils/__init__.py +0 -0
fabricks/utils/_types.py +6 -0
fabricks/utils/azure_queue.py +93 -0
fabricks/utils/azure_table.py +154 -0
fabricks/utils/console.py +51 -0
fabricks/utils/fdict.py +240 -0
fabricks/utils/helpers.py +228 -0
fabricks/utils/log.py +236 -0
fabricks/utils/mermaid.py +32 -0
fabricks/utils/path.py +242 -0
fabricks/utils/pip.py +61 -0
fabricks/utils/pydantic.py +94 -0
fabricks/utils/read/__init__.py +11 -0
fabricks/utils/read/_types.py +3 -0
fabricks/utils/read/read.py +305 -0
fabricks/utils/read/read_excel.py +5 -0
fabricks/utils/read/read_yaml.py +33 -0
fabricks/utils/schema/__init__.py +7 -0
fabricks/utils/schema/get_json_schema_for_type.py +161 -0
fabricks/utils/schema/get_schema_for_type.py +99 -0
fabricks/utils/spark.py +76 -0
fabricks/utils/sqlglot.py +56 -0
fabricks/utils/write/__init__.py +8 -0
fabricks/utils/write/delta.py +46 -0
fabricks/utils/write/stream.py +27 -0
fabricks-3.0.11.dist-info/METADATA +23 -0
fabricks-3.0.11.dist-info/RECORD +176 -0
fabricks-3.0.11.dist-info/WHEEL +4 -0

fabricks/core/jobs/base/_types.py ADDED Viewed

@@ -0,0 +1,284 @@
+from dataclasses import dataclass
+from typing import List, Literal, Optional, TypedDict, Union
+from pydantic import BaseModel, ConfigDict, model_validator
+from pyspark.sql.types import StringType, StructField, StructType
+from fabricks.cdc.base._types import AllowedChangeDataCaptures
+from fabricks.context import BRONZE, GOLD, SILVER
+from fabricks.core.jobs.get_job_id import get_dependency_id, get_job_id
+from fabricks.core.parsers import ParserOptions
+from fabricks.utils.fdict import FDict
+from fabricks.utils.path import Path
+TBronze = Literal["bronze"]
+TSilver = Literal["silver"]
+TGold = Literal["gold"]
+TStep = Literal[TBronze, TSilver, TGold]
+Bronzes: List[TBronze] = [b.get("name") for b in BRONZE]
+Silvers: List[TSilver] = [s.get("name") for s in SILVER]
+Golds: List[TGold] = [g.get("name") for g in GOLD]
+Steps: List[TStep] = Bronzes + Silvers + Golds
+AllowedModesBronze = Literal["memory", "append", "register"]
+AllowedModesSilver = Literal["memory", "append", "latest", "update", "combine"]
+AllowedModesGold = Literal["memory", "append", "complete", "update", "invoke"]
+AllowedModes = Literal[AllowedModesBronze, AllowedModesSilver, AllowedModesGold]
+AllowedFileFormats = Literal["json_array", "json", "jsonl", "csv", "parquet", "delta"]
+AllowedOperations = Literal["upsert", "reload", "delete"]
+AllowedTypes = Literal["manual", "default"]
+AllowedOrigins = Literal["parser", "job"]
+AllowedConstraintOptions = Literal["not enforced", "deferrable", "initially deferred", "norely", "rely"]
+AllowedForeignKeyOptions = Literal["match full", "on update no action", "on delete no action"]
+class SparkOptions(TypedDict):
+    sql: Optional[dict[str, str]]
+    conf: Optional[dict[str, str]]
+class ForeignKeyOptions(TypedDict):
+    foreign_key: Optional[AllowedForeignKeyOptions]
+    constraint: Optional[AllowedConstraintOptions]
+class PrimaryKeyOptions(TypedDict):
+    constraint: Optional[AllowedConstraintOptions]
+class ForeignKey(TypedDict):
+    keys: List[str]
+    reference: str
+    options: Optional[ForeignKeyOptions]
+class PrimaryKey(TypedDict):
+    keys: List[str]
+    options: Optional[PrimaryKeyOptions]
+class TableOptions(TypedDict):
+    identity: Optional[bool]
+    liquid_clustering: Optional[bool]
+    partition_by: Optional[List[str]]
+    zorder_by: Optional[List[str]]
+    cluster_by: Optional[List[str]]
+    powerbi: Optional[bool]
+    maximum_compatibility: Optional[bool]
+    bloomfilter_by: Optional[List[str]]
+    constraints: Optional[dict[str, str]]
+    properties: Optional[dict[str, str]]
+    comment: Optional[str]
+    calculated_columns: Optional[dict[str, str]]
+    masks: Optional[dict[str, str]]
+    comments: Optional[dict[str, str]]
+    retention_days: Optional[int]
+    primary_key: Optional[dict[str, PrimaryKey]]
+    foreign_keys: Optional[dict[str, ForeignKey]]
+class _InvokeOptions(TypedDict):
+    notebook: str
+    timeout: int
+    arguments: Optional[dict[str, str]]
+class InvokerOptions(TypedDict):
+    pre_run: Optional[List[_InvokeOptions]]
+    run: Optional[List[_InvokeOptions]]
+    post_run: Optional[List[_InvokeOptions]]
+class ExtenderOptions(TypedDict):
+    extender: str
+    arguments: Optional[dict[str, str]]
+class CheckOptions(TypedDict):
+    skip: Optional[bool]
+    pre_run: Optional[bool]
+    post_run: Optional[bool]
+    min_rows: Optional[int]
+    max_rows: Optional[int]
+    count_must_equal: Optional[str]
+class BronzeOptions(TypedDict):
+    type: Optional[AllowedTypes]
+    mode: AllowedModesBronze
+    uri: str
+    parser: str
+    source: str
+    keys: Optional[List[str]]
+    # default
+    parents: Optional[List[str]]
+    filter_where: Optional[str]
+    optimize: Optional[bool]
+    compute_statistics: Optional[bool]
+    vacuum: Optional[bool]
+    no_drop: Optional[bool]
+    # extra
+    encrypted_columns: Optional[List[str]]
+    calculated_columns: Optional[dict[str, str]]
+    operation: Optional[AllowedOperations]
+    timeout: Optional[int]
+class SilverOptions(TypedDict):
+    type: Optional[AllowedTypes]
+    mode: AllowedModesSilver
+    change_data_capture: AllowedChangeDataCaptures
+    # default
+    parents: Optional[List[str]]
+    filter_where: Optional[str]
+    optimize: Optional[bool]
+    compute_statistics: Optional[bool]
+    vacuum: Optional[bool]
+    no_drop: Optional[bool]
+    # extra
+    deduplicate: Optional[bool]
+    stream: Optional[bool]
+    # else
+    order_duplicate_by: Optional[dict[str, str]]
+    timeout: Optional[int]
+class GoldOptions(TypedDict):
+    type: Optional[AllowedTypes]
+    mode: AllowedModesGold
+    change_data_capture: AllowedChangeDataCaptures
+    update_where: Optional[str]
+    # default
+    parents: Optional[List[str]]
+    optimize: Optional[bool]
+    compute_statistics: Optional[bool]
+    vacuum: Optional[bool]
+    no_drop: Optional[bool]
+    # extra
+    deduplicate: Optional[bool]  # remove duplicates on the keys and on the hash
+    rectify_as_upserts: Optional[bool]  # convert reloads into upserts and deletes
+    correct_valid_from: Optional[bool]  # update valid_from to '1900-01-01' for the first timestamp
+    persist_last_timestamp: Optional[bool]  # persist the last timestamp to be used as a watermark for the next run
+    # delete_missing: Optional[bool]  # delete missing records on update (to be implemented)
+    # else
+    table: Optional[str]
+    notebook: Optional[bool]
+    requirements: Optional[bool]
+    timeout: Optional[int]
+    metadata: Optional[bool]
+StepOptions = Union[BronzeOptions, SilverOptions, GoldOptions]
+@dataclass
+class BaseJobConf:
+    job_id: str
+    topic: str
+    item: str
+@dataclass
+class JobConfBronze(BaseJobConf):
+    step: TBronze
+    options: BronzeOptions
+    table_options: Optional[TableOptions] = None
+    parser_options: Optional[ParserOptions] = None
+    check_options: Optional[CheckOptions] = None
+    spark_options: Optional[SparkOptions] = None
+    invoker_options: Optional[InvokerOptions] = None
+    extender_options: Optional[List[ExtenderOptions]] = None
+    tags: Optional[List[str]] = None
+    comment: Optional[str] = None
+@dataclass
+class JobConfSilver(BaseJobConf):
+    step: TSilver
+    options: SilverOptions
+    table_options: Optional[TableOptions] = None
+    check_options: Optional[CheckOptions] = None
+    spark_options: Optional[SparkOptions] = None
+    invoker_options: Optional[InvokerOptions] = None
+    extender_options: Optional[List[ExtenderOptions]] = None
+    tags: Optional[List[str]] = None
+    comment: Optional[str] = None
+@dataclass
+class JobConfGold(BaseJobConf):
+    step: TGold
+    options: Optional[GoldOptions]
+    table_options: Optional[TableOptions] = None
+    check_options: Optional[CheckOptions] = None
+    spark_options: Optional[SparkOptions] = None
+    invoker_options: Optional[InvokerOptions] = None
+    extender_options: Optional[List[ExtenderOptions]] = None
+    tags: Optional[List[str]] = None
+    comment: Optional[str] = None
+JobConf = Union[JobConfBronze, JobConfSilver, JobConfGold]
+@dataclass
+class Paths:
+    storage: Path
+    tmp: Path
+    checkpoints: Path
+    commits: Path
+    schema: Path
+    runtime: Path
+@dataclass
+class Options:
+    job: FDict
+    check: FDict
+    table: FDict
+    spark: FDict
+    invokers: FDict
+    extenders: List
+class JobDependency(BaseModel):
+    model_config = ConfigDict(extra="forbid", frozen=True)
+    origin: AllowedOrigins
+    job_id: str
+    parent: str
+    parent_id: str
+    dependency_id: str
+    def __str__(self) -> str:
+        return f"{self.job_id} -> {self.parent}"
+    @model_validator(mode="after")
+    def check_no_circular_dependency(self):
+        if self.job_id == self.parent_id:
+            raise ValueError("Circular dependency detected")
+        return self
+    @staticmethod
+    def from_parts(job_id: str, parent: str, origin: AllowedOrigins):
+        parent = parent.removesuffix("__current")
+        return JobDependency(
+            job_id=job_id,
+            origin=origin,
+            parent=parent,
+            parent_id=get_job_id(job=parent),
+            dependency_id=get_dependency_id(parent=parent, job_id=job_id),
+        )
+SchemaDependencies = StructType(
+    [
+        StructField("dependency_id", StringType(), True),
+        StructField("origin", StringType(), True),
+        StructField("job_id", StringType(), True),
+        StructField("parent_id", StringType(), True),
+        StructField("parent", StringType(), True),
+    ]
+)

fabricks/core/jobs/base/checker.py ADDED Viewed

@@ -0,0 +1,139 @@
+from typing import Literal
+from fabricks.context.log import DEFAULT_LOGGER
+from fabricks.core.jobs.base.exception import (
+    PostRunCheckException,
+    PostRunCheckWarning,
+    PreRunCheckException,
+    PreRunCheckWarning,
+    SkipRunCheckWarning,
+)
+from fabricks.core.jobs.base.generator import Generator
+class Checker(Generator):
+    def check_pre_run(self):
+        self._check("pre_run")
+    def check_post_run(self):
+        self._check("post_run")
+    def _check(self, position: Literal["pre_run", "post_run"]):
+        if self.options.check.get(position):
+            DEFAULT_LOGGER.debug(f"check {position}", extra={"label": self})
+            p = self.paths.runtime.append(f".{position}.sql")
+            assert p.exists(), f"{position} check not found ({p})"
+            df = self.spark.sql(p.get_sql())
+            fail_df = df.where("__action == 'fail'")
+            warning_df = df.where("__action == 'warning'")
+            if not fail_df.isEmpty():
+                for row in fail_df.collect():
+                    DEFAULT_LOGGER.warning(
+                        f"check {position} failed due to {row['__message']}",
+                        extra={"label": self},
+                    )
+                if position == "pre_run":
+                    raise PreRunCheckException(row["__message"], dataframe=df)
+                elif position == "post_run":
+                    raise PostRunCheckException(row["__message"], dataframe=df)
+            elif not warning_df.isEmpty():
+                for row in warning_df.collect():
+                    DEFAULT_LOGGER.warning(
+                        f"check {position} failed due to {row['__message']}",
+                        extra={"label": self},
+                    )
+                if position == "pre_run":
+                    raise PreRunCheckWarning(row["__message"], dataframe=df)
+                elif position == "post_run":
+                    raise PostRunCheckWarning(row["__message"], dataframe=df)
+    def check_post_run_extra(self):
+        min_rows = self.options.check.get("min_rows")
+        max_rows = self.options.check.get("max_rows")
+        count_must_equal = self.options.check.get("count_must_equal")
+        if min_rows or max_rows or count_must_equal:
+            df = self.spark.sql(f"select count(*) from {self}")
+            rows = df.collect()[0][0]
+            if min_rows:
+                DEFAULT_LOGGER.debug("check min rows", extra={"label": self})
+                if rows < min_rows:
+                    raise PostRunCheckException(f"min rows check failed ({rows} < {min_rows})", dataframe=df)
+            if max_rows:
+                DEFAULT_LOGGER.debug("check max rows", extra={"label": self})
+                if rows > max_rows:
+                    raise PostRunCheckException(f"max rows check failed ({rows} > {max_rows})", dataframe=df)
+            if count_must_equal:
+                DEFAULT_LOGGER.debug("check count must equal", extra={"label": self})
+                equals_rows = self.spark.read.table(count_must_equal).count()
+                if rows != equals_rows:
+                    raise PostRunCheckException(
+                        f"count must equal check failed ({count_must_equal} - {rows} != {equals_rows})",
+                        dataframe=df,
+                    )
+    def _check_duplicate_in_column(self, column: str):
+        if column in self.table.columns:
+            DEFAULT_LOGGER.debug(f"check duplicate in {column}", extra={"label": self})
+            cols = [column]
+            if "__source" in self.table.columns:
+                cols.append("__source")
+            if self.change_data_capture == "scd2":
+                cols.append("__valid_to")
+            elif self.change_data_capture == "nocdc":
+                if "__valid_to" in self.table.columns:
+                    cols.append("__valid_to")
+                elif self.mode == "append" and "__timestamp" in self.table.columns:
+                    cols.append("__timestamp")
+            cols = ", ".join(cols)
+            df = self.spark.sql(f"select {cols} from {self} group by all having count(*) > 1 limit 5")
+            if not df.isEmpty():
+                duplicates = ",".join([str(row[column]) for row in df.collect()])
+                raise PostRunCheckException(
+                    f"duplicate {column} check failed ({duplicates})",
+                    dataframe=df,
+                )
+        else:
+            DEFAULT_LOGGER.debug(f"could not find {column}", extra={"label": self})
+    def check_duplicate_key(self):
+        self._check_duplicate_in_column("__key")
+    def check_duplicate_hash(self):
+        self._check_duplicate_in_column("__hash")
+    def check_duplicate_identity(self):
+        self._check_duplicate_in_column("__identity")
+    def check_skip_run(self):
+        if self.options.check.get("skip"):
+            DEFAULT_LOGGER.debug("check if run should be skipped", extra={"label": self})
+            p = self.paths.runtime.append(".skip.sql")
+            assert p.exists(), "skip check not found"
+            df = self.spark.sql(p.get_sql())
+            skip_df = df.where("__skip")
+            if not skip_df.isEmpty():
+                for row in skip_df.collect():
+                    DEFAULT_LOGGER.warning(
+                        f"skip run due to {row['__message']}",
+                        extra={"label": self},
+                    )
+                raise SkipRunCheckWarning(row["__message"], dataframe=df)