PyPI - fabricks - Versions diffs - 2024.7.1.5__py3-none-any.whl - Mend

fabricks 2024.7.1.5__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (154) hide show

fabricks/__init__.py +0 -0
fabricks/api/__init__.py +7 -0
fabricks/api/cdc/__init__.py +6 -0
fabricks/api/cdc/nocdc.py +3 -0
fabricks/api/cdc/scd1.py +3 -0
fabricks/api/cdc/scd2.py +3 -0
fabricks/api/context.py +31 -0
fabricks/api/core.py +4 -0
fabricks/api/extenders.py +3 -0
fabricks/api/log.py +3 -0
fabricks/api/metastore/__init__.py +10 -0
fabricks/api/metastore/database.py +3 -0
fabricks/api/metastore/table.py +3 -0
fabricks/api/metastore/view.py +6 -0
fabricks/api/notebooks/__init__.py +0 -0
fabricks/api/notebooks/cluster.py +6 -0
fabricks/api/notebooks/deploy/__init__.py +0 -0
fabricks/api/notebooks/deploy/fabricks.py +147 -0
fabricks/api/notebooks/deploy/notebooks.py +86 -0
fabricks/api/notebooks/initialize.py +38 -0
fabricks/api/notebooks/optimize.py +25 -0
fabricks/api/notebooks/process.py +50 -0
fabricks/api/notebooks/run.py +87 -0
fabricks/api/notebooks/terminate.py +27 -0
fabricks/api/notebooks/vacuum.py +25 -0
fabricks/api/parsers.py +3 -0
fabricks/api/udfs.py +3 -0
fabricks/api/utils.py +9 -0
fabricks/cdc/__init__.py +14 -0
fabricks/cdc/base/__init__.py +4 -0
fabricks/cdc/base/cdc.py +5 -0
fabricks/cdc/base/configurator.py +145 -0
fabricks/cdc/base/generator.py +117 -0
fabricks/cdc/base/merger.py +107 -0
fabricks/cdc/base/processor.py +338 -0
fabricks/cdc/base/types.py +3 -0
fabricks/cdc/cdc.py +5 -0
fabricks/cdc/nocdc.py +19 -0
fabricks/cdc/scd.py +21 -0
fabricks/cdc/scd1.py +15 -0
fabricks/cdc/scd2.py +15 -0
fabricks/cdc/templates/__init__.py +0 -0
fabricks/cdc/templates/merge/scd1.sql.jinja +72 -0
fabricks/cdc/templates/merge/scd2.sql.jinja +54 -0
fabricks/cdc/templates/merge.sql.jinja +2 -0
fabricks/cdc/templates/query/__init__.py +0 -0
fabricks/cdc/templates/query/base.sql.jinja +34 -0
fabricks/cdc/templates/query/context.sql.jinja +95 -0
fabricks/cdc/templates/query/current.sql.jinja +32 -0
fabricks/cdc/templates/query/deduplicate_hash.sql.jinja +21 -0
fabricks/cdc/templates/query/deduplicate_key.sql.jinja +14 -0
fabricks/cdc/templates/query/filter.sql.jinja +71 -0
fabricks/cdc/templates/query/final.sql.jinja +1 -0
fabricks/cdc/templates/query/hash.sql.jinja +1 -0
fabricks/cdc/templates/query/nocdc.sql.jinja +10 -0
fabricks/cdc/templates/query/rectify.sql.jinja +120 -0
fabricks/cdc/templates/query/scd1.sql.jinja +112 -0
fabricks/cdc/templates/query/scd2.sql.jinja +114 -0
fabricks/cdc/templates/query.sql.jinja +11 -0
fabricks/context/__init__.py +51 -0
fabricks/context/log.py +26 -0
fabricks/context/runtime.py +143 -0
fabricks/context/spark.py +43 -0
fabricks/context/types.py +123 -0
fabricks/core/__init__.py +4 -0
fabricks/core/dags/__init__.py +9 -0
fabricks/core/dags/base.py +72 -0
fabricks/core/dags/generator.py +154 -0
fabricks/core/dags/log.py +14 -0
fabricks/core/dags/processor.py +163 -0
fabricks/core/dags/terminator.py +26 -0
fabricks/core/deploy/__init__.py +12 -0
fabricks/core/deploy/tables.py +76 -0
fabricks/core/deploy/views.py +417 -0
fabricks/core/extenders.py +29 -0
fabricks/core/jobs/__init__.py +20 -0
fabricks/core/jobs/base/__init__.py +10 -0
fabricks/core/jobs/base/checker.py +89 -0
fabricks/core/jobs/base/configurator.py +323 -0
fabricks/core/jobs/base/error.py +16 -0
fabricks/core/jobs/base/generator.py +391 -0
fabricks/core/jobs/base/invoker.py +119 -0
fabricks/core/jobs/base/job.py +5 -0
fabricks/core/jobs/base/processor.py +204 -0
fabricks/core/jobs/base/types.py +191 -0
fabricks/core/jobs/bronze.py +333 -0
fabricks/core/jobs/get_job.py +126 -0
fabricks/core/jobs/get_job_conf.py +115 -0
fabricks/core/jobs/get_job_id.py +26 -0
fabricks/core/jobs/get_jobs.py +89 -0
fabricks/core/jobs/gold.py +218 -0
fabricks/core/jobs/silver.py +354 -0
fabricks/core/parsers/__init__.py +12 -0
fabricks/core/parsers/base.py +91 -0
fabricks/core/parsers/decorator.py +11 -0
fabricks/core/parsers/get_parser.py +25 -0
fabricks/core/parsers/types.py +6 -0
fabricks/core/schedules.py +89 -0
fabricks/core/scripts/__init__.py +13 -0
fabricks/core/scripts/armageddon.py +82 -0
fabricks/core/scripts/generate.py +20 -0
fabricks/core/scripts/job_schema.py +28 -0
fabricks/core/scripts/optimize.py +45 -0
fabricks/core/scripts/process.py +9 -0
fabricks/core/scripts/stats.py +48 -0
fabricks/core/scripts/steps.py +27 -0
fabricks/core/scripts/terminate.py +6 -0
fabricks/core/scripts/vacuum.py +45 -0
fabricks/core/site_packages.py +55 -0
fabricks/core/steps/__init__.py +4 -0
fabricks/core/steps/base.py +282 -0
fabricks/core/steps/get_step.py +10 -0
fabricks/core/steps/get_step_conf.py +33 -0
fabricks/core/steps/types.py +7 -0
fabricks/core/udfs.py +106 -0
fabricks/core/utils.py +69 -0
fabricks/core/views.py +36 -0
fabricks/metastore/README.md +3 -0
fabricks/metastore/__init__.py +5 -0
fabricks/metastore/database.py +71 -0
fabricks/metastore/pyproject.toml +20 -0
fabricks/metastore/relational.py +61 -0
fabricks/metastore/table.py +529 -0
fabricks/metastore/utils.py +35 -0
fabricks/metastore/view.py +40 -0
fabricks/utils/README.md +3 -0
fabricks/utils/__init__.py +0 -0
fabricks/utils/azure_queue.py +63 -0
fabricks/utils/azure_table.py +99 -0
fabricks/utils/console.py +51 -0
fabricks/utils/container.py +57 -0
fabricks/utils/fdict.py +28 -0
fabricks/utils/helpers.py +89 -0
fabricks/utils/log.py +153 -0
fabricks/utils/path.py +206 -0
fabricks/utils/pip.py +61 -0
fabricks/utils/pydantic.py +92 -0
fabricks/utils/pyproject.toml +18 -0
fabricks/utils/read/__init__.py +11 -0
fabricks/utils/read/read.py +305 -0
fabricks/utils/read/read_excel.py +5 -0
fabricks/utils/read/read_yaml.py +43 -0
fabricks/utils/read/types.py +3 -0
fabricks/utils/schema/__init__.py +7 -0
fabricks/utils/schema/get_json_schema_for_type.py +161 -0
fabricks/utils/schema/get_schema_for_type.py +93 -0
fabricks/utils/secret.py +78 -0
fabricks/utils/sqlglot.py +48 -0
fabricks/utils/write/__init__.py +8 -0
fabricks/utils/write/delta.py +46 -0
fabricks/utils/write/stream.py +27 -0
fabricks-2024.7.1.5.dist-info/METADATA +212 -0
fabricks-2024.7.1.5.dist-info/RECORD +154 -0
fabricks-2024.7.1.5.dist-info/WHEEL +4 -0

fabricks/core/jobs/base/processor.py ADDED Viewed

@@ -0,0 +1,204 @@
+from typing import Optional
+from pyspark.sql import DataFrame
+from pyspark.sql.functions import expr
+from fabricks.context import SECRET_SCOPE
+from fabricks.context.log import Logger, flush
+from fabricks.core.jobs.base.error import CheckFailedException, CheckWarningException, InvokerFailedException
+from fabricks.core.jobs.base.invoker import Invoker
+from fabricks.utils.write import write_stream
+class Processor(Invoker):
+    def extender(self, df: DataFrame) -> DataFrame:
+        name = self.options.job.get("extender")
+        if not name:
+            name = self.step_conf.get("options", {}).get("extender", None)
+        if name:
+            from fabricks.core.extenders import get_extender
+            Logger.debug(f"extend ({name})", extra={"job": self})
+            df = df.transform(get_extender(name))
+        return df
+    def filter_where(self, df: DataFrame) -> DataFrame:
+        f = self.options.job.get("filter_where")
+        if f:
+            Logger.debug(f"filter where {f}", extra={"job": self})
+            df = df.where(f"{f}")
+        return df
+    def encrypt(self, df: DataFrame) -> DataFrame:
+        encrypted_columns = self.options.job.get_list("encrypted_columns")
+        if encrypted_columns:
+            key = self.dbutils.secrets.get(scope=SECRET_SCOPE, key="encryption-key")
+            assert key, "key not found"
+            for col in encrypted_columns:
+                Logger.debug(f"encrypt column: {col}", extra={"job": self})
+                df = df.withColumn(col, expr(f"aes_encrypt({col}, '{key}')"))
+        return df
+    def restore(self, last_version: Optional[str] = None, last_batch: Optional[str] = None):
+        """
+        Restores the processor to a specific version and batch.
+        Args:
+            last_version (Optional[str]): The last version to restore to. If None, no version restore will be performed.
+            last_batch (Optional[str]): The last batch to restore to. If None, no batch restore will be performed.
+        """
+        if self.persist:
+            if last_version is not None:
+                _last_version = int(last_version)
+                if self.table.get_last_version() > _last_version:
+                    self.table.restore_to_version(_last_version)
+            if last_batch is not None:
+                current_batch = int(last_batch) + 1
+                self.rm_commit(current_batch)
+                assert last_batch == self.table.get_property("fabricks.last_batch")
+                assert self.paths.commits.join(last_batch).exists()
+    def _for_each_batch(self, df: DataFrame, batch: Optional[int] = None):
+        Logger.debug("for each batch starts", extra={"job": self})
+        if batch is not None:
+            Logger.debug(f"batch {batch}", extra={"job": self})
+        df = self.base_transform(df)
+        drift = self.table.schema_drifted(df)
+        if drift:
+            if self.schema_drift:
+                Logger.warning("schema drifted", extra={"job": self})
+                self.update_schema(df=df)
+            else:
+                raise ValueError("schema drifted")
+        self.for_each_batch(df, batch)
+        if batch is not None:
+            self.table.set_property("fabricks.last_batch", batch)
+        self.table.create_restore_point()
+        Logger.debug("for each batch ends", extra={"job": self})
+    def for_each_run(self, schedule: Optional[str] = None):
+        Logger.debug("for each run starts", extra={"job": self})
+        if self.virtual:
+            if self.schema_drift:
+                self.create_or_replace_view()
+        elif self.persist:
+            assert self.table.exists(), "delta table not found"
+            df = self.get_data(self.stream)
+            assert df is not None, "no data"
+            if self.stream:
+                Logger.debug("stream enabled", extra={"job": self})
+                write_stream(
+                    df,
+                    checkpoints_path=self.paths.checkpoints,
+                    func=self._for_each_batch,
+                    timeout=self.timeouts.job,
+                )
+            else:
+                self._for_each_batch(df)
+        else:
+            raise ValueError(f"{self.mode} - not allowed")
+        Logger.debug("for each run ends", extra={"job": self})
+    @flush
+    def run(
+        self,
+        retry: Optional[bool] = True,
+        schedule: Optional[str] = None,
+        schedule_id: Optional[str] = None,
+        invoke: Optional[bool] = True,
+    ):
+        """
+        Run the processor.
+        Args:
+            retry (bool, optional): Whether to retry the execution in case of failure. Defaults to True.
+            schedule (str, optional): The schedule to run the processor on. Defaults to None.
+            schedule_id (str, optional): The ID of the schedule. Defaults to None.
+            invoke (bool, optional): Whether to invoke pre-run and post-run methods. Defaults to True.
+        """
+        last_version = None
+        last_batch = None
+        if self.persist:
+            last_version = self.table.get_property("fabricks.last_version")
+            if last_version is not None:
+                Logger.debug(f"last version {last_version}", extra={"job": self})
+            else:
+                last_version = str(self.table.last_version)
+            last_batch = self.table.get_property("fabricks.last_batch")
+            if last_batch is not None:
+                Logger.debug(f"last batch {last_batch}", extra={"job": self})
+        try:
+            Logger.info("run starts", extra={"job": self})
+            if invoke:
+                self.pre_run_invoke(schedule=schedule)
+            self.pre_run_check()
+            self.for_each_run(schedule=schedule)
+            self.post_run_check()
+            self.post_run_extra_check()
+            if invoke:
+                self.post_run_invoke(schedule=schedule)
+            Logger.info("run ends", extra={"job": self})
+        except CheckWarningException as e:
+            Logger.exception("🙈 (no retry)", extra={"job": self})
+            raise e
+        except InvokerFailedException as e:
+            Logger.exception("🙈 (no retry)", extra={"job": self})
+            raise e
+        except CheckFailedException as e:
+            Logger.exception("🙈 (no retry)", extra={"job": self})
+            self.restore(last_version, last_batch)
+            raise e
+        except AssertionError as e:
+            Logger.exception("🙈", extra={"job": self})
+            self.restore(last_version, last_batch)
+            raise e
+        except Exception as e:
+            if not self.stream or not retry:
+                Logger.exception("🙈 (no retry)", extra={"job": self})
+                self.restore(last_version, last_batch)
+                raise e
+            else:
+                Logger.exception("🙈 (retry)", extra={"job": self})
+                self.run(retry=False, schedule_id=schedule_id)
+    def overwrite(self):
+        """
+        Executes the overwrite job.
+        This method truncates the data, overwrites the schema, and runs the job.
+        If an exception occurs during the execution, it is logged and re-raised.
+        Raises:
+            Exception: If an error occurs during the execution of the job.
+        """
+        try:
+            Logger.warning("overwrite job", extra={"job": self})
+            self.truncate()
+            self.overwrite_schema()
+            self.run(retry=False)
+        except Exception as e:
+            Logger.exception("🙈", extra={"job": self})
+            raise e

fabricks/core/jobs/base/types.py ADDED Viewed

@@ -0,0 +1,191 @@
+from dataclasses import dataclass
+from typing import List, Literal, Optional, TypedDict, Union
+from fabricks.cdc.base.types import ChangeDataCaptures
+from fabricks.context import BRONZE, GOLD, SILVER
+from fabricks.core.parsers import ParserOptions
+from fabricks.utils.fdict import FDict
+from fabricks.utils.path import Path
+TBronze = Literal["bronze"]
+TSilver = Literal["silver"]
+TGold = Literal["gold"]
+TStep = Literal[TBronze, TSilver, TGold]
+Bronzes: List[TBronze] = [b.get("name") for b in BRONZE]
+Silvers: List[TSilver] = [s.get("name") for s in SILVER]
+Golds: List[TGold] = [g.get("name") for g in GOLD]
+Steps: List[TStep] = Bronzes + Silvers + Golds
+BronzeModes = Literal["memory", "append", "register"]
+SilverModes = Literal["memory", "append", "latest", "update", "combine"]
+GoldModes = Literal["memory", "append", "complete", "update", "invoke"]
+Modes = Literal[BronzeModes, SilverModes, GoldModes]
+FileFormats = Literal["json_array", "json", "jsonl", "csv", "parquet", "delta"]
+Operations = Literal["upsert", "reload", "delete"]
+Types = Literal["manual", "default"]
+class SparkOptions(TypedDict):
+    sql: Optional[dict[str, str]]
+    conf: Optional[dict[str, str]]
+class TableOptions(TypedDict):
+    identity: Optional[bool]
+    liquid_clustering: Optional[bool]
+    partition_by: Optional[List[str]]
+    zorder_by: Optional[List[str]]
+    cluster_by: Optional[List[str]]
+    powerbi: Optional[bool]
+    bloomfilter_by: Optional[List[str]]
+    constraints: Optional[dict[str, str]]
+    properties: Optional[dict[str, str]]
+    comment: Optional[str]
+    calculated_columns: Optional[dict[str, str]]
+    retention_days: Optional[int]
+class _InvokeOptions(TypedDict):
+    notebook: str
+    arguments: Optional[dict[str, str]]
+class InvokerOptions(TypedDict):
+    notebook: str
+    arguments: Optional[dict[str, str]]
+    pre_run: Optional[_InvokeOptions]
+    post_run: Optional[_InvokeOptions]
+class CheckOptions(TypedDict):
+    pre_run: Optional[bool]
+    post_run: Optional[bool]
+    min_rows: Optional[int]
+    max_rows: Optional[int]
+    count_must_equal: Optional[str]
+class BronzeOptions(TypedDict):
+    type: Optional[Types]
+    mode: BronzeModes
+    uri: str
+    parser: str
+    source: str
+    keys: Optional[List[str]]
+    # default
+    parents: Optional[List[str]]
+    filter_where: Optional[str]
+    extender: Optional[str]
+    # extra
+    encrypted_columns: Optional[List[str]]
+    calculated_columns: Optional[dict[str, str]]
+    operation: Optional[Operations]
+class SilverOptions(TypedDict):
+    type: Optional[Types]
+    mode: SilverModes
+    change_data_capture: ChangeDataCaptures
+    # default
+    parents: Optional[List[str]]
+    filter_where: Optional[str]
+    extender: Optional[str]
+    # extra
+    deduplicate: Optional[bool]
+    stream: Optional[bool]
+    # else
+    order_duplicate_by: Optional[dict[str, str]]
+class GoldOptions(TypedDict):
+    type: Optional[Types]
+    mode: GoldModes
+    change_data_capture: ChangeDataCaptures
+    update_where: Optional[str]
+    # default
+    parents: Optional[List[str]]
+    # extra
+    deduplicate: Optional[bool]
+    # else
+    table: Optional[str]
+    notebook: Optional[bool]
+    requirements: Optional[bool]
+StepOptions = Union[BronzeOptions, SilverOptions, GoldOptions]
+@dataclass
+class BaseJobConf:
+    step: TStep
+    job_id: str
+    topic: str
+    item: str
+@dataclass
+class JobConfBronze(BaseJobConf):
+    step: TBronze
+    options: BronzeOptions
+    table_options: Optional[TableOptions] = None
+    parser_options: Optional[ParserOptions] = None
+    check_options: Optional[CheckOptions] = None
+    spark_options: Optional[SparkOptions] = None
+    invoker_options: Optional[InvokerOptions] = None
+    tags: Optional[List[str]] = None
+    comment: Optional[str] = None
+@dataclass
+class JobConfSilver(BaseJobConf):
+    step: TSilver
+    options: SilverOptions
+    table_options: Optional[TableOptions] = None
+    check_options: Optional[CheckOptions] = None
+    spark_options: Optional[SparkOptions] = None
+    invoker_options: Optional[InvokerOptions] = None
+    tags: Optional[List[str]] = None
+    comment: Optional[str] = None
+@dataclass
+class JobConfGold(BaseJobConf):
+    step: TGold
+    options: Optional[GoldOptions]
+    table_options: Optional[TableOptions] = None
+    check_options: Optional[CheckOptions] = None
+    spark_options: Optional[SparkOptions] = None
+    invoker_options: Optional[InvokerOptions] = None
+    tags: Optional[List[str]] = None
+    comment: Optional[str] = None
+JobConf = Union[JobConfBronze, JobConfSilver, JobConfGold]
+@dataclass
+class Paths:
+    storage: Path
+    tmp: Path
+    checkpoints: Path
+    commits: Path
+    schema: Path
+    runtime: Path
+@dataclass
+class Options:
+    job: FDict
+    check: FDict
+    table: FDict
+    spark: FDict
+    invoker: FDict
+@dataclass
+class Timeouts:
+    job: int
+    pre_run: int
+    post_run: int