PyPI - datacontract-cli - Versions diffs - 0.10.23__py3-none-any.whl → 0.10.37__py3-none-any.whl - Mend

datacontract-cli 0.10.23py3-none-any.whl → 0.10.37py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

datacontract/__init__.py +13 -0
datacontract/api.py +12 -5
datacontract/catalog/catalog.py +5 -3
datacontract/cli.py +116 -10
datacontract/data_contract.py +143 -65
datacontract/engines/data_contract_checks.py +366 -60
datacontract/engines/data_contract_test.py +50 -4
datacontract/engines/fastjsonschema/check_jsonschema.py +37 -19
datacontract/engines/fastjsonschema/s3/s3_read_files.py +3 -2
datacontract/engines/soda/check_soda_execute.py +22 -3
datacontract/engines/soda/connections/athena.py +79 -0
datacontract/engines/soda/connections/duckdb_connection.py +65 -6
datacontract/engines/soda/connections/kafka.py +4 -2
datacontract/export/avro_converter.py +20 -3
datacontract/export/bigquery_converter.py +1 -1
datacontract/export/dbt_converter.py +36 -7
datacontract/export/dqx_converter.py +126 -0
datacontract/export/duckdb_type_converter.py +57 -0
datacontract/export/excel_exporter.py +923 -0
datacontract/export/exporter.py +3 -0
datacontract/export/exporter_factory.py +17 -1
datacontract/export/great_expectations_converter.py +55 -5
datacontract/export/{html_export.py → html_exporter.py} +31 -20
datacontract/export/markdown_converter.py +134 -5
datacontract/export/mermaid_exporter.py +110 -0
datacontract/export/odcs_v3_exporter.py +187 -145
datacontract/export/protobuf_converter.py +163 -69
datacontract/export/rdf_converter.py +2 -2
datacontract/export/sodacl_converter.py +9 -1
datacontract/export/spark_converter.py +31 -4
datacontract/export/sql_converter.py +6 -2
datacontract/export/sql_type_converter.py +20 -8
datacontract/imports/avro_importer.py +63 -12
datacontract/imports/csv_importer.py +111 -57
datacontract/imports/excel_importer.py +1111 -0
datacontract/imports/importer.py +16 -3
datacontract/imports/importer_factory.py +17 -0
datacontract/imports/json_importer.py +325 -0
datacontract/imports/odcs_importer.py +2 -2
datacontract/imports/odcs_v3_importer.py +351 -151
datacontract/imports/protobuf_importer.py +264 -0
datacontract/imports/spark_importer.py +117 -13
datacontract/imports/sql_importer.py +32 -16
datacontract/imports/unity_importer.py +84 -38
datacontract/init/init_template.py +1 -1
datacontract/integration/datamesh_manager.py +16 -2
datacontract/lint/resolve.py +112 -23
datacontract/lint/schema.py +24 -15
datacontract/model/data_contract_specification/__init__.py +1 -0
datacontract/model/odcs.py +13 -0
datacontract/model/run.py +3 -0
datacontract/output/junit_test_results.py +3 -3
datacontract/schemas/datacontract-1.1.0.init.yaml +1 -1
datacontract/schemas/datacontract-1.2.0.init.yaml +91 -0
datacontract/schemas/datacontract-1.2.0.schema.json +2029 -0
datacontract/schemas/datacontract-1.2.1.init.yaml +91 -0
datacontract/schemas/datacontract-1.2.1.schema.json +2058 -0
datacontract/schemas/odcs-3.0.2.schema.json +2382 -0
datacontract/templates/datacontract.html +54 -3
datacontract/templates/datacontract_odcs.html +685 -0
datacontract/templates/index.html +5 -2
datacontract/templates/partials/server.html +2 -0
datacontract/templates/style/output.css +319 -145
{datacontract_cli-0.10.23.dist-info → datacontract_cli-0.10.37.dist-info}/METADATA +656 -431
datacontract_cli-0.10.37.dist-info/RECORD +119 -0
{datacontract_cli-0.10.23.dist-info → datacontract_cli-0.10.37.dist-info}/WHEEL +1 -1
{datacontract_cli-0.10.23.dist-info → datacontract_cli-0.10.37.dist-info/licenses}/LICENSE +1 -1
datacontract/export/csv_type_converter.py +0 -36
datacontract/lint/lint.py +0 -142
datacontract/lint/linters/description_linter.py +0 -35
datacontract/lint/linters/field_pattern_linter.py +0 -34
datacontract/lint/linters/field_reference_linter.py +0 -48
datacontract/lint/linters/notice_period_linter.py +0 -55
datacontract/lint/linters/quality_schema_linter.py +0 -52
datacontract/lint/linters/valid_constraints_linter.py +0 -100
datacontract/model/data_contract_specification.py +0 -327
datacontract_cli-0.10.23.dist-info/RECORD +0 -113
/datacontract/{lint/linters → output}/__init__.py +0 -0
{datacontract_cli-0.10.23.dist-info → datacontract_cli-0.10.37.dist-info}/entry_points.txt +0 -0
{datacontract_cli-0.10.23.dist-info → datacontract_cli-0.10.37.dist-info}/top_level.txt +0 -0

datacontract/export/dbt_converter.py CHANGED Viewed

@@ -27,7 +27,7 @@ class DbtStageExporter(Exporter):
         )
-def to_dbt_models_yaml(data_contract_spec: DataContractSpecification, server: str = None):
+def to_dbt_models_yaml(data_contract_spec: DataContractSpecification, server: str = None) -> str:
     dbt = {
         "version": 2,
         "models": [],
@@ -102,8 +102,11 @@ def _to_dbt_model(
         "name": model_key,
     }
     model_type = _to_dbt_model_type(model_value.type)
     dbt_model["config"] = {"meta": {"data_contract": data_contract_spec.id}}
-    dbt_model["config"]["materialized"] = model_type
+    if model_type:
+        dbt_model["config"]["materialized"] = model_type
     if data_contract_spec.info.owner is not None:
         dbt_model["config"]["meta"]["owner"] = data_contract_spec.info.owner
@@ -112,9 +115,28 @@ def _to_dbt_model(
         dbt_model["config"]["contract"] = {"enforced": True}
     if model_value.description is not None:
         dbt_model["description"] = model_value.description.strip().replace("\n", " ")
-    columns = _to_columns(data_contract_spec, model_value.fields, _supports_constraints(model_type), adapter_type)
+    # Handle model-level primaryKey (before columns for better YAML ordering)
+    primary_key_columns = []
+    if hasattr(model_value, "primaryKey") and model_value.primaryKey:
+        if isinstance(model_value.primaryKey, list) and len(model_value.primaryKey) > 1:
+            # Multiple columns: use dbt_utils.unique_combination_of_columns
+            dbt_model["data_tests"] = [
+                {"dbt_utils.unique_combination_of_columns": {"combination_of_columns": model_value.primaryKey}}
+            ]
+        elif isinstance(model_value.primaryKey, list) and len(model_value.primaryKey) == 1:
+            # Single column: handle at column level (pass to _to_columns)
+            primary_key_columns = model_value.primaryKey
+        elif isinstance(model_value.primaryKey, str):
+            # Single column as string: handle at column level
+            primary_key_columns = [model_value.primaryKey]
+    columns = _to_columns(
+        data_contract_spec, model_value.fields, _supports_constraints(model_type), adapter_type, primary_key_columns
+    )
     if columns:
         dbt_model["columns"] = columns
     return dbt_model
@@ -123,7 +145,7 @@ def _to_dbt_model_type(model_type):
     # Allowed values: table, view, incremental, ephemeral, materialized view
     # Custom values also possible
     if model_type is None:
-        return "table"
+        return None
     if model_type.lower() == "table":
         return "table"
     if model_type.lower() == "view":
@@ -140,10 +162,13 @@ def _to_columns(
     fields: Dict[str, Field],
     supports_constraints: bool,
     adapter_type: Optional[str],
+    primary_key_columns: Optional[list] = None,
 ) -> list:
     columns = []
+    primary_key_columns = primary_key_columns or []
     for field_name, field in fields.items():
-        column = _to_column(data_contract_spec, field_name, field, supports_constraints, adapter_type)
+        is_primary_key = field_name in primary_key_columns
+        column = _to_column(data_contract_spec, field_name, field, supports_constraints, adapter_type, is_primary_key)
         columns.append(column)
     return columns
@@ -161,6 +186,7 @@ def _to_column(
     field: Field,
     supports_constraints: bool,
     adapter_type: Optional[str],
+    is_primary_key: bool = False,
 ) -> dict:
     column = {"name": field_name}
     adapter_type = adapter_type or "snowflake"
@@ -175,12 +201,15 @@ def _to_column(
         )
     if field.description is not None:
         column["description"] = field.description.strip().replace("\n", " ")
-    if field.required:
+    # Handle required/not_null constraint
+    if field.required or is_primary_key:
         if supports_constraints:
             column.setdefault("constraints", []).append({"type": "not_null"})
         else:
             column["data_tests"].append("not_null")
-    if field.unique:
+    # Handle unique constraint
+    if field.unique or is_primary_key:
         if supports_constraints:
             column.setdefault("constraints", []).append({"type": "unique"})
         else:

datacontract/export/dqx_converter.py ADDED Viewed

@@ -0,0 +1,126 @@
+from typing import Any, Dict, List, Union
+import yaml
+from datacontract.export.exporter import Exporter, _check_models_for_export
+from datacontract.model.data_contract_specification import DataContractSpecification, Field, Model, Quality
+class DqxKeys:
+    CHECK = "check"
+    ARGUMENTS = "arguments"
+    SPECIFICATION = "specification"
+    COL_NAME = "column"
+    COL_NAMES = "for_each_column"
+    COLUMNS = "columns"
+    FUNCTION = "function"
+class DqxExporter(Exporter):
+    """Exporter implementation for converting data contracts to DQX YAML file."""
+    def export(
+        self,
+        data_contract: DataContractSpecification,
+        model: Model,
+        server: str,
+        sql_server_type: str,
+        export_args: Dict[str, Any],
+    ) -> str:
+        """Exports a data contract to DQX format."""
+        model_name, model_value = _check_models_for_export(data_contract, model, self.export_format)
+        return to_dqx_yaml(model_value)
+def to_dqx_yaml(model_value: Model) -> str:
+    """
+    Converts the data contract's quality checks to DQX YAML format.
+    Args:
+        model_value (Model): The data contract to convert.
+    Returns:
+        str: YAML representation of the data contract's quality checks.
+    """
+    extracted_rules = extract_quality_rules(model_value)
+    return yaml.dump(extracted_rules, sort_keys=False, allow_unicode=True, default_flow_style=False)
+def process_quality_rule(rule: Quality, column_name: str) -> Dict[str, Any]:
+    """
+    Processes a single quality rule by injecting the column path into its arguments if absent.
+    Args:
+        rule (Quality): The quality rule to process.
+        column_name (str): The full path to the current column.
+    Returns:
+        dict: The processed quality rule specification.
+    """
+    rule_data = rule.model_extra
+    specification = rule_data[DqxKeys.SPECIFICATION]
+    check = specification[DqxKeys.CHECK]
+    if column_name:
+        arguments = check.setdefault(DqxKeys.ARGUMENTS, {})
+        if (
+            DqxKeys.COL_NAME not in arguments
+            and DqxKeys.COL_NAMES not in arguments
+            and DqxKeys.COLUMNS not in arguments
+        ):
+            if check[DqxKeys.FUNCTION] not in ("is_unique", "foreign_key"):
+                arguments[DqxKeys.COL_NAME] = column_name
+            else:
+                arguments[DqxKeys.COLUMNS] = [column_name]
+    return specification
+def extract_quality_rules(data: Union[Model, Field, Quality], column_path: str = "") -> List[Dict[str, Any]]:
+    """
+    Recursively extracts all quality rules from a data contract structure.
+    Args:
+        data (Union[Model, Field, Quality]): The data contract model, field, or quality rule.
+        column_path (str, optional): The current path in the schema hierarchy. Defaults to "".
+    Returns:
+        List[Dict[str, Any]]: A list of quality rule specifications.
+    """
+    quality_rules = []
+    if isinstance(data, Quality):
+        return [process_quality_rule(data, column_path)]
+    if isinstance(data, (Model, Field)):
+        for key, field in data.fields.items():
+            current_path = build_column_path(column_path, key)
+            if field.fields:
+                # Field is a struct-like object, recurse deeper
+                quality_rules.extend(extract_quality_rules(field, current_path))
+            else:
+                # Process quality rules at leaf fields
+                for rule in field.quality:
+                    quality_rules.append(process_quality_rule(rule, current_path))
+        # Process any quality rules attached directly to this level
+        for rule in data.quality:
+            quality_rules.append(process_quality_rule(rule, column_path))
+    return quality_rules
+def build_column_path(current_path: str, key: str) -> str:
+    """
+    Builds the full column path by concatenating parent path with current key.
+    Args:
+        current_path (str): The current path prefix.
+        key (str): The current field's key.
+    Returns:
+        str: The full path.
+    """
+    return f"{current_path}.{key}" if current_path else key

datacontract/export/duckdb_type_converter.py ADDED Viewed

@@ -0,0 +1,57 @@
+from typing import Dict
+from datacontract.model.data_contract_specification import Field
+# https://duckdb.org/docs/data/csv/overview.html
+# ['SQLNULL', 'BOOLEAN', 'BIGINT', 'DOUBLE', 'TIME', 'DATE', 'TIMESTAMP', 'VARCHAR']
+def convert_to_duckdb_csv_type(field) -> None | str:
+    datacontract_type = field.type
+    if datacontract_type is None:
+        return "VARCHAR"
+    if datacontract_type.lower() in ["string", "varchar", "text"]:
+        return "VARCHAR"
+    if datacontract_type.lower() in ["timestamp", "timestamp_tz"]:
+        return "TIMESTAMP"
+    if datacontract_type.lower() in ["timestamp_ntz"]:
+        return "TIMESTAMP"
+    if datacontract_type.lower() in ["date"]:
+        return "DATE"
+    if datacontract_type.lower() in ["time"]:
+        return "TIME"
+    if datacontract_type.lower() in ["number", "decimal", "numeric"]:
+        # precision and scale not supported by data contract
+        return "VARCHAR"
+    if datacontract_type.lower() in ["float", "double"]:
+        return "DOUBLE"
+    if datacontract_type.lower() in ["integer", "int", "long", "bigint"]:
+        return "BIGINT"
+    if datacontract_type.lower() in ["boolean"]:
+        return "BOOLEAN"
+    if datacontract_type.lower() in ["object", "record", "struct"]:
+        # not supported in CSV
+        return "VARCHAR"
+    if datacontract_type.lower() in ["bytes"]:
+        # not supported in CSV
+        return "VARCHAR"
+    if datacontract_type.lower() in ["array"]:
+        return "VARCHAR"
+    if datacontract_type.lower() in ["null"]:
+        return "SQLNULL"
+    return "VARCHAR"
+def convert_to_duckdb_json_type(field: Field) -> None | str:
+    datacontract_type = field.type
+    if datacontract_type is None:
+        return "VARCHAR"
+    if datacontract_type.lower() in ["array"]:
+        return convert_to_duckdb_json_type(field.items) + "[]"  # type: ignore
+    if datacontract_type.lower() in ["object", "record", "struct"]:
+        return convert_to_duckdb_object(field.fields)
+    return convert_to_duckdb_csv_type(field)
+def convert_to_duckdb_object(fields: Dict[str, Field]):
+    columns = [f'"{x[0]}" {convert_to_duckdb_json_type(x[1])}' for x in fields.items()]
+    return f"STRUCT({', '.join(columns)})"

datacontract-cli 0.10.23__py3-none-any.whl → 0.10.37__py3-none-any.whl

datacontract-cli 0.10.23py3-none-any.whl → 0.10.37py3-none-any.whl