PyPI - acryl-datahub - Versions diffs - 1.3.0.1rc9__py3-none-any.whl → 1.3.1.1__py3-none-any.whl - Mend

acryl-datahub 1.3.0.1rc9py3-none-any.whl → 1.3.1.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of acryl-datahub might be problematic. Click here for more details.

Files changed (263) hide show

{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/METADATA +2550 -2543
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/RECORD +263 -261
datahub/_version.py +1 -1
datahub/api/entities/common/serialized_value.py +2 -2
datahub/api/entities/corpgroup/corpgroup.py +11 -6
datahub/api/entities/corpuser/corpuser.py +11 -11
datahub/api/entities/dataproduct/dataproduct.py +47 -27
datahub/api/entities/dataset/dataset.py +32 -21
datahub/api/entities/external/lake_formation_external_entites.py +5 -6
datahub/api/entities/external/unity_catalog_external_entites.py +5 -7
datahub/api/entities/forms/forms.py +16 -14
datahub/api/entities/structuredproperties/structuredproperties.py +23 -16
datahub/cli/check_cli.py +2 -2
datahub/cli/config_utils.py +3 -3
datahub/cli/lite_cli.py +9 -7
datahub/cli/migrate.py +4 -4
datahub/cli/quickstart_versioning.py +3 -3
datahub/cli/specific/group_cli.py +1 -1
datahub/cli/specific/structuredproperties_cli.py +1 -1
datahub/cli/specific/user_cli.py +1 -1
datahub/configuration/common.py +14 -2
datahub/configuration/connection_resolver.py +2 -2
datahub/configuration/git.py +47 -30
datahub/configuration/import_resolver.py +2 -2
datahub/configuration/kafka.py +4 -3
datahub/configuration/time_window_config.py +26 -26
datahub/configuration/validate_field_deprecation.py +2 -2
datahub/configuration/validate_field_removal.py +2 -2
datahub/configuration/validate_field_rename.py +2 -2
datahub/configuration/validate_multiline_string.py +2 -1
datahub/emitter/kafka_emitter.py +3 -1
datahub/emitter/rest_emitter.py +2 -4
datahub/ingestion/api/decorators.py +1 -1
datahub/ingestion/api/report.py +1 -1
datahub/ingestion/api/sink.py +1 -1
datahub/ingestion/api/source.py +1 -1
datahub/ingestion/glossary/datahub_classifier.py +11 -8
datahub/ingestion/graph/client.py +5 -1
datahub/ingestion/reporting/datahub_ingestion_run_summary_provider.py +1 -1
datahub/ingestion/reporting/file_reporter.py +5 -4
datahub/ingestion/run/pipeline.py +7 -6
datahub/ingestion/run/pipeline_config.py +12 -14
datahub/ingestion/run/sink_callback.py +1 -1
datahub/ingestion/sink/datahub_rest.py +6 -4
datahub/ingestion/source/abs/config.py +19 -19
datahub/ingestion/source/abs/datalake_profiler_config.py +11 -13
datahub/ingestion/source/abs/source.py +2 -2
datahub/ingestion/source/aws/aws_common.py +1 -1
datahub/ingestion/source/aws/glue.py +6 -4
datahub/ingestion/source/aws/sagemaker.py +1 -1
datahub/ingestion/source/azure/azure_common.py +8 -12
datahub/ingestion/source/bigquery_v2/bigquery.py +1 -1
datahub/ingestion/source/bigquery_v2/bigquery_config.py +43 -30
datahub/ingestion/source/bigquery_v2/bigquery_queries.py +1 -1
datahub/ingestion/source/cassandra/cassandra.py +1 -1
datahub/ingestion/source/common/gcp_credentials_config.py +10 -10
datahub/ingestion/source/data_lake_common/path_spec.py +85 -89
datahub/ingestion/source/datahub/config.py +8 -8
datahub/ingestion/source/datahub/datahub_source.py +1 -1
datahub/ingestion/source/dbt/dbt_cloud.py +9 -3
datahub/ingestion/source/dbt/dbt_common.py +39 -37
datahub/ingestion/source/dbt/dbt_core.py +10 -12
datahub/ingestion/source/debug/datahub_debug.py +1 -1
datahub/ingestion/source/delta_lake/config.py +6 -4
datahub/ingestion/source/dremio/dremio_api.py +212 -78
datahub/ingestion/source/dremio/dremio_config.py +10 -6
datahub/ingestion/source/dremio/dremio_entities.py +55 -39
datahub/ingestion/source/dremio/dremio_profiling.py +14 -3
datahub/ingestion/source/dremio/dremio_source.py +24 -26
datahub/ingestion/source/dynamodb/dynamodb.py +1 -1
datahub/ingestion/source/elastic_search.py +110 -32
datahub/ingestion/source/excel/source.py +1 -1
datahub/ingestion/source/feast.py +1 -1
datahub/ingestion/source/file.py +5 -4
datahub/ingestion/source/fivetran/config.py +17 -16
datahub/ingestion/source/fivetran/fivetran.py +2 -2
datahub/ingestion/source/gc/datahub_gc.py +1 -1
datahub/ingestion/source/gcs/gcs_source.py +8 -10
datahub/ingestion/source/ge_profiling_config.py +8 -5
datahub/ingestion/source/grafana/grafana_api.py +2 -2
datahub/ingestion/source/grafana/grafana_config.py +4 -3
datahub/ingestion/source/grafana/grafana_source.py +1 -1
datahub/ingestion/source/grafana/models.py +23 -5
datahub/ingestion/source/hex/api.py +7 -5
datahub/ingestion/source/hex/hex.py +4 -3
datahub/ingestion/source/iceberg/iceberg.py +1 -1
datahub/ingestion/source/iceberg/iceberg_common.py +5 -3
datahub/ingestion/source/identity/azure_ad.py +1 -1
datahub/ingestion/source/identity/okta.py +10 -10
datahub/ingestion/source/kafka/kafka.py +1 -1
datahub/ingestion/source/ldap.py +1 -1
datahub/ingestion/source/looker/looker_common.py +7 -5
datahub/ingestion/source/looker/looker_config.py +21 -20
datahub/ingestion/source/looker/lookml_config.py +47 -47
datahub/ingestion/source/metabase.py +8 -8
datahub/ingestion/source/metadata/business_glossary.py +2 -2
datahub/ingestion/source/metadata/lineage.py +13 -8
datahub/ingestion/source/mlflow.py +1 -1
datahub/ingestion/source/mode.py +6 -4
datahub/ingestion/source/mongodb.py +4 -3
datahub/ingestion/source/neo4j/neo4j_source.py +1 -1
datahub/ingestion/source/nifi.py +17 -23
datahub/ingestion/source/openapi.py +6 -8
datahub/ingestion/source/powerbi/config.py +33 -32
datahub/ingestion/source/powerbi/dataplatform_instance_resolver.py +2 -2
datahub/ingestion/source/powerbi/powerbi.py +1 -1
datahub/ingestion/source/powerbi_report_server/report_server.py +2 -2
datahub/ingestion/source/powerbi_report_server/report_server_domain.py +8 -6
datahub/ingestion/source/preset.py +8 -8
datahub/ingestion/source/pulsar.py +1 -1
datahub/ingestion/source/qlik_sense/data_classes.py +15 -8
datahub/ingestion/source/qlik_sense/qlik_api.py +7 -7
datahub/ingestion/source/qlik_sense/qlik_sense.py +1 -1
datahub/ingestion/source/redshift/config.py +18 -20
datahub/ingestion/source/redshift/redshift.py +2 -2
datahub/ingestion/source/redshift/usage.py +23 -3
datahub/ingestion/source/s3/config.py +83 -62
datahub/ingestion/source/s3/datalake_profiler_config.py +11 -13
datahub/ingestion/source/s3/source.py +8 -5
datahub/ingestion/source/sac/sac.py +5 -4
datahub/ingestion/source/salesforce.py +3 -2
datahub/ingestion/source/schema/json_schema.py +2 -2
datahub/ingestion/source/sigma/data_classes.py +3 -2
datahub/ingestion/source/sigma/sigma.py +1 -1
datahub/ingestion/source/sigma/sigma_api.py +7 -7
datahub/ingestion/source/slack/slack.py +1 -1
datahub/ingestion/source/snaplogic/snaplogic.py +1 -1
datahub/ingestion/source/snowflake/snowflake_assertion.py +1 -1
datahub/ingestion/source/snowflake/snowflake_config.py +35 -31
datahub/ingestion/source/snowflake/snowflake_connection.py +35 -13
datahub/ingestion/source/snowflake/snowflake_lineage_v2.py +3 -3
datahub/ingestion/source/snowflake/snowflake_queries.py +28 -4
datahub/ingestion/source/sql/athena.py +1 -1
datahub/ingestion/source/sql/clickhouse.py +4 -2
datahub/ingestion/source/sql/cockroachdb.py +1 -1
datahub/ingestion/source/sql/druid.py +1 -1
datahub/ingestion/source/sql/hana.py +1 -1
datahub/ingestion/source/sql/hive.py +7 -5
datahub/ingestion/source/sql/hive_metastore.py +1 -1
datahub/ingestion/source/sql/mssql/source.py +13 -6
datahub/ingestion/source/sql/mysql.py +1 -1
datahub/ingestion/source/sql/oracle.py +17 -10
datahub/ingestion/source/sql/postgres.py +2 -2
datahub/ingestion/source/sql/presto.py +1 -1
datahub/ingestion/source/sql/sql_config.py +8 -9
datahub/ingestion/source/sql/sql_generic.py +1 -1
datahub/ingestion/source/sql/teradata.py +1 -1
datahub/ingestion/source/sql/trino.py +1 -1
datahub/ingestion/source/sql/vertica.py +5 -4
datahub/ingestion/source/sql_queries.py +174 -22
datahub/ingestion/source/state/checkpoint.py +2 -2
datahub/ingestion/source/state/entity_removal_state.py +2 -1
datahub/ingestion/source/state/stateful_ingestion_base.py +55 -45
datahub/ingestion/source/state_provider/datahub_ingestion_checkpointing_provider.py +1 -1
datahub/ingestion/source/state_provider/file_ingestion_checkpointing_provider.py +1 -1
datahub/ingestion/source/superset.py +9 -9
datahub/ingestion/source/tableau/tableau.py +14 -16
datahub/ingestion/source/unity/azure_auth_config.py +15 -0
datahub/ingestion/source/unity/config.py +51 -34
datahub/ingestion/source/unity/connection.py +7 -1
datahub/ingestion/source/unity/connection_test.py +1 -1
datahub/ingestion/source/unity/proxy.py +216 -7
datahub/ingestion/source/unity/proxy_types.py +91 -0
datahub/ingestion/source/unity/source.py +29 -3
datahub/ingestion/source/usage/clickhouse_usage.py +1 -1
datahub/ingestion/source/usage/starburst_trino_usage.py +1 -1
datahub/ingestion/source/usage/usage_common.py +5 -3
datahub/ingestion/source_config/csv_enricher.py +7 -6
datahub/ingestion/source_config/operation_config.py +7 -4
datahub/ingestion/source_config/pulsar.py +11 -15
datahub/ingestion/transformer/add_dataset_browse_path.py +1 -1
datahub/ingestion/transformer/add_dataset_dataproduct.py +6 -5
datahub/ingestion/transformer/add_dataset_ownership.py +3 -3
datahub/ingestion/transformer/add_dataset_properties.py +2 -2
datahub/ingestion/transformer/add_dataset_schema_tags.py +2 -2
datahub/ingestion/transformer/add_dataset_schema_terms.py +2 -2
datahub/ingestion/transformer/add_dataset_tags.py +3 -3
datahub/ingestion/transformer/add_dataset_terms.py +3 -3
datahub/ingestion/transformer/dataset_domain.py +3 -3
datahub/ingestion/transformer/dataset_domain_based_on_tags.py +1 -1
datahub/ingestion/transformer/extract_dataset_tags.py +1 -1
datahub/ingestion/transformer/extract_ownership_from_tags.py +1 -1
datahub/ingestion/transformer/mark_dataset_status.py +1 -1
datahub/ingestion/transformer/pattern_cleanup_dataset_usage_user.py +1 -1
datahub/ingestion/transformer/pattern_cleanup_ownership.py +1 -1
datahub/ingestion/transformer/remove_dataset_ownership.py +1 -1
datahub/ingestion/transformer/replace_external_url.py +2 -2
datahub/ingestion/transformer/set_browse_path.py +1 -1
datahub/ingestion/transformer/tags_to_terms.py +1 -1
datahub/lite/duckdb_lite.py +1 -1
datahub/lite/lite_util.py +2 -2
datahub/metadata/_internal_schema_classes.py +62 -2
datahub/metadata/com/linkedin/pegasus2avro/assertion/__init__.py +2 -0
datahub/metadata/schema.avsc +271 -91
datahub/metadata/schemas/ApplicationProperties.avsc +5 -2
datahub/metadata/schemas/AssertionInfo.avsc +48 -5
datahub/metadata/schemas/BusinessAttributeInfo.avsc +8 -4
datahub/metadata/schemas/ChartInfo.avsc +12 -5
datahub/metadata/schemas/ContainerProperties.avsc +12 -5
datahub/metadata/schemas/CorpGroupEditableInfo.avsc +2 -1
datahub/metadata/schemas/CorpGroupInfo.avsc +7 -3
datahub/metadata/schemas/CorpUserInfo.avsc +5 -2
datahub/metadata/schemas/CorpUserSettings.avsc +4 -2
datahub/metadata/schemas/DashboardInfo.avsc +16 -4
datahub/metadata/schemas/DataFlowInfo.avsc +11 -5
datahub/metadata/schemas/DataHubPageModuleProperties.avsc +4 -2
datahub/metadata/schemas/DataJobInfo.avsc +9 -4
datahub/metadata/schemas/DataPlatformInfo.avsc +3 -1
datahub/metadata/schemas/DataPlatformInstanceProperties.avsc +5 -2
datahub/metadata/schemas/DataProductProperties.avsc +5 -2
datahub/metadata/schemas/DataTypeInfo.avsc +5 -0
datahub/metadata/schemas/DatasetKey.avsc +2 -1
datahub/metadata/schemas/DatasetProperties.avsc +12 -5
datahub/metadata/schemas/DomainProperties.avsc +7 -3
datahub/metadata/schemas/EditableContainerProperties.avsc +2 -1
datahub/metadata/schemas/EditableDashboardProperties.avsc +2 -1
datahub/metadata/schemas/EditableDataFlowProperties.avsc +2 -1
datahub/metadata/schemas/EditableDataJobProperties.avsc +2 -1
datahub/metadata/schemas/EditableDatasetProperties.avsc +2 -1
datahub/metadata/schemas/EditableERModelRelationshipProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLFeatureProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLFeatureTableProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLModelGroupProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLModelProperties.avsc +2 -1
datahub/metadata/schemas/EditableNotebookProperties.avsc +2 -1
datahub/metadata/schemas/EditableSchemaMetadata.avsc +5 -3
datahub/metadata/schemas/EntityTypeInfo.avsc +5 -0
datahub/metadata/schemas/GlobalTags.avsc +3 -2
datahub/metadata/schemas/GlossaryNodeInfo.avsc +3 -1
datahub/metadata/schemas/GlossaryTermInfo.avsc +3 -1
datahub/metadata/schemas/InputFields.avsc +3 -2
datahub/metadata/schemas/MLFeatureKey.avsc +3 -1
datahub/metadata/schemas/MLFeatureTableKey.avsc +3 -1
datahub/metadata/schemas/MLModelDeploymentKey.avsc +3 -1
datahub/metadata/schemas/MLModelGroupKey.avsc +3 -1
datahub/metadata/schemas/MLModelKey.avsc +3 -1
datahub/metadata/schemas/MLModelProperties.avsc +4 -2
datahub/metadata/schemas/MLPrimaryKeyKey.avsc +3 -1
datahub/metadata/schemas/MetadataChangeEvent.avsc +124 -50
datahub/metadata/schemas/NotebookInfo.avsc +5 -2
datahub/metadata/schemas/Ownership.avsc +3 -2
datahub/metadata/schemas/QuerySubjects.avsc +1 -1
datahub/metadata/schemas/RoleProperties.avsc +3 -1
datahub/metadata/schemas/SchemaFieldInfo.avsc +3 -1
datahub/metadata/schemas/SchemaMetadata.avsc +3 -2
datahub/metadata/schemas/StructuredPropertyDefinition.avsc +15 -4
datahub/metadata/schemas/TagProperties.avsc +3 -1
datahub/metadata/schemas/TestInfo.avsc +2 -1
datahub/sdk/__init__.py +1 -0
datahub/sdk/_all_entities.py +2 -0
datahub/sdk/search_filters.py +68 -40
datahub/sdk/tag.py +112 -0
datahub/secret/datahub_secret_store.py +7 -4
datahub/secret/file_secret_store.py +1 -1
datahub/sql_parsing/schema_resolver.py +29 -0
datahub/sql_parsing/sql_parsing_aggregator.py +15 -0
datahub/sql_parsing/sqlglot_lineage.py +5 -2
datahub/testing/check_sql_parser_result.py +2 -2
datahub/utilities/ingest_utils.py +1 -1
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/WHEEL +0 -0
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/entry_points.txt +0 -0
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/licenses/LICENSE +0 -0
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/top_level.txt +0 -0

datahub/ingestion/reporting/file_reporter.py CHANGED Viewed

@@ -2,7 +2,7 @@ import json
 import logging
 from typing import Any, Dict
-from pydantic import validator
+from pydantic import field_validator
 from datahub.configuration.common import ConfigModel
 from datahub.ingestion.api.common import PipelineContext
@@ -16,8 +16,9 @@ class FileReporterConfig(ConfigModel):
     filename: str
     format: str = "json"
-    @validator("format")
-    def only_json_supported(cls, v):
+    @field_validator("format", mode="after")
+    @classmethod
+    def only_json_supported(cls, v: str) -> str:
         if v and v.lower() != "json":
             raise ValueError(
                 f"Format {v} is not yet supported. Only json is supported at this time"
@@ -33,7 +34,7 @@ class FileReporter(PipelineRunListener):
         ctx: PipelineContext,
         sink: Sink,
     ) -> PipelineRunListener:
-        reporter_config = FileReporterConfig.parse_obj(config_dict)
+        reporter_config = FileReporterConfig.model_validate(config_dict)
         return cls(reporter_config)
     def __init__(self, reporter_config: FileReporterConfig) -> None:

datahub/ingestion/run/pipeline.py CHANGED Viewed

@@ -215,7 +215,7 @@ class Pipeline:
                     sink_class = sink_registry.get(self.sink_type)
                 with _add_init_error_context(f"configure the sink ({self.sink_type})"):
-                    sink_config = self.config.sink.dict().get("config") or {}
+                    sink_config = self.config.sink.model_dump().get("config") or {}
                     self.sink = exit_stack.enter_context(
                         sink_class.create(sink_config, self.ctx)
                     )
@@ -245,7 +245,7 @@ class Pipeline:
                 ):
                     self.source = inner_exit_stack.enter_context(
                         source_class.create(
-                            self.config.source.dict().get("config", {}), self.ctx
+                            self.config.source.model_dump().get("config", {}), self.ctx
                         )
                     )
                     logger.debug(
@@ -288,7 +288,7 @@ class Pipeline:
             for transformer in self.config.transformers:
                 transformer_type = transformer.type
                 transformer_class = transform_registry.get(transformer_type)
-                transformer_config = transformer.dict().get("config", {})
+                transformer_config = transformer.model_dump().get("config", {})
                 self.transformers.append(
                     transformer_class.create(transformer_config, self.ctx)
                 )
@@ -310,12 +310,12 @@ class Pipeline:
                 reporter.type for reporter in self.config.reporting
             ]:
                 self.config.reporting.append(
-                    ReporterConfig.parse_obj({"type": "datahub"})
+                    ReporterConfig.model_validate({"type": "datahub"})
                 )
         elif report_to:
             # we assume this is a file name, and add the file reporter
             self.config.reporting.append(
-                ReporterConfig.parse_obj(
+                ReporterConfig.model_validate(
                     {"type": "file", "config": {"filename": report_to}}
                 )
             )
@@ -323,7 +323,7 @@ class Pipeline:
         for reporter in self.config.reporting:
             reporter_type = reporter.type
             reporter_class = reporting_provider_registry.get(reporter_type)
-            reporter_config_dict = reporter.dict().get("config", {})
+            reporter_config_dict = reporter.model_dump().get("config", {})
             try:
                 self.reporters.append(
                     reporter_class.create(
@@ -558,6 +558,7 @@ class Pipeline:
                 self.process_commits()
                 self.final_status = PipelineStatus.COMPLETED
             except (SystemExit, KeyboardInterrupt):
                 self.final_status = PipelineStatus.CANCELLED
                 logger.error("Caught error", exc_info=True)

datahub/ingestion/run/pipeline_config.py CHANGED Viewed

@@ -2,9 +2,9 @@ import datetime
 import logging
 import random
 import string
-from typing import Any, Dict, List, Optional
+from typing import Dict, List, Optional
-from pydantic import Field, validator
+from pydantic import Field, model_validator
 from datahub.configuration.common import ConfigModel, DynamicTypedConfig, HiddenFromDocs
 from datahub.ingestion.graph.config import DatahubClientConfig
@@ -96,30 +96,28 @@ class PipelineConfig(ConfigModel):
         None  # the raw dict that was parsed to construct this config
     )
-    @validator("run_id", pre=True, always=True)
-    def run_id_should_be_semantic(
-        cls, v: Optional[str], values: Dict[str, Any], **kwargs: Any
-    ) -> str:
-        if v == DEFAULT_RUN_ID:
+    @model_validator(mode="after")
+    def run_id_should_be_semantic(self) -> "PipelineConfig":
+        if self.run_id == DEFAULT_RUN_ID:
             source_type = None
-            if "source" in values and hasattr(values["source"], "type"):
-                source_type = values["source"].type
+            if hasattr(self.source, "type"):
+                source_type = self.source.type
-            return _generate_run_id(source_type)
+            self.run_id = _generate_run_id(source_type)
         else:
-            assert v is not None
-            return v
+            assert self.run_id is not None
+        return self
     @classmethod
     def from_dict(
         cls, resolved_dict: dict, raw_dict: Optional[dict] = None
     ) -> "PipelineConfig":
-        config = cls.parse_obj(resolved_dict)
+        config = cls.model_validate(resolved_dict)
         config._raw_dict = raw_dict
         return config
     def get_raw_dict(self) -> Dict:
         result = self._raw_dict
         if result is None:
-            result = self.dict()
+            result = self.model_dump()
         return result

datahub/ingestion/run/sink_callback.py CHANGED Viewed

@@ -39,7 +39,7 @@ class LoggingCallback(WriteCallback):
 class DeadLetterQueueCallback(WriteCallback, Closeable):
     def __init__(self, ctx: PipelineContext, config: Optional[FileSinkConfig]) -> None:
         if not config:
-            config = FileSinkConfig.parse_obj({"filename": "failed_events.json"})
+            config = FileSinkConfig.model_validate({"filename": "failed_events.json"})
         self.file_sink: FileSink = FileSink(ctx, config)
         self.file_sink_lock = threading.Lock()
         self.logging_callback = LoggingCallback(name="failure-queue")

datahub/ingestion/sink/datahub_rest.py CHANGED Viewed

@@ -9,6 +9,7 @@ from enum import auto
 from typing import List, Optional, Tuple, Union
 import pydantic
+from pydantic import field_validator
 from datahub.configuration.common import (
     ConfigEnum,
@@ -63,8 +64,8 @@ class RestSinkMode(ConfigEnum):
     ASYNC_BATCH = auto()
-_DEFAULT_REST_SINK_MODE = pydantic.parse_obj_as(
-    RestSinkMode, get_rest_sink_default_mode() or RestSinkMode.ASYNC_BATCH
+_DEFAULT_REST_SINK_MODE = pydantic.TypeAdapter(RestSinkMode).validate_python(
+    get_rest_sink_default_mode() or RestSinkMode.ASYNC_BATCH
 )
@@ -80,8 +81,9 @@ class DatahubRestSinkConfig(DatahubClientConfig):
     # Only applies in async batch mode.
     max_per_batch: pydantic.PositiveInt = 100
-    @pydantic.validator("max_per_batch", always=True)
-    def validate_max_per_batch(cls, v):
+    @field_validator("max_per_batch", mode="before")
+    @classmethod
+    def validate_max_per_batch(cls, v: int) -> int:
         if v > BATCH_INGEST_MAX_PAYLOAD_LENGTH:
             raise ValueError(
                 f"max_per_batch must be less than or equal to {BATCH_INGEST_MAX_PAYLOAD_LENGTH}"

datahub/ingestion/source/abs/config.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import logging
 from typing import Any, Dict, List, Optional, Union
-import pydantic
+from pydantic import ValidationInfo, field_validator, model_validator
 from pydantic.fields import Field
 from datahub.configuration.common import AllowDenyPattern
@@ -105,9 +105,10 @@ class DataLakeSourceConfig(
             self.profiling.operation_config
         )
-    @pydantic.validator("path_specs", always=True)
+    @field_validator("path_specs", mode="before")
+    @classmethod
     def check_path_specs_and_infer_platform(
-        cls, path_specs: List[PathSpec], values: Dict
+        cls, path_specs: List[PathSpec], info: ValidationInfo
     ) -> List[PathSpec]:
         if len(path_specs) == 0:
             raise ValueError("path_specs must not be empty")
@@ -124,38 +125,37 @@ class DataLakeSourceConfig(
         # Ensure abs configs aren't used for file sources.
         if guessed_platform != "abs" and (
-            values.get("use_abs_container_properties")
-            or values.get("use_abs_blob_tags")
-            or values.get("use_abs_blob_properties")
+            info.data.get("use_abs_container_properties")
+            or info.data.get("use_abs_blob_tags")
+            or info.data.get("use_abs_blob_properties")
         ):
             raise ValueError(
                 "Cannot grab abs blob/container tags when platform is not abs. Remove the flag or use abs."
             )
         # Infer platform if not specified.
-        if values.get("platform") and values["platform"] != guessed_platform:
+        if info.data.get("platform") and info.data["platform"] != guessed_platform:
             raise ValueError(
-                f"All path_specs belong to {guessed_platform} platform, but platform is set to {values['platform']}"
+                f"All path_specs belong to {guessed_platform} platform, but platform is set to {info.data['platform']}"
             )
         else:
             logger.debug(f'Setting config "platform": {guessed_platform}')
-            values["platform"] = guessed_platform
+            info.data["platform"] = guessed_platform
         return path_specs
-    @pydantic.validator("platform", always=True)
-    def platform_not_empty(cls, platform: Any, values: dict) -> str:
-        inferred_platform = values.get("platform")  # we may have inferred it above
+    @field_validator("platform", mode="before")
+    @classmethod
+    def platform_not_empty(cls, platform: Any, info: ValidationInfo) -> str:
+        inferred_platform = info.data.get("platform")  # we may have inferred it above
         platform = platform or inferred_platform
         if not platform:
             raise ValueError("platform must not be empty")
         return platform
-    @pydantic.root_validator(skip_on_failure=True)
-    def ensure_profiling_pattern_is_passed_to_profiling(
-        cls, values: Dict[str, Any]
-    ) -> Dict[str, Any]:
-        profiling: Optional[DataLakeProfilerConfig] = values.get("profiling")
+    @model_validator(mode="after")
+    def ensure_profiling_pattern_is_passed_to_profiling(self) -> "DataLakeSourceConfig":
+        profiling = self.profiling
         if profiling is not None and profiling.enabled:
-            profiling._allow_deny_patterns = values["profile_patterns"]
-        return values
+            profiling._allow_deny_patterns = self.profile_patterns
+        return self

datahub/ingestion/source/abs/datalake_profiler_config.py CHANGED Viewed

@@ -1,6 +1,7 @@
-from typing import Any, Dict, Optional
+from typing import Optional
 import pydantic
+from pydantic import model_validator
 from pydantic.fields import Field
 from datahub.configuration import ConfigModel
@@ -72,21 +73,18 @@ class DataLakeProfilerConfig(ConfigModel):
         description="Whether to profile for the sample values for all columns.",
     )
-    @pydantic.root_validator(skip_on_failure=True)
-    def ensure_field_level_settings_are_normalized(
-        cls: "DataLakeProfilerConfig", values: Dict[str, Any]
-    ) -> Dict[str, Any]:
-        max_num_fields_to_profile_key = "max_number_of_fields_to_profile"
-        max_num_fields_to_profile = values.get(max_num_fields_to_profile_key)
+    @model_validator(mode="after")
+    def ensure_field_level_settings_are_normalized(self) -> "DataLakeProfilerConfig":
+        max_num_fields_to_profile = self.max_number_of_fields_to_profile
         # Disable all field-level metrics.
-        if values.get("profile_table_level_only"):
-            for field_level_metric in cls.__fields__:
-                if field_level_metric.startswith("include_field_"):
-                    values.setdefault(field_level_metric, False)
+        if self.profile_table_level_only:
+            for field_name in self.__fields__:
+                if field_name.startswith("include_field_"):
+                    setattr(self, field_name, False)
             assert max_num_fields_to_profile is None, (
-                f"{max_num_fields_to_profile_key} should be set to None"
+                "max_number_of_fields_to_profile should be set to None"
             )
-        return values
+        return self

datahub/ingestion/source/abs/source.py CHANGED Viewed

@@ -149,7 +149,7 @@ class ABSSource(StatefulIngestionSourceBase):
         self.report = DataLakeSourceReport()
         self.profiling_times_taken = []
         config_report = {
-            config_option: config.dict().get(config_option)
+            config_option: config.model_dump().get(config_option)
             for config_option in config_options_to_report
         }
         config_report = {
@@ -164,7 +164,7 @@ class ABSSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = DataLakeSourceConfig.parse_obj(config_dict)
+        config = DataLakeSourceConfig.model_validate(config_dict)
         return cls(config, ctx)

datahub/ingestion/source/aws/aws_common.py CHANGED Viewed

@@ -246,7 +246,7 @@ def assume_role(
         **dict(
             RoleSessionName="DatahubIngestionSource",
         ),
-        **{k: v for k, v in role.dict().items() if v is not None},
+        **{k: v for k, v in role.model_dump().items() if v is not None},
     }
     assumed_role_object = sts_client.assume_role(

datahub/ingestion/source/aws/glue.py CHANGED Viewed

@@ -21,7 +21,7 @@ from urllib.parse import urlparse
 import botocore.exceptions
 import yaml
-from pydantic import validator
+from pydantic import field_validator
 from pydantic.fields import Field
 from datahub.api.entities.dataset.dataset import Dataset
@@ -221,7 +221,8 @@ class GlueSourceConfig(
     def lakeformation_client(self):
         return self.get_lakeformation_client()
-    @validator("glue_s3_lineage_direction")
+    @field_validator("glue_s3_lineage_direction", mode="after")
+    @classmethod
     def check_direction(cls, v: str) -> str:
         if v.lower() not in ["upstream", "downstream"]:
             raise ValueError(
@@ -229,7 +230,8 @@ class GlueSourceConfig(
             )
         return v.lower()
-    @validator("platform")
+    @field_validator("platform", mode="after")
+    @classmethod
     def platform_validator(cls, v: str) -> str:
         if not v or v in VALID_PLATFORMS:
             return v
@@ -473,7 +475,7 @@ class GlueSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = GlueSourceConfig.parse_obj(config_dict)
+        config = GlueSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     @property

datahub/ingestion/source/aws/sagemaker.py CHANGED Viewed

@@ -66,7 +66,7 @@ class SagemakerSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = SagemakerSourceConfig.parse_obj(config_dict)
+        config = SagemakerSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/azure/azure_common.py CHANGED Viewed

@@ -1,9 +1,9 @@
-from typing import Dict, Optional, Union
+from typing import Optional, Union
 from azure.identity import ClientSecretCredential
 from azure.storage.blob import BlobServiceClient
 from azure.storage.filedatalake import DataLakeServiceClient, FileSystemClient
-from pydantic import Field, root_validator
+from pydantic import Field, model_validator
 from datahub.configuration import ConfigModel
 from datahub.configuration.common import ConfigurationError
@@ -81,18 +81,14 @@ class AzureConnectionConfig(ConfigModel):
             )
         return self.sas_token if self.sas_token is not None else self.account_key
-    @root_validator(skip_on_failure=True)
-    def _check_credential_values(cls, values: Dict) -> Dict:
+    @model_validator(mode="after")
+    def _check_credential_values(self) -> "AzureConnectionConfig":
         if (
-            values.get("account_key")
-            or values.get("sas_token")
-            or (
-                values.get("client_id")
-                and values.get("client_secret")
-                and values.get("tenant_id")
-            )
+            self.account_key
+            or self.sas_token
+            or (self.client_id and self.client_secret and self.tenant_id)
         ):
-            return values
+            return self
         raise ConfigurationError(
             "credentials missing, requires one combination of account_key or sas_token or (client_id and client_secret and tenant_id)"
         )

datahub/ingestion/source/bigquery_v2/bigquery.py CHANGED Viewed

@@ -211,7 +211,7 @@ class BigqueryV2Source(StatefulIngestionSourceBase, TestableSource):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> "BigqueryV2Source":
-        config = BigQueryV2Config.parse_obj(config_dict)
+        config = BigQueryV2Config.model_validate(config_dict)
         return cls(ctx, config)
     @staticmethod

datahub/ingestion/source/bigquery_v2/bigquery_config.py CHANGED Viewed

@@ -2,9 +2,16 @@ import logging
 import re
 from copy import deepcopy
 from datetime import timedelta
-from typing import Dict, List, Optional, Union
-from pydantic import Field, PositiveInt, PrivateAttr, root_validator, validator
+from typing import Any, Dict, List, Optional, Union
+from pydantic import (
+    Field,
+    PositiveInt,
+    PrivateAttr,
+    ValidationInfo,
+    field_validator,
+    model_validator,
+)
 from datahub.configuration.common import AllowDenyPattern, ConfigModel, HiddenFromDocs
 from datahub.configuration.env_vars import get_bigquery_schema_parallelism
@@ -63,8 +70,9 @@ class BigQueryBaseConfig(ConfigModel):
         description="The regex pattern to match sharded tables and group as one table. This is a very low level config parameter, only change if you know what you are doing, ",
     )
-    @validator("sharded_table_pattern")
-    def sharded_table_pattern_is_a_valid_regexp(cls, v):
+    @field_validator("sharded_table_pattern", mode="after")
+    @classmethod
+    def sharded_table_pattern_is_a_valid_regexp(cls, v: str) -> str:
         try:
             re.compile(v)
         except Exception as e:
@@ -73,7 +81,8 @@ class BigQueryBaseConfig(ConfigModel):
             ) from e
         return v
-    @root_validator(pre=True)
+    @model_validator(mode="before")
+    @classmethod
     def project_id_backward_compatibility_configs_set(cls, values: Dict) -> Dict:
         # Create a copy to avoid modifying the input dictionary, preventing state contamination in tests
         values = deepcopy(values)
@@ -188,12 +197,11 @@ class BigQueryFilterConfig(SQLFilterConfig):
         default=AllowDenyPattern.allow_all(),
     )
-    @root_validator(pre=False, skip_on_failure=True)
-    def backward_compatibility_configs_set(cls, values: Dict) -> Dict:
-        # Create a copy to avoid modifying the input dictionary, preventing state contamination in tests
-        values = deepcopy(values)
-        dataset_pattern: Optional[AllowDenyPattern] = values.get("dataset_pattern")
-        schema_pattern = values.get("schema_pattern")
+    @model_validator(mode="after")
+    def backward_compatibility_configs_set(self) -> Any:
+        dataset_pattern = self.dataset_pattern
+        schema_pattern = self.schema_pattern
         if (
             dataset_pattern == AllowDenyPattern.allow_all()
             and schema_pattern != AllowDenyPattern.allow_all()
@@ -202,7 +210,7 @@ class BigQueryFilterConfig(SQLFilterConfig):
                 "dataset_pattern is not set but schema_pattern is set, using schema_pattern as dataset_pattern. "
                 "schema_pattern will be deprecated, please use dataset_pattern instead."
             )
-            values["dataset_pattern"] = schema_pattern
+            self.dataset_pattern = schema_pattern
             dataset_pattern = schema_pattern
         elif (
             dataset_pattern != AllowDenyPattern.allow_all()
@@ -213,7 +221,7 @@ class BigQueryFilterConfig(SQLFilterConfig):
                 " please use dataset_pattern only."
             )
-        match_fully_qualified_names = values.get("match_fully_qualified_names")
+        match_fully_qualified_names = self.match_fully_qualified_names
         if (
             dataset_pattern is not None
@@ -243,7 +251,7 @@ class BigQueryFilterConfig(SQLFilterConfig):
                     " of the form `<project_id>.<dataset_name>`."
                 )
-        return values
+        return self
 class BigQueryIdentifierConfig(
@@ -478,7 +486,8 @@ class BigQueryV2Config(
     _include_view_column_lineage = pydantic_removed_field("include_view_column_lineage")
     _lineage_parse_view_ddl = pydantic_removed_field("lineage_parse_view_ddl")
-    @root_validator(pre=True)
+    @model_validator(mode="before")
+    @classmethod
     def set_include_schema_metadata(cls, values: Dict) -> Dict:
         # Create a copy to avoid modifying the input dictionary, preventing state contamination in tests
         values = deepcopy(values)
@@ -498,30 +507,33 @@ class BigQueryV2Config(
         return values
-    @root_validator(skip_on_failure=True)
+    @model_validator(mode="before")
+    @classmethod
     def profile_default_settings(cls, values: Dict) -> Dict:
         # Create a copy to avoid modifying the input dictionary, preventing state contamination in tests
         values = deepcopy(values)
         # Extra default SQLAlchemy option for better connection pooling and threading.
         # https://docs.sqlalchemy.org/en/14/core/pooling.html#sqlalchemy.pool.QueuePool.params.max_overflow
-        values["options"].setdefault("max_overflow", -1)
+        values.setdefault("options", {}).setdefault("max_overflow", -1)
         return values
-    @validator("bigquery_audit_metadata_datasets")
+    @field_validator("bigquery_audit_metadata_datasets", mode="after")
+    @classmethod
     def validate_bigquery_audit_metadata_datasets(
-        cls, v: Optional[List[str]], values: Dict
+        cls, v: Optional[List[str]], info: ValidationInfo
     ) -> Optional[List[str]]:
-        if values.get("use_exported_bigquery_audit_metadata"):
+        if info.data.get("use_exported_bigquery_audit_metadata"):
             assert v and len(v) > 0, (
                 "`bigquery_audit_metadata_datasets` should be set if using `use_exported_bigquery_audit_metadata: True`."
             )
         return v
-    @validator("upstream_lineage_in_report")
-    def validate_upstream_lineage_in_report(cls, v: bool, values: Dict) -> bool:
-        if v and values.get("use_queries_v2", True):
+    @field_validator("upstream_lineage_in_report", mode="after")
+    @classmethod
+    def validate_upstream_lineage_in_report(cls, v: bool, info: ValidationInfo) -> bool:
+        if v and info.data.get("use_queries_v2", True):
             logging.warning(
                 "`upstream_lineage_in_report` is enabled but will be ignored because `use_queries_v2` is enabled."
                 "This debugging feature only works with the legacy lineage approach (`use_queries_v2: false`)."
@@ -529,11 +541,12 @@ class BigQueryV2Config(
         return v
-    @root_validator(pre=False, skip_on_failure=True)
-    def validate_queries_v2_stateful_ingestion(cls, values: Dict) -> Dict:
-        if values.get("use_queries_v2"):
-            if values.get("enable_stateful_lineage_ingestion") or values.get(
-                "enable_stateful_usage_ingestion"
+    @model_validator(mode="after")
+    def validate_queries_v2_stateful_ingestion(self) -> "BigQueryV2Config":
+        if self.use_queries_v2:
+            if (
+                self.enable_stateful_lineage_ingestion
+                or self.enable_stateful_usage_ingestion
             ):
                 logger.warning(
                     "enable_stateful_lineage_ingestion and enable_stateful_usage_ingestion are deprecated "
@@ -541,7 +554,7 @@ class BigQueryV2Config(
                     "For queries v2, use enable_stateful_time_window instead to enable stateful ingestion "
                     "for the unified time window extraction (lineage + usage + operations + queries)."
                 )
-        return values
+        return self
     def get_table_pattern(self, pattern: List[str]) -> str:
         return "|".join(pattern) if pattern else ""

datahub/ingestion/source/bigquery_v2/bigquery_queries.py CHANGED Viewed

@@ -80,7 +80,7 @@ class BigQueryQueriesSource(Source):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> Self:
-        config = BigQueryQueriesSourceConfig.parse_obj(config_dict)
+        config = BigQueryQueriesSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_workunits_internal(self) -> Iterable[MetadataWorkUnit]:

datahub/ingestion/source/cassandra/cassandra.py CHANGED Viewed

@@ -109,7 +109,7 @@ class CassandraSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = CassandraSourceConfig.parse_obj(config_dict)
+        config = CassandraSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_platform(self) -> str:

datahub/ingestion/source/common/gcp_credentials_config.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import json
 import tempfile
-from typing import Any, Dict, Optional
+from typing import Dict, Optional
-from pydantic import Field, root_validator
+from pydantic import Field, model_validator
 from datahub.configuration import ConfigModel
 from datahub.configuration.validate_multiline_string import pydantic_multiline_string
@@ -37,16 +37,16 @@ class GCPCredential(ConfigModel):
     _fix_private_key_newlines = pydantic_multiline_string("private_key")
-    @root_validator(skip_on_failure=True)
-    def validate_config(cls, values: Dict[str, Any]) -> Dict[str, Any]:
-        if values.get("client_x509_cert_url") is None:
-            values["client_x509_cert_url"] = (
-                f"https://www.googleapis.com/robot/v1/metadata/x509/{values['client_email']}"
+    @model_validator(mode="after")
+    def validate_config(self) -> "GCPCredential":
+        if self.client_x509_cert_url is None:
+            self.client_x509_cert_url = (
+                f"https://www.googleapis.com/robot/v1/metadata/x509/{self.client_email}"
             )
-        return values
+        return self
     def create_credential_temp_file(self, project_id: Optional[str] = None) -> str:
-        configs = self.dict()
+        configs = self.model_dump()
         if project_id:
             configs["project_id"] = project_id
         with tempfile.NamedTemporaryFile(delete=False) as fp:
@@ -55,7 +55,7 @@ class GCPCredential(ConfigModel):
             return fp.name
     def to_dict(self, project_id: Optional[str] = None) -> Dict[str, str]:
-        configs = self.dict()
+        configs = self.model_dump()
         if project_id:
             configs["project_id"] = project_id
         return configs

acryl-datahub 1.3.0.1rc9__py3-none-any.whl → 1.3.1.1__py3-none-any.whl

Potentially problematic release.

acryl-datahub 1.3.0.1rc9py3-none-any.whl → 1.3.1.1py3-none-any.whl