PyPI - acryl-datahub - Versions diffs - 1.3.1__py3-none-any.whl → 1.3.1.1__py3-none-any.whl - Mend

acryl-datahub 1.3.1py3-none-any.whl → 1.3.1.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of acryl-datahub might be problematic. Click here for more details.

Files changed (203) hide show

{acryl_datahub-1.3.1.dist-info → acryl_datahub-1.3.1.1.dist-info}/METADATA +2582 -2582
{acryl_datahub-1.3.1.dist-info → acryl_datahub-1.3.1.1.dist-info}/RECORD +203 -201
datahub/_version.py +1 -1
datahub/api/entities/common/serialized_value.py +2 -2
datahub/api/entities/corpgroup/corpgroup.py +11 -6
datahub/api/entities/corpuser/corpuser.py +11 -11
datahub/api/entities/dataproduct/dataproduct.py +47 -27
datahub/api/entities/dataset/dataset.py +32 -21
datahub/api/entities/external/lake_formation_external_entites.py +5 -6
datahub/api/entities/external/unity_catalog_external_entites.py +5 -7
datahub/api/entities/forms/forms.py +16 -14
datahub/api/entities/structuredproperties/structuredproperties.py +23 -16
datahub/cli/check_cli.py +2 -2
datahub/cli/config_utils.py +3 -3
datahub/cli/lite_cli.py +9 -7
datahub/cli/migrate.py +4 -4
datahub/cli/quickstart_versioning.py +3 -3
datahub/cli/specific/group_cli.py +1 -1
datahub/cli/specific/structuredproperties_cli.py +1 -1
datahub/cli/specific/user_cli.py +1 -1
datahub/configuration/common.py +14 -2
datahub/configuration/connection_resolver.py +2 -2
datahub/configuration/git.py +47 -30
datahub/configuration/import_resolver.py +2 -2
datahub/configuration/kafka.py +4 -3
datahub/configuration/time_window_config.py +26 -26
datahub/configuration/validate_field_deprecation.py +2 -2
datahub/configuration/validate_field_removal.py +2 -2
datahub/configuration/validate_field_rename.py +2 -2
datahub/configuration/validate_multiline_string.py +2 -1
datahub/emitter/kafka_emitter.py +3 -1
datahub/emitter/rest_emitter.py +2 -4
datahub/ingestion/api/decorators.py +1 -1
datahub/ingestion/api/report.py +1 -1
datahub/ingestion/api/sink.py +1 -1
datahub/ingestion/api/source.py +1 -1
datahub/ingestion/glossary/datahub_classifier.py +11 -8
datahub/ingestion/reporting/datahub_ingestion_run_summary_provider.py +1 -1
datahub/ingestion/reporting/file_reporter.py +5 -4
datahub/ingestion/run/pipeline.py +6 -6
datahub/ingestion/run/pipeline_config.py +12 -14
datahub/ingestion/run/sink_callback.py +1 -1
datahub/ingestion/sink/datahub_rest.py +6 -4
datahub/ingestion/source/abs/config.py +19 -19
datahub/ingestion/source/abs/datalake_profiler_config.py +11 -13
datahub/ingestion/source/abs/source.py +2 -2
datahub/ingestion/source/aws/aws_common.py +1 -1
datahub/ingestion/source/aws/glue.py +6 -4
datahub/ingestion/source/aws/sagemaker.py +1 -1
datahub/ingestion/source/azure/azure_common.py +8 -12
datahub/ingestion/source/bigquery_v2/bigquery.py +1 -1
datahub/ingestion/source/bigquery_v2/bigquery_config.py +43 -30
datahub/ingestion/source/bigquery_v2/bigquery_queries.py +1 -1
datahub/ingestion/source/cassandra/cassandra.py +1 -1
datahub/ingestion/source/common/gcp_credentials_config.py +10 -10
datahub/ingestion/source/data_lake_common/path_spec.py +85 -89
datahub/ingestion/source/datahub/config.py +8 -8
datahub/ingestion/source/datahub/datahub_source.py +1 -1
datahub/ingestion/source/dbt/dbt_cloud.py +9 -3
datahub/ingestion/source/dbt/dbt_common.py +39 -37
datahub/ingestion/source/dbt/dbt_core.py +10 -12
datahub/ingestion/source/debug/datahub_debug.py +1 -1
datahub/ingestion/source/delta_lake/config.py +6 -4
datahub/ingestion/source/dremio/dremio_config.py +10 -6
datahub/ingestion/source/dremio/dremio_source.py +15 -15
datahub/ingestion/source/dynamodb/dynamodb.py +1 -1
datahub/ingestion/source/elastic_search.py +4 -3
datahub/ingestion/source/excel/source.py +1 -1
datahub/ingestion/source/feast.py +1 -1
datahub/ingestion/source/file.py +5 -4
datahub/ingestion/source/fivetran/config.py +17 -16
datahub/ingestion/source/fivetran/fivetran.py +2 -2
datahub/ingestion/source/gc/datahub_gc.py +1 -1
datahub/ingestion/source/gcs/gcs_source.py +8 -10
datahub/ingestion/source/ge_profiling_config.py +8 -5
datahub/ingestion/source/grafana/grafana_api.py +2 -2
datahub/ingestion/source/grafana/grafana_config.py +4 -3
datahub/ingestion/source/grafana/grafana_source.py +1 -1
datahub/ingestion/source/grafana/models.py +23 -5
datahub/ingestion/source/hex/api.py +7 -5
datahub/ingestion/source/hex/hex.py +4 -3
datahub/ingestion/source/iceberg/iceberg.py +1 -1
datahub/ingestion/source/iceberg/iceberg_common.py +5 -3
datahub/ingestion/source/identity/azure_ad.py +1 -1
datahub/ingestion/source/identity/okta.py +10 -10
datahub/ingestion/source/kafka/kafka.py +1 -1
datahub/ingestion/source/ldap.py +1 -1
datahub/ingestion/source/looker/looker_common.py +7 -5
datahub/ingestion/source/looker/looker_config.py +21 -20
datahub/ingestion/source/looker/lookml_config.py +47 -47
datahub/ingestion/source/metabase.py +8 -8
datahub/ingestion/source/metadata/business_glossary.py +2 -2
datahub/ingestion/source/metadata/lineage.py +13 -8
datahub/ingestion/source/mlflow.py +1 -1
datahub/ingestion/source/mode.py +6 -4
datahub/ingestion/source/mongodb.py +4 -3
datahub/ingestion/source/neo4j/neo4j_source.py +1 -1
datahub/ingestion/source/nifi.py +17 -23
datahub/ingestion/source/openapi.py +6 -8
datahub/ingestion/source/powerbi/config.py +33 -32
datahub/ingestion/source/powerbi/dataplatform_instance_resolver.py +2 -2
datahub/ingestion/source/powerbi/powerbi.py +1 -1
datahub/ingestion/source/powerbi_report_server/report_server.py +2 -2
datahub/ingestion/source/powerbi_report_server/report_server_domain.py +8 -6
datahub/ingestion/source/preset.py +8 -8
datahub/ingestion/source/pulsar.py +1 -1
datahub/ingestion/source/qlik_sense/data_classes.py +15 -8
datahub/ingestion/source/qlik_sense/qlik_api.py +7 -7
datahub/ingestion/source/qlik_sense/qlik_sense.py +1 -1
datahub/ingestion/source/redshift/config.py +18 -20
datahub/ingestion/source/redshift/redshift.py +2 -2
datahub/ingestion/source/redshift/usage.py +23 -3
datahub/ingestion/source/s3/config.py +83 -62
datahub/ingestion/source/s3/datalake_profiler_config.py +11 -13
datahub/ingestion/source/s3/source.py +8 -5
datahub/ingestion/source/sac/sac.py +5 -4
datahub/ingestion/source/salesforce.py +3 -2
datahub/ingestion/source/schema/json_schema.py +2 -2
datahub/ingestion/source/sigma/data_classes.py +3 -2
datahub/ingestion/source/sigma/sigma.py +1 -1
datahub/ingestion/source/sigma/sigma_api.py +7 -7
datahub/ingestion/source/slack/slack.py +1 -1
datahub/ingestion/source/snaplogic/snaplogic.py +1 -1
datahub/ingestion/source/snowflake/snowflake_assertion.py +1 -1
datahub/ingestion/source/snowflake/snowflake_config.py +35 -31
datahub/ingestion/source/snowflake/snowflake_connection.py +35 -13
datahub/ingestion/source/snowflake/snowflake_lineage_v2.py +3 -3
datahub/ingestion/source/snowflake/snowflake_queries.py +1 -1
datahub/ingestion/source/sql/athena.py +1 -1
datahub/ingestion/source/sql/clickhouse.py +4 -2
datahub/ingestion/source/sql/cockroachdb.py +1 -1
datahub/ingestion/source/sql/druid.py +1 -1
datahub/ingestion/source/sql/hana.py +1 -1
datahub/ingestion/source/sql/hive.py +7 -5
datahub/ingestion/source/sql/hive_metastore.py +1 -1
datahub/ingestion/source/sql/mssql/source.py +13 -6
datahub/ingestion/source/sql/mysql.py +1 -1
datahub/ingestion/source/sql/oracle.py +17 -10
datahub/ingestion/source/sql/postgres.py +2 -2
datahub/ingestion/source/sql/presto.py +1 -1
datahub/ingestion/source/sql/sql_config.py +8 -9
datahub/ingestion/source/sql/sql_generic.py +1 -1
datahub/ingestion/source/sql/teradata.py +1 -1
datahub/ingestion/source/sql/trino.py +1 -1
datahub/ingestion/source/sql/vertica.py +5 -4
datahub/ingestion/source/sql_queries.py +11 -8
datahub/ingestion/source/state/checkpoint.py +2 -2
datahub/ingestion/source/state/entity_removal_state.py +2 -1
datahub/ingestion/source/state/stateful_ingestion_base.py +55 -45
datahub/ingestion/source/state_provider/datahub_ingestion_checkpointing_provider.py +1 -1
datahub/ingestion/source/state_provider/file_ingestion_checkpointing_provider.py +1 -1
datahub/ingestion/source/superset.py +9 -9
datahub/ingestion/source/tableau/tableau.py +14 -16
datahub/ingestion/source/unity/azure_auth_config.py +15 -0
datahub/ingestion/source/unity/config.py +51 -34
datahub/ingestion/source/unity/connection.py +7 -1
datahub/ingestion/source/unity/connection_test.py +1 -1
datahub/ingestion/source/unity/proxy.py +216 -7
datahub/ingestion/source/unity/proxy_types.py +91 -0
datahub/ingestion/source/unity/source.py +29 -3
datahub/ingestion/source/usage/clickhouse_usage.py +1 -1
datahub/ingestion/source/usage/starburst_trino_usage.py +1 -1
datahub/ingestion/source/usage/usage_common.py +5 -3
datahub/ingestion/source_config/csv_enricher.py +7 -6
datahub/ingestion/source_config/operation_config.py +7 -4
datahub/ingestion/source_config/pulsar.py +11 -15
datahub/ingestion/transformer/add_dataset_browse_path.py +1 -1
datahub/ingestion/transformer/add_dataset_dataproduct.py +6 -5
datahub/ingestion/transformer/add_dataset_ownership.py +3 -3
datahub/ingestion/transformer/add_dataset_properties.py +2 -2
datahub/ingestion/transformer/add_dataset_schema_tags.py +2 -2
datahub/ingestion/transformer/add_dataset_schema_terms.py +2 -2
datahub/ingestion/transformer/add_dataset_tags.py +3 -3
datahub/ingestion/transformer/add_dataset_terms.py +3 -3
datahub/ingestion/transformer/dataset_domain.py +3 -3
datahub/ingestion/transformer/dataset_domain_based_on_tags.py +1 -1
datahub/ingestion/transformer/extract_dataset_tags.py +1 -1
datahub/ingestion/transformer/extract_ownership_from_tags.py +1 -1
datahub/ingestion/transformer/mark_dataset_status.py +1 -1
datahub/ingestion/transformer/pattern_cleanup_dataset_usage_user.py +1 -1
datahub/ingestion/transformer/pattern_cleanup_ownership.py +1 -1
datahub/ingestion/transformer/remove_dataset_ownership.py +1 -1
datahub/ingestion/transformer/replace_external_url.py +2 -2
datahub/ingestion/transformer/set_browse_path.py +1 -1
datahub/ingestion/transformer/tags_to_terms.py +1 -1
datahub/lite/duckdb_lite.py +1 -1
datahub/lite/lite_util.py +2 -2
datahub/metadata/schema.avsc +7 -2
datahub/metadata/schemas/QuerySubjects.avsc +1 -1
datahub/metadata/schemas/StructuredPropertyDefinition.avsc +6 -1
datahub/sdk/__init__.py +1 -0
datahub/sdk/_all_entities.py +2 -0
datahub/sdk/search_filters.py +68 -40
datahub/sdk/tag.py +112 -0
datahub/secret/datahub_secret_store.py +7 -4
datahub/secret/file_secret_store.py +1 -1
datahub/sql_parsing/sqlglot_lineage.py +5 -2
datahub/testing/check_sql_parser_result.py +2 -2
datahub/utilities/ingest_utils.py +1 -1
{acryl_datahub-1.3.1.dist-info → acryl_datahub-1.3.1.1.dist-info}/WHEEL +0 -0
{acryl_datahub-1.3.1.dist-info → acryl_datahub-1.3.1.1.dist-info}/entry_points.txt +0 -0
{acryl_datahub-1.3.1.dist-info → acryl_datahub-1.3.1.1.dist-info}/licenses/LICENSE +0 -0
{acryl_datahub-1.3.1.dist-info → acryl_datahub-1.3.1.1.dist-info}/top_level.txt +0 -0

datahub/ingestion/source/dremio/dremio_source.py CHANGED Viewed

@@ -336,10 +336,10 @@ class DremioSource(StatefulIngestionSourceBase):
             return
         dataset_urn = make_dataset_urn_with_platform_instance(
-            platform=self.get_platform(),
-            name=dataset_name,
-            platform_instance=self.config.platform_instance,
+            platform=make_data_platform_urn(self.get_platform()),
+            name=f"dremio.{dataset_name}",
             env=self.config.env,
+            platform_instance=self.config.platform_instance,
         )
         for dremio_mcp in self.dremio_aspects.populate_dataset_mcp(
@@ -419,10 +419,10 @@ class DremioSource(StatefulIngestionSourceBase):
         schema_str = ".".join(dataset_info.path)
         dataset_name = f"{schema_str}.{dataset_info.resource_name}".lower()
         dataset_urn = make_dataset_urn_with_platform_instance(
-            platform=self.get_platform(),
-            name=dataset_name,
-            platform_instance=self.config.platform_instance,
+            platform=make_data_platform_urn(self.get_platform()),
+            name=f"dremio.{dataset_name}",
             env=self.config.env,
+            platform_instance=self.config.platform_instance,
         )
         yield from self.profiler.get_workunits(dataset_info, dataset_urn)
@@ -434,10 +434,10 @@ class DremioSource(StatefulIngestionSourceBase):
         """
         upstream_urns = [
             make_dataset_urn_with_platform_instance(
-                platform=self.get_platform(),
-                name=upstream_table.lower(),
-                platform_instance=self.config.platform_instance,
+                platform=make_data_platform_urn(self.get_platform()),
+                name=f"dremio.{upstream_table.lower()}",
                 env=self.config.env,
+                platform_instance=self.config.platform_instance,
             )
             for upstream_table in parents
         ]
@@ -496,19 +496,19 @@ class DremioSource(StatefulIngestionSourceBase):
         if query.query and query.affected_dataset:
             upstream_urns = [
                 make_dataset_urn_with_platform_instance(
-                    platform=self.get_platform(),
-                    name=ds.lower(),
-                    platform_instance=self.config.platform_instance,
+                    platform=make_data_platform_urn(self.get_platform()),
+                    name=f"dremio.{ds.lower()}",
                     env=self.config.env,
+                    platform_instance=self.config.platform_instance,
                 )
                 for ds in query.queried_datasets
             ]
             downstream_urn = make_dataset_urn_with_platform_instance(
-                platform=self.get_platform(),
-                name=query.affected_dataset.lower(),
-                platform_instance=self.config.platform_instance,
+                platform=make_data_platform_urn(self.get_platform()),
+                name=f"dremio.{query.affected_dataset.lower()}",
                 env=self.config.env,
+                platform_instance=self.config.platform_instance,
             )
             # Add query to SqlParsingAggregator

datahub/ingestion/source/dynamodb/dynamodb.py CHANGED Viewed

@@ -200,7 +200,7 @@ class DynamoDBSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> "DynamoDBSource":
-        config = DynamoDBConfig.parse_obj(config_dict)
+        config = DynamoDBConfig.model_validate(config_dict)
         return cls(ctx, config, "dynamodb")
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/elastic_search.py CHANGED Viewed

@@ -8,7 +8,7 @@ from hashlib import md5
 from typing import Any, Dict, Generator, Iterable, List, Optional, Tuple, Type, Union
 from elasticsearch import Elasticsearch
-from pydantic import validator
+from pydantic import field_validator
 from pydantic.fields import Field
 from datahub.configuration.common import AllowDenyPattern, ConfigModel
@@ -330,7 +330,8 @@ class ElasticsearchSourceConfig(
             self.profiling.operation_config
         )
-    @validator("host")
+    @field_validator("host", mode="after")
+    @classmethod
     def host_colon_port_comma(cls, host_val: str) -> str:
         for entry in host_val.split(","):
             entry = remove_protocol(entry)
@@ -382,7 +383,7 @@ class ElasticsearchSource(StatefulIngestionSourceBase):
     def create(
         cls, config_dict: Dict[str, Any], ctx: PipelineContext
     ) -> "ElasticsearchSource":
-        config = ElasticsearchSourceConfig.parse_obj(config_dict)
+        config = ElasticsearchSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/excel/source.py CHANGED Viewed

@@ -156,7 +156,7 @@ class ExcelSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> "ExcelSource":
-        config = ExcelSourceConfig.parse_obj(config_dict)
+        config = ExcelSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/feast.py CHANGED Viewed

@@ -462,7 +462,7 @@ class FeastRepositorySource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = FeastRepositorySourceConfig.parse_obj(config_dict)
+        config = FeastRepositorySourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/file.py CHANGED Viewed

@@ -9,7 +9,7 @@ from functools import partial
 from typing import Any, Iterable, Iterator, List, Optional, Tuple, Union
 import ijson
-from pydantic import validator
+from pydantic import field_validator
 from pydantic.fields import Field
 from datahub.configuration.common import ConfigEnum
@@ -103,7 +103,8 @@ class FileSourceConfig(StatefulIngestionConfigBase):
     stateful_ingestion: Optional[StatefulStaleMetadataRemovalConfig] = None
-    @validator("file_extension", always=True)
+    @field_validator("file_extension", mode="after")
+    @classmethod
     def add_leading_dot_to_extension(cls, v: str) -> str:
         if v:
             if v.startswith("."):
@@ -205,7 +206,7 @@ class GenericFileSource(StatefulIngestionSourceBase, TestableSource):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = FileSourceConfig.parse_obj(config_dict)
+        config = FileSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_filenames(self) -> Iterable[FileInfo]:
@@ -358,7 +359,7 @@ class GenericFileSource(StatefulIngestionSourceBase, TestableSource):
     @staticmethod
     def test_connection(config_dict: dict) -> TestConnectionReport:
-        config = FileSourceConfig.parse_obj(config_dict)
+        config = FileSourceConfig.model_validate(config_dict)
         exists = os.path.exists(config.path)
         if not exists:
             return TestConnectionReport(

datahub/ingestion/source/fivetran/config.py CHANGED Viewed

@@ -1,10 +1,10 @@
 import dataclasses
 import logging
 import warnings
-from typing import Dict, Optional
+from typing import Any, Dict, Optional
 import pydantic
-from pydantic import Field, root_validator
+from pydantic import Field, field_validator, model_validator
 from typing_extensions import Literal
 from datahub.configuration.common import (
@@ -98,7 +98,8 @@ class DatabricksDestinationConfig(UnityCatalogConnectionConfig):
     catalog: str = Field(description="The fivetran connector log catalog.")
     log_schema: str = Field(description="The fivetran connector log schema.")
-    @pydantic.validator("warehouse_id")
+    @field_validator("warehouse_id", mode="after")
+    @classmethod
     def warehouse_id_should_not_be_empty(cls, warehouse_id: Optional[str]) -> str:
         if warehouse_id is None or (warehouse_id and warehouse_id.strip() == ""):
             raise ValueError("Fivetran requires warehouse_id to be set")
@@ -141,29 +142,28 @@ class FivetranLogConfig(ConfigModel):
         "destination_config", "snowflake_destination_config"
     )
-    @root_validator(skip_on_failure=True)
-    def validate_destination_platfrom_and_config(cls, values: Dict) -> Dict:
-        destination_platform = values["destination_platform"]
-        if destination_platform == "snowflake":
-            if "snowflake_destination_config" not in values:
+    @model_validator(mode="after")
+    def validate_destination_platform_and_config(self) -> "FivetranLogConfig":
+        if self.destination_platform == "snowflake":
+            if self.snowflake_destination_config is None:
                 raise ValueError(
                     "If destination platform is 'snowflake', user must provide snowflake destination configuration in the recipe."
                 )
-        elif destination_platform == "bigquery":
-            if "bigquery_destination_config" not in values:
+        elif self.destination_platform == "bigquery":
+            if self.bigquery_destination_config is None:
                 raise ValueError(
                     "If destination platform is 'bigquery', user must provide bigquery destination configuration in the recipe."
                 )
-        elif destination_platform == "databricks":
-            if "databricks_destination_config" not in values:
+        elif self.destination_platform == "databricks":
+            if self.databricks_destination_config is None:
                 raise ValueError(
                     "If destination platform is 'databricks', user must provide databricks destination configuration in the recipe."
                 )
         else:
             raise ValueError(
-                f"Destination platform '{destination_platform}' is not yet supported."
+                f"Destination platform '{self.destination_platform}' is not yet supported."
             )
-        return values
+        return self
 @dataclasses.dataclass
@@ -267,8 +267,9 @@ class FivetranSourceConfig(StatefulIngestionConfigBase, DatasetSourceConfigMixin
         description="Fivetran REST API configuration, used to provide wider support for connections.",
     )
-    @pydantic.root_validator(pre=True)
-    def compat_sources_to_database(cls, values: Dict) -> Dict:
+    @model_validator(mode="before")
+    @classmethod
+    def compat_sources_to_database(cls, values: Any) -> Any:
         if "sources_to_database" in values:
             warnings.warn(
                 "The sources_to_database field is deprecated, please use sources_to_platform_instance instead.",

datahub/ingestion/source/fivetran/fivetran.py CHANGED Viewed

@@ -234,12 +234,12 @@ class FivetranSource(StatefulIngestionSourceBase):
         return dict(
             **{
                 f"source.{k}": str(v)
-                for k, v in source_details.dict().items()
+                for k, v in source_details.model_dump().items()
                 if v is not None and not isinstance(v, bool)
             },
             **{
                 f"destination.{k}": str(v)
-                for k, v in destination_details.dict().items()
+                for k, v in destination_details.model_dump().items()
                 if v is not None and not isinstance(v, bool)
             },
         )

datahub/ingestion/source/gc/datahub_gc.py CHANGED Viewed

@@ -127,7 +127,7 @@ class DataHubGcSource(Source):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = DataHubGcSourceConfig.parse_obj(config_dict)
+        config = DataHubGcSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     # auto_work_unit_report is overriden to disable a couple of automation like auto status aspect, etc. which is not needed her.

datahub/ingestion/source/gcs/gcs_source.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import logging
-from typing import Dict, Iterable, List, Optional
+from typing import Iterable, List, Optional
-from pydantic import Field, SecretStr, validator
+from pydantic import Field, SecretStr, model_validator
 from datahub.configuration.common import ConfigModel
 from datahub.configuration.source_common import DatasetSourceConfigMixin
@@ -64,18 +64,16 @@ class GCSSourceConfig(
     stateful_ingestion: Optional[StatefulStaleMetadataRemovalConfig] = None
-    @validator("path_specs", always=True)
-    def check_path_specs_and_infer_platform(
-        cls, path_specs: List[PathSpec], values: Dict
-    ) -> List[PathSpec]:
-        if len(path_specs) == 0:
+    @model_validator(mode="after")
+    def check_path_specs_and_infer_platform(self) -> "GCSSourceConfig":
+        if len(self.path_specs) == 0:
             raise ValueError("path_specs must not be empty")
         # Check that all path specs have the gs:// prefix.
-        if any([not is_gcs_uri(path_spec.include) for path_spec in path_specs]):
+        if any([not is_gcs_uri(path_spec.include) for path_spec in self.path_specs]):
             raise ValueError("All path_spec.include should start with gs://")
-        return path_specs
+        return self
 class GCSSourceReport(DataLakeSourceReport):
@@ -105,7 +103,7 @@ class GCSSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = GCSSourceConfig.parse_obj(config_dict)
+        config = GCSSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def create_equivalent_s3_config(self):

datahub/ingestion/source/ge_profiling_config.py CHANGED Viewed

@@ -4,6 +4,7 @@ import os
 from typing import Annotated, Any, Dict, List, Optional
 import pydantic
+from pydantic import model_validator
 from pydantic.fields import Field
 from datahub.configuration.common import AllowDenyPattern, ConfigModel, SupportedSources
@@ -212,7 +213,8 @@ class GEProfilingConfig(GEProfilingBaseConfig):
         description="Whether to profile complex types like structs, arrays and maps. ",
     )
-    @pydantic.root_validator(pre=True)
+    @model_validator(mode="before")
+    @classmethod
     def deprecate_bigquery_temp_table_schema(cls, values):
         # TODO: Update docs to remove mention of this field.
         if "bigquery_temp_table_schema" in values:
@@ -222,16 +224,17 @@ class GEProfilingConfig(GEProfilingBaseConfig):
             del values["bigquery_temp_table_schema"]
         return values
-    @pydantic.root_validator(pre=True)
+    @model_validator(mode="before")
+    @classmethod
     def ensure_field_level_settings_are_normalized(
-        cls: "GEProfilingConfig", values: Dict[str, Any]
+        cls, values: Dict[str, Any]
     ) -> Dict[str, Any]:
         max_num_fields_to_profile_key = "max_number_of_fields_to_profile"
         max_num_fields_to_profile = values.get(max_num_fields_to_profile_key)
         # Disable all field-level metrics.
         if values.get("profile_table_level_only"):
-            for field_level_metric in cls.__fields__:
+            for field_level_metric in cls.model_fields:
                 if field_level_metric.startswith("include_field_"):
                     if values.get(field_level_metric):
                         raise ValueError(
@@ -267,7 +270,7 @@ class GEProfilingConfig(GEProfilingBaseConfig):
         )
     def config_for_telemetry(self) -> Dict[str, Any]:
-        config_dict = self.dict()
+        config_dict = self.model_dump()
         return {
             flag: config_dict[flag]

datahub/ingestion/source/grafana/grafana_api.py CHANGED Viewed

@@ -69,7 +69,7 @@ class GrafanaAPIClient:
                 if not batch:
                     break
-                folders.extend(Folder.parse_obj(folder) for folder in batch)
+                folders.extend(Folder.model_validate(folder) for folder in batch)
                 page += 1
             except requests.exceptions.RequestException as e:
                 self.report.report_failure(
@@ -88,7 +88,7 @@ class GrafanaAPIClient:
         try:
             response = self.session.get(f"{self.base_url}/api/dashboards/uid/{uid}")
             response.raise_for_status()
-            return Dashboard.parse_obj(response.json())
+            return Dashboard.model_validate(response.json())
         except requests.exceptions.RequestException as e:
             self.report.warning(
                 title="Dashboard Fetch Error",

datahub/ingestion/source/grafana/grafana_config.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from typing import Dict, Optional
-from pydantic import Field, SecretStr, validator
+from pydantic import Field, SecretStr, field_validator
 from datahub.configuration.common import AllowDenyPattern, HiddenFromDocs
 from datahub.configuration.source_common import (
@@ -99,6 +99,7 @@ class GrafanaSourceConfig(
         description="Map of Grafana datasource types/UIDs to platform connection configs for lineage extraction",
     )
-    @validator("url", allow_reuse=True)
-    def remove_trailing_slash(cls, v):
+    @field_validator("url", mode="after")
+    @classmethod
+    def remove_trailing_slash(cls, v: str) -> str:
         return config_clean.remove_trailing_slashes(v)

datahub/ingestion/source/grafana/grafana_source.py CHANGED Viewed

@@ -171,7 +171,7 @@ class GrafanaSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> "GrafanaSource":
-        config = GrafanaSourceConfig.parse_obj(config_dict)
+        config = GrafanaSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/grafana/models.py CHANGED Viewed

@@ -79,18 +79,29 @@ class Dashboard(_GrafanaBaseModel):
         for panel_data in panels_data:
             if panel_data.get("type") == "row" and "panels" in panel_data:
                 panels.extend(
-                    Panel.parse_obj(p)
+                    Panel.model_validate(p)
                     for p in panel_data["panels"]
                     if p.get("type") != "row"
                 )
             elif panel_data.get("type") != "row":
-                panels.append(Panel.parse_obj(panel_data))
+                panels.append(Panel.model_validate(panel_data))
         return panels
     @classmethod
-    def parse_obj(cls, data: Dict[str, Any]) -> "Dashboard":
+    def model_validate(
+        cls,
+        obj: Any,
+        *,
+        strict: Optional[bool] = None,
+        from_attributes: Optional[bool] = None,
+        context: Optional[Any] = None,
+        by_alias: Optional[bool] = None,
+        by_name: Optional[bool] = None,
+    ) -> "Dashboard":
         """Custom parsing to handle nested panel extraction."""
-        dashboard_data = data.get("dashboard", {})
+        # Handle both direct dashboard data and nested structure with 'dashboard' key
+        dashboard_data = obj.get("dashboard", obj)
         _panel_data = dashboard_data.get("panels", [])
         panels = []
         try:
@@ -113,7 +124,14 @@ class Dashboard(_GrafanaBaseModel):
         if "refresh" in dashboard_dict and isinstance(dashboard_dict["refresh"], bool):
             dashboard_dict["refresh"] = str(dashboard_dict["refresh"])
-        return super().parse_obj(dashboard_dict)
+        return super().model_validate(
+            dashboard_dict,
+            strict=strict,
+            from_attributes=from_attributes,
+            context=context,
+            by_alias=by_alias,
+            by_name=by_name,
+        )
 class Folder(_GrafanaBaseModel):

datahub/ingestion/source/hex/api.py CHANGED Viewed

@@ -4,7 +4,7 @@ from datetime import datetime, timezone
 from typing import Any, Dict, Generator, List, Optional, Union
 import requests
-from pydantic import BaseModel, Field, ValidationError, validator
+from pydantic import BaseModel, Field, ValidationError, field_validator
 from requests.adapters import HTTPAdapter
 from typing_extensions import assert_never
 from urllib3.util.retry import Retry
@@ -50,7 +50,8 @@ class HexApiProjectAnalytics(BaseModel):
         default=None, alias="publishedResultsUpdatedAt"
     )
-    @validator("last_viewed_at", "published_results_updated_at", pre=True)
+    @field_validator("last_viewed_at", "published_results_updated_at", mode="before")
+    @classmethod
     def parse_datetime(cls, value):
         if value is None:
             return None
@@ -167,14 +168,15 @@ class HexApiProjectApiResource(BaseModel):
     class Config:
         extra = "ignore"  # Allow extra fields in the JSON
-    @validator(
+    @field_validator(
         "created_at",
         "last_edited_at",
         "last_published_at",
         "archived_at",
         "trashed_at",
-        pre=True,
+        mode="before",
     )
+    @classmethod
     def parse_datetime(cls, value):
         if value is None:
             return None
@@ -292,7 +294,7 @@ class HexApi:
             )
             response.raise_for_status()
-            api_response = HexApiProjectsListResponse.parse_obj(response.json())
+            api_response = HexApiProjectsListResponse.model_validate(response.json())
             logger.info(f"Fetched {len(api_response.values)} items")
             params["after"] = (
                 api_response.pagination.after if api_response.pagination else None

datahub/ingestion/source/hex/hex.py CHANGED Viewed

@@ -3,7 +3,7 @@ from dataclasses import dataclass
 from datetime import datetime, timedelta, timezone
 from typing import Any, Dict, Iterable, List, Optional
-from pydantic import Field, SecretStr, root_validator
+from pydantic import Field, SecretStr, model_validator
 from typing_extensions import assert_never
 from datahub.configuration.common import AllowDenyPattern
@@ -120,7 +120,8 @@ class HexSourceConfig(
         description="Number of items to fetch per DataHub API call.",
     )
-    @root_validator(pre=True)
+    @model_validator(mode="before")
+    @classmethod
     def validate_lineage_times(cls, data: Dict[str, Any]) -> Dict[str, Any]:
         # In-place update of the input dict would cause state contamination. This was discovered through test failures
         # in test_hex.py where the same dict is reused.
@@ -238,7 +239,7 @@ class HexSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: Dict[str, Any], ctx: PipelineContext) -> "HexSource":
-        config = HexSourceConfig.parse_obj(config_dict)
+        config = HexSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/iceberg/iceberg.py CHANGED Viewed

@@ -161,7 +161,7 @@ class IcebergSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: Dict, ctx: PipelineContext) -> "IcebergSource":
-        config = IcebergSourceConfig.parse_obj(config_dict)
+        config = IcebergSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/iceberg/iceberg_common.py CHANGED Viewed

@@ -4,7 +4,7 @@ from dataclasses import dataclass, field
 from typing import Any, Dict, Optional
 from humanfriendly import format_timespan
-from pydantic import Field, validator
+from pydantic import Field, field_validator
 from pyiceberg.catalog import Catalog, load_catalog
 from pyiceberg.catalog.rest import RestCatalog
 from requests.adapters import HTTPAdapter
@@ -108,7 +108,8 @@ class IcebergSourceConfig(StatefulIngestionConfigBase, DatasetSourceConfigMixin)
         default=1, description="How many threads will be processing tables"
     )
-    @validator("catalog", pre=True, always=True)
+    @field_validator("catalog", mode="before")
+    @classmethod
     def handle_deprecated_catalog_format(cls, value):
         # Once support for deprecated format is dropped, we can remove this validator.
         if (
@@ -131,7 +132,8 @@ class IcebergSourceConfig(StatefulIngestionConfigBase, DatasetSourceConfigMixin)
         # In case the input is already the new format or is invalid
         return value
-    @validator("catalog")
+    @field_validator("catalog", mode="after")
+    @classmethod
     def validate_catalog_size(cls, value):
         if len(value) != 1:
             raise ValueError("The catalog must contain exactly one entry.")

datahub/ingestion/source/identity/azure_ad.py CHANGED Viewed

@@ -254,7 +254,7 @@ class AzureADSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = AzureADConfig.parse_obj(config_dict)
+        config = AzureADConfig.model_validate(config_dict)
         return cls(config, ctx)
     def __init__(self, config: AzureADConfig, ctx: PipelineContext):

datahub/ingestion/source/identity/okta.py CHANGED Viewed

@@ -11,7 +11,7 @@ import nest_asyncio
 from okta.client import Client as OktaClient
 from okta.exceptions import OktaAPIException
 from okta.models import Group, GroupProfile, User, UserProfile, UserStatus
-from pydantic import validator
+from pydantic import model_validator
 from pydantic.fields import Field
 from datahub.emitter.mcp import MetadataChangeProposalWrapper
@@ -157,21 +157,21 @@ class OktaConfig(StatefulIngestionConfigBase):
     mask_group_id: bool = True
     mask_user_id: bool = True
-    @validator("okta_users_search")
-    def okta_users_one_of_filter_or_search(cls, v, values):
-        if v and values["okta_users_filter"]:
+    @model_validator(mode="after")
+    def okta_users_one_of_filter_or_search(self) -> "OktaConfig":
+        if self.okta_users_search and self.okta_users_filter:
             raise ValueError(
                 "Only one of okta_users_filter or okta_users_search can be set"
             )
-        return v
+        return self
-    @validator("okta_groups_search")
-    def okta_groups_one_of_filter_or_search(cls, v, values):
-        if v and values["okta_groups_filter"]:
+    @model_validator(mode="after")
+    def okta_groups_one_of_filter_or_search(self) -> "OktaConfig":
+        if self.okta_groups_search and self.okta_groups_filter:
             raise ValueError(
                 "Only one of okta_groups_filter or okta_groups_search can be set"
             )
-        return v
+        return self
 @dataclass
@@ -288,7 +288,7 @@ class OktaSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = OktaConfig.parse_obj(config_dict)
+        config = OktaConfig.model_validate(config_dict)
         return cls(config, ctx)
     def __init__(self, config: OktaConfig, ctx: PipelineContext):

datahub/ingestion/source/kafka/kafka.py CHANGED Viewed

@@ -267,7 +267,7 @@ class KafkaSource(StatefulIngestionSourceBase, TestableSource):
     @classmethod
     def create(cls, config_dict: Dict, ctx: PipelineContext) -> "KafkaSource":
-        config: KafkaSourceConfig = KafkaSourceConfig.parse_obj(config_dict)
+        config: KafkaSourceConfig = KafkaSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/ldap.py CHANGED Viewed

@@ -242,7 +242,7 @@ class LDAPSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: Dict[str, Any], ctx: PipelineContext) -> "LDAPSource":
         """Factory method."""
-        config = LDAPSourceConfig.parse_obj(config_dict)
+        config = LDAPSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

acryl-datahub 1.3.1__py3-none-any.whl → 1.3.1.1__py3-none-any.whl

Potentially problematic release.

acryl-datahub 1.3.1py3-none-any.whl → 1.3.1.1py3-none-any.whl