PyPI - acryl-datahub - Versions diffs - 1.3.0.1rc9__py3-none-any.whl → 1.3.1.1__py3-none-any.whl - Mend

acryl-datahub 1.3.0.1rc9py3-none-any.whl → 1.3.1.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of acryl-datahub might be problematic. Click here for more details.

Files changed (263) hide show

{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/METADATA +2550 -2543
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/RECORD +263 -261
datahub/_version.py +1 -1
datahub/api/entities/common/serialized_value.py +2 -2
datahub/api/entities/corpgroup/corpgroup.py +11 -6
datahub/api/entities/corpuser/corpuser.py +11 -11
datahub/api/entities/dataproduct/dataproduct.py +47 -27
datahub/api/entities/dataset/dataset.py +32 -21
datahub/api/entities/external/lake_formation_external_entites.py +5 -6
datahub/api/entities/external/unity_catalog_external_entites.py +5 -7
datahub/api/entities/forms/forms.py +16 -14
datahub/api/entities/structuredproperties/structuredproperties.py +23 -16
datahub/cli/check_cli.py +2 -2
datahub/cli/config_utils.py +3 -3
datahub/cli/lite_cli.py +9 -7
datahub/cli/migrate.py +4 -4
datahub/cli/quickstart_versioning.py +3 -3
datahub/cli/specific/group_cli.py +1 -1
datahub/cli/specific/structuredproperties_cli.py +1 -1
datahub/cli/specific/user_cli.py +1 -1
datahub/configuration/common.py +14 -2
datahub/configuration/connection_resolver.py +2 -2
datahub/configuration/git.py +47 -30
datahub/configuration/import_resolver.py +2 -2
datahub/configuration/kafka.py +4 -3
datahub/configuration/time_window_config.py +26 -26
datahub/configuration/validate_field_deprecation.py +2 -2
datahub/configuration/validate_field_removal.py +2 -2
datahub/configuration/validate_field_rename.py +2 -2
datahub/configuration/validate_multiline_string.py +2 -1
datahub/emitter/kafka_emitter.py +3 -1
datahub/emitter/rest_emitter.py +2 -4
datahub/ingestion/api/decorators.py +1 -1
datahub/ingestion/api/report.py +1 -1
datahub/ingestion/api/sink.py +1 -1
datahub/ingestion/api/source.py +1 -1
datahub/ingestion/glossary/datahub_classifier.py +11 -8
datahub/ingestion/graph/client.py +5 -1
datahub/ingestion/reporting/datahub_ingestion_run_summary_provider.py +1 -1
datahub/ingestion/reporting/file_reporter.py +5 -4
datahub/ingestion/run/pipeline.py +7 -6
datahub/ingestion/run/pipeline_config.py +12 -14
datahub/ingestion/run/sink_callback.py +1 -1
datahub/ingestion/sink/datahub_rest.py +6 -4
datahub/ingestion/source/abs/config.py +19 -19
datahub/ingestion/source/abs/datalake_profiler_config.py +11 -13
datahub/ingestion/source/abs/source.py +2 -2
datahub/ingestion/source/aws/aws_common.py +1 -1
datahub/ingestion/source/aws/glue.py +6 -4
datahub/ingestion/source/aws/sagemaker.py +1 -1
datahub/ingestion/source/azure/azure_common.py +8 -12
datahub/ingestion/source/bigquery_v2/bigquery.py +1 -1
datahub/ingestion/source/bigquery_v2/bigquery_config.py +43 -30
datahub/ingestion/source/bigquery_v2/bigquery_queries.py +1 -1
datahub/ingestion/source/cassandra/cassandra.py +1 -1
datahub/ingestion/source/common/gcp_credentials_config.py +10 -10
datahub/ingestion/source/data_lake_common/path_spec.py +85 -89
datahub/ingestion/source/datahub/config.py +8 -8
datahub/ingestion/source/datahub/datahub_source.py +1 -1
datahub/ingestion/source/dbt/dbt_cloud.py +9 -3
datahub/ingestion/source/dbt/dbt_common.py +39 -37
datahub/ingestion/source/dbt/dbt_core.py +10 -12
datahub/ingestion/source/debug/datahub_debug.py +1 -1
datahub/ingestion/source/delta_lake/config.py +6 -4
datahub/ingestion/source/dremio/dremio_api.py +212 -78
datahub/ingestion/source/dremio/dremio_config.py +10 -6
datahub/ingestion/source/dremio/dremio_entities.py +55 -39
datahub/ingestion/source/dremio/dremio_profiling.py +14 -3
datahub/ingestion/source/dremio/dremio_source.py +24 -26
datahub/ingestion/source/dynamodb/dynamodb.py +1 -1
datahub/ingestion/source/elastic_search.py +110 -32
datahub/ingestion/source/excel/source.py +1 -1
datahub/ingestion/source/feast.py +1 -1
datahub/ingestion/source/file.py +5 -4
datahub/ingestion/source/fivetran/config.py +17 -16
datahub/ingestion/source/fivetran/fivetran.py +2 -2
datahub/ingestion/source/gc/datahub_gc.py +1 -1
datahub/ingestion/source/gcs/gcs_source.py +8 -10
datahub/ingestion/source/ge_profiling_config.py +8 -5
datahub/ingestion/source/grafana/grafana_api.py +2 -2
datahub/ingestion/source/grafana/grafana_config.py +4 -3
datahub/ingestion/source/grafana/grafana_source.py +1 -1
datahub/ingestion/source/grafana/models.py +23 -5
datahub/ingestion/source/hex/api.py +7 -5
datahub/ingestion/source/hex/hex.py +4 -3
datahub/ingestion/source/iceberg/iceberg.py +1 -1
datahub/ingestion/source/iceberg/iceberg_common.py +5 -3
datahub/ingestion/source/identity/azure_ad.py +1 -1
datahub/ingestion/source/identity/okta.py +10 -10
datahub/ingestion/source/kafka/kafka.py +1 -1
datahub/ingestion/source/ldap.py +1 -1
datahub/ingestion/source/looker/looker_common.py +7 -5
datahub/ingestion/source/looker/looker_config.py +21 -20
datahub/ingestion/source/looker/lookml_config.py +47 -47
datahub/ingestion/source/metabase.py +8 -8
datahub/ingestion/source/metadata/business_glossary.py +2 -2
datahub/ingestion/source/metadata/lineage.py +13 -8
datahub/ingestion/source/mlflow.py +1 -1
datahub/ingestion/source/mode.py +6 -4
datahub/ingestion/source/mongodb.py +4 -3
datahub/ingestion/source/neo4j/neo4j_source.py +1 -1
datahub/ingestion/source/nifi.py +17 -23
datahub/ingestion/source/openapi.py +6 -8
datahub/ingestion/source/powerbi/config.py +33 -32
datahub/ingestion/source/powerbi/dataplatform_instance_resolver.py +2 -2
datahub/ingestion/source/powerbi/powerbi.py +1 -1
datahub/ingestion/source/powerbi_report_server/report_server.py +2 -2
datahub/ingestion/source/powerbi_report_server/report_server_domain.py +8 -6
datahub/ingestion/source/preset.py +8 -8
datahub/ingestion/source/pulsar.py +1 -1
datahub/ingestion/source/qlik_sense/data_classes.py +15 -8
datahub/ingestion/source/qlik_sense/qlik_api.py +7 -7
datahub/ingestion/source/qlik_sense/qlik_sense.py +1 -1
datahub/ingestion/source/redshift/config.py +18 -20
datahub/ingestion/source/redshift/redshift.py +2 -2
datahub/ingestion/source/redshift/usage.py +23 -3
datahub/ingestion/source/s3/config.py +83 -62
datahub/ingestion/source/s3/datalake_profiler_config.py +11 -13
datahub/ingestion/source/s3/source.py +8 -5
datahub/ingestion/source/sac/sac.py +5 -4
datahub/ingestion/source/salesforce.py +3 -2
datahub/ingestion/source/schema/json_schema.py +2 -2
datahub/ingestion/source/sigma/data_classes.py +3 -2
datahub/ingestion/source/sigma/sigma.py +1 -1
datahub/ingestion/source/sigma/sigma_api.py +7 -7
datahub/ingestion/source/slack/slack.py +1 -1
datahub/ingestion/source/snaplogic/snaplogic.py +1 -1
datahub/ingestion/source/snowflake/snowflake_assertion.py +1 -1
datahub/ingestion/source/snowflake/snowflake_config.py +35 -31
datahub/ingestion/source/snowflake/snowflake_connection.py +35 -13
datahub/ingestion/source/snowflake/snowflake_lineage_v2.py +3 -3
datahub/ingestion/source/snowflake/snowflake_queries.py +28 -4
datahub/ingestion/source/sql/athena.py +1 -1
datahub/ingestion/source/sql/clickhouse.py +4 -2
datahub/ingestion/source/sql/cockroachdb.py +1 -1
datahub/ingestion/source/sql/druid.py +1 -1
datahub/ingestion/source/sql/hana.py +1 -1
datahub/ingestion/source/sql/hive.py +7 -5
datahub/ingestion/source/sql/hive_metastore.py +1 -1
datahub/ingestion/source/sql/mssql/source.py +13 -6
datahub/ingestion/source/sql/mysql.py +1 -1
datahub/ingestion/source/sql/oracle.py +17 -10
datahub/ingestion/source/sql/postgres.py +2 -2
datahub/ingestion/source/sql/presto.py +1 -1
datahub/ingestion/source/sql/sql_config.py +8 -9
datahub/ingestion/source/sql/sql_generic.py +1 -1
datahub/ingestion/source/sql/teradata.py +1 -1
datahub/ingestion/source/sql/trino.py +1 -1
datahub/ingestion/source/sql/vertica.py +5 -4
datahub/ingestion/source/sql_queries.py +174 -22
datahub/ingestion/source/state/checkpoint.py +2 -2
datahub/ingestion/source/state/entity_removal_state.py +2 -1
datahub/ingestion/source/state/stateful_ingestion_base.py +55 -45
datahub/ingestion/source/state_provider/datahub_ingestion_checkpointing_provider.py +1 -1
datahub/ingestion/source/state_provider/file_ingestion_checkpointing_provider.py +1 -1
datahub/ingestion/source/superset.py +9 -9
datahub/ingestion/source/tableau/tableau.py +14 -16
datahub/ingestion/source/unity/azure_auth_config.py +15 -0
datahub/ingestion/source/unity/config.py +51 -34
datahub/ingestion/source/unity/connection.py +7 -1
datahub/ingestion/source/unity/connection_test.py +1 -1
datahub/ingestion/source/unity/proxy.py +216 -7
datahub/ingestion/source/unity/proxy_types.py +91 -0
datahub/ingestion/source/unity/source.py +29 -3
datahub/ingestion/source/usage/clickhouse_usage.py +1 -1
datahub/ingestion/source/usage/starburst_trino_usage.py +1 -1
datahub/ingestion/source/usage/usage_common.py +5 -3
datahub/ingestion/source_config/csv_enricher.py +7 -6
datahub/ingestion/source_config/operation_config.py +7 -4
datahub/ingestion/source_config/pulsar.py +11 -15
datahub/ingestion/transformer/add_dataset_browse_path.py +1 -1
datahub/ingestion/transformer/add_dataset_dataproduct.py +6 -5
datahub/ingestion/transformer/add_dataset_ownership.py +3 -3
datahub/ingestion/transformer/add_dataset_properties.py +2 -2
datahub/ingestion/transformer/add_dataset_schema_tags.py +2 -2
datahub/ingestion/transformer/add_dataset_schema_terms.py +2 -2
datahub/ingestion/transformer/add_dataset_tags.py +3 -3
datahub/ingestion/transformer/add_dataset_terms.py +3 -3
datahub/ingestion/transformer/dataset_domain.py +3 -3
datahub/ingestion/transformer/dataset_domain_based_on_tags.py +1 -1
datahub/ingestion/transformer/extract_dataset_tags.py +1 -1
datahub/ingestion/transformer/extract_ownership_from_tags.py +1 -1
datahub/ingestion/transformer/mark_dataset_status.py +1 -1
datahub/ingestion/transformer/pattern_cleanup_dataset_usage_user.py +1 -1
datahub/ingestion/transformer/pattern_cleanup_ownership.py +1 -1
datahub/ingestion/transformer/remove_dataset_ownership.py +1 -1
datahub/ingestion/transformer/replace_external_url.py +2 -2
datahub/ingestion/transformer/set_browse_path.py +1 -1
datahub/ingestion/transformer/tags_to_terms.py +1 -1
datahub/lite/duckdb_lite.py +1 -1
datahub/lite/lite_util.py +2 -2
datahub/metadata/_internal_schema_classes.py +62 -2
datahub/metadata/com/linkedin/pegasus2avro/assertion/__init__.py +2 -0
datahub/metadata/schema.avsc +271 -91
datahub/metadata/schemas/ApplicationProperties.avsc +5 -2
datahub/metadata/schemas/AssertionInfo.avsc +48 -5
datahub/metadata/schemas/BusinessAttributeInfo.avsc +8 -4
datahub/metadata/schemas/ChartInfo.avsc +12 -5
datahub/metadata/schemas/ContainerProperties.avsc +12 -5
datahub/metadata/schemas/CorpGroupEditableInfo.avsc +2 -1
datahub/metadata/schemas/CorpGroupInfo.avsc +7 -3
datahub/metadata/schemas/CorpUserInfo.avsc +5 -2
datahub/metadata/schemas/CorpUserSettings.avsc +4 -2
datahub/metadata/schemas/DashboardInfo.avsc +16 -4
datahub/metadata/schemas/DataFlowInfo.avsc +11 -5
datahub/metadata/schemas/DataHubPageModuleProperties.avsc +4 -2
datahub/metadata/schemas/DataJobInfo.avsc +9 -4
datahub/metadata/schemas/DataPlatformInfo.avsc +3 -1
datahub/metadata/schemas/DataPlatformInstanceProperties.avsc +5 -2
datahub/metadata/schemas/DataProductProperties.avsc +5 -2
datahub/metadata/schemas/DataTypeInfo.avsc +5 -0
datahub/metadata/schemas/DatasetKey.avsc +2 -1
datahub/metadata/schemas/DatasetProperties.avsc +12 -5
datahub/metadata/schemas/DomainProperties.avsc +7 -3
datahub/metadata/schemas/EditableContainerProperties.avsc +2 -1
datahub/metadata/schemas/EditableDashboardProperties.avsc +2 -1
datahub/metadata/schemas/EditableDataFlowProperties.avsc +2 -1
datahub/metadata/schemas/EditableDataJobProperties.avsc +2 -1
datahub/metadata/schemas/EditableDatasetProperties.avsc +2 -1
datahub/metadata/schemas/EditableERModelRelationshipProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLFeatureProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLFeatureTableProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLModelGroupProperties.avsc +2 -1
datahub/metadata/schemas/EditableMLModelProperties.avsc +2 -1
datahub/metadata/schemas/EditableNotebookProperties.avsc +2 -1
datahub/metadata/schemas/EditableSchemaMetadata.avsc +5 -3
datahub/metadata/schemas/EntityTypeInfo.avsc +5 -0
datahub/metadata/schemas/GlobalTags.avsc +3 -2
datahub/metadata/schemas/GlossaryNodeInfo.avsc +3 -1
datahub/metadata/schemas/GlossaryTermInfo.avsc +3 -1
datahub/metadata/schemas/InputFields.avsc +3 -2
datahub/metadata/schemas/MLFeatureKey.avsc +3 -1
datahub/metadata/schemas/MLFeatureTableKey.avsc +3 -1
datahub/metadata/schemas/MLModelDeploymentKey.avsc +3 -1
datahub/metadata/schemas/MLModelGroupKey.avsc +3 -1
datahub/metadata/schemas/MLModelKey.avsc +3 -1
datahub/metadata/schemas/MLModelProperties.avsc +4 -2
datahub/metadata/schemas/MLPrimaryKeyKey.avsc +3 -1
datahub/metadata/schemas/MetadataChangeEvent.avsc +124 -50
datahub/metadata/schemas/NotebookInfo.avsc +5 -2
datahub/metadata/schemas/Ownership.avsc +3 -2
datahub/metadata/schemas/QuerySubjects.avsc +1 -1
datahub/metadata/schemas/RoleProperties.avsc +3 -1
datahub/metadata/schemas/SchemaFieldInfo.avsc +3 -1
datahub/metadata/schemas/SchemaMetadata.avsc +3 -2
datahub/metadata/schemas/StructuredPropertyDefinition.avsc +15 -4
datahub/metadata/schemas/TagProperties.avsc +3 -1
datahub/metadata/schemas/TestInfo.avsc +2 -1
datahub/sdk/__init__.py +1 -0
datahub/sdk/_all_entities.py +2 -0
datahub/sdk/search_filters.py +68 -40
datahub/sdk/tag.py +112 -0
datahub/secret/datahub_secret_store.py +7 -4
datahub/secret/file_secret_store.py +1 -1
datahub/sql_parsing/schema_resolver.py +29 -0
datahub/sql_parsing/sql_parsing_aggregator.py +15 -0
datahub/sql_parsing/sqlglot_lineage.py +5 -2
datahub/testing/check_sql_parser_result.py +2 -2
datahub/utilities/ingest_utils.py +1 -1
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/WHEEL +0 -0
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/entry_points.txt +0 -0
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/licenses/LICENSE +0 -0
{acryl_datahub-1.3.0.1rc9.dist-info → acryl_datahub-1.3.1.1.dist-info}/top_level.txt +0 -0

datahub/ingestion/source/grafana/models.py CHANGED Viewed

@@ -79,18 +79,29 @@ class Dashboard(_GrafanaBaseModel):
         for panel_data in panels_data:
             if panel_data.get("type") == "row" and "panels" in panel_data:
                 panels.extend(
-                    Panel.parse_obj(p)
+                    Panel.model_validate(p)
                     for p in panel_data["panels"]
                     if p.get("type") != "row"
                 )
             elif panel_data.get("type") != "row":
-                panels.append(Panel.parse_obj(panel_data))
+                panels.append(Panel.model_validate(panel_data))
         return panels
     @classmethod
-    def parse_obj(cls, data: Dict[str, Any]) -> "Dashboard":
+    def model_validate(
+        cls,
+        obj: Any,
+        *,
+        strict: Optional[bool] = None,
+        from_attributes: Optional[bool] = None,
+        context: Optional[Any] = None,
+        by_alias: Optional[bool] = None,
+        by_name: Optional[bool] = None,
+    ) -> "Dashboard":
         """Custom parsing to handle nested panel extraction."""
-        dashboard_data = data.get("dashboard", {})
+        # Handle both direct dashboard data and nested structure with 'dashboard' key
+        dashboard_data = obj.get("dashboard", obj)
         _panel_data = dashboard_data.get("panels", [])
         panels = []
         try:
@@ -113,7 +124,14 @@ class Dashboard(_GrafanaBaseModel):
         if "refresh" in dashboard_dict and isinstance(dashboard_dict["refresh"], bool):
             dashboard_dict["refresh"] = str(dashboard_dict["refresh"])
-        return super().parse_obj(dashboard_dict)
+        return super().model_validate(
+            dashboard_dict,
+            strict=strict,
+            from_attributes=from_attributes,
+            context=context,
+            by_alias=by_alias,
+            by_name=by_name,
+        )
 class Folder(_GrafanaBaseModel):

datahub/ingestion/source/hex/api.py CHANGED Viewed

@@ -4,7 +4,7 @@ from datetime import datetime, timezone
 from typing import Any, Dict, Generator, List, Optional, Union
 import requests
-from pydantic import BaseModel, Field, ValidationError, validator
+from pydantic import BaseModel, Field, ValidationError, field_validator
 from requests.adapters import HTTPAdapter
 from typing_extensions import assert_never
 from urllib3.util.retry import Retry
@@ -50,7 +50,8 @@ class HexApiProjectAnalytics(BaseModel):
         default=None, alias="publishedResultsUpdatedAt"
     )
-    @validator("last_viewed_at", "published_results_updated_at", pre=True)
+    @field_validator("last_viewed_at", "published_results_updated_at", mode="before")
+    @classmethod
     def parse_datetime(cls, value):
         if value is None:
             return None
@@ -167,14 +168,15 @@ class HexApiProjectApiResource(BaseModel):
     class Config:
         extra = "ignore"  # Allow extra fields in the JSON
-    @validator(
+    @field_validator(
         "created_at",
         "last_edited_at",
         "last_published_at",
         "archived_at",
         "trashed_at",
-        pre=True,
+        mode="before",
     )
+    @classmethod
     def parse_datetime(cls, value):
         if value is None:
             return None
@@ -292,7 +294,7 @@ class HexApi:
             )
             response.raise_for_status()
-            api_response = HexApiProjectsListResponse.parse_obj(response.json())
+            api_response = HexApiProjectsListResponse.model_validate(response.json())
             logger.info(f"Fetched {len(api_response.values)} items")
             params["after"] = (
                 api_response.pagination.after if api_response.pagination else None

datahub/ingestion/source/hex/hex.py CHANGED Viewed

@@ -3,7 +3,7 @@ from dataclasses import dataclass
 from datetime import datetime, timedelta, timezone
 from typing import Any, Dict, Iterable, List, Optional
-from pydantic import Field, SecretStr, root_validator
+from pydantic import Field, SecretStr, model_validator
 from typing_extensions import assert_never
 from datahub.configuration.common import AllowDenyPattern
@@ -120,7 +120,8 @@ class HexSourceConfig(
         description="Number of items to fetch per DataHub API call.",
     )
-    @root_validator(pre=True)
+    @model_validator(mode="before")
+    @classmethod
     def validate_lineage_times(cls, data: Dict[str, Any]) -> Dict[str, Any]:
         # In-place update of the input dict would cause state contamination. This was discovered through test failures
         # in test_hex.py where the same dict is reused.
@@ -238,7 +239,7 @@ class HexSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: Dict[str, Any], ctx: PipelineContext) -> "HexSource":
-        config = HexSourceConfig.parse_obj(config_dict)
+        config = HexSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/iceberg/iceberg.py CHANGED Viewed

@@ -161,7 +161,7 @@ class IcebergSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: Dict, ctx: PipelineContext) -> "IcebergSource":
-        config = IcebergSourceConfig.parse_obj(config_dict)
+        config = IcebergSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/iceberg/iceberg_common.py CHANGED Viewed

@@ -4,7 +4,7 @@ from dataclasses import dataclass, field
 from typing import Any, Dict, Optional
 from humanfriendly import format_timespan
-from pydantic import Field, validator
+from pydantic import Field, field_validator
 from pyiceberg.catalog import Catalog, load_catalog
 from pyiceberg.catalog.rest import RestCatalog
 from requests.adapters import HTTPAdapter
@@ -108,7 +108,8 @@ class IcebergSourceConfig(StatefulIngestionConfigBase, DatasetSourceConfigMixin)
         default=1, description="How many threads will be processing tables"
     )
-    @validator("catalog", pre=True, always=True)
+    @field_validator("catalog", mode="before")
+    @classmethod
     def handle_deprecated_catalog_format(cls, value):
         # Once support for deprecated format is dropped, we can remove this validator.
         if (
@@ -131,7 +132,8 @@ class IcebergSourceConfig(StatefulIngestionConfigBase, DatasetSourceConfigMixin)
         # In case the input is already the new format or is invalid
         return value
-    @validator("catalog")
+    @field_validator("catalog", mode="after")
+    @classmethod
     def validate_catalog_size(cls, value):
         if len(value) != 1:
             raise ValueError("The catalog must contain exactly one entry.")

datahub/ingestion/source/identity/azure_ad.py CHANGED Viewed

@@ -254,7 +254,7 @@ class AzureADSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = AzureADConfig.parse_obj(config_dict)
+        config = AzureADConfig.model_validate(config_dict)
         return cls(config, ctx)
     def __init__(self, config: AzureADConfig, ctx: PipelineContext):

datahub/ingestion/source/identity/okta.py CHANGED Viewed

@@ -11,7 +11,7 @@ import nest_asyncio
 from okta.client import Client as OktaClient
 from okta.exceptions import OktaAPIException
 from okta.models import Group, GroupProfile, User, UserProfile, UserStatus
-from pydantic import validator
+from pydantic import model_validator
 from pydantic.fields import Field
 from datahub.emitter.mcp import MetadataChangeProposalWrapper
@@ -157,21 +157,21 @@ class OktaConfig(StatefulIngestionConfigBase):
     mask_group_id: bool = True
     mask_user_id: bool = True
-    @validator("okta_users_search")
-    def okta_users_one_of_filter_or_search(cls, v, values):
-        if v and values["okta_users_filter"]:
+    @model_validator(mode="after")
+    def okta_users_one_of_filter_or_search(self) -> "OktaConfig":
+        if self.okta_users_search and self.okta_users_filter:
             raise ValueError(
                 "Only one of okta_users_filter or okta_users_search can be set"
             )
-        return v
+        return self
-    @validator("okta_groups_search")
-    def okta_groups_one_of_filter_or_search(cls, v, values):
-        if v and values["okta_groups_filter"]:
+    @model_validator(mode="after")
+    def okta_groups_one_of_filter_or_search(self) -> "OktaConfig":
+        if self.okta_groups_search and self.okta_groups_filter:
             raise ValueError(
                 "Only one of okta_groups_filter or okta_groups_search can be set"
             )
-        return v
+        return self
 @dataclass
@@ -288,7 +288,7 @@ class OktaSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = OktaConfig.parse_obj(config_dict)
+        config = OktaConfig.model_validate(config_dict)
         return cls(config, ctx)
     def __init__(self, config: OktaConfig, ctx: PipelineContext):

datahub/ingestion/source/kafka/kafka.py CHANGED Viewed

@@ -267,7 +267,7 @@ class KafkaSource(StatefulIngestionSourceBase, TestableSource):
     @classmethod
     def create(cls, config_dict: Dict, ctx: PipelineContext) -> "KafkaSource":
-        config: KafkaSourceConfig = KafkaSourceConfig.parse_obj(config_dict)
+        config: KafkaSourceConfig = KafkaSourceConfig.model_validate(config_dict)
         return cls(config, ctx)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/ldap.py CHANGED Viewed

@@ -242,7 +242,7 @@ class LDAPSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: Dict[str, Any], ctx: PipelineContext) -> "LDAPSource":
         """Factory method."""
-        config = LDAPSourceConfig.parse_obj(config_dict)
+        config = LDAPSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/looker/looker_common.py CHANGED Viewed

@@ -28,7 +28,7 @@ from looker_sdk.sdk.api40.models import (
     User,
     WriteQuery,
 )
-from pydantic import validator
+from pydantic import field_validator
 import datahub.emitter.mce_builder as builder
 from datahub.api.entities.platformresource.platform_resource import (
@@ -202,8 +202,9 @@ class LookerViewId:
             folder_path=os.path.dirname(self.file_path),
         )
-    @validator("view_name")
-    def remove_quotes(cls, v):
+    @field_validator("view_name", mode="after")
+    @classmethod
+    def remove_quotes(cls, v: str) -> str:
         # Sanitize the name.
         v = v.replace('"', "").replace("`", "")
         return v
@@ -931,8 +932,9 @@ class LookerExplore:
     source_file: Optional[str] = None
     tags: List[str] = dataclasses_field(default_factory=list)
-    @validator("name")
-    def remove_quotes(cls, v):
+    @field_validator("name", mode="after")
+    @classmethod
+    def remove_quotes(cls, v: str) -> str:
         # Sanitize the name.
         v = v.replace('"', "").replace("`", "")
         return v

datahub/ingestion/source/looker/looker_config.py CHANGED Viewed

@@ -1,11 +1,11 @@
 import dataclasses
 import os
 import re
-from typing import Any, ClassVar, Dict, List, Optional, Tuple, Union, cast
+from typing import Any, ClassVar, Dict, List, Optional, Tuple, Union
 import pydantic
 from looker_sdk.sdk.api40.models import DBConnection
-from pydantic import Field, model_validator, validator
+from pydantic import Field, field_validator, model_validator
 from datahub.configuration import ConfigModel
 from datahub.configuration.common import (
@@ -198,17 +198,20 @@ class LookerConnectionDefinition(ConfigModel):
         "the top level Looker configuration",
     )
-    @validator("platform_env")
+    @field_validator("platform_env", mode="after")
+    @classmethod
     def platform_env_must_be_one_of(cls, v: Optional[str]) -> Optional[str]:
         if v is not None:
             return EnvConfigMixin.env_must_be_one_of(v)
         return v
-    @validator("platform", "default_db", "default_schema")
-    def lower_everything(cls, v):
+    @field_validator("platform", "default_db", "default_schema", mode="after")
+    @classmethod
+    def lower_everything(cls, v: Optional[str]) -> Optional[str]:
         """We lower case all strings passed in to avoid casing issues later"""
         if v is not None:
             return v.lower()
+        return v
     @classmethod
     def from_looker_connection(
@@ -326,22 +329,20 @@ class LookerDashboardSourceConfig(
         "Dashboards will only be ingested if they're allowed by both this config and dashboard_pattern.",
     )
-    @validator("external_base_url", pre=True, always=True)
+    @model_validator(mode="before")
+    @classmethod
     def external_url_defaults_to_api_config_base_url(
-        cls, v: Optional[str], *, values: Dict[str, Any], **kwargs: Dict[str, Any]
-    ) -> Optional[str]:
-        return v or values.get("base_url")
-    @validator("extract_independent_looks", always=True)
-    def stateful_ingestion_should_be_enabled(
-        cls, v: Optional[bool], *, values: Dict[str, Any], **kwargs: Dict[str, Any]
-    ) -> Optional[bool]:
-        stateful_ingestion: StatefulStaleMetadataRemovalConfig = cast(
-            StatefulStaleMetadataRemovalConfig, values.get("stateful_ingestion")
-        )
-        if v is True and (
-            stateful_ingestion is None or stateful_ingestion.enabled is False
+        cls, values: Dict[str, Any]
+    ) -> Dict[str, Any]:
+        if "external_base_url" not in values or values["external_base_url"] is None:
+            values["external_base_url"] = values.get("base_url")
+        return values
+    @model_validator(mode="after")
+    def stateful_ingestion_should_be_enabled(self):
+        if self.extract_independent_looks is True and (
+            self.stateful_ingestion is None or self.stateful_ingestion.enabled is False
         ):
             raise ValueError("stateful_ingestion.enabled should be set to true")
-        return v
+        return self

datahub/ingestion/source/looker/lookml_config.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import logging
+from copy import deepcopy
 from dataclasses import dataclass, field as dataclass_field
 from datetime import timedelta
 from typing import Any, Dict, Literal, Optional, Union
 import pydantic
-from pydantic import root_validator, validator
+from pydantic import model_validator
 from pydantic.fields import Field
 from datahub.configuration.common import AllowDenyPattern
@@ -210,75 +211,74 @@ class LookMLSourceConfig(
         "All if comments are evaluated to true for configured looker_environment value",
     )
-    @validator("connection_to_platform_map", pre=True)
-    def convert_string_to_connection_def(cls, conn_map):
-        # Previous version of config supported strings in connection map. This upconverts strings to ConnectionMap
-        for key in conn_map:
-            if isinstance(conn_map[key], str):
-                platform = conn_map[key]
-                if "." in platform:
-                    platform_db_split = conn_map[key].split(".")
-                    connection = LookerConnectionDefinition(
-                        platform=platform_db_split[0],
-                        default_db=platform_db_split[1],
-                        default_schema="",
-                    )
-                    conn_map[key] = connection
-                else:
-                    logger.warning(
-                        f"Connection map for {key} provides platform {platform} but does not provide a default "
-                        f"database name. This might result in failed resolution"
-                    )
-                    conn_map[key] = LookerConnectionDefinition(
-                        platform=platform, default_db="", default_schema=""
-                    )
-        return conn_map
+    @model_validator(mode="before")
+    @classmethod
+    def convert_string_to_connection_def(cls, values: Dict[str, Any]) -> Dict[str, Any]:
+        values = deepcopy(values)
+        conn_map = values.get("connection_to_platform_map")
+        if conn_map:
+            # Previous version of config supported strings in connection map. This upconverts strings to ConnectionMap
+            for key in conn_map:
+                if isinstance(conn_map[key], str):
+                    platform = conn_map[key]
+                    if "." in platform:
+                        platform_db_split = conn_map[key].split(".")
+                        connection = LookerConnectionDefinition(
+                            platform=platform_db_split[0],
+                            default_db=platform_db_split[1],
+                            default_schema="",
+                        )
+                        conn_map[key] = connection
+                    else:
+                        logger.warning(
+                            f"Connection map for {key} provides platform {platform} but does not provide a default "
+                            f"database name. This might result in failed resolution"
+                        )
+                        conn_map[key] = LookerConnectionDefinition(
+                            platform=platform, default_db="", default_schema=""
+                        )
+        return values
-    @root_validator(skip_on_failure=True)
-    def check_either_connection_map_or_connection_provided(cls, values):
+    @model_validator(mode="after")
+    def check_either_connection_map_or_connection_provided(self):
         """Validate that we must either have a connection map or an api credential"""
-        if not values.get("connection_to_platform_map", {}) and not values.get(
-            "api", {}
-        ):
+        if not (self.connection_to_platform_map or {}) and not (self.api):
             raise ValueError(
                 "Neither api not connection_to_platform_map config was found. LookML source requires either api "
                 "credentials for Looker or a map of connection names to platform identifiers to work correctly"
             )
-        return values
+        return self
-    @root_validator(skip_on_failure=True)
-    def check_either_project_name_or_api_provided(cls, values):
+    @model_validator(mode="after")
+    def check_either_project_name_or_api_provided(self):
         """Validate that we must either have a project name or an api credential to fetch project names"""
-        if not values.get("project_name") and not values.get("api"):
+        if not self.project_name and not self.api:
             raise ValueError(
                 "Neither project_name not an API credential was found. LookML source requires either api credentials "
                 "for Looker or a project_name to accurately name views and models."
             )
-        return values
+        return self
-    @root_validator(skip_on_failure=True)
-    def check_api_provided_for_view_lineage(cls, values):
+    @model_validator(mode="after")
+    def check_api_provided_for_view_lineage(self):
         """Validate that we must have an api credential to use Looker API for view's column lineage"""
-        if not values.get("api") and values.get("use_api_for_view_lineage"):
+        if not self.api and self.use_api_for_view_lineage:
             raise ValueError(
                 "API credential was not found. LookML source requires api credentials "
                 "for Looker to use Looker APIs for view's column lineage extraction."
                 "Set `use_api_for_view_lineage` to False to skip using Looker APIs."
             )
-        return values
+        return self
-    @validator("base_folder", always=True)
-    def check_base_folder_if_not_provided(
-        cls, v: Optional[pydantic.DirectoryPath], values: Dict[str, Any]
-    ) -> Optional[pydantic.DirectoryPath]:
-        if v is None:
-            git_info: Optional[GitInfo] = values.get("git_info")
-            if git_info:
-                if not git_info.deploy_key:
+    @model_validator(mode="after")
+    def check_base_folder_if_not_provided(self):
+        if self.base_folder is None:
+            if self.git_info:
+                if not self.git_info.deploy_key:
                     logger.warning(
                         "git_info is provided, but no SSH key is present. If the repo is not public, we'll fail to "
                         "clone it."
                     )
             else:
                 raise ValueError("Neither base_folder nor git_info has been provided.")
-        return v
+        return self

datahub/ingestion/source/metabase.py CHANGED Viewed

@@ -9,7 +9,7 @@ from typing import Dict, Iterable, List, Optional, Tuple, Union
 import dateutil.parser as dp
 import pydantic
 import requests
-from pydantic import Field, root_validator, validator
+from pydantic import Field, field_validator, model_validator
 from requests.models import HTTPError
 import datahub.emitter.mce_builder as builder
@@ -115,16 +115,16 @@ class MetabaseConfig(
     )
     stateful_ingestion: Optional[StatefulStaleMetadataRemovalConfig] = None
-    @validator("connect_uri", "display_uri")
+    @field_validator("connect_uri", "display_uri", mode="after")
+    @classmethod
     def remove_trailing_slash(cls, v):
         return config_clean.remove_trailing_slashes(v)
-    @root_validator(skip_on_failure=True)
-    def default_display_uri_to_connect_uri(cls, values):
-        base = values.get("display_uri")
-        if base is None:
-            values["display_uri"] = values.get("connect_uri")
-        return values
+    @model_validator(mode="after")
+    def default_display_uri_to_connect_uri(self) -> "MetabaseConfig":
+        if self.display_uri is None:
+            self.display_uri = self.connect_uri
+        return self
 @dataclass

datahub/ingestion/source/metadata/business_glossary.py CHANGED Viewed

@@ -563,7 +563,7 @@ class BusinessGlossaryFileSource(Source):
     @classmethod
     def create(cls, config_dict, ctx):
-        config = BusinessGlossarySourceConfig.parse_obj(config_dict)
+        config = BusinessGlossarySourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     @classmethod
@@ -571,7 +571,7 @@ class BusinessGlossaryFileSource(Source):
         cls, file_name: Union[str, pathlib.Path]
     ) -> BusinessGlossaryConfig:
         config = load_config_file(file_name, resolve_env_vars=True)
-        glossary_cfg = BusinessGlossaryConfig.parse_obj(config)
+        glossary_cfg = BusinessGlossaryConfig.model_validate(config)
         return glossary_cfg
     def get_workunits_internal(

datahub/ingestion/source/metadata/lineage.py CHANGED Viewed

@@ -3,7 +3,7 @@ from dataclasses import dataclass, field
 from functools import partial
 from typing import Any, Dict, Iterable, List, Optional
-from pydantic import validator
+from pydantic import field_validator
 from pydantic.fields import Field
 import datahub.metadata.schema_classes as models
@@ -51,7 +51,8 @@ class EntityConfig(EnvConfigMixin):
     platform: str
     platform_instance: Optional[str] = None
-    @validator("type")
+    @field_validator("type", mode="after")
+    @classmethod
     def type_must_be_supported(cls, v: str) -> str:
         allowed_types = ["dataset"]
         if v not in allowed_types:
@@ -60,7 +61,8 @@ class EntityConfig(EnvConfigMixin):
             )
         return v
-    @validator("name")
+    @field_validator("name", mode="after")
+    @classmethod
     def validate_name(cls, v: str) -> str:
         if v.startswith("urn:li:"):
             raise ValueError(
@@ -77,7 +79,8 @@ class FineGrainedLineageConfig(ConfigModel):
     transformOperation: Optional[str]
     confidenceScore: Optional[float] = 1.0
-    @validator("upstreamType")
+    @field_validator("upstreamType", mode="after")
+    @classmethod
     def upstream_type_must_be_supported(cls, v: str) -> str:
         allowed_types = [
             FineGrainedLineageUpstreamTypeClass.FIELD_SET,
@@ -90,7 +93,8 @@ class FineGrainedLineageConfig(ConfigModel):
             )
         return v
-    @validator("downstreamType")
+    @field_validator("downstreamType", mode="after")
+    @classmethod
     def downstream_type_must_be_supported(cls, v: str) -> str:
         allowed_types = [
             FineGrainedLineageDownstreamTypeClass.FIELD_SET,
@@ -124,7 +128,8 @@ class LineageFileSourceConfig(ConfigModel):
 class LineageConfig(VersionedConfig):
     lineage: List[EntityNodeConfig]
-    @validator("version")
+    @field_validator("version", mode="after")
+    @classmethod
     def version_must_be_1(cls, v):
         if v != "1":
             raise ValueError("Only version 1 is supported")
@@ -148,13 +153,13 @@ class LineageFileSource(Source):
     def create(
         cls, config_dict: Dict[str, Any], ctx: PipelineContext
     ) -> "LineageFileSource":
-        config = LineageFileSourceConfig.parse_obj(config_dict)
+        config = LineageFileSourceConfig.model_validate(config_dict)
         return cls(ctx, config)
     @staticmethod
     def load_lineage_config(file_name: str) -> LineageConfig:
         config = load_config_file(file_name, resolve_env_vars=True)
-        lineage_config = LineageConfig.parse_obj(config)
+        lineage_config = LineageConfig.model_validate(config)
         return lineage_config
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

datahub/ingestion/source/mlflow.py CHANGED Viewed

@@ -892,5 +892,5 @@ class MLflowSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> "MLflowSource":
-        config = MLflowConfig.parse_obj(config_dict)
+        config = MLflowConfig.model_validate(config_dict)
         return cls(ctx, config)

datahub/ingestion/source/mode.py CHANGED Viewed

@@ -26,7 +26,7 @@ import sqlglot
 import tenacity
 import yaml
 from liquid import Template, Undefined
-from pydantic import Field, validator
+from pydantic import Field, field_validator
 from requests.adapters import HTTPAdapter, Retry
 from requests.exceptions import ConnectionError
 from requests.models import HTTPBasicAuth, HTTPError
@@ -218,11 +218,13 @@ class ModeConfig(
         default=False, description="Exclude archived reports"
     )
-    @validator("connect_uri")
+    @field_validator("connect_uri", mode="after")
+    @classmethod
     def remove_trailing_slash(cls, v):
         return config_clean.remove_trailing_slashes(v)
-    @validator("items_per_page")
+    @field_validator("items_per_page", mode="after")
+    @classmethod
     def validate_items_per_page(cls, v):
         if 1 <= v <= DEFAULT_API_ITEMS_PER_PAGE:
             return v
@@ -1824,7 +1826,7 @@ class ModeSource(StatefulIngestionSourceBase):
     @classmethod
     def create(cls, config_dict: dict, ctx: PipelineContext) -> "ModeSource":
-        config: ModeConfig = ModeConfig.parse_obj(config_dict)
+        config: ModeConfig = ModeConfig.model_validate(config_dict)
         return cls(ctx, config)
     def get_workunit_processors(self) -> List[Optional[MetadataWorkUnitProcessor]]:

acryl-datahub 1.3.0.1rc9__py3-none-any.whl → 1.3.1.1__py3-none-any.whl

Potentially problematic release.

acryl-datahub 1.3.0.1rc9py3-none-any.whl → 1.3.1.1py3-none-any.whl