PyPI - acryl-datahub - Versions diffs - 1.1.1rc4__py3-none-any.whl → 1.3.0.1rc9__py3-none-any.whl - Mend

acryl-datahub 1.1.1rc4py3-none-any.whl → 1.3.0.1rc9py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of acryl-datahub might be problematic. Click here for more details.

Files changed (414) hide show

{acryl_datahub-1.1.1rc4.dist-info → acryl_datahub-1.3.0.1rc9.dist-info}/METADATA +2615 -2547
{acryl_datahub-1.1.1rc4.dist-info → acryl_datahub-1.3.0.1rc9.dist-info}/RECORD +412 -338
{acryl_datahub-1.1.1rc4.dist-info → acryl_datahub-1.3.0.1rc9.dist-info}/entry_points.txt +5 -0
datahub/_version.py +1 -1
datahub/api/entities/assertion/assertion.py +1 -1
datahub/api/entities/common/serialized_value.py +1 -1
datahub/api/entities/corpgroup/corpgroup.py +1 -1
datahub/api/entities/dataproduct/dataproduct.py +32 -3
datahub/api/entities/dataset/dataset.py +26 -23
datahub/api/entities/external/__init__.py +0 -0
datahub/api/entities/external/external_entities.py +724 -0
datahub/api/entities/external/external_tag.py +147 -0
datahub/api/entities/external/lake_formation_external_entites.py +162 -0
datahub/api/entities/external/restricted_text.py +172 -0
datahub/api/entities/external/unity_catalog_external_entites.py +172 -0
datahub/api/entities/forms/forms.py +3 -3
datahub/api/entities/structuredproperties/structuredproperties.py +4 -4
datahub/api/graphql/operation.py +10 -6
datahub/cli/check_cli.py +88 -7
datahub/cli/cli_utils.py +63 -0
datahub/cli/config_utils.py +18 -10
datahub/cli/container_cli.py +5 -0
datahub/cli/delete_cli.py +125 -27
datahub/cli/docker_check.py +110 -14
datahub/cli/docker_cli.py +153 -229
datahub/cli/exists_cli.py +0 -2
datahub/cli/get_cli.py +0 -2
datahub/cli/graphql_cli.py +1422 -0
datahub/cli/iceberg_cli.py +5 -0
datahub/cli/ingest_cli.py +3 -15
datahub/cli/migrate.py +2 -0
datahub/cli/put_cli.py +1 -4
datahub/cli/quickstart_versioning.py +53 -10
datahub/cli/specific/assertions_cli.py +37 -6
datahub/cli/specific/datacontract_cli.py +54 -7
datahub/cli/specific/dataproduct_cli.py +2 -15
datahub/cli/specific/dataset_cli.py +1 -8
datahub/cli/specific/forms_cli.py +0 -4
datahub/cli/specific/group_cli.py +0 -2
datahub/cli/specific/structuredproperties_cli.py +1 -4
datahub/cli/specific/user_cli.py +172 -3
datahub/cli/state_cli.py +0 -2
datahub/cli/timeline_cli.py +0 -2
datahub/configuration/common.py +40 -1
datahub/configuration/connection_resolver.py +5 -2
datahub/configuration/env_vars.py +331 -0
datahub/configuration/import_resolver.py +7 -4
datahub/configuration/kafka.py +21 -1
datahub/configuration/pydantic_migration_helpers.py +6 -13
datahub/configuration/source_common.py +3 -2
datahub/configuration/validate_field_deprecation.py +5 -2
datahub/configuration/validate_field_removal.py +8 -2
datahub/configuration/validate_field_rename.py +6 -5
datahub/configuration/validate_multiline_string.py +5 -2
datahub/emitter/mce_builder.py +8 -4
datahub/emitter/rest_emitter.py +103 -30
datahub/entrypoints.py +6 -3
datahub/ingestion/api/auto_work_units/auto_ensure_aspect_size.py +297 -1
datahub/ingestion/api/auto_work_units/auto_validate_input_fields.py +87 -0
datahub/ingestion/api/decorators.py +15 -3
datahub/ingestion/api/report.py +381 -3
datahub/ingestion/api/sink.py +27 -2
datahub/ingestion/api/source.py +165 -58
datahub/ingestion/api/source_protocols.py +23 -0
datahub/ingestion/autogenerated/__init__.py +0 -0
datahub/ingestion/autogenerated/capability_summary.json +3652 -0
datahub/ingestion/autogenerated/lineage.json +402 -0
datahub/ingestion/autogenerated/lineage_helper.py +177 -0
datahub/ingestion/extractor/schema_util.py +13 -4
datahub/ingestion/glossary/classification_mixin.py +5 -0
datahub/ingestion/graph/client.py +330 -25
datahub/ingestion/graph/config.py +3 -2
datahub/ingestion/graph/filters.py +30 -11
datahub/ingestion/reporting/datahub_ingestion_run_summary_provider.py +21 -11
datahub/ingestion/run/pipeline.py +81 -11
datahub/ingestion/run/pipeline_config.py +2 -2
datahub/ingestion/sink/datahub_kafka.py +1 -0
datahub/ingestion/sink/datahub_rest.py +13 -5
datahub/ingestion/sink/file.py +1 -0
datahub/ingestion/source/abs/config.py +1 -1
datahub/ingestion/source/abs/datalake_profiler_config.py +1 -1
datahub/ingestion/source/abs/source.py +15 -30
datahub/ingestion/source/aws/aws_common.py +185 -13
datahub/ingestion/source/aws/glue.py +517 -244
datahub/ingestion/source/aws/platform_resource_repository.py +30 -0
datahub/ingestion/source/aws/s3_boto_utils.py +100 -5
datahub/ingestion/source/aws/tag_entities.py +270 -0
datahub/ingestion/source/azure/azure_common.py +3 -3
datahub/ingestion/source/bigquery_v2/bigquery.py +67 -24
datahub/ingestion/source/bigquery_v2/bigquery_config.py +47 -19
datahub/ingestion/source/bigquery_v2/bigquery_connection.py +12 -1
datahub/ingestion/source/bigquery_v2/bigquery_queries.py +3 -0
datahub/ingestion/source/bigquery_v2/bigquery_report.py +0 -2
datahub/ingestion/source/bigquery_v2/bigquery_schema.py +23 -16
datahub/ingestion/source/bigquery_v2/bigquery_schema_gen.py +20 -5
datahub/ingestion/source/bigquery_v2/common.py +1 -1
datahub/ingestion/source/bigquery_v2/profiler.py +4 -2
datahub/ingestion/source/bigquery_v2/queries.py +3 -3
datahub/ingestion/source/bigquery_v2/queries_extractor.py +45 -9
datahub/ingestion/source/cassandra/cassandra.py +6 -8
datahub/ingestion/source/cassandra/cassandra_api.py +17 -1
datahub/ingestion/source/cassandra/cassandra_config.py +5 -0
datahub/ingestion/source/cassandra/cassandra_profiling.py +7 -6
datahub/ingestion/source/cassandra/cassandra_utils.py +1 -2
datahub/ingestion/source/common/gcp_credentials_config.py +3 -1
datahub/ingestion/source/common/subtypes.py +53 -0
datahub/ingestion/source/data_lake_common/data_lake_utils.py +37 -0
datahub/ingestion/source/data_lake_common/object_store.py +115 -27
datahub/ingestion/source/data_lake_common/path_spec.py +72 -43
datahub/ingestion/source/datahub/config.py +12 -9
datahub/ingestion/source/datahub/datahub_database_reader.py +26 -11
datahub/ingestion/source/datahub/datahub_source.py +10 -0
datahub/ingestion/source/dbt/dbt_cloud.py +16 -5
datahub/ingestion/source/dbt/dbt_common.py +224 -9
datahub/ingestion/source/dbt/dbt_core.py +3 -0
datahub/ingestion/source/debug/__init__.py +0 -0
datahub/ingestion/source/debug/datahub_debug.py +300 -0
datahub/ingestion/source/delta_lake/config.py +9 -5
datahub/ingestion/source/delta_lake/source.py +8 -0
datahub/ingestion/source/dremio/dremio_api.py +114 -73
datahub/ingestion/source/dremio/dremio_aspects.py +3 -2
datahub/ingestion/source/dremio/dremio_config.py +5 -4
datahub/ingestion/source/dremio/dremio_reporting.py +22 -3
datahub/ingestion/source/dremio/dremio_source.py +132 -98
datahub/ingestion/source/dremio/dremio_sql_queries.py +82 -21
datahub/ingestion/source/dynamodb/dynamodb.py +11 -8
datahub/ingestion/source/excel/__init__.py +0 -0
datahub/ingestion/source/excel/config.py +92 -0
datahub/ingestion/source/excel/excel_file.py +539 -0
datahub/ingestion/source/excel/profiling.py +308 -0
datahub/ingestion/source/excel/report.py +49 -0
datahub/ingestion/source/excel/source.py +662 -0
datahub/ingestion/source/excel/util.py +18 -0
datahub/ingestion/source/feast.py +8 -10
datahub/ingestion/source/file.py +3 -0
datahub/ingestion/source/fivetran/config.py +66 -7
datahub/ingestion/source/fivetran/fivetran.py +227 -43
datahub/ingestion/source/fivetran/fivetran_log_api.py +37 -8
datahub/ingestion/source/fivetran/fivetran_query.py +51 -29
datahub/ingestion/source/fivetran/fivetran_rest_api.py +65 -0
datahub/ingestion/source/fivetran/response_models.py +97 -0
datahub/ingestion/source/gc/datahub_gc.py +0 -2
datahub/ingestion/source/gcs/gcs_source.py +32 -4
datahub/ingestion/source/ge_data_profiler.py +108 -31
datahub/ingestion/source/ge_profiling_config.py +26 -11
datahub/ingestion/source/grafana/entity_mcp_builder.py +272 -0
datahub/ingestion/source/grafana/field_utils.py +307 -0
datahub/ingestion/source/grafana/grafana_api.py +142 -0
datahub/ingestion/source/grafana/grafana_config.py +104 -0
datahub/ingestion/source/grafana/grafana_source.py +522 -84
datahub/ingestion/source/grafana/lineage.py +202 -0
datahub/ingestion/source/grafana/models.py +137 -0
datahub/ingestion/source/grafana/report.py +90 -0
datahub/ingestion/source/grafana/types.py +16 -0
datahub/ingestion/source/hex/api.py +28 -1
datahub/ingestion/source/hex/hex.py +16 -5
datahub/ingestion/source/hex/mapper.py +16 -2
datahub/ingestion/source/hex/model.py +2 -0
datahub/ingestion/source/hex/query_fetcher.py +1 -1
datahub/ingestion/source/iceberg/iceberg.py +123 -59
datahub/ingestion/source/iceberg/iceberg_profiler.py +4 -2
datahub/ingestion/source/identity/azure_ad.py +1 -1
datahub/ingestion/source/identity/okta.py +1 -14
datahub/ingestion/source/kafka/kafka.py +16 -0
datahub/ingestion/source/kafka_connect/common.py +2 -2
datahub/ingestion/source/kafka_connect/sink_connectors.py +156 -47
datahub/ingestion/source/kafka_connect/source_connectors.py +62 -4
datahub/ingestion/source/looker/looker_common.py +148 -79
datahub/ingestion/source/looker/looker_config.py +15 -4
datahub/ingestion/source/looker/looker_constant.py +4 -0
datahub/ingestion/source/looker/looker_lib_wrapper.py +36 -3
datahub/ingestion/source/looker/looker_liquid_tag.py +56 -5
datahub/ingestion/source/looker/looker_source.py +503 -547
datahub/ingestion/source/looker/looker_view_id_cache.py +1 -1
datahub/ingestion/source/looker/lookml_concept_context.py +1 -1
datahub/ingestion/source/looker/lookml_config.py +31 -3
datahub/ingestion/source/looker/lookml_refinement.py +1 -1
datahub/ingestion/source/looker/lookml_source.py +96 -117
datahub/ingestion/source/looker/view_upstream.py +494 -1
datahub/ingestion/source/metabase.py +32 -6
datahub/ingestion/source/metadata/business_glossary.py +7 -7
datahub/ingestion/source/metadata/lineage.py +9 -9
datahub/ingestion/source/mlflow.py +12 -2
datahub/ingestion/source/mock_data/__init__.py +0 -0
datahub/ingestion/source/mock_data/datahub_mock_data.py +533 -0
datahub/ingestion/source/mock_data/datahub_mock_data_report.py +12 -0
datahub/ingestion/source/mock_data/table_naming_helper.py +97 -0
datahub/ingestion/source/mode.py +26 -5
datahub/ingestion/source/mongodb.py +11 -1
datahub/ingestion/source/neo4j/neo4j_source.py +83 -144
datahub/ingestion/source/nifi.py +2 -2
datahub/ingestion/source/openapi.py +1 -1
datahub/ingestion/source/powerbi/config.py +47 -21
datahub/ingestion/source/powerbi/m_query/data_classes.py +1 -0
datahub/ingestion/source/powerbi/m_query/parser.py +2 -2
datahub/ingestion/source/powerbi/m_query/pattern_handler.py +100 -10
datahub/ingestion/source/powerbi/powerbi.py +10 -6
datahub/ingestion/source/powerbi/rest_api_wrapper/powerbi_api.py +0 -1
datahub/ingestion/source/powerbi_report_server/report_server.py +0 -23
datahub/ingestion/source/powerbi_report_server/report_server_domain.py +2 -4
datahub/ingestion/source/preset.py +3 -3
datahub/ingestion/source/qlik_sense/data_classes.py +28 -8
datahub/ingestion/source/qlik_sense/qlik_sense.py +2 -1
datahub/ingestion/source/redash.py +1 -1
datahub/ingestion/source/redshift/config.py +15 -9
datahub/ingestion/source/redshift/datashares.py +1 -1
datahub/ingestion/source/redshift/lineage.py +386 -687
datahub/ingestion/source/redshift/query.py +23 -19
datahub/ingestion/source/redshift/redshift.py +52 -111
datahub/ingestion/source/redshift/redshift_schema.py +17 -12
datahub/ingestion/source/redshift/report.py +0 -2
datahub/ingestion/source/redshift/usage.py +6 -5
datahub/ingestion/source/s3/report.py +4 -2
datahub/ingestion/source/s3/source.py +449 -248
datahub/ingestion/source/sac/sac.py +3 -1
datahub/ingestion/source/salesforce.py +28 -13
datahub/ingestion/source/schema/json_schema.py +14 -14
datahub/ingestion/source/schema_inference/object.py +22 -6
datahub/ingestion/source/sigma/data_classes.py +3 -0
datahub/ingestion/source/sigma/sigma.py +7 -1
datahub/ingestion/source/slack/slack.py +10 -16
datahub/ingestion/source/snaplogic/__init__.py +0 -0
datahub/ingestion/source/snaplogic/snaplogic.py +355 -0
datahub/ingestion/source/snaplogic/snaplogic_config.py +37 -0
datahub/ingestion/source/snaplogic/snaplogic_lineage_extractor.py +107 -0
datahub/ingestion/source/snaplogic/snaplogic_parser.py +168 -0
datahub/ingestion/source/snaplogic/snaplogic_utils.py +31 -0
datahub/ingestion/source/snowflake/constants.py +3 -0
datahub/ingestion/source/snowflake/snowflake_config.py +76 -23
datahub/ingestion/source/snowflake/snowflake_connection.py +24 -8
datahub/ingestion/source/snowflake/snowflake_lineage_v2.py +19 -6
datahub/ingestion/source/snowflake/snowflake_queries.py +464 -97
datahub/ingestion/source/snowflake/snowflake_query.py +77 -5
datahub/ingestion/source/snowflake/snowflake_report.py +1 -2
datahub/ingestion/source/snowflake/snowflake_schema.py +352 -16
datahub/ingestion/source/snowflake/snowflake_schema_gen.py +51 -10
datahub/ingestion/source/snowflake/snowflake_summary.py +7 -1
datahub/ingestion/source/snowflake/snowflake_usage_v2.py +8 -2
datahub/ingestion/source/snowflake/snowflake_utils.py +36 -15
datahub/ingestion/source/snowflake/snowflake_v2.py +39 -4
datahub/ingestion/source/snowflake/stored_proc_lineage.py +143 -0
datahub/ingestion/source/sql/athena.py +217 -25
datahub/ingestion/source/sql/athena_properties_extractor.py +795 -0
datahub/ingestion/source/sql/clickhouse.py +24 -8
datahub/ingestion/source/sql/cockroachdb.py +5 -4
datahub/ingestion/source/sql/druid.py +2 -2
datahub/ingestion/source/sql/hana.py +3 -1
datahub/ingestion/source/sql/hive.py +4 -3
datahub/ingestion/source/sql/hive_metastore.py +19 -20
datahub/ingestion/source/sql/mariadb.py +0 -1
datahub/ingestion/source/sql/mssql/job_models.py +3 -1
datahub/ingestion/source/sql/mssql/source.py +336 -57
datahub/ingestion/source/sql/mysql.py +154 -4
datahub/ingestion/source/sql/oracle.py +5 -5
datahub/ingestion/source/sql/postgres.py +142 -6
datahub/ingestion/source/sql/presto.py +2 -1
datahub/ingestion/source/sql/sql_common.py +281 -49
datahub/ingestion/source/sql/sql_generic_profiler.py +2 -1
datahub/ingestion/source/sql/sql_types.py +22 -0
datahub/ingestion/source/sql/sqlalchemy_uri.py +39 -7
datahub/ingestion/source/sql/teradata.py +1028 -245
datahub/ingestion/source/sql/trino.py +11 -1
datahub/ingestion/source/sql/two_tier_sql_source.py +2 -3
datahub/ingestion/source/sql/vertica.py +14 -7
datahub/ingestion/source/sql_queries.py +219 -121
datahub/ingestion/source/state/checkpoint.py +8 -29
datahub/ingestion/source/state/entity_removal_state.py +5 -2
datahub/ingestion/source/state/redundant_run_skip_handler.py +21 -0
datahub/ingestion/source/state/stateful_ingestion_base.py +36 -11
datahub/ingestion/source/superset.py +314 -67
datahub/ingestion/source/tableau/tableau.py +135 -59
datahub/ingestion/source/tableau/tableau_common.py +9 -2
datahub/ingestion/source/tableau/tableau_constant.py +1 -4
datahub/ingestion/source/tableau/tableau_server_wrapper.py +3 -0
datahub/ingestion/source/unity/config.py +160 -40
datahub/ingestion/source/unity/connection.py +61 -0
datahub/ingestion/source/unity/connection_test.py +1 -0
datahub/ingestion/source/unity/platform_resource_repository.py +19 -0
datahub/ingestion/source/unity/proxy.py +794 -51
datahub/ingestion/source/unity/proxy_patch.py +321 -0
datahub/ingestion/source/unity/proxy_types.py +36 -2
datahub/ingestion/source/unity/report.py +15 -3
datahub/ingestion/source/unity/source.py +465 -131
datahub/ingestion/source/unity/tag_entities.py +197 -0
datahub/ingestion/source/unity/usage.py +46 -4
datahub/ingestion/source/usage/clickhouse_usage.py +4 -1
datahub/ingestion/source/usage/starburst_trino_usage.py +5 -2
datahub/ingestion/source/usage/usage_common.py +4 -3
datahub/ingestion/source/vertexai/vertexai.py +1 -1
datahub/ingestion/source_config/pulsar.py +3 -1
datahub/ingestion/source_report/ingestion_stage.py +50 -11
datahub/ingestion/transformer/add_dataset_ownership.py +18 -2
datahub/ingestion/transformer/base_transformer.py +8 -5
datahub/ingestion/transformer/set_browse_path.py +112 -0
datahub/integrations/assertion/snowflake/compiler.py +4 -3
datahub/metadata/_internal_schema_classes.py +6806 -4871
datahub/metadata/_urns/urn_defs.py +1767 -1539
datahub/metadata/com/linkedin/pegasus2avro/application/__init__.py +19 -0
datahub/metadata/com/linkedin/pegasus2avro/common/__init__.py +2 -0
datahub/metadata/com/linkedin/pegasus2avro/file/__init__.py +19 -0
datahub/metadata/com/linkedin/pegasus2avro/identity/__init__.py +2 -0
datahub/metadata/com/linkedin/pegasus2avro/logical/__init__.py +15 -0
datahub/metadata/com/linkedin/pegasus2avro/metadata/key/__init__.py +6 -0
datahub/metadata/com/linkedin/pegasus2avro/module/__init__.py +31 -0
datahub/metadata/com/linkedin/pegasus2avro/platform/event/v1/__init__.py +4 -0
datahub/metadata/com/linkedin/pegasus2avro/role/__init__.py +2 -0
datahub/metadata/com/linkedin/pegasus2avro/settings/asset/__init__.py +19 -0
datahub/metadata/com/linkedin/pegasus2avro/settings/global/__init__.py +8 -0
datahub/metadata/com/linkedin/pegasus2avro/template/__init__.py +31 -0
datahub/metadata/schema.avsc +18395 -16979
datahub/metadata/schemas/Actors.avsc +38 -1
datahub/metadata/schemas/ApplicationKey.avsc +31 -0
datahub/metadata/schemas/ApplicationProperties.avsc +72 -0
datahub/metadata/schemas/Applications.avsc +38 -0
datahub/metadata/schemas/AssetSettings.avsc +63 -0
datahub/metadata/schemas/ChartInfo.avsc +2 -1
datahub/metadata/schemas/ChartKey.avsc +1 -0
datahub/metadata/schemas/ContainerKey.avsc +1 -0
datahub/metadata/schemas/ContainerProperties.avsc +8 -0
datahub/metadata/schemas/CorpUserEditableInfo.avsc +1 -1
datahub/metadata/schemas/CorpUserSettings.avsc +50 -0
datahub/metadata/schemas/DashboardKey.avsc +1 -0
datahub/metadata/schemas/DataFlowInfo.avsc +8 -0
datahub/metadata/schemas/DataFlowKey.avsc +1 -0
datahub/metadata/schemas/DataHubFileInfo.avsc +230 -0
datahub/metadata/schemas/DataHubFileKey.avsc +21 -0
datahub/metadata/schemas/DataHubPageModuleKey.avsc +21 -0
datahub/metadata/schemas/DataHubPageModuleProperties.avsc +298 -0
datahub/metadata/schemas/DataHubPageTemplateKey.avsc +21 -0
datahub/metadata/schemas/DataHubPageTemplateProperties.avsc +251 -0
datahub/metadata/schemas/DataHubPolicyInfo.avsc +12 -1
datahub/metadata/schemas/DataJobInfo.avsc +8 -0
datahub/metadata/schemas/DataJobInputOutput.avsc +8 -0
datahub/metadata/schemas/DataJobKey.avsc +1 -0
datahub/metadata/schemas/DataProcessKey.avsc +8 -0
datahub/metadata/schemas/DataProductKey.avsc +3 -1
datahub/metadata/schemas/DataProductProperties.avsc +1 -1
datahub/metadata/schemas/DatasetKey.avsc +11 -1
datahub/metadata/schemas/DatasetUsageStatistics.avsc +8 -0
datahub/metadata/schemas/DomainKey.avsc +2 -1
datahub/metadata/schemas/GlobalSettingsInfo.avsc +134 -0
datahub/metadata/schemas/GlossaryNodeKey.avsc +2 -1
datahub/metadata/schemas/GlossaryTermKey.avsc +3 -1
datahub/metadata/schemas/IcebergWarehouseInfo.avsc +8 -0
datahub/metadata/schemas/IncidentInfo.avsc +3 -3
datahub/metadata/schemas/InstitutionalMemory.avsc +31 -0
datahub/metadata/schemas/LogicalParent.avsc +145 -0
datahub/metadata/schemas/MLFeatureKey.avsc +1 -0
datahub/metadata/schemas/MLFeatureTableKey.avsc +1 -0
datahub/metadata/schemas/MLModelDeploymentKey.avsc +8 -0
datahub/metadata/schemas/MLModelGroupKey.avsc +11 -1
datahub/metadata/schemas/MLModelKey.avsc +9 -0
datahub/metadata/schemas/MLPrimaryKeyKey.avsc +1 -0
datahub/metadata/schemas/MetadataChangeEvent.avsc +151 -47
datahub/metadata/schemas/MetadataChangeLog.avsc +62 -44
datahub/metadata/schemas/MetadataChangeProposal.avsc +61 -0
datahub/metadata/schemas/NotebookKey.avsc +1 -0
datahub/metadata/schemas/Operation.avsc +4 -2
datahub/metadata/schemas/Ownership.avsc +69 -0
datahub/metadata/schemas/QuerySubjects.avsc +1 -12
datahub/metadata/schemas/RelationshipChangeEvent.avsc +215 -0
datahub/metadata/schemas/SchemaFieldKey.avsc +4 -1
datahub/metadata/schemas/StructuredProperties.avsc +69 -0
datahub/metadata/schemas/StructuredPropertySettings.avsc +9 -0
datahub/metadata/schemas/SystemMetadata.avsc +61 -0
datahub/metadata/schemas/UpstreamLineage.avsc +9 -0
datahub/sdk/__init__.py +2 -0
datahub/sdk/_all_entities.py +7 -0
datahub/sdk/_shared.py +249 -5
datahub/sdk/chart.py +386 -0
datahub/sdk/container.py +7 -0
datahub/sdk/dashboard.py +453 -0
datahub/sdk/dataflow.py +7 -0
datahub/sdk/datajob.py +45 -13
datahub/sdk/dataset.py +56 -2
datahub/sdk/entity_client.py +111 -9
datahub/sdk/lineage_client.py +663 -82
datahub/sdk/main_client.py +50 -16
datahub/sdk/mlmodel.py +120 -38
datahub/sdk/mlmodelgroup.py +7 -0
datahub/sdk/search_client.py +7 -3
datahub/sdk/search_filters.py +304 -36
datahub/secret/datahub_secret_store.py +3 -0
datahub/secret/environment_secret_store.py +29 -0
datahub/secret/file_secret_store.py +49 -0
datahub/specific/aspect_helpers/fine_grained_lineage.py +76 -0
datahub/specific/aspect_helpers/siblings.py +73 -0
datahub/specific/aspect_helpers/structured_properties.py +27 -0
datahub/specific/chart.py +1 -1
datahub/specific/datajob.py +15 -1
datahub/specific/dataproduct.py +4 -0
datahub/specific/dataset.py +39 -59
datahub/sql_parsing/split_statements.py +13 -0
datahub/sql_parsing/sql_parsing_aggregator.py +70 -26
datahub/sql_parsing/sqlglot_lineage.py +196 -42
datahub/sql_parsing/sqlglot_utils.py +12 -4
datahub/sql_parsing/tool_meta_extractor.py +1 -3
datahub/telemetry/telemetry.py +28 -14
datahub/testing/sdk_v2_helpers.py +7 -1
datahub/upgrade/upgrade.py +73 -17
datahub/utilities/file_backed_collections.py +8 -9
datahub/utilities/is_pytest.py +3 -2
datahub/utilities/logging_manager.py +22 -6
datahub/utilities/mapping.py +29 -2
datahub/utilities/sample_data.py +5 -4
datahub/utilities/server_config_util.py +10 -1
datahub/utilities/sqlalchemy_query_combiner.py +5 -2
datahub/utilities/stats_collections.py +4 -0
datahub/utilities/urns/urn.py +41 -2
datahub/emitter/sql_parsing_builder.py +0 -306
datahub/ingestion/source/redshift/lineage_v2.py +0 -466
{acryl_datahub-1.1.1rc4.dist-info → acryl_datahub-1.3.0.1rc9.dist-info}/WHEEL +0 -0
{acryl_datahub-1.1.1rc4.dist-info → acryl_datahub-1.3.0.1rc9.dist-info}/licenses/LICENSE +0 -0
{acryl_datahub-1.1.1rc4.dist-info → acryl_datahub-1.3.0.1rc9.dist-info}/top_level.txt +0 -0

datahub/ingestion/source/state/redundant_run_skip_handler.py CHANGED Viewed

@@ -244,3 +244,24 @@ class RedundantUsageRunSkipHandler(RedundantRunSkipHandler):
             cur_state.begin_timestamp_millis = datetime_to_ts_millis(start_time)
             cur_state.end_timestamp_millis = datetime_to_ts_millis(end_time)
             cur_state.bucket_duration = bucket_duration
+class RedundantQueriesRunSkipHandler(RedundantRunSkipHandler):
+    """
+    Handler for stateful ingestion of queries v2 extraction.
+    Manages the time window for audit log extraction that combines
+    lineage, usage, operations, and queries.
+    """
+    def get_job_name_suffix(self):
+        return "_audit_window"
+    def update_state(
+        self, start_time: datetime, end_time: datetime, bucket_duration: BucketDuration
+    ) -> None:
+        cur_checkpoint = self.get_current_checkpoint()
+        if cur_checkpoint:
+            cur_state = cast(BaseTimeWindowCheckpointState, cur_checkpoint.state)
+            cur_state.begin_timestamp_millis = datetime_to_ts_millis(start_time)
+            cur_state.end_timestamp_millis = datetime_to_ts_millis(end_time)
+            cur_state.bucket_duration = bucket_duration

datahub/ingestion/source/state/stateful_ingestion_base.py CHANGED Viewed

@@ -10,6 +10,7 @@ from datahub.configuration.common import (
     ConfigModel,
     ConfigurationError,
     DynamicTypedConfig,
+    HiddenFromDocs,
 )
 from datahub.configuration.pydantic_migration_helpers import GenericModel
 from datahub.configuration.time_window_config import BaseTimeWindowConfig
@@ -55,25 +56,21 @@ class StatefulIngestionConfig(ConfigModel):
         description="Whether or not to enable stateful ingest. "
         "Default: True if a pipeline_name is set and either a datahub-rest sink or `datahub_api` is specified, otherwise False",
     )
-    max_checkpoint_state_size: pydantic.PositiveInt = Field(
+    max_checkpoint_state_size: HiddenFromDocs[pydantic.PositiveInt] = Field(
         default=2**24,  # 16 MB
         description="The maximum size of the checkpoint state in bytes. Default is 16MB",
-        hidden_from_docs=True,
     )
-    state_provider: Optional[DynamicTypedStateProviderConfig] = Field(
+    state_provider: HiddenFromDocs[Optional[DynamicTypedStateProviderConfig]] = Field(
         default=None,
         description="The ingestion state provider configuration.",
-        hidden_from_docs=True,
     )
-    ignore_old_state: bool = Field(
+    ignore_old_state: HiddenFromDocs[bool] = Field(
         default=False,
         description="If set to True, ignores the previous checkpoint state.",
-        hidden_from_docs=True,
     )
-    ignore_new_state: bool = Field(
+    ignore_new_state: HiddenFromDocs[bool] = Field(
         default=False,
         description="If set to True, ignores the current checkpoint state.",
-        hidden_from_docs=True,
     )
     @pydantic.root_validator(skip_on_failure=True)
@@ -104,7 +101,9 @@ class StatefulLineageConfigMixin(ConfigModel):
         default=True,
         description="Enable stateful lineage ingestion."
         " This will store lineage window timestamps after successful lineage ingestion. "
-        "and will not run lineage ingestion for same timestamps in subsequent run. ",
+        "and will not run lineage ingestion for same timestamps in subsequent run. "
+        "NOTE: This only works with use_queries_v2=False (legacy extraction path). "
+        "For queries v2, use enable_stateful_time_window instead.",
     )
     _store_last_lineage_extraction_timestamp = pydantic_renamed_field(
@@ -153,7 +152,9 @@ class StatefulUsageConfigMixin(BaseTimeWindowConfig):
         default=True,
         description="Enable stateful lineage ingestion."
         " This will store usage window timestamps after successful usage ingestion. "
-        "and will not run usage ingestion for same timestamps in subsequent run. ",
+        "and will not run usage ingestion for same timestamps in subsequent run. "
+        "NOTE: This only works with use_queries_v2=False (legacy extraction path). "
+        "For queries v2, use enable_stateful_time_window instead.",
     )
     _store_last_usage_extraction_timestamp = pydantic_renamed_field(
@@ -172,6 +173,30 @@ class StatefulUsageConfigMixin(BaseTimeWindowConfig):
         return values
+class StatefulTimeWindowConfigMixin(BaseTimeWindowConfig):
+    enable_stateful_time_window: bool = Field(
+        default=False,
+        description="Enable stateful time window tracking."
+        " This will store the time window after successful extraction "
+        "and adjust the time window in subsequent runs to avoid reprocessing. "
+        "NOTE: This is ONLY applicable when using queries v2 (use_queries_v2=True). "
+        "This replaces enable_stateful_lineage_ingestion and enable_stateful_usage_ingestion "
+        "for the queries v2 extraction path, since queries v2 extracts lineage, usage, operations, "
+        "and queries together from a single audit log and uses a unified time window.",
+    )
+    @root_validator(skip_on_failure=True)
+    def time_window_stateful_option_validator(cls, values: Dict) -> Dict:
+        sti = values.get("stateful_ingestion")
+        if not sti or not sti.enabled:
+            if values.get("enable_stateful_time_window"):
+                logger.warning(
+                    "Stateful ingestion is disabled, disabling enable_stateful_time_window config option as well"
+                )
+                values["enable_stateful_time_window"] = False
+        return values
 @dataclass
 class StatefulIngestionReport(SourceReport):
     pass
@@ -179,7 +204,7 @@ class StatefulIngestionReport(SourceReport):
 @capability(
     SourceCapability.DELETION_DETECTION,
-    "Optionally enabled via `stateful_ingestion.remove_stale_metadata`",
+    "Enabled by default via stateful ingestion",
     supported=True,
 )
 class StatefulIngestionSourceBase(Source):

datahub/ingestion/source/superset.py CHANGED Viewed

@@ -8,9 +8,11 @@ from typing import Any, Dict, Iterable, List, Optional, Tuple, Union
 import dateutil.parser as dp
 import requests
-from pydantic import BaseModel
-from pydantic.class_validators import root_validator, validator
+import sqlglot
+from pydantic import BaseModel, root_validator, validator
 from pydantic.fields import Field
+from requests.adapters import HTTPAdapter
+from urllib3.util.retry import Retry
 import datahub.emitter.mce_builder as builder
 from datahub.configuration.common import AllowDenyPattern
@@ -75,6 +77,7 @@ from datahub.metadata.com.linkedin.pegasus2avro.schema import (
     SchemaFieldDataType,
     SchemaMetadata,
     StringTypeClass,
+    TimeTypeClass,
 )
 from datahub.metadata.schema_classes import (
     AuditStampClass,
@@ -107,6 +110,12 @@ logger = logging.getLogger(__name__)
 PAGE_SIZE = 25
+# Retry configuration constants
+RETRY_MAX_TIMES = 3
+RETRY_STATUS_CODES = [429, 500, 502, 503, 504]
+RETRY_BACKOFF_FACTOR = 1
+RETRY_ALLOWED_METHODS = ["GET"]
 chart_type_from_viz_type = {
     "line": ChartTypeClass.LINE,
@@ -131,8 +140,11 @@ FIELD_TYPE_MAPPING = {
     "STRING": StringTypeClass,
     "FLOAT": NumberTypeClass,
     "DATETIME": DateTypeClass,
+    "TIMESTAMP": TimeTypeClass,
     "BOOLEAN": BooleanTypeClass,
     "SQL": StringTypeClass,
+    "NUMERIC": NumberTypeClass,
+    "TEXT": StringTypeClass,
 }
@@ -149,6 +161,7 @@ class SupersetDataset(BaseModel):
     table_name: str
     changed_on_utc: Optional[str] = None
     explore_url: Optional[str] = ""
+    description: Optional[str] = ""
     @property
     def modified_dt(self) -> Optional[datetime]:
@@ -272,10 +285,11 @@ def get_filter_name(filter_obj):
 @config_class(SupersetConfig)
 @support_status(SupportStatus.CERTIFIED)
 @capability(
-    SourceCapability.DELETION_DETECTION, "Optionally enabled via stateful_ingestion"
+    SourceCapability.DELETION_DETECTION, "Enabled by default via stateful ingestion"
 )
 @capability(SourceCapability.DOMAINS, "Enabled by `domain` config to assign domain_key")
 @capability(SourceCapability.LINEAGE_COARSE, "Supported by default")
+@capability(SourceCapability.TAGS, "Supported by default")
 class SupersetSource(StatefulIngestionSourceBase):
     """
     This plugin extracts the following:
@@ -321,6 +335,19 @@ class SupersetSource(StatefulIngestionSourceBase):
         logger.debug("Got access token from superset")
         requests_session = requests.Session()
+        # Configure retry strategy for transient failures
+        retry_strategy = Retry(
+            total=RETRY_MAX_TIMES,
+            status_forcelist=RETRY_STATUS_CODES,
+            backoff_factor=RETRY_BACKOFF_FACTOR,
+            allowed_methods=RETRY_ALLOWED_METHODS,
+            raise_on_status=False,
+        )
+        adapter = HTTPAdapter(max_retries=retry_strategy)
+        requests_session.mount("http://", adapter)
+        requests_session.mount("https://", adapter)
         requests_session.headers.update(
             {
                 "Authorization": f"Bearer {self.access_token}",
@@ -353,8 +380,13 @@ class SupersetSource(StatefulIngestionSourceBase):
             )
             if response.status_code != 200:
-                logger.warning(f"Failed to get {entity_type} data: {response.text}")
-                continue
+                self.report.warning(
+                    title="Failed to fetch data from Superset API",
+                    message="Incomplete metadata extraction due to Superset API failure",
+                    context=f"Entity Type: {entity_type}, HTTP Status Code: {response.status_code}, Page: {current_page}. Response: {response.text}",
+                )
+                # we stop pagination for this entity type and we continue the overall ingestion
+                break
             payload = response.json()
             # Update total_items with the actual count from the response
@@ -515,6 +547,11 @@ class SupersetSource(StatefulIngestionSourceBase):
         )
         dashboard_snapshot.aspects.append(owners_info)
+        superset_tags = self._extract_and_map_tags(dashboard_data.get("tags", []))
+        tags = self._merge_tags_with_existing(dashboard_urn, superset_tags)
+        if tags:
+            dashboard_snapshot.aspects.append(tags)
         return dashboard_snapshot
     def _process_dashboard(self, dashboard_data: Any) -> Iterable[MetadataWorkUnit]:
@@ -633,62 +670,130 @@ class SupersetSource(StatefulIngestionSourceBase):
         return input_fields
-    def construct_chart_cll(
-        self,
-        chart_data: dict,
-        datasource_urn: Union[str, None],
-        datasource_id: Union[Any, int],
-    ) -> List[InputField]:
-        column_data: List[Union[str, dict]] = chart_data.get("form_data", {}).get(
-            "all_columns", []
-        )
-        # the second field represents whether its a SQL expression,
-        # false being just regular column and true being SQL col
-        chart_column_data: List[Tuple[str, bool]] = [
-            (column, False)
-            if isinstance(column, str)
-            else (column.get("label", ""), True)
-            for column in column_data
-        ]
+    def _extract_columns_from_sql(self, sql_expr: Optional[str]) -> List[str]:
+        if not sql_expr:
+            return []
-        dataset_columns: List[Tuple[str, str, str]] = []
+        try:
+            parsed_expr = sqlglot.parse_one(sql_expr)
-        # parses the superset dataset's column info, to build type and description info
-        if datasource_id:
-            dataset_info = self.get_dataset_info(datasource_id).get("result", {})
-            dataset_column_info = dataset_info.get("columns", [])
+            column_refs = set()
+            for node in parsed_expr.walk():
+                if isinstance(node, sqlglot.exp.Column):
+                    column_name = node.name
+                    column_refs.add(column_name)
-            for column in dataset_column_info:
-                col_name = column.get("column_name", "")
-                col_type = column.get("type", "")
-                col_description = column.get("description", "")
+            return list(column_refs)
+        except Exception as e:
+            self.report.warning(f"Failed to parse SQL expression '{sql_expr}': {e}")
+            return []
-                # if missing column name or column type, cannot construct the column,
-                # so we skip this column, missing description is fine
-                if col_name == "" or col_type == "":
-                    logger.info(f"could not construct column lineage for {column}")
-                    continue
+    def _process_column_item(
+        self, item: Union[str, dict], unique_columns: Dict[str, bool]
+    ) -> None:
+        """Process a single column item and add to unique_columns."""
-                dataset_columns.append((col_name, col_type, col_description))
+        def add_column(col_name: str, is_sql: bool) -> None:
+            if not col_name:
+                return
+            # Always set to False if any non-SQL seen, else keep as is_sql
+            unique_columns[col_name] = unique_columns.get(col_name, True) and is_sql
+        if isinstance(item, str):
+            add_column(item, False)
+        elif isinstance(item, dict):
+            if item.get("expressionType") == "SIMPLE":
+                # For metrics with SIMPLE expression type
+                add_column(item.get("column", {}).get("column_name", ""), False)
+            elif item.get("expressionType") == "SQL":
+                sql_expr = item.get("sqlExpression")
+                column_refs = self._extract_columns_from_sql(sql_expr)
+                for col in column_refs:
+                    add_column(col, False)
+                if not column_refs:
+                    add_column(item.get("label", ""), True)
+    def _collect_all_unique_columns(self, form_data: dict) -> Dict[str, bool]:
+        """Collect all unique column names from form_data, distinguishing SQL vs non-SQL."""
+        unique_columns: Dict[str, bool] = {}
+        # Process regular columns
+        for column in form_data.get("all_columns", []):
+            self._process_column_item(column, unique_columns)
+        # Process metrics
+        # For charts with a single metric, the metric is stored in the form_data as a string in the 'metric' key
+        # For charts with multiple metrics, the metrics are stored in the form_data as a list of strings in the 'metrics' key
+        if "metric" in form_data:
+            metrics_data = [form_data.get("metric")]
         else:
-            # if no datasource id, cannot build cll, just return
+            metrics_data = form_data.get("metrics", [])
+        for metric in metrics_data:
+            if metric is not None:
+                self._process_column_item(metric, unique_columns)
+        # Process group by columns
+        for group in form_data.get("groupby", []):
+            self._process_column_item(group, unique_columns)
+        # Process x-axis columns
+        x_axis_data = form_data.get("x_axis")
+        if x_axis_data is not None:
+            self._process_column_item(x_axis_data, unique_columns)
+        return unique_columns
+    def _fetch_dataset_columns(
+        self, datasource_id: Union[Any, int]
+    ) -> List[Tuple[str, str, str]]:
+        """Fetch dataset columns and metrics from Superset API."""
+        if not datasource_id:
             logger.warning(
                 "no datasource id was found, cannot build column level lineage"
             )
             return []
+        dataset_info = self.get_dataset_info(datasource_id).get("result", {})
+        dataset_column_info = dataset_info.get("columns", [])
+        dataset_metric_info = dataset_info.get("metrics", [])
+        dataset_columns: List[Tuple[str, str, str]] = []
+        for column in dataset_column_info:
+            col_name = column.get("column_name", "")
+            col_type = column.get("type", "")
+            col_description = column.get("description", "")
+            if col_name == "" or col_type == "":
+                logger.info(f"could not construct column lineage for {column}")
+                continue
+            dataset_columns.append((col_name, col_type, col_description))
+        for metric in dataset_metric_info:
+            metric_name = metric.get("metric_name", "")
+            metric_type = metric.get("metric_type", "")
+            metric_description = metric.get("description", "")
+            if metric_name == "" or metric_type == "":
+                logger.info(f"could not construct metric lineage for {metric}")
+                continue
+            dataset_columns.append((metric_name, metric_type, metric_description))
+        return dataset_columns
+    def _match_chart_columns_with_dataset(
+        self,
+        unique_chart_columns: Dict[str, bool],
+        dataset_columns: List[Tuple[str, str, str]],
+    ) -> List[Tuple[str, str, str]]:
+        """Match chart columns with dataset columns, preserving SQL/non-SQL status."""
         chart_columns: List[Tuple[str, str, str]] = []
-        for chart_col in chart_column_data:
-            chart_col_name, is_sql = chart_col
+        for chart_col_name, is_sql in unique_chart_columns.items():
             if is_sql:
-                chart_columns.append(
-                    (
-                        chart_col_name,
-                        "SQL",
-                        "",
-                    )
-                )
+                chart_columns.append((chart_col_name, "SQL", ""))
                 continue
             # find matching upstream column
@@ -699,13 +804,36 @@ class SupersetSource(StatefulIngestionSourceBase):
                 if dataset_col_name == chart_col_name:
                     chart_columns.append(
                         (chart_col_name, dataset_col_type, dataset_col_description)
-                    )  # column name, column type, description
+                    )
                     break
-            # if no matching upstream column was found
-            if len(chart_columns) == 0 or chart_columns[-1][0] != chart_col_name:
+            else:
                 chart_columns.append((chart_col_name, "", ""))
+        return chart_columns
+    def construct_chart_cll(
+        self,
+        chart_data: dict,
+        datasource_urn: Union[str, None],
+        datasource_id: Union[Any, int],
+    ) -> List[InputField]:
+        """Construct column-level lineage for a chart."""
+        form_data = chart_data.get("form_data", {})
+        # Extract and process all columns in one go
+        unique_columns = self._collect_all_unique_columns(form_data)
+        # Fetch dataset columns
+        dataset_columns = self._fetch_dataset_columns(datasource_id)
+        if not dataset_columns:
+            return []
+        # Match chart columns with dataset columns
+        chart_columns = self._match_chart_columns_with_dataset(
+            unique_columns, dataset_columns
+        )
+        # Build input fields
         return self.build_input_fields(chart_columns, datasource_urn)
     def construct_chart_from_chart_data(
@@ -822,6 +950,12 @@ class SupersetSource(StatefulIngestionSourceBase):
             lastModified=last_modified,
         )
         chart_snapshot.aspects.append(owners_info)
+        superset_tags = self._extract_and_map_tags(chart_data.get("tags", []))
+        tags = self._merge_tags_with_existing(chart_urn, superset_tags)
+        if tags:
+            chart_snapshot.aspects.append(tags)
         yield MetadataWorkUnit(
             id=chart_urn, mce=MetadataChangeEvent(proposedSnapshot=chart_snapshot)
         )
@@ -966,7 +1100,27 @@ class SupersetSource(StatefulIngestionSourceBase):
                 fieldPath=col.get("column_name", ""),
                 type=SchemaFieldDataType(data_type),
                 nativeDataType="",
-                description=col.get("column_name", ""),
+                description=col.get("description") or col.get("column_name", ""),
+                nullable=True,
+            )
+            schema_fields.append(field)
+        return schema_fields
+    def gen_metric_schema_fields(
+        self, metric_data: List[Dict[str, Any]]
+    ) -> List[SchemaField]:
+        schema_fields: List[SchemaField] = []
+        for metric in metric_data:
+            metric_type = metric.get("metric_type", "")
+            data_type = resolve_sql_type(metric_type)
+            if data_type is None:
+                data_type = NullType()
+            field = SchemaField(
+                fieldPath=metric.get("metric_name", ""),
+                type=SchemaFieldDataType(data_type),
+                nativeDataType=metric_type or "",
+                description=metric.get("description", ""),
                 nullable=True,
             )
             schema_fields.append(field)
@@ -978,13 +1132,18 @@ class SupersetSource(StatefulIngestionSourceBase):
     ) -> SchemaMetadata:
         dataset_response = dataset_response.get("result", {})
         column_data = dataset_response.get("columns", [])
+        metric_data = dataset_response.get("metrics", [])
+        column_fields = self.gen_schema_fields(column_data)
+        metric_fields = self.gen_metric_schema_fields(metric_data)
         schema_metadata = SchemaMetadata(
             schemaName=dataset_response.get("table_name", ""),
             platform=make_data_platform_urn(self.platform),
             version=0,
             hash="",
             platformSchema=MySqlDDL(tableSchema=""),
-            fields=self.gen_schema_fields(column_data),
+            fields=column_fields + metric_fields,
         )
         return schema_metadata
@@ -1049,6 +1208,8 @@ class SupersetSource(StatefulIngestionSourceBase):
         # To generate column level lineage, we can manually decode the metadata
         # to produce the ColumnLineageInfo
         columns = dataset_response.get("result", {}).get("columns", [])
+        metrics = dataset_response.get("result", {}).get("metrics", [])
         fine_grained_lineages: List[FineGrainedLineageClass] = []
         for column in columns:
@@ -1067,6 +1228,22 @@ class SupersetSource(StatefulIngestionSourceBase):
                 )
             )
+        for metric in metrics:
+            metric_name = metric.get("metric_name", "")
+            if not metric_name:
+                continue
+            downstream = [make_schema_field_urn(datasource_urn, metric_name)]
+            upstreams = [make_schema_field_urn(upstream_dataset, metric_name)]
+            fine_grained_lineages.append(
+                FineGrainedLineageClass(
+                    downstreamType=FineGrainedLineageDownstreamTypeClass.FIELD,
+                    downstreams=downstream,
+                    upstreamType=FineGrainedLineageUpstreamTypeClass.FIELD_SET,
+                    upstreams=upstreams,
+                )
+            )
         upstream_lineage = UpstreamLineageClass(
             upstreams=[
                 UpstreamClass(
@@ -1087,7 +1264,7 @@ class SupersetSource(StatefulIngestionSourceBase):
         datasource_urn = self.get_datasource_urn_from_id(
             dataset_response, self.platform
         )
-        dataset_url = f"{self.config.display_uri}{dataset_response.get('result', {}).get('url', '')}"
+        dataset_url = f"{self.config.display_uri}/explore/?datasource_type=table&datasource_id={dataset.id}"
         modified_actor = f"urn:li:corpuser:{self.owner_info.get((dataset_data.get('changed_by') or {}).get('id', -1), 'unknown')}"
         now = datetime.now().strftime("%I:%M%p on %B %d, %Y")
@@ -1144,21 +1321,22 @@ class SupersetSource(StatefulIngestionSourceBase):
         dataset_info = DatasetPropertiesClass(
             name=dataset.table_name,
-            description="",
+            description=dataset.description or "",
             externalUrl=dataset_url,
             lastModified=TimeStamp(time=modified_ts),
         )
-        global_tags = GlobalTagsClass(tags=[TagAssociationClass(tag=tag_urn)])
-        aspects_items: List[Any] = []
-        aspects_items.extend(
-            [
-                self.gen_schema_metadata(dataset_response),
-                dataset_info,
-                upstream_lineage,
-                global_tags,
-            ]
-        )
+        dataset_tags = GlobalTagsClass(tags=[TagAssociationClass(tag=tag_urn)])
+        tags = self._merge_tags_with_existing(datasource_urn, dataset_tags)
+        aspects_items: List[Any] = [
+            self.gen_schema_metadata(dataset_response),
+            dataset_info,
+            upstream_lineage,
+        ]
+        if tags:
+            aspects_items.append(tags)
         dataset_snapshot = DatasetSnapshot(
             urn=datasource_urn,
@@ -1180,6 +1358,75 @@ class SupersetSource(StatefulIngestionSourceBase):
         return dataset_snapshot
+    def _extract_and_map_tags(
+        self, raw_tags: List[Dict[str, Any]]
+    ) -> Optional[GlobalTagsClass]:
+        """Extract and map Superset tags to DataHub GlobalTagsClass.
+        Filters out system-generated tags (type != 1) and only processes user-defined tags
+        from the Superset API response.
+        Args:
+            raw_tags: List of tag dictionaries from Superset API
+        Returns:
+            GlobalTagsClass with user-defined tags, or None if no tags found
+        """
+        user_tags = [
+            tag.get("name", "")
+            for tag in raw_tags
+            if tag.get("type") == 1 and tag.get("name")
+        ]
+        if not user_tags:
+            return None
+        tag_urns = [builder.make_tag_urn(tag) for tag in user_tags]
+        return GlobalTagsClass(
+            tags=[TagAssociationClass(tag=tag_urn) for tag_urn in tag_urns]
+        )
+    def _merge_tags_with_existing(
+        self, entity_urn: str, new_tags: Optional[GlobalTagsClass]
+    ) -> Optional[GlobalTagsClass]:
+        """Merge new tags with existing ones from DataHub to preserve manually added tags.
+        This method ensures that tags manually added via DataHub UI are not overwritten
+        during ingestion. It fetches existing tags from the graph and merges them with
+        new tags from the source system, avoiding duplicates.
+        Args:
+            entity_urn: URN of the entity to check for existing tags
+            new_tags: New tags to add as GlobalTagsClass object
+        Returns:
+            GlobalTagsClass with merged tags preserving existing ones, or None if no tags
+        """
+        if not new_tags or not new_tags.tags:
+            return None
+        # Fetch existing tags from DataHub
+        existing_global_tags = None
+        if self.ctx.graph:
+            existing_global_tags = self.ctx.graph.get_aspect(
+                entity_urn=entity_urn, aspect_type=GlobalTagsClass
+            )
+        # Merge existing tags with new ones, avoiding duplicates
+        all_tags = []
+        existing_tag_urns = set()
+        if existing_global_tags and existing_global_tags.tags:
+            all_tags.extend(existing_global_tags.tags)
+            existing_tag_urns = {tag.tag for tag in existing_global_tags.tags}
+        # Add new tags that don't already exist
+        for new_tag in new_tags.tags:
+            if new_tag.tag not in existing_tag_urns:
+                all_tags.append(new_tag)
+        return GlobalTagsClass(tags=all_tags) if all_tags else None
     def _process_dataset(self, dataset_data: Any) -> Iterable[MetadataWorkUnit]:
         dataset_name = ""
         try:

acryl-datahub 1.1.1rc4__py3-none-any.whl → 1.3.0.1rc9__py3-none-any.whl

Potentially problematic release.

acryl-datahub 1.1.1rc4py3-none-any.whl → 1.3.0.1rc9py3-none-any.whl