PyPI - acryl-datahub - Versions diffs - 1.0.0.2rc4__py3-none-any.whl → 1.0.0.3__py3-none-any.whl - Mend

acryl-datahub 1.0.0.2rc4py3-none-any.whl → 1.0.0.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of acryl-datahub might be problematic. Click here for more details.

Files changed (159) hide show

{acryl_datahub-1.0.0.2rc4.dist-info → acryl_datahub-1.0.0.3.dist-info}/METADATA +2566 -2514
{acryl_datahub-1.0.0.2rc4.dist-info → acryl_datahub-1.0.0.3.dist-info}/RECORD +159 -149
{acryl_datahub-1.0.0.2rc4.dist-info → acryl_datahub-1.0.0.3.dist-info}/WHEEL +1 -1
datahub/_version.py +1 -1
datahub/api/circuit_breaker/operation_circuit_breaker.py +2 -2
datahub/api/entities/datacontract/datacontract.py +35 -3
datahub/api/entities/datajob/dataflow.py +3 -3
datahub/api/entities/datajob/datajob.py +7 -4
datahub/api/entities/dataset/dataset.py +9 -11
datahub/api/entities/forms/forms.py +34 -34
datahub/api/graphql/assertion.py +1 -1
datahub/api/graphql/operation.py +4 -4
datahub/cli/check_cli.py +3 -2
datahub/cli/config_utils.py +2 -2
datahub/cli/delete_cli.py +6 -5
datahub/cli/docker_cli.py +2 -2
datahub/cli/exists_cli.py +2 -1
datahub/cli/get_cli.py +2 -1
datahub/cli/iceberg_cli.py +6 -5
datahub/cli/ingest_cli.py +9 -6
datahub/cli/migrate.py +4 -3
datahub/cli/migration_utils.py +4 -3
datahub/cli/put_cli.py +3 -2
datahub/cli/specific/assertions_cli.py +2 -1
datahub/cli/specific/datacontract_cli.py +3 -2
datahub/cli/specific/dataproduct_cli.py +10 -9
datahub/cli/specific/dataset_cli.py +4 -3
datahub/cli/specific/forms_cli.py +2 -1
datahub/cli/specific/group_cli.py +2 -1
datahub/cli/specific/structuredproperties_cli.py +4 -3
datahub/cli/specific/user_cli.py +2 -1
datahub/cli/state_cli.py +2 -1
datahub/cli/timeline_cli.py +2 -1
datahub/configuration/common.py +5 -0
datahub/configuration/source_common.py +1 -1
datahub/emitter/mcp.py +20 -5
datahub/emitter/request_helper.py +116 -3
datahub/emitter/rest_emitter.py +163 -93
datahub/entrypoints.py +2 -1
datahub/errors.py +4 -0
datahub/ingestion/api/auto_work_units/auto_ensure_aspect_size.py +2 -1
datahub/ingestion/api/source.py +2 -5
datahub/ingestion/api/source_helpers.py +1 -0
datahub/ingestion/glossary/classification_mixin.py +4 -2
datahub/ingestion/graph/client.py +33 -8
datahub/ingestion/graph/config.py +14 -0
datahub/ingestion/graph/filters.py +1 -1
datahub/ingestion/graph/links.py +53 -0
datahub/ingestion/run/pipeline.py +9 -6
datahub/ingestion/run/pipeline_config.py +1 -1
datahub/ingestion/sink/datahub_rest.py +5 -6
datahub/ingestion/source/apply/datahub_apply.py +2 -1
datahub/ingestion/source/aws/sagemaker_processors/feature_groups.py +1 -1
datahub/ingestion/source/bigquery_v2/bigquery.py +24 -23
datahub/ingestion/source/bigquery_v2/bigquery_config.py +4 -62
datahub/ingestion/source/bigquery_v2/bigquery_connection.py +70 -0
datahub/ingestion/source/bigquery_v2/bigquery_queries.py +3 -1
datahub/ingestion/source/cassandra/cassandra_profiling.py +25 -24
datahub/ingestion/source/common/subtypes.py +3 -0
datahub/ingestion/source/datahub/datahub_database_reader.py +12 -11
datahub/ingestion/source/dbt/dbt_cloud.py +2 -6
datahub/ingestion/source/dbt/dbt_common.py +10 -2
datahub/ingestion/source/dbt/dbt_core.py +82 -42
datahub/ingestion/source/dynamodb/dynamodb.py +7 -4
datahub/ingestion/source/feast.py +4 -4
datahub/ingestion/source/fivetran/config.py +1 -1
datahub/ingestion/source/fivetran/fivetran_log_api.py +7 -3
datahub/ingestion/source/fivetran/fivetran_query.py +16 -16
datahub/ingestion/source/ge_data_profiler.py +27 -1
datahub/ingestion/source/hex/api.py +1 -20
datahub/ingestion/source/hex/query_fetcher.py +4 -1
datahub/ingestion/source/iceberg/iceberg.py +20 -4
datahub/ingestion/source/iceberg/iceberg_common.py +2 -2
datahub/ingestion/source/ldap.py +1 -1
datahub/ingestion/source/looker/looker_common.py +17 -2
datahub/ingestion/source/looker/looker_lib_wrapper.py +1 -1
datahub/ingestion/source/looker/looker_source.py +34 -5
datahub/ingestion/source/looker/lookml_source.py +7 -1
datahub/ingestion/source/metadata/lineage.py +2 -1
datahub/ingestion/source/mlflow.py +19 -6
datahub/ingestion/source/mode.py +74 -28
datahub/ingestion/source/neo4j/neo4j_source.py +85 -55
datahub/ingestion/source/powerbi/config.py +13 -1
datahub/ingestion/source/powerbi/m_query/data_classes.py +1 -0
datahub/ingestion/source/powerbi/m_query/odbc.py +185 -0
datahub/ingestion/source/powerbi/m_query/pattern_handler.py +153 -0
datahub/ingestion/source/powerbi/rest_api_wrapper/data_resolver.py +2 -2
datahub/ingestion/source/redshift/usage.py +10 -9
datahub/ingestion/source/sigma/config.py +74 -6
datahub/ingestion/source/sigma/sigma.py +16 -1
datahub/ingestion/source/sigma/sigma_api.py +99 -58
datahub/ingestion/source/slack/slack.py +4 -52
datahub/ingestion/source/snowflake/snowflake_config.py +2 -12
datahub/ingestion/source/snowflake/snowflake_connection.py +24 -18
datahub/ingestion/source/snowflake/snowflake_profiler.py +1 -6
datahub/ingestion/source/snowflake/snowflake_queries.py +18 -4
datahub/ingestion/source/snowflake/snowflake_query.py +9 -63
datahub/ingestion/source/snowflake/snowflake_tag.py +4 -1
datahub/ingestion/source/sql/athena.py +2 -1
datahub/ingestion/source/sql/clickhouse.py +5 -1
datahub/ingestion/source/sql/druid.py +7 -2
datahub/ingestion/source/sql/hive.py +7 -2
datahub/ingestion/source/sql/hive_metastore.py +5 -5
datahub/ingestion/source/sql/mssql/source.py +1 -1
datahub/ingestion/source/sql/oracle.py +6 -2
datahub/ingestion/source/sql/sql_config.py +1 -34
datahub/ingestion/source/sql/sqlalchemy_uri.py +36 -0
datahub/ingestion/source/sql/stored_procedures/base.py +12 -1
datahub/ingestion/source/sql/two_tier_sql_source.py +1 -1
datahub/ingestion/source/state_provider/datahub_ingestion_checkpointing_provider.py +2 -1
datahub/ingestion/source/tableau/tableau.py +31 -6
datahub/ingestion/source/tableau/tableau_validation.py +1 -1
datahub/ingestion/source/unity/config.py +2 -1
datahub/ingestion/source/usage/clickhouse_usage.py +7 -3
datahub/ingestion/source/usage/starburst_trino_usage.py +5 -3
datahub/ingestion/source/vertexai/vertexai.py +316 -4
datahub/ingestion/source/vertexai/vertexai_result_type_utils.py +23 -2
datahub/integrations/assertion/common.py +3 -2
datahub/metadata/{_schema_classes.py → _internal_schema_classes.py} +538 -493
datahub/metadata/_urns/urn_defs.py +1819 -1763
datahub/metadata/com/linkedin/pegasus2avro/metadata/key/__init__.py +2 -0
datahub/metadata/schema.avsc +17296 -16883
datahub/metadata/schema_classes.py +3 -3
datahub/metadata/schemas/DataContractKey.avsc +2 -1
datahub/metadata/schemas/DataHubOpenAPISchemaKey.avsc +22 -0
datahub/metadata/schemas/DataTransformLogic.avsc +4 -2
datahub/metadata/schemas/FormInfo.avsc +5 -0
datahub/metadata/schemas/MLModelDeploymentProperties.avsc +3 -0
datahub/metadata/schemas/MetadataChangeEvent.avsc +6 -0
datahub/metadata/schemas/MetadataChangeLog.avsc +3 -0
datahub/metadata/schemas/MetadataChangeProposal.avsc +3 -0
datahub/metadata/schemas/QueryProperties.avsc +4 -2
datahub/metadata/schemas/SystemMetadata.avsc +86 -0
datahub/metadata/schemas/__init__.py +3 -3
datahub/sdk/_all_entities.py +4 -0
datahub/sdk/_shared.py +142 -4
datahub/sdk/_utils.py +4 -0
datahub/sdk/dataset.py +2 -2
datahub/sdk/entity_client.py +8 -0
datahub/sdk/lineage_client.py +235 -0
datahub/sdk/main_client.py +6 -3
datahub/sdk/mlmodel.py +301 -0
datahub/sdk/mlmodelgroup.py +233 -0
datahub/secret/datahub_secret_store.py +2 -1
datahub/specific/dataset.py +12 -0
datahub/sql_parsing/fingerprint_utils.py +6 -0
datahub/sql_parsing/sql_parsing_aggregator.py +48 -34
datahub/sql_parsing/sqlglot_utils.py +18 -14
datahub/telemetry/telemetry.py +2 -2
datahub/testing/check_imports.py +1 -1
datahub/testing/mcp_diff.py +15 -2
datahub/upgrade/upgrade.py +10 -12
datahub/utilities/logging_manager.py +8 -1
datahub/utilities/server_config_util.py +350 -10
datahub/utilities/sqlalchemy_query_combiner.py +4 -5
datahub/utilities/urn_encoder.py +1 -1
{acryl_datahub-1.0.0.2rc4.dist-info → acryl_datahub-1.0.0.3.dist-info}/entry_points.txt +0 -0
{acryl_datahub-1.0.0.2rc4.dist-info → acryl_datahub-1.0.0.3.dist-info}/licenses/LICENSE +0 -0
{acryl_datahub-1.0.0.2rc4.dist-info → acryl_datahub-1.0.0.3.dist-info}/top_level.txt +0 -0

datahub/ingestion/source/vertexai/vertexai.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import dataclasses
 import logging
+from datetime import datetime, timedelta
 from typing import Dict, Iterable, List, Optional, Tuple, TypeVar, Union
 from google.api_core.exceptions import GoogleAPICallError
@@ -12,15 +13,22 @@ from google.cloud.aiplatform import (
     AutoMLVideoTrainingJob,
     Endpoint,
     ExperimentRun,
+    PipelineJob,
 )
 from google.cloud.aiplatform.base import VertexAiResourceNoun
 from google.cloud.aiplatform.metadata.execution import Execution
 from google.cloud.aiplatform.metadata.experiment_resources import Experiment
 from google.cloud.aiplatform.models import Model, VersionInfo
 from google.cloud.aiplatform.training_jobs import _TrainingJob
+from google.cloud.aiplatform_v1.types import (
+    PipelineJob as PipelineJobType,
+    PipelineTaskDetail,
+)
 from google.oauth2 import service_account
+from google.protobuf import timestamp_pb2
 import datahub.emitter.mce_builder as builder
+from datahub.api.entities.datajob import DataFlow, DataJob
 from datahub.emitter.mcp import MetadataChangeProposalWrapper
 from datahub.emitter.mcp_builder import (
     ExperimentKey,
@@ -43,6 +51,7 @@ from datahub.ingestion.source.vertexai.vertexai_config import VertexAIConfig
 from datahub.ingestion.source.vertexai.vertexai_result_type_utils import (
     get_execution_result_status,
     get_job_result_status,
+    get_pipeline_task_result_status,
     is_status_for_run_event_class,
 )
 from datahub.metadata.com.linkedin.pegasus2avro.dataprocess import (
@@ -76,7 +85,13 @@ from datahub.metadata.schema_classes import (
     VersionPropertiesClass,
     VersionTagClass,
 )
-from datahub.metadata.urns import DataPlatformUrn, MlModelUrn, VersionSetUrn
+from datahub.metadata.urns import (
+    DataFlowUrn,
+    DataJobUrn,
+    DataPlatformUrn,
+    MlModelUrn,
+    VersionSetUrn,
+)
 from datahub.utilities.time import datetime_to_ts_millis
 T = TypeVar("T")
@@ -100,6 +115,34 @@ class ModelMetadata:
     endpoints: Optional[List[Endpoint]] = None
+@dataclasses.dataclass
+class PipelineTaskMetadata:
+    name: str
+    urn: DataJobUrn
+    id: Optional[int] = None
+    type: Optional[str] = None
+    state: Optional[PipelineTaskDetail.State] = None
+    start_time: Optional[timestamp_pb2.Timestamp] = None
+    create_time: Optional[timestamp_pb2.Timestamp] = None
+    end_time: Optional[timestamp_pb2.Timestamp] = None
+    upstreams: Optional[List[DataJobUrn]] = None
+    duration: Optional[int] = None
+@dataclasses.dataclass
+class PipelineMetadata:
+    name: str
+    resource_name: str
+    tasks: List[PipelineTaskMetadata]
+    urn: DataFlowUrn
+    id: Optional[str] = None
+    labels: Optional[Dict[str, str]] = None
+    create_time: Optional[datetime] = None
+    update_time: Optional[datetime] = None
+    duration: Optional[timedelta] = None
+    region: Optional[str] = None
 @platform_name("Vertex AI", id="vertexai")
 @config_class(VertexAIConfig)
 @support_status(SupportStatus.TESTING)
@@ -150,6 +193,255 @@ class VertexAISource(Source):
         yield from self._get_experiments_workunits()
         # Fetch and Ingest Experiment Runs
         yield from auto_workunit(self._get_experiment_runs_mcps())
+        # Fetch Pipelines and Tasks
+        yield from auto_workunit(self._get_pipelines_mcps())
+    def _get_pipelines_mcps(self) -> Iterable[MetadataChangeProposalWrapper]:
+        """
+        Fetches pipelines from Vertex AI and generates corresponding mcps.
+        """
+        pipeline_jobs = self.client.PipelineJob.list()
+        for pipeline in pipeline_jobs:
+            logger.info(f"fetching pipeline ({pipeline.name})")
+            pipeline_meta = self._get_pipeline_metadata(pipeline)
+            yield from self._get_pipeline_mcps(pipeline_meta)
+            yield from self._gen_pipeline_task_mcps(pipeline_meta)
+    def _get_pipeline_tasks_metadata(
+        self, pipeline: PipelineJob, pipeline_urn: DataFlowUrn
+    ) -> List[PipelineTaskMetadata]:
+        tasks: List[PipelineTaskMetadata] = list()
+        task_map: Dict[str, PipelineTaskDetail] = dict()
+        for task in pipeline.task_details:
+            task_map[task.task_name] = task
+        resource = pipeline.gca_resource
+        if isinstance(resource, PipelineJobType):
+            for task_name in resource.pipeline_spec["root"]["dag"]["tasks"]:
+                logger.debug(
+                    f"fetching pipeline task ({task_name}) in pipeline ({pipeline.name})"
+                )
+                task_urn = DataJobUrn.create_from_ids(
+                    data_flow_urn=str(pipeline_urn),
+                    job_id=self._make_vertexai_pipeline_task_id(task_name),
+                )
+                task_meta = PipelineTaskMetadata(name=task_name, urn=task_urn)
+                if (
+                    "dependentTasks"
+                    in resource.pipeline_spec["root"]["dag"]["tasks"][task_name]
+                ):
+                    upstream_tasks = resource.pipeline_spec["root"]["dag"]["tasks"][
+                        task_name
+                    ]["dependentTasks"]
+                    upstream_urls = [
+                        DataJobUrn.create_from_ids(
+                            data_flow_urn=str(pipeline_urn),
+                            job_id=self._make_vertexai_pipeline_task_id(upstream_task),
+                        )
+                        for upstream_task in upstream_tasks
+                    ]
+                    task_meta.upstreams = upstream_urls
+                task_detail = task_map.get(task_name)
+                if task_detail:
+                    task_meta.id = task_detail.task_id
+                    task_meta.state = task_detail.state
+                    task_meta.start_time = task_detail.start_time
+                    task_meta.create_time = task_detail.create_time
+                    if task_detail.end_time:
+                        task_meta.end_time = task_detail.end_time
+                        task_meta.duration = int(
+                            (
+                                task_meta.end_time.timestamp()
+                                - task_meta.start_time.timestamp()
+                            )
+                            * 1000
+                        )
+                tasks.append(task_meta)
+        return tasks
+    def _get_pipeline_metadata(self, pipeline: PipelineJob) -> PipelineMetadata:
+        dataflow_urn = DataFlowUrn.create_from_ids(
+            orchestrator=self.platform,
+            env=self.config.env,
+            flow_id=self._make_vertexai_pipeline_id(pipeline.name),
+            platform_instance=self.platform,
+        )
+        tasks = self._get_pipeline_tasks_metadata(
+            pipeline=pipeline, pipeline_urn=dataflow_urn
+        )
+        pipeline_meta = PipelineMetadata(
+            name=pipeline.name,
+            resource_name=pipeline.resource_name,
+            urn=dataflow_urn,
+            tasks=tasks,
+        )
+        pipeline_meta.resource_name = pipeline.resource_name
+        pipeline_meta.labels = pipeline.labels
+        pipeline_meta.create_time = pipeline.create_time
+        pipeline_meta.region = pipeline.location
+        if pipeline.update_time:
+            pipeline_meta.update_time = pipeline.update_time
+            pipeline_meta.duration = timedelta(
+                milliseconds=datetime_to_ts_millis(pipeline.update_time)
+                - datetime_to_ts_millis(pipeline.create_time)
+            )
+        return pipeline_meta
+    def _gen_pipeline_task_run_mcps(
+        self, task: PipelineTaskMetadata, datajob: DataJob, pipeline: PipelineMetadata
+    ) -> (Iterable)[MetadataChangeProposalWrapper]:
+        dpi_urn = builder.make_data_process_instance_urn(
+            self._make_vertexai_pipeline_task_run_id(entity_id=task.name)
+        )
+        result_status: Union[str, RunResultTypeClass] = get_pipeline_task_result_status(
+            task.state
+        )
+        yield from MetadataChangeProposalWrapper.construct_many(
+            dpi_urn,
+            aspects=[
+                DataProcessInstancePropertiesClass(
+                    name=task.name,
+                    created=AuditStampClass(
+                        time=(
+                            int(task.create_time.timestamp() * 1000)
+                            if task.create_time
+                            else 0
+                        ),
+                        actor="urn:li:corpuser:datahub",
+                    ),
+                    externalUrl=self._make_pipeline_external_url(pipeline.name),
+                    customProperties={},
+                ),
+                SubTypesClass(typeNames=[MLAssetSubTypes.VERTEX_PIPELINE_TASK_RUN]),
+                ContainerClass(container=self._get_project_container().as_urn()),
+                DataPlatformInstanceClass(platform=str(DataPlatformUrn(self.platform))),
+                DataProcessInstanceRelationships(
+                    upstreamInstances=[], parentTemplate=str(datajob.urn)
+                ),
+                (
+                    DataProcessInstanceRunEventClass(
+                        status=DataProcessRunStatusClass.COMPLETE,
+                        timestampMillis=(
+                            int(task.create_time.timestamp() * 1000)
+                            if task.create_time
+                            else 0
+                        ),
+                        result=DataProcessInstanceRunResultClass(
+                            type=result_status,
+                            nativeResultType=self.platform,
+                        ),
+                        durationMillis=task.duration,
+                    )
+                    if is_status_for_run_event_class(result_status) and task.duration
+                    else None
+                ),
+            ],
+        )
+    def _gen_pipeline_task_mcps(
+        self, pipeline: PipelineMetadata
+    ) -> Iterable[MetadataChangeProposalWrapper]:
+        dataflow_urn = pipeline.urn
+        for task in pipeline.tasks:
+            datajob = DataJob(
+                id=self._make_vertexai_pipeline_task_id(task.name),
+                flow_urn=dataflow_urn,
+                name=task.name,
+                properties={},
+                owners={"urn:li:corpuser:datahub"},
+                upstream_urns=task.upstreams if task.upstreams else [],
+                url=self._make_pipeline_external_url(pipeline.name),
+            )
+            yield from MetadataChangeProposalWrapper.construct_many(
+                entityUrn=str(datajob.urn),
+                aspects=[
+                    ContainerClass(container=self._get_project_container().as_urn()),
+                    SubTypesClass(typeNames=[MLAssetSubTypes.VERTEX_PIPELINE_TASK]),
+                ],
+            )
+            yield from datajob.generate_mcp()
+            yield from self._gen_pipeline_task_run_mcps(task, datajob, pipeline)
+    def _format_pipeline_duration(self, td: timedelta) -> str:
+        days = td.days
+        hours, remainder = divmod(td.seconds, 3600)
+        minutes, seconds = divmod(remainder, 60)
+        milliseconds = td.microseconds // 1000
+        parts = []
+        if days:
+            parts.append(f"{days}d")
+        if hours:
+            parts.append(f"{hours}h")
+        if minutes:
+            parts.append(f"{minutes}m")
+        if seconds:
+            parts.append(f"{seconds}s")
+        if milliseconds:
+            parts.append(f"{milliseconds}ms")
+        return " ".join(parts) if parts else "0s"
+    def _get_pipeline_task_properties(
+        self, task: PipelineTaskMetadata
+    ) -> Dict[str, str]:
+        return {
+            "created_time": (
+                task.create_time.strftime("%Y-%m-%d %H:%M:%S")
+                if task.create_time
+                else ""
+            )
+        }
+    def _get_pipeline_properties(self, pipeline: PipelineMetadata) -> Dict[str, str]:
+        return {
+            "resource_name": pipeline.resource_name if pipeline.resource_name else "",
+            "create_time": (
+                pipeline.create_time.isoformat() if pipeline.create_time else ""
+            ),
+            "update_time": (
+                pipeline.update_time.isoformat() if pipeline.update_time else ""
+            ),
+            "duration": (
+                self._format_pipeline_duration(pipeline.duration)
+                if pipeline.duration
+                else ""
+            ),
+            "location": (pipeline.region if pipeline.region else ""),
+            "labels": ",".join([f"{k}:{v}" for k, v in pipeline.labels.items()])
+            if pipeline.labels
+            else "",
+        }
+    def _get_pipeline_mcps(
+        self, pipeline: PipelineMetadata
+    ) -> Iterable[MetadataChangeProposalWrapper]:
+        dataflow = DataFlow(
+            orchestrator=self.platform,
+            id=self._make_vertexai_pipeline_id(pipeline.name),
+            env=self.config.env,
+            name=pipeline.name,
+            platform_instance=self.platform,
+            properties=self._get_pipeline_properties(pipeline),
+            owners={"urn:li:corpuser:datahub"},
+            url=self._make_pipeline_external_url(pipeline_name=pipeline.name),
+        )
+        yield from dataflow.generate_mcp()
+        yield from MetadataChangeProposalWrapper.construct_many(
+            entityUrn=str(dataflow.urn),
+            aspects=[
+                ContainerClass(container=self._get_project_container().as_urn()),
+                SubTypesClass(typeNames=[MLAssetSubTypes.VERTEX_PIPELINE]),
+            ],
+        )
     def _get_experiments_workunits(self) -> Iterable[MetadataWorkUnit]:
         # List all experiments
@@ -175,7 +467,7 @@ class VertexAISource(Source):
             parent_container_key=self._get_project_container(),
             container_key=ExperimentKey(
                 platform=self.platform,
-                id=self._make_vertexai_experiment_name(experiment.name),
+                id=self._make_vertexai_experiment_id(experiment.name),
             ),
             name=experiment.name,
             sub_types=[MLAssetSubTypes.VERTEX_EXPERIMENT],
@@ -311,7 +603,7 @@ class VertexAISource(Source):
     ) -> Iterable[MetadataChangeProposalWrapper]:
         experiment_key = ExperimentKey(
             platform=self.platform,
-            id=self._make_vertexai_experiment_name(experiment.name),
+            id=self._make_vertexai_experiment_id(experiment.name),
         )
         run_urn = self._make_experiment_run_urn(experiment, run)
         created_time, duration = self._get_run_timestamps(run)
@@ -968,7 +1260,7 @@ class VertexAISource(Source):
     ) -> str:
         return f"{self.config.project_id}.job.{entity_id}"
-    def _make_vertexai_experiment_name(self, entity_id: Optional[str]) -> str:
+    def _make_vertexai_experiment_id(self, entity_id: Optional[str]) -> str:
         return f"{self.config.project_id}.experiment.{entity_id}"
     def _make_vertexai_experiment_run_name(self, entity_id: Optional[str]) -> str:
@@ -977,6 +1269,15 @@ class VertexAISource(Source):
     def _make_vertexai_run_execution_name(self, entity_id: Optional[str]) -> str:
         return f"{self.config.project_id}.execution.{entity_id}"
+    def _make_vertexai_pipeline_id(self, entity_id: Optional[str]) -> str:
+        return f"{self.config.project_id}.pipeline.{entity_id}"
+    def _make_vertexai_pipeline_task_id(self, entity_id: Optional[str]) -> str:
+        return f"{self.config.project_id}.pipeline_task.{entity_id}"
+    def _make_vertexai_pipeline_task_run_id(self, entity_id: Optional[str]) -> str:
+        return f"{self.config.project_id}.pipeline_task_run.{entity_id}"
     def _make_artifact_external_url(
         self, experiment: Experiment, run: ExperimentRun
     ) -> str:
@@ -1053,3 +1354,14 @@ class VertexAISource(Source):
             f"/runs/{experiment.name}-{run.name}/charts?project={self.config.project_id}"
         )
         return external_url
+    def _make_pipeline_external_url(self, pipeline_name: str) -> str:
+        """
+        Pipeline Run external URL in Vertex AI
+        https://console.cloud.google.com/vertex-ai/pipelines/locations/us-west2/runs/pipeline-example-more-tasks-3-20250320210739?project=acryl-poc
+        """
+        external_url: str = (
+            f"{self.config.vertexai_url}/pipelines/locations/{self.config.region}/runs/{pipeline_name}"
+            f"?project={self.config.project_id}"
+        )
+        return external_url

datahub/ingestion/source/vertexai/vertexai_result_type_utils.py CHANGED Viewed

@@ -1,9 +1,9 @@
-from typing import Union
+from typing import Optional, Union
 from google.cloud.aiplatform.base import VertexAiResourceNoun
 from google.cloud.aiplatform.jobs import _RunnableJob
 from google.cloud.aiplatform.training_jobs import _TrainingJob
-from google.cloud.aiplatform_v1.types import JobState, PipelineState
+from google.cloud.aiplatform_v1.types import JobState, PipelineState, PipelineTaskDetail
 from datahub.metadata.schema_classes import RunResultTypeClass
@@ -64,5 +64,26 @@ def get_execution_result_status(status: int) -> Union[str, RunResultTypeClass]:
     return status_mapping.get(status, "UNKNOWN")
+def get_pipeline_task_result_status(
+    status: Optional[PipelineTaskDetail.State],
+) -> Union[str, RunResultTypeClass]:
+    # TODO: DataProcessInstanceRunResultClass fails with status string except for SUCCESS, FAILURE, SKIPPED,
+    #  which will be fixed in the future
+    status_mapping = {
+        # PipelineTaskDetail.State.STATE_UNSPECIFIED: "STATE_UNSPECIFIED",
+        # PipelineTaskDetail.State.PENDING: "PENDING",
+        # PipelineTaskDetail.State.RUNNING: "RUNNING",
+        # PipelineTaskDetail.State.CANCEL_PENDING: "CANCEL_PENDING",
+        # PipelineTaskDetail.State.CANCELLING: "CANCELLING",
+        # PipelineTaskDetail.State.NOT_TRIGGERED: "NOT_TRIGGERED",
+        PipelineTaskDetail.State.SUCCEEDED: RunResultTypeClass.SUCCESS,
+        PipelineTaskDetail.State.FAILED: RunResultTypeClass.FAILURE,
+        PipelineTaskDetail.State.SKIPPED: RunResultTypeClass.SKIPPED,
+    }
+    if status is None:
+        return "UNKNOWN"
+    return status_mapping.get(status, "UNKNOWN")
 def is_status_for_run_event_class(status: Union[str, RunResultTypeClass]) -> bool:
     return status in [RunResultTypeClass.SUCCESS, RunResultTypeClass.FAILURE]

datahub/integrations/assertion/common.py CHANGED Viewed

@@ -3,6 +3,7 @@ from typing import List, Optional, Tuple, TypedDict
 from datahub.api.entities.assertion.assertion import BaseEntityAssertion
 from datahub.ingestion.graph.client import get_default_graph
+from datahub.ingestion.graph.config import ClientMode
 from datahub.metadata.com.linkedin.pegasus2avro.dataset import DatasetProperties
 from datahub.metadata.com.linkedin.pegasus2avro.schema import SchemaMetadata
 from datahub.utilities.urns.urn import Urn
@@ -15,7 +16,7 @@ class ColumnDict(TypedDict):
 @lru_cache
 def get_qualified_name_from_datahub(urn: str) -> Optional[str]:
-    with get_default_graph() as graph:
+    with get_default_graph(ClientMode.CLI) as graph:
         props: Optional[DatasetProperties] = graph.get_aspect(urn, DatasetProperties)
         if props is not None:
             return props.qualifiedName
@@ -24,7 +25,7 @@ def get_qualified_name_from_datahub(urn: str) -> Optional[str]:
 @lru_cache
 def get_schema_from_datahub(urn: str) -> Optional[List[ColumnDict]]:
-    with get_default_graph() as graph:
+    with get_default_graph(ClientMode.INGESTION) as graph:
         schema: Optional[SchemaMetadata] = graph.get_aspect(urn, SchemaMetadata)
         if schema is not None:
             return [

acryl-datahub 1.0.0.2rc4__py3-none-any.whl → 1.0.0.3__py3-none-any.whl

Potentially problematic release.

acryl-datahub 1.0.0.2rc4py3-none-any.whl → 1.0.0.3py3-none-any.whl