PyPI - recurvedata-lib - Versions diffs - 0.1.487__py2.py3-none-any.whl - Mend

recurvedata-lib 0.1.487__py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of recurvedata-lib might be problematic. Click here for more details.

Files changed (333) hide show

recurvedata/__init__.py +0 -0
recurvedata/__version__.py +1 -0
recurvedata/client/__init__.py +3 -0
recurvedata/client/client.py +150 -0
recurvedata/client/server_client.py +91 -0
recurvedata/config.py +99 -0
recurvedata/connectors/__init__.py +20 -0
recurvedata/connectors/_register.py +46 -0
recurvedata/connectors/base.py +111 -0
recurvedata/connectors/config_schema.py +1575 -0
recurvedata/connectors/connectors/__init__.py +0 -0
recurvedata/connectors/connectors/aliyun_access_key.py +30 -0
recurvedata/connectors/connectors/auth.py +44 -0
recurvedata/connectors/connectors/azure_blob.py +89 -0
recurvedata/connectors/connectors/azure_synapse.py +79 -0
recurvedata/connectors/connectors/bigquery.py +359 -0
recurvedata/connectors/connectors/clickhouse.py +219 -0
recurvedata/connectors/connectors/dingtalk.py +61 -0
recurvedata/connectors/connectors/doris.py +215 -0
recurvedata/connectors/connectors/es.py +62 -0
recurvedata/connectors/connectors/feishu.py +65 -0
recurvedata/connectors/connectors/ftp.py +50 -0
recurvedata/connectors/connectors/generic.py +49 -0
recurvedata/connectors/connectors/google_cloud_storage.py +115 -0
recurvedata/connectors/connectors/google_service_account.py +225 -0
recurvedata/connectors/connectors/hive.py +207 -0
recurvedata/connectors/connectors/impala.py +210 -0
recurvedata/connectors/connectors/jenkins.py +51 -0
recurvedata/connectors/connectors/mail.py +89 -0
recurvedata/connectors/connectors/microsoft_fabric.py +284 -0
recurvedata/connectors/connectors/mongo.py +79 -0
recurvedata/connectors/connectors/mssql.py +131 -0
recurvedata/connectors/connectors/mysql.py +191 -0
recurvedata/connectors/connectors/n8n.py +141 -0
recurvedata/connectors/connectors/oss.py +74 -0
recurvedata/connectors/connectors/owncloud.py +36 -0
recurvedata/connectors/connectors/phoenix.py +36 -0
recurvedata/connectors/connectors/postgres.py +230 -0
recurvedata/connectors/connectors/python.py +50 -0
recurvedata/connectors/connectors/redshift.py +187 -0
recurvedata/connectors/connectors/s3.py +93 -0
recurvedata/connectors/connectors/sftp.py +87 -0
recurvedata/connectors/connectors/slack.py +35 -0
recurvedata/connectors/connectors/spark.py +99 -0
recurvedata/connectors/connectors/starrocks.py +175 -0
recurvedata/connectors/connectors/tencent_cos.py +40 -0
recurvedata/connectors/connectors/tidb.py +49 -0
recurvedata/connectors/const.py +315 -0
recurvedata/connectors/datasource.py +189 -0
recurvedata/connectors/dbapi.py +469 -0
recurvedata/connectors/fs.py +66 -0
recurvedata/connectors/ftp.py +40 -0
recurvedata/connectors/object_store.py +60 -0
recurvedata/connectors/pigeon.py +172 -0
recurvedata/connectors/proxy.py +104 -0
recurvedata/connectors/service.py +223 -0
recurvedata/connectors/utils.py +47 -0
recurvedata/consts.py +49 -0
recurvedata/core/__init__.py +0 -0
recurvedata/core/config.py +46 -0
recurvedata/core/configurable.py +27 -0
recurvedata/core/consts.py +2 -0
recurvedata/core/templating.py +206 -0
recurvedata/core/tracing.py +223 -0
recurvedata/core/transformer.py +186 -0
recurvedata/core/translation.py +91 -0
recurvedata/dbt/client.py +97 -0
recurvedata/dbt/consts.py +99 -0
recurvedata/dbt/cosmos_utils.py +275 -0
recurvedata/dbt/error_codes.py +18 -0
recurvedata/dbt/schemas.py +98 -0
recurvedata/dbt/service.py +451 -0
recurvedata/dbt/utils.py +246 -0
recurvedata/error_codes.py +71 -0
recurvedata/exceptions.py +72 -0
recurvedata/executors/__init__.py +4 -0
recurvedata/executors/cli/__init__.py +7 -0
recurvedata/executors/cli/connector.py +117 -0
recurvedata/executors/cli/dbt.py +118 -0
recurvedata/executors/cli/main.py +82 -0
recurvedata/executors/cli/parameters.py +18 -0
recurvedata/executors/client.py +190 -0
recurvedata/executors/consts.py +50 -0
recurvedata/executors/debug_executor.py +100 -0
recurvedata/executors/executor.py +300 -0
recurvedata/executors/link_executor.py +189 -0
recurvedata/executors/models.py +34 -0
recurvedata/executors/schemas.py +222 -0
recurvedata/executors/service/__init__.py +0 -0
recurvedata/executors/service/connector.py +380 -0
recurvedata/executors/utils.py +172 -0
recurvedata/filestorage/__init__.py +11 -0
recurvedata/filestorage/_factory.py +33 -0
recurvedata/filestorage/backends/__init__.py +0 -0
recurvedata/filestorage/backends/fsspec.py +45 -0
recurvedata/filestorage/backends/local.py +67 -0
recurvedata/filestorage/backends/oss.py +56 -0
recurvedata/filestorage/interface.py +84 -0
recurvedata/operators/__init__.py +10 -0
recurvedata/operators/base.py +28 -0
recurvedata/operators/config.py +21 -0
recurvedata/operators/context.py +255 -0
recurvedata/operators/dbt_operator/__init__.py +2 -0
recurvedata/operators/dbt_operator/model_pipeline_link_operator.py +55 -0
recurvedata/operators/dbt_operator/operator.py +353 -0
recurvedata/operators/link_operator/__init__.py +1 -0
recurvedata/operators/link_operator/operator.py +120 -0
recurvedata/operators/models.py +55 -0
recurvedata/operators/notify_operator/__init__.py +1 -0
recurvedata/operators/notify_operator/operator.py +180 -0
recurvedata/operators/operator.py +119 -0
recurvedata/operators/python_operator/__init__.py +1 -0
recurvedata/operators/python_operator/operator.py +132 -0
recurvedata/operators/sensor_operator/__init__.py +1 -0
recurvedata/operators/sensor_operator/airflow_utils.py +63 -0
recurvedata/operators/sensor_operator/operator.py +172 -0
recurvedata/operators/spark_operator/__init__.py +1 -0
recurvedata/operators/spark_operator/operator.py +200 -0
recurvedata/operators/spark_operator/spark_sample.py +47 -0
recurvedata/operators/sql_operator/__init__.py +1 -0
recurvedata/operators/sql_operator/operator.py +90 -0
recurvedata/operators/task.py +211 -0
recurvedata/operators/transfer_operator/__init__.py +40 -0
recurvedata/operators/transfer_operator/const.py +10 -0
recurvedata/operators/transfer_operator/dump_aliyun_sls.py +82 -0
recurvedata/operators/transfer_operator/dump_sheet_task_base.py +292 -0
recurvedata/operators/transfer_operator/dump_task_cass.py +155 -0
recurvedata/operators/transfer_operator/dump_task_dbapi.py +209 -0
recurvedata/operators/transfer_operator/dump_task_es.py +113 -0
recurvedata/operators/transfer_operator/dump_task_feishu_sheet.py +114 -0
recurvedata/operators/transfer_operator/dump_task_ftp.py +234 -0
recurvedata/operators/transfer_operator/dump_task_google_sheet.py +66 -0
recurvedata/operators/transfer_operator/dump_task_mongodb.py +168 -0
recurvedata/operators/transfer_operator/dump_task_oss.py +285 -0
recurvedata/operators/transfer_operator/dump_task_python.py +212 -0
recurvedata/operators/transfer_operator/dump_task_s3.py +270 -0
recurvedata/operators/transfer_operator/dump_task_sftp.py +229 -0
recurvedata/operators/transfer_operator/load_task_aliyun_oss.py +107 -0
recurvedata/operators/transfer_operator/load_task_azure_blob.py +115 -0
recurvedata/operators/transfer_operator/load_task_azure_synapse.py +90 -0
recurvedata/operators/transfer_operator/load_task_clickhouse.py +167 -0
recurvedata/operators/transfer_operator/load_task_doris.py +164 -0
recurvedata/operators/transfer_operator/load_task_email.py +188 -0
recurvedata/operators/transfer_operator/load_task_es.py +86 -0
recurvedata/operators/transfer_operator/load_task_filebrowser.py +151 -0
recurvedata/operators/transfer_operator/load_task_ftp.py +19 -0
recurvedata/operators/transfer_operator/load_task_google_bigquery.py +90 -0
recurvedata/operators/transfer_operator/load_task_google_cloud_storage.py +127 -0
recurvedata/operators/transfer_operator/load_task_google_sheet.py +130 -0
recurvedata/operators/transfer_operator/load_task_hive.py +158 -0
recurvedata/operators/transfer_operator/load_task_microsoft_fabric.py +105 -0
recurvedata/operators/transfer_operator/load_task_mssql.py +153 -0
recurvedata/operators/transfer_operator/load_task_mysql.py +157 -0
recurvedata/operators/transfer_operator/load_task_owncloud.py +135 -0
recurvedata/operators/transfer_operator/load_task_postgresql.py +109 -0
recurvedata/operators/transfer_operator/load_task_qcloud_cos.py +119 -0
recurvedata/operators/transfer_operator/load_task_recurve_data_prep.py +75 -0
recurvedata/operators/transfer_operator/load_task_redshift.py +95 -0
recurvedata/operators/transfer_operator/load_task_s3.py +150 -0
recurvedata/operators/transfer_operator/load_task_sftp.py +90 -0
recurvedata/operators/transfer_operator/load_task_starrocks.py +169 -0
recurvedata/operators/transfer_operator/load_task_yicrowds.py +97 -0
recurvedata/operators/transfer_operator/mixin.py +31 -0
recurvedata/operators/transfer_operator/operator.py +231 -0
recurvedata/operators/transfer_operator/task.py +223 -0
recurvedata/operators/transfer_operator/utils.py +134 -0
recurvedata/operators/ui.py +80 -0
recurvedata/operators/utils/__init__.py +51 -0
recurvedata/operators/utils/file_factory.py +150 -0
recurvedata/operators/utils/fs.py +10 -0
recurvedata/operators/utils/lineage.py +265 -0
recurvedata/operators/web_init.py +15 -0
recurvedata/pigeon/connector/__init__.py +294 -0
recurvedata/pigeon/connector/_registry.py +17 -0
recurvedata/pigeon/connector/aliyun_oss.py +80 -0
recurvedata/pigeon/connector/awss3.py +123 -0
recurvedata/pigeon/connector/azure_blob.py +176 -0
recurvedata/pigeon/connector/azure_synapse.py +51 -0
recurvedata/pigeon/connector/cass.py +151 -0
recurvedata/pigeon/connector/clickhouse.py +403 -0
recurvedata/pigeon/connector/clickhouse_native.py +351 -0
recurvedata/pigeon/connector/dbapi.py +571 -0
recurvedata/pigeon/connector/doris.py +166 -0
recurvedata/pigeon/connector/es.py +176 -0
recurvedata/pigeon/connector/feishu.py +1135 -0
recurvedata/pigeon/connector/ftp.py +163 -0
recurvedata/pigeon/connector/google_bigquery.py +283 -0
recurvedata/pigeon/connector/google_cloud_storage.py +130 -0
recurvedata/pigeon/connector/hbase_phoenix.py +108 -0
recurvedata/pigeon/connector/hdfs.py +204 -0
recurvedata/pigeon/connector/hive_impala.py +383 -0
recurvedata/pigeon/connector/microsoft_fabric.py +95 -0
recurvedata/pigeon/connector/mongodb.py +56 -0
recurvedata/pigeon/connector/mssql.py +467 -0
recurvedata/pigeon/connector/mysql.py +175 -0
recurvedata/pigeon/connector/owncloud.py +92 -0
recurvedata/pigeon/connector/postgresql.py +267 -0
recurvedata/pigeon/connector/power_bi.py +179 -0
recurvedata/pigeon/connector/qcloud_cos.py +79 -0
recurvedata/pigeon/connector/redshift.py +123 -0
recurvedata/pigeon/connector/sftp.py +73 -0
recurvedata/pigeon/connector/sqlite.py +42 -0
recurvedata/pigeon/connector/starrocks.py +144 -0
recurvedata/pigeon/connector/tableau.py +162 -0
recurvedata/pigeon/const.py +21 -0
recurvedata/pigeon/csv.py +172 -0
recurvedata/pigeon/docs/datasources-example.json +82 -0
recurvedata/pigeon/docs/images/pigeon_design.png +0 -0
recurvedata/pigeon/docs/lightweight-data-sync-solution.md +111 -0
recurvedata/pigeon/dumper/__init__.py +171 -0
recurvedata/pigeon/dumper/aliyun_sls.py +415 -0
recurvedata/pigeon/dumper/base.py +141 -0
recurvedata/pigeon/dumper/cass.py +213 -0
recurvedata/pigeon/dumper/dbapi.py +346 -0
recurvedata/pigeon/dumper/es.py +112 -0
recurvedata/pigeon/dumper/ftp.py +64 -0
recurvedata/pigeon/dumper/mongodb.py +103 -0
recurvedata/pigeon/handler/__init__.py +4 -0
recurvedata/pigeon/handler/base.py +153 -0
recurvedata/pigeon/handler/csv_handler.py +290 -0
recurvedata/pigeon/loader/__init__.py +87 -0
recurvedata/pigeon/loader/base.py +83 -0
recurvedata/pigeon/loader/csv_to_azure_synapse.py +214 -0
recurvedata/pigeon/loader/csv_to_clickhouse.py +152 -0
recurvedata/pigeon/loader/csv_to_doris.py +215 -0
recurvedata/pigeon/loader/csv_to_es.py +51 -0
recurvedata/pigeon/loader/csv_to_google_bigquery.py +169 -0
recurvedata/pigeon/loader/csv_to_hive.py +468 -0
recurvedata/pigeon/loader/csv_to_microsoft_fabric.py +242 -0
recurvedata/pigeon/loader/csv_to_mssql.py +174 -0
recurvedata/pigeon/loader/csv_to_mysql.py +180 -0
recurvedata/pigeon/loader/csv_to_postgresql.py +248 -0
recurvedata/pigeon/loader/csv_to_redshift.py +240 -0
recurvedata/pigeon/loader/csv_to_starrocks.py +233 -0
recurvedata/pigeon/meta.py +116 -0
recurvedata/pigeon/row_factory.py +42 -0
recurvedata/pigeon/schema/__init__.py +124 -0
recurvedata/pigeon/schema/types.py +13 -0
recurvedata/pigeon/sync.py +283 -0
recurvedata/pigeon/transformer.py +146 -0
recurvedata/pigeon/utils/__init__.py +134 -0
recurvedata/pigeon/utils/bloomfilter.py +181 -0
recurvedata/pigeon/utils/date_time.py +323 -0
recurvedata/pigeon/utils/escape.py +15 -0
recurvedata/pigeon/utils/fs.py +266 -0
recurvedata/pigeon/utils/json.py +44 -0
recurvedata/pigeon/utils/keyed_tuple.py +85 -0
recurvedata/pigeon/utils/mp.py +156 -0
recurvedata/pigeon/utils/sql.py +328 -0
recurvedata/pigeon/utils/timing.py +155 -0
recurvedata/provider_manager.py +0 -0
recurvedata/providers/__init__.py +0 -0
recurvedata/providers/dbapi/__init__.py +0 -0
recurvedata/providers/flywheel/__init__.py +0 -0
recurvedata/providers/mysql/__init__.py +0 -0
recurvedata/schedulers/__init__.py +1 -0
recurvedata/schedulers/airflow.py +974 -0
recurvedata/schedulers/airflow_db_process.py +331 -0
recurvedata/schedulers/airflow_operators.py +61 -0
recurvedata/schedulers/airflow_plugin.py +9 -0
recurvedata/schedulers/airflow_trigger_dag_patch.py +117 -0
recurvedata/schedulers/base.py +99 -0
recurvedata/schedulers/cli.py +228 -0
recurvedata/schedulers/client.py +56 -0
recurvedata/schedulers/consts.py +52 -0
recurvedata/schedulers/debug_celery.py +62 -0
recurvedata/schedulers/model.py +63 -0
recurvedata/schedulers/schemas.py +97 -0
recurvedata/schedulers/service.py +20 -0
recurvedata/schedulers/system_dags.py +59 -0
recurvedata/schedulers/task_status.py +279 -0
recurvedata/schedulers/utils.py +73 -0
recurvedata/schema/__init__.py +0 -0
recurvedata/schema/field.py +88 -0
recurvedata/schema/schema.py +55 -0
recurvedata/schema/types.py +17 -0
recurvedata/schema.py +0 -0
recurvedata/server/__init__.py +0 -0
recurvedata/server/app.py +7 -0
recurvedata/server/connector/__init__.py +0 -0
recurvedata/server/connector/api.py +79 -0
recurvedata/server/connector/schemas.py +28 -0
recurvedata/server/data_service/__init__.py +0 -0
recurvedata/server/data_service/api.py +126 -0
recurvedata/server/data_service/client.py +18 -0
recurvedata/server/data_service/consts.py +1 -0
recurvedata/server/data_service/schemas.py +68 -0
recurvedata/server/data_service/service.py +218 -0
recurvedata/server/dbt/__init__.py +0 -0
recurvedata/server/dbt/api.py +116 -0
recurvedata/server/error_code.py +49 -0
recurvedata/server/exceptions.py +19 -0
recurvedata/server/executor/__init__.py +0 -0
recurvedata/server/executor/api.py +37 -0
recurvedata/server/executor/schemas.py +30 -0
recurvedata/server/executor/service.py +220 -0
recurvedata/server/main.py +32 -0
recurvedata/server/schedulers/__init__.py +0 -0
recurvedata/server/schedulers/api.py +252 -0
recurvedata/server/schedulers/schemas.py +50 -0
recurvedata/server/schemas.py +50 -0
recurvedata/utils/__init__.py +15 -0
recurvedata/utils/_typer.py +61 -0
recurvedata/utils/attrdict.py +19 -0
recurvedata/utils/command_helper.py +20 -0
recurvedata/utils/compat.py +12 -0
recurvedata/utils/compression.py +203 -0
recurvedata/utils/crontab.py +42 -0
recurvedata/utils/crypto_util.py +305 -0
recurvedata/utils/dataclass.py +11 -0
recurvedata/utils/date_time.py +464 -0
recurvedata/utils/dispatch.py +114 -0
recurvedata/utils/email_util.py +104 -0
recurvedata/utils/files.py +386 -0
recurvedata/utils/helpers.py +170 -0
recurvedata/utils/httputil.py +117 -0
recurvedata/utils/imports.py +132 -0
recurvedata/utils/json.py +80 -0
recurvedata/utils/log.py +117 -0
recurvedata/utils/log_capture.py +153 -0
recurvedata/utils/mp.py +178 -0
recurvedata/utils/normalizer.py +102 -0
recurvedata/utils/redis_lock.py +474 -0
recurvedata/utils/registry.py +54 -0
recurvedata/utils/shell.py +15 -0
recurvedata/utils/singleton.py +33 -0
recurvedata/utils/sql.py +6 -0
recurvedata/utils/timeout.py +28 -0
recurvedata/utils/tracing.py +14 -0
recurvedata_lib-0.1.487.dist-info/METADATA +605 -0
recurvedata_lib-0.1.487.dist-info/RECORD +333 -0
recurvedata_lib-0.1.487.dist-info/WHEEL +5 -0
recurvedata_lib-0.1.487.dist-info/entry_points.txt +6 -0

recurvedata/executors/consts.py ADDED Viewed

@@ -0,0 +1,50 @@
+import json
+from enum import Enum
+from recurvedata.utils.date_time import as_local_datetime
+def str_2_bool(val: str):
+    val = val.lower()
+    if val in ("true", "1"):
+        return True
+    elif val in ("false", "0"):
+        return False
+    return val
+def str_2_int(val: str):
+    if val.isdigit():
+        return int(val)
+    if val[0] == "-" and val[1:].isdigit():
+        return int(val)
+    return val
+def str_2_float(val: str):
+    try:
+        return float(val)
+    except Exception:
+        return val
+class VariableType(str, Enum):
+    INT = "INT"
+    FLOAT = "FLOAT"
+    STRING = "STRING"
+    BOOLEAN = "BOOLEAN"
+    DATE = "DATE"
+    DATETIME = "DATETIME"
+    JSON = "JSON"
+    PYTHON_CODE = "PYTHON_CODE"
+VAR_CONVERT_STRING_FUNCS = {
+    VariableType.INT: str_2_int,
+    VariableType.FLOAT: str_2_float,
+    VariableType.BOOLEAN: str_2_bool,
+    VariableType.STRING: lambda x: x,
+    VariableType.DATE: lambda x: as_local_datetime(x).date(),
+    VariableType.DATETIME: lambda x: as_local_datetime(x),
+    VariableType.JSON: json.loads,
+}

recurvedata/executors/debug_executor.py ADDED Viewed

@@ -0,0 +1,100 @@
+import datetime
+import logging
+from typing import Any, Optional
+import pendulum
+from recurvedata.connectors.service import PigeonDataSource as DataSource
+from recurvedata.consts import ETLExecutionStatus, ScheduleType
+from recurvedata.executors.client import ExecutorClient
+from recurvedata.executors.executor import Executor
+from recurvedata.executors.models import ExecutorDag, ExecutorNode
+from recurvedata.executors.schemas import DebugLogRecord, WorkflowNodeItem
+from recurvedata.operators.task import BaseTask
+from recurvedata.utils.dataclass import init_dataclass_from_dict
+logger = logging.getLogger(__name__)
+class DebugExecutor(Executor):
+    """
+    init sdk
+    add sdk to context
+    fetch node conf using sdk
+    init Dag&Node
+    """
+    def __init__(
+        self,
+        workflow_id: int,
+        node_key: str,
+        schedule_type: ScheduleType,
+        schedule_interval: str,
+        execution_date: datetime.datetime,
+        timezone: str,
+        celery_task_id: str,
+    ):
+        self.project_id: int = None
+        self.workflow_id = workflow_id
+        self.node_key = node_key
+        self.schedule_type = schedule_type
+        self.schedule_interval = schedule_interval
+        self.execution_date = execution_date
+        self.timezone = pendulum.timezone(timezone)
+        self.celery_task_id = celery_task_id
+        self.client: ExecutorClient = ExecutorClient()
+        self.dag: ExecutorDag = None
+        self.node: ExecutorNode = None
+        self.init_dag_node()
+        self.register_context()
+    def _init_task_instance_on_task_start(self, task: BaseTask):
+        pass
+    def _update_task_instance_on_task_finish(
+        self,
+        task: BaseTask,
+        ti_id: int,
+        task_status: ETLExecutionStatus,
+        meta: Any,
+        error: Exception,
+        error_stack: Optional[str],
+    ):
+        pass
+    def _get_connection_by_name(self, project_id: int, connection_name: str) -> DataSource:
+        connection = self.client.get_connection(project_id=project_id, connection_name=connection_name)
+        return DataSource(connection_type=connection.type, name=connection.name, data=connection.data)
+    def init_dag_node(self):
+        logger.info(f"start init dag node {self.workflow_id} {self.node_key}")
+        api_response: WorkflowNodeItem = self.client.get_debug_node(self.workflow_id, self.node_key)
+        self.project_id = api_response.project_id
+        self.dag: ExecutorDag = ExecutorDag(
+            id=int(self.workflow_id),
+            project_id=int(self.project_id),
+            name=api_response.workflow_name,
+            scheduler_type=self.schedule_type,
+            schedule_interval=self.schedule_interval,
+            timezone=self.timezone,
+            owner="debug",
+        )
+        self.node: ExecutorNode = init_dataclass_from_dict(ExecutorNode, api_response.model_dump(), dag=self.dag)
+        self.node.variable = self.init_variables()
+    def run_impl(self):
+        logger.info(f"start debug {self.workflow_id}.{self.node.name}, {self.node.operator}")
+        operator = self.init_operator()
+        operator.execute()
+        logger.info(f"finish debug {self.workflow_id}.{self.node.name}, {self.node.operator}")
+    def _send_logs(self, message: str):
+        self.client.send_back_debug_logs(
+            DebugLogRecord(
+                workflow_id=self.workflow_id,
+                node_key=self.node_key,
+                celery_task_id=self.celery_task_id,
+                logs=[message],
+            )
+        )

recurvedata/executors/executor.py ADDED Viewed

@@ -0,0 +1,300 @@
+import datetime
+import json
+import logging
+import os
+import socket
+from typing import TYPE_CHECKING, Any, Optional
+from recurvedata.connectors.service import PigeonDataSource as DataSource
+from recurvedata.consts import PROJECT_ID_KEY, ETLExecutionStatus
+from recurvedata.core.templating import Renderer
+from recurvedata.executors.client import ExecutorClient
+from recurvedata.executors.consts import VariableType
+from recurvedata.executors.models import ExecutorDag, ExecutorNode
+from recurvedata.executors.schemas import JobNodeItem, TaskLogRecord
+from recurvedata.executors.utils import get_airflow_run_id, update_meta_file
+from recurvedata.operators import get_operator_class
+from recurvedata.operators.context import context
+from recurvedata.operators.task import BaseTask
+from recurvedata.utils.dataclass import init_dataclass_from_dict
+from recurvedata.utils.date_time import astimezone, tz_local, utcnow_aware
+from recurvedata.utils.helpers import get_environment_variable, truncate_string
+from recurvedata.utils.log_capture import OutputInterceptor, setup_log_handler
+if TYPE_CHECKING:
+    from recurvedata.operators.operator import BaseOperator
+logger = logging.getLogger(__name__)
+class Executor(object):
+    """Executor class for running workflow nodes.
+    Handles initialization and execution of workflow nodes with the following responsibilities:
+    - Initializes SDK client and connects to backend services
+    - Fetches node configuration and initializes DAG/Node objects
+    - Sets up execution context and variables
+    - Manages node execution lifecycle including logging and error handling
+    Args:
+        dag_slug (str): Identifier for the DAG in format "dag.{job_id}"
+        node_slug (str): Identifier for the node in format "node.{node_id}-{name}"
+        execution_date (str): Execution timestamp for the node run
+    """
+    def __init__(self, dag_slug: str, node_slug: str, execution_date: str):
+        self.job_id = self._extract_job_id(dag_slug)
+        self.node_id = self._extract_node_id(node_slug)
+        self.client: ExecutorClient = ExecutorClient()
+        self._execution_date = execution_date
+        self.execution_date: datetime.datetime = None
+        self.dag: ExecutorDag = None
+        self.node: ExecutorNode = None
+        self.init_dag_node()
+        self.register_context()
+    def _extract_job_id(self, dag_slug: str) -> int:
+        return int(dag_slug.split(".")[-1])
+    def _extract_node_id(self, node_slug: str) -> int:
+        return int(node_slug.split(".")[1].split("-")[0])
+    def register_context(self):
+        context.client = self.client
+        context.init_context(get_connection_by_name=self._get_connection_by_name)
+        context.current_project_id.set(self.dag.project_id)
+        context.register_function("init_task_instance_on_task_start", self._init_task_instance_on_task_start)
+        context.register_function("update_task_instance_on_task_finish", self._update_task_instance_on_task_finish)
+    def _init_task_instance_on_task_start(self, task: BaseTask):
+        # todo: move to another place
+        update_meta_file(
+            task.dag.id,
+            task.node.node_key,
+            task.execution_date,
+            {
+                "operator": task.node.operator,
+                "task": task.__class__.__name__,
+            },
+        )  # todo: move to another place
+    def _prepare_task_end_payload(self) -> dict:
+        return {
+            "current_retry_number": get_environment_variable("AIRFLOW_RETRY_NUMBER", int),
+            "max_retry_number": get_environment_variable("AIRFLOW_MAX_RETRY_NUMBER", int),
+            "link_node_id": self.node.link_settings and self.node.link_settings.get("node_id"),
+            "link_workflow_id": self.node.link_settings and self.node.link_settings.get("workflow_id"),
+            "node_id": self.node.id,
+            "execution_date": self.execution_date,
+            "data_interval_end": get_environment_variable("AIRFLOW_DATA_INTERVAL_END"),
+            "run_id": get_airflow_run_id(),
+            "job_id": self.job_id,
+        }
+    def _update_task_instance_on_task_finish(
+        self,
+        task: BaseTask,
+        ti_id: int,
+        task_status: ETLExecutionStatus,
+        meta: Any,
+        error: Exception,
+        error_stack: Optional[str],
+    ):
+        kwargs = self._prepare_task_end_payload()
+        if task_status == ETLExecutionStatus.FAILED:
+            if kwargs["max_retry_number"] and kwargs["current_retry_number"] < (kwargs["max_retry_number"] + 1):
+                # airflow try_times = first time + max_retry_number
+                task_status = ETLExecutionStatus.RETRY
+        self.client.task_instance_end(
+            meta=meta,
+            traceback=error_stack and truncate_string(error_stack, 1000),
+            status=task_status,
+            end_time=utcnow_aware(),
+            **kwargs,
+        )
+    def _get_connection_by_name(self, project_id: int, connection_name: str) -> DataSource:
+        connection = self.client.get_connection(project_id=project_id, connection_name=connection_name)
+        return DataSource(connection_type=connection.type, name=connection.name, data=connection.data)
+    def init_dag_node(self):
+        logger.info(f"start init dag node {self.job_id} {self.node_id}")
+        api_response: JobNodeItem = self.client.get_node(self.job_id, self.node_id)
+        self.dag: ExecutorDag = ExecutorDag(
+            id=int(api_response.job_id),
+            project_id=int(api_response.project_id),
+            name=api_response.job_name,
+            scheduler_type=api_response.job_schedule_type,
+            schedule_interval=api_response.job_schedule_interval,
+            timezone=api_response.job_timezone,
+            owner=api_response.job_owner,
+            workflow_id=api_response.workflow_id,
+            workflow_name=api_response.workflow_name,
+            full_refresh_models=api_response.full_refresh_models,
+            retries=api_response.retries,
+            retry_delay=api_response.retry_delay,
+            skip_data_tests=api_response.skip_data_tests,
+        )
+        # use dag timezone to convert execution_date
+        self.execution_date = astimezone(self._execution_date, self.dag.timezone)
+        self.node: ExecutorNode = init_dataclass_from_dict(ExecutorNode, api_response.model_dump(), dag=self.dag)
+        self.node.variable = self.init_variables()
+    def init_variables(self):
+        variables = self.process_variables(
+            self.node.variable,
+            self.node.job_variable,
+            self.execution_date,
+            self.dag.schedule_interval,
+            self.dag.timezone,
+        )
+        # set project id to environment variable
+        os.environ[PROJECT_ID_KEY] = str(self.dag.project_id)
+        # append airflow dag run conf to variables
+        airflow_dag_run_conf = os.environ.get("RECURVE__JOB_RUN_CONF")
+        if airflow_dag_run_conf:
+            variables["job_run_conf"] = json.loads(airflow_dag_run_conf)
+        return variables
+    @classmethod
+    def process_variables(
+        cls,
+        variables: dict,
+        override_variables: dict,
+        execution_date: str,
+        schedule_interval: str,
+        timezone: str | None = None,
+    ) -> dict:
+        """Process and merge variables from different sources with proper overrides.
+        Args:
+            variables: Base variables dict
+            override_variables: Variables that should override base variables
+            execution_date: Execution date string
+            schedule_interval: Schedule interval string
+            timezone: Optional timezone string, defaults to local timezone
+        Returns:
+            dict: Processed and merged variables
+        The processing order is:
+        1. Process normal variables first (in case they reference each other)
+        2. Extract python code variables using processed normal variables
+        3. Override with job variables last since they take precedence
+        """
+        valid_var_types = set(member.value for member in VariableType.__members__.values())
+        timezone = timezone or tz_local
+        def process_typed_value(val_type: str, val_value):
+            processors = {
+                "DATETIME": lambda x: astimezone(x, timezone),
+                "DATE": lambda x: astimezone(x, timezone).date(),
+                "JSON": json.loads,
+            }
+            return processors.get(val_type, lambda x: x)(val_value)
+        # Split variables by type
+        normal_vars = {}
+        python_code_vars = {}
+        for var_dict in (variables, override_variables):
+            if not var_dict:
+                continue
+            for key, value in var_dict.items():
+                var_value, var_type = value["value"], value["type"]
+                if var_type == VariableType.PYTHON_CODE:
+                    python_code_vars[key] = var_value
+                elif var_type not in valid_var_types:
+                    raise ValueError(f"Invalid variable type {var_type} for {key}")
+                else:
+                    normal_vars[key] = process_typed_value(var_type, var_value)
+        # Process variables in order
+        renderer = Renderer()
+        processed_normal_vars = renderer.render_variables(normal_vars, execution_date, schedule_interval)
+        job_vars = {}
+        if override_variables:
+            job_vars = {key: processed_normal_vars.get(key, value) for key, value in override_variables.items()}
+        # Merge all variables with proper precedence
+        final_vars = processed_normal_vars.copy()
+        if python_code_vars:
+            python_vars = cls._process_python_code_variable(
+                python_code_vars, final_vars, execution_date, schedule_interval
+            )
+            final_vars.update(python_vars)
+        final_vars.update(job_vars)  # Job variables take highest precedence
+        return final_vars
+    @classmethod
+    def _process_python_code_variable(
+        cls, python_code_variables: dict, new_variables: dict, execution_date: str, schedule_interval: str
+    ) -> dict:
+        r = Renderer()
+        extracted_variables = {}
+        for name, code in python_code_variables.items():
+            if code is None:
+                continue
+            tmp_extracted_variables = r.extract_python_code_variable(
+                python_code=code,
+                exist_variables=new_variables,
+                execution_date=execution_date,
+                schedule_interval=schedule_interval,
+            )
+            extracted_variables.update(tmp_extracted_variables)
+        return extracted_variables
+    def run(self):
+        if self.node.operator == "DBTOperator":
+            self.run_impl()
+            return
+        with OutputInterceptor(handler=self._send_logs) as interceptor:
+            setup_log_handler(interceptor)
+            self.run_impl()
+    def run_impl(self):
+        logger.info(f"Recurve Executor start run {self.job_id}.{self.node_id}, {self.node.operator}")
+        operator = self.init_operator()
+        operator.execute()
+        logger.info(f"Recurve Executor finish run {self.job_id}.{self.node_id}, {self.node.operator}")
+    def _send_logs(self, message: str):
+        self.client.send_back_logs(TaskLogRecord.init(self.job_id, logs=[message]))
+    @staticmethod
+    def _get_hostname():
+        return socket.gethostname()
+    @staticmethod
+    def _get_pid() -> int:
+        return os.getpid()
+    def set_link_settings(self, link_workflow_id: int = None, link_node_id: int = None, is_link_workflow: bool = False):
+        self.node.link_settings = {
+            "workflow_id": link_workflow_id,
+            "node_id": link_node_id,
+            "is_link_workflow": is_link_workflow,
+        }
+    def init_operator(self) -> "BaseOperator":
+        op_cls = get_operator_class(self.node.operator)
+        operator = op_cls(self.dag, self.node, self.execution_date, variables=self.node.variable)
+        self.set_operator_execution_date(operator)
+        return operator
+    def set_operator_execution_date(self, operator: "BaseOperator"):
+        if "execution_date" not in self.node.variable:
+            return
+        new_execution_date = astimezone(self.node.variable["execution_date"], self.dag.timezone)
+        operator.set_execution_date(new_execution_date)

recurvedata/executors/link_executor.py ADDED Viewed

@@ -0,0 +1,189 @@
+"""
+used in RecurveLinkNode
+调用某个 node
+"""
+import datetime
+import logging
+from recurvedata.consts import Operator
+from recurvedata.executors.client import ExecutorClient
+from recurvedata.executors.executor import Executor
+from recurvedata.executors.models import ExecutorDag, ExecutorNode
+from recurvedata.executors.schemas import WorkflowNodeItem
+from recurvedata.executors.utils import convert_var_value_from_string, get_variable_type_by_value, update_meta_file
+from recurvedata.operators.task import BaseTask
+from recurvedata.utils.dataclass import init_dataclass_from_dict
+logger = logging.getLogger(__name__)
+class LinkExecutor(Executor):
+    """Executor for running linked workflow nodes.
+    The LinkExecutor allows executing a node from another workflow by linking to it.
+    It handles:
+    - Executing a node from a different workflow while maintaining the original DAG context
+    - Overriding task instance reporting to track the link relationship
+    - Preserving the original DAG ID and node ID for file generation
+    - Converting and passing custom variables between workflows
+    - Supporting both single node and full workflow linking
+    Args:
+        origin_dag (ExecutorDag): The original DAG containing the link node
+        origin_node (ExecutorNode): The original node that links to another workflow
+        execution_date (datetime): Execution timestamp for the run
+        link_workflow_id (int): ID of the workflow being linked to
+        link_node_id (int): ID of the specific node being linked to
+        link_workflow_name (str, optional): Name of the linked workflow
+        link_node_name (str, optional): Name of the linked node
+        link_node_key (str, optional): Key identifier for the linked node
+        custom_variables (dict, optional): Variables to pass to the linked node
+        is_link_workflow (bool, optional): Whether linking to a full workflow vs single node
+    """
+    def __init__(
+        self,
+        origin_dag: ExecutorDag,
+        origin_node: ExecutorNode,
+        execution_date: datetime.datetime,
+        link_workflow_id: int,
+        link_node_id: int,
+        link_workflow_name: str = None,
+        link_node_name: str = None,
+        link_node_key: str = None,
+        custom_variables: dict = None,
+        is_link_workflow: bool = False,
+    ):
+        self.origin_dag = origin_dag
+        self.origin_node = origin_node
+        self.link_workflow_name = link_workflow_name
+        self.link_node_name = link_node_name
+        self.link_node_key = link_node_key
+        self.link_workflow_id = link_workflow_id
+        self.link_node_id = link_node_id
+        self.custom_variables = custom_variables
+        self.is_link_workflow = is_link_workflow
+        # execution_date is passed from LinkOperator, which has been converted to origin_dag's timezone
+        # self.execution_date = astimezone(execution_date, tz_local)
+        self.execution_date = execution_date
+        self.client: ExecutorClient = ExecutorClient()
+        self.job_id = origin_dag.dag_id  # used in get_connection_by_name
+        self.project_id = origin_dag.project_id
+        self.dag: ExecutorDag = None
+        self.node: ExecutorNode = None
+        self.init_dag_node()
+        self.register_context()
+    def _init_task_instance_on_task_start(self, task: BaseTask):
+        if self.is_link_workflow:  # todo: use scheduler?
+            task_id = f"{self.origin_node.node_key}.{task.node.node_key}"
+        else:
+            task_id = f"{self.origin_node.node_key}"
+        update_meta_file(
+            self.origin_dag.id,
+            task_id,
+            task.execution_date,
+            {
+                "operator": Operator.LinkOperator,
+                "task": "LinkTask",
+                "link_operator": task.node.operator,
+                "link_task": task.__class__.__name__,
+                "link_workflow_id": self.link_workflow_id,
+                "link_workflow_version": self.dag.workflow_version,
+            },
+        )
+    def _prepare_task_end_payload(self) -> dict:
+        payload = super()._prepare_task_end_payload()
+        payload.update(
+            {
+                "link_node_id": self.link_node_id,
+                "node_id": self.origin_node.id,
+                "link_workflow_id": self.link_workflow_id,
+            }
+        )
+        return payload
+    def init_dag_node(self):
+        """Initialize the DAG and Node objects for the linked workflow execution.
+        Fetches workflow node data from API, creates ExecutorDag using origin DAG properties,
+        initializes ExecutorNode, and sets up variables.
+        """
+        logger.info(f"Initializing DAG node for workflow {self.link_workflow_id}, node {self.link_node_id}")
+        # Fetch workflow node data from API
+        api_response: WorkflowNodeItem = self.client.get_workflow_node(self.link_workflow_id, self.link_node_id)
+        # Create ExecutorDag using origin DAG properties
+        self.dag: ExecutorDag = ExecutorDag(
+            id=self.origin_dag.id,  # Use origin_dag id for TransferOp filename generation
+            project_id=self.project_id,
+            name=api_response.workflow_name,
+            scheduler_type=self.origin_dag.scheduler_type,
+            schedule_interval=self.origin_dag.schedule_interval,
+            timezone=self.origin_dag.timezone,
+            owner=self.origin_dag.owner,
+            workflow_version=api_response.workflow_version,
+        )
+        # Initialize ExecutorNode from API response
+        self.node: ExecutorNode = init_dataclass_from_dict(ExecutorNode, api_response.model_dump(), dag=self.dag)
+        # Process and set variables
+        self.custom_variables = self.process_custom_variable_type(self.custom_variables)
+        self.node.job_variable = self.custom_variables
+        self.node.variable = self.init_variables()
+    def process_custom_variable_type(self, variables: dict) -> dict:
+        """Process and convert custom variable types from string to their proper types.
+        The frontend sends all variable values as strings, so we need to convert them to
+        their proper types based on either:
+        1. The variable type defined in the node's variables
+        2. The inferred type from python code variables
+        3. Keep original value if variable no longer exists in workflow
+        Args:
+            variables: Dictionary of variables to process
+        Returns:
+            Dictionary with variables converted to their proper types
+        """
+        if not variables:
+            return variables
+        new_variables = {}
+        # Get current workflow variables to check types and python code vars
+        workflow_vars = self.init_variables()
+        for name, value in variables.items():
+            # Check if variable exists in node variables
+            if name in self.node.variable:
+                val_type = self.node.variable[name]["type"]
+            # Check if it's a python code variable
+            elif name in workflow_vars:
+                val_type = get_variable_type_by_value(workflow_vars[name])
+            # Variable no longer exists in workflow, keep as-is
+            else:
+                new_variables[name] = value
+                continue
+            # Convert string value to proper type
+            new_variables[name] = convert_var_value_from_string(val_type, value)
+        return new_variables
+    def run(self):
+        logger.info(f"Recurve Link Executor start run {self.dag.name}.{self.node.name} {self.node.operator}")
+        operator = self.init_operator()
+        operator.execute()
+        logger.info(f"Recurve Executor finish run {self.dag.name}.{self.node.name}, {self.node.operator}")

recurvedata/executors/models.py ADDED Viewed

@@ -0,0 +1,34 @@
+from dataclasses import dataclass
+from typing import Any
+from recurvedata.connectors.service import PigeonDataSource as DataSource  # noqa
+from recurvedata.operators import get_operator_class
+from recurvedata.operators.models import DagBase, NodeBase
+@dataclass
+class ExecutorDag(DagBase):
+    project_id: int
+    workflow_id: int = None
+    workflow_version: str = None
+    workflow_name: str = None
+    @property
+    def dag_id(self):
+        return self.id
+@dataclass
+class ExecutorNode(NodeBase):
+    dag: ExecutorDag
+    operator: str
+    config: dict
+    variable: dict[str, Any]
+    job_variable: dict[str, Any] = None
+    stage: str = None
+    link_settings: dict[str, Any] = None  # RecurveLink related settings
+    @property
+    def configuration(self):
+        op_cls = get_operator_class(self.operator)
+        return op_cls.ui_config_to_config(self.config)