PyPI - recurvedata-lib - Versions diffs - 0.1.487__py2.py3-none-any.whl - Mend

recurvedata-lib 0.1.487__py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of recurvedata-lib might be problematic. Click here for more details.

Files changed (333) hide show

recurvedata/__init__.py +0 -0
recurvedata/__version__.py +1 -0
recurvedata/client/__init__.py +3 -0
recurvedata/client/client.py +150 -0
recurvedata/client/server_client.py +91 -0
recurvedata/config.py +99 -0
recurvedata/connectors/__init__.py +20 -0
recurvedata/connectors/_register.py +46 -0
recurvedata/connectors/base.py +111 -0
recurvedata/connectors/config_schema.py +1575 -0
recurvedata/connectors/connectors/__init__.py +0 -0
recurvedata/connectors/connectors/aliyun_access_key.py +30 -0
recurvedata/connectors/connectors/auth.py +44 -0
recurvedata/connectors/connectors/azure_blob.py +89 -0
recurvedata/connectors/connectors/azure_synapse.py +79 -0
recurvedata/connectors/connectors/bigquery.py +359 -0
recurvedata/connectors/connectors/clickhouse.py +219 -0
recurvedata/connectors/connectors/dingtalk.py +61 -0
recurvedata/connectors/connectors/doris.py +215 -0
recurvedata/connectors/connectors/es.py +62 -0
recurvedata/connectors/connectors/feishu.py +65 -0
recurvedata/connectors/connectors/ftp.py +50 -0
recurvedata/connectors/connectors/generic.py +49 -0
recurvedata/connectors/connectors/google_cloud_storage.py +115 -0
recurvedata/connectors/connectors/google_service_account.py +225 -0
recurvedata/connectors/connectors/hive.py +207 -0
recurvedata/connectors/connectors/impala.py +210 -0
recurvedata/connectors/connectors/jenkins.py +51 -0
recurvedata/connectors/connectors/mail.py +89 -0
recurvedata/connectors/connectors/microsoft_fabric.py +284 -0
recurvedata/connectors/connectors/mongo.py +79 -0
recurvedata/connectors/connectors/mssql.py +131 -0
recurvedata/connectors/connectors/mysql.py +191 -0
recurvedata/connectors/connectors/n8n.py +141 -0
recurvedata/connectors/connectors/oss.py +74 -0
recurvedata/connectors/connectors/owncloud.py +36 -0
recurvedata/connectors/connectors/phoenix.py +36 -0
recurvedata/connectors/connectors/postgres.py +230 -0
recurvedata/connectors/connectors/python.py +50 -0
recurvedata/connectors/connectors/redshift.py +187 -0
recurvedata/connectors/connectors/s3.py +93 -0
recurvedata/connectors/connectors/sftp.py +87 -0
recurvedata/connectors/connectors/slack.py +35 -0
recurvedata/connectors/connectors/spark.py +99 -0
recurvedata/connectors/connectors/starrocks.py +175 -0
recurvedata/connectors/connectors/tencent_cos.py +40 -0
recurvedata/connectors/connectors/tidb.py +49 -0
recurvedata/connectors/const.py +315 -0
recurvedata/connectors/datasource.py +189 -0
recurvedata/connectors/dbapi.py +469 -0
recurvedata/connectors/fs.py +66 -0
recurvedata/connectors/ftp.py +40 -0
recurvedata/connectors/object_store.py +60 -0
recurvedata/connectors/pigeon.py +172 -0
recurvedata/connectors/proxy.py +104 -0
recurvedata/connectors/service.py +223 -0
recurvedata/connectors/utils.py +47 -0
recurvedata/consts.py +49 -0
recurvedata/core/__init__.py +0 -0
recurvedata/core/config.py +46 -0
recurvedata/core/configurable.py +27 -0
recurvedata/core/consts.py +2 -0
recurvedata/core/templating.py +206 -0
recurvedata/core/tracing.py +223 -0
recurvedata/core/transformer.py +186 -0
recurvedata/core/translation.py +91 -0
recurvedata/dbt/client.py +97 -0
recurvedata/dbt/consts.py +99 -0
recurvedata/dbt/cosmos_utils.py +275 -0
recurvedata/dbt/error_codes.py +18 -0
recurvedata/dbt/schemas.py +98 -0
recurvedata/dbt/service.py +451 -0
recurvedata/dbt/utils.py +246 -0
recurvedata/error_codes.py +71 -0
recurvedata/exceptions.py +72 -0
recurvedata/executors/__init__.py +4 -0
recurvedata/executors/cli/__init__.py +7 -0
recurvedata/executors/cli/connector.py +117 -0
recurvedata/executors/cli/dbt.py +118 -0
recurvedata/executors/cli/main.py +82 -0
recurvedata/executors/cli/parameters.py +18 -0
recurvedata/executors/client.py +190 -0
recurvedata/executors/consts.py +50 -0
recurvedata/executors/debug_executor.py +100 -0
recurvedata/executors/executor.py +300 -0
recurvedata/executors/link_executor.py +189 -0
recurvedata/executors/models.py +34 -0
recurvedata/executors/schemas.py +222 -0
recurvedata/executors/service/__init__.py +0 -0
recurvedata/executors/service/connector.py +380 -0
recurvedata/executors/utils.py +172 -0
recurvedata/filestorage/__init__.py +11 -0
recurvedata/filestorage/_factory.py +33 -0
recurvedata/filestorage/backends/__init__.py +0 -0
recurvedata/filestorage/backends/fsspec.py +45 -0
recurvedata/filestorage/backends/local.py +67 -0
recurvedata/filestorage/backends/oss.py +56 -0
recurvedata/filestorage/interface.py +84 -0
recurvedata/operators/__init__.py +10 -0
recurvedata/operators/base.py +28 -0
recurvedata/operators/config.py +21 -0
recurvedata/operators/context.py +255 -0
recurvedata/operators/dbt_operator/__init__.py +2 -0
recurvedata/operators/dbt_operator/model_pipeline_link_operator.py +55 -0
recurvedata/operators/dbt_operator/operator.py +353 -0
recurvedata/operators/link_operator/__init__.py +1 -0
recurvedata/operators/link_operator/operator.py +120 -0
recurvedata/operators/models.py +55 -0
recurvedata/operators/notify_operator/__init__.py +1 -0
recurvedata/operators/notify_operator/operator.py +180 -0
recurvedata/operators/operator.py +119 -0
recurvedata/operators/python_operator/__init__.py +1 -0
recurvedata/operators/python_operator/operator.py +132 -0
recurvedata/operators/sensor_operator/__init__.py +1 -0
recurvedata/operators/sensor_operator/airflow_utils.py +63 -0
recurvedata/operators/sensor_operator/operator.py +172 -0
recurvedata/operators/spark_operator/__init__.py +1 -0
recurvedata/operators/spark_operator/operator.py +200 -0
recurvedata/operators/spark_operator/spark_sample.py +47 -0
recurvedata/operators/sql_operator/__init__.py +1 -0
recurvedata/operators/sql_operator/operator.py +90 -0
recurvedata/operators/task.py +211 -0
recurvedata/operators/transfer_operator/__init__.py +40 -0
recurvedata/operators/transfer_operator/const.py +10 -0
recurvedata/operators/transfer_operator/dump_aliyun_sls.py +82 -0
recurvedata/operators/transfer_operator/dump_sheet_task_base.py +292 -0
recurvedata/operators/transfer_operator/dump_task_cass.py +155 -0
recurvedata/operators/transfer_operator/dump_task_dbapi.py +209 -0
recurvedata/operators/transfer_operator/dump_task_es.py +113 -0
recurvedata/operators/transfer_operator/dump_task_feishu_sheet.py +114 -0
recurvedata/operators/transfer_operator/dump_task_ftp.py +234 -0
recurvedata/operators/transfer_operator/dump_task_google_sheet.py +66 -0
recurvedata/operators/transfer_operator/dump_task_mongodb.py +168 -0
recurvedata/operators/transfer_operator/dump_task_oss.py +285 -0
recurvedata/operators/transfer_operator/dump_task_python.py +212 -0
recurvedata/operators/transfer_operator/dump_task_s3.py +270 -0
recurvedata/operators/transfer_operator/dump_task_sftp.py +229 -0
recurvedata/operators/transfer_operator/load_task_aliyun_oss.py +107 -0
recurvedata/operators/transfer_operator/load_task_azure_blob.py +115 -0
recurvedata/operators/transfer_operator/load_task_azure_synapse.py +90 -0
recurvedata/operators/transfer_operator/load_task_clickhouse.py +167 -0
recurvedata/operators/transfer_operator/load_task_doris.py +164 -0
recurvedata/operators/transfer_operator/load_task_email.py +188 -0
recurvedata/operators/transfer_operator/load_task_es.py +86 -0
recurvedata/operators/transfer_operator/load_task_filebrowser.py +151 -0
recurvedata/operators/transfer_operator/load_task_ftp.py +19 -0
recurvedata/operators/transfer_operator/load_task_google_bigquery.py +90 -0
recurvedata/operators/transfer_operator/load_task_google_cloud_storage.py +127 -0
recurvedata/operators/transfer_operator/load_task_google_sheet.py +130 -0
recurvedata/operators/transfer_operator/load_task_hive.py +158 -0
recurvedata/operators/transfer_operator/load_task_microsoft_fabric.py +105 -0
recurvedata/operators/transfer_operator/load_task_mssql.py +153 -0
recurvedata/operators/transfer_operator/load_task_mysql.py +157 -0
recurvedata/operators/transfer_operator/load_task_owncloud.py +135 -0
recurvedata/operators/transfer_operator/load_task_postgresql.py +109 -0
recurvedata/operators/transfer_operator/load_task_qcloud_cos.py +119 -0
recurvedata/operators/transfer_operator/load_task_recurve_data_prep.py +75 -0
recurvedata/operators/transfer_operator/load_task_redshift.py +95 -0
recurvedata/operators/transfer_operator/load_task_s3.py +150 -0
recurvedata/operators/transfer_operator/load_task_sftp.py +90 -0
recurvedata/operators/transfer_operator/load_task_starrocks.py +169 -0
recurvedata/operators/transfer_operator/load_task_yicrowds.py +97 -0
recurvedata/operators/transfer_operator/mixin.py +31 -0
recurvedata/operators/transfer_operator/operator.py +231 -0
recurvedata/operators/transfer_operator/task.py +223 -0
recurvedata/operators/transfer_operator/utils.py +134 -0
recurvedata/operators/ui.py +80 -0
recurvedata/operators/utils/__init__.py +51 -0
recurvedata/operators/utils/file_factory.py +150 -0
recurvedata/operators/utils/fs.py +10 -0
recurvedata/operators/utils/lineage.py +265 -0
recurvedata/operators/web_init.py +15 -0
recurvedata/pigeon/connector/__init__.py +294 -0
recurvedata/pigeon/connector/_registry.py +17 -0
recurvedata/pigeon/connector/aliyun_oss.py +80 -0
recurvedata/pigeon/connector/awss3.py +123 -0
recurvedata/pigeon/connector/azure_blob.py +176 -0
recurvedata/pigeon/connector/azure_synapse.py +51 -0
recurvedata/pigeon/connector/cass.py +151 -0
recurvedata/pigeon/connector/clickhouse.py +403 -0
recurvedata/pigeon/connector/clickhouse_native.py +351 -0
recurvedata/pigeon/connector/dbapi.py +571 -0
recurvedata/pigeon/connector/doris.py +166 -0
recurvedata/pigeon/connector/es.py +176 -0
recurvedata/pigeon/connector/feishu.py +1135 -0
recurvedata/pigeon/connector/ftp.py +163 -0
recurvedata/pigeon/connector/google_bigquery.py +283 -0
recurvedata/pigeon/connector/google_cloud_storage.py +130 -0
recurvedata/pigeon/connector/hbase_phoenix.py +108 -0
recurvedata/pigeon/connector/hdfs.py +204 -0
recurvedata/pigeon/connector/hive_impala.py +383 -0
recurvedata/pigeon/connector/microsoft_fabric.py +95 -0
recurvedata/pigeon/connector/mongodb.py +56 -0
recurvedata/pigeon/connector/mssql.py +467 -0
recurvedata/pigeon/connector/mysql.py +175 -0
recurvedata/pigeon/connector/owncloud.py +92 -0
recurvedata/pigeon/connector/postgresql.py +267 -0
recurvedata/pigeon/connector/power_bi.py +179 -0
recurvedata/pigeon/connector/qcloud_cos.py +79 -0
recurvedata/pigeon/connector/redshift.py +123 -0
recurvedata/pigeon/connector/sftp.py +73 -0
recurvedata/pigeon/connector/sqlite.py +42 -0
recurvedata/pigeon/connector/starrocks.py +144 -0
recurvedata/pigeon/connector/tableau.py +162 -0
recurvedata/pigeon/const.py +21 -0
recurvedata/pigeon/csv.py +172 -0
recurvedata/pigeon/docs/datasources-example.json +82 -0
recurvedata/pigeon/docs/images/pigeon_design.png +0 -0
recurvedata/pigeon/docs/lightweight-data-sync-solution.md +111 -0
recurvedata/pigeon/dumper/__init__.py +171 -0
recurvedata/pigeon/dumper/aliyun_sls.py +415 -0
recurvedata/pigeon/dumper/base.py +141 -0
recurvedata/pigeon/dumper/cass.py +213 -0
recurvedata/pigeon/dumper/dbapi.py +346 -0
recurvedata/pigeon/dumper/es.py +112 -0
recurvedata/pigeon/dumper/ftp.py +64 -0
recurvedata/pigeon/dumper/mongodb.py +103 -0
recurvedata/pigeon/handler/__init__.py +4 -0
recurvedata/pigeon/handler/base.py +153 -0
recurvedata/pigeon/handler/csv_handler.py +290 -0
recurvedata/pigeon/loader/__init__.py +87 -0
recurvedata/pigeon/loader/base.py +83 -0
recurvedata/pigeon/loader/csv_to_azure_synapse.py +214 -0
recurvedata/pigeon/loader/csv_to_clickhouse.py +152 -0
recurvedata/pigeon/loader/csv_to_doris.py +215 -0
recurvedata/pigeon/loader/csv_to_es.py +51 -0
recurvedata/pigeon/loader/csv_to_google_bigquery.py +169 -0
recurvedata/pigeon/loader/csv_to_hive.py +468 -0
recurvedata/pigeon/loader/csv_to_microsoft_fabric.py +242 -0
recurvedata/pigeon/loader/csv_to_mssql.py +174 -0
recurvedata/pigeon/loader/csv_to_mysql.py +180 -0
recurvedata/pigeon/loader/csv_to_postgresql.py +248 -0
recurvedata/pigeon/loader/csv_to_redshift.py +240 -0
recurvedata/pigeon/loader/csv_to_starrocks.py +233 -0
recurvedata/pigeon/meta.py +116 -0
recurvedata/pigeon/row_factory.py +42 -0
recurvedata/pigeon/schema/__init__.py +124 -0
recurvedata/pigeon/schema/types.py +13 -0
recurvedata/pigeon/sync.py +283 -0
recurvedata/pigeon/transformer.py +146 -0
recurvedata/pigeon/utils/__init__.py +134 -0
recurvedata/pigeon/utils/bloomfilter.py +181 -0
recurvedata/pigeon/utils/date_time.py +323 -0
recurvedata/pigeon/utils/escape.py +15 -0
recurvedata/pigeon/utils/fs.py +266 -0
recurvedata/pigeon/utils/json.py +44 -0
recurvedata/pigeon/utils/keyed_tuple.py +85 -0
recurvedata/pigeon/utils/mp.py +156 -0
recurvedata/pigeon/utils/sql.py +328 -0
recurvedata/pigeon/utils/timing.py +155 -0
recurvedata/provider_manager.py +0 -0
recurvedata/providers/__init__.py +0 -0
recurvedata/providers/dbapi/__init__.py +0 -0
recurvedata/providers/flywheel/__init__.py +0 -0
recurvedata/providers/mysql/__init__.py +0 -0
recurvedata/schedulers/__init__.py +1 -0
recurvedata/schedulers/airflow.py +974 -0
recurvedata/schedulers/airflow_db_process.py +331 -0
recurvedata/schedulers/airflow_operators.py +61 -0
recurvedata/schedulers/airflow_plugin.py +9 -0
recurvedata/schedulers/airflow_trigger_dag_patch.py +117 -0
recurvedata/schedulers/base.py +99 -0
recurvedata/schedulers/cli.py +228 -0
recurvedata/schedulers/client.py +56 -0
recurvedata/schedulers/consts.py +52 -0
recurvedata/schedulers/debug_celery.py +62 -0
recurvedata/schedulers/model.py +63 -0
recurvedata/schedulers/schemas.py +97 -0
recurvedata/schedulers/service.py +20 -0
recurvedata/schedulers/system_dags.py +59 -0
recurvedata/schedulers/task_status.py +279 -0
recurvedata/schedulers/utils.py +73 -0
recurvedata/schema/__init__.py +0 -0
recurvedata/schema/field.py +88 -0
recurvedata/schema/schema.py +55 -0
recurvedata/schema/types.py +17 -0
recurvedata/schema.py +0 -0
recurvedata/server/__init__.py +0 -0
recurvedata/server/app.py +7 -0
recurvedata/server/connector/__init__.py +0 -0
recurvedata/server/connector/api.py +79 -0
recurvedata/server/connector/schemas.py +28 -0
recurvedata/server/data_service/__init__.py +0 -0
recurvedata/server/data_service/api.py +126 -0
recurvedata/server/data_service/client.py +18 -0
recurvedata/server/data_service/consts.py +1 -0
recurvedata/server/data_service/schemas.py +68 -0
recurvedata/server/data_service/service.py +218 -0
recurvedata/server/dbt/__init__.py +0 -0
recurvedata/server/dbt/api.py +116 -0
recurvedata/server/error_code.py +49 -0
recurvedata/server/exceptions.py +19 -0
recurvedata/server/executor/__init__.py +0 -0
recurvedata/server/executor/api.py +37 -0
recurvedata/server/executor/schemas.py +30 -0
recurvedata/server/executor/service.py +220 -0
recurvedata/server/main.py +32 -0
recurvedata/server/schedulers/__init__.py +0 -0
recurvedata/server/schedulers/api.py +252 -0
recurvedata/server/schedulers/schemas.py +50 -0
recurvedata/server/schemas.py +50 -0
recurvedata/utils/__init__.py +15 -0
recurvedata/utils/_typer.py +61 -0
recurvedata/utils/attrdict.py +19 -0
recurvedata/utils/command_helper.py +20 -0
recurvedata/utils/compat.py +12 -0
recurvedata/utils/compression.py +203 -0
recurvedata/utils/crontab.py +42 -0
recurvedata/utils/crypto_util.py +305 -0
recurvedata/utils/dataclass.py +11 -0
recurvedata/utils/date_time.py +464 -0
recurvedata/utils/dispatch.py +114 -0
recurvedata/utils/email_util.py +104 -0
recurvedata/utils/files.py +386 -0
recurvedata/utils/helpers.py +170 -0
recurvedata/utils/httputil.py +117 -0
recurvedata/utils/imports.py +132 -0
recurvedata/utils/json.py +80 -0
recurvedata/utils/log.py +117 -0
recurvedata/utils/log_capture.py +153 -0
recurvedata/utils/mp.py +178 -0
recurvedata/utils/normalizer.py +102 -0
recurvedata/utils/redis_lock.py +474 -0
recurvedata/utils/registry.py +54 -0
recurvedata/utils/shell.py +15 -0
recurvedata/utils/singleton.py +33 -0
recurvedata/utils/sql.py +6 -0
recurvedata/utils/timeout.py +28 -0
recurvedata/utils/tracing.py +14 -0
recurvedata_lib-0.1.487.dist-info/METADATA +605 -0
recurvedata_lib-0.1.487.dist-info/RECORD +333 -0
recurvedata_lib-0.1.487.dist-info/WHEEL +5 -0
recurvedata_lib-0.1.487.dist-info/entry_points.txt +6 -0

recurvedata/schedulers/task_status.py ADDED Viewed

@@ -0,0 +1,279 @@
+import datetime
+import logging
+import signal
+import sys
+import time
+import pytz
+from airflow.models import DagRun, TaskInstance
+from airflow.models.taskinstancehistory import TaskInstanceHistory
+from airflow.utils.session import create_session
+from sqlalchemy import and_, func, tuple_
+from sqlalchemy.orm import joinedload
+from recurvedata.config import AgentConfig
+from recurvedata.schedulers.client import SchedulerClient
+from recurvedata.schedulers.consts import SYSTEM_SYNC_STATUS_DAG_ID
+logger = logging.getLogger(__name__)
+class TaskStatusScanner:
+    def __init__(self):
+        config = AgentConfig.load()
+        if config.request_timeout < 30:
+            config.request_timeout = 30
+        self.client = SchedulerClient(config)
+        self._running = False
+    def run(self, interval: int):
+        def signal_handler(_sig, _frame):
+            self._running = False
+        def handle_sigterm(_sig, _frame):
+            self._running = False
+            sys.exit(0)
+        signal.signal(signal.SIGINT, signal_handler)
+        signal.signal(signal.SIGTERM, handle_sigterm)
+        self._running = True
+        step = interval
+        while self._running:
+            if step >= interval:
+                status_cursor = self.client.get_task_status_cursor()
+                job_runs = {}
+                task_runs = {}
+                def _collect_job_runs(_job_runs):
+                    for jr in _job_runs:
+                        job_runs[(str(jr["job_id"]), jr["run_id"])] = jr
+                def _collect_task_runs(_task_runs):
+                    for tr in _task_runs:
+                        task_runs[(tr["job_id"], tr["run_id"], tr["node_key"])] = tr
+                _job_runs = self.scan_dag_runs(
+                    self._localize_time(status_cursor.job_run),
+                    status_cursor.limit,
+                    sliding_time=status_cursor.sliding_time,
+                )
+                _collect_job_runs(_job_runs)
+                _task_runs, _job_runs = self.scan_task_instances(
+                    self._localize_time(status_cursor.task_run),
+                    status_cursor.limit,
+                    sliding_time=status_cursor.sliding_time,
+                )
+                _collect_job_runs(_job_runs)
+                _collect_task_runs(_task_runs)
+                _task_runs, _job_runs = self.scan_unfinished_task_instances(status_cursor.unfinished)
+                _collect_job_runs(_job_runs)
+                _collect_task_runs(_task_runs)
+                logger.info(f"number of job runs: {len(job_runs)}")
+                logger.info(f"number of task runs: {len(task_runs)}")
+                # get actual job start time
+                filters = list(job_runs.keys())
+                if filters:
+                    with create_session() as session:
+                        query = (
+                            session.query(
+                                func.min(TaskInstance.start_date).label("start_time"),
+                                TaskInstance.dag_id,
+                                TaskInstance.run_id,
+                                TaskInstance.try_number,
+                            )
+                            .filter(tuple_(TaskInstance.dag_id, TaskInstance.run_id).in_(filters))
+                            .group_by(TaskInstance.dag_id, TaskInstance.run_id, TaskInstance.try_number)
+                        )
+                        # retried job runs
+                        history_filters = []
+                        for row in query.all():
+                            if row.try_number > 1:
+                                history_filters.append((str(row.dag_id), row.run_id))
+                                continue
+                            job_runs[(row.dag_id), row.run_id]["start_time"] = (
+                                row.start_time and row.start_time.isoformat()
+                            )
+                        if history_filters:
+                            query = (
+                                session.query(
+                                    func.min(TaskInstanceHistory.start_date).label("start_time"),
+                                    TaskInstanceHistory.dag_id,
+                                    TaskInstanceHistory.run_id,
+                                )
+                                .filter(
+                                    tuple_(TaskInstanceHistory.dag_id, TaskInstanceHistory.run_id).in_(history_filters)
+                                )
+                                .group_by(TaskInstanceHistory.dag_id, TaskInstanceHistory.run_id)
+                            )
+                            for row in query.all():
+                                job_runs[(row.dag_id, row.run_id)]["start_time"] = (
+                                    row.start_time and row.start_time.isoformat()
+                                )
+                self.client.sync_task_status(job_runs=list(job_runs.values()), task_runs=list(task_runs.values()))
+                step = 0
+            time.sleep(1.0)
+            step += 1
+    def _localize_time(self, time: datetime.datetime | None):
+        if time is not None and time.tzinfo is None:
+            timezone = pytz.timezone("UTC")
+            time = timezone.localize(time)
+        return time
+    def _parse_job_id(self, dag_id: str):
+        return int(dag_id.split(".")[-1])
+    def _sliding_time_query(self, session, model, last_updated_time, sliding_time):
+        query = session.query(model).where(model.dag_id != SYSTEM_SYNC_STATUS_DAG_ID)
+        query = query.where(
+            and_(
+                model.updated_at >= (last_updated_time - datetime.timedelta(seconds=sliding_time)),
+                model.updated_at < last_updated_time,
+            )
+        )
+        return query.order_by(model.updated_at.asc())
+    def _limit_query(self, session, model, last_updated_time, limit):
+        query = session.query(model).where(model.dag_id != SYSTEM_SYNC_STATUS_DAG_ID)
+        if last_updated_time is not None:
+            query = query.where(model.updated_at >= last_updated_time)
+        return query.order_by(model.updated_at.asc()).limit(limit)
+    def _format_job_run(self, dr: DagRun, workflow_version: str):
+        return dict(
+            job_id=self._parse_job_id(dr.dag_id),
+            run_id=dr.run_id,
+            state=dr.state,
+            start_time=dr.start_date and dr.start_date.isoformat(),
+            end_time=dr.end_date and dr.end_date.isoformat(),
+            execution_date=dr.execution_date and dr.execution_date.isoformat(),
+            workflow_version=workflow_version,
+            airflow_updated_at=dr.updated_at and dr.updated_at.isoformat(),
+            run_type=None,
+            data_interval_end=dr.data_interval_end and dr.data_interval_end.isoformat(),
+        )
+    def scan_dag_runs(self, last_updated_time: datetime.datetime | None, limit: int, sliding_time: int = 0):
+        job_runs = []
+        workflow_version_map = {}
+        with create_session() as session:
+            dag_runs: list[DagRun] = []
+            if last_updated_time and sliding_time > 0:
+                dag_runs.extend(self._sliding_time_query(session, DagRun, last_updated_time, sliding_time).all())
+            dag_runs.extend(self._limit_query(session, DagRun, last_updated_time, limit).all())
+            for dr in dag_runs:
+                workflow_version = workflow_version_map.get((dr.dag_id, dr.run_id))
+                if workflow_version is None:
+                    ti = (
+                        session.query(TaskInstance)
+                        .filter(TaskInstance.dag_id == dr.dag_id, TaskInstance.run_id == dr.run_id)
+                        .first()
+                    )
+                    workflow_version = ti and ti.executor_config.get("workflow_version")
+                    if workflow_version is not None:
+                        workflow_version_map[(dr.dag_id, dr.run_id)] = workflow_version
+                job_runs.append(self._format_job_run(dr, workflow_version))
+        return job_runs
+    def _format_task_run(self, ti: TaskInstance):
+        return dict(
+            job_id=self._parse_job_id(ti.dag_id),
+            run_id=ti.run_id,
+            node_key=ti.task_id,
+            state=ti.state,
+            try_number=ti._try_number,
+            start_time=ti.start_date and ti.start_date.isoformat(),
+            end_time=ti.end_date and ti.end_date.isoformat(),
+            execution_date=ti.execution_date and ti.execution_date.isoformat(),
+            workflow_version=ti.executor_config.get("workflow_version"),
+            operator=ti.executor_config.get("operator"),
+            task=ti.executor_config.get("task"),
+            link_workflow_id=ti.executor_config.get("link_workflow_id"),
+            link_workflow_version=ti.executor_config.get("link_workflow_version"),
+            airflow_updated_at=ti.updated_at and ti.updated_at.isoformat(),
+        )
+    def scan_task_instances(self, last_updated_time: datetime.datetime | None, limit: int, sliding_time: int = 0):
+        dag_runs = {}
+        task_runs = []
+        with create_session() as session:
+            tis: list[TaskInstance] = []
+            if last_updated_time and sliding_time > 0:
+                tis.extend(
+                    self._sliding_time_query(session, TaskInstance, last_updated_time, sliding_time)
+                    .options(joinedload(TaskInstance.dag_run))
+                    .all()
+                )
+            tis.extend(
+                self._limit_query(session, TaskInstance, last_updated_time, limit)
+                .options(joinedload(TaskInstance.dag_run))
+                .all()
+            )
+            for ti in tis:
+                dag_runs[(ti.dag_run.dag_id, ti.dag_run.run_id)] = (
+                    ti.dag_run,
+                    ti.executor_config.get("workflow_version"),
+                )
+                task_runs.append(self._format_task_run(ti))
+        return task_runs, [self._format_job_run(dr, workflow_version) for dr, workflow_version in dag_runs.values()]
+    def scan_unfinished_task_instances(self, data: dict | None):
+        if not data:
+            return [], []
+        dag_ids = set()
+        task_ids = set()
+        run_ids = set()
+        for dag_id, item in data.items():
+            dag_ids.add(dag_id)
+            for task_id, _run_ids in item.items():
+                task_ids.add(task_id)
+                for run_id in _run_ids:
+                    run_ids.add(run_id)
+        dag_runs = {}
+        task_runs = []
+        with create_session() as session:
+            criterion = []
+            if dag_ids:
+                criterion.append(TaskInstance.dag_id.in_(dag_ids))
+            if task_ids:
+                criterion.append(TaskInstance.task_id.in_(task_ids))
+            if run_ids:
+                criterion.append(TaskInstance.run_id.in_(run_ids))
+            tis: list[TaskInstance] = (
+                session.query(TaskInstance).where(*criterion).options(joinedload(TaskInstance.dag_run)).all()
+            )
+            for ti in tis:
+                if (
+                    ti.dag_id not in data
+                    or ti.task_id not in data[ti.dag_id]
+                    or ti.run_id not in data[ti.dag_id][ti.task_id]
+                ):
+                    continue
+                dag_runs[(ti.dag_run.dag_id, ti.dag_run.run_id)] = (
+                    ti.dag_run,
+                    ti.executor_config.get("workflow_version"),
+                )
+                task_runs.append(self._format_task_run(ti))
+        return task_runs, [self._format_job_run(dr, workflow_version) for dr, workflow_version in dag_runs.values()]

recurvedata/schedulers/utils.py ADDED Viewed

@@ -0,0 +1,73 @@
+import datetime
+import json
+import logging
+from typing import Generator
+from airflow.models import DAG, BaseOperator
+from airflow.utils.session import create_session
+from slugify import slugify
+from recurvedata.schedulers.client import SchedulerClient
+logger = logging.getLogger(__name__)
+def get_tasks(dag: DAG, recurve_node_key: str = None) -> Generator[BaseOperator, None, None]:
+    if recurve_node_key:
+        for task in dag.task_dict.values():
+            if task.doc_json and json.loads(task.doc_json).get("recurve_node_key") == recurve_node_key:
+                yield task
+def clear_task_instance(
+    dag: DAG,
+    recurve_node_key: str,
+    execution_date: datetime.datetime,
+    only_failed: bool = False,
+    including_downstream: bool = False,
+):
+    clear_task_ids: list[str] = []
+    for task in get_tasks(dag, recurve_node_key):
+        clear_task_ids.append(task.task_id)
+    airflow_execution_date = dag.previous_schedule(execution_date)  # todo: timezone
+    with create_session() as session:
+        dag = dag.partial_subset(task_ids_or_regex=clear_task_ids, include_downstream=including_downstream)
+        clear_task_ids = [tid for tid in dag.task_dict]
+        logger.info(f"prepare to clear dag: {dag.dag_id}, {clear_task_ids} execution_date: {airflow_execution_date}")
+        clear_cnt = dag.clear(
+            task_ids=clear_task_ids,
+            start_date=airflow_execution_date,
+            end_date=airflow_execution_date,
+            only_failed=only_failed,
+            session=session,
+        )
+        logger.info(
+            f"finish clear dag: {dag.dag_id}, {clear_task_ids} execution_date: {airflow_execution_date}, total clear: {clear_cnt} task_instances"
+        )
+def slugify_text(s: str) -> str:
+    """A simple wrapper to python-slugify, using custom regex_pattern to keep `.` and `_` as is
+    >>> slugify_text('我是谁')
+    'wo-shi-shui'
+    >>> slugify_text('load_fact_user_stats')
+    'load_fact_user_stats'
+    >>> slugify_text('tidb prepare category tables')
+    'tidb-prepare-category-tables'
+    >>> slugify_text('estimate daily deal 2017.10.20')
+    'estimate-daily-deal-2017.10.20'
+    """
+    return slugify(s, regex_pattern=r"[^-a-zA-Z0-9\._]+")
+def format_dag_id(job_id: int) -> str:
+    """
+    please do not adjust this function
+    """
+    return str(job_id)
+def init_client() -> SchedulerClient:
+    return SchedulerClient()

recurvedata/schema/__init__.py ADDED Viewed

File without changes

recurvedata/schema/field.py ADDED Viewed

@@ -0,0 +1,88 @@
+import dataclasses
+import datetime
+from typing import Any, Callable, Optional
+import dateutil.parser
+from recurvedata.schema.types import DataType
+from recurvedata.utils import json
+from recurvedata.utils.registry import GenericRegistry
+_registry = GenericRegistry[DataType, Callable[[str], Any]]()
+@_registry.add(DataType.INT8, DataType.INT16, DataType.INT32, DataType.INT64)
+def _(value: str) -> int:
+    if value == "":
+        return 0
+    return int(value)
+@_registry.add(DataType.FLOAT32, DataType.FLOAT64)
+def _(value: str) -> float:
+    if value == "":
+        return 0.0
+    return float(value)
+@_registry.add(DataType.BOOLEAN)
+def _(value: str) -> bool:
+    if value.lower() in ("", "0", "false"):
+        return False
+    return True
+@_registry.add(DataType.DATETIME)
+def _(value: str) -> Optional[datetime.datetime]:
+    if value == "":
+        return None
+    return dateutil.parser.parse(value)
+@_registry.add(DataType.DATE)
+def _(value: str) -> Optional[datetime.date]:
+    if value == "":
+        return None
+    return dateutil.parser.parse(value).date()
+@_registry.add(DataType.JSON)
+def _(value: str) -> Any:
+    if value in ("",):
+        # 正常情况下不会有 ''，很可能是从 CSV 文件读到了空字符，当作 None 处理
+        return None
+    return json.loads(value)
+@dataclasses.dataclass
+class Field:
+    name: str
+    type: DataType
+    size: int = None
+    comment: str = None
+    extra: dict = None
+    def __post_init__(self):
+        self._cast_func: Callable[[str], Any] = _registry.get(self.type, lambda x: x)
+    def cast(self, value: Optional[str]) -> Any:
+        if value is None:
+            return None
+        if value == "NULL":
+            return None
+        return self._cast_func(value)
+    def to_dict(self) -> dict[str, Any]:
+        return {
+            "name": self.name,
+            "type": self.type,
+            "size": self.size,
+            "comment": self.comment,
+            "extra": self.extra,
+        }
+    def __str__(self):
+        return f'<Field ("{self.name}", "{self.type}")>'
+    def __repr__(self):
+        return f'<Field ("{self.name}", "{self.type}")>'

recurvedata/schema/schema.py ADDED Viewed

@@ -0,0 +1,55 @@
+import dataclasses
+from typing import Any
+from recurvedata.schema.field import Field
+from recurvedata.schema.types import DataType
+from recurvedata.utils import json
+@dataclasses.dataclass
+class Schema:
+    fields: list[Field] = dataclasses.field(default_factory=list)
+    def add_field(self, field: Field):
+        if field.name in self.field_names:
+            raise ValueError(f"Field name {field.name} already exists")
+        self.fields.append(field)
+    def add_field_by_attrs(
+        self,
+        name: str,
+        type: DataType,
+        size: int = None,
+        comment: str = None,
+        extra: dict = None,
+    ):
+        self.add_field(Field(name, type, size, comment, extra))
+    def remove_field(self, name: str):
+        self.fields = [x for x in self.fields if x.name != name]
+    def keep_fields(self, names: list[str]):
+        self.fields = [x for x in self.fields if x.name in names]
+    @property
+    def field_names(self) -> list[str]:
+        return [x.name for x in self.fields]
+    def __iter__(self):
+        return iter(self.fields)
+    def to_list(self) -> list[dict[str, Any]]:
+        return [x.to_dict() for x in self.fields]
+    def to_json(self, **kwargs) -> str:
+        return json.dumps(self.to_list(), **kwargs)
+    def dump(self, filename: str):
+        with open(filename, "w") as f:
+            f.write(self.to_json(indent=2))
+    @classmethod
+    def load(cls, filename: str) -> "Schema":
+        with open(filename) as f:
+            data = json.loads(f.read())
+        return cls([Field(**item) for item in data])

recurvedata/schema/types.py ADDED Viewed

@@ -0,0 +1,17 @@
+import enum
+class DataType(str, enum.Enum):
+    INT8 = "INT8"  # 1-byte (8-bit) signed integers
+    INT16 = "INT16"  # 2-byte (16-bit) signed integers
+    INT32 = "INT32"  # 4-byte (32-bit) signed integers
+    INT64 = "INT64"  # 8-byte (64-bit) signed integers
+    FLOAT32 = "FLOAT32"  # 4-byte (32-bit) single-precision floating
+    FLOAT64 = "FLOAT64"  # 8-byte (64-bit) double-precision floating
+    BOOLEAN = "BOOLEAN"
+    DATETIME = "DATETIME"
+    DATE = "DATE"
+    STRING = "STRING"
+    JSON = "JSON"

recurvedata/schema.py ADDED Viewed

File without changes

recurvedata/server/__init__.py ADDED Viewed

File without changes

recurvedata/server/app.py ADDED Viewed

@@ -0,0 +1,7 @@
+from recurvedata.executors.utils import patch_pandas_mysql_connector_cext_missing
+patch_pandas_mysql_connector_cext_missing()
+from recurvedata.server.main import create_app  # noqa: E402
+app = create_app()

recurvedata/server/connector/__init__.py ADDED Viewed

File without changes

recurvedata/server/connector/api.py ADDED Viewed

@@ -0,0 +1,79 @@
+from fastapi import APIRouter
+from loguru import logger
+from recurvedata.core.tracing import Tracing
+from recurvedata.executors.schemas import (
+    ColumnListPayload,
+    ConnectionRuntimePayload,
+    ResponseModel,
+    TableListPayload,
+    TestConnectionPayload,
+)
+from recurvedata.executors.service.connector import ConnectionService
+from recurvedata.executors.utils import run_with_result_handling_v2
+from recurvedata.server.connector.schemas import (
+    ListColumnsResponse,
+    ListDatabasesResponse,
+    ListFullDatabasesResponse,
+    ListTablesResponse,
+    TestConnectionResponse,
+)
+tracer = Tracing()
+router = APIRouter()
+@router.post("/test-connection")
+@tracer.create_span(sampling_rate=0.1)
+async def test_connection(*, payload: TestConnectionPayload) -> TestConnectionResponse:
+    logger.info(f"test_connection: {payload.connection_type}")
+    res: ResponseModel = await run_with_result_handling_v2(
+        ConnectionService.test_connection, payload.timeout, payload.connection_type, payload.config
+    )
+    logger.info("finish test_connection")
+    return TestConnectionResponse.model_validate(res.model_dump())
+@router.post("/list-databases")
+@tracer.create_span(sampling_rate=0.1)
+async def list_databases(*, payload: ConnectionRuntimePayload) -> ListDatabasesResponse:
+    logger.info(f"list_databases: {payload.connection_type}")
+    res: ResponseModel = await run_with_result_handling_v2(
+        ConnectionService.list_databases, None, payload.connection_type, payload.config
+    )
+    logger.info("finish list_databases")
+    return ListDatabasesResponse.model_validate(res.model_dump())
+@router.post("/list-tables")
+@tracer.create_span(sampling_rate=0.1)
+async def list_tables(*, payload: TableListPayload) -> ListTablesResponse:
+    logger.info(f"list_tables: {payload.connection_type} {payload.database}")
+    res: ResponseModel = await run_with_result_handling_v2(
+        ConnectionService.list_tables, None, payload.connection_type, payload.config, payload.database
+    )
+    logger.info("finish list_tables")
+    return ListTablesResponse.model_validate(res.model_dump())
+@router.post("/list-columns")
+@tracer.create_span(sampling_rate=0.1)
+async def list_columns(*, payload: ColumnListPayload) -> ListColumnsResponse:
+    logger.info(f"list_columns: {payload.connection_type} {payload.database} {payload.table}")
+    res: ResponseModel = await run_with_result_handling_v2(
+        ConnectionService.list_columns, None, payload.connection_type, payload.config, payload.database, payload.table
+    )
+    logger.info("finish list_columns")
+    return ListColumnsResponse.model_validate(res.model_dump())
+@router.post("/list-full-databases")
+@tracer.create_span(sampling_rate=0.1)
+async def list_full_databases(*, payload: ConnectionRuntimePayload) -> ListFullDatabasesResponse:
+    logger.info(f"list_full_databases: {payload.connection_type}")
+    res: ResponseModel = await run_with_result_handling_v2(
+        ConnectionService.list_full_databases, None, payload.connection_type, payload.config
+    )
+    logger.info("finish list_full_databases")
+    return ListFullDatabasesResponse.model_validate(res.model_dump())

recurvedata/server/connector/schemas.py ADDED Viewed

@@ -0,0 +1,28 @@
+from recurvedata.executors.schemas import (
+    ColumnItem,
+    FullDatabaseItem,
+    ListDatabases,
+    Pagination,
+    ResponseModel,
+    TableItem,
+)
+class TestConnectionResponse(ResponseModel):
+    pass
+class ListDatabasesResponse(ResponseModel):
+    data: ListDatabases | None
+class ListTablesResponse(ResponseModel):
+    data: Pagination[TableItem] | None
+class ListColumnsResponse(ResponseModel):
+    data: Pagination[ColumnItem] | None
+class ListFullDatabasesResponse(ResponseModel):
+    data: Pagination[FullDatabaseItem] | None

recurvedata/server/data_service/__init__.py ADDED Viewed

File without changes