PyPI - recurvedata-lib - Versions diffs - 0.1.487__py2.py3-none-any.whl - Mend

recurvedata-lib 0.1.487__py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of recurvedata-lib might be problematic. Click here for more details.

Files changed (333) hide show

recurvedata/__init__.py +0 -0
recurvedata/__version__.py +1 -0
recurvedata/client/__init__.py +3 -0
recurvedata/client/client.py +150 -0
recurvedata/client/server_client.py +91 -0
recurvedata/config.py +99 -0
recurvedata/connectors/__init__.py +20 -0
recurvedata/connectors/_register.py +46 -0
recurvedata/connectors/base.py +111 -0
recurvedata/connectors/config_schema.py +1575 -0
recurvedata/connectors/connectors/__init__.py +0 -0
recurvedata/connectors/connectors/aliyun_access_key.py +30 -0
recurvedata/connectors/connectors/auth.py +44 -0
recurvedata/connectors/connectors/azure_blob.py +89 -0
recurvedata/connectors/connectors/azure_synapse.py +79 -0
recurvedata/connectors/connectors/bigquery.py +359 -0
recurvedata/connectors/connectors/clickhouse.py +219 -0
recurvedata/connectors/connectors/dingtalk.py +61 -0
recurvedata/connectors/connectors/doris.py +215 -0
recurvedata/connectors/connectors/es.py +62 -0
recurvedata/connectors/connectors/feishu.py +65 -0
recurvedata/connectors/connectors/ftp.py +50 -0
recurvedata/connectors/connectors/generic.py +49 -0
recurvedata/connectors/connectors/google_cloud_storage.py +115 -0
recurvedata/connectors/connectors/google_service_account.py +225 -0
recurvedata/connectors/connectors/hive.py +207 -0
recurvedata/connectors/connectors/impala.py +210 -0
recurvedata/connectors/connectors/jenkins.py +51 -0
recurvedata/connectors/connectors/mail.py +89 -0
recurvedata/connectors/connectors/microsoft_fabric.py +284 -0
recurvedata/connectors/connectors/mongo.py +79 -0
recurvedata/connectors/connectors/mssql.py +131 -0
recurvedata/connectors/connectors/mysql.py +191 -0
recurvedata/connectors/connectors/n8n.py +141 -0
recurvedata/connectors/connectors/oss.py +74 -0
recurvedata/connectors/connectors/owncloud.py +36 -0
recurvedata/connectors/connectors/phoenix.py +36 -0
recurvedata/connectors/connectors/postgres.py +230 -0
recurvedata/connectors/connectors/python.py +50 -0
recurvedata/connectors/connectors/redshift.py +187 -0
recurvedata/connectors/connectors/s3.py +93 -0
recurvedata/connectors/connectors/sftp.py +87 -0
recurvedata/connectors/connectors/slack.py +35 -0
recurvedata/connectors/connectors/spark.py +99 -0
recurvedata/connectors/connectors/starrocks.py +175 -0
recurvedata/connectors/connectors/tencent_cos.py +40 -0
recurvedata/connectors/connectors/tidb.py +49 -0
recurvedata/connectors/const.py +315 -0
recurvedata/connectors/datasource.py +189 -0
recurvedata/connectors/dbapi.py +469 -0
recurvedata/connectors/fs.py +66 -0
recurvedata/connectors/ftp.py +40 -0
recurvedata/connectors/object_store.py +60 -0
recurvedata/connectors/pigeon.py +172 -0
recurvedata/connectors/proxy.py +104 -0
recurvedata/connectors/service.py +223 -0
recurvedata/connectors/utils.py +47 -0
recurvedata/consts.py +49 -0
recurvedata/core/__init__.py +0 -0
recurvedata/core/config.py +46 -0
recurvedata/core/configurable.py +27 -0
recurvedata/core/consts.py +2 -0
recurvedata/core/templating.py +206 -0
recurvedata/core/tracing.py +223 -0
recurvedata/core/transformer.py +186 -0
recurvedata/core/translation.py +91 -0
recurvedata/dbt/client.py +97 -0
recurvedata/dbt/consts.py +99 -0
recurvedata/dbt/cosmos_utils.py +275 -0
recurvedata/dbt/error_codes.py +18 -0
recurvedata/dbt/schemas.py +98 -0
recurvedata/dbt/service.py +451 -0
recurvedata/dbt/utils.py +246 -0
recurvedata/error_codes.py +71 -0
recurvedata/exceptions.py +72 -0
recurvedata/executors/__init__.py +4 -0
recurvedata/executors/cli/__init__.py +7 -0
recurvedata/executors/cli/connector.py +117 -0
recurvedata/executors/cli/dbt.py +118 -0
recurvedata/executors/cli/main.py +82 -0
recurvedata/executors/cli/parameters.py +18 -0
recurvedata/executors/client.py +190 -0
recurvedata/executors/consts.py +50 -0
recurvedata/executors/debug_executor.py +100 -0
recurvedata/executors/executor.py +300 -0
recurvedata/executors/link_executor.py +189 -0
recurvedata/executors/models.py +34 -0
recurvedata/executors/schemas.py +222 -0
recurvedata/executors/service/__init__.py +0 -0
recurvedata/executors/service/connector.py +380 -0
recurvedata/executors/utils.py +172 -0
recurvedata/filestorage/__init__.py +11 -0
recurvedata/filestorage/_factory.py +33 -0
recurvedata/filestorage/backends/__init__.py +0 -0
recurvedata/filestorage/backends/fsspec.py +45 -0
recurvedata/filestorage/backends/local.py +67 -0
recurvedata/filestorage/backends/oss.py +56 -0
recurvedata/filestorage/interface.py +84 -0
recurvedata/operators/__init__.py +10 -0
recurvedata/operators/base.py +28 -0
recurvedata/operators/config.py +21 -0
recurvedata/operators/context.py +255 -0
recurvedata/operators/dbt_operator/__init__.py +2 -0
recurvedata/operators/dbt_operator/model_pipeline_link_operator.py +55 -0
recurvedata/operators/dbt_operator/operator.py +353 -0
recurvedata/operators/link_operator/__init__.py +1 -0
recurvedata/operators/link_operator/operator.py +120 -0
recurvedata/operators/models.py +55 -0
recurvedata/operators/notify_operator/__init__.py +1 -0
recurvedata/operators/notify_operator/operator.py +180 -0
recurvedata/operators/operator.py +119 -0
recurvedata/operators/python_operator/__init__.py +1 -0
recurvedata/operators/python_operator/operator.py +132 -0
recurvedata/operators/sensor_operator/__init__.py +1 -0
recurvedata/operators/sensor_operator/airflow_utils.py +63 -0
recurvedata/operators/sensor_operator/operator.py +172 -0
recurvedata/operators/spark_operator/__init__.py +1 -0
recurvedata/operators/spark_operator/operator.py +200 -0
recurvedata/operators/spark_operator/spark_sample.py +47 -0
recurvedata/operators/sql_operator/__init__.py +1 -0
recurvedata/operators/sql_operator/operator.py +90 -0
recurvedata/operators/task.py +211 -0
recurvedata/operators/transfer_operator/__init__.py +40 -0
recurvedata/operators/transfer_operator/const.py +10 -0
recurvedata/operators/transfer_operator/dump_aliyun_sls.py +82 -0
recurvedata/operators/transfer_operator/dump_sheet_task_base.py +292 -0
recurvedata/operators/transfer_operator/dump_task_cass.py +155 -0
recurvedata/operators/transfer_operator/dump_task_dbapi.py +209 -0
recurvedata/operators/transfer_operator/dump_task_es.py +113 -0
recurvedata/operators/transfer_operator/dump_task_feishu_sheet.py +114 -0
recurvedata/operators/transfer_operator/dump_task_ftp.py +234 -0
recurvedata/operators/transfer_operator/dump_task_google_sheet.py +66 -0
recurvedata/operators/transfer_operator/dump_task_mongodb.py +168 -0
recurvedata/operators/transfer_operator/dump_task_oss.py +285 -0
recurvedata/operators/transfer_operator/dump_task_python.py +212 -0
recurvedata/operators/transfer_operator/dump_task_s3.py +270 -0
recurvedata/operators/transfer_operator/dump_task_sftp.py +229 -0
recurvedata/operators/transfer_operator/load_task_aliyun_oss.py +107 -0
recurvedata/operators/transfer_operator/load_task_azure_blob.py +115 -0
recurvedata/operators/transfer_operator/load_task_azure_synapse.py +90 -0
recurvedata/operators/transfer_operator/load_task_clickhouse.py +167 -0
recurvedata/operators/transfer_operator/load_task_doris.py +164 -0
recurvedata/operators/transfer_operator/load_task_email.py +188 -0
recurvedata/operators/transfer_operator/load_task_es.py +86 -0
recurvedata/operators/transfer_operator/load_task_filebrowser.py +151 -0
recurvedata/operators/transfer_operator/load_task_ftp.py +19 -0
recurvedata/operators/transfer_operator/load_task_google_bigquery.py +90 -0
recurvedata/operators/transfer_operator/load_task_google_cloud_storage.py +127 -0
recurvedata/operators/transfer_operator/load_task_google_sheet.py +130 -0
recurvedata/operators/transfer_operator/load_task_hive.py +158 -0
recurvedata/operators/transfer_operator/load_task_microsoft_fabric.py +105 -0
recurvedata/operators/transfer_operator/load_task_mssql.py +153 -0
recurvedata/operators/transfer_operator/load_task_mysql.py +157 -0
recurvedata/operators/transfer_operator/load_task_owncloud.py +135 -0
recurvedata/operators/transfer_operator/load_task_postgresql.py +109 -0
recurvedata/operators/transfer_operator/load_task_qcloud_cos.py +119 -0
recurvedata/operators/transfer_operator/load_task_recurve_data_prep.py +75 -0
recurvedata/operators/transfer_operator/load_task_redshift.py +95 -0
recurvedata/operators/transfer_operator/load_task_s3.py +150 -0
recurvedata/operators/transfer_operator/load_task_sftp.py +90 -0
recurvedata/operators/transfer_operator/load_task_starrocks.py +169 -0
recurvedata/operators/transfer_operator/load_task_yicrowds.py +97 -0
recurvedata/operators/transfer_operator/mixin.py +31 -0
recurvedata/operators/transfer_operator/operator.py +231 -0
recurvedata/operators/transfer_operator/task.py +223 -0
recurvedata/operators/transfer_operator/utils.py +134 -0
recurvedata/operators/ui.py +80 -0
recurvedata/operators/utils/__init__.py +51 -0
recurvedata/operators/utils/file_factory.py +150 -0
recurvedata/operators/utils/fs.py +10 -0
recurvedata/operators/utils/lineage.py +265 -0
recurvedata/operators/web_init.py +15 -0
recurvedata/pigeon/connector/__init__.py +294 -0
recurvedata/pigeon/connector/_registry.py +17 -0
recurvedata/pigeon/connector/aliyun_oss.py +80 -0
recurvedata/pigeon/connector/awss3.py +123 -0
recurvedata/pigeon/connector/azure_blob.py +176 -0
recurvedata/pigeon/connector/azure_synapse.py +51 -0
recurvedata/pigeon/connector/cass.py +151 -0
recurvedata/pigeon/connector/clickhouse.py +403 -0
recurvedata/pigeon/connector/clickhouse_native.py +351 -0
recurvedata/pigeon/connector/dbapi.py +571 -0
recurvedata/pigeon/connector/doris.py +166 -0
recurvedata/pigeon/connector/es.py +176 -0
recurvedata/pigeon/connector/feishu.py +1135 -0
recurvedata/pigeon/connector/ftp.py +163 -0
recurvedata/pigeon/connector/google_bigquery.py +283 -0
recurvedata/pigeon/connector/google_cloud_storage.py +130 -0
recurvedata/pigeon/connector/hbase_phoenix.py +108 -0
recurvedata/pigeon/connector/hdfs.py +204 -0
recurvedata/pigeon/connector/hive_impala.py +383 -0
recurvedata/pigeon/connector/microsoft_fabric.py +95 -0
recurvedata/pigeon/connector/mongodb.py +56 -0
recurvedata/pigeon/connector/mssql.py +467 -0
recurvedata/pigeon/connector/mysql.py +175 -0
recurvedata/pigeon/connector/owncloud.py +92 -0
recurvedata/pigeon/connector/postgresql.py +267 -0
recurvedata/pigeon/connector/power_bi.py +179 -0
recurvedata/pigeon/connector/qcloud_cos.py +79 -0
recurvedata/pigeon/connector/redshift.py +123 -0
recurvedata/pigeon/connector/sftp.py +73 -0
recurvedata/pigeon/connector/sqlite.py +42 -0
recurvedata/pigeon/connector/starrocks.py +144 -0
recurvedata/pigeon/connector/tableau.py +162 -0
recurvedata/pigeon/const.py +21 -0
recurvedata/pigeon/csv.py +172 -0
recurvedata/pigeon/docs/datasources-example.json +82 -0
recurvedata/pigeon/docs/images/pigeon_design.png +0 -0
recurvedata/pigeon/docs/lightweight-data-sync-solution.md +111 -0
recurvedata/pigeon/dumper/__init__.py +171 -0
recurvedata/pigeon/dumper/aliyun_sls.py +415 -0
recurvedata/pigeon/dumper/base.py +141 -0
recurvedata/pigeon/dumper/cass.py +213 -0
recurvedata/pigeon/dumper/dbapi.py +346 -0
recurvedata/pigeon/dumper/es.py +112 -0
recurvedata/pigeon/dumper/ftp.py +64 -0
recurvedata/pigeon/dumper/mongodb.py +103 -0
recurvedata/pigeon/handler/__init__.py +4 -0
recurvedata/pigeon/handler/base.py +153 -0
recurvedata/pigeon/handler/csv_handler.py +290 -0
recurvedata/pigeon/loader/__init__.py +87 -0
recurvedata/pigeon/loader/base.py +83 -0
recurvedata/pigeon/loader/csv_to_azure_synapse.py +214 -0
recurvedata/pigeon/loader/csv_to_clickhouse.py +152 -0
recurvedata/pigeon/loader/csv_to_doris.py +215 -0
recurvedata/pigeon/loader/csv_to_es.py +51 -0
recurvedata/pigeon/loader/csv_to_google_bigquery.py +169 -0
recurvedata/pigeon/loader/csv_to_hive.py +468 -0
recurvedata/pigeon/loader/csv_to_microsoft_fabric.py +242 -0
recurvedata/pigeon/loader/csv_to_mssql.py +174 -0
recurvedata/pigeon/loader/csv_to_mysql.py +180 -0
recurvedata/pigeon/loader/csv_to_postgresql.py +248 -0
recurvedata/pigeon/loader/csv_to_redshift.py +240 -0
recurvedata/pigeon/loader/csv_to_starrocks.py +233 -0
recurvedata/pigeon/meta.py +116 -0
recurvedata/pigeon/row_factory.py +42 -0
recurvedata/pigeon/schema/__init__.py +124 -0
recurvedata/pigeon/schema/types.py +13 -0
recurvedata/pigeon/sync.py +283 -0
recurvedata/pigeon/transformer.py +146 -0
recurvedata/pigeon/utils/__init__.py +134 -0
recurvedata/pigeon/utils/bloomfilter.py +181 -0
recurvedata/pigeon/utils/date_time.py +323 -0
recurvedata/pigeon/utils/escape.py +15 -0
recurvedata/pigeon/utils/fs.py +266 -0
recurvedata/pigeon/utils/json.py +44 -0
recurvedata/pigeon/utils/keyed_tuple.py +85 -0
recurvedata/pigeon/utils/mp.py +156 -0
recurvedata/pigeon/utils/sql.py +328 -0
recurvedata/pigeon/utils/timing.py +155 -0
recurvedata/provider_manager.py +0 -0
recurvedata/providers/__init__.py +0 -0
recurvedata/providers/dbapi/__init__.py +0 -0
recurvedata/providers/flywheel/__init__.py +0 -0
recurvedata/providers/mysql/__init__.py +0 -0
recurvedata/schedulers/__init__.py +1 -0
recurvedata/schedulers/airflow.py +974 -0
recurvedata/schedulers/airflow_db_process.py +331 -0
recurvedata/schedulers/airflow_operators.py +61 -0
recurvedata/schedulers/airflow_plugin.py +9 -0
recurvedata/schedulers/airflow_trigger_dag_patch.py +117 -0
recurvedata/schedulers/base.py +99 -0
recurvedata/schedulers/cli.py +228 -0
recurvedata/schedulers/client.py +56 -0
recurvedata/schedulers/consts.py +52 -0
recurvedata/schedulers/debug_celery.py +62 -0
recurvedata/schedulers/model.py +63 -0
recurvedata/schedulers/schemas.py +97 -0
recurvedata/schedulers/service.py +20 -0
recurvedata/schedulers/system_dags.py +59 -0
recurvedata/schedulers/task_status.py +279 -0
recurvedata/schedulers/utils.py +73 -0
recurvedata/schema/__init__.py +0 -0
recurvedata/schema/field.py +88 -0
recurvedata/schema/schema.py +55 -0
recurvedata/schema/types.py +17 -0
recurvedata/schema.py +0 -0
recurvedata/server/__init__.py +0 -0
recurvedata/server/app.py +7 -0
recurvedata/server/connector/__init__.py +0 -0
recurvedata/server/connector/api.py +79 -0
recurvedata/server/connector/schemas.py +28 -0
recurvedata/server/data_service/__init__.py +0 -0
recurvedata/server/data_service/api.py +126 -0
recurvedata/server/data_service/client.py +18 -0
recurvedata/server/data_service/consts.py +1 -0
recurvedata/server/data_service/schemas.py +68 -0
recurvedata/server/data_service/service.py +218 -0
recurvedata/server/dbt/__init__.py +0 -0
recurvedata/server/dbt/api.py +116 -0
recurvedata/server/error_code.py +49 -0
recurvedata/server/exceptions.py +19 -0
recurvedata/server/executor/__init__.py +0 -0
recurvedata/server/executor/api.py +37 -0
recurvedata/server/executor/schemas.py +30 -0
recurvedata/server/executor/service.py +220 -0
recurvedata/server/main.py +32 -0
recurvedata/server/schedulers/__init__.py +0 -0
recurvedata/server/schedulers/api.py +252 -0
recurvedata/server/schedulers/schemas.py +50 -0
recurvedata/server/schemas.py +50 -0
recurvedata/utils/__init__.py +15 -0
recurvedata/utils/_typer.py +61 -0
recurvedata/utils/attrdict.py +19 -0
recurvedata/utils/command_helper.py +20 -0
recurvedata/utils/compat.py +12 -0
recurvedata/utils/compression.py +203 -0
recurvedata/utils/crontab.py +42 -0
recurvedata/utils/crypto_util.py +305 -0
recurvedata/utils/dataclass.py +11 -0
recurvedata/utils/date_time.py +464 -0
recurvedata/utils/dispatch.py +114 -0
recurvedata/utils/email_util.py +104 -0
recurvedata/utils/files.py +386 -0
recurvedata/utils/helpers.py +170 -0
recurvedata/utils/httputil.py +117 -0
recurvedata/utils/imports.py +132 -0
recurvedata/utils/json.py +80 -0
recurvedata/utils/log.py +117 -0
recurvedata/utils/log_capture.py +153 -0
recurvedata/utils/mp.py +178 -0
recurvedata/utils/normalizer.py +102 -0
recurvedata/utils/redis_lock.py +474 -0
recurvedata/utils/registry.py +54 -0
recurvedata/utils/shell.py +15 -0
recurvedata/utils/singleton.py +33 -0
recurvedata/utils/sql.py +6 -0
recurvedata/utils/timeout.py +28 -0
recurvedata/utils/tracing.py +14 -0
recurvedata_lib-0.1.487.dist-info/METADATA +605 -0
recurvedata_lib-0.1.487.dist-info/RECORD +333 -0
recurvedata_lib-0.1.487.dist-info/WHEEL +5 -0
recurvedata_lib-0.1.487.dist-info/entry_points.txt +6 -0

recurvedata/pigeon/loader/base.py ADDED Viewed

@@ -0,0 +1,83 @@
+import os
+from recurvedata.pigeon.schema import Schema
+from recurvedata.pigeon.utils import LoggingMixin, fs, sql
+class BaseLoader(LoggingMixin):
+    def __init__(self, *args, **kwargs):
+        pass
+    def before_execute(self):
+        pass
+    def after_execute(self):
+        pass
+    def execute(self):
+        self.before_execute()
+        self.execute_impl()
+        self.after_execute()
+    def execute_impl(self):
+        raise NotImplementedError("execute_impl must be implemented by subclass")
+class CSVToDBAPIMixin(object):
+    @property
+    def schema_filename(self) -> str:
+        return fs.schema_filename(self.filename)
+    def _prepare_target_table(self):
+        # add schema for azure data warehouse
+        if self.connector.has_table(table=self.table, schema=getattr(self, "schema", None)):
+            return
+        self.logger.info("table not found, try to create it")
+        ddl = self._infer_create_table_ddl()
+        if not ddl:
+            raise ValueError("table not found, create_table_ddl is required")
+        ddl = ddl.strip().rstrip(";")
+        self.logger.info("create table ddl: %s\n", ddl)
+        with self.connector.cursor() as cursor:
+            cursor.execute(ddl)
+    def _infer_create_table_ddl(self):
+        if not self.create_table_ddl:
+            # infer by schema
+            schema_file = self.schema_filename
+            self.logger.info("infer ddl by schema file %s", schema_file)
+            return self._generate_ddl_from_schema(schema_file)
+        if "CREATE TABLE" in self.create_table_ddl.upper():
+            self.logger.info("self.create_table_ddl contains `CREATE TABLE`, use it")
+            create_table_ddl = self.create_table_ddl
+            # Safely get schema, defaulting to None if not present
+            schema = getattr(self, "schema", None)
+            if not schema:
+                return create_table_ddl
+            self.logger.info(f"add schema {schema} to create table ddl")
+            return sql.add_schema_to_create_table(create_table_ddl, schema, self.connector.quote_identifier)
+        if os.path.isfile(self.create_table_ddl):
+            self.logger.info("self.create_table_ddl is a filename, treat it as schema file")
+            return self._generate_ddl_from_schema(self.create_table_ddl)
+        return None
+    def _generate_ddl_from_schema(self, schema_file):
+        if not os.path.exists(schema_file):
+            self.logger.error("file not exists, not able to infer DDL")
+            return None
+        try:
+            schema = Schema.load(schema_file)
+        except Exception:
+            self.logger.exception("failed to load schema from %s", schema_file)
+            return None
+        ddl_options = getattr(self, "ddl_options", {})
+        table_name = getattr(self, "full_table_name", self.table)
+        ddl = self.connector.generate_create_table_ddl(table_name, schema, **ddl_options)
+        return ddl

recurvedata/pigeon/loader/csv_to_azure_synapse.py ADDED Viewed

@@ -0,0 +1,214 @@
+from typing import TYPE_CHECKING, List, Union
+from recurvedata.pigeon import const
+from recurvedata.pigeon.loader.base import BaseLoader, CSVToDBAPIMixin
+from recurvedata.pigeon.utils import ensure_query_list, ensure_str_list, fs
+if TYPE_CHECKING:
+    from recurvedata.pigeon.connector.azure_synapse import AzureSynapseConnector
+allowed_modes = (
+    const.LOAD_OVERWRITE,
+    const.LOAD_MERGE,
+    const.LOAD_APPEND
+)
+class CSVToAzureSynapseLoader(BaseLoader, CSVToDBAPIMixin):
+    def __init__(
+            self,
+            table: str,
+            filename: str,
+            azure_synapse_connector: 'AzureSynapseConnector' = None,
+            schema: str = None,
+            create_table_ddl: str = None,
+            mode: str = const.LOAD_MERGE,
+            primary_keys: Union[str, List[str]] = None,
+            columns: Union[str, List[str]] = None,
+            compress: bool = True,
+            delete_file: bool = True,
+            dedup: bool = False,
+            dedup_uniq_keys: Union[str, List[str]] = None,
+            dedup_orderby: Union[str, List[str]] = None,
+            pre_queries: Union[str, List[str]] = None,
+            post_queries: Union[str, List[str]] = None,
+            *args, **kwargs
+    ):
+        if '.' in table:
+            self.schema, self.table = table.split('.')
+        else:
+            self.schema = schema or 'dbo'
+            self.table = table
+        # determine table name of target table and staging table
+        self.compress = compress
+        self.filename = filename  # full file path
+        self.azure_synapse = azure_synapse_connector  # TODO: use default
+        # determine table ddl stuff
+        self.create_table_ddl = create_table_ddl
+        # merge stuff
+        if mode not in allowed_modes:
+            raise ValueError(f'mode should be one of ({allowed_modes})')
+        self.mode = mode
+        self.primary_keys = ensure_str_list(primary_keys)
+        self.columns = ensure_str_list(columns)
+        # dedup stuff
+        self.dedup = dedup
+        self.dedup_uniq_keys = ensure_str_list(dedup_uniq_keys)
+        self.dedup_orderby = dedup_orderby
+        if self.dedup and not self.dedup_uniq_keys:
+            raise ValueError('dedup_uniq_keys should not be empty if dedup is true')
+        self.pre_queries = ensure_query_list(pre_queries) or []
+        self.post_queries = ensure_query_list(post_queries) or []
+        self.delete_file = delete_file
+        super().__init__()
+    def execute_impl(self):
+        if fs.is_file_empty(self.filename):
+            self.logger.error('file not exists or has no content. %s', self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+            return
+        self._prepare_target_table()
+        self._prepare_staging_table()
+        self._merge_into_target_table()
+        # do cleaning things
+        if self.delete_file:
+            self.logger.info('delete local file %s', self.filename)
+            fs.remove_files_safely(self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+    @property
+    def connector(self):
+        return self.azure_synapse
+    @property
+    def staging_table(self):
+        return f'{self.table}_staging'
+    @property
+    def full_staging_table_name(self):
+        return f'{self.schema}.{self.staging_table}'
+    @property
+    def full_table_name(self):
+        return f'{self.schema}.{self.table}'
+    @property
+    def quoted_full_staging_table(self):
+        return self.connector.quote_identifier(self.full_staging_table_name)
+    @property
+    def quoted_full_table_name(self):
+        return self.connector.quote_identifier(self.full_table_name)
+    def _prepare_staging_table(self):
+        schema, table = self.full_staging_table_name.split('.')
+        drop = self._make_drop_table_query(schema, table)
+        ddl = f'SELECT TOP 0 * INTO {self.quoted_full_staging_table} FROM {self.quoted_full_table_name}'
+        self.connector.execute([drop, ddl])
+        self.logger.info(f'load {self.filename} into staging table {self.full_staging_table_name}')
+        self.connector.load_csv(table=self.full_staging_table_name,
+                                filename=self.filename,
+                                columns=self.columns)
+        if self.dedup:
+            dedup_query = self._construct_dedup_query()
+            self.connector.execute(dedup_query, autocommit=False, commit_on_close=True)
+    def _construct_dedup_query(self):
+        partitions_cols = []
+        for col in self.dedup_uniq_keys:
+            partitions_cols.append(self.connector.quote_identifier(col))
+        partition_by = ', '.join(partitions_cols)
+        columns = ' ,'.join(self.azure_synapse.get_columns(schema=self.schema, table=self.staging_table))
+        tmp_table = f'{self.full_staging_table_name}_tmp'
+        quoted_tmp_table = self.connector.quote_identifier(tmp_table)
+        quoted_bak_table = self.connector.quote_identifier(f'{self.staging_table}_bak')
+        queries = f"""
+            {self._make_drop_table_query(self.schema, tmp_table)};
+            CREATE TABLE {quoted_tmp_table} AS
+            SELECT {', '.join(self.connector.quote_identifier(x) for x in columns)}
+            FROM (
+              SELECT *, ROW_NUMBER() OVER (PARTITION BY {partition_by} ORDER BY {self.dedup_orderby}) rn
+              FROM {self.quoted_full_staging_table}
+            ) AS t
+            WHERE rn = 1;
+            RENAME OBJECT {self.quoted_full_staging_table} TO {quoted_bak_table};
+            RENAME OBJECT {quoted_tmp_table} TO {self.staging_table};
+            DROP TABLE {quoted_bak_table};
+        """
+        return queries
+    def _make_drop_table_query(self, schema: str, table: str) -> str:
+        if '.' in table:
+            schema, table = table.split('.')
+        if not schema:
+            schema = self.schema
+        full_table = f'{schema}.{table}'
+        query = f'''
+            IF EXISTS (
+              SELECT * FROM sys.tables
+              WHERE schema_name(schema_id) = '{schema}' AND name = '{table}'
+            )
+            DROP TABLE {self.connector.quote_identifier(full_table)}
+        '''
+        return query
+    def _merge_into_target_table(self):
+        target = self.quoted_full_table_name
+        staging = self.quoted_full_staging_table
+        append_sql = f'INSERT INTO {target} SELECT * FROM {staging}'
+        if self.mode == const.LOAD_OVERWRITE:
+            queries = [f'TRUNCATE TABLE {target}', append_sql]
+        elif self.mode == const.LOAD_MERGE:
+            queries = self._ingest_by_merging()
+        else:
+            # APPEND
+            queries = [append_sql]
+        queries.append(f'DROP TABLE {staging}')
+        queries = self.pre_queries + queries + self.post_queries
+        self.logger.info('running Azure Synapse queries...')
+        self.connector.execute(queries, autocommit=True, commit_on_close=True)
+        self.logger.info('done.')
+    def _ingest_by_merging(self):
+        merge_table = f'{self.full_table_name}_merge'
+        quote = self.connector.quote_identifier
+        join = ' AND '.join([f'a.{quote(x)} = b.{quote(x)}' for x in self.primary_keys])
+        drop_merge_table = self._make_drop_table_query(self.schema, merge_table)
+        # TODO: maybe use the builtin MERGE by T-SQL?
+        queries = f"""
+            {drop_merge_table};
+            CREATE TABLE {quote(merge_table)} WITH (DISTRIBUTION = ROUND_ROBIN)
+            AS
+            SELECT a.*
+            FROM {self.quoted_full_table_name} AS a
+            LEFT JOIN {self.quoted_full_staging_table} AS b ON {join}
+            WHERE b.{quote(self.primary_keys[0])} IS NULL
+            UNION ALL
+            SELECT * FROM {self.quoted_full_staging_table};
+            TRUNCATE TABLE {self.quoted_full_table_name};
+            INSERT INTO {self.quoted_full_table_name} SELECT * FROM {quote(merge_table)};
+            {drop_merge_table};
+        """
+        return queries.split(';')

recurvedata/pigeon/loader/csv_to_clickhouse.py ADDED Viewed

@@ -0,0 +1,152 @@
+from recurvedata.pigeon import const
+from recurvedata.pigeon.connector import new_clickhouse_connector
+from recurvedata.pigeon.csv import CSV
+from recurvedata.pigeon.loader.base import BaseLoader, CSVToDBAPIMixin
+from recurvedata.pigeon.utils import ensure_query_list, ensure_str_list, fs
+from recurvedata.pigeon.utils.sql import bak_table_of, reconcile_table_of, staging_table_of
+allowed_modes = (const.LOAD_OVERWRITE, const.LOAD_MERGE, const.LOAD_APPEND)
+class CSVToClickHouseLoader(BaseLoader, CSVToDBAPIMixin):
+    def __init__(
+        self,
+        database,
+        table,
+        filename,
+        connector=None,
+        create_table_ddl=None,
+        mode=const.LOAD_OVERWRITE,
+        primary_keys=None,
+        skiprows=0,
+        using_insert=False,
+        insert_batch_size=10000,
+        insert_concurrency=1,
+        delete_file=False,
+        table_engine="Log",
+        pre_queries=None,
+        post_queries=None,
+        native=False,
+    ):
+        self.database = database
+        self.table = table
+        if isinstance(filename, CSV):
+            filename = filename.path
+        self.filename = filename
+        self.csvfile = CSV(self.filename)
+        if connector is None:
+            connector = new_clickhouse_connector(database=self.database, native=native)
+        else:
+            connector.database = self.database
+        self.connector = connector
+        self.create_table_ddl = create_table_ddl
+        self.ddl_options = {"ENGINE": table_engine}
+        if mode not in allowed_modes:
+            raise ValueError("mode should be one of ({})".format(allowed_modes))
+        self.mode = mode
+        self.primary_keys = ensure_str_list(primary_keys)
+        if self.mode == const.LOAD_MERGE and not self.primary_keys:
+            raise ValueError("primary_keys should not be empty in mode {}".format(const.LOAD_MERGE))
+        # self.columns = columns or self.csvfile.header
+        # self.skiprows = int(skiprows or self.csvfile.has_header)
+        self.skiprows = int(skiprows)
+        self.using_insert = using_insert
+        self.insert_batch_size = insert_batch_size
+        self.insert_concurrency = insert_concurrency
+        self.delete_file = delete_file
+        self.pre_queries = ensure_query_list(pre_queries) or []
+        self.post_queries = ensure_query_list(post_queries) or []
+        super().__init__()
+    @property
+    def staging_table(self):
+        return staging_table_of(self.table)
+    def execute_impl(self):
+        if fs.is_file_empty(self.filename):
+            self.logger.error("file not exists or has no content. %s", self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+            return
+        self._prepare_target_table()
+        self._prepare_staging_table()
+        self._load_to_staging()
+        self._merge_into_target_table()
+        # do cleaning things
+        if self.delete_file:
+            self.logger.info("delete local file %s", self.filename)
+            fs.remove_files_safely(self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+    def _prepare_staging_table(self):
+        queries = """
+            DROP TABLE IF EXISTS {staging};
+            CREATE TABLE {staging} AS {table};
+        """.format(
+            staging=self.staging_table, table=self.table
+        )
+        self.connector.execute(queries, autocommit=True)
+    def _load_to_staging(self):
+        self.connector.load_csv(
+            table=self.staging_table,
+            filename=self.csvfile.path,
+            lineterminator=self.csvfile.dialect.lineterminator,
+            skiprows=self.skiprows,
+            null_values=("NULL", r"\N"),
+            using_insert=self.using_insert,
+            batch_size=self.insert_batch_size,
+            concurrency=self.insert_concurrency,
+        )
+    def _merge_into_target_table(self):
+        queries = []
+        if self.mode == const.LOAD_MERGE:
+            queries.extend(self._ingest_by_merging())
+        elif self.mode == const.LOAD_OVERWRITE:
+            bak_table = bak_table_of(self.table)
+            queries.append(f"DROP TABLE IF EXISTS {bak_table}")
+            queries.append(f"RENAME TABLE {self.table} TO {bak_table}")
+            queries.append(f"RENAME TABLE {self.staging_table} TO {self.table}")
+            queries.append(f"DROP TABLE IF EXISTS {bak_table}")
+        else:
+            queries.append(f"INSERT INTO {self.table} SELECT * FROM {self.staging_table}")
+            queries.append(f"DROP TABLE {self.staging_table}")
+        queries = self.pre_queries + queries + self.post_queries
+        self.connector.execute(queries)
+    def _ingest_by_merging(self):
+        reconcile = reconcile_table_of(self.table)
+        bak = bak_table_of(self.table)
+        using = ", ".join(self.primary_keys)
+        sql = """
+            DROP TABLE IF EXISTS {reconcile};
+            CREATE TABLE {reconcile} AS {table};
+            INSERT INTO {reconcile}
+            SELECT * FROM {table} WHERE NOT ({using}) IN (SELECT {using} FROM {staging})
+            UNION ALL
+            SELECT * FROM {staging};
+            RENAME TABLE {table} TO {bak};
+            RENAME TABLE {reconcile} TO {table};
+            DROP TABLE IF EXISTS {bak};
+            DROP TABLE {staging};
+        """.format(
+            reconcile=self.connector.quote_identifier(reconcile),
+            table=self.connector.quote_identifier(self.table),
+            staging=self.connector.quote_identifier(self.staging_table),
+            bak=self.connector.quote_identifier(bak),
+            using=using,
+        )
+        queries = sql.split(";")
+        return queries

recurvedata/pigeon/loader/csv_to_doris.py ADDED Viewed

@@ -0,0 +1,215 @@
+from typing import TYPE_CHECKING, Any, List, Optional
+from recurvedata.pigeon import const
+from recurvedata.pigeon.loader.csv_to_mysql import CSVToMySQLLoader
+from recurvedata.pigeon.utils import md5hash
+from recurvedata.pigeon.utils.sql import bak_table_of, reconcile_table_of, staging_table_of
+if TYPE_CHECKING:
+    from recurvedata.pigeon.connector.doris import DorisConnector
+allowed_modes = (const.LOAD_OVERWRITE, const.LOAD_MERGE, const.LOAD_APPEND)
+class CSVToDorisLoader(CSVToMySQLLoader):
+    def __init__(
+        self,
+        database: str,
+        table: str,
+        filename: str,
+        connector: Optional["DorisConnector"] = None,
+        create_table_ddl: Optional[str] = None,
+        mode: str = const.LOAD_OVERWRITE,
+        primary_keys: Optional[List[str]] = None,
+        skiprows: int = 0,
+        columns: Optional[List[str]] = None,
+        using_insert: bool = False,
+        insert_batch_size: int = 1000,
+        insert_concurrency: int = 1,
+        delete_file: bool = False,
+        pre_queries: Optional[List[str]] = None,
+        post_queries: Optional[List[str]] = None,
+        load_strict_mode: bool = False,
+        max_filter_ratio: float = 0,
+        *args: Any,
+        **kwargs: Any,
+    ):
+        if not connector:
+            raise ValueError(f"connector is required for {self.__class__.__name__}")
+        self.load_strict_mode: bool = load_strict_mode
+        connector.load_strict_mode = load_strict_mode
+        self.logger.info(f"load_strict_mode: {load_strict_mode}")
+        connector.max_filter_ratio = max_filter_ratio
+        self.logger.info(f"max_filter_ratio: {max_filter_ratio}")
+        table_suffix: str = md5hash(filename)[:6]
+        self.__staging_table: str = staging_table_of(table) + "_" + table_suffix
+        self.__reconcile_table: str = reconcile_table_of(table) + "_" + table_suffix
+        self.__bak_table: str = bak_table_of(table) + "_" + table_suffix
+        # Check table name length
+        if any(
+            [
+                len(self.__staging_table) > 64,
+                len(self.__reconcile_table) > 64,
+                len(self.__bak_table) > 64,
+            ]
+        ):
+            self.logger.error(
+                f"table name {self.__staging_table} 's length: {len(self.__staging_table)}\n"
+                f"table name {self.__reconcile_table}'s length: {len(self.__reconcile_table)}\n"
+                f"table name {self.__bak_table}'s length: {len(self.__bak_table)}\n"
+            )
+            raise ValueError("length of intermediate table name is greater than 64!")
+        super().__init__(
+            database=database,
+            table=table,
+            filename=filename,
+            connector=connector,
+            create_table_ddl=create_table_ddl,
+            mode=mode,
+            primary_keys=primary_keys,
+            skiprows=skiprows,
+            columns=columns,
+            using_insert=using_insert,
+            insert_batch_size=insert_batch_size,
+            insert_concurrency=insert_concurrency,
+            delete_file=delete_file,
+            pre_queries=pre_queries,
+            post_queries=post_queries,
+            *args,
+            **kwargs,
+        )
+    @property
+    def staging_table(self) -> str:
+        """
+        Override method to return table name with random suffix
+        """
+        return self.__staging_table
+    def _merge_into_target_table(self) -> None:
+        queries = []
+        if self.mode == const.LOAD_MERGE:
+            queries.extend(self._ingest_by_merging())
+        elif self.mode == const.LOAD_OVERWRITE:
+            bak_table = self.__bak_table
+            queries.extend(
+                [
+                    f"DROP TABLE IF EXISTS {bak_table}",
+                    f"ALTER TABLE {self.table} RENAME {bak_table}",
+                    f"ALTER TABLE {self.staging_table} RENAME {self.table}",
+                    f"DROP TABLE IF EXISTS {bak_table}",
+                ]
+            )
+        else:  # APPEND mode
+            queries.append(f"INSERT INTO {self.table} SELECT * FROM {self.staging_table}")
+            self.connector.execute(self.pre_queries + queries, autocommit=True, commit_on_close=False)
+            queries.clear()
+            queries.append(f"DROP TABLE {self.staging_table}")
+            self.connector.execute(queries + self.post_queries, autocommit=True, commit_on_close=False)
+            return
+        queries = self.pre_queries + queries + self.post_queries
+        self.logger.info("running MySQL queries within a transaction")
+        self.connector.execute(queries, autocommit=False, commit_on_close=True)
+    def _ingest_by_merging(self) -> List[str]:
+        """Merge with deduplication based on primary keys using Doris-compatible syntax"""
+        # First, deduplicate staging table based on primary keys using window function
+        pk_columns = ", ".join(self.primary_keys)
+        # Get all columns from staging table (excluding the rn column we'll add)
+        cols = self.connector.get_columns(self.staging_table)
+        cols_str = ", ".join(self.connector.quote_identifier(x) for x in cols)
+        # Create a temporary table with deduplicated data
+        tmp_table = f"{self.staging_table}_dedup"
+        dedup_sql = f"""
+            DROP TABLE IF EXISTS {tmp_table};
+            CREATE TABLE {tmp_table} LIKE {self.staging_table};
+            INSERT INTO {tmp_table}
+            SELECT {cols_str} FROM (
+                SELECT *, ROW_NUMBER() OVER(PARTITION BY {pk_columns} ORDER BY {pk_columns}) AS rn
+                FROM {self.staging_table}
+            ) t
+            WHERE rn = 1;
+        """
+        # Replace staging table with deduplicated data
+        replace_sql = f"""
+            DROP TABLE {self.staging_table};
+            ALTER TABLE {tmp_table} RENAME {self.staging_table};
+        """
+        # Simple merge: backup target table, then merge and deduplicate in one step
+        bak = self.__bak_table
+        table = self.connector.quote_identifier(self.table)
+        staging = self.connector.quote_identifier(self.staging_table)
+        bak = self.connector.quote_identifier(bak)
+        # Simple and efficient merge: backup + merge + deduplicate in one operation
+        merge_sql = f"""
+            -- Backup target table
+            DROP TABLE IF EXISTS {bak};
+            ALTER TABLE {table} RENAME {bak};
+            -- Create new target table and insert deduplicated merged data in one step
+            CREATE TABLE {table} AS
+            SELECT {cols_str} FROM (
+                SELECT *, ROW_NUMBER() OVER(PARTITION BY {pk_columns} ORDER BY {pk_columns}) AS rn
+                FROM (
+                    SELECT * FROM {bak}
+                    UNION ALL
+                    SELECT * FROM {staging}
+                ) combined
+            ) t WHERE rn = 1;
+            -- Clean up
+            DROP TABLE {bak};
+            DROP TABLE {staging};
+        """
+        return [dedup_sql, replace_sql, merge_sql]
+    def execute(self) -> None:
+        """
+        Override method to implement exception handling
+        """
+        self.before_execute()
+        try:
+            self.execute_impl()
+        except Exception as e:
+            self.handle_exception()
+            raise e
+        self.after_execute()
+    def handle_exception(self) -> None:
+        """
+        Ensure safe cleanup of all intermediate tables after an exception occurs
+        """
+        qry_exists_sql = """
+        SELECT 1 FROM information_schema.tables
+        WHERE table_schema = '{database}' AND table_name = '{table}';
+        """
+        is_table_exists = self.connector.fetchall(qry_exists_sql.format(database=self.database, table=self.table))
+        is_bak_exists = self.connector.fetchall(qry_exists_sql.format(database=self.database, table=self.__bak_table))
+        if is_table_exists:
+            # Directly clean up intermediate tables
+            queries = [
+                f"DROP TABLE IF EXISTS {self.__bak_table}",
+                f"DROP TABLE IF EXISTS {self.__staging_table}",
+                f"DROP TABLE IF EXISTS {self.__reconcile_table}",
+            ]
+        elif is_bak_exists:
+            # Restore from backup table
+            queries = [
+                f"ALTER TABLE {self.__bak_table} RENAME {self.table}",
+                f"DROP TABLE IF EXISTS {self.__staging_table}",
+                f"DROP TABLE IF EXISTS {self.__reconcile_table}",
+            ]
+        else:
+            queries = [f"DROP TABLE IF EXISTS {self.__staging_table}", f"DROP TABLE IF EXISTS {self.__reconcile_table}"]
+        self.connector.execute(queries, autocommit=False, commit_on_close=True)