PyPI - recurvedata-lib - Versions diffs - 0.1.487__py2.py3-none-any.whl - Mend

recurvedata-lib 0.1.487__py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of recurvedata-lib might be problematic. Click here for more details.

Files changed (333) hide show

recurvedata/__init__.py +0 -0
recurvedata/__version__.py +1 -0
recurvedata/client/__init__.py +3 -0
recurvedata/client/client.py +150 -0
recurvedata/client/server_client.py +91 -0
recurvedata/config.py +99 -0
recurvedata/connectors/__init__.py +20 -0
recurvedata/connectors/_register.py +46 -0
recurvedata/connectors/base.py +111 -0
recurvedata/connectors/config_schema.py +1575 -0
recurvedata/connectors/connectors/__init__.py +0 -0
recurvedata/connectors/connectors/aliyun_access_key.py +30 -0
recurvedata/connectors/connectors/auth.py +44 -0
recurvedata/connectors/connectors/azure_blob.py +89 -0
recurvedata/connectors/connectors/azure_synapse.py +79 -0
recurvedata/connectors/connectors/bigquery.py +359 -0
recurvedata/connectors/connectors/clickhouse.py +219 -0
recurvedata/connectors/connectors/dingtalk.py +61 -0
recurvedata/connectors/connectors/doris.py +215 -0
recurvedata/connectors/connectors/es.py +62 -0
recurvedata/connectors/connectors/feishu.py +65 -0
recurvedata/connectors/connectors/ftp.py +50 -0
recurvedata/connectors/connectors/generic.py +49 -0
recurvedata/connectors/connectors/google_cloud_storage.py +115 -0
recurvedata/connectors/connectors/google_service_account.py +225 -0
recurvedata/connectors/connectors/hive.py +207 -0
recurvedata/connectors/connectors/impala.py +210 -0
recurvedata/connectors/connectors/jenkins.py +51 -0
recurvedata/connectors/connectors/mail.py +89 -0
recurvedata/connectors/connectors/microsoft_fabric.py +284 -0
recurvedata/connectors/connectors/mongo.py +79 -0
recurvedata/connectors/connectors/mssql.py +131 -0
recurvedata/connectors/connectors/mysql.py +191 -0
recurvedata/connectors/connectors/n8n.py +141 -0
recurvedata/connectors/connectors/oss.py +74 -0
recurvedata/connectors/connectors/owncloud.py +36 -0
recurvedata/connectors/connectors/phoenix.py +36 -0
recurvedata/connectors/connectors/postgres.py +230 -0
recurvedata/connectors/connectors/python.py +50 -0
recurvedata/connectors/connectors/redshift.py +187 -0
recurvedata/connectors/connectors/s3.py +93 -0
recurvedata/connectors/connectors/sftp.py +87 -0
recurvedata/connectors/connectors/slack.py +35 -0
recurvedata/connectors/connectors/spark.py +99 -0
recurvedata/connectors/connectors/starrocks.py +175 -0
recurvedata/connectors/connectors/tencent_cos.py +40 -0
recurvedata/connectors/connectors/tidb.py +49 -0
recurvedata/connectors/const.py +315 -0
recurvedata/connectors/datasource.py +189 -0
recurvedata/connectors/dbapi.py +469 -0
recurvedata/connectors/fs.py +66 -0
recurvedata/connectors/ftp.py +40 -0
recurvedata/connectors/object_store.py +60 -0
recurvedata/connectors/pigeon.py +172 -0
recurvedata/connectors/proxy.py +104 -0
recurvedata/connectors/service.py +223 -0
recurvedata/connectors/utils.py +47 -0
recurvedata/consts.py +49 -0
recurvedata/core/__init__.py +0 -0
recurvedata/core/config.py +46 -0
recurvedata/core/configurable.py +27 -0
recurvedata/core/consts.py +2 -0
recurvedata/core/templating.py +206 -0
recurvedata/core/tracing.py +223 -0
recurvedata/core/transformer.py +186 -0
recurvedata/core/translation.py +91 -0
recurvedata/dbt/client.py +97 -0
recurvedata/dbt/consts.py +99 -0
recurvedata/dbt/cosmos_utils.py +275 -0
recurvedata/dbt/error_codes.py +18 -0
recurvedata/dbt/schemas.py +98 -0
recurvedata/dbt/service.py +451 -0
recurvedata/dbt/utils.py +246 -0
recurvedata/error_codes.py +71 -0
recurvedata/exceptions.py +72 -0
recurvedata/executors/__init__.py +4 -0
recurvedata/executors/cli/__init__.py +7 -0
recurvedata/executors/cli/connector.py +117 -0
recurvedata/executors/cli/dbt.py +118 -0
recurvedata/executors/cli/main.py +82 -0
recurvedata/executors/cli/parameters.py +18 -0
recurvedata/executors/client.py +190 -0
recurvedata/executors/consts.py +50 -0
recurvedata/executors/debug_executor.py +100 -0
recurvedata/executors/executor.py +300 -0
recurvedata/executors/link_executor.py +189 -0
recurvedata/executors/models.py +34 -0
recurvedata/executors/schemas.py +222 -0
recurvedata/executors/service/__init__.py +0 -0
recurvedata/executors/service/connector.py +380 -0
recurvedata/executors/utils.py +172 -0
recurvedata/filestorage/__init__.py +11 -0
recurvedata/filestorage/_factory.py +33 -0
recurvedata/filestorage/backends/__init__.py +0 -0
recurvedata/filestorage/backends/fsspec.py +45 -0
recurvedata/filestorage/backends/local.py +67 -0
recurvedata/filestorage/backends/oss.py +56 -0
recurvedata/filestorage/interface.py +84 -0
recurvedata/operators/__init__.py +10 -0
recurvedata/operators/base.py +28 -0
recurvedata/operators/config.py +21 -0
recurvedata/operators/context.py +255 -0
recurvedata/operators/dbt_operator/__init__.py +2 -0
recurvedata/operators/dbt_operator/model_pipeline_link_operator.py +55 -0
recurvedata/operators/dbt_operator/operator.py +353 -0
recurvedata/operators/link_operator/__init__.py +1 -0
recurvedata/operators/link_operator/operator.py +120 -0
recurvedata/operators/models.py +55 -0
recurvedata/operators/notify_operator/__init__.py +1 -0
recurvedata/operators/notify_operator/operator.py +180 -0
recurvedata/operators/operator.py +119 -0
recurvedata/operators/python_operator/__init__.py +1 -0
recurvedata/operators/python_operator/operator.py +132 -0
recurvedata/operators/sensor_operator/__init__.py +1 -0
recurvedata/operators/sensor_operator/airflow_utils.py +63 -0
recurvedata/operators/sensor_operator/operator.py +172 -0
recurvedata/operators/spark_operator/__init__.py +1 -0
recurvedata/operators/spark_operator/operator.py +200 -0
recurvedata/operators/spark_operator/spark_sample.py +47 -0
recurvedata/operators/sql_operator/__init__.py +1 -0
recurvedata/operators/sql_operator/operator.py +90 -0
recurvedata/operators/task.py +211 -0
recurvedata/operators/transfer_operator/__init__.py +40 -0
recurvedata/operators/transfer_operator/const.py +10 -0
recurvedata/operators/transfer_operator/dump_aliyun_sls.py +82 -0
recurvedata/operators/transfer_operator/dump_sheet_task_base.py +292 -0
recurvedata/operators/transfer_operator/dump_task_cass.py +155 -0
recurvedata/operators/transfer_operator/dump_task_dbapi.py +209 -0
recurvedata/operators/transfer_operator/dump_task_es.py +113 -0
recurvedata/operators/transfer_operator/dump_task_feishu_sheet.py +114 -0
recurvedata/operators/transfer_operator/dump_task_ftp.py +234 -0
recurvedata/operators/transfer_operator/dump_task_google_sheet.py +66 -0
recurvedata/operators/transfer_operator/dump_task_mongodb.py +168 -0
recurvedata/operators/transfer_operator/dump_task_oss.py +285 -0
recurvedata/operators/transfer_operator/dump_task_python.py +212 -0
recurvedata/operators/transfer_operator/dump_task_s3.py +270 -0
recurvedata/operators/transfer_operator/dump_task_sftp.py +229 -0
recurvedata/operators/transfer_operator/load_task_aliyun_oss.py +107 -0
recurvedata/operators/transfer_operator/load_task_azure_blob.py +115 -0
recurvedata/operators/transfer_operator/load_task_azure_synapse.py +90 -0
recurvedata/operators/transfer_operator/load_task_clickhouse.py +167 -0
recurvedata/operators/transfer_operator/load_task_doris.py +164 -0
recurvedata/operators/transfer_operator/load_task_email.py +188 -0
recurvedata/operators/transfer_operator/load_task_es.py +86 -0
recurvedata/operators/transfer_operator/load_task_filebrowser.py +151 -0
recurvedata/operators/transfer_operator/load_task_ftp.py +19 -0
recurvedata/operators/transfer_operator/load_task_google_bigquery.py +90 -0
recurvedata/operators/transfer_operator/load_task_google_cloud_storage.py +127 -0
recurvedata/operators/transfer_operator/load_task_google_sheet.py +130 -0
recurvedata/operators/transfer_operator/load_task_hive.py +158 -0
recurvedata/operators/transfer_operator/load_task_microsoft_fabric.py +105 -0
recurvedata/operators/transfer_operator/load_task_mssql.py +153 -0
recurvedata/operators/transfer_operator/load_task_mysql.py +157 -0
recurvedata/operators/transfer_operator/load_task_owncloud.py +135 -0
recurvedata/operators/transfer_operator/load_task_postgresql.py +109 -0
recurvedata/operators/transfer_operator/load_task_qcloud_cos.py +119 -0
recurvedata/operators/transfer_operator/load_task_recurve_data_prep.py +75 -0
recurvedata/operators/transfer_operator/load_task_redshift.py +95 -0
recurvedata/operators/transfer_operator/load_task_s3.py +150 -0
recurvedata/operators/transfer_operator/load_task_sftp.py +90 -0
recurvedata/operators/transfer_operator/load_task_starrocks.py +169 -0
recurvedata/operators/transfer_operator/load_task_yicrowds.py +97 -0
recurvedata/operators/transfer_operator/mixin.py +31 -0
recurvedata/operators/transfer_operator/operator.py +231 -0
recurvedata/operators/transfer_operator/task.py +223 -0
recurvedata/operators/transfer_operator/utils.py +134 -0
recurvedata/operators/ui.py +80 -0
recurvedata/operators/utils/__init__.py +51 -0
recurvedata/operators/utils/file_factory.py +150 -0
recurvedata/operators/utils/fs.py +10 -0
recurvedata/operators/utils/lineage.py +265 -0
recurvedata/operators/web_init.py +15 -0
recurvedata/pigeon/connector/__init__.py +294 -0
recurvedata/pigeon/connector/_registry.py +17 -0
recurvedata/pigeon/connector/aliyun_oss.py +80 -0
recurvedata/pigeon/connector/awss3.py +123 -0
recurvedata/pigeon/connector/azure_blob.py +176 -0
recurvedata/pigeon/connector/azure_synapse.py +51 -0
recurvedata/pigeon/connector/cass.py +151 -0
recurvedata/pigeon/connector/clickhouse.py +403 -0
recurvedata/pigeon/connector/clickhouse_native.py +351 -0
recurvedata/pigeon/connector/dbapi.py +571 -0
recurvedata/pigeon/connector/doris.py +166 -0
recurvedata/pigeon/connector/es.py +176 -0
recurvedata/pigeon/connector/feishu.py +1135 -0
recurvedata/pigeon/connector/ftp.py +163 -0
recurvedata/pigeon/connector/google_bigquery.py +283 -0
recurvedata/pigeon/connector/google_cloud_storage.py +130 -0
recurvedata/pigeon/connector/hbase_phoenix.py +108 -0
recurvedata/pigeon/connector/hdfs.py +204 -0
recurvedata/pigeon/connector/hive_impala.py +383 -0
recurvedata/pigeon/connector/microsoft_fabric.py +95 -0
recurvedata/pigeon/connector/mongodb.py +56 -0
recurvedata/pigeon/connector/mssql.py +467 -0
recurvedata/pigeon/connector/mysql.py +175 -0
recurvedata/pigeon/connector/owncloud.py +92 -0
recurvedata/pigeon/connector/postgresql.py +267 -0
recurvedata/pigeon/connector/power_bi.py +179 -0
recurvedata/pigeon/connector/qcloud_cos.py +79 -0
recurvedata/pigeon/connector/redshift.py +123 -0
recurvedata/pigeon/connector/sftp.py +73 -0
recurvedata/pigeon/connector/sqlite.py +42 -0
recurvedata/pigeon/connector/starrocks.py +144 -0
recurvedata/pigeon/connector/tableau.py +162 -0
recurvedata/pigeon/const.py +21 -0
recurvedata/pigeon/csv.py +172 -0
recurvedata/pigeon/docs/datasources-example.json +82 -0
recurvedata/pigeon/docs/images/pigeon_design.png +0 -0
recurvedata/pigeon/docs/lightweight-data-sync-solution.md +111 -0
recurvedata/pigeon/dumper/__init__.py +171 -0
recurvedata/pigeon/dumper/aliyun_sls.py +415 -0
recurvedata/pigeon/dumper/base.py +141 -0
recurvedata/pigeon/dumper/cass.py +213 -0
recurvedata/pigeon/dumper/dbapi.py +346 -0
recurvedata/pigeon/dumper/es.py +112 -0
recurvedata/pigeon/dumper/ftp.py +64 -0
recurvedata/pigeon/dumper/mongodb.py +103 -0
recurvedata/pigeon/handler/__init__.py +4 -0
recurvedata/pigeon/handler/base.py +153 -0
recurvedata/pigeon/handler/csv_handler.py +290 -0
recurvedata/pigeon/loader/__init__.py +87 -0
recurvedata/pigeon/loader/base.py +83 -0
recurvedata/pigeon/loader/csv_to_azure_synapse.py +214 -0
recurvedata/pigeon/loader/csv_to_clickhouse.py +152 -0
recurvedata/pigeon/loader/csv_to_doris.py +215 -0
recurvedata/pigeon/loader/csv_to_es.py +51 -0
recurvedata/pigeon/loader/csv_to_google_bigquery.py +169 -0
recurvedata/pigeon/loader/csv_to_hive.py +468 -0
recurvedata/pigeon/loader/csv_to_microsoft_fabric.py +242 -0
recurvedata/pigeon/loader/csv_to_mssql.py +174 -0
recurvedata/pigeon/loader/csv_to_mysql.py +180 -0
recurvedata/pigeon/loader/csv_to_postgresql.py +248 -0
recurvedata/pigeon/loader/csv_to_redshift.py +240 -0
recurvedata/pigeon/loader/csv_to_starrocks.py +233 -0
recurvedata/pigeon/meta.py +116 -0
recurvedata/pigeon/row_factory.py +42 -0
recurvedata/pigeon/schema/__init__.py +124 -0
recurvedata/pigeon/schema/types.py +13 -0
recurvedata/pigeon/sync.py +283 -0
recurvedata/pigeon/transformer.py +146 -0
recurvedata/pigeon/utils/__init__.py +134 -0
recurvedata/pigeon/utils/bloomfilter.py +181 -0
recurvedata/pigeon/utils/date_time.py +323 -0
recurvedata/pigeon/utils/escape.py +15 -0
recurvedata/pigeon/utils/fs.py +266 -0
recurvedata/pigeon/utils/json.py +44 -0
recurvedata/pigeon/utils/keyed_tuple.py +85 -0
recurvedata/pigeon/utils/mp.py +156 -0
recurvedata/pigeon/utils/sql.py +328 -0
recurvedata/pigeon/utils/timing.py +155 -0
recurvedata/provider_manager.py +0 -0
recurvedata/providers/__init__.py +0 -0
recurvedata/providers/dbapi/__init__.py +0 -0
recurvedata/providers/flywheel/__init__.py +0 -0
recurvedata/providers/mysql/__init__.py +0 -0
recurvedata/schedulers/__init__.py +1 -0
recurvedata/schedulers/airflow.py +974 -0
recurvedata/schedulers/airflow_db_process.py +331 -0
recurvedata/schedulers/airflow_operators.py +61 -0
recurvedata/schedulers/airflow_plugin.py +9 -0
recurvedata/schedulers/airflow_trigger_dag_patch.py +117 -0
recurvedata/schedulers/base.py +99 -0
recurvedata/schedulers/cli.py +228 -0
recurvedata/schedulers/client.py +56 -0
recurvedata/schedulers/consts.py +52 -0
recurvedata/schedulers/debug_celery.py +62 -0
recurvedata/schedulers/model.py +63 -0
recurvedata/schedulers/schemas.py +97 -0
recurvedata/schedulers/service.py +20 -0
recurvedata/schedulers/system_dags.py +59 -0
recurvedata/schedulers/task_status.py +279 -0
recurvedata/schedulers/utils.py +73 -0
recurvedata/schema/__init__.py +0 -0
recurvedata/schema/field.py +88 -0
recurvedata/schema/schema.py +55 -0
recurvedata/schema/types.py +17 -0
recurvedata/schema.py +0 -0
recurvedata/server/__init__.py +0 -0
recurvedata/server/app.py +7 -0
recurvedata/server/connector/__init__.py +0 -0
recurvedata/server/connector/api.py +79 -0
recurvedata/server/connector/schemas.py +28 -0
recurvedata/server/data_service/__init__.py +0 -0
recurvedata/server/data_service/api.py +126 -0
recurvedata/server/data_service/client.py +18 -0
recurvedata/server/data_service/consts.py +1 -0
recurvedata/server/data_service/schemas.py +68 -0
recurvedata/server/data_service/service.py +218 -0
recurvedata/server/dbt/__init__.py +0 -0
recurvedata/server/dbt/api.py +116 -0
recurvedata/server/error_code.py +49 -0
recurvedata/server/exceptions.py +19 -0
recurvedata/server/executor/__init__.py +0 -0
recurvedata/server/executor/api.py +37 -0
recurvedata/server/executor/schemas.py +30 -0
recurvedata/server/executor/service.py +220 -0
recurvedata/server/main.py +32 -0
recurvedata/server/schedulers/__init__.py +0 -0
recurvedata/server/schedulers/api.py +252 -0
recurvedata/server/schedulers/schemas.py +50 -0
recurvedata/server/schemas.py +50 -0
recurvedata/utils/__init__.py +15 -0
recurvedata/utils/_typer.py +61 -0
recurvedata/utils/attrdict.py +19 -0
recurvedata/utils/command_helper.py +20 -0
recurvedata/utils/compat.py +12 -0
recurvedata/utils/compression.py +203 -0
recurvedata/utils/crontab.py +42 -0
recurvedata/utils/crypto_util.py +305 -0
recurvedata/utils/dataclass.py +11 -0
recurvedata/utils/date_time.py +464 -0
recurvedata/utils/dispatch.py +114 -0
recurvedata/utils/email_util.py +104 -0
recurvedata/utils/files.py +386 -0
recurvedata/utils/helpers.py +170 -0
recurvedata/utils/httputil.py +117 -0
recurvedata/utils/imports.py +132 -0
recurvedata/utils/json.py +80 -0
recurvedata/utils/log.py +117 -0
recurvedata/utils/log_capture.py +153 -0
recurvedata/utils/mp.py +178 -0
recurvedata/utils/normalizer.py +102 -0
recurvedata/utils/redis_lock.py +474 -0
recurvedata/utils/registry.py +54 -0
recurvedata/utils/shell.py +15 -0
recurvedata/utils/singleton.py +33 -0
recurvedata/utils/sql.py +6 -0
recurvedata/utils/timeout.py +28 -0
recurvedata/utils/tracing.py +14 -0
recurvedata_lib-0.1.487.dist-info/METADATA +605 -0
recurvedata_lib-0.1.487.dist-info/RECORD +333 -0
recurvedata_lib-0.1.487.dist-info/WHEEL +5 -0
recurvedata_lib-0.1.487.dist-info/entry_points.txt +6 -0

recurvedata/pigeon/loader/csv_to_postgresql.py ADDED Viewed

@@ -0,0 +1,248 @@
+from recurvedata.pigeon import const
+from recurvedata.pigeon.connector import new_postgresql_connector
+from recurvedata.pigeon.loader.base import BaseLoader, CSVToDBAPIMixin
+from recurvedata.pigeon.utils import ensure_query_list, ensure_str_list, fs
+allowed_modes = (const.LOAD_RENAME_OVERWRITE, const.LOAD_OVERWRITE, const.LOAD_MERGE, const.LOAD_APPEND)
+class CSVToPostgresqlLoader(BaseLoader, CSVToDBAPIMixin):
+    def __init__(
+        self,
+        database,
+        table,
+        filename,
+        connector=None,
+        schema=None,
+        create_table_ddl=None,
+        mode=const.LOAD_OVERWRITE,
+        primary_keys=None,
+        using_insert=False,
+        insert_batch_size=1000,
+        insert_concurrency=1,
+        delete_file=False,
+        dedup=False,
+        dedup_uniq_keys=None,
+        dedup_orderby=None,
+        pre_queries=None,
+        post_queries=None,
+        *args,
+        **kwargs,
+    ):
+        """Loads a csv file into a Redshift table. Internally using a S3 bucket.
+        :param database: the target database name
+        :type database: str
+        :param table: target table name, should not contains database portion
+        :type table: str
+        :param filename: the absolute path to csv file
+        :type filename: str
+        :param connector: a PostgresConnector object used to query PG
+        :type connector: pigeon.connector.PostgresConnector
+        :param create_table_ddl: create table
+        :type create_table_ddl: str
+        :param mode: one of (LOAD_OVERWRITE, LOAD_MERGE, LOAD_APPEND)
+        :param primary_keys: columns that identifies a unique row, e.g. ['dt', 'product_id'].
+                             Required if mode is LOAD_MERGE
+        :type primary_keys: list
+        :param delete_file: delete the CSV file after loading, default is True
+        :type delete_file: bool
+        :param dedup: remove duplicated records from staging table before being merged into target
+        :type dedup: bool
+        :param dedup_uniq_keys: columns that identifies a unique row.
+        :type dedup_uniq_keys: list
+        :param dedup_orderby: determine which row should be kept.
+                              e.g. "to keep the row has minimal timestamp", then set `dedup_orderby='timestamp ASC'
+        :param pre_queries: queries executed before loading
+        :type pre_queries: list | str
+        :param post_queries: queries after loading
+        :type post_queries: list | str
+        """
+        self.database = database
+        if "." in table:
+            self.schema, self.table = table.split(".")
+        else:
+            self.schema = schema or "public"
+            self.table = table
+        if connector is None:
+            connector = new_postgresql_connector(database=self.database)
+        else:
+            connector.database = self.database
+        self.connector = connector
+        self.filename = filename
+        self.create_table_ddl = create_table_ddl
+        if mode not in allowed_modes:
+            raise ValueError("mode should be one of ({})".format(allowed_modes))
+        self.mode = mode
+        self.primary_keys = ensure_str_list(primary_keys)
+        if self.mode == const.LOAD_MERGE and not self.primary_keys:
+            raise ValueError("primary_keys should not be empty in mode {}".format(const.LOAD_MERGE))
+        self.using_insert = using_insert
+        self.insert_batch_size = insert_batch_size
+        self.insert_concurrency = insert_concurrency
+        self.delete_file = delete_file
+        self.dedup = dedup
+        self.dedup_uniq_keys = ensure_str_list(dedup_uniq_keys)
+        self.dedup_orderby = dedup_orderby
+        if self.dedup and not self.dedup_uniq_keys:
+            raise ValueError("dedup_uniq_keys should not be empty")
+        if not self.dedup_orderby:
+            self.dedup_orderby = ", ".join(self.dedup_uniq_keys)
+        self.pre_queries = ensure_query_list(pre_queries) or []
+        self.post_queries = ensure_query_list(post_queries) or []
+        super().__init__()
+    def execute_impl(self):
+        if fs.is_file_empty(self.filename):
+            self.logger.error("file not exists or has no content. %s", self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+            return
+        self._prepare_target_table()
+        self._prepare_staging_table()
+        self._merge_into_target_table()
+        # do cleaning things
+        if self.delete_file:
+            self.logger.info("delete local file %s", self.filename)
+            fs.remove_files_safely(self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+    @property
+    def full_table_name(self):
+        return f"{self.schema}.{self.table}"
+    @property
+    def staging_table(self):
+        return f"{self.schema}.{self.table}_staging"
+    @property
+    def bak_table(self):
+        return f"{self.schema}.{self.table}_bak"
+    def _prepare_staging_table(self):
+        queries = """
+            DROP TABLE IF EXISTS {st};
+            CREATE TABLE {st} (LIKE {ft});
+        """.format(
+            st=self.staging_table, ft=self.full_table_name
+        )
+        self.connector.execute(queries, autocommit=True)
+        self.connector.load_csv(
+            table=self.staging_table,
+            filename=self.filename,
+            using_insert=self.using_insert,
+            null_values=("NULL", r"\N", ""),
+            batch_size=self.insert_batch_size,
+            concurrency=self.insert_concurrency,
+        )
+        if self.dedup:
+            dedup_query = self._construct_dedup_query(partition_keys=self.dedup_uniq_keys, order_by=self.dedup_orderby)
+            self.connector.execute(dedup_query, autocommit=False)
+    def _construct_dedup_query(self, partition_keys=None, order_by=None):
+        """Construct deduplication query with specified partition keys and order by clause"""
+        if partition_keys is None:
+            partition_keys = self.dedup_uniq_keys
+        if order_by is None:
+            order_by = self.dedup_orderby
+        partition_cols = []
+        for col in partition_keys:
+            partition_cols.append(self.connector.quote_identifier(col))
+        partition_by = ", ".join(partition_cols)
+        cols = self.connector.get_columns(self.staging_table)
+        tmp_table = f"{self.staging_table}_tmp"
+        query = f"""
+            DROP TABLE IF EXISTS {tmp_table};
+            CREATE TABLE {tmp_table} AS
+            SELECT {', '.join(self.connector.quote_identifier(x) for x in cols)}
+            FROM (
+              SELECT *, ROW_NUMBER() OVER(PARTITION BY {partition_by} ORDER BY {order_by}) AS rn
+              FROM {self.staging_table}
+            ) t
+            WHERE rn = 1;
+            TRUNCATE TABLE {self.staging_table};
+            INSERT INTO {self.staging_table} SELECT * FROM {tmp_table};
+            DROP TABLE IF EXISTS {tmp_table};
+        """
+        return query
+    def _merge_into_target_table(self):
+        queries = []
+        pure_bak_table = self.bak_table.split(".")[-1]
+        pure_full_table = self.full_table_name.split(".")[-1]
+        if self.mode == const.LOAD_OVERWRITE:
+            queries.append(f"DROP TABLE IF EXISTS {self.bak_table}")
+            queries.append(f"ALTER TABLE {self.full_table_name} RENAME TO {pure_bak_table}")
+            queries.append(f"ALTER TABLE {self.staging_table} RENAME TO {pure_full_table}")
+            queries.append(f"DROP TABLE IF EXISTS {self.bak_table}")
+        elif self.mode == const.LOAD_MERGE:
+            # Deduplicate staging table data before merging using primary_keys
+            # Use primary_keys order for ordering
+            order_by = ", ".join(self.connector.quote_identifier(col) for col in self.primary_keys)
+            dedup_query = self._construct_dedup_query(partition_keys=self.primary_keys, order_by=order_by)
+            queries.append(dedup_query)
+            joins = []
+            for field in self.primary_keys:
+                join = "{target}.{field} = {staging}.{field}".format(
+                    target=self.full_table_name, staging=self.staging_table, field=field
+                )
+                joins.append(join)
+            join_conditions = " AND ".join(joins)
+            delete_sql = "DELETE FROM {target} USING {staging} WHERE {join_conditions}".format(
+                target=self.full_table_name, staging=self.staging_table, join_conditions=join_conditions
+            )
+            queries.append(delete_sql)
+            # Insert data from staging table to target table
+            insert_sql = "INSERT INTO {target} SELECT * FROM {source}".format(
+                target=self.full_table_name, source=self.staging_table
+            )
+            queries.append(insert_sql)
+            queries.append("DROP TABLE {}".format(self.staging_table))
+        else:
+            # else APPEND
+            append_sql = "INSERT INTO {target} SELECT * FROM {source}".format(
+                target=self.full_table_name, source=self.staging_table
+            )
+            queries.append(append_sql)
+            queries.append("DROP TABLE {}".format(self.staging_table))
+        queries = self.pre_queries + queries + self.post_queries
+        self.logger.info("running PostgreSQL queries...")
+        try:
+            self.connector.execute(queries, autocommit=False, commit_on_close=True)
+        except Exception as e:
+            self.logger.exception("failed to run queries")
+            raise e
+        finally:
+            if (
+                self.mode == const.LOAD_OVERWRITE
+                and not self.connector.has_table(self.full_table_name)
+                and self.connector.has_table(self.bak_table)
+            ):
+                rename_sql = "ALTER TABLE {} RENAME TO {}".format(self.bak_table, pure_full_table)
+                self.connector.execute(rename_sql, autocommit=False, commit_on_close=True)
+        try:
+            self.logger.info("running analyze")
+            analyze_queries = "VACUUM {t}; ANALYZE {t}".format(t=self.full_table_name)
+            self.connector.execute(analyze_queries, autocommit=True)
+        except Exception as e:
+            self.logger.exception(f"failed to run analyze queries: {e}")

recurvedata/pigeon/loader/csv_to_redshift.py ADDED Viewed

@@ -0,0 +1,240 @@
+from recurvedata.pigeon import const
+from recurvedata.pigeon.connector import new_redshift_connector
+from recurvedata.pigeon.loader.base import BaseLoader, CSVToDBAPIMixin
+from recurvedata.pigeon.utils import ensure_query_list, ensure_str_list, fs
+allowed_modes = (const.LOAD_OVERWRITE, const.LOAD_MERGE, const.LOAD_APPEND)
+class CSVToRedshiftLoader(BaseLoader, CSVToDBAPIMixin):
+    def __init__(
+        self,
+        database,
+        table,
+        filename,
+        redshift_connector=None,
+        schema=None,
+        create_table_ddl=None,
+        mode=const.LOAD_OVERWRITE,
+        primary_keys=None,
+        delete_file=False,
+        dedup=False,
+        dedup_uniq_keys=None,
+        dedup_orderby=None,
+        pre_queries=None,
+        post_queries=None,
+        *args,
+        **kwargs,
+    ):
+        """Loads a csv file into a Redshift table. Internally using a S3 bucket.
+        :param database: the target database name
+        :type database: str
+        :param table: target table name, should not contains database portion
+        :type table: str
+        :param filename: the absolute path to csv file
+        :type filename: str
+        :param redshift_connector: a RedshiftConnector object used to query Redshift
+        :type redshift_connector: pigeon.database.RedshiftConnector
+        :param create_table_ddl: create table
+        :type create_table_ddl: str
+        :param mode: one of (LOAD_OVERWRITE, LOAD_MERGE, LOAD_APPEND)
+        :param primary_keys: columns that identifies a unique row, e.g. ['dt', 'product_id'].
+                             Required if mode is LOAD_MERGE
+        :type primary_keys: list
+        :param delete_file: delete the CSV file after loading, default is True
+        :type delete_file: bool
+        :param dedup: remove duplicated records from staging table before being merged into target
+        :type dedup: bool
+        :param dedup_uniq_keys: columns that identifies a unique row.
+        :type dedup_uniq_keys: list
+        :param dedup_orderby: determine which row should be kept.
+                              e.g. "to keep the row has minimal timestamp", then set `dedup_orderby='timestamp ASC'
+        :param pre_queries: queries executed before loading
+        :type pre_queries: list | str
+        :param post_queries: queries after loading
+        :type post_queries: list | str
+        """
+        self.database = database
+        if "." in table:
+            self.schema, self.table = table.split(".")
+        else:
+            self.schema = schema or "public"
+            self.table = table
+        if redshift_connector is None:
+            redshift_connector = new_redshift_connector(database=self.database)
+        else:
+            redshift_connector.database = self.database
+        self.redshift = redshift_connector
+        self.filename = filename
+        self.create_table_ddl = create_table_ddl
+        if mode not in allowed_modes:
+            raise ValueError("mode should be one of ({})".format(allowed_modes))
+        self.mode = mode
+        self.primary_keys = ensure_str_list(primary_keys)
+        if self.mode == const.LOAD_MERGE and not self.primary_keys:
+            raise ValueError("primary_keys should not be empty in mode {}".format(const.LOAD_MERGE))
+        self.delete_file = delete_file
+        self.dedup = dedup
+        self.dedup_uniq_keys = ensure_str_list(dedup_uniq_keys)
+        self.dedup_orderby = dedup_orderby
+        if self.dedup and not self.dedup_uniq_keys:
+            raise ValueError("dedup_uniq_keys should not be empty")
+        if not self.dedup_orderby:
+            self.dedup_orderby = ", ".join(self.dedup_uniq_keys)
+        self.pre_queries = ensure_query_list(pre_queries) or []
+        self.post_queries = ensure_query_list(post_queries) or []
+        super().__init__()
+    def execute_impl(self):
+        if fs.is_file_empty(self.filename):
+            self.logger.error("file not exists or has no content. %s", self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+            return
+        self._prepare_target_table()
+        self._prepare_staging_table()
+        self._merge_into_target_table()
+        # do cleaning things
+        if self.delete_file:
+            self.logger.info("delete local file %s", self.filename)
+            fs.remove_files_safely(self.filename)
+            fs.remove_files_safely(fs.schema_filename(self.filename))
+    @property
+    def connector(self):
+        return self.redshift
+    @property
+    def full_table_name(self):
+        return f"{self.schema}.{self.table}"
+    @property
+    def staging_table(self):
+        return f"{self.schema}.{self.table}_staging"
+    @property
+    def bak_table(self):
+        return f"{self.schema}.{self.table}_bak"
+    def _prepare_staging_table(self):
+        queries = """
+            DROP TABLE IF EXISTS {st};
+            CREATE TABLE {st} (LIKE {ft});
+        """.format(
+            st=self.staging_table, ft=self.full_table_name
+        )
+        self.redshift.execute(queries, autocommit=True)
+        self.redshift.load_csv(table=self.staging_table, filename=self.filename, null_values=("NULL", r"\N", ""))
+        if self.dedup:
+            dedup_query = self._construct_dedup_query(partition_keys=self.dedup_uniq_keys, order_by=self.dedup_orderby)
+            self.redshift.execute(dedup_query, autocommit=False, commit_on_close=True)
+    def _construct_dedup_query(self, partition_keys=None, order_by=None):
+        """Construct deduplication query with specified partition keys and order by clause"""
+        if partition_keys is None:
+            partition_keys = self.dedup_uniq_keys
+        if order_by is None:
+            order_by = self.dedup_orderby
+        partition_cols = []
+        for col in partition_keys:
+            partition_cols.append(self.connector.quote_identifier(col))
+        partition_by = ", ".join(partition_cols)
+        cols = self.connector.get_columns(self.staging_table)
+        tmp_table = f"{self.staging_table}_tmp"
+        query = f"""
+            DROP TABLE IF EXISTS {tmp_table};
+            CREATE TABLE {tmp_table} AS
+            SELECT {', '.join(self.connector.quote_identifier(x) for x in cols)}
+            FROM (
+              SELECT *, ROW_NUMBER() OVER(PARTITION BY {partition_by} ORDER BY {order_by}) AS rn
+              FROM {self.staging_table}
+            ) t
+            WHERE rn = 1;
+            TRUNCATE TABLE {self.staging_table};
+            INSERT INTO {self.staging_table} SELECT * FROM {tmp_table};
+            DROP TABLE IF EXISTS {tmp_table};
+        """
+        return query
+    def _merge_into_target_table(self):
+        queries = []
+        pure_bak_table = self.bak_table.split(".")[-1]
+        pure_full_table = self.full_table_name.split(".")[-1]
+        if self.mode == const.LOAD_OVERWRITE:
+            queries.append(f"DROP TABLE IF EXISTS {self.bak_table}")
+            queries.append(f"ALTER TABLE {self.full_table_name} RENAME TO {pure_bak_table}")
+            queries.append(f"ALTER TABLE {self.staging_table} RENAME TO {pure_full_table}")
+            queries.append(f"DROP TABLE IF EXISTS {self.bak_table}")
+        elif self.mode == const.LOAD_MERGE:
+            # Deduplicate staging table data before merging using primary_keys
+            # Use primary_keys order for ordering
+            order_by = ", ".join(self.connector.quote_identifier(col) for col in self.primary_keys)
+            dedup_query = self._construct_dedup_query(partition_keys=self.primary_keys, order_by=order_by)
+            queries.append(dedup_query)
+            joins = []
+            for field in self.primary_keys:
+                join = "{target}.{field} = {staging}.{field}".format(
+                    target=self.full_table_name, staging=self.staging_table, field=field
+                )
+                joins.append(join)
+            join_conditions = " AND ".join(joins)
+            # Delete existing records that match primary keys
+            delete_sql = "DELETE FROM {target} USING {staging} WHERE {join_conditions}".format(
+                target=self.full_table_name, staging=self.staging_table, join_conditions=join_conditions
+            )
+            queries.append(delete_sql)
+            # Insert data from staging table to target table
+            insert_sql = "INSERT INTO {target} SELECT * FROM {source}".format(
+                target=self.full_table_name, source=self.staging_table
+            )
+            queries.append(insert_sql)
+            queries.append("DROP TABLE {}".format(self.staging_table))
+        else:
+            # APPEND mode
+            append_sql = "INSERT INTO {target} SELECT * FROM {source}".format(
+                target=self.full_table_name, source=self.staging_table
+            )
+            queries.append(append_sql)
+            queries.append("DROP TABLE {}".format(self.staging_table))
+        queries = self.pre_queries + queries + self.post_queries
+        self.logger.info("running Redshift queries...")
+        try:
+            self.redshift.execute(queries, autocommit=False, commit_on_close=True)
+        except Exception as e:
+            self.logger.exception("failed to run queries")
+            raise e
+        finally:
+            if (
+                self.mode == const.LOAD_OVERWRITE
+                and not self.redshift.has_table(self.full_table_name)
+                and self.redshift.has_table(self.bak_table)
+            ):
+                rename_sql = "ALTER TABLE {} RENAME TO {}".format(self.bak_table, pure_full_table)
+                self.redshift.execute(rename_sql, autocommit=False, commit_on_close=True)
+        try:
+            self.logger.info("running analyze")
+            analyze_queries = "VACUUM {t}; ANALYZE {t}".format(t=self.full_table_name)
+            self.redshift.execute(analyze_queries, autocommit=True)
+        except Exception:
+            self.logger.exception("failed to run analyze queries")