PyPI - recurvedata-lib - Versions diffs - 0.1.487__py2.py3-none-any.whl - Mend

recurvedata-lib 0.1.487__py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of recurvedata-lib might be problematic. Click here for more details.

Files changed (333) hide show

recurvedata/__init__.py +0 -0
recurvedata/__version__.py +1 -0
recurvedata/client/__init__.py +3 -0
recurvedata/client/client.py +150 -0
recurvedata/client/server_client.py +91 -0
recurvedata/config.py +99 -0
recurvedata/connectors/__init__.py +20 -0
recurvedata/connectors/_register.py +46 -0
recurvedata/connectors/base.py +111 -0
recurvedata/connectors/config_schema.py +1575 -0
recurvedata/connectors/connectors/__init__.py +0 -0
recurvedata/connectors/connectors/aliyun_access_key.py +30 -0
recurvedata/connectors/connectors/auth.py +44 -0
recurvedata/connectors/connectors/azure_blob.py +89 -0
recurvedata/connectors/connectors/azure_synapse.py +79 -0
recurvedata/connectors/connectors/bigquery.py +359 -0
recurvedata/connectors/connectors/clickhouse.py +219 -0
recurvedata/connectors/connectors/dingtalk.py +61 -0
recurvedata/connectors/connectors/doris.py +215 -0
recurvedata/connectors/connectors/es.py +62 -0
recurvedata/connectors/connectors/feishu.py +65 -0
recurvedata/connectors/connectors/ftp.py +50 -0
recurvedata/connectors/connectors/generic.py +49 -0
recurvedata/connectors/connectors/google_cloud_storage.py +115 -0
recurvedata/connectors/connectors/google_service_account.py +225 -0
recurvedata/connectors/connectors/hive.py +207 -0
recurvedata/connectors/connectors/impala.py +210 -0
recurvedata/connectors/connectors/jenkins.py +51 -0
recurvedata/connectors/connectors/mail.py +89 -0
recurvedata/connectors/connectors/microsoft_fabric.py +284 -0
recurvedata/connectors/connectors/mongo.py +79 -0
recurvedata/connectors/connectors/mssql.py +131 -0
recurvedata/connectors/connectors/mysql.py +191 -0
recurvedata/connectors/connectors/n8n.py +141 -0
recurvedata/connectors/connectors/oss.py +74 -0
recurvedata/connectors/connectors/owncloud.py +36 -0
recurvedata/connectors/connectors/phoenix.py +36 -0
recurvedata/connectors/connectors/postgres.py +230 -0
recurvedata/connectors/connectors/python.py +50 -0
recurvedata/connectors/connectors/redshift.py +187 -0
recurvedata/connectors/connectors/s3.py +93 -0
recurvedata/connectors/connectors/sftp.py +87 -0
recurvedata/connectors/connectors/slack.py +35 -0
recurvedata/connectors/connectors/spark.py +99 -0
recurvedata/connectors/connectors/starrocks.py +175 -0
recurvedata/connectors/connectors/tencent_cos.py +40 -0
recurvedata/connectors/connectors/tidb.py +49 -0
recurvedata/connectors/const.py +315 -0
recurvedata/connectors/datasource.py +189 -0
recurvedata/connectors/dbapi.py +469 -0
recurvedata/connectors/fs.py +66 -0
recurvedata/connectors/ftp.py +40 -0
recurvedata/connectors/object_store.py +60 -0
recurvedata/connectors/pigeon.py +172 -0
recurvedata/connectors/proxy.py +104 -0
recurvedata/connectors/service.py +223 -0
recurvedata/connectors/utils.py +47 -0
recurvedata/consts.py +49 -0
recurvedata/core/__init__.py +0 -0
recurvedata/core/config.py +46 -0
recurvedata/core/configurable.py +27 -0
recurvedata/core/consts.py +2 -0
recurvedata/core/templating.py +206 -0
recurvedata/core/tracing.py +223 -0
recurvedata/core/transformer.py +186 -0
recurvedata/core/translation.py +91 -0
recurvedata/dbt/client.py +97 -0
recurvedata/dbt/consts.py +99 -0
recurvedata/dbt/cosmos_utils.py +275 -0
recurvedata/dbt/error_codes.py +18 -0
recurvedata/dbt/schemas.py +98 -0
recurvedata/dbt/service.py +451 -0
recurvedata/dbt/utils.py +246 -0
recurvedata/error_codes.py +71 -0
recurvedata/exceptions.py +72 -0
recurvedata/executors/__init__.py +4 -0
recurvedata/executors/cli/__init__.py +7 -0
recurvedata/executors/cli/connector.py +117 -0
recurvedata/executors/cli/dbt.py +118 -0
recurvedata/executors/cli/main.py +82 -0
recurvedata/executors/cli/parameters.py +18 -0
recurvedata/executors/client.py +190 -0
recurvedata/executors/consts.py +50 -0
recurvedata/executors/debug_executor.py +100 -0
recurvedata/executors/executor.py +300 -0
recurvedata/executors/link_executor.py +189 -0
recurvedata/executors/models.py +34 -0
recurvedata/executors/schemas.py +222 -0
recurvedata/executors/service/__init__.py +0 -0
recurvedata/executors/service/connector.py +380 -0
recurvedata/executors/utils.py +172 -0
recurvedata/filestorage/__init__.py +11 -0
recurvedata/filestorage/_factory.py +33 -0
recurvedata/filestorage/backends/__init__.py +0 -0
recurvedata/filestorage/backends/fsspec.py +45 -0
recurvedata/filestorage/backends/local.py +67 -0
recurvedata/filestorage/backends/oss.py +56 -0
recurvedata/filestorage/interface.py +84 -0
recurvedata/operators/__init__.py +10 -0
recurvedata/operators/base.py +28 -0
recurvedata/operators/config.py +21 -0
recurvedata/operators/context.py +255 -0
recurvedata/operators/dbt_operator/__init__.py +2 -0
recurvedata/operators/dbt_operator/model_pipeline_link_operator.py +55 -0
recurvedata/operators/dbt_operator/operator.py +353 -0
recurvedata/operators/link_operator/__init__.py +1 -0
recurvedata/operators/link_operator/operator.py +120 -0
recurvedata/operators/models.py +55 -0
recurvedata/operators/notify_operator/__init__.py +1 -0
recurvedata/operators/notify_operator/operator.py +180 -0
recurvedata/operators/operator.py +119 -0
recurvedata/operators/python_operator/__init__.py +1 -0
recurvedata/operators/python_operator/operator.py +132 -0
recurvedata/operators/sensor_operator/__init__.py +1 -0
recurvedata/operators/sensor_operator/airflow_utils.py +63 -0
recurvedata/operators/sensor_operator/operator.py +172 -0
recurvedata/operators/spark_operator/__init__.py +1 -0
recurvedata/operators/spark_operator/operator.py +200 -0
recurvedata/operators/spark_operator/spark_sample.py +47 -0
recurvedata/operators/sql_operator/__init__.py +1 -0
recurvedata/operators/sql_operator/operator.py +90 -0
recurvedata/operators/task.py +211 -0
recurvedata/operators/transfer_operator/__init__.py +40 -0
recurvedata/operators/transfer_operator/const.py +10 -0
recurvedata/operators/transfer_operator/dump_aliyun_sls.py +82 -0
recurvedata/operators/transfer_operator/dump_sheet_task_base.py +292 -0
recurvedata/operators/transfer_operator/dump_task_cass.py +155 -0
recurvedata/operators/transfer_operator/dump_task_dbapi.py +209 -0
recurvedata/operators/transfer_operator/dump_task_es.py +113 -0
recurvedata/operators/transfer_operator/dump_task_feishu_sheet.py +114 -0
recurvedata/operators/transfer_operator/dump_task_ftp.py +234 -0
recurvedata/operators/transfer_operator/dump_task_google_sheet.py +66 -0
recurvedata/operators/transfer_operator/dump_task_mongodb.py +168 -0
recurvedata/operators/transfer_operator/dump_task_oss.py +285 -0
recurvedata/operators/transfer_operator/dump_task_python.py +212 -0
recurvedata/operators/transfer_operator/dump_task_s3.py +270 -0
recurvedata/operators/transfer_operator/dump_task_sftp.py +229 -0
recurvedata/operators/transfer_operator/load_task_aliyun_oss.py +107 -0
recurvedata/operators/transfer_operator/load_task_azure_blob.py +115 -0
recurvedata/operators/transfer_operator/load_task_azure_synapse.py +90 -0
recurvedata/operators/transfer_operator/load_task_clickhouse.py +167 -0
recurvedata/operators/transfer_operator/load_task_doris.py +164 -0
recurvedata/operators/transfer_operator/load_task_email.py +188 -0
recurvedata/operators/transfer_operator/load_task_es.py +86 -0
recurvedata/operators/transfer_operator/load_task_filebrowser.py +151 -0
recurvedata/operators/transfer_operator/load_task_ftp.py +19 -0
recurvedata/operators/transfer_operator/load_task_google_bigquery.py +90 -0
recurvedata/operators/transfer_operator/load_task_google_cloud_storage.py +127 -0
recurvedata/operators/transfer_operator/load_task_google_sheet.py +130 -0
recurvedata/operators/transfer_operator/load_task_hive.py +158 -0
recurvedata/operators/transfer_operator/load_task_microsoft_fabric.py +105 -0
recurvedata/operators/transfer_operator/load_task_mssql.py +153 -0
recurvedata/operators/transfer_operator/load_task_mysql.py +157 -0
recurvedata/operators/transfer_operator/load_task_owncloud.py +135 -0
recurvedata/operators/transfer_operator/load_task_postgresql.py +109 -0
recurvedata/operators/transfer_operator/load_task_qcloud_cos.py +119 -0
recurvedata/operators/transfer_operator/load_task_recurve_data_prep.py +75 -0
recurvedata/operators/transfer_operator/load_task_redshift.py +95 -0
recurvedata/operators/transfer_operator/load_task_s3.py +150 -0
recurvedata/operators/transfer_operator/load_task_sftp.py +90 -0
recurvedata/operators/transfer_operator/load_task_starrocks.py +169 -0
recurvedata/operators/transfer_operator/load_task_yicrowds.py +97 -0
recurvedata/operators/transfer_operator/mixin.py +31 -0
recurvedata/operators/transfer_operator/operator.py +231 -0
recurvedata/operators/transfer_operator/task.py +223 -0
recurvedata/operators/transfer_operator/utils.py +134 -0
recurvedata/operators/ui.py +80 -0
recurvedata/operators/utils/__init__.py +51 -0
recurvedata/operators/utils/file_factory.py +150 -0
recurvedata/operators/utils/fs.py +10 -0
recurvedata/operators/utils/lineage.py +265 -0
recurvedata/operators/web_init.py +15 -0
recurvedata/pigeon/connector/__init__.py +294 -0
recurvedata/pigeon/connector/_registry.py +17 -0
recurvedata/pigeon/connector/aliyun_oss.py +80 -0
recurvedata/pigeon/connector/awss3.py +123 -0
recurvedata/pigeon/connector/azure_blob.py +176 -0
recurvedata/pigeon/connector/azure_synapse.py +51 -0
recurvedata/pigeon/connector/cass.py +151 -0
recurvedata/pigeon/connector/clickhouse.py +403 -0
recurvedata/pigeon/connector/clickhouse_native.py +351 -0
recurvedata/pigeon/connector/dbapi.py +571 -0
recurvedata/pigeon/connector/doris.py +166 -0
recurvedata/pigeon/connector/es.py +176 -0
recurvedata/pigeon/connector/feishu.py +1135 -0
recurvedata/pigeon/connector/ftp.py +163 -0
recurvedata/pigeon/connector/google_bigquery.py +283 -0
recurvedata/pigeon/connector/google_cloud_storage.py +130 -0
recurvedata/pigeon/connector/hbase_phoenix.py +108 -0
recurvedata/pigeon/connector/hdfs.py +204 -0
recurvedata/pigeon/connector/hive_impala.py +383 -0
recurvedata/pigeon/connector/microsoft_fabric.py +95 -0
recurvedata/pigeon/connector/mongodb.py +56 -0
recurvedata/pigeon/connector/mssql.py +467 -0
recurvedata/pigeon/connector/mysql.py +175 -0
recurvedata/pigeon/connector/owncloud.py +92 -0
recurvedata/pigeon/connector/postgresql.py +267 -0
recurvedata/pigeon/connector/power_bi.py +179 -0
recurvedata/pigeon/connector/qcloud_cos.py +79 -0
recurvedata/pigeon/connector/redshift.py +123 -0
recurvedata/pigeon/connector/sftp.py +73 -0
recurvedata/pigeon/connector/sqlite.py +42 -0
recurvedata/pigeon/connector/starrocks.py +144 -0
recurvedata/pigeon/connector/tableau.py +162 -0
recurvedata/pigeon/const.py +21 -0
recurvedata/pigeon/csv.py +172 -0
recurvedata/pigeon/docs/datasources-example.json +82 -0
recurvedata/pigeon/docs/images/pigeon_design.png +0 -0
recurvedata/pigeon/docs/lightweight-data-sync-solution.md +111 -0
recurvedata/pigeon/dumper/__init__.py +171 -0
recurvedata/pigeon/dumper/aliyun_sls.py +415 -0
recurvedata/pigeon/dumper/base.py +141 -0
recurvedata/pigeon/dumper/cass.py +213 -0
recurvedata/pigeon/dumper/dbapi.py +346 -0
recurvedata/pigeon/dumper/es.py +112 -0
recurvedata/pigeon/dumper/ftp.py +64 -0
recurvedata/pigeon/dumper/mongodb.py +103 -0
recurvedata/pigeon/handler/__init__.py +4 -0
recurvedata/pigeon/handler/base.py +153 -0
recurvedata/pigeon/handler/csv_handler.py +290 -0
recurvedata/pigeon/loader/__init__.py +87 -0
recurvedata/pigeon/loader/base.py +83 -0
recurvedata/pigeon/loader/csv_to_azure_synapse.py +214 -0
recurvedata/pigeon/loader/csv_to_clickhouse.py +152 -0
recurvedata/pigeon/loader/csv_to_doris.py +215 -0
recurvedata/pigeon/loader/csv_to_es.py +51 -0
recurvedata/pigeon/loader/csv_to_google_bigquery.py +169 -0
recurvedata/pigeon/loader/csv_to_hive.py +468 -0
recurvedata/pigeon/loader/csv_to_microsoft_fabric.py +242 -0
recurvedata/pigeon/loader/csv_to_mssql.py +174 -0
recurvedata/pigeon/loader/csv_to_mysql.py +180 -0
recurvedata/pigeon/loader/csv_to_postgresql.py +248 -0
recurvedata/pigeon/loader/csv_to_redshift.py +240 -0
recurvedata/pigeon/loader/csv_to_starrocks.py +233 -0
recurvedata/pigeon/meta.py +116 -0
recurvedata/pigeon/row_factory.py +42 -0
recurvedata/pigeon/schema/__init__.py +124 -0
recurvedata/pigeon/schema/types.py +13 -0
recurvedata/pigeon/sync.py +283 -0
recurvedata/pigeon/transformer.py +146 -0
recurvedata/pigeon/utils/__init__.py +134 -0
recurvedata/pigeon/utils/bloomfilter.py +181 -0
recurvedata/pigeon/utils/date_time.py +323 -0
recurvedata/pigeon/utils/escape.py +15 -0
recurvedata/pigeon/utils/fs.py +266 -0
recurvedata/pigeon/utils/json.py +44 -0
recurvedata/pigeon/utils/keyed_tuple.py +85 -0
recurvedata/pigeon/utils/mp.py +156 -0
recurvedata/pigeon/utils/sql.py +328 -0
recurvedata/pigeon/utils/timing.py +155 -0
recurvedata/provider_manager.py +0 -0
recurvedata/providers/__init__.py +0 -0
recurvedata/providers/dbapi/__init__.py +0 -0
recurvedata/providers/flywheel/__init__.py +0 -0
recurvedata/providers/mysql/__init__.py +0 -0
recurvedata/schedulers/__init__.py +1 -0
recurvedata/schedulers/airflow.py +974 -0
recurvedata/schedulers/airflow_db_process.py +331 -0
recurvedata/schedulers/airflow_operators.py +61 -0
recurvedata/schedulers/airflow_plugin.py +9 -0
recurvedata/schedulers/airflow_trigger_dag_patch.py +117 -0
recurvedata/schedulers/base.py +99 -0
recurvedata/schedulers/cli.py +228 -0
recurvedata/schedulers/client.py +56 -0
recurvedata/schedulers/consts.py +52 -0
recurvedata/schedulers/debug_celery.py +62 -0
recurvedata/schedulers/model.py +63 -0
recurvedata/schedulers/schemas.py +97 -0
recurvedata/schedulers/service.py +20 -0
recurvedata/schedulers/system_dags.py +59 -0
recurvedata/schedulers/task_status.py +279 -0
recurvedata/schedulers/utils.py +73 -0
recurvedata/schema/__init__.py +0 -0
recurvedata/schema/field.py +88 -0
recurvedata/schema/schema.py +55 -0
recurvedata/schema/types.py +17 -0
recurvedata/schema.py +0 -0
recurvedata/server/__init__.py +0 -0
recurvedata/server/app.py +7 -0
recurvedata/server/connector/__init__.py +0 -0
recurvedata/server/connector/api.py +79 -0
recurvedata/server/connector/schemas.py +28 -0
recurvedata/server/data_service/__init__.py +0 -0
recurvedata/server/data_service/api.py +126 -0
recurvedata/server/data_service/client.py +18 -0
recurvedata/server/data_service/consts.py +1 -0
recurvedata/server/data_service/schemas.py +68 -0
recurvedata/server/data_service/service.py +218 -0
recurvedata/server/dbt/__init__.py +0 -0
recurvedata/server/dbt/api.py +116 -0
recurvedata/server/error_code.py +49 -0
recurvedata/server/exceptions.py +19 -0
recurvedata/server/executor/__init__.py +0 -0
recurvedata/server/executor/api.py +37 -0
recurvedata/server/executor/schemas.py +30 -0
recurvedata/server/executor/service.py +220 -0
recurvedata/server/main.py +32 -0
recurvedata/server/schedulers/__init__.py +0 -0
recurvedata/server/schedulers/api.py +252 -0
recurvedata/server/schedulers/schemas.py +50 -0
recurvedata/server/schemas.py +50 -0
recurvedata/utils/__init__.py +15 -0
recurvedata/utils/_typer.py +61 -0
recurvedata/utils/attrdict.py +19 -0
recurvedata/utils/command_helper.py +20 -0
recurvedata/utils/compat.py +12 -0
recurvedata/utils/compression.py +203 -0
recurvedata/utils/crontab.py +42 -0
recurvedata/utils/crypto_util.py +305 -0
recurvedata/utils/dataclass.py +11 -0
recurvedata/utils/date_time.py +464 -0
recurvedata/utils/dispatch.py +114 -0
recurvedata/utils/email_util.py +104 -0
recurvedata/utils/files.py +386 -0
recurvedata/utils/helpers.py +170 -0
recurvedata/utils/httputil.py +117 -0
recurvedata/utils/imports.py +132 -0
recurvedata/utils/json.py +80 -0
recurvedata/utils/log.py +117 -0
recurvedata/utils/log_capture.py +153 -0
recurvedata/utils/mp.py +178 -0
recurvedata/utils/normalizer.py +102 -0
recurvedata/utils/redis_lock.py +474 -0
recurvedata/utils/registry.py +54 -0
recurvedata/utils/shell.py +15 -0
recurvedata/utils/singleton.py +33 -0
recurvedata/utils/sql.py +6 -0
recurvedata/utils/timeout.py +28 -0
recurvedata/utils/tracing.py +14 -0
recurvedata_lib-0.1.487.dist-info/METADATA +605 -0
recurvedata_lib-0.1.487.dist-info/RECORD +333 -0
recurvedata_lib-0.1.487.dist-info/WHEEL +5 -0
recurvedata_lib-0.1.487.dist-info/entry_points.txt +6 -0

recurvedata/pigeon/dumper/ftp.py ADDED Viewed

@@ -0,0 +1,64 @@
+import os
+import humanize
+from recurvedata.pigeon.connector.ftp import FtpConnector
+from recurvedata.pigeon.meta import DumperMeta
+from recurvedata.pigeon.utils import LoggingMixin
+class FtpDumperMeta(DumperMeta):
+    def __init__(self):
+        super().__init__()
+        self.total_size = 0
+        self.dumped_files = []
+    def to_dict(self):
+        speed = self.total_size / self.duration.total_seconds()
+        return {
+            "time_start": self.time_start,
+            "time_finish": self.time_finish,
+            "time_duration": self.duration,
+            "total_size": self.total_size,
+            "total_size_human": humanize.naturalsize(self.total_size, gnu=True),
+            "download_speed": f"{humanize.naturalsize(speed, gnu=True)}/s",
+            "num_dumped_files": len(self.dumped_files),
+            "dumped_files": self.dumped_files,
+        }
+class FtpDumper(LoggingMixin):
+    def __init__(self, connector, src, dst):
+        assert isinstance(connector, FtpConnector)
+        self.connector = connector
+        self.src = src
+        self.dst = dst
+        self.meta = FtpDumperMeta()
+    def execute(self):
+        self.meta.mark_start()
+        self.execute_impl()
+        self.meta.mark_finish()
+        self.logger.info(f"dumper meta: {self.meta.to_json(indent=2)}")
+        return self.meta
+    def execute_impl(self):
+        if self.connector.is_ftp_dir(self.src):
+            for item in self.connector.list_dir(self.src):
+                if self.connector.is_ftp_dir(item):
+                    self.logger.warning(f"{item} may be a directory. Skip")
+                else:
+                    _, remote_file = os.path.split(item)
+                    dst = os.path.join(self.dst, remote_file)
+                    self.connector.download_file(item, dst)
+                    self.collect_meta(dst)
+        else:
+            self.connector.download_file(self.src, self.dst)
+            self.collect_meta(self.dst)
+    def collect_meta(self, filepath):
+        if not os.path.exists(filepath):
+            return None
+        file_size = os.stat(filepath).st_size
+        self.meta.dumped_files.append({"filepath": filepath, "size": file_size})
+        self.meta.total_size += file_size

recurvedata/pigeon/dumper/mongodb.py ADDED Viewed

@@ -0,0 +1,103 @@
+from bson import json_util
+from recurvedata.pigeon.connector.mongodb import MongoDBConnector
+from recurvedata.pigeon.dumper.base import BaseDumper
+from recurvedata.pigeon.row_factory import ordered_dict_factory
+from recurvedata.pigeon.schema import Schema
+from recurvedata.pigeon.utils.timing import TimeCounter
+class MongoDBDumper(BaseDumper):
+    _row_factory = staticmethod(ordered_dict_factory)
+    def __init__(self, connector, database, collection, filter=None, projection=None, handler_factories=None):
+        """MongoDBDumper 用于从 MongoDB 导出数据
+        :param connector: MongoDBConnector 对象
+        :param database: database 名字
+        :param collection: collection 名字
+        :param filter: 查询条件，用于 find 函数。
+                       注意，如果传入字符串格式的 filter，将被当作 json 字符串，用 bson.json_util.loads 反序列化。
+        :param projection: 控制返回的字段，用于 find 函数
+        :param handler_factories:
+        """
+        super().__init__(handler_factories=handler_factories)
+        if not isinstance(connector, MongoDBConnector):
+            raise TypeError("connector should be instance of MongoDBConnector")
+        self.connector = connector
+        self.database = database
+        self.collection = collection
+        self.filter = filter or {}
+        if isinstance(self.filter, str):
+            self.filter = json_util.loads(self.filter)
+        self.projection = projection
+        self.meta.context = {
+            "database": database,
+            "collection": collection,
+            "filter": filter,
+            "projection": projection,
+        }
+    @property
+    def row_factory(self):
+        return ordered_dict_factory
+    @row_factory.setter
+    def row_factory(self, factory):
+        raise ValueError(f"{self.__class__.__name__}.row_factory is dict_factory, and is readonly")
+    def execute(self):
+        self.meta.mark_start()
+        self.execute_impl()
+        self.meta.mark_finish()
+        self.logger.info("dumper meta: %s", self.meta.to_json(indent=2))
+        self.handle_schema()
+        return self.meta
+    def execute_impl(self):
+        handlers = self.create_handlers()
+        self.logger.info("execute with context")
+        self.logger.info("  filter: %s", self.filter)
+        self.logger.info("  projection: %s", self.projection)
+        # MongoDB 没有模式，以第一条结果的字段和值来推导 schema
+        schema = Schema()
+        field_names = []
+        client = self.connector.connect()
+        if self.collection not in client[self.database].list_collection_names():
+            raise RuntimeError(f"collection '{self.collection}' does not exist")
+        total_count = client[self.database][self.collection].count_documents(self.filter)
+        cursor = client[self.database][self.collection].find(self.filter, self.projection)
+        counter = TimeCounter(name="", log_threshold=10000, logger=self.logger, total=total_count)
+        # Use projection field order as the base order
+        field_names = list(self.projection.keys()) if self.projection else []
+        for doc in cursor:
+            counter.incr(1)
+            fixed_doc = doc
+            # if projection is not None, then use projection to filter the fields and fill the missing fields with None
+            if field_names:
+                # Use projection field order, and fill missing fields with None
+                fixed_doc = self.row_factory(field_names, [doc.get(x, None) for x in field_names])
+            for h in handlers:
+                h.handle(fixed_doc)
+        counter.show_stat()
+        self.meta.schema = schema
+        self.meta.num_dumped_rows = counter.count
+        for hf, h in zip(self.handler_factories, handlers):
+            hf.meta.update(h.meta)
+        self.meta.handlers_meta = [x.meta for x in self.handler_factories]
+        for h in handlers:
+            h.close()
+        self.join_handlers()

recurvedata/pigeon/handler/__init__.py ADDED Viewed

@@ -0,0 +1,4 @@
+from recurvedata.pigeon.handler.base import Handler, HandlerFactory, NullHandler
+from recurvedata.pigeon.handler.csv_handler import CSVFileHandler, HiveCSVFileHandler
+null_factory = HandlerFactory(NullHandler)

recurvedata/pigeon/handler/base.py ADDED Viewed

@@ -0,0 +1,153 @@
+import cytoolz as toolz
+from recurvedata.pigeon.meta import HandlerFactoryMeta, HandlerMeta
+from recurvedata.pigeon.transformer import Transformer
+from recurvedata.pigeon.utils import LoggingMixin
+_default_transformer = Transformer()
+class Handler(LoggingMixin):
+    ERROR_HANDLE_PARAMS = [
+        "max_error_rate",
+        "min_sample_rows",
+        "check_error_rate_on_finish",
+        "max_continuous_error_log_rows",
+        "max_continuous_error_log_size",
+        "error_log_cycle_interval",
+    ]
+    def __init__(
+        self,
+        transformer=_default_transformer,
+        max_error_rate=0.2,
+        min_sample_rows=1000,
+        check_error_rate_on_finish=True,
+        max_continuous_error_log_rows=10,
+        max_continuous_error_log_size=500000,
+        error_log_cycle_interval=100,
+        *args,
+        **kwargs,
+    ):
+        """记录处理逻辑，接收一行输入，调用转换逻辑，输出处理结果。
+        :param transformer: 定义数据处理逻辑，Transformer 或子类对象
+        :param max_error_rate: 最大错误率，超出该错误率可能会（结合样本大小）抛出异常中断程序
+        :param min_sample_rows: 最小采样数量，避免样本太小导致误报
+        :param check_error_rate_on_finish: 在程序结束时检查错误率，达到阈值会抛出异常，避免因为数据量太小达不到样本容量而淹没错误。
+        :param max_continuous_error_log_rows: 单个 handler 连续打印的报错 row 的最大行数，防止错误日志太多 log 太大
+        :param max_continuous_error_log_size: 单个 handler 连续打印的报错 row 字符串的最大字符数，默认 50w, 防止错误日志太多 log 太大
+        "param error_log_cycle_interval: 当达到单个 handler 连续打印最大行数或者最大字符数后，仍然间隔 error_log_cycle_interval 打印一次报错日志
+        """
+        self.transformer = transformer
+        self.max_error_rate = max_error_rate
+        self.min_sample_rows = min_sample_rows
+        self.check_error_rate_on_finish = check_error_rate_on_finish
+        self.max_continuous_error_log_rows = max_continuous_error_log_rows
+        self.max_continuous_error_log_size = max_continuous_error_log_size
+        self.error_log_cycle_interval = error_log_cycle_interval
+        self.meta = HandlerMeta()
+        self.meta.schema = self.transformer.output_schema
+    def set_transformer(self, transformer):
+        self.transformer = transformer
+    def transform(self, row):
+        return self.transformer.transform(row)
+    def set_input_schema(self, schema):
+        self.transformer.input_schema = schema
+    def close(self):
+        if self.check_error_rate_on_finish:
+            self.check_error_rate()
+    def emit(self, row):
+        raise NotImplementedError("emit must be implemented by subclasses")
+    def handle(self, row):
+        self.meta.num_input_rows += 1
+        try:
+            rv = self.transform(row)
+            if rv:
+                num_rows = self.emit(rv)
+                self.meta.num_output_rows += num_rows
+        except (KeyboardInterrupt, SystemExit):
+            raise
+        except Exception:
+            self.handle_error(row)
+        if self.meta.num_input_rows >= self.min_sample_rows:
+            self.check_error_rate()
+    @property
+    def error_rate(self):
+        if self.meta.num_input_rows == 0:
+            return 0
+        return self.meta.num_error_rows / self.meta.num_input_rows
+    def check_error_rate(self):
+        if self.error_rate > self.max_error_rate:
+            raise RuntimeError(
+                f"max_error_rate reached,"
+                f" #input: {self.meta.num_input_rows},"
+                f" #error: {self.meta.num_error_rows},"
+                f" error_rate: {self.error_rate},"
+                f" threshold: {self.max_error_rate}"
+            )
+    def handle_error(self, row):
+        self.meta.num_error_rows += 1
+        self.meta.error_log_size += len(str(row))
+        if (
+            self.meta.num_error_rows <= self.max_continuous_error_log_rows
+            and self.meta.error_log_size <= self.max_continuous_error_log_size
+        ):
+            self.logger.exception("failed to handle row: %s", row)
+        elif self.meta.num_error_rows % self.error_log_cycle_interval == 0:
+            self.logger.exception(
+                "current handler total %s error rows, failed to handle row: %s", self.meta.num_error_rows, row
+            )
+    def reset(self):
+        """reset all states"""
+        self.meta.reset()
+class NullHandler(Handler):
+    def transform(self, row):
+        pass
+    def emit(self, row):
+        pass
+    def handle(self, row):
+        return 0
+class HandlerFactory(LoggingMixin):
+    def __init__(self, handler_class, transformer=_default_transformer, **handler_options):
+        self.handler_class = handler_class
+        self.transformer = transformer
+        self.handler_options = handler_options
+        self.handlers = []
+        self.meta = HandlerFactoryMeta(name=self.meta_name())
+    def set_transformer(self, transformer):
+        self.transformer = transformer
+    def create_handler(self, **kwargs):
+        h = self.handler_class(**toolz.merge(self.handler_options, kwargs))
+        h.set_transformer(self.transformer)
+        self.handlers.append(h)
+        return h
+    def join(self):
+        pass
+    def meta_name(self):
+        return f"<{self.__class__.__name__}>"
+    def handle_dumper_schema(self, schema):
+        pass

recurvedata/pigeon/handler/csv_handler.py ADDED Viewed

@@ -0,0 +1,290 @@
+import csv
+import glob
+import logging
+import os
+import cytoolz as toolz
+from recurvedata.pigeon import const
+from recurvedata.pigeon.csv import CSV
+from recurvedata.pigeon.handler.base import Handler, HandlerFactory
+from recurvedata.pigeon.row_factory import get_row_keys
+from recurvedata.pigeon.schema import Schema
+from recurvedata.pigeon.utils import escape, extract_dict, fs
+from recurvedata.pigeon.utils.json import json_dumps
+logger = logging.getLogger(__name__)
+class CSVFileHandler(Handler):
+    def __init__(
+        self,
+        filename=None,
+        encoding=None,
+        write_header=False,
+        null=None,
+        delimiter=",",
+        quoting=csv.QUOTE_ALL,
+        escapechar=None,
+        doublequote=True,
+        **kwargs,
+    ):
+        """Transform rows and write result as CSV file.
+        :param filename: result filename
+        :param encoding: encoding
+        :param write_header: writer headers or not
+        """
+        if filename is None:
+            filename = fs.new_tempfile(suffix=".csv")
+        self.filename = os.path.abspath(filename)
+        if os.path.exists(self.filename):
+            logger.info(f"found {filename}, remove before writing")
+            os.unlink(self.filename)
+        self.encoding = encoding
+        self.null = null
+        self._fd = None
+        self._writer = None
+        self.writer_header = write_header
+        self._field_names = None
+        self.csv_options = {k: v for k, v in kwargs.items() if k not in self.ERROR_HANDLE_PARAMS}
+        self.csv_options.update(
+            {"delimiter": delimiter, "quoting": quoting, "escapechar": escapechar, "doublequote": doublequote}
+        )
+        super().__init__(**extract_dict(kwargs, self.ERROR_HANDLE_PARAMS))
+    def flush(self):
+        if self._fd is not None:
+            self._fd.flush()
+    def close(self):
+        super().close()
+        if self._fd is not None:
+            self._fd.close()
+    def reset(self):
+        super().reset()
+        if self._fd is not None:
+            self._fd.seek(0)
+            self._fd.truncate(0)
+            self._fd.close()
+            self._fd = self._writer = None
+    def _open_writer(self, row):
+        self._fd = open(self.filename, "w", newline="", encoding=self.encoding)
+        self._determine_header(row)
+        if isinstance(row, dict):
+            self._writer = csv.DictWriter(self._fd, fieldnames=self._field_names, **self.csv_options)
+            if self.writer_header:
+                self._writer.writeheader()
+        else:
+            self._writer = csv.writer(self._fd, **self.csv_options)
+            if self.writer_header:
+                self._writer.writerow(self._field_names)
+    def _determine_header(self, row):
+        logger.info("try to get schema from row (%s)", type(row))
+        field_names = get_row_keys(row)
+        if not field_names:
+            logger.info("try to get schema from transformer")
+            if self.transformer.output_schema is not None:
+                field_names = [x.name for x in self.transformer.output_schema]
+        logger.info("header: %s", field_names)
+        self._field_names = field_names
+    def emit(self, row):
+        if not isinstance(row, list):
+            row = [row]
+        if self._fd is None:
+            self._open_writer(row[0])
+        for r in row:
+            self._writerow(r)
+        return len(row)
+    def _writerow(self, row):
+        if isinstance(row, dict):
+            row = toolz.valmap(self._escape_item, row)
+        else:
+            row = [self._escape_item(x) for x in row]
+        self._writer.writerow(row)
+    def _escape_item(self, v):
+        if v is None:
+            return self.null
+        # Handle dict, tuple, set and list
+        if isinstance(v, (dict, tuple, set, list)):
+            v = json_dumps(v, ensure_ascii=False)
+        if isinstance(v, str):
+            return escape.escape_string(v)
+        return v
+    def __str__(self):
+        return "<{} (filename={})>".format(self.__class__.__name__, self.filename)
+class HiveCSVFileHandler(CSVFileHandler):
+    """
+    The default file format of Hive is not CSV, but only delimiter-ed text file.
+    """
+    def __init__(
+        self,
+        filename=None,
+        encoding=None,
+        write_header=False,
+        null=const.HIVE_NULL,
+        delimiter=const.HIVE_FIELD_DELIMITER,
+        quoting=csv.QUOTE_NONE,
+        **csv_options,
+    ):
+        super().__init__(filename, encoding, write_header, null, delimiter, quoting, **csv_options)
+        self.delimiter = delimiter
+    def _writerow(self, row):
+        if isinstance(row, dict):
+            line = self.format_line(row.values())
+        else:
+            line = self.format_line(row)
+        self._fd.write(line)
+        self._fd.write("\n")
+    def _escape_item(self, v):
+        v = super()._escape_item(v)
+        return str(v)
+    def format_line(self, row):
+        values = map(self._escape_item, row)
+        return self.delimiter.join(values)
+class CSVFileHandlerFactory(HandlerFactory):
+    def __init__(
+        self, handler_class=CSVFileHandler, filename=None, encoding=None, write_header=False, merge_files=True, **kwargs
+    ):
+        self.filename = filename or fs.new_tempfile(".csv")
+        self.merge_files = merge_files
+        options = {"filename": self.filename, "encoding": encoding, "write_header": write_header}
+        options.update(kwargs)
+        super().__init__(handler_class=handler_class, **options)
+        self._saved_schema = False
+    def meta_name(self):
+        return f"<{self.__class__.__name__} ({self.filename})>"
+    def create_handler(self, **kwargs):
+        filename = f'{self.handler_options["filename"]}.{len(self.handlers)}'
+        return super().create_handler(filename=filename)
+    def join(self):
+        if not self.handlers:
+            return
+        files = [h.filename for h in self.handlers if not fs.is_file_empty(h.filename)]
+        if not files:
+            return
+        if self.merge_files:
+            has_header = self.handler_options.get("write_header", False)
+            logger.info("files have header: %s", has_header)
+            logger.info("merging files %s into %s", files, self.filename)
+            if not has_header:
+                fs.merge_files(files, self.filename)
+            else:
+                base_file = files[0]  # keep header
+                target = fs.merge_files(files[1:], num_skip_lines=1)
+                fs.merge_files([base_file, target], self.filename)
+        self.save_output_schema()
+    def _determine_output_schema(self):
+        if self.transformer.output_schema is not None:
+            # list of Fields
+            if isinstance(self.transformer.output_schema, list):
+                return Schema(self.transformer.output_schema)
+            return self.transformer.output_schema
+        if self.handler_options.get("write_header", False):
+            csv_options = self.handlers[0].csv_options
+            if self.merge_files:
+                f = self.filename
+            else:
+                # use the first non-empty file
+                f = toolz.first(x for x in glob.glob(f"{self.filename}.[0-9]*") if os.path.getsize(x))
+            csv_proxy = CSV(path=f, encoding=self.handler_options["encoding"], **csv_options)
+            return csv_proxy.infer_schema()
+        return None
+    def save_output_schema(self):
+        schema = self._determine_output_schema()
+        if not schema:
+            logger.warning("could not able to infer output schema")
+            return
+        filename = fs.schema_filename(self.filename)
+        logger.info("saving output schema to %s", filename)
+        schema.dump(filename)
+        self._saved_schema = True
+        return filename
+    def handle_dumper_schema(self, schema):
+        filename = fs.schema_filename(self.filename)
+        if self._saved_schema and os.path.exists(filename):
+            logger.info("file %s already exists, pass", filename)
+            return
+        if not isinstance(schema, Schema):
+            raise TypeError(f"got {type(schema)}")
+        logger.info("saving dumper schema to %s", filename)
+        schema.dump(filename)
+        return filename
+def create_csv_file_handler_factory(
+    filename=None, encoding=None, write_header=False, hive=False, transformer=None, merge_files=True, **kwargs
+):
+    if hive:
+        handler_class = HiveCSVFileHandler
+    else:
+        handler_class = CSVFileHandler
+    factory = CSVFileHandlerFactory(
+        handler_class=handler_class,
+        filename=filename,
+        encoding=encoding,
+        write_header=write_header,
+        merge_files=merge_files,
+        **kwargs,
+    )
+    if transformer is not None:
+        factory.set_transformer(transformer)
+    return factory
+def convert_csv_to_hive_textfile(filename, folder=None, replace=False, has_header=False, **csv_options):
+    new_name = fs.new_tempfile(prefix=os.path.basename(filename), dir=folder)
+    handler = HiveCSVFileHandler(filename=new_name)
+    with open(filename, newline="") as fd:
+        if has_header:
+            fd.readline()
+        reader = csv.reader(fd, **csv_options)
+        for row in reader:
+            handler.handle(tuple(row))
+    handler.close()
+    if replace:
+        os.rename(new_name, filename)
+    return new_name

recurvedata/pigeon/loader/__init__.py ADDED Viewed

@@ -0,0 +1,87 @@
+from recurvedata.pigeon.connector import (
+    new_azure_synapse_connector,
+    new_elasticsearch_connector,
+    new_google_bigquery_connector,
+    new_postgresql_connector,
+    new_redshift_connector,
+    new_tidb_connector,
+)
+from recurvedata.pigeon.loader.csv_to_azure_synapse import CSVToAzureSynapseLoader
+from recurvedata.pigeon.loader.csv_to_clickhouse import CSVToClickHouseLoader
+from recurvedata.pigeon.loader.csv_to_es import CSVToElasticSearchLoader
+from recurvedata.pigeon.loader.csv_to_google_bigquery import CSVToGoogleBigqueryLoader
+from recurvedata.pigeon.loader.csv_to_hive import CSVToHiveLoader
+from recurvedata.pigeon.loader.csv_to_mysql import CSVToMySQLLoader
+from recurvedata.pigeon.loader.csv_to_postgresql import CSVToPostgresqlLoader
+from recurvedata.pigeon.loader.csv_to_redshift import CSVToRedshiftLoader
+from recurvedata.pigeon.loader.csv_to_starrocks import CSVToStarRocksLoader
+def new_csv_to_hive_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToHiveLoader(**params)
+    return loader
+def new_csv_to_mysql_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToMySQLLoader(**params)
+    return loader
+def new_csv_to_starrocks_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToStarRocksLoader(**params)
+    return loader
+def new_csv_to_tidb_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToMySQLLoader(**params)
+    return loader
+def new_csv_to_redshift_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToRedshiftLoader(**params)
+    return loader
+def new_csv_to_postgresql_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToPostgresqlLoader(**params)
+    return loader
+def new_csv_to_azure_synapse_loader(table, filename, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename)
+    loader = CSVToAzureSynapseLoader(**params)
+    return loader
+def new_csv_to_clickhouse_loader(table, filename, database, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename, database=database)
+    loader = CSVToClickHouseLoader(**params)
+    return loader
+def new_csv_to_elasticsearch_loader(index, filename, **kwargs):
+    params = kwargs.copy()
+    params.update(index=index, filename=filename)
+    loader = CSVToElasticSearchLoader(**params)
+    return loader
+def new_csv_to_google_bigquery_loader(table, filename, **kwargs):
+    params = kwargs.copy()
+    params.update(table=table, filename=filename)
+    loader = CSVToGoogleBigqueryLoader(**params)
+    return loader