PyPI - re-common - Versions diffs - 10.0.22__py3-none-any.whl → 10.0.24__py3-none-any.whl - Mend

re-common 10.0.22py3-none-any.whl → 10.0.24py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +195 -0
re_common/v2/baselibrary/business_utils/__init__.py +0 -0
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -0
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -79
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/dict_tools.py +37 -37
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/list_tools.py +65 -65
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/author_smi.py +360 -360
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +161 -161
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +77 -77
re_common/v2/baselibrary/utils/db.py +38 -38
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +186 -149
re_common/v2/baselibrary/utils/string_clear.py +227 -204
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +213 -213
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/LICENSE +201 -201
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/METADATA +16 -16
re_common-10.0.24.dist-info/RECORD +230 -0
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/WHEEL +1 -1
re_common-10.0.22.dist-info/RECORD +0 -227
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/s3object/baseboto3.py CHANGED Viewed

@@ -1,230 +1,230 @@
-from boto3.session import Session
-class BaseBoto3(object):
-    def __init__(self, aws_access_key_id="", aws_secret_access_key="", endpoint_url=""):
-        self.aws_access_key_id = aws_access_key_id
-        self.aws_secret_access_key = aws_secret_access_key
-        self.endpoint_url = endpoint_url
-        self.session = None
-        self.client = None
-        if self.aws_access_key_id and self.aws_secret_access_key and self.endpoint_url:
-            self.conn_session()
-            self.get_client()
-    def set_key(self, aws_access_key_id, aws_secret_access_key, endpoint_url):
-        self.aws_access_key_id = aws_access_key_id
-        self.aws_secret_access_key = aws_secret_access_key
-        self.endpoint_url = endpoint_url
-        return self
-    def conn_session(self):
-        assert self.aws_access_key_id not in (None, '')
-        assert self.aws_secret_access_key not in (None, '')
-        self.session = Session(aws_access_key_id=self.aws_access_key_id,
-                               aws_secret_access_key=self.aws_secret_access_key)
-        return self.session
-    def get_client(self):
-        assert self.session is not None
-        self.client = self.session.client('s3', endpoint_url=self.endpoint_url)
-        return self
-    def get_all_buckets(self):
-        """
-        获取所有的桶信息
-        :return:
-        """
-        return self.client.list_buckets()
-    def create_buckets(self, buckets_name):
-        """
-         如果get_client 使用 client 返回
-        {'ResponseMetadata': {'RequestId': '16BC90EED4A433C4', 'HostId': '', 'HTTPStatusCode': 200, 'HTTPHeaders': {'accept-ranges': 'bytes', 'content-length': '0', 'content-security-policy': 'block-all-mixed-content', 'location': '/create1', 'server': 'MinIO', 'strict-transport-security': 'max-age=31536000; includeSubDomains', 'vary': 'Origin, Accept-Encoding', 'x-amz-request-id': '16BC90EED4A433C4', 'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'date': 'Wed, 01 Dec 2021 07:28:39 GMT'}, 'RetryAttempts': 0}, 'Location': '/create1'}
-        """
-        assert buckets_name.find("_") == -1, "新建一个bucket桶(bucket name 中不能有_下划线)"
-        # 新建一个bucket桶(bucket name 中不能有_下划线)
-        return self.client.create_bucket(Bucket=buckets_name)
-    def delete_buckets(self, bucket_name):
-        """
-        删除桶 删除bucket(只能删除空的bucket)
-        :return:
-        """
-        response = self.client.delete_bucket(Bucket=bucket_name)
-        return response
-    def get_bucket(self, bucket_name):
-        raise Exception("无实现方法")
-    def get_all_objs(self, bucket_name, prefix=None, continuation_token=None):
-        """
-        continuation_token: 如果超过1000 需要传第一次获取结果中的 continuation_token
-        response 的结构
-        {'ResponseMetadata': {'RequestId': '1818F447C1E7BA3B', 'HostId': '', 'HTTPStatusCode': 200,
-        'HTTPHeaders': {'accept-ranges': 'bytes', 'content-length': '3182', 'content-security-policy': 'block-all-mixed-content', 'content-type': 'application/xml',
-        'server': 'MinIO', 'strict-transport-security': 'max-age=31536000; includeSubDomains', 'vary': 'Origin, Accept-Encoding', 'x-amz-request-id': '1818F447C1E7BA3B',
-         'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'date': 'Thu, 09 Jan 2025 07:04:05 GMT'}, 'RetryAttempts': 0},
-         'IsTruncated': False, 'Contents':
-         [
-         {'Key': 'zt_file/zt类型样例数据/11_part-00000.gz', 'LastModified': datetime.datetime(2024, 4, 28, 2, 56, 59, 716000, tzinfo=tzutc()), 'ETag': '"e0d635f171bce6a67ad72265e5f9137d-2"',
-          'Size': 18164139, 'StorageClass': 'STANDARD', 'Owner': {'DisplayName': 'minio', 'ID': '02d6176db174dc93cb1b899f7c6078f08654445fe8cf1b6ce98d8855f66bdbf4'}},
-        {'Key': 'zt_file/zt类型样例数据/12_part-00000.gz', 'LastModified': datetime.datetime(2024, 4, 28, 2, 56, 57, 70000, tzinfo=tzutc()), 'ETag': '"f238fe9973a2bc0d3e1562c2938ce897-9"',
-        'Size': 93710911, 'StorageClass': 'STANDARD', 'Owner': {'DisplayName': 'minio', 'ID': '02d6176db174dc93cb1b899f7c6078f08654445fe8cf1b6ce98d8855f66bdbf4'}},
-         ],
-         'Name': 'crawl.dc.cqvip.com', 'Prefix': 'zt_file/zt类型样例数据', 'Delimiter': '',
-         'MaxKeys': 1000, 'EncodingType': 'url', 'KeyCount': 7}
-        """
-        if continuation_token:
-            # 获取桶中以特定前缀开头的所有对象
-            response = self.client.list_objects_v2(Bucket=bucket_name,
-                                                   Prefix=prefix,
-                                                   ContinuationToken=continuation_token)
-        else:
-            # 获取桶中以特定前缀开头的所有对象
-            response = self.client.list_objects_v2(Bucket=bucket_name,
-                                                   Prefix=prefix)
-        object_list = []
-        # 检查是否有对象存在
-        if 'Contents' in response:
-            object_list = [obj['Key'] for obj in response['Contents']]
-        continuation_token = None
-        # 检查是否有更多对象
-        if response.get('IsTruncated'):  # 如果返回结果被截断，说明有更多对象
-            continuation_token = response.get('NextContinuationToken')
-        return object_list, continuation_token
-    def list_prefixes(self, bucket_name, prefix=None, Delimiter="/", continuation_token=None):
-        """
-        获取目录下一层的目录
-        prefix: 注意 这个要以 Delimiter 结尾 比如 Delimiter="/" 那么 prefix="a/"
-        continuation_token: 如果超过1000 需要传第一次获取结果中的 continuation_token
-        return:  ['a/b/', 'a/c/'] 注意 反回的 结果带有prefix 只能返回目录 不能返回文件
-        """
-        if continuation_token:
-            # 获取桶中以特定前缀开头的所有对象
-            response = self.client.list_objects_v2(Bucket=bucket_name,
-                                                   Prefix=prefix,
-                                                   Delimiter=Delimiter,  # 使用斜杠分隔符模拟目录结构
-                                                   ContinuationToken=continuation_token)
-        else:
-            # 获取桶中以特定前缀开头的所有对象
-            response = self.client.list_objects_v2(Bucket=bucket_name,
-                                                   Delimiter=Delimiter,  # 使用斜杠分隔符模拟目录结构
-                                                   Prefix=prefix)
-        object_list = []
-        # 检查是否有对象存在
-        if 'Contents' in response:
-            object_list = [obj['Key'] for obj in response['Contents']]
-        Prefix_list = []
-        # 检查是否有目录存在
-        if 'CommonPrefixes' in response:
-            Prefix_list = [obj['Prefix'] for obj in response['CommonPrefixes']]
-        continuation_token = None
-        # 检查是否有更多对象
-        if response.get('IsTruncated'):  # 如果返回结果被截断，说明有更多对象
-            continuation_token = response.get('NextContinuationToken')
-        return object_list, Prefix_list, continuation_token
-    def get_object_value(self, bucket_name, file_key, encoding='utf-8'):
-        """
-        读取文本数据
-        Returns:
-        """
-        obj = self.client.get_object(Bucket=bucket_name, Key=file_key)
-        body = obj['Body'].read().decode(encoding)
-        return body
-    def put_object(self, bucket_name, key, body):
-        """
-        直接写内容到文件
-        Args:
-            bucket_name:
-            key:
-            body: 需要 编码 .encode('utf-8')
-        Returns:
-        """
-        self.client.put_object(Bucket=bucket_name,
-                               Key=key,
-                               Body=body)
-    def download_file(self, bucket_name, key, local_file):
-        """
-        return: None
-        """
-        result = self.client.download_file(bucket_name, key, local_file)
-        return result
-    def upload_file(self, bucket_name, key, local_file):
-        """
-        # key 桶中的位置 test1/test.pdf
-        :param local_file:  本地文件路径
-        :param bucket_name: 桶名
-        :param key: 远程文件路径
-        :return:
-        """
-        self.client.upload_file(local_file, bucket_name, key)
-    def download_fileobj(self, bucket_name, key, fileobj):
-        """
-        return: None
-        """
-        result = self.client.download_fileobj(bucket_name, key, fileobj)
-        return result
-    def upload_fileobj(self, bucket_name, key, fileobj):
-        # fileobj 字节流
-        self.client.upload_fileobj(fileobj, bucket_name, key)
-    def check_exist_or_file_info(self, bucket_name, key):
-        """
-        检查文件是否存在且能获取文件info
-        {'ResponseMetadata': {'RequestId': '17E6A65A2B299D3B', 'HostId': '', 'HTTPStatusCode': 200, 'HTTPHeaders':
-         {'accept-ranges': 'bytes', 'content-length': '117', 'content-security-policy': 'block-all-mixed-content', 'content-type': 'binary/octet-stream',
-         'etag': '"2237a934f176003e41abf3d733291079"', 'last-modified': 'Thu, 25 Jul 2024 05:49:43 GMT', 'server': 'MinIO',
-         'strict-transport-security': 'max-age=31536000; includeSubDomains', 'vary': 'Origin, Accept-Encoding', 'x-amz-request-id': '17E6A65A2B299D3B',
-          'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'date': 'Mon, 29 Jul 2024 09:53:33 GMT'}, 'RetryAttempts': 0},
-          'AcceptRanges': 'bytes', 'LastModified': datetime.datetime(2024, 7, 25, 5, 49, 43, tzinfo=tzutc()), 'ContentLength': 117, 'ETag': '"2237a934f176003e41abf3d733291079"',
-           'ContentType': 'binary/octet-stream', 'Metadata': {}}
-        """
-        try:
-            obj_info = self.client.head_object(
-                Bucket=bucket_name,
-                Key=key
-            )
-            return obj_info
-        except:
-            return None
-    def get_prefix_count(self, bucket_name, obj_count, prefix, continuation_token=None):
-        """
-        统计 某个目录的文件数据量，由于需要每个目录获取一次 性能很慢
-        """
-        for index in range(10000):
-            obj_list, dir_list, token = self.list_prefixes(bucket_name=bucket_name,
-                                                           prefix=prefix,
-                                                           continuation_token=continuation_token)
-            obj_count = obj_count + len(obj_list)
-            for dir_sub in dir_list:
-                obj_count = self.get_prefix_count(bucket_name, obj_count, dir_sub)
-            if token:
-                continuation_token = token
-            else:
-                break
-        if index > 10000 - 5:
-            raise Exception("循环耗尽，请检查逻辑正确性")
-        return obj_count
+from boto3.session import Session
+class BaseBoto3(object):
+    def __init__(self, aws_access_key_id="", aws_secret_access_key="", endpoint_url=""):
+        self.aws_access_key_id = aws_access_key_id
+        self.aws_secret_access_key = aws_secret_access_key
+        self.endpoint_url = endpoint_url
+        self.session = None
+        self.client = None
+        if self.aws_access_key_id and self.aws_secret_access_key and self.endpoint_url:
+            self.conn_session()
+            self.get_client()
+    def set_key(self, aws_access_key_id, aws_secret_access_key, endpoint_url):
+        self.aws_access_key_id = aws_access_key_id
+        self.aws_secret_access_key = aws_secret_access_key
+        self.endpoint_url = endpoint_url
+        return self
+    def conn_session(self):
+        assert self.aws_access_key_id not in (None, '')
+        assert self.aws_secret_access_key not in (None, '')
+        self.session = Session(aws_access_key_id=self.aws_access_key_id,
+                               aws_secret_access_key=self.aws_secret_access_key)
+        return self.session
+    def get_client(self):
+        assert self.session is not None
+        self.client = self.session.client('s3', endpoint_url=self.endpoint_url)
+        return self
+    def get_all_buckets(self):
+        """
+        获取所有的桶信息
+        :return:
+        """
+        return self.client.list_buckets()
+    def create_buckets(self, buckets_name):
+        """
+         如果get_client 使用 client 返回
+        {'ResponseMetadata': {'RequestId': '16BC90EED4A433C4', 'HostId': '', 'HTTPStatusCode': 200, 'HTTPHeaders': {'accept-ranges': 'bytes', 'content-length': '0', 'content-security-policy': 'block-all-mixed-content', 'location': '/create1', 'server': 'MinIO', 'strict-transport-security': 'max-age=31536000; includeSubDomains', 'vary': 'Origin, Accept-Encoding', 'x-amz-request-id': '16BC90EED4A433C4', 'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'date': 'Wed, 01 Dec 2021 07:28:39 GMT'}, 'RetryAttempts': 0}, 'Location': '/create1'}
+        """
+        assert buckets_name.find("_") == -1, "新建一个bucket桶(bucket name 中不能有_下划线)"
+        # 新建一个bucket桶(bucket name 中不能有_下划线)
+        return self.client.create_bucket(Bucket=buckets_name)
+    def delete_buckets(self, bucket_name):
+        """
+        删除桶 删除bucket(只能删除空的bucket)
+        :return:
+        """
+        response = self.client.delete_bucket(Bucket=bucket_name)
+        return response
+    def get_bucket(self, bucket_name):
+        raise Exception("无实现方法")
+    def get_all_objs(self, bucket_name, prefix=None, continuation_token=None):
+        """
+        continuation_token: 如果超过1000 需要传第一次获取结果中的 continuation_token
+        response 的结构
+        {'ResponseMetadata': {'RequestId': '1818F447C1E7BA3B', 'HostId': '', 'HTTPStatusCode': 200,
+        'HTTPHeaders': {'accept-ranges': 'bytes', 'content-length': '3182', 'content-security-policy': 'block-all-mixed-content', 'content-type': 'application/xml',
+        'server': 'MinIO', 'strict-transport-security': 'max-age=31536000; includeSubDomains', 'vary': 'Origin, Accept-Encoding', 'x-amz-request-id': '1818F447C1E7BA3B',
+         'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'date': 'Thu, 09 Jan 2025 07:04:05 GMT'}, 'RetryAttempts': 0},
+         'IsTruncated': False, 'Contents':
+         [
+         {'Key': 'zt_file/zt类型样例数据/11_part-00000.gz', 'LastModified': datetime.datetime(2024, 4, 28, 2, 56, 59, 716000, tzinfo=tzutc()), 'ETag': '"e0d635f171bce6a67ad72265e5f9137d-2"',
+          'Size': 18164139, 'StorageClass': 'STANDARD', 'Owner': {'DisplayName': 'minio', 'ID': '02d6176db174dc93cb1b899f7c6078f08654445fe8cf1b6ce98d8855f66bdbf4'}},
+        {'Key': 'zt_file/zt类型样例数据/12_part-00000.gz', 'LastModified': datetime.datetime(2024, 4, 28, 2, 56, 57, 70000, tzinfo=tzutc()), 'ETag': '"f238fe9973a2bc0d3e1562c2938ce897-9"',
+        'Size': 93710911, 'StorageClass': 'STANDARD', 'Owner': {'DisplayName': 'minio', 'ID': '02d6176db174dc93cb1b899f7c6078f08654445fe8cf1b6ce98d8855f66bdbf4'}},
+         ],
+         'Name': 'crawl.dc.cqvip.com', 'Prefix': 'zt_file/zt类型样例数据', 'Delimiter': '',
+         'MaxKeys': 1000, 'EncodingType': 'url', 'KeyCount': 7}
+        """
+        if continuation_token:
+            # 获取桶中以特定前缀开头的所有对象
+            response = self.client.list_objects_v2(Bucket=bucket_name,
+                                                   Prefix=prefix,
+                                                   ContinuationToken=continuation_token)
+        else:
+            # 获取桶中以特定前缀开头的所有对象
+            response = self.client.list_objects_v2(Bucket=bucket_name,
+                                                   Prefix=prefix)
+        object_list = []
+        # 检查是否有对象存在
+        if 'Contents' in response:
+            object_list = [obj['Key'] for obj in response['Contents']]
+        continuation_token = None
+        # 检查是否有更多对象
+        if response.get('IsTruncated'):  # 如果返回结果被截断，说明有更多对象
+            continuation_token = response.get('NextContinuationToken')
+        return object_list, continuation_token
+    def list_prefixes(self, bucket_name, prefix=None, Delimiter="/", continuation_token=None):
+        """
+        获取目录下一层的目录
+        prefix: 注意 这个要以 Delimiter 结尾 比如 Delimiter="/" 那么 prefix="a/"
+        continuation_token: 如果超过1000 需要传第一次获取结果中的 continuation_token
+        return:  ['a/b/', 'a/c/'] 注意 反回的 结果带有prefix 只能返回目录 不能返回文件
+        """
+        if continuation_token:
+            # 获取桶中以特定前缀开头的所有对象
+            response = self.client.list_objects_v2(Bucket=bucket_name,
+                                                   Prefix=prefix,
+                                                   Delimiter=Delimiter,  # 使用斜杠分隔符模拟目录结构
+                                                   ContinuationToken=continuation_token)
+        else:
+            # 获取桶中以特定前缀开头的所有对象
+            response = self.client.list_objects_v2(Bucket=bucket_name,
+                                                   Delimiter=Delimiter,  # 使用斜杠分隔符模拟目录结构
+                                                   Prefix=prefix)
+        object_list = []
+        # 检查是否有对象存在
+        if 'Contents' in response:
+            object_list = [obj['Key'] for obj in response['Contents']]
+        Prefix_list = []
+        # 检查是否有目录存在
+        if 'CommonPrefixes' in response:
+            Prefix_list = [obj['Prefix'] for obj in response['CommonPrefixes']]
+        continuation_token = None
+        # 检查是否有更多对象
+        if response.get('IsTruncated'):  # 如果返回结果被截断，说明有更多对象
+            continuation_token = response.get('NextContinuationToken')
+        return object_list, Prefix_list, continuation_token
+    def get_object_value(self, bucket_name, file_key, encoding='utf-8'):
+        """
+        读取文本数据
+        Returns:
+        """
+        obj = self.client.get_object(Bucket=bucket_name, Key=file_key)
+        body = obj['Body'].read().decode(encoding)
+        return body
+    def put_object(self, bucket_name, key, body):
+        """
+        直接写内容到文件
+        Args:
+            bucket_name:
+            key:
+            body: 需要 编码 .encode('utf-8')
+        Returns:
+        """
+        self.client.put_object(Bucket=bucket_name,
+                               Key=key,
+                               Body=body)
+    def download_file(self, bucket_name, key, local_file):
+        """
+        return: None
+        """
+        result = self.client.download_file(bucket_name, key, local_file)
+        return result
+    def upload_file(self, bucket_name, key, local_file):
+        """
+        # key 桶中的位置 test1/test.pdf
+        :param local_file:  本地文件路径
+        :param bucket_name: 桶名
+        :param key: 远程文件路径
+        :return:
+        """
+        self.client.upload_file(local_file, bucket_name, key)
+    def download_fileobj(self, bucket_name, key, fileobj):
+        """
+        return: None
+        """
+        result = self.client.download_fileobj(bucket_name, key, fileobj)
+        return result
+    def upload_fileobj(self, bucket_name, key, fileobj):
+        # fileobj 字节流
+        self.client.upload_fileobj(fileobj, bucket_name, key)
+    def check_exist_or_file_info(self, bucket_name, key):
+        """
+        检查文件是否存在且能获取文件info
+        {'ResponseMetadata': {'RequestId': '17E6A65A2B299D3B', 'HostId': '', 'HTTPStatusCode': 200, 'HTTPHeaders':
+         {'accept-ranges': 'bytes', 'content-length': '117', 'content-security-policy': 'block-all-mixed-content', 'content-type': 'binary/octet-stream',
+         'etag': '"2237a934f176003e41abf3d733291079"', 'last-modified': 'Thu, 25 Jul 2024 05:49:43 GMT', 'server': 'MinIO',
+         'strict-transport-security': 'max-age=31536000; includeSubDomains', 'vary': 'Origin, Accept-Encoding', 'x-amz-request-id': '17E6A65A2B299D3B',
+          'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'date': 'Mon, 29 Jul 2024 09:53:33 GMT'}, 'RetryAttempts': 0},
+          'AcceptRanges': 'bytes', 'LastModified': datetime.datetime(2024, 7, 25, 5, 49, 43, tzinfo=tzutc()), 'ContentLength': 117, 'ETag': '"2237a934f176003e41abf3d733291079"',
+           'ContentType': 'binary/octet-stream', 'Metadata': {}}
+        """
+        try:
+            obj_info = self.client.head_object(
+                Bucket=bucket_name,
+                Key=key
+            )
+            return obj_info
+        except:
+            return None
+    def get_prefix_count(self, bucket_name, obj_count, prefix, continuation_token=None):
+        """
+        统计 某个目录的文件数据量，由于需要每个目录获取一次 性能很慢
+        """
+        for index in range(10000):
+            obj_list, dir_list, token = self.list_prefixes(bucket_name=bucket_name,
+                                                           prefix=prefix,
+                                                           continuation_token=continuation_token)
+            obj_count = obj_count + len(obj_list)
+            for dir_sub in dir_list:
+                obj_count = self.get_prefix_count(bucket_name, obj_count, dir_sub)
+            if token:
+                continuation_token = token
+            else:
+                break
+        if index > 10000 - 5:
+            raise Exception("循环耗尽，请检查逻辑正确性")
+        return obj_count

re_common/v2/baselibrary/tools/WeChatRobot.py CHANGED Viewed

@@ -1,79 +1,95 @@
-import sqlite3
-import requests
-import pandas as pd
-import os
-import json
-import traceback
-# 发送消息到企业微信机器人
-# vx_key: string类型，自己的企业微信机器人的key
-# s:string类型，要发送的消息
-def send_vx(vx_key, s):
-    vx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
-    headers = {"Content-Type": "text/plain"}
-    data = {
-        "msgtype": "text",
-        "text": {
-            "content": s,
-        }
-    }
-    try:
-        requests.post(url=vx_url, headers=headers, json=data, timeout=30)
-    except:
-        send_vx(vx_key, str(traceback.format_exc()))
-# 发送文件到企业微信机器人
-# vx_key: string类型，自己的企业微信机器人的key
-# file_path: string类型，文件地址
-def post_file(vx_key, file_path):
-    id_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/upload_media?key=' + vx_key + '&type=file'
-    wx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
-    data = {'file': open(file_path, 'rb')}
-    response = requests.post(url=id_url, files=data)
-    json_res = response.json()
-    media_id = json_res['media_id']
-    data = {"msgtype": "file",
-            "file": {"media_id": media_id}
-            }
-    try:
-        requests.post(url=wx_url, json=data)
-    except:
-        send_vx(send_vx, str(traceback.format_exc()))
-# data: dataframe|string|dict|list|tuple|array
-# file_name: 带后缀的完整文件名
-# file_type: 文件类型，包括csv、excel、txt、json、sql
-def file_to_vx(vx_key, data, file_name):
-    file_type = file_name.split('.')[-1]
-    if file_type == "xls" or file_type == "xlsx":
-        file_type = "excel"
-    current_dir = os.getcwd()
-    temp_dir = os.path.join(os.getcwd(), "tmp")
-    if os.path.exists(temp_dir):
-        pass
-    else:
-        os.makedirs(temp_dir)
-    file_path = current_dir + "/" + file_name
-    try:
-        if isinstance(data, pd.DataFrame) and file_type != "txt":
-            if file_type == "db3":
-                conn = sqlite3.connect(file_path)
-                data.to_sql('base_table', conn, if_exists='replace', index=False)
-                post_file(vx_key, file_path)
-            else:
-                code_str = "data.to_" + file_type + "(file_path,index=False)"
-                eval(code_str)
-                post_file(vx_key, file_path)
-            os.system('rm ' + file_path + '')
-        else:
-            if isinstance(data, dict):
-                data_str = json.dumps(data, ensure_ascii=False)
-            else:
-                data_str = str(data)
-            with open(file_path, 'w', encoding='utf-8') as f:
-                f.write(data_str)
-    except:
-        send_vx(vx_key, str(traceback.format_exc()))
+import sqlite3
+import requests
+import pandas as pd
+import os
+import json
+import traceback
+# c1d3a814-1a02-4bbd-b5c2-f756fef92cb8: b层机器人消息群-非聊天 的 pythonspark
+# 013547da-3d78-4a7f-b4a7-e668b192c293: b层机器人消息群-非聊天 的 数仓B层服务端部署通知
+# 发送消息到企业微信机器人
+# vx_key: string类型，自己的企业微信机器人的key
+# s:string类型，要发送的消息
+def send_vx(vx_key, s, i=0):
+    vx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
+    headers = {"Content-Type": "text/plain"}
+    data = {
+        "msgtype": "text",
+        "text": {
+            "content": s,
+        }
+    }
+    if i > 3:
+        raise Exception(str(traceback.format_exc()))
+    try:
+        requests.post(url=vx_url, headers=headers, json=data, timeout=30)
+    except:
+        i = i + 1
+        send_vx(vx_key, str(traceback.format_exc()), i)
+# 发送文件到企业微信机器人
+# vx_key: string类型，自己的企业微信机器人的key
+# file_path: string类型，文件地址
+def post_file(vx_key, file_path):
+    id_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/upload_media?key=' + vx_key + '&type=file'
+    wx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
+    data = {'file': open(file_path, 'rb')}
+    response = requests.post(url=id_url, files=data)
+    json_res = response.json()
+    media_id = json_res['media_id']
+    data = {"msgtype": "file",
+            "file": {"media_id": media_id}
+            }
+    try:
+        requests.post(url=wx_url, json=data)
+    except:
+        send_vx(send_vx, str(traceback.format_exc()))
+# data: dataframe|string|dict|list|tuple|array
+# file_name: 带后缀的完整文件名
+# file_type: 文件类型，包括csv、excel、txt、json、sql
+def file_to_vx(vx_key, data, file_name):
+    file_type = file_name.split('.')[-1]
+    if file_type == "xls" or file_type == "xlsx":
+        file_type = "excel"
+    current_dir = os.getcwd()
+    temp_dir = os.path.join(os.getcwd(), "tmp")
+    if os.path.exists(temp_dir):
+        pass
+    else:
+        os.makedirs(temp_dir)
+    file_path = current_dir + "/" + file_name
+    try:
+        if isinstance(data, pd.DataFrame) and file_type != "txt":
+            if file_type == "db3":
+                conn = sqlite3.connect(file_path)
+                data.to_sql('base_table', conn, if_exists='replace', index=False)
+                post_file(vx_key, file_path)
+            else:
+                code_str = "data.to_" + file_type + "(file_path,index=False)"
+                eval(code_str)
+                post_file(vx_key, file_path)
+            os.system('rm ' + file_path + '')
+        else:
+            if isinstance(data, dict):
+                data_str = json.dumps(data, ensure_ascii=False)
+            elif isinstance(data, list):
+                data_str = ""
+                for i in data:
+                    if isinstance(i, dict):
+                        data_str = data_str + json.dumps(i, ensure_ascii=False) + "\n"
+                    else:
+                        data_str = data_str + str(i) + "\n"
+            else:
+                data_str = str(data)
+            print(data_str[:100])
+            with open(file_path, 'w', encoding='utf-8') as f:
+                f.write(data_str)
+            post_file(vx_key, file_path)
+    except:
+        send_vx(vx_key, str(traceback.format_exc()))
+    os.system('rm -r' + temp_dir + '')

re-common 10.0.22__py3-none-any.whl → 10.0.24__py3-none-any.whl

re-common 10.0.22py3-none-any.whl → 10.0.24py3-none-any.whl