PyPI - re-common - Versions diffs - 10.0.37__py3-none-any.whl → 10.0.39__py3-none-any.whl - Mend

re-common 10.0.37py3-none-any.whl → 10.0.39py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (217) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +219 -219
re_common/v2/baselibrary/business_utils/baseencodeid.py +100 -100
re_common/v2/baselibrary/business_utils/full_doi_path.py +116 -116
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -6
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/helpers/search_packge/NearestNeighbors_test.py +105 -105
re_common/v2/baselibrary/helpers/search_packge/fit_text_match.py +253 -253
re_common/v2/baselibrary/helpers/search_packge/scikit_learn_text_matcher.py +260 -260
re_common/v2/baselibrary/helpers/search_packge/test.py +1 -1
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -95
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/concurrency.py +35 -35
re_common/v2/baselibrary/tools/data_processer/base.py +53 -53
re_common/v2/baselibrary/tools/data_processer/data_processer.py +508 -508
re_common/v2/baselibrary/tools/data_processer/data_reader.py +187 -187
re_common/v2/baselibrary/tools/data_processer/data_writer.py +38 -38
re_common/v2/baselibrary/tools/dict_tools.py +44 -44
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_base_processor.py +204 -204
re_common/v2/baselibrary/tools/hdfs_bulk_processor.py +67 -67
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/hdfs_line_processor.py +74 -74
re_common/v2/baselibrary/tools/list_tools.py +69 -69
re_common/v2/baselibrary/tools/resume_tracker.py +94 -94
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/api_net_utils.py +270 -270
re_common/v2/baselibrary/utils/author_smi.py +361 -361
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +163 -163
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +77 -77
re_common/v2/baselibrary/utils/db.py +156 -156
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +186 -186
re_common/v2/baselibrary/utils/string_clear.py +246 -246
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +271 -278
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/LICENSE +201 -201
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/METADATA +16 -16
re_common-10.0.39.dist-info/RECORD +248 -0
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/WHEEL +1 -1
re_common-10.0.37.dist-info/RECORD +0 -248
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/tools/WeChatRobot.py CHANGED Viewed

@@ -1,95 +1,95 @@
-import sqlite3
-import requests
-import pandas as pd
-import os
-import json
-import traceback
-# c1d3a814-1a02-4bbd-b5c2-f756fef92cb8: b层机器人消息群-非聊天 的 pythonspark
-# 013547da-3d78-4a7f-b4a7-e668b192c293: b层机器人消息群-非聊天 的 数仓B层服务端部署通知
-# 发送消息到企业微信机器人
-# vx_key: string类型，自己的企业微信机器人的key
-# s:string类型，要发送的消息
-def send_vx(vx_key, s, i=0):
-    vx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
-    headers = {"Content-Type": "text/plain"}
-    data = {
-        "msgtype": "text",
-        "text": {
-            "content": s,
-        }
-    }
-    if i > 3:
-        raise Exception(str(traceback.format_exc()))
-    try:
-        requests.post(url=vx_url, headers=headers, json=data, timeout=30)
-    except:
-        i = i + 1
-        send_vx(vx_key, str(traceback.format_exc()), i)
-# 发送文件到企业微信机器人
-# vx_key: string类型，自己的企业微信机器人的key
-# file_path: string类型，文件地址
-def post_file(vx_key, file_path):
-    id_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/upload_media?key=' + vx_key + '&type=file'
-    wx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
-    data = {'file': open(file_path, 'rb')}
-    response = requests.post(url=id_url, files=data)
-    json_res = response.json()
-    media_id = json_res['media_id']
-    data = {"msgtype": "file",
-            "file": {"media_id": media_id}
-            }
-    try:
-        requests.post(url=wx_url, json=data)
-    except:
-        send_vx(send_vx, str(traceback.format_exc()))
-# data: dataframe|string|dict|list|tuple|array
-# file_name: 带后缀的完整文件名
-# file_type: 文件类型，包括csv、excel、txt、json、sql
-def file_to_vx(vx_key, data, file_name):
-    file_type = file_name.split('.')[-1]
-    if file_type == "xls" or file_type == "xlsx":
-        file_type = "excel"
-    current_dir = os.getcwd()
-    temp_dir = os.path.join(os.getcwd(), "tmp")
-    if os.path.exists(temp_dir):
-        pass
-    else:
-        os.makedirs(temp_dir)
-    file_path = current_dir + "/" + file_name
-    try:
-        if isinstance(data, pd.DataFrame) and file_type != "txt":
-            if file_type == "db3":
-                conn = sqlite3.connect(file_path)
-                data.to_sql('base_table', conn, if_exists='replace', index=False)
-                post_file(vx_key, file_path)
-            else:
-                code_str = "data.to_" + file_type + "(file_path,index=False)"
-                eval(code_str)
-                post_file(vx_key, file_path)
-            os.system('rm ' + file_path + '')
-        else:
-            if isinstance(data, dict):
-                data_str = json.dumps(data, ensure_ascii=False)
-            elif isinstance(data, list):
-                data_str = ""
-                for i in data:
-                    if isinstance(i, dict):
-                        data_str = data_str + json.dumps(i, ensure_ascii=False) + "\n"
-                    else:
-                        data_str = data_str + str(i) + "\n"
-            else:
-                data_str = str(data)
-            print(data_str[:100])
-            with open(file_path, 'w', encoding='utf-8') as f:
-                f.write(data_str)
-            post_file(vx_key, file_path)
-    except:
-        send_vx(vx_key, str(traceback.format_exc()))
-    os.system('rm -r' + temp_dir + '')
+import sqlite3
+import requests
+import pandas as pd
+import os
+import json
+import traceback
+# c1d3a814-1a02-4bbd-b5c2-f756fef92cb8: b层机器人消息群-非聊天 的 pythonspark
+# 013547da-3d78-4a7f-b4a7-e668b192c293: b层机器人消息群-非聊天 的 数仓B层服务端部署通知
+# 发送消息到企业微信机器人
+# vx_key: string类型，自己的企业微信机器人的key
+# s:string类型，要发送的消息
+def send_vx(vx_key, s, i=0):
+    vx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
+    headers = {"Content-Type": "text/plain"}
+    data = {
+        "msgtype": "text",
+        "text": {
+            "content": s,
+        }
+    }
+    if i > 3:
+        raise Exception(str(traceback.format_exc()))
+    try:
+        requests.post(url=vx_url, headers=headers, json=data, timeout=30)
+    except:
+        i = i + 1
+        send_vx(vx_key, str(traceback.format_exc()), i)
+# 发送文件到企业微信机器人
+# vx_key: string类型，自己的企业微信机器人的key
+# file_path: string类型，文件地址
+def post_file(vx_key, file_path):
+    id_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/upload_media?key=' + vx_key + '&type=file'
+    wx_url = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=' + vx_key
+    data = {'file': open(file_path, 'rb')}
+    response = requests.post(url=id_url, files=data)
+    json_res = response.json()
+    media_id = json_res['media_id']
+    data = {"msgtype": "file",
+            "file": {"media_id": media_id}
+            }
+    try:
+        requests.post(url=wx_url, json=data)
+    except:
+        send_vx(send_vx, str(traceback.format_exc()))
+# data: dataframe|string|dict|list|tuple|array
+# file_name: 带后缀的完整文件名
+# file_type: 文件类型，包括csv、excel、txt、json、sql
+def file_to_vx(vx_key, data, file_name):
+    file_type = file_name.split('.')[-1]
+    if file_type == "xls" or file_type == "xlsx":
+        file_type = "excel"
+    current_dir = os.getcwd()
+    temp_dir = os.path.join(os.getcwd(), "tmp")
+    if os.path.exists(temp_dir):
+        pass
+    else:
+        os.makedirs(temp_dir)
+    file_path = current_dir + "/" + file_name
+    try:
+        if isinstance(data, pd.DataFrame) and file_type != "txt":
+            if file_type == "db3":
+                conn = sqlite3.connect(file_path)
+                data.to_sql('base_table', conn, if_exists='replace', index=False)
+                post_file(vx_key, file_path)
+            else:
+                code_str = "data.to_" + file_type + "(file_path,index=False)"
+                eval(code_str)
+                post_file(vx_key, file_path)
+            os.system('rm ' + file_path + '')
+        else:
+            if isinstance(data, dict):
+                data_str = json.dumps(data, ensure_ascii=False)
+            elif isinstance(data, list):
+                data_str = ""
+                for i in data:
+                    if isinstance(i, dict):
+                        data_str = data_str + json.dumps(i, ensure_ascii=False) + "\n"
+                    else:
+                        data_str = data_str + str(i) + "\n"
+            else:
+                data_str = str(data)
+            print(data_str[:100])
+            with open(file_path, 'w', encoding='utf-8') as f:
+                f.write(data_str)
+            post_file(vx_key, file_path)
+    except:
+        send_vx(vx_key, str(traceback.format_exc()))
+    os.system('rm -r' + temp_dir + '')

re_common/v2/baselibrary/tools/ac_ahocorasick.py CHANGED Viewed

@@ -1,76 +1,76 @@
-import pickle
-import ahocorasick
-class ACTool(object):
-    def __init__(self):
-        self.automaton = ahocorasick.Automaton()
-    def add_word(self, key, value, overwrite=True) -> bool:
-        """
-        为 AC 机添加数据,默认情况下 key重复直接覆盖
-        :param key: 要添加的关键字
-        :param value: 对应的值
-        :param overwrite: 是否覆盖已有的 key，默认为 True
-        :return: 是否成功添加或覆盖
-        """
-        if key in self.automaton:  # 检查 key 是否已存在
-            if overwrite:  # 如果允许覆盖
-                self.automaton.add_word(key, value)
-                return True
-            else:  # 不允许覆盖，跳过
-                return False
-        else:  # key 不存在，直接添加
-            self.automaton.add_word(key, value)
-            return True
-    def is_exists_key(self, key) -> bool:
-        # 是否存在key
-        if self.automaton.exists(key):
-            return True
-        else:
-            return False
-    def make_automaton(self):
-        """
-        添加完词后需要构建
-        """
-        self.automaton.make_automaton()
-    def iter(self, key):
-        """
-        结果为可迭代对象 可通过list 转换 [(end_index, value)]
-        tool.add_word("he", "word1")
-        tool.add_word("hello", "word2")
-        # 在字符串中查找匹配
-        input_string = "hello world"
-        matches = list(tool.automaton.iter(input_string))
-        print(matches)  # [(1, 'word1'), (4, 'word2')]
-        (1, 'word1'):
-        end_index = 1: 表示匹配的关键字 "he" 在 input_string = "hello world" 中的结束位置是索引 1（即字符串 "he" 的最后一个字符 'e' 的位置）。
-        "hello world" 的索引：h(0)e(1)l(2)l(3)o(4) (5)w(6)o(7)r(8)l(9)d(10)。
-        value = 'word1': 表示匹配的关键字 "he" 对应的值是 "word1"。
-        (4, 'word2'):
-        end_index = 4: 表示匹配的关键字 "hello" 在 input_string = "hello world" 中的结束位置是索引 4（即字符串 "hello" 的最后一个字符 'o' 的位置）。
-        value = 'word2': 表示匹配的关键字 "hello" 对应的值是 "word2"。
-        注意: 结果只会返回 value 不会返回 key，如果需要key  请将key 组合到结果中
-        """
-        result_iter = self.automaton.iter(key)  # ahocorasick.AutomatonSearchIter
-        return result_iter
-    def save(self,local_temp_path):
-        """
-        将构建好的ac自动机保存到本地
-        """
-        self.automaton.save(local_temp_path,pickle.dumps)
-    def load(self,local_temp_path):
-        """
-        加载已经构建好的ac自动机
-        """
+import pickle
+import ahocorasick
+class ACTool(object):
+    def __init__(self):
+        self.automaton = ahocorasick.Automaton()
+    def add_word(self, key, value, overwrite=True) -> bool:
+        """
+        为 AC 机添加数据,默认情况下 key重复直接覆盖
+        :param key: 要添加的关键字
+        :param value: 对应的值
+        :param overwrite: 是否覆盖已有的 key，默认为 True
+        :return: 是否成功添加或覆盖
+        """
+        if key in self.automaton:  # 检查 key 是否已存在
+            if overwrite:  # 如果允许覆盖
+                self.automaton.add_word(key, value)
+                return True
+            else:  # 不允许覆盖，跳过
+                return False
+        else:  # key 不存在，直接添加
+            self.automaton.add_word(key, value)
+            return True
+    def is_exists_key(self, key) -> bool:
+        # 是否存在key
+        if self.automaton.exists(key):
+            return True
+        else:
+            return False
+    def make_automaton(self):
+        """
+        添加完词后需要构建
+        """
+        self.automaton.make_automaton()
+    def iter(self, key):
+        """
+        结果为可迭代对象 可通过list 转换 [(end_index, value)]
+        tool.add_word("he", "word1")
+        tool.add_word("hello", "word2")
+        # 在字符串中查找匹配
+        input_string = "hello world"
+        matches = list(tool.automaton.iter(input_string))
+        print(matches)  # [(1, 'word1'), (4, 'word2')]
+        (1, 'word1'):
+        end_index = 1: 表示匹配的关键字 "he" 在 input_string = "hello world" 中的结束位置是索引 1（即字符串 "he" 的最后一个字符 'e' 的位置）。
+        "hello world" 的索引：h(0)e(1)l(2)l(3)o(4) (5)w(6)o(7)r(8)l(9)d(10)。
+        value = 'word1': 表示匹配的关键字 "he" 对应的值是 "word1"。
+        (4, 'word2'):
+        end_index = 4: 表示匹配的关键字 "hello" 在 input_string = "hello world" 中的结束位置是索引 4（即字符串 "hello" 的最后一个字符 'o' 的位置）。
+        value = 'word2': 表示匹配的关键字 "hello" 对应的值是 "word2"。
+        注意: 结果只会返回 value 不会返回 key，如果需要key  请将key 组合到结果中
+        """
+        result_iter = self.automaton.iter(key)  # ahocorasick.AutomatonSearchIter
+        return result_iter
+    def save(self,local_temp_path):
+        """
+        将构建好的ac自动机保存到本地
+        """
+        self.automaton.save(local_temp_path,pickle.dumps)
+    def load(self,local_temp_path):
+        """
+        加载已经构建好的ac自动机
+        """
         self.automaton=ahocorasick.load(local_temp_path, pickle.loads)

re_common/v2/baselibrary/tools/concurrency.py CHANGED Viewed

@@ -1,35 +1,35 @@
-import asyncio
-from asyncio import Semaphore
-from typing import Awaitable, List, Iterable, Callable
-class AsyncTaskPool:
-    def __init__(self, max_workers: int = 10):
-        """
-        Args:
-            max_workers: 任务最大并发数
-        """
-        self.semaphore = Semaphore(max_workers)
-    async def _run_task(self, task: Awaitable):
-        async with self.semaphore:
-            return await task
-    async def run(self, tasks: List[Awaitable]):
-        return await asyncio.gather(*[self._run_task(task) for task in tasks])
-    async def map(self, fn: Callable[..., Awaitable], *iterables: Iterable):
-        tasks = [fn(*args) for args in zip(*iterables)]
-        return await self.run(tasks)
-if __name__ == "__main__":
-    async def test(x, y):
-        await asyncio.sleep(1)
-        print(x, y)
-        return x + y
-    result = asyncio.run(AsyncTaskPool(2).map(test, [1, 2, 3, 4], [5, 6, 7, 8]))
-    print(result)
+import asyncio
+from asyncio import Semaphore
+from typing import Awaitable, List, Iterable, Callable
+class AsyncTaskPool:
+    def __init__(self, max_workers: int = 10):
+        """
+        Args:
+            max_workers: 任务最大并发数
+        """
+        self.semaphore = Semaphore(max_workers)
+    async def _run_task(self, task: Awaitable):
+        async with self.semaphore:
+            return await task
+    async def run(self, tasks: List[Awaitable]):
+        return await asyncio.gather(*[self._run_task(task) for task in tasks])
+    async def map(self, fn: Callable[..., Awaitable], *iterables: Iterable):
+        tasks = [fn(*args) for args in zip(*iterables)]
+        return await self.run(tasks)
+if __name__ == "__main__":
+    async def test(x, y):
+        await asyncio.sleep(1)
+        print(x, y)
+        return x + y
+    result = asyncio.run(AsyncTaskPool(2).map(test, [1, 2, 3, 4], [5, 6, 7, 8]))
+    print(result)

re_common/v2/baselibrary/tools/data_processer/base.py CHANGED Viewed

@@ -1,53 +1,53 @@
-from abc import ABC, abstractmethod
-from typing import List, Generator
-class BaseFileReader(ABC):
-    def __init__(self, batch_size: int = 10000):
-        self.batch_size = batch_size
-        self.read_model = 1
-    @abstractmethod
-    def list_files(self, path: str) -> List[str]:
-        """列出路径下所有目标文件"""
-        pass
-    @abstractmethod
-    def count_lines(self, file_path: str) -> int:
-        """统计文件行数"""
-        pass
-    @abstractmethod
-    def read_lines(self, file_path: str) -> Generator[List[str], None, None]:
-        """读取文件内容，返回批量数据"""
-        pass
-    @abstractmethod
-    def read_all(self, file_path: str) -> List[List[str]]:
-        """读取整个文件，默认按1000行分批"""
-        return [line for line in self.read_lines(file_path)]
-    def read_select(self, file_path: str) -> Generator[List[str], None, None]:
-        if self.read_model == 1:
-            for batch_data in self.read_lines(file_path):
-                yield batch_data
-        elif self.read_model == 2:
-            for batch_data in self.read_all(file_path):
-                yield batch_data
-        else:
-            raise Exception("模式选择错误")
-class BaseFileWriter(ABC):
-    def __init__(self, file_path: str, compress: bool = True, overwrite: bool = True, encoding: str = "utf-8"):
-        self.file_path = file_path
-        self.compress = compress
-        self.encoding = encoding
-        self.overwrite = overwrite
-    @abstractmethod
-    def write_lines(self, lines: List[str], file_path: str):
-        """写入多行文本到文件，支持压缩"""
-        pass
+from abc import ABC, abstractmethod
+from typing import List, Generator
+class BaseFileReader(ABC):
+    def __init__(self, batch_size: int = 10000):
+        self.batch_size = batch_size
+        self.read_model = 1
+    @abstractmethod
+    def list_files(self, path: str) -> List[str]:
+        """列出路径下所有目标文件"""
+        pass
+    @abstractmethod
+    def count_lines(self, file_path: str) -> int:
+        """统计文件行数"""
+        pass
+    @abstractmethod
+    def read_lines(self, file_path: str) -> Generator[List[str], None, None]:
+        """读取文件内容，返回批量数据"""
+        pass
+    @abstractmethod
+    def read_all(self, file_path: str) -> List[List[str]]:
+        """读取整个文件，默认按1000行分批"""
+        return [line for line in self.read_lines(file_path)]
+    def read_select(self, file_path: str) -> Generator[List[str], None, None]:
+        if self.read_model == 1:
+            for batch_data in self.read_lines(file_path):
+                yield batch_data
+        elif self.read_model == 2:
+            for batch_data in self.read_all(file_path):
+                yield batch_data
+        else:
+            raise Exception("模式选择错误")
+class BaseFileWriter(ABC):
+    def __init__(self, file_path: str, compress: bool = True, overwrite: bool = True, encoding: str = "utf-8"):
+        self.file_path = file_path
+        self.compress = compress
+        self.encoding = encoding
+        self.overwrite = overwrite
+    @abstractmethod
+    def write_lines(self, lines: List[str], file_path: str):
+        """写入多行文本到文件，支持压缩"""
+        pass

re-common 10.0.37__py3-none-any.whl → 10.0.39__py3-none-any.whl

re-common 10.0.37py3-none-any.whl → 10.0.39py3-none-any.whl