PyPI - re-common - Versions diffs - 10.0.37__py3-none-any.whl → 10.0.39__py3-none-any.whl - Mend

re-common 10.0.37py3-none-any.whl → 10.0.39py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (217) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +219 -219
re_common/v2/baselibrary/business_utils/baseencodeid.py +100 -100
re_common/v2/baselibrary/business_utils/full_doi_path.py +116 -116
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -6
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/helpers/search_packge/NearestNeighbors_test.py +105 -105
re_common/v2/baselibrary/helpers/search_packge/fit_text_match.py +253 -253
re_common/v2/baselibrary/helpers/search_packge/scikit_learn_text_matcher.py +260 -260
re_common/v2/baselibrary/helpers/search_packge/test.py +1 -1
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -95
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/concurrency.py +35 -35
re_common/v2/baselibrary/tools/data_processer/base.py +53 -53
re_common/v2/baselibrary/tools/data_processer/data_processer.py +508 -508
re_common/v2/baselibrary/tools/data_processer/data_reader.py +187 -187
re_common/v2/baselibrary/tools/data_processer/data_writer.py +38 -38
re_common/v2/baselibrary/tools/dict_tools.py +44 -44
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_base_processor.py +204 -204
re_common/v2/baselibrary/tools/hdfs_bulk_processor.py +67 -67
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/hdfs_line_processor.py +74 -74
re_common/v2/baselibrary/tools/list_tools.py +69 -69
re_common/v2/baselibrary/tools/resume_tracker.py +94 -94
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/api_net_utils.py +270 -270
re_common/v2/baselibrary/utils/author_smi.py +361 -361
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +163 -163
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +77 -77
re_common/v2/baselibrary/utils/db.py +156 -156
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +186 -186
re_common/v2/baselibrary/utils/string_clear.py +246 -246
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +271 -278
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/LICENSE +201 -201
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/METADATA +16 -16
re_common-10.0.39.dist-info/RECORD +248 -0
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/WHEEL +1 -1
re_common-10.0.37.dist-info/RECORD +0 -248
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/business_utils/full_doi_path.py CHANGED Viewed

@@ -1,116 +1,116 @@
-import base64
-import hashlib
-import os
-from re_common.v2.baselibrary.business_utils.baseencodeid import BaseLngid
-import os
-import base64
-import hashlib
-"""
-DOI-文件路径 转换工具
-设计目标：
-1. 将任意DOI字符串转换为可逆、稳定的文件路径
-2. 提供高效的目录分散方案（65,536个子目录）
-3. 支持带文件扩展名的存储
-4. 完全可逆转换
-工作原理：
-1. DOI编码：
-   - 使用URL安全的Base64编码（RFC 3548）
-   - 移除Base64填充的'='字符
-   - 文件名长度 ≈ 原始DOI长度 × 4/3
-2. 目录分散：
-   - 使用MD5哈希创建两级目录结构
-   - 目录层级：/MD5[0:2]/MD5[2:4]/
-   - 支持65,536个目录（256×256），每目录约1,525个文件（假设10亿文件）
-3. 扩展名处理：
-   - 保持原始扩展名不变
-   - 解码时自动忽略扩展名
-典型转换示例：
-DOI: "10.1000/xyz123" -> 路径: "a1/b2/QTMuMTAwMC94eXoxMjM.pdf"
-路径: "a1/b2/QTMuMTAwMC94eXoxMjM.pdf" -> DOI: "10.1000/xyz123"
-"""
-base_lngid = BaseLngid()
-# 以后需要启用
-def doi_to_path(doi: str, ext: str = "") -> str:
-    """
-    将 DOI 转换为可逆的存储路径：
-    1. 对 DOI 进行 URL 安全的 Base64 编码（可逆）
-    2. 生成 DOI 的 MD5 哈希用于目录分散
-    3. 目录结构：MD5前2字符/次2字符/
-    4. 文件名：Base64编码的DOI + 扩展名
-    Args:
-        doi: 文件 DOI 标识符
-        ext: 文件扩展名（如 '.pdf'）
-    Returns:
-        相对文件路径（如 'a1/b2/QTMuMTAwMC94eXoxMjM=.pdf'）
-    """
-    # URL安全的Base64编码（可逆）
-    doi_b64 = base64.urlsafe_b64encode(doi.encode("utf-8")).decode("ascii").rstrip("=")
-    # 生成MD5哈希用于目录分配
-    hash_md5 = hashlib.md5(doi.encode("utf-8")).hexdigest()
-    dir_level1 = hash_md5[0:2]
-    dir_level2 = hash_md5[2:4]
-    return os.path.join(dir_level1, dir_level2, f"{doi_b64}{ext}")
-# 以后需要启用
-def path_to_doi(path: str) -> str:
-    """
-    从文件路径反推原始DOI
-    Args:
-        path: 文件路径（如 'a1/b2/QTMuMTAwMC94eXoxMjM=.pdf'）
-    Returns:
-        原始DOI字符串
-    """
-    # 提取文件名并移除扩展名
-    filename = os.path.basename(path)
-    base_name = os.path.splitext(filename)[0]
-    # 补齐Base64填充字符
-    padding = 4 - (len(base_name) % 4)
-    if padding != 4:  # 不需要补齐
-        base_name += "=" * padding
-    # Base64解码还原DOI
-    return base64.urlsafe_b64decode(base_name.encode("ascii")).decode("utf-8")
-def doi_to_dir(doi):
-    """生成文件的存储路径和可解码的文件名
-    Args:
-        doi (str): 文件的唯一DOI标识
-    Returns:
-        str: 文件相对路径，如 "ab/cd/Base64EncodedFileName"
-    """
-    # 计算DOI的MD5哈希
-    hash_md5 = hashlib.md5(doi.encode('utf-8')).hexdigest().lower()
-    # 提取目录层级：前2位作为一级目录，3-4位作为二级目录
-    first_dir = hash_md5[0:2].upper()
-    second_dir = hash_md5[2:4].upper()
-    return first_dir + "/" + second_dir
-def get_doi_path(doi, case_insensitive=False):
-    # 目前使用
-    dir_path = doi_to_dir(doi)
-    file_name = base_lngid.getDoiid(doi, case_insensitive=case_insensitive) + ".pdf"
-    return dir_path + "/" + file_name
+import base64
+import hashlib
+import os
+from re_common.v2.baselibrary.business_utils.baseencodeid import BaseLngid
+import os
+import base64
+import hashlib
+"""
+DOI-文件路径 转换工具
+设计目标：
+1. 将任意DOI字符串转换为可逆、稳定的文件路径
+2. 提供高效的目录分散方案（65,536个子目录）
+3. 支持带文件扩展名的存储
+4. 完全可逆转换
+工作原理：
+1. DOI编码：
+   - 使用URL安全的Base64编码（RFC 3548）
+   - 移除Base64填充的'='字符
+   - 文件名长度 ≈ 原始DOI长度 × 4/3
+2. 目录分散：
+   - 使用MD5哈希创建两级目录结构
+   - 目录层级：/MD5[0:2]/MD5[2:4]/
+   - 支持65,536个目录（256×256），每目录约1,525个文件（假设10亿文件）
+3. 扩展名处理：
+   - 保持原始扩展名不变
+   - 解码时自动忽略扩展名
+典型转换示例：
+DOI: "10.1000/xyz123" -> 路径: "a1/b2/QTMuMTAwMC94eXoxMjM.pdf"
+路径: "a1/b2/QTMuMTAwMC94eXoxMjM.pdf" -> DOI: "10.1000/xyz123"
+"""
+base_lngid = BaseLngid()
+# 以后需要启用
+def doi_to_path(doi: str, ext: str = "") -> str:
+    """
+    将 DOI 转换为可逆的存储路径：
+    1. 对 DOI 进行 URL 安全的 Base64 编码（可逆）
+    2. 生成 DOI 的 MD5 哈希用于目录分散
+    3. 目录结构：MD5前2字符/次2字符/
+    4. 文件名：Base64编码的DOI + 扩展名
+    Args:
+        doi: 文件 DOI 标识符
+        ext: 文件扩展名（如 '.pdf'）
+    Returns:
+        相对文件路径（如 'a1/b2/QTMuMTAwMC94eXoxMjM=.pdf'）
+    """
+    # URL安全的Base64编码（可逆）
+    doi_b64 = base64.urlsafe_b64encode(doi.encode("utf-8")).decode("ascii").rstrip("=")
+    # 生成MD5哈希用于目录分配
+    hash_md5 = hashlib.md5(doi.encode("utf-8")).hexdigest()
+    dir_level1 = hash_md5[0:2]
+    dir_level2 = hash_md5[2:4]
+    return os.path.join(dir_level1, dir_level2, f"{doi_b64}{ext}")
+# 以后需要启用
+def path_to_doi(path: str) -> str:
+    """
+    从文件路径反推原始DOI
+    Args:
+        path: 文件路径（如 'a1/b2/QTMuMTAwMC94eXoxMjM=.pdf'）
+    Returns:
+        原始DOI字符串
+    """
+    # 提取文件名并移除扩展名
+    filename = os.path.basename(path)
+    base_name = os.path.splitext(filename)[0]
+    # 补齐Base64填充字符
+    padding = 4 - (len(base_name) % 4)
+    if padding != 4:  # 不需要补齐
+        base_name += "=" * padding
+    # Base64解码还原DOI
+    return base64.urlsafe_b64decode(base_name.encode("ascii")).decode("utf-8")
+def doi_to_dir(doi):
+    """生成文件的存储路径和可解码的文件名
+    Args:
+        doi (str): 文件的唯一DOI标识
+    Returns:
+        str: 文件相对路径，如 "ab/cd/Base64EncodedFileName"
+    """
+    # 计算DOI的MD5哈希
+    hash_md5 = hashlib.md5(doi.encode('utf-8')).hexdigest().lower()
+    # 提取目录层级：前2位作为一级目录，3-4位作为二级目录
+    first_dir = hash_md5[0:2].upper()
+    second_dir = hash_md5[2:4].upper()
+    return first_dir + "/" + second_dir
+def get_doi_path(doi, case_insensitive=False):
+    # 目前使用
+    dir_path = doi_to_dir(doi)
+    file_name = base_lngid.getDoiid(doi, case_insensitive=case_insensitive) + ".pdf"
+    return dir_path + "/" + file_name

re_common/v2/baselibrary/business_utils/rel_tools.py CHANGED Viewed

@@ -1,6 +1,6 @@
-def assign_group_id(rows: list, sub_db_order: list):
-    subdb_keyid_map = {row.sub_db_id: row.keyid for row in rows}
-    for sub_db_id in sub_db_order:
-        if keyid := subdb_keyid_map.get(sub_db_id):
-            return keyid, len(rows), rows
-    return rows[0].keyid, len(rows), rows
+def assign_group_id(rows: list, sub_db_order: list):
+    subdb_keyid_map = {row.sub_db_id: row.keyid for row in rows}
+    for sub_db_id in sub_db_order:
+        if keyid := subdb_keyid_map.get(sub_db_id):
+            return keyid, len(rows), rows
+    return rows[0].keyid, len(rows), rows

re_common/v2/baselibrary/decorators/utils.py CHANGED Viewed

@@ -1,59 +1,59 @@
-import warnings
-import functools
-# 全局集合，用于记录已警告的函数或类
-_warned_once = set()
-def deprecated(message=None):
-    """
-    装饰器：标记函数或类为已废弃，整个进程只发出一次警告。
-    Args:
-        message (str): 自定义警告信息，默认为 None。
-    """
-    def decorator(obj):
-        # 如果是函数
-        if isinstance(obj, type(lambda: None)):
-            @functools.wraps(obj)
-            def wrapper(*args, **kwargs):
-                obj_id = id(obj)  # 使用对象的内存地址作为唯一标识
-                if obj_id not in _warned_once:
-                    default_msg = f"函数 {obj.__name__} 已不建议使用。"
-                    warn_msg = f"{default_msg} {message}" if message else default_msg
-                    warnings.warn(
-                        warn_msg,
-                        category=DeprecationWarning,
-                        stacklevel=2
-                    )
-                    _warned_once.add(obj_id)  # 记录已警告
-                return obj(*args, **kwargs)
-            return wrapper
-        # 如果是类
-        elif isinstance(obj, type):
-            orig_init = obj.__init__
-            @functools.wraps(orig_init)
-            def new_init(self, *args, **kwargs):
-                obj_id = id(obj)
-                if obj_id not in _warned_once:
-                    default_msg = f"类 {obj.__name__} 已不建议使用。"
-                    warn_msg = f"{default_msg} {message}" if message else default_msg
-                    warnings.warn(
-                        warn_msg,
-                        category=DeprecationWarning,
-                        stacklevel=2
-                    )
-                    _warned_once.add(obj_id)  # 记录已警告
-                orig_init(self, *args, **kwargs)
-            obj.__init__ = new_init
-            return obj
-        else:
-            raise TypeError("此装饰器仅适用于函数和类")
-    return decorator
+import warnings
+import functools
+# 全局集合，用于记录已警告的函数或类
+_warned_once = set()
+def deprecated(message=None):
+    """
+    装饰器：标记函数或类为已废弃，整个进程只发出一次警告。
+    Args:
+        message (str): 自定义警告信息，默认为 None。
+    """
+    def decorator(obj):
+        # 如果是函数
+        if isinstance(obj, type(lambda: None)):
+            @functools.wraps(obj)
+            def wrapper(*args, **kwargs):
+                obj_id = id(obj)  # 使用对象的内存地址作为唯一标识
+                if obj_id not in _warned_once:
+                    default_msg = f"函数 {obj.__name__} 已不建议使用。"
+                    warn_msg = f"{default_msg} {message}" if message else default_msg
+                    warnings.warn(
+                        warn_msg,
+                        category=DeprecationWarning,
+                        stacklevel=2
+                    )
+                    _warned_once.add(obj_id)  # 记录已警告
+                return obj(*args, **kwargs)
+            return wrapper
+        # 如果是类
+        elif isinstance(obj, type):
+            orig_init = obj.__init__
+            @functools.wraps(orig_init)
+            def new_init(self, *args, **kwargs):
+                obj_id = id(obj)
+                if obj_id not in _warned_once:
+                    default_msg = f"类 {obj.__name__} 已不建议使用。"
+                    warn_msg = f"{default_msg} {message}" if message else default_msg
+                    warnings.warn(
+                        warn_msg,
+                        category=DeprecationWarning,
+                        stacklevel=2
+                    )
+                    _warned_once.add(obj_id)  # 记录已警告
+                orig_init(self, *args, **kwargs)
+            obj.__init__ = new_init
+            return obj
+        else:
+            raise TypeError("此装饰器仅适用于函数和类")
+    return decorator

re_common/v2/baselibrary/helpers/search_packge/NearestNeighbors_test.py CHANGED Viewed

@@ -1,105 +1,105 @@
-import datetime
-import gzip
-import io
-import time
-import joblib
-from hdfs import InsecureClient
-from re_common.v2.baselibrary.helpers.search_packge.fit_text_match import FitTextMatcher
-if __name__ == '__main__':
-    matcher = FitTextMatcher(
-        algorithm='auto',  # 对于小数据集，暴力搜索足够快 brute
-        n_jobs=2  # 使用所有CPU核心
-    )
-    client = InsecureClient("http://VIP-DC-MASTER-2:9870", user="xujiang")
-    lists = []
-    for i in ["vectorizer", "nn_model", "corpus", "idx"]:
-        fit_file_path = f"/b_task_data/class_smi/fit_file/t_23600_{i}.joblib.gz"
-        with client.read(fit_file_path) as reader:
-            tp = io.BytesIO(reader.read())
-            tp.seek(0)
-            lists.append(tp)
-    with gzip.GzipFile(fileobj=lists[2], mode='rb') as gz:
-        matcher.corpus = joblib.load(gz)
-    with gzip.GzipFile(fileobj=lists[3], mode='rb') as gz:
-        matcher.idx = joblib.load(gz)
-    matcher.corpus_size = max(len(matcher.corpus), len(matcher.idx))
-    print(f"加载bytes完成，共 {matcher.corpus_size} 篇文献")
-    matcher.fit(matcher.corpus)
-    print(matcher.nn._fit_method)
-    print("fit 训练完成")
-    count = 0
-    bacth_list = []
-    n = min(100, matcher.corpus_size)
-    for i in matcher.corpus:
-        count = count + 1
-        bacth_list.append(i)
-        if count % 10000 == 0:
-            t1 = time.time()
-            index, similarities = matcher.batch_search(bacth_list, n=n)
-            for rank, (idxs, sims) in enumerate(zip(index, similarities)):
-                print({"keyid": matcher.idx[rank],
-                       "search_list": [(matcher.idx[idx], sim) for idx, sim in zip(idxs, sims)]})
-            t2 = time.time()
-            now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S,%f")[:-3]
-            print(now, count, t2 - t1)
-            bacth_list.clear()
-    # with open("t_8220_corpus.joblib","rb") as f:
-    #     buf = io.BytesIO(f.read())
-    #     buf.seek(0)
-    #     corpus = buf
-    #
-    # matcher.corpus = joblib.load(corpus)
-    # print(len(matcher.corpus))
-    # matcher.load_bytes(vec, nn, corpus)
-    # with open(r"C:\Users\Administrator\Desktop\update\part-02440\part-02440_1", "r", encoding="utf-8") as f:
-    #     lists = [line.strip() for line in f if line]
-    #
-    # matcher.fit(lists)
-    # matcher.load("./","test")
-    # query = r"herbdrug interaction in the protective effect of alpinia officinarum against gastric injury induced by indomethacin based on pharmacokinetic tissue distribution and excretion studies in rats"
-    # result = matcher.search(query, n=100)
-    # print("query", query)
-    # for rank, (idx, sim) in enumerate(result):
-    #     print(f"\nTop {rank + 1} [相似度: {sim:.4f}]:")
-    #     print(f"文献 #{idx}: {lists[idx]}")
-    # print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>")
-    # time.sleep(100)
-    # for query in lists[:1000]:
-    #     indices, similarities = matcher.search(query, n=100)
-    #     print("query", query)
-    #     for rank, (idx, sim) in enumerate(zip(indices, similarities)):
-    #         print(f"\nTop {rank + 1} [相似度: {sim:.4f}]:")
-    #         print(f"文献 #{idx}: {lists[idx]}")
-    #     print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>")
-    #     time.sleep(100)
-    #
-    # idx,sim = matcher.batch_search(lists[:1000], n=100)
-    # for rank, (idxs, sims) in enumerate(zip(idx,sim)):
-    #     tp = (lists[rank],[(lists[idx], sim) for idx,sim in zip(idxs,sims)])
-    #     print(tp)
-    # time.sleep(100)
+import datetime
+import gzip
+import io
+import time
+import joblib
+from hdfs import InsecureClient
+from re_common.v2.baselibrary.helpers.search_packge.fit_text_match import FitTextMatcher
+if __name__ == '__main__':
+    matcher = FitTextMatcher(
+        algorithm='auto',  # 对于小数据集，暴力搜索足够快 brute
+        n_jobs=2  # 使用所有CPU核心
+    )
+    client = InsecureClient("http://VIP-DC-MASTER-2:9870", user="xujiang")
+    lists = []
+    for i in ["vectorizer", "nn_model", "corpus", "idx"]:
+        fit_file_path = f"/b_task_data/class_smi/fit_file/t_23600_{i}.joblib.gz"
+        with client.read(fit_file_path) as reader:
+            tp = io.BytesIO(reader.read())
+            tp.seek(0)
+            lists.append(tp)
+    with gzip.GzipFile(fileobj=lists[2], mode='rb') as gz:
+        matcher.corpus = joblib.load(gz)
+    with gzip.GzipFile(fileobj=lists[3], mode='rb') as gz:
+        matcher.idx = joblib.load(gz)
+    matcher.corpus_size = max(len(matcher.corpus), len(matcher.idx))
+    print(f"加载bytes完成，共 {matcher.corpus_size} 篇文献")
+    matcher.fit(matcher.corpus)
+    print(matcher.nn._fit_method)
+    print("fit 训练完成")
+    count = 0
+    bacth_list = []
+    n = min(100, matcher.corpus_size)
+    for i in matcher.corpus:
+        count = count + 1
+        bacth_list.append(i)
+        if count % 10000 == 0:
+            t1 = time.time()
+            index, similarities = matcher.batch_search(bacth_list, n=n)
+            for rank, (idxs, sims) in enumerate(zip(index, similarities)):
+                print({"keyid": matcher.idx[rank],
+                       "search_list": [(matcher.idx[idx], sim) for idx, sim in zip(idxs, sims)]})
+            t2 = time.time()
+            now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S,%f")[:-3]
+            print(now, count, t2 - t1)
+            bacth_list.clear()
+    # with open("t_8220_corpus.joblib","rb") as f:
+    #     buf = io.BytesIO(f.read())
+    #     buf.seek(0)
+    #     corpus = buf
+    #
+    # matcher.corpus = joblib.load(corpus)
+    # print(len(matcher.corpus))
+    # matcher.load_bytes(vec, nn, corpus)
+    # with open(r"C:\Users\Administrator\Desktop\update\part-02440\part-02440_1", "r", encoding="utf-8") as f:
+    #     lists = [line.strip() for line in f if line]
+    #
+    # matcher.fit(lists)
+    # matcher.load("./","test")
+    # query = r"herbdrug interaction in the protective effect of alpinia officinarum against gastric injury induced by indomethacin based on pharmacokinetic tissue distribution and excretion studies in rats"
+    # result = matcher.search(query, n=100)
+    # print("query", query)
+    # for rank, (idx, sim) in enumerate(result):
+    #     print(f"\nTop {rank + 1} [相似度: {sim:.4f}]:")
+    #     print(f"文献 #{idx}: {lists[idx]}")
+    # print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>")
+    # time.sleep(100)
+    # for query in lists[:1000]:
+    #     indices, similarities = matcher.search(query, n=100)
+    #     print("query", query)
+    #     for rank, (idx, sim) in enumerate(zip(indices, similarities)):
+    #         print(f"\nTop {rank + 1} [相似度: {sim:.4f}]:")
+    #         print(f"文献 #{idx}: {lists[idx]}")
+    #     print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>")
+    #     time.sleep(100)
+    #
+    # idx,sim = matcher.batch_search(lists[:1000], n=100)
+    # for rank, (idxs, sims) in enumerate(zip(idx,sim)):
+    #     tp = (lists[rank],[(lists[idx], sim) for idx,sim in zip(idxs,sims)])
+    #     print(tp)
+    # time.sleep(100)

re-common 10.0.37__py3-none-any.whl → 10.0.39__py3-none-any.whl

re-common 10.0.37py3-none-any.whl → 10.0.39py3-none-any.whl