PyPI - re-common - Versions diffs - 10.0.39__py3-none-any.whl → 10.0.41__py3-none-any.whl - Mend

re-common 10.0.39py3-none-any.whl → 10.0.41py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (221) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +235 -220
re_common/v2/baselibrary/business_utils/baseencodeid.py +100 -100
re_common/v2/baselibrary/business_utils/full_doi_path.py +116 -116
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -6
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/helpers/search_packge/NearestNeighbors_test.py +105 -105
re_common/v2/baselibrary/helpers/search_packge/fit_text_match.py +253 -253
re_common/v2/baselibrary/helpers/search_packge/scikit_learn_text_matcher.py +260 -260
re_common/v2/baselibrary/helpers/search_packge/test.py +1 -1
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -95
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/concurrency.py +35 -35
re_common/v2/baselibrary/tools/data_processer/base.py +53 -53
re_common/v2/baselibrary/tools/data_processer/data_processer.py +497 -508
re_common/v2/baselibrary/tools/data_processer/data_reader.py +187 -187
re_common/v2/baselibrary/tools/data_processer/data_writer.py +38 -38
re_common/v2/baselibrary/tools/dict_tools.py +44 -44
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_base_processor.py +204 -204
re_common/v2/baselibrary/tools/hdfs_bulk_processor.py +67 -67
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/hdfs_line_processor.py +74 -74
re_common/v2/baselibrary/tools/list_tools.py +69 -69
re_common/v2/baselibrary/tools/resume_tracker.py +94 -94
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/tree_processor/__init__.py +0 -0
re_common/v2/baselibrary/tools/tree_processor/builder.py +25 -0
re_common/v2/baselibrary/tools/tree_processor/node.py +13 -0
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/api_net_utils.py +270 -270
re_common/v2/baselibrary/utils/author_smi.py +361 -361
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +163 -163
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +94 -77
re_common/v2/baselibrary/utils/db.py +174 -156
re_common/v2/baselibrary/utils/elasticsearch.py +46 -0
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +187 -186
re_common/v2/baselibrary/utils/string_clear.py +246 -246
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +312 -271
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.39.dist-info → re_common-10.0.41.dist-info}/LICENSE +201 -201
{re_common-10.0.39.dist-info → re_common-10.0.41.dist-info}/METADATA +16 -16
re_common-10.0.41.dist-info/RECORD +252 -0
{re_common-10.0.39.dist-info → re_common-10.0.41.dist-info}/WHEEL +1 -1
re_common-10.0.39.dist-info/RECORD +0 -248
{re_common-10.0.39.dist-info → re_common-10.0.41.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/business_utils/BusinessStringUtil.py CHANGED Viewed

@@ -1,220 +1,235 @@
-# 某些业务中的字符串处理 算是特定场景的工具 不算通用工具
-import re
-from re_common.v2.baselibrary.utils.author_smi import AuthorRatio
-from re_common.v2.baselibrary.utils.string_bool import is_all_symbols
-from re_common.v2.baselibrary.utils.string_clear import rel_clear
-from re_common.v2.baselibrary.utils.stringutils import clean_unicode_alnum, get_alphabetic_ratio
-def clean_organ_postcode(organ):
-    """
-    格式化组织名称字符串，移除括号内容并删除独立的6位数字（邮政编码），然后清理标点。
-    备注: 该方法替换java 里面的 formatOrgan
-    参数:
-        organ (str): 输入的组织名称字符串，可能包含括号、分号和邮政编码。
-    返回:
-        str: 格式化并清理后的组织名称字符串（无独立6位数字）。
-    """
-    # 如果输入为空，设为空字符串以避免后续操作报错
-    if not organ:
-        organ = ""
-    # 删除方括号和圆括号中的内容（包括括号本身）
-    organ = re.sub(r"\[.*?\]", "", organ)  # 非贪婪匹配方括号内容
-    organ = re.sub(r"\(.*?\)", "", organ)  # 非贪婪匹配圆括号内容
-    # 定义正则表达式，匹配独立的6位数字
-    # \b 表示单词边界，确保6位数字是独立的（前后不是字母、数字或下划线）
-    organ = re.sub(r"\b[0-9]{6}\b", "", organ)
-    # 初始化结果列表，用于存储处理后的组织名称部分
-    format_organ = []
-    # 按分号分割字符串，生成组织名称的各个部分
-    organ_parts = organ.split(";")
-    # 遍历每个部分，追加到结果列表
-    for temp_organ in organ_parts:
-        # 去除首尾多余空格后追加（避免因移除邮编导致的空字符串）
-        cleaned_part = temp_organ.strip()
-        # 如果首尾是标点符号，则移除
-        # 定义标点符号的正则表达式（这里包括常见标点）
-        punctuation = r"^[!,.?;:#$%^&*+-]+|[!,.?;:#$%^&*+-]+$"
-        cleaned_part = re.sub(punctuation, "", cleaned_part)
-        if cleaned_part:  # 只追加非空部分
-            format_organ.append(cleaned_part)
-    # 用分号连接结果，转换为大写并清理标点
-    format_organ = ";".join(format_organ)
-    # 返回最终结果并去除首尾空格
-    return format_organ.strip()
-def get_first_organ(organ):
-    if not organ:
-        return ""
-    organ_list = organ.strip().split(";")
-    for organ_one in organ_list:
-        # 清理邮政编码
-        organ_one = clean_organ_postcode(organ_one)
-        if organ_one.strip():
-            return organ_one
-    return ""
-def get_first_author(author: str) -> str:
-    if not author:
-        return ""
-    au_list = author.strip().split(";")
-    for au in au_list:
-        au = re.sub("\\[.*?]", "", au)
-        au = re.sub("\\(.*?\\)", "", au)
-        if au.strip():
-            return au
-    return ""
-def get_author_list(author: str):
-    lists = []
-    if not author:
-        return []
-    au_list = author.strip().split(";")
-    for au in au_list:
-        au = re.sub("\\[.*?]", "", au)
-        au = re.sub("\\(.*?\\)", "", au)
-        if au.strip():
-            lists.append(au.strip())
-    return lists
-def get_scopus_author_abbr(author_row: str):
-    if not author_row:
-        return ""
-    author_list = author_row.split("&&")
-    if len(author_list) != 3:
-        raise Exception("错误的数据个数 可能来自其他数据源")
-    abbr_list = author_list[0].strip().split(";")
-    abbr_list = [author.strip() for author in abbr_list if
-                 author.strip() and author.strip().lower() not in ("*", "and")]
-    return ";".join(abbr_list)
-def get_wos_author_abbr(author_row: str):
-    if not author_row:
-        return ""
-    author_list = author_row.split("&&")
-    if len(author_list) != 4:
-        raise Exception("错误的数据个数 可能来自其他数据源")
-    abbr_list = []
-    abbr_list_au = author_list[0].strip().split(";")
-    abbr_list_ba = author_list[2].strip().split(";")
-    abbr_list.extend(abbr_list_au)
-    abbr_list.extend(abbr_list_ba)
-    abbr_list = [author.strip() for author in abbr_list if
-                 author.strip() and author.strip().lower() not in ("*", "and")]
-    return ";".join(abbr_list)
-def deal_rel_vol(vol_str: str):
-    """
-    处理 期刊融合时的卷处理逻辑
-    """
-    # 如果卷是全符号 清理掉
-    if is_all_symbols(vol_str):
-        vol_str = ""
-    if vol_str.replace(".", "").isdigit():
-        try:
-            float_num = float(vol_str)
-            if int(float_num) == float_num:
-                return str(int(float_num))
-        except:
-            pass
-    if vol_str.lower().startswith("v "):
-        vol_str = vol_str.lower().replace("v ", "").strip()
-        return vol_str
-    if vol_str.lower().startswith("volume "):
-        vol_str = vol_str.lower().replace("volume ", "").strip()
-        return vol_str
-    if vol_str.lower().startswith("vol. "):
-        vol_str = vol_str.lower().replace("vol. ", "").strip()
-        return vol_str
-    if vol_str.lower().startswith("vol "):
-        vol_str = vol_str.lower().replace("vol ", "").strip()
-        return vol_str
-    return vol_str
-def deal_num_strs(input_str):
-    """
-    int后在str 防止有浮点型的表达方式
-    """
-    number_list = re.findall(r'\d+', input_str)
-    transformed_numbers = [str(int(num)) for num in number_list]
-    # 替换原字符串中的数字为转换后的数字
-    for num, transformed_num in zip(number_list, transformed_numbers):
-        input_str = input_str.replace(num, transformed_num)
-    return input_str
-def deal_num(num_str):
-    """
-    将 期格式化 方便 group尤其是有横杆的数据
-    该方法 为融合二次分割时使用，如果场景合适也可以用于其他地方
-    :param strs:
-    :return:
-    """
-    # 如果期是全符号清理掉
-    if is_all_symbols(num_str):
-        num_str = ""
-    if num_str.lower().startswith("n "):
-        num_str = num_str.lower().replace("n ", "").strip()
-    num_str = num_str.lower().replace("special_issue_", '').replace("_special_issue", '').replace("issue", "")
-    num_str = num_str.replace("spec.", "").replace("iss.", "").replace("spl.", "").replace("special.", "").replace(
-        "specialissue.", "")
-    num_str = num_str.replace("spec", "").replace("iss", "").replace("spl", "").replace("special", "").replace(
-        "specialissue", '')
-    num_str = num_str.replace("-", "_").replace(".", "_").upper()
-    num_str = num_str.lstrip("_").rstrip("_")
-    if num_str.find("_") > -1:
-        start, end = num_str.split("_")
-        start = deal_num_strs(start)
-        end = deal_num_strs(end)
-        num_str = start + "_" + end
-    else:
-        num_str = deal_num_strs(num_str)
-    return num_str.lower().strip()
-def clear_author_1st(author_str:str):
-    # 清理括号 防止前面流程没有清理干净
-    author_str = re.sub("\\[.*?]", "", author_str)
-    author_str = re.sub("\\(.*?\\)", "", author_str)
-    # 清理符号
-    author_str = clean_unicode_alnum(author_str)
-    return author_str
-def is_same_author(a1, a2):
-    if get_alphabetic_ratio(a1.strip()) > 0.7 and get_alphabetic_ratio(a2.strip()) > 0.7:
-        author_similar_ = AuthorRatio(a1.strip(), a2.strip())
-        if author_similar_ > 0.95:
-            return True
-    else:
-        if rel_clear(a1.strip()) == rel_clear(a2.strip()):
-            return True
-    return False
+# 某些业务中的字符串处理 算是特定场景的工具 不算通用工具
+import itertools
+import re
+from rapidfuzz.fuzz import partial_token_set_ratio
+from re_common.v2.baselibrary.utils.author_smi import AuthorRatio
+from re_common.v2.baselibrary.utils.string_bool import is_all_symbols
+from re_common.v2.baselibrary.utils.string_clear import rel_clear
+from re_common.v2.baselibrary.utils.stringutils import clean_unicode_alnum, get_alphabetic_ratio
+def clean_organ_postcode(organ):
+    """
+    格式化组织名称字符串，移除括号内容并删除独立的6位数字（邮政编码），然后清理标点。
+    备注: 该方法替换java 里面的 formatOrgan
+    参数:
+        organ (str): 输入的组织名称字符串，可能包含括号、分号和邮政编码。
+    返回:
+        str: 格式化并清理后的组织名称字符串（无独立6位数字）。
+    """
+    # 如果输入为空，设为空字符串以避免后续操作报错
+    if not organ:
+        organ = ""
+    # 删除方括号和圆括号中的内容（包括括号本身）
+    organ = re.sub(r"\[.*?\]", "", organ)  # 非贪婪匹配方括号内容
+    organ = re.sub(r"\(.*?\)", "", organ)  # 非贪婪匹配圆括号内容
+    # 定义正则表达式，匹配独立的6位数字
+    # \b 表示单词边界，确保6位数字是独立的（前后不是字母、数字或下划线）
+    organ = re.sub(r"\b[0-9]{6}\b", "", organ)
+    # 初始化结果列表，用于存储处理后的组织名称部分
+    format_organ = []
+    # 按分号分割字符串，生成组织名称的各个部分
+    organ_parts = organ.split(";")
+    # 遍历每个部分，追加到结果列表
+    for temp_organ in organ_parts:
+        # 去除首尾多余空格后追加（避免因移除邮编导致的空字符串）
+        cleaned_part = temp_organ.strip()
+        # 如果首尾是标点符号，则移除
+        # 定义标点符号的正则表达式（这里包括常见标点）
+        punctuation = r"^[!,.?;:#$%^&*+-]+|[!,.?;:#$%^&*+-]+$"
+        cleaned_part = re.sub(punctuation, "", cleaned_part)
+        if cleaned_part:  # 只追加非空部分
+            format_organ.append(cleaned_part)
+    # 用分号连接结果，转换为大写并清理标点
+    format_organ = ";".join(format_organ)
+    # 返回最终结果并去除首尾空格
+    return format_organ.strip()
+def get_first_organ(organ):
+    if not organ:
+        return ""
+    organ_list = organ.strip().split(";")
+    for organ_one in organ_list:
+        # 清理邮政编码
+        organ_one = clean_organ_postcode(organ_one)
+        if organ_one.strip():
+            return organ_one
+    return ""
+def get_first_author(author: str) -> str:
+    if not author:
+        return ""
+    au_list = author.strip().split(";")
+    for au in au_list:
+        au = re.sub("\\[.*?]", "", au)
+        au = re.sub("\\(.*?\\)", "", au)
+        if au.strip():
+            return au
+    return ""
+def get_author_list(author: str):
+    lists = []
+    if not author:
+        return []
+    au_list = author.strip().split(";")
+    for au in au_list:
+        au = re.sub("\\[.*?]", "", au)
+        au = re.sub("\\(.*?\\)", "", au)
+        if au.strip():
+            lists.append(au.strip())
+    return lists
+def get_scopus_author_abbr(author_row: str):
+    if not author_row:
+        return ""
+    author_list = author_row.split("&&")
+    if len(author_list) != 3:
+        raise Exception("错误的数据个数 可能来自其他数据源")
+    abbr_list = author_list[0].strip().split(";")
+    abbr_list = [author.strip() for author in abbr_list if
+                 author.strip() and author.strip().lower() not in ("*", "and")]
+    return ";".join(abbr_list)
+def get_wos_author_abbr(author_row: str):
+    if not author_row:
+        return ""
+    author_list = author_row.split("&&")
+    if len(author_list) != 4:
+        raise Exception("错误的数据个数 可能来自其他数据源")
+    abbr_list = []
+    abbr_list_au = author_list[0].strip().split(";")
+    abbr_list_ba = author_list[2].strip().split(";")
+    abbr_list.extend(abbr_list_au)
+    abbr_list.extend(abbr_list_ba)
+    abbr_list = [author.strip() for author in abbr_list if
+                 author.strip() and author.strip().lower() not in ("*", "and")]
+    return ";".join(abbr_list)
+def deal_rel_vol(vol_str: str):
+    """
+    处理 期刊融合时的卷处理逻辑
+    """
+    # 如果卷是全符号 清理掉
+    if is_all_symbols(vol_str):
+        vol_str = ""
+    if vol_str.replace(".", "").isdigit():
+        try:
+            float_num = float(vol_str)
+            if int(float_num) == float_num:
+                return str(int(float_num))
+        except:
+            pass
+    if vol_str.lower().startswith("v "):
+        vol_str = vol_str.lower().replace("v ", "").strip()
+        return vol_str
+    if vol_str.lower().startswith("volume "):
+        vol_str = vol_str.lower().replace("volume ", "").strip()
+        return vol_str
+    if vol_str.lower().startswith("vol. "):
+        vol_str = vol_str.lower().replace("vol. ", "").strip()
+        return vol_str
+    if vol_str.lower().startswith("vol "):
+        vol_str = vol_str.lower().replace("vol ", "").strip()
+        return vol_str
+    return vol_str
+def deal_num_strs(input_str):
+    """
+    int后在str 防止有浮点型的表达方式
+    """
+    number_list = re.findall(r'\d+', input_str)
+    transformed_numbers = [str(int(num)) for num in number_list]
+    # 替换原字符串中的数字为转换后的数字
+    for num, transformed_num in zip(number_list, transformed_numbers):
+        input_str = input_str.replace(num, transformed_num)
+    return input_str
+def deal_num(num_str):
+    """
+    将 期格式化 方便 group尤其是有横杆的数据
+    该方法 为融合二次分割时使用，如果场景合适也可以用于其他地方
+    :param strs:
+    :return:
+    """
+    # 如果期是全符号清理掉
+    if is_all_symbols(num_str):
+        num_str = ""
+    if num_str.lower().startswith("n "):
+        num_str = num_str.lower().replace("n ", "").strip()
+    num_str = num_str.lower().replace("special_issue_", '').replace("_special_issue", '').replace("issue", "")
+    num_str = num_str.replace("spec.", "").replace("iss.", "").replace("spl.", "").replace("special.", "").replace(
+        "specialissue.", "")
+    num_str = num_str.replace("spec", "").replace("iss", "").replace("spl", "").replace("special", "").replace(
+        "specialissue", '')
+    num_str = num_str.replace("-", "_").replace(".", "_").upper()
+    num_str = num_str.lstrip("_").rstrip("_")
+    if num_str.find("_") > -1:
+        start, end = num_str.split("_")
+        start = deal_num_strs(start)
+        end = deal_num_strs(end)
+        num_str = start + "_" + end
+    else:
+        num_str = deal_num_strs(num_str)
+    return num_str.lower().strip()
+def clear_author_1st(author_str: str):
+    # 清理括号 防止前面流程没有清理干净
+    author_str = re.sub("\\[.*?]", "", author_str)
+    author_str = re.sub("\\(.*?\\)", "", author_str)
+    # 清理符号
+    author_str = clean_unicode_alnum(author_str)
+    return author_str
+def is_same_author(a1, a2):
+    if get_alphabetic_ratio(a1.strip()) > 0.7 and get_alphabetic_ratio(a2.strip()) > 0.7:
+        author_similar_ = AuthorRatio(a1.strip(), a2.strip())
+        if author_similar_ > 0.95:
+            return True
+    else:
+        if rel_clear(a1.strip()) == rel_clear(a2.strip()):
+            return True
+    return False
+def abs_smi(abs_l1, abs_l2):
+    abs_l1 = [cleared for cleared in map(rel_clear, abs_l1) if cleared]
+    abs_l2 = [cleared for cleared in map(rel_clear, abs_l2) if cleared]
+    lists_max = []
+    for abs1, abs2 in list(itertools.product(abs_l1, abs_l2)):
+        max_smi = partial_token_set_ratio(abs1, abs2, processor=rel_clear)
+        lists_max.append(max_smi)
+    return max(lists_max)

re-common 10.0.39__py3-none-any.whl → 10.0.41__py3-none-any.whl

re-common 10.0.39py3-none-any.whl → 10.0.41py3-none-any.whl