PyPI - re-common - Versions diffs - 10.0.37__py3-none-any.whl → 10.0.39__py3-none-any.whl - Mend

re-common 10.0.37py3-none-any.whl → 10.0.39py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (217) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +219 -219
re_common/v2/baselibrary/business_utils/baseencodeid.py +100 -100
re_common/v2/baselibrary/business_utils/full_doi_path.py +116 -116
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -6
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/helpers/search_packge/NearestNeighbors_test.py +105 -105
re_common/v2/baselibrary/helpers/search_packge/fit_text_match.py +253 -253
re_common/v2/baselibrary/helpers/search_packge/scikit_learn_text_matcher.py +260 -260
re_common/v2/baselibrary/helpers/search_packge/test.py +1 -1
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -95
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/concurrency.py +35 -35
re_common/v2/baselibrary/tools/data_processer/base.py +53 -53
re_common/v2/baselibrary/tools/data_processer/data_processer.py +508 -508
re_common/v2/baselibrary/tools/data_processer/data_reader.py +187 -187
re_common/v2/baselibrary/tools/data_processer/data_writer.py +38 -38
re_common/v2/baselibrary/tools/dict_tools.py +44 -44
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_base_processor.py +204 -204
re_common/v2/baselibrary/tools/hdfs_bulk_processor.py +67 -67
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/hdfs_line_processor.py +74 -74
re_common/v2/baselibrary/tools/list_tools.py +69 -69
re_common/v2/baselibrary/tools/resume_tracker.py +94 -94
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/api_net_utils.py +270 -270
re_common/v2/baselibrary/utils/author_smi.py +361 -361
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +163 -163
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +77 -77
re_common/v2/baselibrary/utils/db.py +156 -156
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +186 -186
re_common/v2/baselibrary/utils/string_clear.py +246 -246
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +271 -278
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/LICENSE +201 -201
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/METADATA +16 -16
re_common-10.0.39.dist-info/RECORD +248 -0
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/WHEEL +1 -1
re_common-10.0.37.dist-info/RECORD +0 -248
{re_common-10.0.37.dist-info → re_common-10.0.39.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/utils/stringutils.py CHANGED Viewed

@@ -1,278 +1,271 @@
-import re
-import threading
-from html.parser import HTMLParser
-from itertools import combinations
-import regex
-import unicodedata
-from parsel import Selector
-from re_common.v2.baselibrary.utils.string_smi import JaroDamerauLevenshteinMaxSim
-def bj2qj(src):
-    if src is None:
-        return src
-    DBC_SPACE = ' '
-    SBC_SPACE = '　'
-    DBC_CHAR_START = 33
-    DBC_CHAR_END = 126
-    CONVERT_STEP = 65248
-    buf = []
-    for char in src:
-        if char == DBC_SPACE:
-            buf.append(SBC_SPACE)
-        elif DBC_CHAR_START <= ord(char) <= DBC_CHAR_END:
-            buf.append(chr(ord(char) + CONVERT_STEP))
-        else:
-            buf.append(char)
-    return ''.join(buf)
-def qj2bj(src):
-    """
-    全角转半角
-    :param src:
-    :return:
-    """
-    if src is None:
-        return src
-    SBC_CHAR_START = 0xFF01
-    SBC_CHAR_END = 0xFF5E
-    CONVERT_STEP = 0xFEE0
-    DBC_SPACE = ' '
-    SBC_SPACE = '　'
-    buf = []
-    for char in src:
-        if SBC_CHAR_START <= ord(char) <= SBC_CHAR_END:
-            buf.append(chr(ord(char) - CONVERT_STEP))
-        elif char == SBC_SPACE:
-            buf.append(DBC_SPACE)
-        else:
-            buf.append(char)
-    return ''.join(buf)
-"""
-总结对比表
-规范名	处理步骤	组合方式	兼容性归一化	主要用途
-NFC	规范分解 → 规范组合	组合	否	保留预组合字符，文本呈现和存储
-NFD	规范分解	不组合	否	拆解字符，便于逐字符处理
-NFKC	兼容性分解 → 规范组合	组合	是	消除兼容差异，文本比较和索引
-NFKD	兼容性分解 → 规范分解	不组合	是	最大程度拆解，文本分析和预处理
-"""
-def get_diacritic_variant(char1):
-    """
-    NFD: 规范分解（Normalization Form D）
-    把字符拆分为基本字符 + 变音符号
-    但不处理兼容字符（如连字）
-    print(unicodedata.normalize('NFD', 'é'))  # 输出: 'é'（e + 组合符号） # 这里看起来是1个字符 len 其实是2
-    print(unicodedata.normalize('NFD', 'ﬂ'))  # 输出: 'ﬂ'（不变化）
-    """
-    # 将字符转换为标准的 Unicode 形式
-    normalized_char1 = unicodedata.normalize('NFD', char1)
-    # 获取基本字符（去掉变音符号）
-    base_char1 = ''.join(c for c in normalized_char1 if unicodedata.category(c) != 'Mn')
-    # 判断基本字符是否相同
-    return base_char1
-def normalize_nfkc(strs: str) -> str:
-    """
-    NFKC: 兼容字符归一化 + 组合（Normalization Form Compatibility Composition）
-    把 连字、圈数字、全角字符 等兼容字符转换为标准形式
-    同时做字符合并（例如 é 不再是 e+´，而是一个字符）
-    print(unicodedata.normalize('NFKC', 'ﬂ'))   # 输出: 'fl'
-    print(unicodedata.normalize('NFKC', '①'))   # 输出: '1'
-    print(unicodedata.normalize('NFKC', 'Ａ'))  # 输出: 'A'
-    """
-    return unicodedata.normalize('NFKC', strs.strip())
-def get_alphabetic_ratio(text: str) -> float:
-    # 返回字母型字符所占比例
-    if not text:
-        return 0
-    text = re.sub(r'\d+', '', text)
-    # 正则表达式匹配字母型文字（包括拉丁字母、希腊字母、西里尔字母、阿拉伯字母等）
-    alphabetic_pattern = (
-        r"[\u0041-\u005A\u0061-\u007A"  # 拉丁字母 (A-Z, a-z)
-        r"\u00C0-\u00FF"  # 带重音符号的拉丁字母 (À-ÿ)
-        r"\u0080–\u00FF"  # 拉丁字母补充1
-        r"\u0100–\u017F"  # 拉丁字母扩展A
-        r"\u1E00-\u1EFF"  # 拉丁扩展 (Latin Extended Additional)
-        r"\u0180-\u024F"  # 拉丁扩展-B (Latin Extended-B)
-        r"\u2C60-\u2C7F"  # 拉丁扩展-C (Latin Extended Additional)
-        r"\uA720-\uA7FF"  # 拉丁扩展-D (Latin Extended Additional)
-        r"\uAB30-\uAB6F"  # 拉丁扩展-E (Latin Extended Additional)
-        r"]"
-    )
-    # 使用正则表达式过滤出语言文字
-    clean_text = regex.sub(r"[^\p{L}]", "", text)
-    if len(clean_text) == 0:
-        return 1.0
-    # 匹配所有字母型字符
-    alphabetic_chars = re.findall(alphabetic_pattern, clean_text)
-    # 返回字母型字符所占比例
-    return len(alphabetic_chars) / len(clean_text)
-class HTMLTextExtractor(HTMLParser):
-    _thread_local = threading.local()  # 线程局部存储
-    def __init__(self):
-        super().__init__()
-        self.reset_state()
-    def handle_starttag(self, tag, attrs):
-        if tag in ('script', 'style'):
-            self.skip = True
-    def handle_endtag(self, tag):
-        if tag in ('script', 'style'):
-            self.skip = False
-    def handle_data(self, data):
-        if not self.skip and data.strip():
-            self.text.append(data)
-    def reset_state(self):
-        self.reset()
-        self.text = []
-        self.skip = False
-    def get_text(self):
-        return ''.join(self.text).strip()
-    @classmethod
-    def get_parser(cls):
-        # 每个线程获取独立实例
-        if not hasattr(cls._thread_local, 'parser'):
-            cls._thread_local.parser = cls()
-        return cls._thread_local.parser
-# def clean_html(html):
-#     parser = HTMLTextExtractor.get_parser()
-#     parser.reset_state()
-#     parser.feed(html)
-#     parser.close()
-#     return parser.get_text()
-# def clean_html(html):
-#     """使用 Parsel 提取 HTML 中的纯文本"""
-#     sel = Selector(text=html, type='html')
-#     # 提取所有文本（包括子元素的文本）
-#     text = sel.xpath("string()").getall()
-#     return "".join(text).strip()
-def clean_html(html):
-    from bs4 import BeautifulSoup
-    try:
-        soup = BeautifulSoup(html, "lxml")
-        return soup.get_text()
-    except:
-        soup = BeautifulSoup(html, "html5lib")
-        return soup.get_text()
-def remove_spaces_between_chinese_characters(text):
-    """
-    匹配中文间的空格并替换为空字符串
-    这里没有选取 后面的一些扩展分区 是那些分区比较分散 都写进来消耗性能,
-    认为只包含这些也够用了
-    """
-    pattern = r'(?<=[\u3400-\u9fff])\s+(?=[\u3400-\u9fff])'
-    return re.sub(pattern, '', text)
-sim_utils = JaroDamerauLevenshteinMaxSim()
-def group_similar_texts(texts, threshold=0.9):
-    """根据相似度对文本进行分组"""
-    from re_common.v2.baselibrary.utils.string_clear import rel_clear
-    n = len(texts)
-    # 创建邻接表表示图
-    graph = [[] for _ in range(n)]
-    # 计算所有文本对的相似度并构建图
-    for i, j in combinations(range(n), 2):
-        similarity = sim_utils.get_sim(rel_clear(texts[i]), rel_clear(texts[j]))
-        if similarity >= threshold:
-            graph[i].append(j)
-            graph[j].append(i)
-    visited = [False] * n
-    groups = []
-    # 使用DFS找到连通分量
-    def dfs(node, group):
-        visited[node] = True
-        group.append(node)
-        for neighbor in graph[node]:
-            if not visited[neighbor]:
-                dfs(neighbor, group)
-    # 找到所有连通分量
-    for i in range(n):
-        if not visited[i]:
-            current_group = []
-            dfs(i, current_group)
-            groups.append(current_group)
-    return groups
-def get_group_abstract(lists):
-    """
-    这是一个 分组程序 ，会根据简单的连通图分组
-    lists: [(id,txt),...]
-    return: all_list 返回一个二维列表 每个列表里面是id 每个列表为一个分组
-    """
-    abstract_list = [i[1] for i in lists]
-    keyid_list = [i[0] for i in lists]
-    groups = group_similar_texts(abstract_list, threshold=0.9)
-    all_list = []
-    for group in groups:
-        t_list = []
-        for text_idx in group:
-            t_list.append(keyid_list[text_idx])
-        all_list.append(t_list)
-    return all_list
-def clean_unicode_alnum(text: str) -> str:
-    """
-    清除所有非 Unicode 字母或数字的字符。
-    参数:
-        text (str): 输入文本。
-    返回:
-        str: 只包含 Unicode 字母和数字的文本。
-    \p{N} 匹配所有 Unicode 数字字符 包括非阿拉伯数字字符
-    \p{L} 匹配所有语言字符
-    """
-    return regex.sub(r"[^\p{L}\p{N}]+", "", text)
+import re
+import threading
+from html.parser import HTMLParser
+from itertools import combinations
+import regex
+import unicodedata
+from re_common.v2.baselibrary.utils.string_smi import JaroDamerauLevenshteinMaxSim
+def bj2qj(src):
+    if src is None:
+        return src
+    DBC_SPACE = ' '
+    SBC_SPACE = '　'
+    DBC_CHAR_START = 33
+    DBC_CHAR_END = 126
+    CONVERT_STEP = 65248
+    buf = []
+    for char in src:
+        if char == DBC_SPACE:
+            buf.append(SBC_SPACE)
+        elif DBC_CHAR_START <= ord(char) <= DBC_CHAR_END:
+            buf.append(chr(ord(char) + CONVERT_STEP))
+        else:
+            buf.append(char)
+    return ''.join(buf)
+def qj2bj(text):
+    if text is None:
+        return text
+    # 预构建全角到半角的转换映射表（只需构建一次）
+    if not hasattr(qj2bj, 'trans_table'):
+        trans_map = {}
+        # 处理全角空格
+        trans_map[0x3000] = 0x0020
+        # 处理全角字符范围FF01-FF5E
+        for code in range(0xFF01, 0xFF5F):
+            trans_map[code] = code - 0xFEE0
+        # 创建转换表（字符到字符的映射）
+        qj2bj.trans_table = str.maketrans(
+            {chr(k): chr(v) for k, v in trans_map.items()}
+        )
+    # 使用预编译的转换表进行高效替换
+    return text.translate(qj2bj.trans_table)
+"""
+总结对比表
+规范名	处理步骤	组合方式	兼容性归一化	主要用途
+NFC	规范分解 → 规范组合	组合	否	保留预组合字符，文本呈现和存储
+NFD	规范分解	不组合	否	拆解字符，便于逐字符处理
+NFKC	兼容性分解 → 规范组合	组合	是	消除兼容差异，文本比较和索引
+NFKD	兼容性分解 → 规范分解	不组合	是	最大程度拆解，文本分析和预处理
+"""
+def get_diacritic_variant(char1):
+    """
+    NFD: 规范分解（Normalization Form D）
+    把字符拆分为基本字符 + 变音符号
+    但不处理兼容字符（如连字）
+    print(unicodedata.normalize('NFD', 'é'))  # 输出: 'é'（e + 组合符号） # 这里看起来是1个字符 len 其实是2
+    print(unicodedata.normalize('NFD', 'ﬂ'))  # 输出: 'ﬂ'（不变化）
+    """
+    # 将字符转换为标准的 Unicode 形式
+    normalized_char1 = unicodedata.normalize('NFD', char1)
+    # 获取基本字符（去掉变音符号）
+    base_char1 = ''.join(c for c in normalized_char1 if unicodedata.category(c) != 'Mn')
+    # 判断基本字符是否相同
+    return base_char1
+def normalize_nfkc(strs: str) -> str:
+    """
+    NFKC: 兼容字符归一化 + 组合（Normalization Form Compatibility Composition）
+    把 连字、圈数字、全角字符 等兼容字符转换为标准形式
+    同时做字符合并（例如 é 不再是 e+´，而是一个字符）
+    print(unicodedata.normalize('NFKC', 'ﬂ'))   # 输出: 'fl'
+    print(unicodedata.normalize('NFKC', '①'))   # 输出: '1'
+    print(unicodedata.normalize('NFKC', 'Ａ'))  # 输出: 'A'
+    """
+    return unicodedata.normalize('NFKC', strs.strip())
+def get_alphabetic_ratio(text: str) -> float:
+    # 返回字母型字符所占比例
+    if not text:
+        return 0
+    text = re.sub(r'\d+', '', text)
+    # 正则表达式匹配字母型文字（包括拉丁字母、希腊字母、西里尔字母、阿拉伯字母等）
+    alphabetic_pattern = (
+        r"[\u0041-\u005A\u0061-\u007A"  # 拉丁字母 (A-Z, a-z)
+        r"\u00C0-\u00FF"  # 带重音符号的拉丁字母 (À-ÿ)
+        r"\u0080–\u00FF"  # 拉丁字母补充1
+        r"\u0100–\u017F"  # 拉丁字母扩展A
+        r"\u1E00-\u1EFF"  # 拉丁扩展 (Latin Extended Additional)
+        r"\u0180-\u024F"  # 拉丁扩展-B (Latin Extended-B)
+        r"\u2C60-\u2C7F"  # 拉丁扩展-C (Latin Extended Additional)
+        r"\uA720-\uA7FF"  # 拉丁扩展-D (Latin Extended Additional)
+        r"\uAB30-\uAB6F"  # 拉丁扩展-E (Latin Extended Additional)
+        r"]"
+    )
+    # 使用正则表达式过滤出语言文字
+    clean_text = regex.sub(r"[^\p{L}]", "", text)
+    if len(clean_text) == 0:
+        return 1.0
+    # 匹配所有字母型字符
+    alphabetic_chars = re.findall(alphabetic_pattern, clean_text)
+    # 返回字母型字符所占比例
+    return len(alphabetic_chars) / len(clean_text)
+class HTMLTextExtractor(HTMLParser):
+    _thread_local = threading.local()  # 线程局部存储
+    def __init__(self):
+        super().__init__()
+        self.reset_state()
+    def handle_starttag(self, tag, attrs):
+        if tag in ('script', 'style'):
+            self.skip = True
+    def handle_endtag(self, tag):
+        if tag in ('script', 'style'):
+            self.skip = False
+    def handle_data(self, data):
+        if not self.skip and data.strip():
+            self.text.append(data)
+    def reset_state(self):
+        self.reset()
+        self.text = []
+        self.skip = False
+    def get_text(self):
+        return ''.join(self.text).strip()
+    @classmethod
+    def get_parser(cls):
+        # 每个线程获取独立实例
+        if not hasattr(cls._thread_local, 'parser'):
+            cls._thread_local.parser = cls()
+        return cls._thread_local.parser
+# def clean_html(html):
+#     parser = HTMLTextExtractor.get_parser()
+#     parser.reset_state()
+#     parser.feed(html)
+#     parser.close()
+#     return parser.get_text()
+# def clean_html(html):
+#     """使用 Parsel 提取 HTML 中的纯文本"""
+#     sel = Selector(text=html, type='html')
+#     # 提取所有文本（包括子元素的文本）
+#     text = sel.xpath("string()").getall()
+#     return "".join(text).strip()
+def clean_html(html):
+    if "<" in html:
+        from bs4 import BeautifulSoup
+        try:
+            soup = BeautifulSoup(html, "lxml")
+            return soup.get_text()
+        except:
+            soup = BeautifulSoup(html, "html5lib")
+            return soup.get_text()
+    return html
+def remove_spaces_between_chinese_characters(text):
+    """
+    匹配中文间的空格并替换为空字符串
+    这里没有选取 后面的一些扩展分区 是那些分区比较分散 都写进来消耗性能,
+    认为只包含这些也够用了
+    """
+    pattern = r'(?<=[\u3400-\u9fff])\s+(?=[\u3400-\u9fff])'
+    return re.sub(pattern, '', text)
+sim_utils = JaroDamerauLevenshteinMaxSim()
+def group_similar_texts(texts, threshold=0.9):
+    """根据相似度对文本进行分组"""
+    from re_common.v2.baselibrary.utils.string_clear import rel_clear
+    n = len(texts)
+    # 创建邻接表表示图
+    graph = [[] for _ in range(n)]
+    # 计算所有文本对的相似度并构建图
+    for i, j in combinations(range(n), 2):
+        similarity = sim_utils.get_sim(rel_clear(texts[i]), rel_clear(texts[j]))
+        if similarity >= threshold:
+            graph[i].append(j)
+            graph[j].append(i)
+    visited = [False] * n
+    groups = []
+    # 使用DFS找到连通分量
+    def dfs(node, group):
+        visited[node] = True
+        group.append(node)
+        for neighbor in graph[node]:
+            if not visited[neighbor]:
+                dfs(neighbor, group)
+    # 找到所有连通分量
+    for i in range(n):
+        if not visited[i]:
+            current_group = []
+            dfs(i, current_group)
+            groups.append(current_group)
+    return groups
+def get_group_abstract(lists):
+    """
+    这是一个 分组程序 ，会根据简单的连通图分组
+    lists: [(id,txt),...]
+    return: all_list 返回一个二维列表 每个列表里面是id 每个列表为一个分组
+    """
+    abstract_list = [i[1] for i in lists]
+    keyid_list = [i[0] for i in lists]
+    groups = group_similar_texts(abstract_list, threshold=0.9)
+    all_list = []
+    for group in groups:
+        t_list = []
+        for text_idx in group:
+            t_list.append(keyid_list[text_idx])
+        all_list.append(t_list)
+    return all_list
+def clean_unicode_alnum(text: str) -> str:
+    """
+    清除所有非 Unicode 字母或数字的字符。
+    参数:
+        text (str): 输入文本。
+    返回:
+        str: 只包含 Unicode 字母和数字的文本。
+    \p{N} 匹配所有 Unicode 数字字符 包括非阿拉伯数字字符
+    \p{L} 匹配所有语言字符
+    """
+    return regex.sub(r"[^\p{L}\p{N}]+", "", text)

re_common/vip/base_step_process.py CHANGED Viewed

@@ -1,11 +1,11 @@
-from abc import ABC, abstractmethod
-class BaseStepProcess(ABC):
-    def __init__(self):
-        self.stat_dicts = {}
-    @abstractmethod
-    def do_task(self, *args, **kwargs):
-        pass
+from abc import ABC, abstractmethod
+class BaseStepProcess(ABC):
+    def __init__(self):
+        self.stat_dicts = {}
+    @abstractmethod
+    def do_task(self, *args, **kwargs):
+        pass

re-common 10.0.37__py3-none-any.whl → 10.0.39__py3-none-any.whl

re-common 10.0.37py3-none-any.whl → 10.0.39py3-none-any.whl