PyPI - re-common - Versions diffs - 10.0.22__py3-none-any.whl → 10.0.24__py3-none-any.whl - Mend

re-common 10.0.22py3-none-any.whl → 10.0.24py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +195 -0
re_common/v2/baselibrary/business_utils/__init__.py +0 -0
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -0
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -79
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/dict_tools.py +37 -37
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/list_tools.py +65 -65
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/author_smi.py +360 -360
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +161 -161
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +77 -77
re_common/v2/baselibrary/utils/db.py +38 -38
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +186 -149
re_common/v2/baselibrary/utils/string_clear.py +227 -204
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +213 -213
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/LICENSE +201 -201
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/METADATA +16 -16
re_common-10.0.24.dist-info/RECORD +230 -0
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/WHEEL +1 -1
re_common-10.0.22.dist-info/RECORD +0 -227
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/utils/stringutils.py CHANGED Viewed

@@ -1,213 +1,213 @@
-import re
-import threading
-from itertools import combinations
-import regex
-import unicodedata
-from html.parser import HTMLParser
-from re_common.v2.baselibrary.utils.string_smi import JaroDamerauLevenshteinMaxSim
-def bj2qj(src):
-    if src is None:
-        return src
-    DBC_SPACE = ' '
-    SBC_SPACE = '　'
-    DBC_CHAR_START = 33
-    DBC_CHAR_END = 126
-    CONVERT_STEP = 65248
-    buf = []
-    for char in src:
-        if char == DBC_SPACE:
-            buf.append(SBC_SPACE)
-        elif DBC_CHAR_START <= ord(char) <= DBC_CHAR_END:
-            buf.append(chr(ord(char) + CONVERT_STEP))
-        else:
-            buf.append(char)
-    return ''.join(buf)
-def qj2bj(src):
-    """
-    全角转半角
-    :param src:
-    :return:
-    """
-    if src is None:
-        return src
-    SBC_CHAR_START = 0xFF01
-    SBC_CHAR_END = 0xFF5E
-    CONVERT_STEP = 0xFEE0
-    DBC_SPACE = ' '
-    SBC_SPACE = '　'
-    buf = []
-    for char in src:
-        if SBC_CHAR_START <= ord(char) <= SBC_CHAR_END:
-            buf.append(chr(ord(char) - CONVERT_STEP))
-        elif char == SBC_SPACE:
-            buf.append(DBC_SPACE)
-        else:
-            buf.append(char)
-    return ''.join(buf)
-def get_diacritic_variant(char1):
-    # 将字符转换为标准的 Unicode 形式
-    normalized_char1 = unicodedata.normalize('NFD', char1)
-    # 获取基本字符（去掉变音符号）
-    base_char1 = ''.join(c for c in normalized_char1 if unicodedata.category(c) != 'Mn')
-    # 判断基本字符是否相同
-    return base_char1
-def get_alphabetic_ratio(text: str) -> float:
-    # 返回字母型字符所占比例
-    if not text:
-        return 0
-    text = re.sub(r'\d+', '', text)
-    # 正则表达式匹配字母型文字（包括拉丁字母、希腊字母、西里尔字母、阿拉伯字母等）
-    alphabetic_pattern = (
-        r"[\u0041-\u005A\u0061-\u007A"  # 拉丁字母 (A-Z, a-z)
-        r"\u00C0-\u00FF"  # 带重音符号的拉丁字母 (À-ÿ)
-        r"\u0080–\u00FF"  # 拉丁字母补充1
-        r"\u0100–\u017F"  # 拉丁字母扩展A
-        r"\u1E00-\u1EFF"  # 拉丁扩展 (Latin Extended Additional)
-        r"\u0180-\u024F"  # 拉丁扩展-B (Latin Extended-B)
-        r"\u2C60-\u2C7F"  # 拉丁扩展-C (Latin Extended Additional)
-        r"\uA720-\uA7FF"  # 拉丁扩展-D (Latin Extended Additional)
-        r"\uAB30-\uAB6F"  # 拉丁扩展-E (Latin Extended Additional)
-        r"]"
-    )
-    # 使用正则表达式过滤出语言文字
-    clean_text = regex.sub(r"[^\p{L}]", "", text)
-    if len(clean_text) == 0:
-        return 1.0
-    # 匹配所有字母型字符
-    alphabetic_chars = re.findall(alphabetic_pattern, clean_text)
-    # 返回字母型字符所占比例
-    return len(alphabetic_chars) / len(clean_text)
-class HTMLTextExtractor(HTMLParser):
-    _thread_local = threading.local()  # 线程局部存储
-    def __init__(self):
-        super().__init__()
-        self.reset_state()
-    def handle_starttag(self, tag, attrs):
-        if tag in ('script', 'style'):
-            self.skip = True
-    def handle_endtag(self, tag):
-        if tag in ('script', 'style'):
-            self.skip = False
-    def handle_data(self, data):
-        if not self.skip and data.strip():
-            self.text.append(data)
-    def reset_state(self):
-        self.reset()
-        self.text = []
-        self.skip = False
-    def get_text(self):
-        return ''.join(self.text).strip()
-    @classmethod
-    def get_parser(cls):
-        # 每个线程获取独立实例
-        if not hasattr(cls._thread_local, 'parser'):
-            cls._thread_local.parser = cls()
-        return cls._thread_local.parser
-def clean_html(html):
-    parser = HTMLTextExtractor.get_parser()
-    parser.reset_state()
-    parser.feed(html)
-    parser.close()
-    return parser.get_text()
-def remove_spaces_between_chinese_characters(text):
-    """
-    匹配中文间的空格并替换为空字符串
-    这里没有选取 后面的一些扩展分区 是那些分区比较分散 都写进来消耗性能,
-    认为只包含这些也够用了
-    """
-    pattern = r'(?<=[\u3400-\u9fff])\s+(?=[\u3400-\u9fff])'
-    return re.sub(pattern, '', text)
-sim_utils = JaroDamerauLevenshteinMaxSim()
-def group_similar_texts(texts, threshold=0.9):
-    """根据相似度对文本进行分组"""
-    from re_common.v2.baselibrary.utils.string_clear import rel_clear
-    n = len(texts)
-    # 创建邻接表表示图
-    graph = [[] for _ in range(n)]
-    # 计算所有文本对的相似度并构建图
-    for i, j in combinations(range(n), 2):
-        similarity = sim_utils.get_sim(rel_clear(texts[i]), rel_clear(texts[j]))
-        if similarity >= threshold:
-            graph[i].append(j)
-            graph[j].append(i)
-    visited = [False] * n
-    groups = []
-    # 使用DFS找到连通分量
-    def dfs(node, group):
-        visited[node] = True
-        group.append(node)
-        for neighbor in graph[node]:
-            if not visited[neighbor]:
-                dfs(neighbor, group)
-    # 找到所有连通分量
-    for i in range(n):
-        if not visited[i]:
-            current_group = []
-            dfs(i, current_group)
-            groups.append(current_group)
-    return groups
-def get_group_abstract(lists):
-    """
-    这是一个 分组程序 ，会根据简单的连通图分组
-    lists: [(id,txt),...]
-    return: all_list 返回一个二维列表 每个列表里面是id 每个列表为一个分组
-    """
-    abstract_list = [i[1] for i in lists]
-    keyid_list = [i[0] for i in lists]
-    groups = group_similar_texts(abstract_list, threshold=0.9)
-    all_list = []
-    for group in groups:
-        t_list = []
-        for text_idx in group:
-            t_list.append(keyid_list[text_idx])
-        all_list.append(t_list)
-    return all_list
+import re
+import threading
+from itertools import combinations
+import regex
+import unicodedata
+from html.parser import HTMLParser
+from re_common.v2.baselibrary.utils.string_smi import JaroDamerauLevenshteinMaxSim
+def bj2qj(src):
+    if src is None:
+        return src
+    DBC_SPACE = ' '
+    SBC_SPACE = '　'
+    DBC_CHAR_START = 33
+    DBC_CHAR_END = 126
+    CONVERT_STEP = 65248
+    buf = []
+    for char in src:
+        if char == DBC_SPACE:
+            buf.append(SBC_SPACE)
+        elif DBC_CHAR_START <= ord(char) <= DBC_CHAR_END:
+            buf.append(chr(ord(char) + CONVERT_STEP))
+        else:
+            buf.append(char)
+    return ''.join(buf)
+def qj2bj(src):
+    """
+    全角转半角
+    :param src:
+    :return:
+    """
+    if src is None:
+        return src
+    SBC_CHAR_START = 0xFF01
+    SBC_CHAR_END = 0xFF5E
+    CONVERT_STEP = 0xFEE0
+    DBC_SPACE = ' '
+    SBC_SPACE = '　'
+    buf = []
+    for char in src:
+        if SBC_CHAR_START <= ord(char) <= SBC_CHAR_END:
+            buf.append(chr(ord(char) - CONVERT_STEP))
+        elif char == SBC_SPACE:
+            buf.append(DBC_SPACE)
+        else:
+            buf.append(char)
+    return ''.join(buf)
+def get_diacritic_variant(char1):
+    # 将字符转换为标准的 Unicode 形式
+    normalized_char1 = unicodedata.normalize('NFD', char1)
+    # 获取基本字符（去掉变音符号）
+    base_char1 = ''.join(c for c in normalized_char1 if unicodedata.category(c) != 'Mn')
+    # 判断基本字符是否相同
+    return base_char1
+def get_alphabetic_ratio(text: str) -> float:
+    # 返回字母型字符所占比例
+    if not text:
+        return 0
+    text = re.sub(r'\d+', '', text)
+    # 正则表达式匹配字母型文字（包括拉丁字母、希腊字母、西里尔字母、阿拉伯字母等）
+    alphabetic_pattern = (
+        r"[\u0041-\u005A\u0061-\u007A"  # 拉丁字母 (A-Z, a-z)
+        r"\u00C0-\u00FF"  # 带重音符号的拉丁字母 (À-ÿ)
+        r"\u0080–\u00FF"  # 拉丁字母补充1
+        r"\u0100–\u017F"  # 拉丁字母扩展A
+        r"\u1E00-\u1EFF"  # 拉丁扩展 (Latin Extended Additional)
+        r"\u0180-\u024F"  # 拉丁扩展-B (Latin Extended-B)
+        r"\u2C60-\u2C7F"  # 拉丁扩展-C (Latin Extended Additional)
+        r"\uA720-\uA7FF"  # 拉丁扩展-D (Latin Extended Additional)
+        r"\uAB30-\uAB6F"  # 拉丁扩展-E (Latin Extended Additional)
+        r"]"
+    )
+    # 使用正则表达式过滤出语言文字
+    clean_text = regex.sub(r"[^\p{L}]", "", text)
+    if len(clean_text) == 0:
+        return 1.0
+    # 匹配所有字母型字符
+    alphabetic_chars = re.findall(alphabetic_pattern, clean_text)
+    # 返回字母型字符所占比例
+    return len(alphabetic_chars) / len(clean_text)
+class HTMLTextExtractor(HTMLParser):
+    _thread_local = threading.local()  # 线程局部存储
+    def __init__(self):
+        super().__init__()
+        self.reset_state()
+    def handle_starttag(self, tag, attrs):
+        if tag in ('script', 'style'):
+            self.skip = True
+    def handle_endtag(self, tag):
+        if tag in ('script', 'style'):
+            self.skip = False
+    def handle_data(self, data):
+        if not self.skip and data.strip():
+            self.text.append(data)
+    def reset_state(self):
+        self.reset()
+        self.text = []
+        self.skip = False
+    def get_text(self):
+        return ''.join(self.text).strip()
+    @classmethod
+    def get_parser(cls):
+        # 每个线程获取独立实例
+        if not hasattr(cls._thread_local, 'parser'):
+            cls._thread_local.parser = cls()
+        return cls._thread_local.parser
+def clean_html(html):
+    parser = HTMLTextExtractor.get_parser()
+    parser.reset_state()
+    parser.feed(html)
+    parser.close()
+    return parser.get_text()
+def remove_spaces_between_chinese_characters(text):
+    """
+    匹配中文间的空格并替换为空字符串
+    这里没有选取 后面的一些扩展分区 是那些分区比较分散 都写进来消耗性能,
+    认为只包含这些也够用了
+    """
+    pattern = r'(?<=[\u3400-\u9fff])\s+(?=[\u3400-\u9fff])'
+    return re.sub(pattern, '', text)
+sim_utils = JaroDamerauLevenshteinMaxSim()
+def group_similar_texts(texts, threshold=0.9):
+    """根据相似度对文本进行分组"""
+    from re_common.v2.baselibrary.utils.string_clear import rel_clear
+    n = len(texts)
+    # 创建邻接表表示图
+    graph = [[] for _ in range(n)]
+    # 计算所有文本对的相似度并构建图
+    for i, j in combinations(range(n), 2):
+        similarity = sim_utils.get_sim(rel_clear(texts[i]), rel_clear(texts[j]))
+        if similarity >= threshold:
+            graph[i].append(j)
+            graph[j].append(i)
+    visited = [False] * n
+    groups = []
+    # 使用DFS找到连通分量
+    def dfs(node, group):
+        visited[node] = True
+        group.append(node)
+        for neighbor in graph[node]:
+            if not visited[neighbor]:
+                dfs(neighbor, group)
+    # 找到所有连通分量
+    for i in range(n):
+        if not visited[i]:
+            current_group = []
+            dfs(i, current_group)
+            groups.append(current_group)
+    return groups
+def get_group_abstract(lists):
+    """
+    这是一个 分组程序 ，会根据简单的连通图分组
+    lists: [(id,txt),...]
+    return: all_list 返回一个二维列表 每个列表里面是id 每个列表为一个分组
+    """
+    abstract_list = [i[1] for i in lists]
+    keyid_list = [i[0] for i in lists]
+    groups = group_similar_texts(abstract_list, threshold=0.9)
+    all_list = []
+    for group in groups:
+        t_list = []
+        for text_idx in group:
+            t_list.append(keyid_list[text_idx])
+        all_list.append(t_list)
+    return all_list

re_common/vip/base_step_process.py CHANGED Viewed

@@ -1,11 +1,11 @@
-from abc import ABC, abstractmethod
-class BaseStepProcess(ABC):
-    def __init__(self):
-        self.stat_dicts = {}
-    @abstractmethod
-    def do_task(self, *args, **kwargs):
-        pass
+from abc import ABC, abstractmethod
+class BaseStepProcess(ABC):
+    def __init__(self):
+        self.stat_dicts = {}
+    @abstractmethod
+    def do_task(self, *args, **kwargs):
+        pass

re_common/vip/baseencodeid.py CHANGED Viewed

@@ -1,91 +1,91 @@
-import base64
-import hashlib
-"""
-VIP编码lngid生成
-"""
-class BaseLngid(object):
-    def __int__(self):
-        pass
-    def BaseEncodeID(self, strRaw):
-        r""" 自定义base编码 """
-        strEncode = base64.b32encode(strRaw.encode('utf8')).decode('utf8')
-        if strEncode.endswith('======'):
-            strEncode = '%s%s' % (strEncode[0:-6], '0')
-        elif strEncode.endswith('===='):
-            strEncode = '%s%s' % (strEncode[0:-4], '1')
-        elif strEncode.endswith('==='):
-            strEncode = '%s%s' % (strEncode[0:-3], '8')
-        elif strEncode.endswith('='):
-            strEncode = '%s%s' % (strEncode[0:-1], '9')
-        table = str.maketrans('0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'ZYXWVUTSRQPONMLKJIHGFEDCBA9876543210')
-        strEncode = strEncode.translate(table)
-        return strEncode
-    def BaseDecodeID(self, strEncode):
-        r""" 自定义base解码 """
-        table = str.maketrans('ZYXWVUTSRQPONMLKJIHGFEDCBA9876543210', '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ')
-        strEncode = strEncode.translate(table)
-        if strEncode.endswith('0'):
-            strEncode = '%s%s' % (strEncode[0:-1], '======')
-        elif strEncode.endswith('1'):
-            strEncode = '%s%s' % (strEncode[0:-1], '====')
-        elif strEncode.endswith('8'):
-            strEncode = '%s%s' % (strEncode[0:-1], '===')
-        elif strEncode.endswith('9'):
-            strEncode = '%s%s' % (strEncode[0:-1], '=')
-        strRaw = base64.b32decode(strEncode.encode('utf8')).decode('utf8')
-        return strRaw
-    def GetLngid(self, sub_db_id, rawid, case_insensitive=False):
-        """
-        :param sub_db_id:
-        :param rawid:
-        由 sub_db_id 和 rawid 得到 lngid。
-        :param case_insensitive: 标识源网站的 rawid 是否区分大小写
-        :return: lngid
-        """
-        uppercase_rawid = ''  # 大写版 rawid
-        if case_insensitive:  # 源网站的 rawid 区分大小写
-            for ch in rawid:
-                if ch.upper() == ch:
-                    uppercase_rawid += ch
-                else:
-                    uppercase_rawid += ch.upper() + '_'
-        else:
-            uppercase_rawid = rawid.upper()
-        limited_id = uppercase_rawid  # 限长ID
-        if len(uppercase_rawid) > 20:
-            limited_id = hashlib.md5(uppercase_rawid.encode('utf8')).hexdigest().upper()
-        else:
-            limited_id = self.BaseEncodeID(uppercase_rawid)
-        lngid = sub_db_id + limited_id
-        return lngid
-    def GetRawid(self, limited_id, case_insensitive=False):
-        try:
-            uppercase_rawid = self.BaseDecodeID(limited_id)
-            if case_insensitive:
-                str_ = "_"
-                uppercase_rawid_list = list(uppercase_rawid)
-                for num,li in enumerate(uppercase_rawid_list):
-                    if li == str_:
-                        old_str = "".join(uppercase_rawid_list[num-1:num+1])
-                        uppercase_rawid = uppercase_rawid.replace(old_str,uppercase_rawid_list[num-1].lower())
-        except Exception as e:
-            raise Exception("长度超过20，不可逆")
+import base64
+import hashlib
+"""
+VIP编码lngid生成
+"""
+class BaseLngid(object):
+    def __int__(self):
+        pass
+    def BaseEncodeID(self, strRaw):
+        r""" 自定义base编码 """
+        strEncode = base64.b32encode(strRaw.encode('utf8')).decode('utf8')
+        if strEncode.endswith('======'):
+            strEncode = '%s%s' % (strEncode[0:-6], '0')
+        elif strEncode.endswith('===='):
+            strEncode = '%s%s' % (strEncode[0:-4], '1')
+        elif strEncode.endswith('==='):
+            strEncode = '%s%s' % (strEncode[0:-3], '8')
+        elif strEncode.endswith('='):
+            strEncode = '%s%s' % (strEncode[0:-1], '9')
+        table = str.maketrans('0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'ZYXWVUTSRQPONMLKJIHGFEDCBA9876543210')
+        strEncode = strEncode.translate(table)
+        return strEncode
+    def BaseDecodeID(self, strEncode):
+        r""" 自定义base解码 """
+        table = str.maketrans('ZYXWVUTSRQPONMLKJIHGFEDCBA9876543210', '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ')
+        strEncode = strEncode.translate(table)
+        if strEncode.endswith('0'):
+            strEncode = '%s%s' % (strEncode[0:-1], '======')
+        elif strEncode.endswith('1'):
+            strEncode = '%s%s' % (strEncode[0:-1], '====')
+        elif strEncode.endswith('8'):
+            strEncode = '%s%s' % (strEncode[0:-1], '===')
+        elif strEncode.endswith('9'):
+            strEncode = '%s%s' % (strEncode[0:-1], '=')
+        strRaw = base64.b32decode(strEncode.encode('utf8')).decode('utf8')
+        return strRaw
+    def GetLngid(self, sub_db_id, rawid, case_insensitive=False):
+        """
+        :param sub_db_id:
+        :param rawid:
+        由 sub_db_id 和 rawid 得到 lngid。
+        :param case_insensitive: 标识源网站的 rawid 是否区分大小写
+        :return: lngid
+        """
+        uppercase_rawid = ''  # 大写版 rawid
+        if case_insensitive:  # 源网站的 rawid 区分大小写
+            for ch in rawid:
+                if ch.upper() == ch:
+                    uppercase_rawid += ch
+                else:
+                    uppercase_rawid += ch.upper() + '_'
+        else:
+            uppercase_rawid = rawid.upper()
+        limited_id = uppercase_rawid  # 限长ID
+        if len(uppercase_rawid) > 20:
+            limited_id = hashlib.md5(uppercase_rawid.encode('utf8')).hexdigest().upper()
+        else:
+            limited_id = self.BaseEncodeID(uppercase_rawid)
+        lngid = sub_db_id + limited_id
+        return lngid
+    def GetRawid(self, limited_id, case_insensitive=False):
+        try:
+            uppercase_rawid = self.BaseDecodeID(limited_id)
+            if case_insensitive:
+                str_ = "_"
+                uppercase_rawid_list = list(uppercase_rawid)
+                for num,li in enumerate(uppercase_rawid_list):
+                    if li == str_:
+                        old_str = "".join(uppercase_rawid_list[num-1:num+1])
+                        uppercase_rawid = uppercase_rawid.replace(old_str,uppercase_rawid_list[num-1].lower())
+        except Exception as e:
+            raise Exception("长度超过20，不可逆")
         return uppercase_rawid

re-common 10.0.22__py3-none-any.whl → 10.0.24__py3-none-any.whl

re-common 10.0.22py3-none-any.whl → 10.0.24py3-none-any.whl