PyPI - re-common - Versions diffs - 10.0.22__py3-none-any.whl → 10.0.24__py3-none-any.whl - Mend

re-common 10.0.22py3-none-any.whl → 10.0.24py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

re_common/baselibrary/__init__.py +4 -4
re_common/baselibrary/baseabs/__init__.py +6 -6
re_common/baselibrary/baseabs/baseabs.py +26 -26
re_common/baselibrary/database/mbuilder.py +132 -132
re_common/baselibrary/database/moudle.py +93 -93
re_common/baselibrary/database/msqlite3.py +194 -194
re_common/baselibrary/database/mysql.py +169 -169
re_common/baselibrary/database/sql_factory.py +26 -26
re_common/baselibrary/mthread/MThreadingRun.py +486 -486
re_common/baselibrary/mthread/MThreadingRunEvent.py +349 -349
re_common/baselibrary/mthread/__init__.py +2 -2
re_common/baselibrary/mthread/mythreading.py +695 -695
re_common/baselibrary/pakge_other/socks.py +404 -404
re_common/baselibrary/readconfig/config_factory.py +18 -18
re_common/baselibrary/readconfig/ini_config.py +317 -317
re_common/baselibrary/readconfig/toml_config.py +49 -49
re_common/baselibrary/temporary/envdata.py +36 -36
re_common/baselibrary/tools/all_requests/aiohttp_request.py +118 -118
re_common/baselibrary/tools/all_requests/httpx_requet.py +102 -102
re_common/baselibrary/tools/all_requests/mrequest.py +412 -412
re_common/baselibrary/tools/all_requests/requests_request.py +81 -81
re_common/baselibrary/tools/batch_compre/bijiao_batch.py +31 -31
re_common/baselibrary/tools/contrast_db3.py +123 -123
re_common/baselibrary/tools/copy_file.py +39 -39
re_common/baselibrary/tools/db3_2_sizedb3.py +102 -102
re_common/baselibrary/tools/foreachgz.py +39 -39
re_common/baselibrary/tools/get_attr.py +10 -10
re_common/baselibrary/tools/image_to_pdf.py +61 -61
re_common/baselibrary/tools/java_code_deal.py +139 -139
re_common/baselibrary/tools/javacode.py +79 -79
re_common/baselibrary/tools/mdb_db3.py +48 -48
re_common/baselibrary/tools/merge_file.py +171 -171
re_common/baselibrary/tools/merge_gz_file.py +165 -165
re_common/baselibrary/tools/mhdfstools/down_hdfs_files.py +42 -42
re_common/baselibrary/tools/mhdfstools/hdfst.py +42 -42
re_common/baselibrary/tools/mhdfstools/up_hdfs_files.py +38 -38
re_common/baselibrary/tools/mongo_tools.py +50 -50
re_common/baselibrary/tools/move_file.py +170 -170
re_common/baselibrary/tools/move_mongo/mongo_table_to_file.py +63 -63
re_common/baselibrary/tools/move_mongo/move_mongo_table.py +354 -354
re_common/baselibrary/tools/move_mongo/use_mttf.py +18 -18
re_common/baselibrary/tools/move_mongo/use_mv.py +93 -93
re_common/baselibrary/tools/mpandas/mpandasreadexcel.py +125 -125
re_common/baselibrary/tools/mpandas/pandas_visualization.py +7 -7
re_common/baselibrary/tools/myparsel.py +104 -104
re_common/baselibrary/tools/rename_dir_file.py +37 -37
re_common/baselibrary/tools/sequoiadb_utils.py +398 -398
re_common/baselibrary/tools/split_line_to_many.py +25 -25
re_common/baselibrary/tools/stringtodicts.py +33 -33
re_common/baselibrary/tools/workwechant_bot.py +84 -84
re_common/baselibrary/utils/baseaiohttp.py +296 -296
re_common/baselibrary/utils/baseaiomysql.py +87 -87
re_common/baselibrary/utils/baseallstep.py +191 -191
re_common/baselibrary/utils/baseavro.py +19 -19
re_common/baselibrary/utils/baseboto3.py +291 -291
re_common/baselibrary/utils/basecsv.py +32 -32
re_common/baselibrary/utils/basedict.py +133 -133
re_common/baselibrary/utils/basedir.py +241 -241
re_common/baselibrary/utils/baseencode.py +351 -351
re_common/baselibrary/utils/baseencoding.py +28 -28
re_common/baselibrary/utils/baseesdsl.py +86 -86
re_common/baselibrary/utils/baseexcel.py +264 -264
re_common/baselibrary/utils/baseexcept.py +109 -109
re_common/baselibrary/utils/basefile.py +654 -654
re_common/baselibrary/utils/baseftp.py +214 -214
re_common/baselibrary/utils/basegzip.py +60 -60
re_common/baselibrary/utils/basehdfs.py +135 -135
re_common/baselibrary/utils/basehttpx.py +268 -268
re_common/baselibrary/utils/baseip.py +87 -87
re_common/baselibrary/utils/basejson.py +2 -2
re_common/baselibrary/utils/baselist.py +32 -32
re_common/baselibrary/utils/basemotor.py +190 -190
re_common/baselibrary/utils/basemssql.py +98 -98
re_common/baselibrary/utils/baseodbc.py +113 -113
re_common/baselibrary/utils/basepandas.py +302 -302
re_common/baselibrary/utils/basepeewee.py +11 -11
re_common/baselibrary/utils/basepika.py +180 -180
re_common/baselibrary/utils/basepydash.py +143 -143
re_common/baselibrary/utils/basepymongo.py +230 -230
re_common/baselibrary/utils/basequeue.py +22 -22
re_common/baselibrary/utils/baserar.py +57 -57
re_common/baselibrary/utils/baserequest.py +279 -279
re_common/baselibrary/utils/baseset.py +8 -8
re_common/baselibrary/utils/basesmb.py +403 -403
re_common/baselibrary/utils/basestring.py +382 -382
re_common/baselibrary/utils/basetime.py +320 -320
re_common/baselibrary/utils/baseurl.py +121 -121
re_common/baselibrary/utils/basezip.py +57 -57
re_common/baselibrary/utils/core/__init__.py +7 -7
re_common/baselibrary/utils/core/bottomutils.py +18 -18
re_common/baselibrary/utils/core/mdeprecated.py +327 -327
re_common/baselibrary/utils/core/mlamada.py +16 -16
re_common/baselibrary/utils/core/msginfo.py +25 -25
re_common/baselibrary/utils/core/requests_core.py +103 -103
re_common/baselibrary/utils/fateadm.py +429 -429
re_common/baselibrary/utils/importfun.py +123 -123
re_common/baselibrary/utils/mfaker.py +57 -57
re_common/baselibrary/utils/my_abc/__init__.py +3 -3
re_common/baselibrary/utils/my_abc/better_abc.py +32 -32
re_common/baselibrary/utils/mylogger.py +414 -414
re_common/baselibrary/utils/myredisclient.py +861 -861
re_common/baselibrary/utils/pipupgrade.py +21 -21
re_common/baselibrary/utils/ringlist.py +85 -85
re_common/baselibrary/utils/version_compare.py +36 -36
re_common/baselibrary/utils/ydmhttp.py +126 -126
re_common/facade/lazy_import.py +11 -11
re_common/facade/loggerfacade.py +25 -25
re_common/facade/mysqlfacade.py +467 -467
re_common/facade/now.py +31 -31
re_common/facade/sqlite3facade.py +257 -257
re_common/facade/use/mq_use_facade.py +83 -83
re_common/facade/use/proxy_use_facade.py +19 -19
re_common/libtest/base_dict_test.py +19 -19
re_common/libtest/baseavro_test.py +13 -13
re_common/libtest/basefile_test.py +14 -14
re_common/libtest/basemssql_test.py +77 -77
re_common/libtest/baseodbc_test.py +7 -7
re_common/libtest/basepandas_test.py +38 -38
re_common/libtest/get_attr_test/get_attr_test_settings.py +14 -14
re_common/libtest/get_attr_test/settings.py +54 -54
re_common/libtest/idencode_test.py +53 -53
re_common/libtest/iniconfig_test.py +35 -35
re_common/libtest/ip_test.py +34 -34
re_common/libtest/merge_file_test.py +20 -20
re_common/libtest/mfaker_test.py +8 -8
re_common/libtest/mm3_test.py +31 -31
re_common/libtest/mylogger_test.py +88 -88
re_common/libtest/myparsel_test.py +27 -27
re_common/libtest/mysql_test.py +151 -151
re_common/libtest/pymongo_test.py +21 -21
re_common/libtest/split_test.py +11 -11
re_common/libtest/sqlite3_merge_test.py +5 -5
re_common/libtest/sqlite3_test.py +34 -34
re_common/libtest/tomlconfig_test.py +30 -30
re_common/libtest/use_tools_test/__init__.py +2 -2
re_common/libtest/user/__init__.py +4 -4
re_common/studio/__init__.py +4 -4
re_common/studio/assignment_expressions.py +36 -36
re_common/studio/mydash/test1.py +18 -18
re_common/studio/pydashstudio/first.py +9 -9
re_common/studio/streamlitstudio/first_app.py +65 -65
re_common/studio/streamlitstudio/uber_pickups.py +23 -23
re_common/studio/test.py +18 -18
re_common/v2/baselibrary/business_utils/BusinessStringUtil.py +195 -0
re_common/v2/baselibrary/business_utils/__init__.py +0 -0
re_common/v2/baselibrary/business_utils/rel_tools.py +6 -0
re_common/v2/baselibrary/decorators/utils.py +59 -59
re_common/v2/baselibrary/s3object/baseboto3.py +230 -230
re_common/v2/baselibrary/tools/WeChatRobot.py +95 -79
re_common/v2/baselibrary/tools/ac_ahocorasick.py +75 -75
re_common/v2/baselibrary/tools/dict_tools.py +37 -37
re_common/v2/baselibrary/tools/dolphinscheduler.py +187 -187
re_common/v2/baselibrary/tools/hdfs_data_processer.py +338 -338
re_common/v2/baselibrary/tools/list_tools.py +65 -65
re_common/v2/baselibrary/tools/search_hash_tools.py +54 -54
re_common/v2/baselibrary/tools/text_matcher.py +326 -326
re_common/v2/baselibrary/tools/unionfind_tools.py +60 -60
re_common/v2/baselibrary/utils/BusinessStringUtil.py +196 -196
re_common/v2/baselibrary/utils/author_smi.py +360 -360
re_common/v2/baselibrary/utils/base_string_similarity.py +158 -158
re_common/v2/baselibrary/utils/basedict.py +37 -37
re_common/v2/baselibrary/utils/basehdfs.py +161 -161
re_common/v2/baselibrary/utils/basepika.py +180 -180
re_common/v2/baselibrary/utils/basetime.py +77 -77
re_common/v2/baselibrary/utils/db.py +38 -38
re_common/v2/baselibrary/utils/json_cls.py +16 -16
re_common/v2/baselibrary/utils/mq.py +83 -83
re_common/v2/baselibrary/utils/n_ary_expression_tree.py +243 -243
re_common/v2/baselibrary/utils/string_bool.py +186 -149
re_common/v2/baselibrary/utils/string_clear.py +227 -204
re_common/v2/baselibrary/utils/string_smi.py +18 -18
re_common/v2/baselibrary/utils/stringutils.py +213 -213
re_common/vip/base_step_process.py +11 -11
re_common/vip/baseencodeid.py +90 -90
re_common/vip/changetaskname.py +28 -28
re_common/vip/core_var.py +24 -24
re_common/vip/mmh3Hash.py +89 -89
re_common/vip/proxy/allproxys.py +127 -127
re_common/vip/proxy/allproxys_thread.py +159 -159
re_common/vip/proxy/cnki_proxy.py +153 -153
re_common/vip/proxy/kuaidaili.py +87 -87
re_common/vip/proxy/proxy_all.py +113 -113
re_common/vip/proxy/update_kuaidaili_0.py +42 -42
re_common/vip/proxy/wanfang_proxy.py +152 -152
re_common/vip/proxy/wp_proxy_all.py +181 -181
re_common/vip/read_rawid_to_txt.py +91 -91
re_common/vip/title/__init__.py +5 -5
re_common/vip/title/transform/TransformBookTitleToZt.py +125 -125
re_common/vip/title/transform/TransformConferenceTitleToZt.py +139 -139
re_common/vip/title/transform/TransformCstadTitleToZt.py +195 -195
re_common/vip/title/transform/TransformJournalTitleToZt.py +203 -203
re_common/vip/title/transform/TransformPatentTitleToZt.py +132 -132
re_common/vip/title/transform/TransformRegulationTitleToZt.py +114 -114
re_common/vip/title/transform/TransformStandardTitleToZt.py +135 -135
re_common/vip/title/transform/TransformThesisTitleToZt.py +135 -135
re_common/vip/title/transform/__init__.py +10 -10
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/LICENSE +201 -201
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/METADATA +16 -16
re_common-10.0.24.dist-info/RECORD +230 -0
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/WHEEL +1 -1
re_common-10.0.22.dist-info/RECORD +0 -227
{re_common-10.0.22.dist-info → re_common-10.0.24.dist-info}/top_level.txt +0 -0

re_common/v2/baselibrary/tools/text_matcher.py CHANGED Viewed

@@ -1,326 +1,326 @@
-import pickle
-import jieba
-import re
-from typing import List, Dict, Tuple, Set, Optional, Union, Hashable, Protocol
-from datasketch import MinHash, MinHashLSH
-from re_common.v2.baselibrary.decorators.utils import deprecated
-from re_common.v2.baselibrary.utils.string_bool import is_single_cjk_char
-@deprecated("请使用 TextMatcherV2 代替。")
-class TextMatcher(object):
-    def __init__(
-            self,
-            threshold: float = 0.5,
-            num_perm: int = 128,
-            is_raw_texts=True,
-            stopwords_path: Optional[str] = None,
-            user_dict_path: Optional[str] = None,
-    ):
-        """
-        初始化文本匹配器
-        Args:
-            threshold: LSH 相似度阈值
-            num_perm: MinHash 排列数
-            stopwords_path: 停用词文件路径
-            user_dict_path: 用户自定义词典路径
-        """
-        self.threshold = threshold
-        self.num_perm = num_perm
-        self.lsh = MinHashLSH(threshold=threshold, num_perm=num_perm)
-        # self.minhashes: Dict[str, MinHash] = {}
-        self.raw_texts: Dict[str, str] = {}
-        self.is_raw_texts = is_raw_texts
-        self.doc_counter = 0
-        # 加载停用词
-        self.stopwords: Set[str] = set()
-        if stopwords_path:
-            self.load_stopwords(stopwords_path)
-        # 加载用户词典
-        if user_dict_path:
-            jieba.load_userdict(user_dict_path)
-    def load_stopwords(self, stopwords_path: str) -> None:
-        """加载停用词"""
-        with open(stopwords_path, "r", encoding="utf-8") as f:
-            self.stopwords = set(line.strip() for line in f)
-    def preprocess_text(self, text: str) -> str:
-        """
-        文本预处理
-        """
-        # 转换为小写
-        text = text.lower()
-        # 移除特殊字符
-        text = re.sub(r"[^\w\s\u4e00-\u9fff]", "", text)
-        # 移除多余空格
-        text = re.sub(r"\s+", " ", text).strip()
-        return text
-    def tokenize(self, text: str) -> List[str]:
-        """
-        分词并移除停用词
-        """
-        words = jieba.lcut(text)
-        one_char_size = len([i for i in words if len(i) == 1])
-        all_size = len(words)
-        if all_size != 0 and one_char_size / all_size > 0.6:
-            words = [i for i in text.split() if i.strip()]
-        # 过滤停用词和空字符
-        words = [w for w in words if w not in self.stopwords and w.strip()]
-        return words
-    def create_minhash(self, words: List[str]) -> MinHash:
-        """
-        为分词结果创建 MinHash
-        """
-        minhash = MinHash(num_perm=self.num_perm)
-        for word in words:
-            minhash.update(word.encode("utf-8"))
-        return minhash
-    def add_document(self, text: str, doc_id: Optional[str] = None) -> str:
-        """
-        添加文档到索引
-        Args:
-            text: 文档文本
-            doc_id: 文档ID（可选）
-        Returns:
-            doc_id: 文档ID
-        """
-        if doc_id is None:
-            doc_id = f"doc_{self.doc_counter}"
-            self.doc_counter += 1
-        # 预处理和分词
-        processed_text = self.preprocess_text(text)
-        words = self.tokenize(processed_text)
-        # 创建 MinHash
-        minhash = self.create_minhash(words)
-        if self.is_raw_texts:
-            # 存储原始文本和 MinHash
-            self.raw_texts[doc_id] = text
-        # self.minhashes[doc_id] = minhash
-        # 添加到 LSH
-        self.lsh.insert(doc_id, minhash)
-        return doc_id
-    def batch_add_documents(self, texts: Dict[str, str]) -> None:
-        """
-        批量添加文档
-        Args:
-            texts: {doc_id: text} 的字典
-        """
-        for doc_id, text in texts.items():
-            self.add_document(text, doc_id)
-    def create_query_minhash(self, query: str):
-        # 预处理查询文本
-        processed_query = self.preprocess_text(query)
-        query_words = self.tokenize(processed_query)
-        # print(query_words)
-        query_minhash = self.create_minhash(query_words)
-        return query_minhash
-    def find_similar(self, query_minhash: MinHash, return_similarities: bool = False) -> Union[
-        List[str], List[Tuple[str, float]]]:
-        """
-        查找相似文档
-        Args:
-            query: 查询文本
-            return_similarities: 是否返回相似度分数
-        Returns:
-            如果 return_similarities 为 True，返回 [(doc_id, similarity), ...]
-            否则返回 [doc_id, ...]
-        """
-        # 使用 LSH 查找候选集
-        similar_docs = self.lsh.query(query_minhash)
-        # if return_similarities:
-        #     # 计算精确的 Jaccard 相似度
-        #     results = []
-        #     for doc_id in similar_docs:
-        #         similarity = query_minhash.jaccard(self.minhashes[doc_id])
-        #         results.append((doc_id, similarity))
-        #     # 按相似度降序排序
-        #     return sorted(results, key=lambda x: x[1], reverse=True)
-        return similar_docs
-    def get_text(self, doc_id: str) -> Optional[str]:
-        """获取原始文本"""
-        if self.is_raw_texts:
-            return self.raw_texts.get(doc_id)
-        raise Exception("没有开启存储")
-    def remove_document(self, doc_id: str) -> bool:
-        """
-        删除文档
-        Returns:
-            bool: 是否成功删除
-        """
-        # if doc_id not in self.minhashes:
-        #     return False
-        self.lsh.remove(doc_id)
-        # del self.minhashes[doc_id]
-        if self.is_raw_texts:
-            del self.raw_texts[doc_id]
-        return True
-    def clear(self) -> None:
-        """清空所有数据"""
-        self.lsh = MinHashLSH(threshold=self.threshold, num_perm=self.num_perm)
-        # self.minhashes.clear()
-        self.raw_texts.clear()
-        self.doc_counter = 0
-# 定义一个协议，描述“像鸭子一样”的行为
-class TokenizeDuckLike(Protocol):
-    def get_words(self, text) -> List:
-        pass
-class JiebaTokenize(object):
-    def __init__(self, stopwords=None):
-        self.stopwords = stopwords
-    def get_words(self, text) -> List:
-        if self.stopwords is None:
-            stopwords = []
-        words = jieba.lcut(text)
-        # 统计单字符数据 长度，防止结巴分词分不了的单词 将数据分为单个字符
-        # 这里为什么使用函数 而不是在推导式中兼容，主要是在一些 spark中 推导式的if 条件不遵循最短路径原则会将表达式当做一个整体算子
-        def is_singel_en(i):
-            if len(i) == 1 and not is_single_cjk_char(i):
-                return True
-            return False
-        one_char_size = len([i for i in words if is_singel_en(i)])
-        all_size = len(words)
-        # 如果单字符个数超过一定比例 就直接用空格分词
-        if all_size != 0 and one_char_size / all_size > 0.6:
-            words = [i for i in text.split() if i.strip()]
-        # 过滤停用词和空字符
-        words = [w for w in words if w not in stopwords and w.strip()]
-        return words
-class TextMatcherV2(object):
-    def __init__(
-            self,
-            threshold: float = 0.5,
-            num_perm: int = 128,
-            tdk: TokenizeDuckLike = None
-    ):
-        """
-        初始化文本匹配器
-        Args:
-            threshold: LSH 相似度阈值
-            num_perm: MinHash 排列数
-            stopwords_path: 停用词文件路径
-            user_dict_path: 用户自定义词典路径
-        """
-        self.threshold = threshold
-        self.num_perm = num_perm
-        self.lsh = MinHashLSH(threshold=threshold, num_perm=num_perm)
-        self.tdk = tdk
-    def add_document(self, doc_id: str, minhash: Union[MinHash, str], tdk: TokenizeDuckLike = None):
-        if isinstance(minhash, str):
-            minhash = self.str_to_minihash(minhash, tdk)
-        self.lsh.insert(doc_id, minhash)
-    def batch_add_documents(self, betch_data: Union[list, dict], tdk: TokenizeDuckLike = None):
-        def _add_document(minhash_or_str, tdk):
-            if isinstance(minhash_or_str, str):
-                minhash_or_str = self.str_to_minihash(minhash_or_str, tdk)
-            self.add_document(docid, minhash_or_str, tdk)
-        if isinstance(betch_data, list):
-            # 必须是可解包的2个数据的元组或list
-            for docid, minhash_or_str in betch_data:
-                _add_document(minhash_or_str, tdk)
-        elif isinstance(betch_data, dict):
-            for docid, minhash_or_str in betch_data.items():
-                _add_document(minhash_or_str, tdk)
-        else:
-            raise Exception("数据类型错误")
-    def find_similar(self, query_minhash: Union[MinHash, str], tdk: TokenizeDuckLike = None) -> List[Hashable]:
-        # 使用 LSH 查找候选集
-        if isinstance(query_minhash, str):
-            query_minhash = self.str_to_minihash(query_minhash, tdk)
-        similar_docs = self.lsh.query(query_minhash)
-        return similar_docs
-    def create_minhash(self, words: List[str], num_perm=None) -> MinHash:
-        """
-        为分词结果创建 MinHash
-        """
-        if num_perm is None:
-            num_perm = self.num_perm
-        minhash = MinHash(num_perm=num_perm)
-        for word in words:
-            minhash.update(word.encode("utf-8"))
-        return minhash
-    def create_words(self, text: str, tdk: TokenizeDuckLike = None):
-        if tdk is None:
-            tdk = self.tdk
-        worlds = tdk.get_words(text)
-        return worlds
-    def str_to_minihash(self, text: str, tdk: TokenizeDuckLike = None):
-        if tdk is None:
-            tdk = self.tdk
-        words = self.create_words(text, tdk)
-        minhash = self.create_minhash(words, self.num_perm)
-        return minhash
-    def minhash_dumps(self, minhash) -> bytes:
-        """
-        序列化
-        """
-        serialized_minhash = pickle.dumps(minhash)
-        return serialized_minhash
-    def minhash_loads(self, serialized_minhash) -> MinHash:
-        """
-        反序列化
-        """
-        minhash = pickle.loads(serialized_minhash)
-        return minhash
-    def merge_other_minhashlsh(self, other_minhashlsh: MinHashLSH):
-        """
-        在其他地方创建好的lsh 合并进来
-        """
-        self.lsh.merge(other_minhashlsh)
+import pickle
+import jieba
+import re
+from typing import List, Dict, Tuple, Set, Optional, Union, Hashable, Protocol
+from datasketch import MinHash, MinHashLSH
+from re_common.v2.baselibrary.decorators.utils import deprecated
+from re_common.v2.baselibrary.utils.string_bool import is_single_cjk_char
+@deprecated("请使用 TextMatcherV2 代替。")
+class TextMatcher(object):
+    def __init__(
+            self,
+            threshold: float = 0.5,
+            num_perm: int = 128,
+            is_raw_texts=True,
+            stopwords_path: Optional[str] = None,
+            user_dict_path: Optional[str] = None,
+    ):
+        """
+        初始化文本匹配器
+        Args:
+            threshold: LSH 相似度阈值
+            num_perm: MinHash 排列数
+            stopwords_path: 停用词文件路径
+            user_dict_path: 用户自定义词典路径
+        """
+        self.threshold = threshold
+        self.num_perm = num_perm
+        self.lsh = MinHashLSH(threshold=threshold, num_perm=num_perm)
+        # self.minhashes: Dict[str, MinHash] = {}
+        self.raw_texts: Dict[str, str] = {}
+        self.is_raw_texts = is_raw_texts
+        self.doc_counter = 0
+        # 加载停用词
+        self.stopwords: Set[str] = set()
+        if stopwords_path:
+            self.load_stopwords(stopwords_path)
+        # 加载用户词典
+        if user_dict_path:
+            jieba.load_userdict(user_dict_path)
+    def load_stopwords(self, stopwords_path: str) -> None:
+        """加载停用词"""
+        with open(stopwords_path, "r", encoding="utf-8") as f:
+            self.stopwords = set(line.strip() for line in f)
+    def preprocess_text(self, text: str) -> str:
+        """
+        文本预处理
+        """
+        # 转换为小写
+        text = text.lower()
+        # 移除特殊字符
+        text = re.sub(r"[^\w\s\u4e00-\u9fff]", "", text)
+        # 移除多余空格
+        text = re.sub(r"\s+", " ", text).strip()
+        return text
+    def tokenize(self, text: str) -> List[str]:
+        """
+        分词并移除停用词
+        """
+        words = jieba.lcut(text)
+        one_char_size = len([i for i in words if len(i) == 1])
+        all_size = len(words)
+        if all_size != 0 and one_char_size / all_size > 0.6:
+            words = [i for i in text.split() if i.strip()]
+        # 过滤停用词和空字符
+        words = [w for w in words if w not in self.stopwords and w.strip()]
+        return words
+    def create_minhash(self, words: List[str]) -> MinHash:
+        """
+        为分词结果创建 MinHash
+        """
+        minhash = MinHash(num_perm=self.num_perm)
+        for word in words:
+            minhash.update(word.encode("utf-8"))
+        return minhash
+    def add_document(self, text: str, doc_id: Optional[str] = None) -> str:
+        """
+        添加文档到索引
+        Args:
+            text: 文档文本
+            doc_id: 文档ID（可选）
+        Returns:
+            doc_id: 文档ID
+        """
+        if doc_id is None:
+            doc_id = f"doc_{self.doc_counter}"
+            self.doc_counter += 1
+        # 预处理和分词
+        processed_text = self.preprocess_text(text)
+        words = self.tokenize(processed_text)
+        # 创建 MinHash
+        minhash = self.create_minhash(words)
+        if self.is_raw_texts:
+            # 存储原始文本和 MinHash
+            self.raw_texts[doc_id] = text
+        # self.minhashes[doc_id] = minhash
+        # 添加到 LSH
+        self.lsh.insert(doc_id, minhash)
+        return doc_id
+    def batch_add_documents(self, texts: Dict[str, str]) -> None:
+        """
+        批量添加文档
+        Args:
+            texts: {doc_id: text} 的字典
+        """
+        for doc_id, text in texts.items():
+            self.add_document(text, doc_id)
+    def create_query_minhash(self, query: str):
+        # 预处理查询文本
+        processed_query = self.preprocess_text(query)
+        query_words = self.tokenize(processed_query)
+        # print(query_words)
+        query_minhash = self.create_minhash(query_words)
+        return query_minhash
+    def find_similar(self, query_minhash: MinHash, return_similarities: bool = False) -> Union[
+        List[str], List[Tuple[str, float]]]:
+        """
+        查找相似文档
+        Args:
+            query: 查询文本
+            return_similarities: 是否返回相似度分数
+        Returns:
+            如果 return_similarities 为 True，返回 [(doc_id, similarity), ...]
+            否则返回 [doc_id, ...]
+        """
+        # 使用 LSH 查找候选集
+        similar_docs = self.lsh.query(query_minhash)
+        # if return_similarities:
+        #     # 计算精确的 Jaccard 相似度
+        #     results = []
+        #     for doc_id in similar_docs:
+        #         similarity = query_minhash.jaccard(self.minhashes[doc_id])
+        #         results.append((doc_id, similarity))
+        #     # 按相似度降序排序
+        #     return sorted(results, key=lambda x: x[1], reverse=True)
+        return similar_docs
+    def get_text(self, doc_id: str) -> Optional[str]:
+        """获取原始文本"""
+        if self.is_raw_texts:
+            return self.raw_texts.get(doc_id)
+        raise Exception("没有开启存储")
+    def remove_document(self, doc_id: str) -> bool:
+        """
+        删除文档
+        Returns:
+            bool: 是否成功删除
+        """
+        # if doc_id not in self.minhashes:
+        #     return False
+        self.lsh.remove(doc_id)
+        # del self.minhashes[doc_id]
+        if self.is_raw_texts:
+            del self.raw_texts[doc_id]
+        return True
+    def clear(self) -> None:
+        """清空所有数据"""
+        self.lsh = MinHashLSH(threshold=self.threshold, num_perm=self.num_perm)
+        # self.minhashes.clear()
+        self.raw_texts.clear()
+        self.doc_counter = 0
+# 定义一个协议，描述“像鸭子一样”的行为
+class TokenizeDuckLike(Protocol):
+    def get_words(self, text) -> List:
+        pass
+class JiebaTokenize(object):
+    def __init__(self, stopwords=None):
+        self.stopwords = stopwords
+    def get_words(self, text) -> List:
+        if self.stopwords is None:
+            stopwords = []
+        words = jieba.lcut(text)
+        # 统计单字符数据 长度，防止结巴分词分不了的单词 将数据分为单个字符
+        # 这里为什么使用函数 而不是在推导式中兼容，主要是在一些 spark中 推导式的if 条件不遵循最短路径原则会将表达式当做一个整体算子
+        def is_singel_en(i):
+            if len(i) == 1 and not is_single_cjk_char(i):
+                return True
+            return False
+        one_char_size = len([i for i in words if is_singel_en(i)])
+        all_size = len(words)
+        # 如果单字符个数超过一定比例 就直接用空格分词
+        if all_size != 0 and one_char_size / all_size > 0.6:
+            words = [i for i in text.split() if i.strip()]
+        # 过滤停用词和空字符
+        words = [w for w in words if w not in stopwords and w.strip()]
+        return words
+class TextMatcherV2(object):
+    def __init__(
+            self,
+            threshold: float = 0.5,
+            num_perm: int = 128,
+            tdk: TokenizeDuckLike = None
+    ):
+        """
+        初始化文本匹配器
+        Args:
+            threshold: LSH 相似度阈值
+            num_perm: MinHash 排列数
+            stopwords_path: 停用词文件路径
+            user_dict_path: 用户自定义词典路径
+        """
+        self.threshold = threshold
+        self.num_perm = num_perm
+        self.lsh = MinHashLSH(threshold=threshold, num_perm=num_perm)
+        self.tdk = tdk
+    def add_document(self, doc_id: str, minhash: Union[MinHash, str], tdk: TokenizeDuckLike = None):
+        if isinstance(minhash, str):
+            minhash = self.str_to_minihash(minhash, tdk)
+        self.lsh.insert(doc_id, minhash)
+    def batch_add_documents(self, betch_data: Union[list, dict], tdk: TokenizeDuckLike = None):
+        def _add_document(minhash_or_str, tdk):
+            if isinstance(minhash_or_str, str):
+                minhash_or_str = self.str_to_minihash(minhash_or_str, tdk)
+            self.add_document(docid, minhash_or_str, tdk)
+        if isinstance(betch_data, list):
+            # 必须是可解包的2个数据的元组或list
+            for docid, minhash_or_str in betch_data:
+                _add_document(minhash_or_str, tdk)
+        elif isinstance(betch_data, dict):
+            for docid, minhash_or_str in betch_data.items():
+                _add_document(minhash_or_str, tdk)
+        else:
+            raise Exception("数据类型错误")
+    def find_similar(self, query_minhash: Union[MinHash, str], tdk: TokenizeDuckLike = None) -> List[Hashable]:
+        # 使用 LSH 查找候选集
+        if isinstance(query_minhash, str):
+            query_minhash = self.str_to_minihash(query_minhash, tdk)
+        similar_docs = self.lsh.query(query_minhash)
+        return similar_docs
+    def create_minhash(self, words: List[str], num_perm=None) -> MinHash:
+        """
+        为分词结果创建 MinHash
+        """
+        if num_perm is None:
+            num_perm = self.num_perm
+        minhash = MinHash(num_perm=num_perm)
+        for word in words:
+            minhash.update(word.encode("utf-8"))
+        return minhash
+    def create_words(self, text: str, tdk: TokenizeDuckLike = None):
+        if tdk is None:
+            tdk = self.tdk
+        worlds = tdk.get_words(text)
+        return worlds
+    def str_to_minihash(self, text: str, tdk: TokenizeDuckLike = None):
+        if tdk is None:
+            tdk = self.tdk
+        words = self.create_words(text, tdk)
+        minhash = self.create_minhash(words, self.num_perm)
+        return minhash
+    def minhash_dumps(self, minhash) -> bytes:
+        """
+        序列化
+        """
+        serialized_minhash = pickle.dumps(minhash)
+        return serialized_minhash
+    def minhash_loads(self, serialized_minhash) -> MinHash:
+        """
+        反序列化
+        """
+        minhash = pickle.loads(serialized_minhash)
+        return minhash
+    def merge_other_minhashlsh(self, other_minhashlsh: MinHashLSH):
+        """
+        在其他地方创建好的lsh 合并进来
+        """
+        self.lsh.merge(other_minhashlsh)

re-common 10.0.22__py3-none-any.whl → 10.0.24__py3-none-any.whl

re-common 10.0.22py3-none-any.whl → 10.0.24py3-none-any.whl