PyPI - py2ls - Versions diffs - 0.1.10.1__py3-none-any.whl → 0.1.10.2__py3-none-any.whl - Mend

py2ls 0.1.10.1py3-none-any.whl → 0.1.10.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

py2ls/ips.py +770 -2
py2ls/netfinder.py +33 -8
py2ls/ocr.py +258 -94
py2ls/translator.py +470 -119
{py2ls-0.1.10.1.dist-info → py2ls-0.1.10.2.dist-info}/METADATA +1 -1
{py2ls-0.1.10.1.dist-info → py2ls-0.1.10.2.dist-info}/RECORD +7 -7
{py2ls-0.1.10.1.dist-info → py2ls-0.1.10.2.dist-info}/WHEEL +1 -1

py2ls/translator.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import re
 import json
-import docx # pip install python-docx
+import docx  # pip install python-docx
 from PyPDF2 import PdfReader
 from langdetect import detect
 from googletrans import Translator as GoogleTranslator
@@ -14,70 +14,79 @@ import numpy as np
 from nltk.tokenize import sent_tokenize
 from itertools import pairwise
 from tqdm import tqdm
-from fuzzywuzzy import fuzz,process
+from fuzzywuzzy import fuzz, process
-def split_by_sent_n(text,n=10):
+def split_by_sent_n(text, n=10):
     # split text into sentences
-    text_split_by_sent=sent_tokenize(text)
-    cut_loc_array=np.arange(0,len(text_split_by_sent),n)
-    if cut_loc_array[-1]!=len(text_split_by_sent):
-        cut_loc=np.append(cut_loc_array,len(text_split_by_sent))
+    text_split_by_sent = sent_tokenize(text)
+    cut_loc_array = np.arange(0, len(text_split_by_sent), n)
+    if cut_loc_array[-1] != len(text_split_by_sent):
+        cut_loc = np.append(cut_loc_array, len(text_split_by_sent))
     else:
         cut_loc = cut_loc_array
     # get text in section (e.g., every 10 sentences)
-    text_section=[]
-    for i,j in pairwise(cut_loc):
+    text_section = []
+    for i, j in pairwise(cut_loc):
         text_section.append(text_split_by_sent[i:j])
     return text_section
-def account_letters(text,n=10):
-    len_=[]
-    [len_.append(len(i)) for i in split_by_sent_n(text,n)[0]]
+def account_letters(text, n=10):
+    len_ = []
+    [len_.append(len(i)) for i in split_by_sent_n(text, n)[0]]
     return np.sum(len_)
-def auto_chunk_size(txt,verbose=False):
-    chunk_size=[]
-    for i in range(1,50):
-        while 4000<account_letters(txt,n=i)<4700:
+def auto_chunk_size(txt, verbose=False):
+    chunk_size = []
+    for i in range(1, 50):
+        while 4000 < account_letters(txt, n=i) < 4700:
             if verbose:
-                print(f"the optimal chunk_size is {i} sentences")
+                print(f"the optimal chunk_size is {i} sentences")
             chunk_size.append(i)
             break
     return chunk_size[0]
 # import pathlib
 # import argostranslate.package
 # import argostranslate.translate
 def get_lang_code_iso639():
     from JFL import netfinder
-    url="https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes"
+    url = "https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes"
     # res=netfinder.fetch(url,where="table",what="wikitable sortable jquery-tablesorter")
-    res=netfinder.fetch(url,where="tr",extend=0)
-    fullname,shortcut=[],[]
-    for i in range(6,len(res)-2):
-        if len(res[i])>len(res[i+1]) and res[i+1][:2]==res[i+2][:2]:
+    res = netfinder.fetch(url, where="tr", extend=0)
+    fullname, shortcut = [], []
+    for i in range(6, len(res) - 2):
+        if len(res[i]) > len(res[i + 1]) and res[i + 1][:2] == res[i + 2][:2]:
             fullname.append(res[i])
-            shortcut.append(res[i+1])
-    lang_code_iso639=dict([*zip(fullname,shortcut)])
+            shortcut.append(res[i + 1])
+    lang_code_iso639 = dict([*zip(fullname, shortcut)])
     return lang_code_iso639
-def detect_lang(text, output='lang',verbose=False):
-    dir_curr_script=os.path.dirname(os.path.abspath(__file__))
-    dir_lang_code=dir_curr_script+"/data/lang_code_iso639.json"
+def detect_lang(text, output="lang", verbose=False):
+    dir_curr_script = os.path.dirname(os.path.abspath(__file__))
+    dir_lang_code = dir_curr_script + "/data/lang_code_iso639.json"
     with open(dir_lang_code, "r") as file:
-            lang_code_iso639 = json.load(file)
-    l_lang,l_code = [],[]
-    [[l_lang.append(v),l_code.append(k)] for v,k in lang_code_iso639.items()]
+        lang_code_iso639 = json.load(file)
+    l_lang, l_code = [], []
+    [[l_lang.append(v), l_code.append(k)] for v, k in lang_code_iso639.items()]
     try:
         if is_text(text):
-            code_detect=detect(text)
-            if 'c' in output.lower(): # return code
-                return l_code[strcmp(code_detect,l_code, verbose=verbose)[1]]
+            code_detect = detect(text)
+            if "c" in output.lower():  # return code
+                return l_code[strcmp(code_detect, l_code, verbose=verbose)[1]]
             else:
-                return l_lang[strcmp(code_detect,l_code, verbose=verbose)[1]]
+                return l_lang[strcmp(code_detect, l_code, verbose=verbose)[1]]
         else:
             print(f"{text} is not supported")
-            return 'no'
+            return "no"
     except:
-        return 'no'
+        return "no"
 def is_text(s):
     has_alpha = any(char.isalpha() for char in s)
@@ -85,7 +94,8 @@ def is_text(s):
     # no_special = not re.search(r'[^A-Za-z0-9\s]', s)
     return has_alpha and has_non_alpha
-def strcmp(search_term, candidates, ignore_case=True, verbose=False, scorer='WR'):
+def strcmp(search_term, candidates, ignore_case=True, verbose=False, scorer="WR"):
     """
     Compares a search term with a list of candidate strings and finds the best match based on similarity score.
@@ -98,21 +108,23 @@ def strcmp(search_term, candidates, ignore_case=True, verbose=False, scorer='WR'
     Returns:
     tuple: A tuple containing the best match and its index in the candidates list.
     """
     def to_lower(s, ignore_case=True):
-        #Converts a string or list of strings to lowercase if ignore_case is True.
+        # Converts a string or list of strings to lowercase if ignore_case is True.
         if ignore_case:
             if isinstance(s, str):
                 return s.lower()
             elif isinstance(s, list):
                 return [elem.lower() for elem in s]
         return s
-    str1_,str2_ = to_lower(search_term, ignore_case),to_lower(candidates, ignore_case)
+    str1_, str2_ = to_lower(search_term, ignore_case), to_lower(candidates, ignore_case)
     if isinstance(str2_, list):
-        if 'part' in scorer.lower():
+        if "part" in scorer.lower():
             similarity_scores = [fuzz.partial_ratio(str1_, word) for word in str2_]
-        elif 'W' in scorer.lower():
+        elif "W" in scorer.lower():
             similarity_scores = [fuzz.WRatio(str1_, word) for word in str2_]
-        elif 'Ratio' in scorer.lower():
+        elif "Ratio" in scorer.lower():
             similarity_scores = [fuzz.Ratio(str1_, word) for word in str2_]
         else:
             similarity_scores = [fuzz.WRatio(str1_, word) for word in str2_]
@@ -120,11 +132,11 @@ def strcmp(search_term, candidates, ignore_case=True, verbose=False, scorer='WR'
         best_match_score = similarity_scores[best_match_index]
     else:
         best_match_index = 0
-        if 'part' in scorer.lower():
+        if "part" in scorer.lower():
             best_match_score = fuzz.partial_ratio(str1_, str2_)
-        elif 'W' in scorer.lower():
+        elif "W" in scorer.lower():
             best_match_score = fuzz.WRatio(str1_, str2_)
-        elif 'Ratio' in scorer.lower():
+        elif "Ratio" in scorer.lower():
             best_match_score = fuzz.Ratio(str1_, str2_)
         else:
             best_match_score = fuzz.WRatio(str1_, str2_)
@@ -136,12 +148,15 @@ def strcmp(search_term, candidates, ignore_case=True, verbose=False, scorer='WR'
 def methods(idx=0):
-    methods_=["GoogleTrans (default)",'DeepL','Argos']
+    methods_ = ["GoogleTrans (default)", "DeepL", "Argos"]
     # print(f"supported methods: {methods_}")
     # print(f"return the selected is: {methods_[idx]}")
     return methods_[idx]
-DEFAULT_SERVICE_URLS = ('translate.google.de','translate.google.fr')
+DEFAULT_SERVICE_URLS = ("translate.google.de", "translate.google.fr")
 def user_agent():
     # Example of generating a random user-agent string
     user_agents = [
@@ -179,24 +194,259 @@ def user_agent():
     ]
     agents = random.choice(user_agents)
     return agents
 def get_language_code(language, translator="google"):
     """
     Get language code for translation services (Google Translate, DeepL).
     """
-    deepl_languages = {"English":"EN","German":"DE","French":"FR","Spanish":"ES","Italian":"IT","Dutch":"NL","Polish":"PL","Russian":"RU","Japanese":"JA","Chinese":"ZH",}
-    google_languages = {"Afrikaans":"af","Albanian":"sq","Amharic":"am","Arabic":"ar","Armenian":"hy","Azerbaijani":"az","Basque":"eu","Belarusian":"be","Bengali":"bn","Bosnian":"bs","Bulgarian":"bg","Catalan":"ca","Cebuano":"ceb","Chichewa":"ny","Chinese":"zh-CN","Corsican":"co","Croatian":"hr","Czech":"cs","Danish":"da","Dutch":"nl","English":"en","Esperanto":"eo","Estonian":"et","Filipino":"tl","Finnish":"fi","French":"fr","Frisian":"fy","Galician":"gl","Georgian":"ka","German":"de","Greek":"el","Gujarati":"gu","HaitianCreole":"ht","Hausa":"ha","Hawaiian":"haw","Hebrew":"he","Hindi":"hi","Hmong":"hmn","Hungarian":"hu","Icelandic":"is","Igbo":"ig","Indonesian":"id","Irish":"ga","Italian":"it","Japanese":"ja","Javanese":"jv","Kannada":"kn","Kazakh":"kk","Khmer":"km","Kinyarwanda":"rw","Korean":"ko","Kurdish":"ku","Kyrgyz":"ky","Lao":"lo","Latin":"la","Latvian":"lv","Lithuanian":"lt","Luxembourgish":"lb","Macedonian":"mk","Malagasy":"mg","Malay":"ms","Malayalam":"ml","Maltese":"mt","Maori":"mi","Marathi":"mr","Mongolian":"mn","Myanmar":"my","Nepali":"ne","Norwegian":"no","Odia":"or","Oriya":"or","Pashto":"ps","Persian":"fa","Polish":"pl","Portuguese":"pt","Punjabi":"pa","Romanian":"ro","Russian":"ru","Samoan":"sm","ScotsGaelic":"gd","Serbian":"sr","Sesotho":"st","Shona":"sn","Sindhi":"sd","Sinhala":"si","Slovak":"sk","Slovenian":"sl","Somali":"so","Spanish":"es","Sundanese":"su","Swahili":"sw","Swedish":"sv","Tajik":"tg","Tamil":"ta","Tatar":"tt","Telugu":"te","Thai":"th","Turkish":"tr","Turkmen":"tk","Ukrainian":"uk","Urdu":"ur","Uyghur":"ug","Uzbek":"uz","Vietnamese":"vi","Welsh":"cy","Xhosa":"xh","Yiddish":"yi","Yoruba":"yo","Zulu":"zu"}
-    argos_languages = {"Afrikaans":"af","Albanian":"sq","Amharic":"am","Arabic":"ar","Armenian":"hy","Azerbaijani":"az","Basque":"eu","Belarusian":"be","Bengali":"bn","Bosnian":"bs","Bulgarian":"bg","Catalan":"ca","Cebuano":"ceb","Chichewa":"ny","Chinese":"zh","Corsican":"co","Croatian":"hr","Czech":"cs","Danish":"da","Dutch":"nl","English":"en","Esperanto":"es","Estonian":"et","Filipino":"tl","Finnish":"fi","French":"fr","Frisian":"fy","Galician":"gl","Georgian":"ka","German":"de","Greek":"el","Gujarati":"gu","HaitianCreole":"ht","Hausa":"ha","Hawaiian":"haw","Hebrew":"he","Hindi":"hi","Hmong":"hmn","Hungarian":"hu","Icelandic":"is","Igbo":"ig","Indonesian":"id","Irish":"ga","Italian":"it","Japanese":"ja","Javanese":"jv","Kannada":"kn","Kazakh":"kk","Khmer":"km","Kinyarwanda":"rw","Korean":"ko","Kurdish":"ku","Kyrgyz":"ky","Lao":"lo","Latin":"la","Latvian":"lv","Lithuanian":"lt","Luxembourgish":"lb","Macedonian":"mk","Malagasy":"mg","Malay":"ms","Malayalam":"ml","Maltese":"mt","Maori":"mi","Marathi":"mr","Mongolian":"mn","Myanmar":"my","Nepali":"ne","Norwegian":"no","Odia":"or","Oriya":"or","Pashto":"ps","Persian":"fa","Polish":"pl","Portuguese":"pt","Punjabi":"pa","Romanian":"ro","Russian":"ru","Samoan":"sm","ScotsGaelic":"gd","Serbian":"sr","Sesotho":"st","Shona":"sn","Sindhi":"sd","Sinhala":"si","Slovak":"sk","Slovenian":"sl","Somali":"so","Spanish":"es","Sundanese":"su","Swahili":"sw","Swedish":"sv","Tajik":"tg","Tamil":"ta","Tatar":"tt","Telugu":"te","Thai":"th","Turkish":"tr","Turkmen":"tk","Ukrainian":"uk","Urdu":"ur","Uyghur":"ug","Uzbek":"uz","Vietnamese":"vi","Welsh":"cy","Xhosa":"xh","Yiddish":"yi","Yoruba":"yo","Zulu":"zu"}
+    deepl_languages = {
+        "English": "EN",
+        "German": "DE",
+        "French": "FR",
+        "Spanish": "ES",
+        "Italian": "IT",
+        "Dutch": "NL",
+        "Polish": "PL",
+        "Russian": "RU",
+        "Japanese": "JA",
+        "Chinese": "ZH",
+    }
+    google_languages = {
+        "Afrikaans": "af",
+        "Albanian": "sq",
+        "Amharic": "am",
+        "Arabic": "ar",
+        "Armenian": "hy",
+        "Azerbaijani": "az",
+        "Basque": "eu",
+        "Belarusian": "be",
+        "Bengali": "bn",
+        "Bosnian": "bs",
+        "Bulgarian": "bg",
+        "Catalan": "ca",
+        "Cebuano": "ceb",
+        "Chichewa": "ny",
+        "Chinese": "zh-CN",
+        "Corsican": "co",
+        "Croatian": "hr",
+        "Czech": "cs",
+        "Danish": "da",
+        "Dutch": "nl",
+        "English": "en",
+        "Esperanto": "eo",
+        "Estonian": "et",
+        "Filipino": "tl",
+        "Finnish": "fi",
+        "French": "fr",
+        "Frisian": "fy",
+        "Galician": "gl",
+        "Georgian": "ka",
+        "German": "de",
+        "Greek": "el",
+        "Gujarati": "gu",
+        "HaitianCreole": "ht",
+        "Hausa": "ha",
+        "Hawaiian": "haw",
+        "Hebrew": "he",
+        "Hindi": "hi",
+        "Hmong": "hmn",
+        "Hungarian": "hu",
+        "Icelandic": "is",
+        "Igbo": "ig",
+        "Indonesian": "id",
+        "Irish": "ga",
+        "Italian": "it",
+        "Japanese": "ja",
+        "Javanese": "jv",
+        "Kannada": "kn",
+        "Kazakh": "kk",
+        "Khmer": "km",
+        "Kinyarwanda": "rw",
+        "Korean": "ko",
+        "Kurdish": "ku",
+        "Kyrgyz": "ky",
+        "Lao": "lo",
+        "Latin": "la",
+        "Latvian": "lv",
+        "Lithuanian": "lt",
+        "Luxembourgish": "lb",
+        "Macedonian": "mk",
+        "Malagasy": "mg",
+        "Malay": "ms",
+        "Malayalam": "ml",
+        "Maltese": "mt",
+        "Maori": "mi",
+        "Marathi": "mr",
+        "Mongolian": "mn",
+        "Myanmar": "my",
+        "Nepali": "ne",
+        "Norwegian": "no",
+        "Odia": "or",
+        "Oriya": "or",
+        "Pashto": "ps",
+        "Persian": "fa",
+        "Polish": "pl",
+        "Portuguese": "pt",
+        "Punjabi": "pa",
+        "Romanian": "ro",
+        "Russian": "ru",
+        "Samoan": "sm",
+        "ScotsGaelic": "gd",
+        "Serbian": "sr",
+        "Sesotho": "st",
+        "Shona": "sn",
+        "Sindhi": "sd",
+        "Sinhala": "si",
+        "Slovak": "sk",
+        "Slovenian": "sl",
+        "Somali": "so",
+        "Spanish": "es",
+        "Sundanese": "su",
+        "Swahili": "sw",
+        "Swedish": "sv",
+        "Tajik": "tg",
+        "Tamil": "ta",
+        "Tatar": "tt",
+        "Telugu": "te",
+        "Thai": "th",
+        "Turkish": "tr",
+        "Turkmen": "tk",
+        "Ukrainian": "uk",
+        "Urdu": "ur",
+        "Uyghur": "ug",
+        "Uzbek": "uz",
+        "Vietnamese": "vi",
+        "Welsh": "cy",
+        "Xhosa": "xh",
+        "Yiddish": "yi",
+        "Yoruba": "yo",
+        "Zulu": "zu",
+    }
+    argos_languages = {
+        "Afrikaans": "af",
+        "Albanian": "sq",
+        "Amharic": "am",
+        "Arabic": "ar",
+        "Armenian": "hy",
+        "Azerbaijani": "az",
+        "Basque": "eu",
+        "Belarusian": "be",
+        "Bengali": "bn",
+        "Bosnian": "bs",
+        "Bulgarian": "bg",
+        "Catalan": "ca",
+        "Cebuano": "ceb",
+        "Chichewa": "ny",
+        "Chinese": "zh",
+        "Corsican": "co",
+        "Croatian": "hr",
+        "Czech": "cs",
+        "Danish": "da",
+        "Dutch": "nl",
+        "English": "en",
+        "Esperanto": "es",
+        "Estonian": "et",
+        "Filipino": "tl",
+        "Finnish": "fi",
+        "French": "fr",
+        "Frisian": "fy",
+        "Galician": "gl",
+        "Georgian": "ka",
+        "German": "de",
+        "Greek": "el",
+        "Gujarati": "gu",
+        "HaitianCreole": "ht",
+        "Hausa": "ha",
+        "Hawaiian": "haw",
+        "Hebrew": "he",
+        "Hindi": "hi",
+        "Hmong": "hmn",
+        "Hungarian": "hu",
+        "Icelandic": "is",
+        "Igbo": "ig",
+        "Indonesian": "id",
+        "Irish": "ga",
+        "Italian": "it",
+        "Japanese": "ja",
+        "Javanese": "jv",
+        "Kannada": "kn",
+        "Kazakh": "kk",
+        "Khmer": "km",
+        "Kinyarwanda": "rw",
+        "Korean": "ko",
+        "Kurdish": "ku",
+        "Kyrgyz": "ky",
+        "Lao": "lo",
+        "Latin": "la",
+        "Latvian": "lv",
+        "Lithuanian": "lt",
+        "Luxembourgish": "lb",
+        "Macedonian": "mk",
+        "Malagasy": "mg",
+        "Malay": "ms",
+        "Malayalam": "ml",
+        "Maltese": "mt",
+        "Maori": "mi",
+        "Marathi": "mr",
+        "Mongolian": "mn",
+        "Myanmar": "my",
+        "Nepali": "ne",
+        "Norwegian": "no",
+        "Odia": "or",
+        "Oriya": "or",
+        "Pashto": "ps",
+        "Persian": "fa",
+        "Polish": "pl",
+        "Portuguese": "pt",
+        "Punjabi": "pa",
+        "Romanian": "ro",
+        "Russian": "ru",
+        "Samoan": "sm",
+        "ScotsGaelic": "gd",
+        "Serbian": "sr",
+        "Sesotho": "st",
+        "Shona": "sn",
+        "Sindhi": "sd",
+        "Sinhala": "si",
+        "Slovak": "sk",
+        "Slovenian": "sl",
+        "Somali": "so",
+        "Spanish": "es",
+        "Sundanese": "su",
+        "Swahili": "sw",
+        "Swedish": "sv",
+        "Tajik": "tg",
+        "Tamil": "ta",
+        "Tatar": "tt",
+        "Telugu": "te",
+        "Thai": "th",
+        "Turkish": "tr",
+        "Turkmen": "tk",
+        "Ukrainian": "uk",
+        "Urdu": "ur",
+        "Uyghur": "ug",
+        "Uzbek": "uz",
+        "Vietnamese": "vi",
+        "Welsh": "cy",
+        "Xhosa": "xh",
+        "Yiddish": "yi",
+        "Yoruba": "yo",
+        "Zulu": "zu",
+    }
     if "deep" in translator.lower():
         langs = deepl_languages
-    elif 'goo' in translator.lower():
+    elif "goo" in translator.lower():
         langs = google_languages
-    elif 'ar' in translator.lower():
+    elif "ar" in translator.lower():
         langs = argos_languages
-    for lang, code in langs.items():
-        if language.lower() in lang.lower():
-            return code
-    print(f"fail to find the {language} code in translator {translator}")
-    return None
+    lang_found = strcmp(language, list(langs.keys()))[0]
+    if lang_found in list(langs.keys()):
+        return langs[lang_found]
+    else:
+        print(f"fail to find the {language} code in translator {translator}")
+        return None
 # language = "chinese"
 # # Example usage:
@@ -216,6 +466,8 @@ def load_docx(filename):
     for paragraph in doc.paragraphs:
         text.append(paragraph.text)
     return text
 # # usage
 # filename = "example.docx"  # Change to the path of your .docx file
 # text = load_docx(filename)
@@ -223,6 +475,7 @@ def load_docx(filename):
 # print("Text from the document:")
 # print(text)
 def load_pdf(filename, page="all", verbose=False):
     from PyPDF2 import PdfReader
     import numpy as np
@@ -289,12 +542,14 @@ def split_text(text, method="sentence", limit=4500):
     else:
         return re.split(r"\{}".format(method), text)
 def filter_errors(text):
     # handle bugs:
     # bug1: ".com" cannot be translated, but '..com' works
-    text=text.replace(".com", "..come")
+    text = text.replace(".com", "..come")
     return text
 def merge_text(input, robust=True):
     """
     Convert a list of strings, tuple of strings, or numpy array of strings into a single concatenated string.
@@ -318,6 +573,7 @@ def merge_text(input, robust=True):
     else:
         return str(input)
 def replace_text(text, dict_replace=None, robust=True):
     """
     Replace specified substrings in the input text with provided replacements.
@@ -362,19 +618,21 @@ def replace_text(text, dict_replace=None, robust=True):
         text = text.replace(k, v)
     return text
 # # usage:
 #     a = "kjkjk        (a, b, c)"
 #     replace_text(a, {"(": "", ")": "", "        ": " "}, robust=False)
 def merge_strings_every_n(strings_list, n=10):
     merged_list = []
-    if n>0:
+    if n > 0:
         for i in range(0, len(strings_list), n):
             merged_string = "".join(strings_list[i : i + n])
             merged_list.append(merged_string)
-        return merged_list,n
+        return merged_list, n
     else:
-        return strings_list,n
+        return strings_list, n
 def translate(
@@ -386,7 +644,7 @@ def translate(
     user_agent=user_agent(),
     verbose=True,
     error_verbose=True,
-    limit=5000
+    limit=5000,
 ):
     """
     Translate text to the target language using the specified translation method (Google Translate or DeepL).
@@ -394,19 +652,47 @@ def translate(
     """
     # error_verbose = verbose or False
-    if isinstance(text,list):
-        text=merge_text(text)
+    if isinstance(text, list):
+        # text=merge_text(text)
+        text_list = [
+            translate(
+                i,
+                lang=lang,
+                lang_src=lang_src,
+                method=method,
+                service_urls=service_urls,
+                user_agent=user_agent,
+                verbose=verbose,
+                error_verbose=error_verbose,
+                limit=limit,
+            )
+            for i in tqdm(
+                text,
+                desc="is translating",
+                colour="green",
+                bar_format="{l_bar}{bar} {n_fmt}/{total_fmt}",
+            )
+        ]
+        return text_list
     text = replace_text(text)
     if lang_src is None:
-        lang_src =  detect_lang(text)
+        lang_src = detect_lang(text)
     try:
         if len(text) > limit:
-            n=auto_chunk_size(text)
-            text_segments = split_by_sent_n(text,n)
+            n = auto_chunk_size(text)
+            text_segments = split_by_sent_n(text, n)
             translations = ""
-            for segment in tqdm(text_segments,desc='is translating', colour="green"):
+            for segment in tqdm(text_segments, desc="is translating", colour="green"):
                 segment = replace_text(merge_text(segment))
-                translated_segment = translate_segment(text=segment, lang=lang, lang_src=lang_src, method=method, user_agent=user_agent,service_urls=service_urls, verbose=verbose,error_verbose=error_verbose
+                translated_segment = translate_segment(
+                    text=segment,
+                    lang=lang,
+                    lang_src=lang_src,
+                    method=method,
+                    user_agent=user_agent,
+                    service_urls=service_urls,
+                    verbose=verbose,
+                    error_verbose=error_verbose,
                 )
                 time.sleep(1)
                 if translated_segment:
@@ -416,12 +702,22 @@ def translate(
                     translations += ""
             return translations
         else:
-            return translate_segment(text=text, lang=lang, lang_src=lang_src, method=method, user_agent=user_agent,service_urls=service_urls, verbose=verbose,error_verbose=error_verbose)
+            return translate_segment(
+                text=text,
+                lang=lang,
+                lang_src=lang_src,
+                method=method,
+                user_agent=user_agent,
+                service_urls=service_urls,
+                verbose=verbose,
+                error_verbose=error_verbose,
+            )
     except Exception as e:
         if error_verbose:
             print("(translate)Error during translation :", e)
         return ""
 def translate_segment(
     text,
     lang="chinese",
@@ -430,39 +726,42 @@ def translate_segment(
     service_urls=DEFAULT_SERVICE_URLS,
     user_agent=user_agent(),
     verbose=False,
-    error_verbose=True
+    error_verbose=True,
 ):
     """
     Translate a text segment to the target language using the specified translation method (Google Translate or DeepL).
     """
     text_clean = filter_errors(text)
     text_clean = replace_text(text_clean)
     if lang_src is None:
         lang_src = detect_lang(text_clean)
     try:
-        lang_src = get_language_code(lang_src, 'google')
-        lang_tgt = get_language_code(lang, 'google')
+        lang_src = get_language_code(lang_src, "google")
+        lang_tgt = get_language_code(lang, "google")
         if "goog" in method.lower():
-            Trstor = GoogleTranslator(service_urls=service_urls,user_agent=user_agent)
+            Trstor = GoogleTranslator(service_urls=service_urls, user_agent=user_agent)
             txt = Trstor.translate(text_clean, src=lang_src, dest=lang_tgt).text
         elif "trans" in method.lower():
-            lang_src = get_language_code(lang_src, 'google')
-            lang_tgt = get_language_code(lang, 'google')
-            translator = TranslateTranslator(from_lang=lang_src,
-                                             to_lang=lang_tgt,
-                                             provider='LibreTranslate',
-                                             secret_access_key=None,
-                                             base_url='https://translate.astian.org/')
+            lang_src = get_language_code(lang_src, "google")
+            lang_tgt = get_language_code(lang, "google")
+            translator = TranslateTranslator(
+                from_lang=lang_src,
+                to_lang=lang_tgt,
+                provider="LibreTranslate",
+                secret_access_key=None,
+                base_url="https://translate.astian.org/",
+            )
             txt = translator.translate(text_clean)
-        elif 'ar' in method.lower():
+        elif "ar" in method.lower():
             lang_src = get_language_code(language=lang_src, translator="argos")
             lang_tgt = get_language_code(language=lang, translator="argos")
             argostranslate.package.update_package_index()
             available_packages = argostranslate.package.get_available_packages()
             package_to_install = next(
                 filter(
-                    lambda x: x.from_code == lang_src and x.to_code == lang_tgt, available_packages
+                    lambda x: x.from_code == lang_src and x.to_code == lang_tgt,
+                    available_packages,
                 )
             )
             argostranslate.package.install_from_path(package_to_install.download())
@@ -475,15 +774,19 @@ def translate_segment(
             print(txt)
         return txt
     except Exception as e:
-        txt=translate_with_retry(
-                            text_clean,
-                            lang=lang,
-                            lang_src=lang_src,
-                            method=method,
-                            verbose=verbose,
-                            error_verbose=error_verbose,
-                            user_agent=user_agent, service_urls=service_urls)
+        txt = translate_with_retry(
+            text_clean,
+            lang=lang,
+            lang_src=lang_src,
+            method=method,
+            verbose=verbose,
+            error_verbose=error_verbose,
+            user_agent=user_agent,
+            service_urls=service_urls,
+        )
         return txt
 def translate_with_retry(
     text,
     lang="chinese",
@@ -491,15 +794,20 @@ def translate_with_retry(
     method=methods(),
     verbose=False,
     error_verbose=True,
-    user_agent=user_agent(), service_urls=DEFAULT_SERVICE_URLS):
+    user_agent=user_agent(),
+    service_urls=DEFAULT_SERVICE_URLS,
+):
     """
-        Translate a text to the target language, retrying with alternative service URLs on connection errors.
+    Translate a text to the target language, retrying with alternative service URLs on connection errors.
     """
-    def try_translate(text,lang,lang_src,user_agent,service_url):
+    def try_translate(text, lang, lang_src, user_agent, service_url):
         try:
-            translator_ = GoogleTranslator(user_agent=user_agent, service_urls=[service_url])
+            translator_ = GoogleTranslator(
+                user_agent=user_agent, service_urls=[service_url]
+            )
             result = translator_.translate(text, dest=lang, src=lang_src)
-            if result and hasattr(result, 'text'):
+            if result and hasattr(result, "text"):
                 return result.text
             else:
                 raise ValueError(f"Invalid response from {service_url}: {result}")
@@ -507,32 +815,52 @@ def translate_with_retry(
             raise RuntimeError(f"Error using {service_url}: {e}")
     if lang_src is None:
-        lang_src = detect_lang(text)
+        lang_src = detect_lang(text)
         lang_src = get_language_code(language=lang_src)
     lang = get_language_code(language=lang)
     try:
-        return try_translate(text,lang=lang,lang_src=lang_src,user_agent=user_agent,service_url=service_urls[0])
+        return try_translate(
+            text,
+            lang=lang,
+            lang_src=lang_src,
+            user_agent=user_agent,
+            service_url=service_urls[0],
+        )
     except Exception as e:
         if error_verbose:
             print("Connection error:", e)
-        try:
+        try:
             time.sleep(1)
-            return try_translate(text,lang=lang,lang_src=lang_src,user_agent=user_agent,service_url=service_urls[1])
+            return try_translate(
+                text,
+                lang=lang,
+                lang_src=lang_src,
+                user_agent=user_agent,
+                service_url=service_urls[1],
+            )
         except Exception as e:
             if error_verbose:
-                print(f"(translate_with_retry):Connection error with {service_urls}: {e}")
+                print(
+                    f"(translate_with_retry):Connection error with {service_urls}: {e}"
+                )
         if error_verbose:
             print("All service URLs failed. Unable to translate the text.")
         return text
-def trans_docx(filename, lang="english", lang_src=None, method=methods(),service_urls=[
-      'translate.google.de'],verbose=False):
+def trans_docx(
+    filename,
+    lang="english",
+    lang_src=None,
+    method=methods(),
+    service_urls=["translate.google.de"],
+    verbose=False,
+):
     """
-        load the docx file and translated it into target lang "lang",
-        verbose: (default 'False', no display)to display the translated text in for loop
-        Return (list):
-            the translated text as a list
+    load the docx file and translated it into target lang "lang",
+    verbose: (default 'False', no display)to display the translated text in for loop
+    Return (list):
+        the translated text as a list
     """
     txt = load_docx(filename)
     trans_text = []
@@ -543,7 +871,14 @@ def trans_docx(filename, lang="english", lang_src=None, method=methods(),service
             pass
         else:
             i.join(j)
-            trans_text_ = translate(i, lang=lang,lang_src=lang_src, method=method,service_urls=service_urls,verbose=verbose)
+            trans_text_ = translate(
+                i,
+                lang=lang,
+                lang_src=lang_src,
+                method=method,
+                service_urls=service_urls,
+                verbose=verbose,
+            )
             trans_text.append(trans_text_)
             # if verbose:
             #     print(trans_text_)
@@ -552,15 +887,30 @@ def trans_docx(filename, lang="english", lang_src=None, method=methods(),service
     else:
         return None
-def trans_pdf(filename, page="all",lang="english", lang_src=None, method="google",service_urls=[
-      'translate.google.de'],verbose=False):
-    """load the pdf file and translated it into target lang "lang",
+def trans_pdf(
+    filename,
+    page="all",
+    lang="english",
+    lang_src=None,
+    method="google",
+    service_urls=["translate.google.de"],
+    verbose=False,
+):
+    """load the pdf file and translated it into target lang "lang",
     verbose: (default 'False', no display)to display the translated text in for loop
     Return (list):
         the translated text as a list
     """
-    txt = load_pdf(filename,page=page,verbose=verbose)
-    trans_text = translate(txt, lang=lang,lang_src=lang_src, method=method,service_urls=service_urls,verbose=False)
+    txt = load_pdf(filename, page=page, verbose=verbose)
+    trans_text = translate(
+        txt,
+        lang=lang,
+        lang_src=lang_src,
+        method=method,
+        service_urls=service_urls,
+        verbose=False,
+    )
     return trans_text
@@ -578,7 +928,8 @@ def save_content(fpath, content):
     with open(fpath, "w") as file:
         file.write(content)
-def save_file(fpath, content, kind=None, font_name="Arial", font_size=10,spacing=6):
+def save_file(fpath, content, kind=None, font_name="Arial", font_size=10, spacing=6):
     """
     Save content into a file with specified file type and formatting.
@@ -592,7 +943,7 @@ def save_file(fpath, content, kind=None, font_name="Arial", font_size=10,spacing
     Returns:
         None
     """
-    file_types = [".docx", ".txt", ".md", ".html", ".pdf"]
+    file_types = [".docx", ".txt", ".md", ".html", ".pdf"]
     if kind is None:
         # Extract the file extension from fpath
         _, kind = os.path.splitext(fpath)
@@ -601,8 +952,8 @@ def save_file(fpath, content, kind=None, font_name="Arial", font_size=10,spacing
     if kind.lower() not in file_types:
         raise ValueError(f"Error:\n{kind} is not in the supported list {file_types}")
     if "docx" in kind.lower():
-        if isinstance(content,str):
-            content = split_text(content,'sentence')
+        if isinstance(content, str):
+            content = split_text(content, "sentence")
         doc = docx.Document()
         for i, paragraph_text in enumerate(content):
             paragraph = doc.add_paragraph()
@@ -644,4 +995,4 @@ def save_file(fpath, content, kind=None, font_name="Arial", font_size=10,spacing
 #     lang = "chinese"
 #     translated_text = translate(text_to_translate, lang=lang)
 #     print(f"Detected language:{detected_language} \ntranslated into {lang}")
-#     print("Translated text:\n", translated_text)
+#     print("Translated text:\n", translated_text)

py2ls 0.1.10.1__py3-none-any.whl → 0.1.10.2__py3-none-any.whl

py2ls 0.1.10.1py3-none-any.whl → 0.1.10.2py3-none-any.whl