PyPI - webscout - Versions diffs - 1.2.1__tar.gz → 1.2.3__tar.gz - Mend

webscout 1.2.1tar.gz → 1.2.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of webscout might be problematic. Click here for more details.

Files changed (39) hide show

webscout-1.2.3/DeepWEBS/__init__.py ADDED Viewed

File without changes

webscout-1.2.3/DeepWEBS/documents/__init__.py ADDED Viewed

File without changes

webscout-1.2.3/DeepWEBS/documents/query_results_extractor.py ADDED Viewed

@@ -0,0 +1,99 @@
+from bs4 import BeautifulSoup
+from pathlib import Path
+from DeepWEBS.utilsdw.logger import logger
+class QueryResultsExtractor:
+    def __init__(self) -> None:
+        self.query_results = []
+        self.related_questions = []
+    def load_html(self, html_path):
+        try:
+            with open(html_path, "r", encoding="utf-8") as f:
+                html = f.read()
+            self.soup = BeautifulSoup(html, "html.parser")
+        except FileNotFoundError:
+            logger.error(f"File not found: {html_path}")
+        except Exception as e:
+            logger.error(f"Error loading HTML: {e}")
+    def extract_query_results(self):
+        try:
+            self.query = self.soup.find("textarea").text.strip()
+            query_result_elements = self.soup.find_all("div", class_="g")
+            for idx, result in enumerate(query_result_elements):
+                try:
+                    site = result.find("cite").find_previous("span").text.strip()
+                    url = result.find("a")["href"]
+                    title = result.find("h3").text.strip()
+                    abstract_element_conditions = [
+                        {"data-sncf": "1"},
+                        {"class_": "ITZIwc"},
+                    ]
+                    for condition in abstract_element_conditions:
+                        abstract_element = result.find("div", condition)
+                        if abstract_element is not None:
+                            abstract = abstract_element.text.strip()
+                            break
+                    else:
+                        abstract = ""
+                    logger.mesg(
+                        f"{title}\n"
+                        f" - {site}\n"
+                        f" - {url}\n"
+                        f" - {abstract}\n"
+                        f"\n"
+                    )
+                    self.query_results.append(
+                        {
+                            "title": title,
+                            "site": site,
+                            "url": url,
+                            "abstract": abstract,
+                            "index": idx,
+                            "type": "web",
+                        }
+                    )
+                except Exception as e:
+                    logger.error(f"Error extracting query result: {e}")
+            logger.success(f"- {len(query_result_elements)} query results")
+        except Exception as e:
+            logger.error(f"Error extracting query results: {e}")
+    def extract_related_questions(self):
+        try:
+            related_question_elements = self.soup.find_all(
+                "div", class_="related-question-pair"
+            )
+            for question_element in related_question_elements:
+                try:
+                    question = question_element.find("span").text.strip()
+                    print(question)
+                    self.related_questions.append(question)
+                except Exception as e:
+                    logger.error(f"Error extracting related question: {e}")
+            logger.success(f"- {len(self.related_questions)} related questions")
+        except Exception as e:
+            logger.error(f"Error extracting related questions: {e}")
+    def extract(self, html_path):
+        self.load_html(html_path)
+        self.extract_query_results()
+        self.extract_related_questions()
+        self.search_results = {
+            "query": self.query,
+            "query_results": self.query_results,
+            "related_questions": self.related_questions,
+        }
+        return self.search_results
+if __name__ == "__main__":
+    html_path_root = Path(__file__).parents[1] / "files"
+    html_filename = "python_tutorials"
+    html_path = html_path_root / f"{html_filename}.html"
+    extractor = QueryResultsExtractor()
+    try:
+        extractor.extract(html_path)
+    except Exception as e:
+        logger.error(f"Error in main function: {e}")

webscout-1.2.3/DeepWEBS/documents/webpage_content_extractor.py ADDED Viewed

@@ -0,0 +1,145 @@
+import concurrent.futures
+import re
+from pathlib import Path
+from pprint import pprint
+from bs4 import BeautifulSoup
+from tiktoken import get_encoding as tiktoken_get_encoding
+from DeepWEBS.utilsdw.logger import logger
+from markdownify import markdownify
+from DeepWEBS.networks.network_configs import IGNORE_TAGS, IGNORE_CLASSES
+from termcolor import colored
+class WebpageContentExtractor:
+    def __init__(self):
+        self.tokenizer = tiktoken_get_encoding("cl100k_base")
+    def count_tokens(self, text):
+        tokens = self.tokenizer.encode(text)
+        token_count = len(tokens)
+        return token_count
+    def html_to_markdown(self, html_str, ignore_links=True):
+        if ignore_links:
+            markdown_str = markdownify(html_str, strip="a")
+        else:
+            markdown_str = markdownify(html_str)
+        markdown_str = re.sub(r"\n{3,}", "\n\n", markdown_str)
+        self.markdown_token_count = self.count_tokens(markdown_str)
+        logger.mesg(f'- Tokens: {colored(self.markdown_token_count,"light_green")}')
+        self.markdown_str = markdown_str
+        return self.markdown_str
+    def remove_elements_from_html(self, html_str):
+        soup = BeautifulSoup(html_str, "html.parser")
+        ignore_classes_with_parentheses = [f"({word})" for word in IGNORE_CLASSES]
+        ignore_classes_pattern = f'{"|".join(ignore_classes_with_parentheses)}'
+        removed_element_counts = 0
+        for element in soup.find_all():
+            class_str = ""
+            id_str = ""
+            try:
+                class_attr = element.get("class", [])
+                if class_attr:
+                    class_str = " ".join(list(class_attr))
+                if id_str:
+                    class_str = f"{class_str} {id_str}"
+            except:
+                pass
+            try:
+                id_str = element.get("id", "")
+            except:
+                pass
+            if (
+                (not element.text.strip())
+                or (element.name in IGNORE_TAGS)
+                or (re.search(ignore_classes_pattern, class_str, flags=re.IGNORECASE))
+                or (re.search(ignore_classes_pattern, id_str, flags=re.IGNORECASE))
+            ):
+                element.decompose()
+                removed_element_counts += 1
+        logger.mesg(
+            f"- Elements: "
+            f'{colored(len(soup.find_all()),"light_green")} / {colored(removed_element_counts,"light_red")}'
+        )
+        html_str = str(soup)
+        self.html_str = html_str
+        return self.html_str
+    def extract(self, html_path):
+        logger.note(f"Extracting content from: {html_path}")
+        if not Path(html_path).exists():
+            logger.warn(f"File not found: {html_path}")
+            return ""
+        encodings = ["utf-8", "latin-1"]
+        for encoding in encodings:
+            try:
+                with open(html_path, "r", encoding=encoding, errors="ignore") as rf:
+                    html_str = rf.read()
+                break
+            except UnicodeDecodeError:
+                pass
+        else:
+            logger.warn(f"No matching encodings: {html_path}")
+            return ""
+        html_str = self.remove_elements_from_html(html_str)
+        markdown_str = self.html_to_markdown(html_str)
+        return markdown_str
+class BatchWebpageContentExtractor:
+    def __init__(self) -> None:
+        self.html_path_and_extracted_content_list = []
+        self.done_count = 0
+    def extract_single_html(self, html_path):
+        webpage_content_extractor = WebpageContentExtractor()
+        extracted_content = webpage_content_extractor.extract(html_path)
+        self.html_path_and_extracted_content_list.append(
+            {"html_path": html_path, "extracted_content": extracted_content}
+        )
+        self.done_count += 1
+        logger.success(
+            f"> [{self.done_count}/{self.total_count}] Extracted: {html_path}"
+        )
+    def extract(self, html_paths):
+        self.html_path = html_paths
+        self.total_count = len(self.html_path)
+        with concurrent.futures.ThreadPoolExecutor() as executor:
+            futures = [
+                executor.submit(self.extract_single_html, html_path)
+                for html_path in self.html_path
+            ]
+            for idx, future in enumerate(concurrent.futures.as_completed(futures)):
+                result = future.result()
+        return self.html_path_and_extracted_content_list
+if __name__ == "__main__":
+    html_root = Path(__file__).parents[1] / "files" / "urls" / "python tutorials"
+    html_paths = [
+        html_root / html_filename
+        for html_filename in [
+            "docs.python.org_zh-cn_3_tutorial_interpreter.html",
+            "stackoverflow.com_questions_295135_turn-a-string-into-a-valid-filename.html",
+            "www.liaoxuefeng.com_wiki_1016959663602400_1017495723838528.html",
+        ]
+    ]
+    batch_webpage_content_extractor = BatchWebpageContentExtractor()
+    html_path_and_extracted_content_list = batch_webpage_content_extractor.extract(
+        html_paths
+    )
+    # pprint(html_path_and_extracted_content_list)

webscout-1.2.3/DeepWEBS/networks/__init__.py ADDED Viewed

File without changes

webscout-1.2.3/DeepWEBS/networks/filepath_converter.py ADDED Viewed

@@ -0,0 +1,109 @@
+import platform
+import re
+from pathlib import Path
+from urllib.parse import quote, unquote
+# What characters are forbidden in Windows and Linux directory names?
+#   https://stackoverflow.com/questions/1976007/what-characters-are-forbidden-in-windows-and-linux-directory-names
+INVALID_FILE_PATH_CHARS = [
+    "\\",
+    "/",
+    ":",
+    "*",
+    "?",
+    '"',
+    "<",
+    ">",
+    "|",
+    "\n",
+    "\t",
+    "\r",
+    *[chr(i) for i in range(32)],
+]
+WINDOWS_INVALID_FILE_PATH_NAMES = [
+    "con",
+    "prn",
+    "aux",
+    "nul",
+    *[f"com{i+1}" for i in range(10)],
+    *[f"lpt{i+1}" for i in range(10)],
+]
+class FilepathConverter:
+    def __init__(self, parent: str = None):
+        self.output_root = Path(__file__).parents[1] / "files"
+        self.parent = parent
+    def preprocess(self, input_string):
+        return input_string
+    def validate(self, input_string):
+        if not input_string:
+            return input_string
+        filename = input_string
+        for char in INVALID_FILE_PATH_CHARS:
+            filename = filename.replace(char, "_")
+        if platform.system() == "Windows":
+            filename_base = filename.split(".")[0]
+            if filename_base.lower() in WINDOWS_INVALID_FILE_PATH_NAMES:
+                filename_base = filename_base + "_"
+                filename = ".".join([filename_base, *filename.split(".")[1:]])
+        return filename
+    def append_extension(self, filename, accept_exts=[".html", ".htm"], ext=".html"):
+        if ext:
+            filename_ext = "." + filename.split(".")[-1]
+            if filename_ext.lower() not in accept_exts:
+                filename += ext
+        return filename
+    def convert(self, input_string, parent=None):
+        filename = self.preprocess(input_string)
+        filename = self.validate(filename)
+        filename = self.append_extension(filename)
+        parent = parent or self.parent
+        parent = self.validate(parent)
+        if parent:
+            filepath = self.output_root / parent / filename
+        else:
+            filepath = self.output_root / filename
+        self.filename = filename
+        self.filepath = filepath
+        return self.filepath
+class UrlToFilepathConverter(FilepathConverter):
+    def __init__(self, parent: str = None):
+        super().__init__(parent)
+        self.output_root = self.output_root / "urls"
+    def preprocess(self, url):
+        filename = unquote(url.split("//")[1])
+        return filename
+class QueryToFilepathConverter(FilepathConverter):
+    def __init__(self, parent: str = None):
+        super().__init__(parent)
+        self.output_root = self.output_root / "queries"
+if __name__ == "__main__":
+    query = "python"
+    query_converter = QueryToFilepathConverter()
+    print(query_converter.convert(query))
+    # url = "https://trafilatura.readthedocs.io/en/latest/quickstart.html"
+    url = (
+        "https://stackoverflow.com/questions/295135/turn-a-string-into-a-valid-filename"
+    )
+    url_converter = UrlToFilepathConverter(parent=query)
+    print(url_converter.convert(url))

webscout-1.2.3/DeepWEBS/networks/google_searcher.py ADDED Viewed

@@ -0,0 +1,52 @@
+import requests
+from pathlib import Path
+from typing import Optional
+import random
+from DeepWEBS.utilsdw.enver import enver
+from DeepWEBS.utilsdw.logger import logger
+from DeepWEBS.networks.filepath_converter import QueryToFilepathConverter
+from DeepWEBS.networks.network_configs import REQUESTS_HEADERS
+class GoogleSearcher:
+    def __init__(self):
+        self.url = "https://www.google.com/search"
+        self.enver = enver
+        self.enver.set_envs(proxies=True)
+        self.filepath_converter = QueryToFilepathConverter()
+    def send_request(self, query: str, result_num: int = 10, safe: bool = False) -> requests.Response:
+        params = {
+            "q": query,
+            "num": result_num,
+        }
+        response = requests.get(
+            self.url,
+            headers=REQUESTS_HEADERS,
+            params=params,
+            proxies=self.enver.requests_proxies,
+        )
+        response.raise_for_status()  # Raise an exception for non-2xx status codes
+        return response
+    def save_response(self, response: requests.Response, html_path: Path) -> None:
+        html_path.parent.mkdir(parents=True, exist_ok=True)
+        logger.note(f"Saving to: [{html_path}]")
+        with html_path.open("wb") as wf:
+            wf.write(response.content)
+    def search(self, query: str, result_num: int = 10, safe: bool = False, overwrite: bool = False) -> Path:
+        html_path = self.filepath_converter.convert(query)
+        logger.note(f"Searching: [{query}]")
+        if html_path.exists() and not overwrite:
+            logger.success(f"HTML existed: {html_path}")
+        else:
+            response = self.send_request(query, result_num, safe)
+            self.save_response(response, html_path)
+        return html_path
+if __name__ == "__main__":
+    searcher = GoogleSearcher()
+    html_path = searcher.search("python tutorials")
+    print(f"HTML file saved at: {html_path}")

webscout-1.2.3/DeepWEBS/networks/network_configs.py ADDED Viewed

@@ -0,0 +1,30 @@
+IGNORE_TAGS = ["script", "style", "button"]
+IGNORE_CLASSES = [
+    # common
+    "sidebar",
+    "footer",
+    "related",
+    "comment",
+    "topbar",
+    "offcanvas",
+    "navbar",
+    # 163.com
+    "post_(top)|(side)|(recommends)|(crumb)|(statement)|(next)|(jubao)",
+    "ntes\-.*nav",
+    "nav\-bottom",
+    # wikipedia.org
+    "language\-list",
+    "vector\-(header)|(column)|(sticky\-pinned)|(dropdown\-content)",
+    "navbox",
+    "catlinks",
+]
+IGNORE_HOSTS = [
+    "weibo.com",
+    "hymson.com",
+    "yahoo.com",
+]
+REQUESTS_HEADERS = {
+    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.62",
+}

webscout-1.2.3/DeepWEBS/networks/webpage_fetcher.py ADDED Viewed

@@ -0,0 +1,97 @@
+import concurrent.futures
+import random
+import requests
+import tldextract
+from pathlib import Path
+from typing import List, Tuple, Dict
+from DeepWEBS.utilsdw.enver import enver
+from DeepWEBS.utilsdw.logger import logger
+from DeepWEBS.networks.filepath_converter import UrlToFilepathConverter
+from DeepWEBS.networks.network_configs import IGNORE_HOSTS, REQUESTS_HEADERS
+class WebpageFetcher:
+    def __init__(self):
+        self.enver = enver
+        self.enver.set_envs(proxies=True)
+        self.filepath_converter = UrlToFilepathConverter()
+    def is_ignored_host(self, url: str) -> bool:
+        host = tldextract.extract(url).registered_domain
+        return host in IGNORE_HOSTS
+    def send_request(self, url: str) -> requests.Response:
+        try:
+            user_agent = random.choice(REQUESTS_HEADERS["User-Agent"])
+            response = requests.get(
+                url=url,
+                headers={"User-Agent": user_agent},
+                proxies=self.enver.requests_proxies,
+                timeout=15,
+            )
+            response.raise_for_status()
+            return response
+        except requests.exceptions.RequestException as e:
+            logger.warn(f"Failed to fetch: [{url}] | {e}")
+            return None
+    def save_response(self, response: requests.Response, html_path: Path) -> None:
+        if response is None:
+            return
+        html_path.parent.mkdir(parents=True, exist_ok=True)
+        logger.success(f"Saving to: [{html_path}]")
+        with html_path.open("wb") as wf:
+            wf.write(response.content)
+    def fetch(self, url: str, overwrite: bool = False, output_parent: str = None) -> Path:
+        logger.note(f"Fetching: [{url}]")
+        html_path = self.filepath_converter.convert(url, parent=output_parent)
+        if self.is_ignored_host(url):
+            logger.warn(f"Ignored host: [{tldextract.extract(url).registered_domain}]")
+            return html_path
+        if html_path.exists() and not overwrite:
+            logger.success(f"HTML existed: [{html_path}]")
+        else:
+            response = self.send_request(url)
+            self.save_response(response, html_path)
+        return html_path
+class BatchWebpageFetcher:
+    def __init__(self):
+        self.done_count = 0
+        self.total_count = 0
+        self.url_and_html_path_list: List[Dict[str, str]] = []
+    def fetch_single_webpage(self, url: str, overwrite: bool = False, output_parent: str = None) -> Tuple[str, Path]:
+        webpage_fetcher = WebpageFetcher()
+        html_path = webpage_fetcher.fetch(url, overwrite, output_parent)
+        self.url_and_html_path_list.append({"url": url, "html_path": str(html_path)})
+        self.done_count += 1
+        logger.success(f"> [{self.done_count}/{self.total_count}] Fetched: {url}")
+        return url, html_path
+    def fetch(self, urls: List[str], overwrite: bool = False, output_parent: str = None) -> List[Dict[str, str]]:
+        self.urls = urls
+        self.total_count = len(self.urls)
+        with concurrent.futures.ThreadPoolExecutor() as executor:
+            futures = [
+                executor.submit(self.fetch_single_webpage, url, overwrite, output_parent)
+                for url in urls
+            ]
+            concurrent.futures.wait(futures)
+        return self.url_and_html_path_list
+if __name__ == "__main__":
+    urls = [
+        "https://stackoverflow.com/questions/295135/turn-a-string-into-a-valid-filename",
+        "https://www.liaoxuefeng.com/wiki/1016959663602400/1017495723838528",
+        "https://docs.python.org/zh-cn/3/tutorial/interpreter.html",
+    ]
+    batch_webpage_fetcher = BatchWebpageFetcher()
+    batch_webpage_fetcher.fetch(urls=urls, overwrite=True, output_parent="python tutorials")

webscout-1.2.3/DeepWEBS/utilsdw/__init__.py ADDED Viewed

File without changes

webscout-1.2.3/DeepWEBS/utilsdw/enver.py ADDED Viewed

@@ -0,0 +1,60 @@
+import json
+import os
+from pathlib import Path
+from DeepWEBS.utilsdw.logger import logger
+class OSEnver:
+    def __init__(self):
+        self.envs_stack = []
+        self.envs = os.environ.copy()
+    def store_envs(self):
+        self.envs_stack.append(self.envs)
+    def restore_envs(self):
+        self.envs = self.envs_stack.pop()
+    def set_envs(self, secrets=True, proxies=None, store_envs=True):
+        # caller_info = inspect.stack()[1]
+        # logger.back(f"OS Envs is set by: {caller_info.filename}")
+        if store_envs:
+            self.store_envs()
+        if secrets:
+            secrets_path = Path(__file__).parents[1] / "secrets.json"
+            if secrets_path.exists():
+                with open(secrets_path, "r") as rf:
+                    secrets = json.load(rf)
+            else:
+                secrets = {}
+        if proxies:
+            for proxy_env in ["http_proxy", "https_proxy"]:
+                if isinstance(proxies, str):
+                    self.envs[proxy_env] = proxies
+                elif "http_proxy" in secrets.keys():
+                    self.envs[proxy_env] = secrets["http_proxy"]
+                elif os.getenv("http_proxy"):
+                    self.envs[proxy_env] = os.getenv("http_proxy")
+                else:
+                    continue
+        self.proxy = (
+            self.envs.get("all_proxy")
+            or self.envs.get("http_proxy")
+            or self.envs.get("https_proxy")
+            or None
+        )
+        self.requests_proxies = {
+            "http": self.proxy,
+            "https": self.proxy,
+        }
+        if self.proxy:
+            logger.note(f"Using proxy: [{self.proxy}]")
+enver = OSEnver()

webscout 1.2.1__tar.gz → 1.2.3__tar.gz

Potentially problematic release.

webscout 1.2.1tar.gz → 1.2.3tar.gz