PyPI - webscout - Versions diffs - 3.4__py3-none-any.whl → 3.5__py3-none-any.whl - Mend

webscout 3.4py3-none-any.whl → 3.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of webscout might be problematic. Click here for more details.

Files changed (25) hide show

webscout/AIutel.py +1 -0
webscout/DWEBS.py +772 -176
webscout/Provider/Deepinfra.py +479 -0
webscout/Provider/__init__.py +4 -1
webscout/__init__.py +4 -2
webscout/webai.py +15 -0
webscout/websx_search.py +370 -0
{webscout-3.4.dist-info → webscout-3.5.dist-info}/METADATA +148 -216
{webscout-3.4.dist-info → webscout-3.5.dist-info}/RECORD +13 -23
{webscout-3.4.dist-info → webscout-3.5.dist-info}/top_level.txt +0 -1
DeepWEBS/__init__.py +0 -0
DeepWEBS/documents/__init__.py +0 -0
DeepWEBS/documents/query_results_extractor.py +0 -99
DeepWEBS/documents/webpage_content_extractor.py +0 -145
DeepWEBS/networks/__init__.py +0 -0
DeepWEBS/networks/filepath_converter.py +0 -109
DeepWEBS/networks/google_searcher.py +0 -52
DeepWEBS/networks/network_configs.py +0 -30
DeepWEBS/networks/webpage_fetcher.py +0 -95
DeepWEBS/utilsdw/__init__.py +0 -0
DeepWEBS/utilsdw/enver.py +0 -78
DeepWEBS/utilsdw/logger.py +0 -269
{webscout-3.4.dist-info → webscout-3.5.dist-info}/LICENSE.md +0 -0
{webscout-3.4.dist-info → webscout-3.5.dist-info}/WHEEL +0 -0
{webscout-3.4.dist-info → webscout-3.5.dist-info}/entry_points.txt +0 -0

DeepWEBS/documents/webpage_content_extractor.py DELETED Viewed

@@ -1,145 +0,0 @@
-import concurrent.futures
-import re
-from pathlib import Path
-from pprint import pprint
-from bs4 import BeautifulSoup
-from tiktoken import get_encoding as tiktoken_get_encoding
-from DeepWEBS.utilsdw.logger import logger
-from markdownify import markdownify
-from DeepWEBS.networks.network_configs import IGNORE_TAGS, IGNORE_CLASSES
-from termcolor import colored
-class WebpageContentExtractor:
-    def __init__(self):
-        self.tokenizer = tiktoken_get_encoding("cl100k_base")
-    def count_tokens(self, text):
-        tokens = self.tokenizer.encode(text)
-        token_count = len(tokens)
-        return token_count
-    def html_to_markdown(self, html_str, ignore_links=True):
-        if ignore_links:
-            markdown_str = markdownify(html_str, strip="a")
-        else:
-            markdown_str = markdownify(html_str)
-        markdown_str = re.sub(r"\n{3,}", "\n\n", markdown_str)
-        self.markdown_token_count = self.count_tokens(markdown_str)
-        logger.mesg(f'- Tokens: {colored(self.markdown_token_count,"light_green")}')
-        self.markdown_str = markdown_str
-        return self.markdown_str
-    def remove_elements_from_html(self, html_str):
-        soup = BeautifulSoup(html_str, "html.parser")
-        ignore_classes_with_parentheses = [f"({word})" for word in IGNORE_CLASSES]
-        ignore_classes_pattern = f'{"|".join(ignore_classes_with_parentheses)}'
-        removed_element_counts = 0
-        for element in soup.find_all():
-            class_str = ""
-            id_str = ""
-            try:
-                class_attr = element.get("class", [])
-                if class_attr:
-                    class_str = " ".join(list(class_attr))
-                if id_str:
-                    class_str = f"{class_str} {id_str}"
-            except:
-                pass
-            try:
-                id_str = element.get("id", "")
-            except:
-                pass
-            if (
-                (not element.text.strip())
-                or (element.name in IGNORE_TAGS)
-                or (re.search(ignore_classes_pattern, class_str, flags=re.IGNORECASE))
-                or (re.search(ignore_classes_pattern, id_str, flags=re.IGNORECASE))
-            ):
-                element.decompose()
-                removed_element_counts += 1
-        logger.mesg(
-            f"- Elements: "
-            f'{colored(len(soup.find_all()),"light_green")} / {colored(removed_element_counts,"light_red")}'
-        )
-        html_str = str(soup)
-        self.html_str = html_str
-        return self.html_str
-    def extract(self, html_path):
-        logger.note(f"Extracting content from: {html_path}")
-        if not Path(html_path).exists():
-            logger.warn(f"File not found: {html_path}")
-            return ""
-        encodings = ["utf-8", "latin-1"]
-        for encoding in encodings:
-            try:
-                with open(html_path, "r", encoding=encoding, errors="ignore") as rf:
-                    html_str = rf.read()
-                break
-            except UnicodeDecodeError:
-                pass
-        else:
-            logger.warn(f"No matching encodings: {html_path}")
-            return ""
-        html_str = self.remove_elements_from_html(html_str)
-        markdown_str = self.html_to_markdown(html_str)
-        return markdown_str
-class BatchWebpageContentExtractor:
-    def __init__(self) -> None:
-        self.html_path_and_extracted_content_list = []
-        self.done_count = 0
-    def extract_single_html(self, html_path):
-        webpage_content_extractor = WebpageContentExtractor()
-        extracted_content = webpage_content_extractor.extract(html_path)
-        self.html_path_and_extracted_content_list.append(
-            {"html_path": html_path, "extracted_content": extracted_content}
-        )
-        self.done_count += 1
-        logger.success(
-            f"> [{self.done_count}/{self.total_count}] Extracted: {html_path}"
-        )
-    def extract(self, html_paths):
-        self.html_path = html_paths
-        self.total_count = len(self.html_path)
-        with concurrent.futures.ThreadPoolExecutor() as executor:
-            futures = [
-                executor.submit(self.extract_single_html, html_path)
-                for html_path in self.html_path
-            ]
-            for idx, future in enumerate(concurrent.futures.as_completed(futures)):
-                result = future.result()
-        return self.html_path_and_extracted_content_list
-if __name__ == "__main__":
-    html_root = Path(__file__).parents[1] / "files" / "urls" / "python tutorials"
-    html_paths = [
-        html_root / html_filename
-        for html_filename in [
-            "docs.python.org_zh-cn_3_tutorial_interpreter.html",
-            "stackoverflow.com_questions_295135_turn-a-string-into-a-valid-filename.html",
-            "www.liaoxuefeng.com_wiki_1016959663602400_1017495723838528.html",
-        ]
-    ]
-    batch_webpage_content_extractor = BatchWebpageContentExtractor()
-    html_path_and_extracted_content_list = batch_webpage_content_extractor.extract(
-        html_paths
-    )
-    # pprint(html_path_and_extracted_content_list)

DeepWEBS/networks/__init__.py DELETED Viewed

File without changes

DeepWEBS/networks/filepath_converter.py DELETED Viewed

@@ -1,109 +0,0 @@
-import platform
-import re
-from pathlib import Path
-from urllib.parse import quote, unquote
-# What characters are forbidden in Windows and Linux directory names?
-#   https://stackoverflow.com/questions/1976007/what-characters-are-forbidden-in-windows-and-linux-directory-names
-INVALID_FILE_PATH_CHARS = [
-    "\\",
-    "/",
-    ":",
-    "*",
-    "?",
-    '"',
-    "<",
-    ">",
-    "|",
-    "\n",
-    "\t",
-    "\r",
-    *[chr(i) for i in range(32)],
-]
-WINDOWS_INVALID_FILE_PATH_NAMES = [
-    "con",
-    "prn",
-    "aux",
-    "nul",
-    *[f"com{i+1}" for i in range(10)],
-    *[f"lpt{i+1}" for i in range(10)],
-]
-class FilepathConverter:
-    def __init__(self, parent: str = None):
-        self.output_root = Path(__file__).parents[1] / "files"
-        self.parent = parent
-    def preprocess(self, input_string):
-        return input_string
-    def validate(self, input_string):
-        if not input_string:
-            return input_string
-        filename = input_string
-        for char in INVALID_FILE_PATH_CHARS:
-            filename = filename.replace(char, "_")
-        if platform.system() == "Windows":
-            filename_base = filename.split(".")[0]
-            if filename_base.lower() in WINDOWS_INVALID_FILE_PATH_NAMES:
-                filename_base = filename_base + "_"
-                filename = ".".join([filename_base, *filename.split(".")[1:]])
-        return filename
-    def append_extension(self, filename, accept_exts=[".html", ".htm"], ext=".html"):
-        if ext:
-            filename_ext = "." + filename.split(".")[-1]
-            if filename_ext.lower() not in accept_exts:
-                filename += ext
-        return filename
-    def convert(self, input_string, parent=None):
-        filename = self.preprocess(input_string)
-        filename = self.validate(filename)
-        filename = self.append_extension(filename)
-        parent = parent or self.parent
-        parent = self.validate(parent)
-        if parent:
-            filepath = self.output_root / parent / filename
-        else:
-            filepath = self.output_root / filename
-        self.filename = filename
-        self.filepath = filepath
-        return self.filepath
-class UrlToFilepathConverter(FilepathConverter):
-    def __init__(self, parent: str = None):
-        super().__init__(parent)
-        self.output_root = self.output_root / "urls"
-    def preprocess(self, url):
-        filename = unquote(url.split("//")[1])
-        return filename
-class QueryToFilepathConverter(FilepathConverter):
-    def __init__(self, parent: str = None):
-        super().__init__(parent)
-        self.output_root = self.output_root / "queries"
-if __name__ == "__main__":
-    query = "python"
-    query_converter = QueryToFilepathConverter()
-    print(query_converter.convert(query))
-    # url = "https://trafilatura.readthedocs.io/en/latest/quickstart.html"
-    url = (
-        "https://stackoverflow.com/questions/295135/turn-a-string-into-a-valid-filename"
-    )
-    url_converter = UrlToFilepathConverter(parent=query)
-    print(url_converter.convert(url))

DeepWEBS/networks/google_searcher.py DELETED Viewed

@@ -1,52 +0,0 @@
-import requests
-from pathlib import Path
-from typing import Optional
-import random
-from DeepWEBS.utilsdw.enver import enver
-from DeepWEBS.utilsdw.logger import logger
-from DeepWEBS.networks.filepath_converter import QueryToFilepathConverter
-from DeepWEBS.networks.network_configs import REQUESTS_HEADERS
-class GoogleSearcher:
-    def __init__(self):
-        self.url = "https://www.google.com/search"
-        self.enver = enver
-        self.enver.set_envs(proxies=True)
-        self.filepath_converter = QueryToFilepathConverter()
-    def send_request(self, query: str, result_num: int = 10, safe: bool = False) -> requests.Response:
-        params = {
-            "q": query,
-            "num": result_num,
-        }
-        response = requests.get(
-            self.url,
-            headers=REQUESTS_HEADERS,
-            params=params,
-            proxies=self.enver.requests_proxies,
-        )
-        response.raise_for_status()  # Raise an exception for non-2xx status codes
-        return response
-    def save_response(self, response: requests.Response, html_path: Path) -> None:
-        html_path.parent.mkdir(parents=True, exist_ok=True)
-        logger.note(f"Saving to: [{html_path}]")
-        with html_path.open("wb") as wf:
-            wf.write(response.content)
-    def search(self, query: str, result_num: int = 10, safe: bool = False, overwrite: bool = False) -> Path:
-        html_path = self.filepath_converter.convert(query)
-        logger.note(f"Searching: [{query}]")
-        if html_path.exists() and not overwrite:
-            logger.success(f"HTML existed: {html_path}")
-        else:
-            response = self.send_request(query, result_num, safe)
-            self.save_response(response, html_path)
-        return html_path
-if __name__ == "__main__":
-    searcher = GoogleSearcher()
-    html_path = searcher.search("python tutorials")
-    print(f"HTML file saved at: {html_path}")

DeepWEBS/networks/network_configs.py DELETED Viewed

@@ -1,30 +0,0 @@
-IGNORE_TAGS = ["script", "style", "button"]
-IGNORE_CLASSES = [
-    # common
-    "sidebar",
-    "footer",
-    "related",
-    "comment",
-    "topbar",
-    "offcanvas",
-    "navbar",
-    # 163.com
-    "post_(top)|(side)|(recommends)|(crumb)|(statement)|(next)|(jubao)",
-    "ntes\-.*nav",
-    "nav\-bottom",
-    # wikipedia.org
-    "language\-list",
-    "vector\-(header)|(column)|(sticky\-pinned)|(dropdown\-content)",
-    "navbox",
-    "catlinks",
-]
-IGNORE_HOSTS = [
-    "weibo.com",
-    "hymson.com",
-    "yahoo.com",
-]
-REQUESTS_HEADERS = {
-    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.62",
-}

DeepWEBS/networks/webpage_fetcher.py DELETED Viewed

@@ -1,95 +0,0 @@
-import concurrent.futures
-import random
-import requests
-import tldextract
-from pathlib import Path
-from typing import List, Tuple, Dict
-from DeepWEBS.utilsdw.enver import enver
-from DeepWEBS.utilsdw.logger import logger
-from DeepWEBS.networks.filepath_converter import UrlToFilepathConverter
-from DeepWEBS.networks.network_configs import IGNORE_HOSTS, REQUESTS_HEADERS
-class WebpageFetcher:
-    def __init__(self):
-        self.enver = enver
-        self.enver.set_envs(proxies=True)
-        self.filepath_converter = UrlToFilepathConverter()
-    def is_ignored_host(self, url: str) -> bool:
-        host = tldextract.extract(url).registered_domain
-        return host in IGNORE_HOSTS
-    def send_request(self, url: str) -> requests.Response:
-        try:
-            user_agent = random.choice(REQUESTS_HEADERS["User-Agent"])
-            response = requests.get(
-                url=url,
-                headers={"User-Agent": user_agent},
-                proxies=self.enver.requests_proxies,
-                timeout=15,
-            )
-            response.raise_for_status()
-            return response
-        except requests.exceptions.RequestException as e:
-            logger.warn(f"Failed to fetch: [{url}] | {e}")
-            return None
-    def save_response(self, response: requests.Response, html_path: Path) -> None:
-        if response is None:
-            return
-        html_path.parent.mkdir(parents=True, exist_ok=True)
-        logger.success(f"Saving to: [{html_path}]")
-        with html_path.open("wb") as wf:
-            wf.write(response.content)
-    def fetch(self, url: str, overwrite: bool = False, output_parent: str = None) -> Path:
-        logger.note(f"Fetching: [{url}]")
-        html_path = self.filepath_converter.convert(url, parent=output_parent)
-        if self.is_ignored_host(url):
-            logger.warn(f"Ignored host: [{tldextract.extract(url).registered_domain}]")
-            return html_path
-        if html_path.exists() and not overwrite:
-            logger.success(f"HTML existed: [{html_path}]")
-        else:
-            response = self.send_request(url)
-            self.save_response(response, html_path)
-        return html_path
-class BatchWebpageFetcher:
-    def __init__(self):
-        self.done_count = 0
-        self.total_count = 0
-        self.url_and_html_path_list: List[Dict[str, str]] = []
-    def fetch_single_webpage(self, url: str, overwrite: bool = False, output_parent: str = None) -> Tuple[str, Path]:
-        webpage_fetcher = WebpageFetcher()
-        html_path = webpage_fetcher.fetch(url, overwrite, output_parent)
-        self.url_and_html_path_list.append({"url": url, "html_path": str(html_path)})
-        self.done_count += 1
-        logger.success(f"> [{self.done_count}/{self.total_count}] Fetched: {url}")
-        return url, html_path
-    def fetch(self, urls: List[str], overwrite: bool = False, output_parent: str = None) -> List[Dict[str, str]]:
-        self.urls = urls
-        self.total_count = len(self.urls)
-        with concurrent.futures.ProcessPoolExecutor() as executor:
-            futures = [
-                executor.submit(WebpageFetcher().fetch, url, overwrite, output_parent)
-                for url in urls
-            ]
-            concurrent.futures.wait(futures)
-        self.url_and_html_path_list = [
-            {"url": future.result().url, "html_path": str(future.result().html_path)}
-            for future in futures
-        ]
-        return self.url_and_html_path_list

DeepWEBS/utilsdw/__init__.py DELETED Viewed

File without changes

DeepWEBS/utilsdw/enver.py DELETED Viewed

@@ -1,78 +0,0 @@
-import json
-import os
-from pathlib import Path
-from typing import Dict, Optional
-from DeepWEBS.utilsdw.logger import OSLogger
-class OSEnver:
-    """Manages the OS environment variables."""
-    def __init__(self) -> None:
-        """Initializes the OSEnver object."""
-        self.envs_stack: list[Dict[str, str]] = []
-        self.envs: Dict[str, str] = os.environ.copy()
-    def store_envs(self) -> None:
-        """Stores a copy of the current environment variables on a stack."""
-        self.envs_stack.append(self.envs.copy())
-    def restore_envs(self) -> None:
-        """Restores environment variables from the top of the stack."""
-        self.envs = self.envs_stack.pop()
-    def set_envs(
-        self,
-        secrets: bool = True,
-        proxies: Optional[str] = None,
-        store_envs: bool = True,
-    ) -> None:
-        """Sets environment variables based on the contents of secrets.json.
-        Args:
-            secrets (bool): Whether to load secrets from secrets.json.
-            proxies (Optional[str]): Proxy URL to set as environment variable.
-            store_envs (bool): Whether to store a copy of the environment variables
-                on the stack.
-        """
-        if store_envs:
-            self.store_envs()
-        if secrets:
-            secrets_path = Path(__file__).parents[1] / "secrets.json"
-            if secrets_path.exists():
-                with open(secrets_path, "r") as rf:
-                    secrets = json.load(rf)
-            else:
-                secrets = {}
-        if proxies:
-            for proxy_env in ["http_proxy", "https_proxy"]:
-                if isinstance(proxies, str):
-                    self.envs[proxy_env] = proxies
-                elif "http_proxy" in secrets.keys():
-                    self.envs[proxy_env] = secrets["http_proxy"]
-                elif os.getenv("http_proxy"):
-                    self.envs[proxy_env] = os.getenv("http_proxy")
-                else:
-                    continue
-        self.proxy = (
-            self.envs.get("all_proxy")
-            or self.envs.get("http_proxy")
-            or self.envs.get("https_proxy")
-            or None
-        )
-        self.requests_proxies = {
-            "http": self.proxy,
-            "https": self.proxy,
-        }
-        if self.proxy:
-            OSLogger().note(f"Using proxy: [{self.proxy}]")
-enver: OSEnver = OSEnver()

webscout 3.4__py3-none-any.whl → 3.5__py3-none-any.whl

Potentially problematic release.

webscout 3.4py3-none-any.whl → 3.5py3-none-any.whl