PyPI - abstract-webtools - Versions diffs - 0.1.6.144__py3-none-any.whl → 0.1.6.146__py3-none-any.whl - Mend

abstract-webtools 0.1.6.144py3-none-any.whl → 0.1.6.146py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

abstract_webtools/managers/__init__.py CHANGED Viewed

@@ -10,6 +10,7 @@ from .sslManager import *
 from .tlsAdapter import *
 from .urlManager import *
 from .userAgentManager import *
-from .seleniumManager import *
+from .seleneumManager import *
 from .videoDownloader import *
 from .middleManager import *
+seleniumManager = seleneumManager

abstract_webtools/managers/cipherManager.py CHANGED Viewed

@@ -1,21 +1,20 @@
 class CipherManager:
     @staticmethod
-    def  get_default_ciphers()-> list:
+    def get_default_ciphers() -> list:
         return [
-            "ECDHE-RSA-AES256-GCM-SHA384", "ECDHE-ECDSA-AES256-GCM-SHA384",
-            "ECDHE-RSA-AES256-SHA384", "ECDHE-ECDSA-AES256-SHA384",
-            "ECDHE-RSA-AES256-SHA", "ECDHE-ECDSA-AES256-SHA",
-            "ECDHE-RSA-AES128-GCM-SHA256", "ECDHE-RSA-AES128-SHA256",
-            "ECDHE-ECDSA-AES128-GCM-SHA256", "ECDHE-ECDSA-AES128-SHA256",
-            "AES256-SHA", "AES128-SHA"
+            "ECDHE-RSA-AES256-GCM-SHA384","ECDHE-ECDSA-AES256-GCM-SHA384",
+            "ECDHE-RSA-AES256-SHA384","ECDHE-ECDSA-AES256-SHA384",
+            "ECDHE-RSA-AES256-SHA","ECDHE-ECDSA-AES256-SHA",
+            "ECDHE-RSA-AES128-GCM-SHA256","ECDHE-RSA-AES128-SHA256",
+            "ECDHE-ECDSA-AES128-GCM-SHA256","ECDHE-ECDSA-AES128-SHA256",
+            "AES256-SHA","AES128-SHA"
         ]
+    def __init__(self, cipher_list=None):
+        self.cipher_list = cipher_list or self.get_default_ciphers()
+        if isinstance(self.cipher_list, str):
+            self.cipher_list = [c.strip() for c in self.cipher_list.split(',') if c.strip()]
+        self.ciphers_string = ','.join(self.cipher_list) if self.cipher_list else ''
-    def __init__(self,cipher_list=None):
-        if cipher_list == None:
-            cipher_list=self.get_default_ciphers()
-        self.cipher_list = cipher_list
-        self.create_list()
-        self.ciphers_string = self.add_string_list()
     def add_string_list(self):
         if len(self.cipher_list)==0:
             return ''

abstract_webtools/managers/crawlManager.py CHANGED Viewed

@@ -119,14 +119,42 @@ if __name__ == "__main__":
     generator.run()
 class crawlManager:
-    def __init__(self, url=None, req_mgr=None, url_mgr=None, source_code=None, parse_type="html.parser"):
+    def __init__(self, url, req_mgr, url_mgr, source_code=None, parse_type="html.parser"):
+        self.url_mgr = url_mgr
+        self.req_mgr = req_mgr
         self.url = url
-        self.source_code = source_code
         self.parse_type = parse_type
-        self.url_mgr = url_mgr or urlManager(url=self.url)
-        self.req_mgr = req_mgr or requestManager(url_mgr=self.url_mgr)
-        self.get_new_source_and_url(url)
-        self.sime_map_mgr = SitemapGenerator(self.url_mgr.domain)
+        self.source_code = source_code or req_mgr.source_code
+        self.soup = BeautifulSoup(self.source_code or "", parse_type)
+        self.base_netloc = urlparse(self.url).netloc
+    def is_internal(self, link):
+        u = urlparse(link)
+        return (not u.netloc) or (u.netloc == self.base_netloc)
+    def links_on_page(self):
+        out = set()
+        for a in self.soup.find_all("a", href=True):
+            out.add(urljoin(self.url, a["href"]))
+        return out
+    def crawl(self, start=None, max_depth=2, _depth=0, visited=None, session=None):
+        start = start or self.url
+        visited = visited or set()
+        if _depth > max_depth or start in visited:
+            return visited
+        visited.add(start)
+        # fetch
+        r = self.req_mgr.session.get(start, timeout=30)
+        r.raise_for_status()
+        soup = BeautifulSoup(r.text, self.parse_type)
+        for a in soup.find_all("a", href=True):
+            link = urljoin(start, a["href"])
+            if self.is_internal(link) and link not in visited:
+                self.crawl(link, max_depth=max_depth, _depth=_depth+1, visited=visited)
+        return visited
     def get_new_source_and_url(self, url=None):
         """Fetches new source code and response for a given URL."""
         url = url
@@ -194,26 +222,7 @@ class crawlManager:
             return ('yearly', '0.3')
         return ('weekly', '1.0')
-    def crawl(self, url, max_depth=3, depth=1, visited=None):
-        """Recursively crawls the site up to max_depth and returns valid internal links."""
-        visited = visited or set()
-        if depth > max_depth or url in visited:
-            return []
-        visited.add(url)
-        try:
-            soup = get_soup(url)
-            links = []
-            for tag in soup.find_all('a', href=True):
-                link = urljoin(url, tag['href'])
-                if urlparse(link).netloc == urlparse(url).netloc and link not in visited:
-                    links.append(link)
-                    self.crawl(link, max_depth, depth + 1, visited)
-            return links
-        except Exception as e:
-            print(f"Error crawling {url}: {e}")
-            return []
     def get_meta_info(self, url=None):
         """Fetches metadata, including title and meta tags, from the page."""
         url = url or self.url

abstract_webtools/managers/curlMgr.py CHANGED Viewed

@@ -1,48 +1,26 @@
-import os
-import requests
-import os
-import subprocess
-import stat
-def get_site(website, destination_dir, filename):
-    # Ensure the directory exists
-    os.makedirs(destination_dir, exist_ok=True)
-    # Adjust directory permissions if needed (e.g. rwxr-xr-x -> 0o755)
-    os.chmod(destination_dir, 0o755)
-    # Construct the complete file path
-    destination_path = os.path.join(destination_dir, filename)
-    # Use curl to download the site
-    # The example user-agent is arbitrary; you can change it to your needs
-    os.system(
-        f'curl -L --output "{destination_path}" '
-        f'-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
-        f'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 '
-        f'Safari/537.36" -H "Accept: */*" "{website}"'
-    )
-def download_site(website, destination_dir, filename):
-    os.makedirs(destination_dir, exist_ok=True)
-    os.chmod(destination_dir, 0o755)  # set directory permissions if needed
-    destination_path = os.path.join(destination_dir, filename)
-    # GET the resource
-    response = requests.get(website, headers={
-        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
-                      "AppleWebKit/537.36 (KHTML, like Gecko) "
-                      "Chrome/91.0.4472.124 Safari/537.36",
-        "Accept": "*/*"
-    }, allow_redirects=True)
-    # Raise an exception if the download fails
-    response.raise_for_status()
-    # Write content to file
+import os, subprocess, requests
+def curl_download(website, destination_path, user_agent=None):
+    os.makedirs(os.path.dirname(destination_path), exist_ok=True)
+    ua = user_agent or ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
+                        "AppleWebKit/537.36 (KHTML, like Gecko) "
+                        "Chrome/91.0.4472.124 Safari/537.36")
+    subprocess.run([
+        "curl","-L","--output", destination_path,
+        "-H", f"User-Agent: {ua}",
+        "-H", "Accept: */*",
+        website
+    ], check=True)
+def requests_download(website, destination_path, headers=None):
+    os.makedirs(os.path.dirname(destination_path), exist_ok=True)
+    hdr = {"User-Agent": ("Mozilla/5.0 ... Chrome/91.0 Safari/537.36"),
+           "Accept": "*/*"}
+    if headers: hdr.update(headers)
+    r = requests.get(website, headers=hdr, allow_redirects=True, timeout=30)
+    r.raise_for_status()
     with open(destination_path, "wb") as f:
-        f.write(response.content)
-website = 'https://www.pornhub.com'
-destination = '/home/computron/Documents/doge'
-get_site(website,destination,'doge')
+        f.write(r.content)
+if __name__ == "__main__":
+    pass  # no side effects

abstract_webtools/managers/meta_dump.py ADDED Viewed

@@ -0,0 +1,27 @@
+# meta_dump.py
+from abstract_webtools.managers.networkManager import NetworkManager
+from abstract_webtools.managers.userAgentManager import UserAgentManager
+from abstract_webtools.managers.soupManager.soupManager import soupManager
+import json, sys
+def dump_all_meta(url: str):
+    ua = UserAgentManager(browser="Chrome", operating_system="Windows")
+    net = NetworkManager(user_agent_manager=ua)
+    r = net.session.get(url, timeout=30)
+    r.raise_for_status()
+    sm = soupManager(url=url, source_code=r.text, req_mgr=net)
+    out = {
+        "url": url,
+        "title": sm.soup.title.string.strip() if sm.soup.title and sm.soup.title.string else None,
+        "meta": sm.all_meta(),
+        "citation": sm.citation_dict(),
+        "links": sm.all_links(),
+        "json_ld": sm.all_jsonld(),
+    }
+    print(json.dumps(out, indent=2, ensure_ascii=False))
+if __name__ == "__main__":
+    url = sys.argv[1]
+    dump_all_meta(url)

abstract_webtools/managers/networkManager.py CHANGED Viewed

@@ -1,15 +1,50 @@
+from typing import Optional, List
+import requests
 from ..abstract_webtools import *
-from ..big_user_agent_list import *
+from .sslManager import SSLManager
+from .cipherManager import CipherManager
+class TLSAdapter(HTTPAdapter):
+    def __init__(self, ssl_manager: SSLManager=None):
+        ssl_manager = ssl_manager or SSLManager()
+        self.ssl_context = ssl_manager.ssl_context
+        super().__init__()
+    def init_poolmanager(self, *args, **kwargs):
+        kwargs['ssl_context'] = self.ssl_context
+        return super().init_poolmanager(*args, **kwargs)
 class NetworkManager:
-    def __init__(self, user_agent_manager=None,ssl_manager=None, tls_adapter=None,user_agent=None,proxies=None,cookies=None,ciphers=None, certification: Optional[str] = None, ssl_options: Optional[List[str]] = None):
-        if ssl_manager == None:
-            ssl_manager = SSLManager(ciphers=ciphers, ssl_options=ssl_options, certification=certification)
-        self.ssl_manager=ssl_manager
-        if tls_adapter == None:
-            tls_adapter=TLSAdapter(ssl_manager=ssl_manager,ciphers=ciphers, certification=certification, ssl_options=ssl_options)
-        self.tls_adapter=tls_adapter
-        self.ciphers=tls_adapter.ciphers
-        self.certification=tls_adapter.certification
-        self.ssl_options=tls_adapter.ssl_options
-        self.proxies=None or {}
-        self.cookies=cookies or "cb4c883efc59d0e990caf7508902591f4569e7bf-1617321078-0-150"
+    def __init__(self, user_agent_manager=None, ssl_manager=None, proxies=None, cookies=None,
+                 ciphers=None, certification: Optional[str]=None, ssl_options: Optional[List[str]]=None):
+        self.ua_mgr = user_agent_manager or UserAgentManager()
+        self.ssl_mgr = ssl_manager or SSLManager(
+            ciphers=ciphers or CipherManager().ciphers_string,
+            ssl_options=ssl_options,
+            certification=certification
+        )
+        self.session = requests.Session()
+        self.session.headers.update({
+            "User-Agent": self.ua_mgr.user_agent,
+            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
+            "Accept-Language": "en-US,en;q=0.9",
+            "Connection": "keep-alive"
+        })
+        adapter = TLSAdapter(self.ssl_mgr)
+        self.session.mount("https://", adapter)
+        self.session.mount("http://", HTTPAdapter())
+        if proxies:
+            self.session.proxies = proxies
+        if cookies:
+            if isinstance(cookies, requests.cookies.RequestsCookieJar):
+                self.session.cookies = cookies
+            elif isinstance(cookies, dict):
+                jar = requests.cookies.RequestsCookieJar()
+                for k,v in cookies.items(): jar.set(k,v)
+                self.session.cookies = jar
+            # if string: up to you—parse or ignore
+        # retries (optional)
+        from requests.adapters import Retry
+        self.session.adapters['https://'].max_retries = Retry(total=5, backoff_factor=0.5, status_forcelist=[429,500,502,503,504])

abstract_webtools/managers/requestManager/requestManager.py CHANGED Viewed

@@ -328,10 +328,11 @@ class requestManager:
     def make_request(self):
         """
-        Make a request and handle potential errors.
+        Make a request and handle potential errors, with retries.
         """
         if self.url_mgr.url is None:
             return None
         self.wait_between_requests()
         for _ in range(self.max_retries):
             try:
@@ -345,41 +346,52 @@ class requestManager:
                         elif self._response.status_code == 429:
                             logging.warning(f"Rate limited by {self.url_mgr.url}. Retrying...")
                             time.sleep(5)
+                    else:
+                        # String/bytes from Selenium path
+                        self.status_code = 200
+                        return self._response
             except requests.Timeout as e:
                 logging.error(f"Request to {self.url_mgr.url} timed out: {e}")
             except requests.ConnectionError:
                 logging.error(f"Connection error for URL {self.url_mgr.url}.")
             except requests.RequestException as e:
                 logging.error(f"Request exception for URL {self.url_mgr.url}: {e}")
-        try:
-            response = get_selenium_source(self.url_mgr.url)
-            if response:
-                self._response = response
-                self.status_code = 200  # Assume success
-                return self._response
-        except Exception as e:
-            logging.error(f"Failed to retrieve content from {self.url_mgr.url} after {self.max_retries} retries: {e}")
-            return None
+        logging.error(f"Failed to retrieve content from {self.url_mgr.url} after {self.max_retries} retries")
+        return None
     def try_request(self) -> requests.Response | str | bytes | None:
         """
-        Tries to make an HTTP request to the given URL using the provided session.
+        Tries Selenium first, then falls back to requests if Selenium fails.
         """
         if self.url_mgr.url is None:
             return None
+        # 1. Try Selenium
         try:
-            return get_selenium_source(self.url_mgr.url)  # or self.session.get(self.url_mgr.url, timeout=self.timeout, stream=self.stream)
+            return get_selenium_source(self.url_mgr.url)
+        except Exception as e:
+            logging.warning(f"Selenium failed for {self.url_mgr.url}, falling back to requests: {e}")
+        # 2. Fallback: requests
+        try:
+            resp = self.session.get(
+                self.url_mgr.url,
+                timeout=self.timeout or 10,
+                stream=self.stream
+            )
+            return resp
         except requests.RequestException as e:
-            logging.error(f"Request failed: {e}")
+            logging.error(f"Requests fallback also failed for {self.url_mgr.url}: {e}")
             return None
-    @property
-    def url(self):
-        return self.url_mgr.url
+        @property
+        def url(self):
+            return self.url_mgr.url
-    @url.setter
-    def url(self, new_url):
-        self._url = new_url
+        @url.setter
+        def url(self, new_url):
+            self._url = new_url
 class SafeRequestSingleton:
     _instance = None
     @staticmethod

abstract_webtools/managers/seleneumManager.py CHANGED Viewed

@@ -1,34 +1,114 @@
-import os
-#from ..abstract_webtools import urlManager
-from .urlManager import *
-from urllib.parse import urlparse
-from abstract_utilities import *
+import os, time, re, json, logging, urllib3, requests,tempfile, shutil, socket, atexit, errno
+from urllib.parse import urlparse, urljoin
+from bs4 import BeautifulSoup          # if you prefer, keep using your parser
 from selenium import webdriver
 from selenium.webdriver.chrome.options import Options
-import logging
-import urllib3
+from selenium.webdriver.common.by import By
+from selenium.webdriver.support.ui import WebDriverWait
+from selenium.webdriver.support import expected_conditions as EC
 from abstract_security import get_env_value
-# Suppress urllib3 warnings and debug logs
+from abstract_utilities import *
+from .urlManager import *               # your urlManager
 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
-# Suppress Selenium logs
 logging.getLogger("selenium").setLevel(logging.WARNING)
-# Setup Chrome options
+# ---- Chrome options (keep yours; add safe fallbacks) ----
 chrome_options = Options()
-chrome_options.binary_location = get_env_value('CHROME_BINARY')
-chrome_options.add_argument("--headless")  # Run in headless mode
+_bin = get_env_value('CHROME_BINARY')
+if _bin:
+    chrome_options.binary_location = _bin
+chrome_options.add_argument("--headless=new")
 chrome_options.add_argument("--no-sandbox")
 chrome_options.add_argument("--disable-dev-shm-usage")
 chrome_options.add_argument("--disable-gpu")
 chrome_options.add_argument("--disable-software-rasterizer")
 chrome_options.add_argument("--disable-extensions")
 chrome_options.add_argument("--remote-debugging-port=9222")
+chrome_prefs = {"profile.managed_default_content_settings.images": 2}
+chrome_options.experimental_options["prefs"] = chrome_prefs
+MIN_HTML_BYTES = 2048  # tune: consider <2KB suspicious for real pages
+# --- NEW helpers: unique temp profile + free port + options builder ---
+def _free_port() -> int:
+    s = socket.socket()
+    s.bind(("127.0.0.1", 0))
+    port = s.getsockname()[1]
+    s.close()
+    return port
+def _make_profile_dir(base="/var/tmp/selenium-profiles") -> str:
+    os.makedirs(base, exist_ok=True)
+    return tempfile.mkdtemp(prefix="cw-", dir=base)
+def _make_chrome_options(binary_path: str | None = None,
+                         user_data_dir: str | None = None) -> tuple[Options, str]:
+    opts = Options()
+    if binary_path:
+        opts.binary_location = binary_path
+    opts.add_argument("--headless=new")
+    opts.add_argument("--no-sandbox")
+    opts.add_argument("--disable-dev-shm-usage")
+    opts.add_argument("--disable-gpu")
+    opts.add_argument("--disable-software-rasterizer")
+    opts.add_argument("--disable-extensions")
+    prof = user_data_dir or _make_profile_dir()
+    opts.add_argument(f"--user-data-dir={prof}")
+    opts.add_argument(f"--remote-debugging-port={_free_port()}")
+    prefs = {"profile.managed_default_content_settings.images": 2}
+    opts.add_experimental_option("prefs", prefs)
+    return opts, prof
+def _looks_like_html(text_or_bytes: bytes | str) -> bool:
+    if not text_or_bytes:
+        return False
+    s = text_or_bytes if isinstance(text_or_bytes, str) else text_or_bytes.decode("utf-8", "ignore")
+    if len(s) < MIN_HTML_BYTES:
+        return False
+    lowered = s.lower()
+    return ("<html" in lowered and "</html>" in lowered) or "<body" in lowered
+def _requests_fallback(url: str, headers: dict | None = None, timeout: float = 15.0):
+    """Plain requests fallback. Returns `requests.Response | None`."""
+    try:
+        sess = requests.Session()
+        sess.headers.update(headers or {"User-Agent": "Mozilla/5.0"})
+        # honor simple redirects and cert issues as needed
+        resp = sess.get(url, timeout=timeout, allow_redirects=True, verify=False)
+        return resp
+    except Exception as e:
+        logging.warning(f"requests fallback failed for {url}: {e}")
+        return None
+def _wait_until_ready(driver, timeout: float = 10.0):
+    """Waits for DOM readiness and presence of <body>."""
+    try:
+        WebDriverWait(driver, timeout).until(
+            lambda d: d.execute_script("return document.readyState") in ("interactive", "complete")
+        )
+    except Exception:
+        pass
+    try:
+        WebDriverWait(driver, timeout).until(EC.presence_of_element_located((By.TAG_NAME, "body")))
+    except Exception:
+        pass
+    # small settle delay for late JS injections
+    time.sleep(0.3)
+def normalize_url(url, base_url=None):
+    manager = seleniumManager(url)
+    base_url = manager.base_url
+    if url.startswith(base_url):
+        url = url[len(base_url):]
+    normalized_url = urljoin(base_url, url.split('#')[0])
+    if not normalized_url.startswith(base_url):
+        return None
+    return normalized_url
+# ---- Singleton driver manager (your class; small fixes) ----
 class SingletonMeta(type):
     _instances = {}
     def __call__(cls, *args, **kwargs):
@@ -39,78 +119,123 @@ class SingletonMeta(type):
 class seleniumManager(metaclass=SingletonMeta):
     def __init__(self, url):
-        if not hasattr(self, 'initialized'):  # Prevent reinitialization
-            self.initialized = True
-            parsed_url = urlparse(url)
-            self.domain = parsed_url.netloc
-            self.scheme = parsed_url.scheme
-            self.base_url= f"{self.scheme}{self.domain}"
-            self.site_dir = os.path.join(os.getcwd(), self.domain)
-            os.makedirs(self.site_dir, exist_ok=True)
-            self.drivers = {}
-            self.page_type = []
+        if getattr(self, "initialized", False):
+            return
+        self.initialized = True
+        p = urlparse(url)
+        self.domain = p.netloc
+        self.scheme = p.scheme or "https"
+        self.base_url = f"{self.scheme}://{self.domain}"
+        self.site_dir = os.path.join("/var/tmp", "cw-sites", self.domain)
+        os.makedirs(self.site_dir, exist_ok=True)
+        self._sessions: dict[str, dict] = {}  # key -> {"driver": ..., "profile": ...}
+        atexit.register(lambda sm=self: sm.close_all())
     def get_url_to_path(self, url):
         url = eatAll(str(url), ['',' ','\n','\t','\\','/'])
-        parsed_url = urlparse(url)
-        if parsed_url.netloc == self.domain:
-            paths = parsed_url.path.split('/')
-            dir_path = self.site_dir
-            for path in paths[:-1]:
-                dir_path = os.path.join(dir_path, path)
-                os.makedirs(dir_path, exist_ok=True)
-            self.page_type.append(os.path.splitext(paths[-1])[-1] or 'html' if len(self.page_type) == 0 else self.page_type[-1])
-            dir_path = os.path.join(dir_path, paths[-1])
-            return dir_path
-    def saved_url_check(self, url):
-        path = self.get_url_to_path(url)
-        return path
+        p = urlparse(url)
+        if p.netloc == self.domain:
+            parts = [x for x in p.path.split('/') if x]
+            d = self.site_dir
+            for seg in parts[:-1]:
+                d = os.path.join(d, seg)
+                os.makedirs(d, exist_ok=True)
+            last = parts[-1] if parts else "index.html"
+            ext = os.path.splitext(last)[-1] or ".html"
+            if not hasattr(self, "page_type"):
+                self.page_type = []
+            self.page_type.append(ext if not self.page_type else self.page_type[-1])
+            return os.path.join(d, last)
     def get_with_netloc(self, url):
-        parsed_url = urlparse(url)
-        if parsed_url.netloc == '':
-            url = f"{self.scheme}://{self.domain}/{url.strip()}"
+        p = urlparse(url)
+        if p.netloc == '':
+            url = f"{self.scheme}://{self.domain}/{url.strip().lstrip('/')}"
         return url
-    def get_driver(self, url):
-        if url and url not in self.drivers:
-#            chrome_options = Options()
-#            chrome_options.add_argument("--headless")
-            driver = webdriver.Chrome(options=chrome_options)
-            self.drivers[url] = driver
-            driver.get(url)
-        return self.drivers[url]
-def normalize_url(url, base_url=None):
-    """
-    Normalize and resolve relative URLs, ensuring proper domain and format.
-    """
-    # If URL starts with the base URL repeated, remove the extra part
-    manager = seleniumManager(url)
-    base_url = manager.base_url
-    if url.startswith(base_url):
-        url = url[len(base_url):]
+    def get_driver(self, url) -> tuple[str, webdriver.Chrome]:
+        bin_path = get_env_value('CHROME_BINARY')
+        opts, prof = _make_chrome_options(binary_path=bin_path, user_data_dir=None)
+        driver = webdriver.Chrome(options=opts)
+        key = f"{url}#{time.time()}"
+        self._sessions[key] = {"driver": driver, "profile": prof}
+        return key, driver
-    # Resolve the URL against the base URL
-    normalized_url = urljoin(base_url, url.split('#')[0])
+    def close_driver(self, key: str):
+        sess = self._sessions.pop(key, None)
+        if not sess: return
+        try:
+            try: sess["driver"].quit()
+            except Exception: pass
+        finally:
+            shutil.rmtree(sess.get("profile") or "", ignore_errors=True)
-    # Ensure only URLs belonging to the base domain are kept
-    if not normalized_url.startswith(base_url):
-        return None
+    def close_all(self):
+        for key in list(self._sessions.keys()):
+            self.close_driver(key)
-    return normalized_url
-# Function to get Selenium page source
-def get_selenium_source(url):
+# ---- Hardened page-source retrieval with fallback ----
+def get_selenium_source(url, max_retries: int = 2, request_fallback: bool = True, timeout: float = 12.0):
     url_mgr = urlManager(url)
-    if url_mgr.url:
-        url = str(url_mgr.url)
-        manager = seleniumManager(url)
-        driver = manager.get_driver(url)
-        try:
-            # Get page source
-            page_source = driver.page_source
-            return page_source
-        finally:
-            # Don't quit the driver unless you're done with all interactions
-            pass
+    if not url_mgr.url:
+        return None
+    url = str(url_mgr.url)
+    manager = seleniumManager(url)
+    key, driver = manager.get_driver(url)
+    last_exc = None
+    try:
+        for attempt in range(1, max_retries + 1):
+            try:
+                driver.get(url)
+                _wait_until_ready(driver, timeout=timeout)
+                html = driver.page_source or ""
+                if not _looks_like_html(html):
+                    html = driver.execute_script(
+                        "return document.documentElement ? document.documentElement.outerHTML : '';"
+                    ) or html
+                if _looks_like_html(html):
+                    return html
+                logging.warning(f"Selenium returned suspicious HTML (len={len(html)}) for {url} "
+                                f"[attempt {attempt}/{max_retries}]")
+            except Exception as e:
+                last_exc = e
+                logging.warning(f"Selenium attempt {attempt}/{max_retries} failed for {url}: {e}")
+            time.sleep(0.5 * attempt)
+        if request_fallback:
+            resp = _requests_fallback(url, headers={"User-Agent": "Mozilla/5.0"})
+            if resp is not None:
+                ctype = (resp.headers.get("content-type") or "").lower()
+                body = resp.text if hasattr(resp, "text") else (
+                    resp.content.decode("utf-8", "ignore") if hasattr(resp, "content") else ""
+                )
+                if "application/json" in ctype:
+                    try:
+                        return json.dumps(resp.json())
+                    except Exception:
+                        return body
+                return body if _looks_like_html(body) or body else None
+    finally:
+        # critical: release the user-data-dir to avoid “already in use”
+        manager.close_driver(key)
+    if last_exc:
+        logging.error(f"Unable to retrieve page for {url}: {last_exc}")
+    return None
+def get_driver(self, url):
+    # always new
+    bin_path = get_env_value('CHROME_BINARY')
+    opts, prof = _make_chrome_options(binary_path=bin_path, user_data_dir=None)
+    driver = webdriver.Chrome(options=opts)
+    # store so close_all() can clean up
+    key = f"{url}#{time.time()}"
+    self._sessions[key] = {"driver": driver, "profile": prof}
+    return driver

abstract_webtools/managers/soupManager/soupManager.py CHANGED Viewed

@@ -1,6 +1,9 @@
 from ...abstract_webtools import *
 from ..urlManager import *
 from ..requestManager import *
+from bs4 import BeautifulSoup
+import re, json
 class soupManager:
     """
     SoupManager is a class for managing and parsing HTML source code using BeautifulSoup.
@@ -39,25 +42,49 @@ class soupManager:
         - The SoupManager class is designed for parsing HTML source code using BeautifulSoup.
         - It provides various methods to extract data and discover elements within the source code.
     """
-    def __init__(self,url=None,source_code=None,url_mgr=None,req_mgr=None,soup=None, parse_type="html.parser"):
-        self.soup=[]
-        url = get_url(url=url,url_mgr=url_mgr)
-        self.url_mgr = get_url_mgr(url=url,url_mgr=url_mgr)
-        self.url=self.url_mgr.url
-        self.req_mgr = get_req_mgr(req_mgr=req_mgr,url=self.url,url_mgr=self.url_mgr,source_code=source_code)
-        self.parse_type = parse_type
-        source_code = source_code or self.req_mgr.source_code or self.req_mgr.source_code_bytes
-        if source_code:
-            source_code = str(source_code)
-        self.source_code = source_code or ''
-        self.soup= soup or BeautifulSoup(self.source_code, self.parse_type)
-        self.all_tags_and_attribute_names = self.get_all_tags_and_attribute_names()
-        self.all_tags = self.all_tags_and_attribute_names.get('tags')
-        self.all_attribute_names = self.all_tags_and_attribute_names.get('attributes')
-        self.all_tags_and_attributes = self.all_tags + self.all_attribute_names
-        self._all_links_data = None
-        self._meta_tags_data = None
+    def __init__(self, url=None, source_code=None, req_mgr=None, parse_type="html.parser"):
+        self.url = url
+        self.req_mgr = req_mgr
+        self.source_code = (source_code or (req_mgr.source_code if req_mgr else "")) or ""
+        self.soup = BeautifulSoup(self.source_code, parse_type)
+    def all_meta(self):
+        out = []
+        for m in self.soup.find_all("meta"):
+            row = {}
+            for k in ("name","property","http-equiv","itemprop","charset","content"):
+                v = m.get(k)
+                if v: row[k] = v
+            if row: out.append(row)
+        return out
+    def citation_dict(self):
+        out = {}
+        for m in self.soup.find_all("meta"):
+            k = (m.get("name") or m.get("property") or "").lower()
+            if k.startswith("citation_") and m.get("content"):
+                out.setdefault(k, []).append(m["content"])
+        return out
+    def all_links(self):
+        res = []
+        for l in self.soup.find_all("link"):
+            rel = l.get("rel")
+            if isinstance(rel, list): rel = " ".join(rel)
+            res.append({
+                "rel": rel, "href": l.get("href"),
+                "type": l.get("type"), "title": l.get("title"), "hreflang": l.get("hreflang")
+            })
+        return res
+    def all_jsonld(self):
+        blocks = []
+        for s in self.soup.find_all("script", type=re.compile("application/ld\\+json", re.I)):
+            txt = s.get_text(strip=True)
+            try: blocks.append(json.loads(txt))
+            except Exception: blocks.append({"raw": txt})
+        return blocks
     def re_initialize(self):
         self.soup= BeautifulSoup(self.source_code, self.parse_type)
         self._all_links_data = None

abstract_webtools/managers/sslManager.py CHANGED Viewed

@@ -1,12 +1,21 @@
 from ..abstract_webtools import *
+# sslManager.py
+from ..abstract_webtools import *  # must expose ssl, ssl_
+from .cipherManager import CipherManager  # be explicit, safer
 class SSLManager:
     def __init__(self, ciphers=None, ssl_options=None, certification=None):
         self.ciphers = ciphers or CipherManager().ciphers_string
         self.ssl_options = ssl_options or self.get_default_ssl_settings()
         self.certification = certification or ssl.CERT_REQUIRED
         self.ssl_context = self.get_context()
     def get_default_ssl_settings(self):
         return ssl.OP_NO_TLSv1 | ssl.OP_NO_TLSv1_1 | ssl.OP_NO_COMPRESSION
-    def get_context(self):
-        return ssl_.create_urllib3_context(ciphers=self.ciphers, cert_reqs=self.certification, options=self.ssl_options)
+    def get_context(self):
+        return ssl_.create_urllib3_context(
+            ciphers=self.ciphers,
+            cert_reqs=self.certification,
+            options=self.ssl_options
+        )

abstract_webtools/managers/userAgentManager.py CHANGED Viewed

@@ -1,29 +1,27 @@
+# userAgentManager.py
 from ..abstract_webtools import *
 import random
 operating_systems = ['Macintosh','Windows','Linux']
 browsers = ['Firefox','Chrome','IceDragon','Waterfox','Gecko','Safari','MetaSr']
-def get_itter(iter_input,itter_list):
-    if not iter_input:
-        return itter_list[0]
-    if iter_input in itter_list:
-        return iter_input
-    iter_input_lower = iter_input.lower()
-    for itter in itter_list:
-        itter_lower = itter.lower()
-        if iter_input_lower in itter_lower:
-            return itter
-    return itter_list[0]
-def get_browser(browser=None):
-    return get_itter(browser,browsers)
-def get_operating_system(operating_system=None):
-    return get_itter(operating_system,operating_systems)
+def _pick(val, options):
+    if not val: return options[0]
+    if val in options: return val
+    l = val.lower()
+    for o in options:
+        if l in o.lower():
+            return o
+    return options[0]
 class UserAgentManager:
-    def __init__(self, operating_system=None, browser=None, version=None,user_agent=None):
-        self.operating_system = get_operating_system(operating_system=operating_system)
-        self.browser = get_browser(browser=browser)
+    def __init__(self, operating_system=None, browser=None, version=None, user_agent=None):
+        self.operating_system = _pick(operating_system, operating_systems)
+        self.browser = _pick(browser, browsers)
         self.version = version or '42.0'
         self.user_agent = user_agent or self.get_user_agent()
-        self.header = self.user_agent_header()
+        self.header = {"user-agent": self.user_agent}
     @staticmethod
     def user_agent_db():
         from ..big_user_agent_list import big_user_agent_dict
@@ -31,30 +29,23 @@ class UserAgentManager:
     def get_user_agent(self):
         ua_db = self.user_agent_db()
+        os_db = ua_db.get(self.operating_system) or random.choice(list(ua_db.values()))
+        br_db = os_db.get(self.browser) or random.choice(list(os_db.values()))
+        if self.version in br_db:
+            return br_db[self.version]
+        return random.choice(list(br_db.values()))
-        if self.operating_system and self.operating_system in ua_db:
-            operating_system_db = ua_db[self.operating_system]
-        else:
-            operating_system_db = random.choice(list(ua_db.values()))
-        if self.browser and self.browser in operating_system_db:
-            browser_db = operating_system_db[self.browser]
-        else:
-            browser_db = random.choice(list(operating_system_db.values()))
-        if self.version and self.version in browser_db:
-            return browser_db[self.version]
-        else:
-            return random.choice(list(browser_db.values()))
-    def user_agent_header(self):
-        return {"user-agent": self.user_agent}
 class UserAgentManagerSingleton:
     _instance = None
     @staticmethod
-    def get_instance(user_agent=UserAgentManager().get_user_agent()[0]):
+    def get_instance(**kwargs):
+        ua = kwargs.get("user_agent")
         if UserAgentManagerSingleton._instance is None:
-            UserAgentManagerSingleton._instance = UserAgentManager(user_agent=user_agent)
-        elif UserAgentManagerSingleton._instance.user_agent != user_agent:
-            UserAgentManagerSingleton._instance = UserAgentManager(user_agent=user_agent)
+            UserAgentManagerSingleton._instance = UserAgentManager(**kwargs)
+        else:
+            # rebuild if user_agent explicitly changed
+            inst = UserAgentManagerSingleton._instance
+            if ua and ua != inst.user_agent:
+                UserAgentManagerSingleton._instance = UserAgentManager(**kwargs)
         return UserAgentManagerSingleton._instance

{abstract_webtools-0.1.6.144.dist-info → abstract_webtools-0.1.6.146.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: abstract_webtools
-Version: 0.1.6.144
+Version: 0.1.6.146
 Summary: Abstract Web Tools is a Python package that provides various utility functions for web scraping tasks. It is built on top of popular libraries such as `requests`, `BeautifulSoup`, and `urllib3` to simplify the process of fetching and parsing web content.
 Home-page: https://github.com/AbstractEndeavors/abstract_essentials/tree/main/abstract_webtools
 Author: putkoff

{abstract_webtools-0.1.6.144.dist-info → abstract_webtools-0.1.6.146.dist-info}/RECORD RENAMED Viewed

@@ -10,22 +10,22 @@ abstract_webtools/main.py,sha256=_I7pPXPkoLZOoYGLQDrSLGhGuQt6-PVyXEHZSmglk2g,132
 abstract_webtools/soup_gui.py,sha256=n95YAps1R6DpMwR4UbthSqQby0C5WHUa9tsW-f2qpLg,5184
 abstract_webtools/url_grabber.py,sha256=pnCCev7ZIuM-6cAGTLmK5HfzZg_AX-fLcRpB6ZE70B8,10441
 abstract_webtools/url_grabber_new.py,sha256=xb23qo4anOY0Ax3CAfaHJ8s5VEz61Sinh-XpEDFW7Is,3621
-abstract_webtools/managers/__init__.py,sha256=d7Q6_McRuKOHmKuna19s0l1wMgtM1JgUX8rHaSqJIcE,436
+abstract_webtools/managers/__init__.py,sha256=RXQAK5z9nYlocM91P2OC4jR352-MiqT5bAi4xZl7_FU,470
 abstract_webtools/managers/allss\.py,sha256=IBhlyRQHfK-BtwUnSEbIPqlI1MtZ8-XsdaHv0b91HQ0,269
-abstract_webtools/managers/cipherManager.py,sha256=NHQGdR11eNSm-1H-GezD5dyQgsPTJwY5kczt8Sher2s,1621
-abstract_webtools/managers/crawlManager.py,sha256=62Ej6AQC6-qXX_EWOmcJ2szNvEjmebFGugMz65HF1qI,12983
+abstract_webtools/managers/cipherManager.py,sha256=trmjY6AoBDKnh4oprtJaGhGV-jyNmyUoPnw44s0C4PA,1707
+abstract_webtools/managers/crawlManager.py,sha256=mytGHr4bQDboq0q9XhqtPApJt48sL1KlMFsUV1MxvxM,13141
 abstract_webtools/managers/crawlmgr2.py,sha256=PvHas-FSlp98osc-2so9zw-2c7amUMdwIj6tmc6Rl00,1910
-abstract_webtools/managers/curlMgr.py,sha256=ghi0QsSAxjZu3HALFST5Kv_262XhHSAPGlQLvmguxPY,1657
+abstract_webtools/managers/curlMgr.py,sha256=gM_TzsnYIQGiK__YXarHt5XpRLdE-RgaJqRYKzsXm34,1025
 abstract_webtools/managers/domainManager.py,sha256=95znOBv05W77mW_fbZAfl4RmlENDlYqhEOMkL02L220,3610
 abstract_webtools/managers/dynamicRateLimiter.py,sha256=ycn5VQEPnmxjNMew4IVh-t5t43jhM39uypoOK9bJDDg,7662
 abstract_webtools/managers/get_test.py,sha256=nISrhUGdyvRv18wTGoifGhizBFoHeK0N3FymMASloFw,825
+abstract_webtools/managers/meta_dump.py,sha256=3U-P-CRF5YfjtJuIoGlt6XMOu8Xdt1ijZNxfT9lmH1w,937
 abstract_webtools/managers/mySocketClient.py,sha256=-j1Q8Ds9RCSbjZdx3ZF9mVpgwxaO0BBssanUcpYVQoY,2045
-abstract_webtools/managers/networkManager.py,sha256=Op2QDXrP-gmm0tCToe-Ryt9xuOtMppcN2KLKP1WZiu0,952
-abstract_webtools/managers/seleneumManager.py,sha256=1toMSoIPZmKwU88FMDTJl0DL398Zg_7uH-O1QqJpZC4,4184
-abstract_webtools/managers/seleniumManager.py,sha256=RRpA1_oOnZuzzQ4S6VX7tDFcI31E_mOou2CZOOZH6yI,4274
-abstract_webtools/managers/sslManager.py,sha256=I9YUqJo8_KwLOwfBTAoSfzKSfR4Vtjw1HQXsXRnCV-g,641
+abstract_webtools/managers/networkManager.py,sha256=eVnQACciE0r3E-xYqLjqNc26c_VCUZsiajusx2q4Pu4,2164
+abstract_webtools/managers/seleneumManager.py,sha256=wyo4SpocgRz3W50b33GW3po32_uxYwmdE1TFZ_0k07s,9539
+abstract_webtools/managers/sslManager.py,sha256=jvWFnZ80Quyb-kD8C41xWGC1dEzR4vvTS_QUIXgmPQQ,827
 abstract_webtools/managers/tlsAdapter.py,sha256=XZSMZz9EUOhv-h3_Waf6mjV1dA3oN_M_oWuoo4VZ_HE,1454
-abstract_webtools/managers/userAgentManager.py,sha256=cUaOlcCTzftVBCp9ZHwMXR9IB1wAE-03YSVwUBaIFLM,2514
+abstract_webtools/managers/userAgentManager.py,sha256=Lmpa0cvTkzXJ51Lmfcb_TuPPSNETcJbHY38pyQadaIU,1885
 abstract_webtools/managers/videoDownloader.py,sha256=mKXhKYNnJwPaiqAsHvFTBGLdXFgR3wdV0G1OIimiKbE,15424
 abstract_webtools/managers/videoDownloader2.py,sha256=v3H6akdhvVWGrB-r35m3cp_-aKkNWadpfCiMylOnv6w,12748
 abstract_webtools/managers/clownworld/__init__.py,sha256=eq25euhRbFqHLm1ibi_7FGz_oNWs-kkyAkETzK3r4_Q,35
@@ -39,14 +39,14 @@ abstract_webtools/managers/middleManager/src/UnifiedWebManager.py,sha256=qYCvfjU
 abstract_webtools/managers/middleManager/src/__init__.py,sha256=YaSAh7AG1EvFWFZBIe4pGvzmfr60rpR9ZDWoQKqAMd0,61
 abstract_webtools/managers/middleManager/src/legacy_tools.py,sha256=2cCnRaq8UO7HdtffNtAOsZFJm_mpZbpvBuX0pIIWGaM,125
 abstract_webtools/managers/requestManager/__init__.py,sha256=z2qGtweEoO_OKr959LGxVXEMu1hu7PIkmh89BEh5TI8,30
-abstract_webtools/managers/requestManager/requestManager.py,sha256=26BdfGrkWq2ouDaf0P8HTVK46PtPZJHUO46lIZgd8D8,19768
+abstract_webtools/managers/requestManager/requestManager.py,sha256=0d1Z5dFIjOg8KyJakzOilJiiq6SR3iKUr5vfnssWDu8,20048
 abstract_webtools/managers/soupManager/__init__.py,sha256=mqfXfqM9sWlYpOkoXUqtBoVvk2KQx1862NnmRVJwGtY,27
 abstract_webtools/managers/soupManager/asoueces.py,sha256=OaXqolZl0dI7b09NYwJ3Wnhuxf89ahZ1GjsOqy0GXfk,3506
-abstract_webtools/managers/soupManager/soupManager.py,sha256=75gwqVXIRwgVqzATBC-DiJF2AT_AdE6FSBWy3DbW5ZA,17393
+abstract_webtools/managers/soupManager/soupManager.py,sha256=6vWYnZGuimStbNiuH_V4UMPRk1W0SZo_fZkh8f7fVmM,17938
 abstract_webtools/managers/urlManager/__init__.py,sha256=gaJCHeK91Z-eYsBnxgdhbIUten1-gbx-zqx70R6ag-Y,26
 abstract_webtools/managers/urlManager/urlManager (Copy).py,sha256=vCFuLADmv3h7icaaoAsImGqb_49VizPY_ZvMl-C7PYk,7756
 abstract_webtools/managers/urlManager/urlManager.py,sha256=vY4KQXtcrlC2YtlultxQpVe581l5kAuT5VGA0WrI16g,8945
-abstract_webtools-0.1.6.144.dist-info/METADATA,sha256=3pP4vVIzPwj649lj6QTC2wxt7yxsx4YRwl-iRkixR9M,7289
-abstract_webtools-0.1.6.144.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-abstract_webtools-0.1.6.144.dist-info/top_level.txt,sha256=2DMJ7RmjTcjCsa-uwAV0K6eXXlIIkFDEjBLg_uyCmCI,18
-abstract_webtools-0.1.6.144.dist-info/RECORD,,
+abstract_webtools-0.1.6.146.dist-info/METADATA,sha256=TirJooA5jA2sXf7KpS0Hy24m4LpvMK2TmtFMbcTaH_E,7289
+abstract_webtools-0.1.6.146.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+abstract_webtools-0.1.6.146.dist-info/top_level.txt,sha256=2DMJ7RmjTcjCsa-uwAV0K6eXXlIIkFDEjBLg_uyCmCI,18
+abstract_webtools-0.1.6.146.dist-info/RECORD,,

abstract_webtools/managers/seleniumManager.py DELETED Viewed

@@ -1,119 +0,0 @@
-import os
-from ..abstract_webtools import *
-from .urlManager import *
-from urllib.parse import urlparse
-from abstract_utilities import *
-from selenium import webdriver
-from selenium.webdriver.chrome.options import Options
-import logging
-import urllib3
-# Suppress urllib3 warnings and debug logs
-urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
-logging.getLogger("urllib3").setLevel(logging.WARNING)
-# Suppress Selenium logs
-logging.getLogger("selenium").setLevel(logging.WARNING)
-import os
-from selenium import webdriver
-from selenium.webdriver.chrome.options import Options
-# Setup Chrome options
-chrome_options = Options()
-#chrome_options.binary_location = "/home/profiles/solcatcher/.cache/selenium/chrome/linux64/130.0.6723.58/chrome"
-chrome_options.add_argument("--headless")  # Run in headless mode
-chrome_options.add_argument("--no-sandbox")
-chrome_options.add_argument("--disable-dev-shm-usage")
-chrome_options.add_argument("--disable-gpu")
-chrome_options.add_argument("--disable-software-rasterizer")
-chrome_options.add_argument("--disable-extensions")
-chrome_options.add_argument("--remote-debugging-port=9222")
-class SingletonMeta(type):
-    _instances = {}
-    def __call__(cls, *args, **kwargs):
-        if cls not in cls._instances:
-            instance = super().__call__(*args, **kwargs)
-            cls._instances[cls] = instance
-        return cls._instances[cls]
-class seleniumManager(metaclass=SingletonMeta):
-    def __init__(self, url):
-        if not hasattr(self, 'initialized'):  # Prevent reinitialization
-            self.initialized = True
-            parsed_url = urlparse(url)
-            self.domain = parsed_url.netloc
-            self.scheme = parsed_url.scheme
-            self.base_url= f"{self.scheme}{self.domain}"
-            self.site_dir = os.path.join(os.getcwd(), self.domain)
-            os.makedirs(self.site_dir, exist_ok=True)
-            self.drivers = {}
-            self.page_type = []
-    def get_url_to_path(self, url):
-        url = eatAll(str(url), ['',' ','\n','\t','\\','/'])
-        parsed_url = urlparse(url)
-        if parsed_url.netloc == self.domain:
-            paths = parsed_url.path.split('/')
-            dir_path = self.site_dir
-            for path in paths[:-1]:
-                dir_path = os.path.join(dir_path, path)
-                os.makedirs(dir_path, exist_ok=True)
-            self.page_type.append(os.path.splitext(paths[-1])[-1] or 'html' if len(self.page_type) == 0 else self.page_type[-1])
-            dir_path = os.path.join(dir_path, paths[-1])
-            return dir_path
-    def saved_url_check(self, url):
-        path = self.get_url_to_path(url)
-        return path
-    def get_with_netloc(self, url):
-        parsed_url = urlparse(url)
-        if parsed_url.netloc == '':
-            url = f"{self.scheme}://{self.domain}/{url.strip()}"
-        return url
-    def get_driver(self, url):
-        if url and url not in self.drivers:
-            chrome_options = Options()
-            chrome_options.add_argument("--headless")
-            driver = webdriver.Chrome(options=chrome_options)
-            self.drivers[url] = driver
-            driver.get(url)
-        return self.drivers[url]
-def normalize_url(url, base_url=None):
-    """
-    Normalize and resolve relative URLs, ensuring proper domain and format.
-    """
-    # If URL starts with the base URL repeated, remove the extra part
-    manager = seleniumManager(url)
-    base_url = manager.base_url
-    if url.startswith(base_url):
-        url = url[len(base_url):]
-    # Resolve the URL against the base URL
-    normalized_url = urljoin(base_url, url.split('#')[0])
-    # Ensure only URLs belonging to the base domain are kept
-    if not normalized_url.startswith(base_url):
-        return None
-    return normalized_url
-# Function to get Selenium page source
-def get_selenium_source(url):
-    url_mgr = urlManager(url)
-    if url_mgr.url:
-        url = str(url_mgr.url)
-        manager = seleniumManager(url)
-        driver = manager.get_driver(url)
-        try:
-            # Get page source
-            page_source = driver.page_source
-            return page_source
-        finally:
-            # Don't quit the driver unless you're done with all interactions
-            pass

{abstract_webtools-0.1.6.144.dist-info → abstract_webtools-0.1.6.146.dist-info}/WHEEL RENAMED Viewed

File without changes

{abstract_webtools-0.1.6.144.dist-info → abstract_webtools-0.1.6.146.dist-info}/top_level.txt RENAMED Viewed

File without changes

abstract-webtools 0.1.6.144__py3-none-any.whl → 0.1.6.146__py3-none-any.whl

abstract-webtools 0.1.6.144py3-none-any.whl → 0.1.6.146py3-none-any.whl