PyPI - abstract-webtools - Versions diffs - 0.1.6.2__tar.gz → 0.1.6.4__tar.gz - Mend

abstract-webtools 0.1.6.2tar.gz → 0.1.6.4tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

{abstract_webtools-0.1.6.2/src/abstract_webtools.egg-info → abstract_webtools-0.1.6.4}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: abstract_webtools
-Version: 0.1.6.2
+Version: 0.1.6.4
 Summary: Abstract Web Tools is a Python package that provides various utility functions for web scraping tasks. It is built on top of popular libraries such as `requests`, `BeautifulSoup`, and `urllib3` to simplify the process of fetching and parsing web content.
 Home-page: https://github.com/AbstractEndeavors/abstract_essentials/tree/main/abstract_webtools
 Author: putkoff

{abstract_webtools-0.1.6.2 → abstract_webtools-0.1.6.4}/setup.py RENAMED Viewed

@@ -4,7 +4,7 @@ with open("README.md", "r", encoding="utf-8") as fh:
     long_description = fh.read()
 setuptools.setup(
     name='abstract_webtools',
-    version='0.1.6.02',
+    version='0.1.6.04',
     author='putkoff',
     author_email='partners@abstractendeavors.com',
     description='Abstract Web Tools is a Python package that provides various utility functions for web scraping tasks. It is built on top of popular libraries such as `requests`, `BeautifulSoup`, and `urllib3` to simplify the process of fetching and parsing web content.',

{abstract_webtools-0.1.6.2 → abstract_webtools-0.1.6.4}/src/abstract_webtools/managers/crawlManager.py RENAMED Viewed

@@ -1,21 +1,6 @@
 from .soupManager import *
-def normalize_url(url, base_url):
-    """
-    Normalize and resolve relative URLs, ensuring proper domain and format.
-    """
-    # If URL starts with the base URL repeated, remove the extra part
-    if url.startswith(base_url):
-        url = url[len(base_url):]
-    # Resolve the URL against the base URL
-    normalized_url = urljoin(base_url, url.split('#')[0])
-    # Ensure only URLs belonging to the base domain are kept
-    if not normalized_url.startswith(base_url):
-        return None
-    return normalized_url
 class crawlManager():
     def __init__(self,url=None,req_mgr=None,url_mgr=None,source_code=None,parse_type="html.parser"):
         self.url=url
@@ -73,7 +58,7 @@ class crawlManager():
         """
         all_urls=[self.url_mgr.url]
         domain = self.url_mgr.domain
-        all_attribs = get_attribs(self.url_mgr.url)
+        all_attribs = get_all_attribute_values(self.url_mgr.url)
         for href in all_attribs.get('href',[]):
             if href == "" or href is None:
                 # href empty tag
@@ -163,7 +148,7 @@ class crawlManager():
         # Fetch the title if available
         meta_tags = soup_mgr.find_all("meta")
         url = eatAll(str(url),['',' ','\n','\t','\\','/'])
-        attribs = get_attribs(url)
+        attribs = get_all_attribute_values(url)
         soup = get_soup(url)
         for meta_tag in meta_tags:
@@ -194,7 +179,7 @@ class crawlManager():
                 string += f'  <url>\n    <loc>{url}</loc>\n'
                 preprocess=[]
                 self.get_new_source_and_url(url=url)
-                links = get_attribs(url)
+                links = get_all_attribute_values(url)
                 images = [link for link in links if link.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.svg', '.webp'))]
                 for img in images:

{abstract_webtools-0.1.6.2 → abstract_webtools-0.1.6.4}/src/abstract_webtools/managers/seleniumManager.py RENAMED Viewed

@@ -46,6 +46,7 @@ class seleniumManager(metaclass=SingletonMeta):
             parsed_url = urlparse(url)
             self.domain = parsed_url.netloc
             self.scheme = parsed_url.scheme
+            self.base_url= f"{self.scheme}{self.domain}"
             self.site_dir = os.path.join(os.getcwd(), self.domain)
             os.makedirs(self.site_dir, exist_ok=True)
             self.drivers = {}
@@ -83,7 +84,24 @@ class seleniumManager(metaclass=SingletonMeta):
             self.drivers[url] = driver
             driver.get(url)
         return self.drivers[url]
+def normalize_url(url, base_url=None):
+    """
+    Normalize and resolve relative URLs, ensuring proper domain and format.
+    """
+    # If URL starts with the base URL repeated, remove the extra part
+    manager = seleniumManager(url)
+    base_url = manager.base_url
+    if url.startswith(base_url):
+        url = url[len(base_url):]
+    # Resolve the URL against the base URL
+    normalized_url = urljoin(base_url, url.split('#')[0])
+    # Ensure only URLs belonging to the base domain are kept
+    if not normalized_url.startswith(base_url):
+        return None
+    return normalized_url
 # Function to get Selenium page source
 def get_selenium_source(url):
     url_mgr = urlManager(url)

{abstract_webtools-0.1.6.2 → abstract_webtools-0.1.6.4/src/abstract_webtools.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: abstract_webtools
-Version: 0.1.6.2
+Version: 0.1.6.4
 Summary: Abstract Web Tools is a Python package that provides various utility functions for web scraping tasks. It is built on top of popular libraries such as `requests`, `BeautifulSoup`, and `urllib3` to simplify the process of fetching and parsing web content.
 Home-page: https://github.com/AbstractEndeavors/abstract_essentials/tree/main/abstract_webtools
 Author: putkoff