PyPI - ohmyscrapper - Versions diffs - 0.6.1__py3-none-any.whl → 0.7.4__py3-none-any.whl - Mend

ohmyscrapper 0.6.1py3-none-any.whl → 0.7.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

ohmyscrapper/__init__.py +25 -3
ohmyscrapper/core/config.py +18 -0
ohmyscrapper/core/config_files.py +29 -2
ohmyscrapper/core/default_files/config.yaml +4 -0
ohmyscrapper/core/default_files/url_sniffing.yaml +29 -0
ohmyscrapper/models/urls_manager.py +47 -21
ohmyscrapper/modules/classify_urls.py +5 -1
ohmyscrapper/modules/load_txt.py +7 -3
ohmyscrapper/modules/process_with_ai.py +8 -8
ohmyscrapper/modules/scrap_urls.py +106 -122
ohmyscrapper/modules/seed.py +4 -1
ohmyscrapper/modules/sniff_url.py +70 -37
{ohmyscrapper-0.6.1.dist-info → ohmyscrapper-0.7.4.dist-info}/METADATA +6 -3
ohmyscrapper-0.7.4.dist-info/RECORD +21 -0
ohmyscrapper-0.6.1.dist-info/RECORD +0 -20
{ohmyscrapper-0.6.1.dist-info → ohmyscrapper-0.7.4.dist-info}/WHEEL +0 -0
{ohmyscrapper-0.6.1.dist-info → ohmyscrapper-0.7.4.dist-info}/entry_points.txt +0 -0

ohmyscrapper/__init__.py CHANGED Viewed

@@ -20,7 +20,7 @@ from ohmyscrapper.core.config import update
 def main():
     parser = argparse.ArgumentParser(prog="ohmyscrapper")
-    parser.add_argument("--version", action="version", version="%(prog)s v0.6.1")
+    parser.add_argument("--version", action="version", version="%(prog)s v0.7.4")
     update()
     subparsers = parser.add_subparsers(dest="command", help="Available commands")
@@ -28,6 +28,9 @@ def main():
         "start",
         help="Make the entire process of 📦 loading, 🐶 scraping and 📜🖋️ exporting with the default configuration.",
     )
+    start_parser.add_argument(
+        "-input", default=None, help="File/Folder path or url for pre-loading."
+    )
     start_parser.add_argument(
         "--ai",
@@ -50,6 +53,14 @@ def main():
         help="Add all `url_types` from the bank to the `/ohmyscrapper/url_types.yaml` file.",
         action="store_true",
     )
+    seed_parser.add_argument(
+        "--reset",
+        default=False,
+        help="Reset all `url_types`.",
+        action="store_true",
+    )
     untouch_parser = subparsers.add_parser(
         "untouch-all", help="Untouch all urls. That resets classification"
     )
@@ -85,6 +96,9 @@ def main():
     scrap_urls_parser.add_argument(
         "--verbose", default=False, help="Run in verbose mode", action="store_true"
     )
+    scrap_urls_parser.add_argument(
+        "-input", default=None, help="File/Folder path or url for pre-loading."
+    )
     sniff_url_parser = subparsers.add_parser("sniff-url", help="🐕 Sniff/Check url")
     sniff_url_parser.add_argument(
@@ -131,7 +145,7 @@ def main():
         if args.export:
             export_url_types_to_file()
         else:
-            seed()
+            seed(args.reset)
         return
     if args.command == "untouch-all":
@@ -143,6 +157,9 @@ def main():
         return
     if args.command == "scrap-urls":
+        if args.input != None:
+            load_txt(file_name=args.input, verbose=args.verbose)
         scrap_urls(
             recursive=args.recursive,
             ignore_valid_prefix=args.ignore_type,
@@ -182,7 +199,12 @@ def main():
         return
     if args.command == "start":
-        load_txt()
+        seed()
+        if args.input != None:
+            load_txt(file_name=args.input)
+        else:
+            load_txt()
         scrap_urls(
             recursive=True,
             ignore_valid_prefix=True,

ohmyscrapper/core/config.py CHANGED Viewed

@@ -39,6 +39,12 @@ def get_ai(param):
     )
+def get_sniffing(param):
+    return config_files.get_param(
+        parent_param="sniffing", param=param, default_app_dir=default_app_dir
+    )
 def load_config(force_default=False):
     config_file_name = "config.yaml"
     config_params = config_files.create_and_read_config_file(
@@ -67,6 +73,18 @@ def get_url_types():
     )
+def get_url_sniffing():
+    file = get_files("url_sniffing")
+    return config_files.create_and_read_config_file(
+        file, default_app_dir=default_app_dir
+    )
+def append_url_sniffing(data):
+    file = get_files("url_sniffing")
+    _append_config_file(data, file)
 def append_url_types(url_types):
     url_types_file = get_files("url_types")
     _append_config_file(url_types, url_types_file)

ohmyscrapper/core/config_files.py CHANGED Viewed

@@ -4,14 +4,29 @@ import yaml
 def create_and_read_config_file(file_name, default_app_dir, force_default=False):
     config_file = config_file_path(file_name, default_app_dir)
+    default_config_params = _get_default_file(default_file=file_name)
     if force_default or not os.path.exists(config_file):
-        config_params = _get_default_file(default_file=file_name)
         overwrite_config_file(
-            data=config_params, file_name=file_name, default_app_dir=default_app_dir
+            data=default_config_params,
+            file_name=file_name,
+            default_app_dir=default_app_dir,
         )
+        config_params = default_config_params
     else:
         with open(config_file, "r") as f:
             config_params = yaml.safe_load(f.read())
+        if complete_config_file(
+            config_params=config_params,
+            default_config_params=default_config_params,
+            file_name=file_name,
+            default_app_dir=default_app_dir,
+        ):
+            config_params = create_and_read_config_file(
+                file_name=file_name,
+                default_app_dir=default_app_dir,
+                force_default=force_default,
+            )
     if config_params is None:
         config_params = create_and_read_config_file(
             file_name=file_name, default_app_dir=default_app_dir, force_default=True
@@ -19,6 +34,18 @@ def create_and_read_config_file(file_name, default_app_dir, force_default=False)
     return config_params
+def complete_config_file(
+    config_params, default_config_params, file_name, default_app_dir
+):
+    has_updated = False
+    for key, values in default_config_params.items():
+        if key not in config_params.keys():
+            has_updated = True
+            data = {key: values}
+            append_config_file(data, file_name, default_app_dir)
+    return has_updated
 def overwrite_config_file(data, file_name, default_app_dir):
     config_file = config_file_path(file_name, default_app_dir)
     with open(config_file, "+w") as f:

ohmyscrapper/core/default_files/config.yaml CHANGED Viewed

@@ -10,6 +10,10 @@ default_dirs:
 default_files:
   url_types: url_types.yaml
+  url_sniffing: url_sniffing.yaml
 ai:
   default_prompt_file: prompt.md
+sniffing:
+  timeout: 10

ohmyscrapper/core/default_files/url_sniffing.yaml ADDED Viewed

@@ -0,0 +1,29 @@
+linkedin_feed:
+  metatags:
+    og:url: url_destiny
+linkedin_job:
+  bodytags:
+    h1: title
+  metatags:
+    og:title: title
+    og:description: description
+    description: description
+linkedin_post:
+  bodytags:
+    h1: title
+  metatags:
+    og:title: title
+    og:description: description
+    description: description
+linkedin_redirect:
+  metatags:
+    og:url: url_destiny
+  atags:
+    first-tag-as-url_destiny: 5
+read_all_a_tags:
+  atags:
+    load_atags: True

ohmyscrapper/models/urls_manager.py CHANGED Viewed

@@ -29,7 +29,11 @@ def use_connection(func):
     def provide_connection(*args, **kwargs):
         global conn
         with get_db_connection() as conn:
-            return func(*args, **kwargs)
+            try:
+                return func(*args, **kwargs)
+            except:
+                update_db()
+                return func(*args, **kwargs)
     return provide_connection
@@ -38,7 +42,7 @@ def create_tables(conn):
     c = conn.cursor()
     c.execute(
-        "CREATE TABLE IF NOT EXISTS urls (id INTEGER PRIMARY KEY, url_type STRING, parent_url TEXT, url TEXT UNIQUE, url_destiny TEXT, h1 TEXT, error TEXT, description TEXT, description_links INTEGER DEFAULT 0, json TEXT, json_ai TEXT, ai_processed INTEGER DEFAULT 0, history INTEGER DEFAULT 0, last_touch DATETIME, created_at DATETIME)"
+        "CREATE TABLE IF NOT EXISTS urls (id INTEGER PRIMARY KEY, url_type STRING, parent_url TEXT, url TEXT UNIQUE, url_destiny TEXT, title TEXT, error TEXT, description TEXT, description_links INTEGER DEFAULT 0, json TEXT, json_ai TEXT, ai_processed INTEGER DEFAULT 0, history INTEGER DEFAULT 0, last_touch DATETIME, created_at DATETIME)"
     )
     c.execute(
         "CREATE TABLE IF NOT EXISTS ai_log (id INTEGER PRIMARY KEY, instructions STRING, response STRING, model STRING, prompt_file STRING, prompt_name STRING, created_at DATETIME)"
@@ -49,6 +53,14 @@ def create_tables(conn):
     )
+def update_db():
+    try:
+        c = conn.cursor()
+        c.execute("ALTER TABLE urls RENAME COLUMN h1 TO title")
+    except:
+        pass
 def seeds(seeds={}):
     for url_type, url_prefix in seeds.items():
@@ -57,6 +69,14 @@ def seeds(seeds={}):
     return True
+@use_connection
+def reset_seeds():
+    sql = "DELETE FROM urls_valid_prefix"
+    c = conn.cursor()
+    c.execute(sql)
+    conn.commit()
 @use_connection
 def add_urls_valid_prefix(url_prefix, url_type):
@@ -118,7 +138,7 @@ def get_urls_report():
         SELECT
             u.id,
             u.url,
-            u.h1
+            u.title
             FROM urls u
                 INNER JOIN parent_url p
                     ON u.url = p.parent_url
@@ -127,9 +147,9 @@ def get_urls_report():
         u.id,
         u.url_type,
         u.url,
-        COALESCE(u.h1, p.h1) as h1,
+        COALESCE(u.title, p.title) as title,
         p.url as parent_url,
-        p.h1 as parent_h1
+        p.title as parent_title
         FROM urls u
         LEFT JOIN parents p
             ON u.parent_url = p.url
@@ -185,12 +205,14 @@ def get_url_like_unclassified(like_condition):
 @use_connection
-def add_url(url, h1=None, parent_url=None):
+def add_url(url, title=None, parent_url=None):
+    if url[:1] == "/":
+        return
     url = clean_url(url)
     c = conn.cursor()
-    if h1 is not None:
-        h1 = h1.strip()
+    if title is not None:
+        title = title.strip()
     if parent_url is None:
         parent_url = None
@@ -199,8 +221,8 @@ def add_url(url, h1=None, parent_url=None):
     if len(get_url_by_url(url)) == 0:
         c.execute(
-            "INSERT INTO urls (url, h1, parent_url, created_at, ai_processed, description_links, history) VALUES (?, ?, ?, ?, 0, 0, 0)",
-            (url, h1, parent_url, int(time.time())),
+            "INSERT INTO urls (url, title, parent_url, created_at, ai_processed, description_links, history) VALUES (?, ?, ?, ?, 0, 0, 0)",
+            (url, title, parent_url, int(time.time())),
         )
         conn.commit()
@@ -239,20 +261,20 @@ def set_url_destiny(url, destiny):
 @use_connection
-def set_url_h1(url, value):
+def set_url_title(url, value):
     value = str(value).strip()
     url = clean_url(url)
     c = conn.cursor()
-    c.execute("UPDATE urls SET h1 = ? WHERE url = ?", (value, url))
+    c.execute("UPDATE urls SET title = ? WHERE url = ?", (value, url))
     conn.commit()
 @use_connection
-def set_url_h1_by_id(id, value):
+def set_url_title_by_id(id, value):
     value = str(value).strip()
     c = conn.cursor()
-    c.execute("UPDATE urls SET h1 = ? WHERE id = ?", (value, id))
+    c.execute("UPDATE urls SET title = ? WHERE id = ?", (value, id))
     conn.commit()
@@ -328,7 +350,9 @@ def set_url_error(url, value):
 @use_connection
 def set_url_type_by_id(url_id, url_type):
     c = conn.cursor()
-    c.execute(f"UPDATE urls SET url_type = '{url_type}' WHERE id = {url_id}")
+    c.execute(
+        f"UPDATE urls SET url_type = '{url_type}', last_touch = NULL WHERE id = {url_id}"
+    )
     conn.commit()
@@ -380,8 +404,10 @@ def touch_url(url):
 @use_connection
 def untouch_url(url):
     url = clean_url(url)
+    url = str(url.strip())
     c = conn.cursor()
-    c.execute("UPDATE urls SET last_touch = NULL WHERE url = ?", (url))
+    c.execute(f"UPDATE urls SET last_touch = NULL, url_type = NULL WHERE url = '{url}'")
     conn.commit()
@@ -427,16 +453,16 @@ def merge_dbs() -> None:
 @use_connection
-def merge_url(url, h1, last_touch, created_at, description, json):
+def merge_url(url, title, last_touch, created_at, description, json):
     url = clean_url(url)
     c = conn.cursor()
-    if h1 is not None:
-        h1 = h1.strip()
+    if title is not None:
+        title = title.strip()
     if len(get_url_by_url(url)) == 0:
         c.execute(
-            "INSERT INTO urls (url, h1, last_touch , created_at, history, ai_processed, description_links, description, json) VALUES (?, ?, ?, ?, 1, 0, 0, ? , ?)",
-            (url, h1, last_touch, created_at, description, json),
+            "INSERT INTO urls (url, title, last_touch , created_at, history, ai_processed, description_links, description, json) VALUES (?, ?, ?, ?, 1, 0, 0, ? , ?)",
+            (url, title, last_touch, created_at, description, json),
         )
         conn.commit()

ohmyscrapper/modules/classify_urls.py CHANGED Viewed

@@ -1,11 +1,15 @@
 import ohmyscrapper.models.urls_manager as urls_manager
+from ohmyscrapper.modules import seed
 import pandas as pd
 import time
 def classify_urls(recursive=False):
-    urls_manager.seeds()
     df = urls_manager.get_urls_valid_prefix()
+    if len(df) == 0:
+        seed.seed()
+        classify_urls(recursive=recursive)
+        return
     keep_alive = True
     while keep_alive:

ohmyscrapper/modules/load_txt.py CHANGED Viewed

@@ -19,14 +19,16 @@ def load_txt(file_name="input", verbose=False):
     text_file_content = ""
     if file_name is not None and not os.path.isdir(file_name):
-        print(f"📖 reading file `{file_name}`... ")
         if not os.path.exists(file_name):
             if file_name.startswith("https://") or file_name.startswith("http://"):
+                print(f"📖 reading url `{file_name}`... ")
                 text_file_content = " " + file_name + " "
+                urls_manager.untouch_url(url=file_name)
             else:
                 print(f"\n file `{file_name}` not found.")
                 return
         else:
+            print(f"📖 reading file `{file_name}`... ")
             text_file_content = _increment_file_name(
                 text_file_content=text_file_content, file_name=file_name
             )
@@ -51,13 +53,15 @@ def load_txt(file_name="input", verbose=False):
                 file_name=os.path.join(dir_files, text_files[0]),
             )
         else:
-            print("\nChoose a text file. Use `*` for process all and `q` to quit:")
+            print("\nFiles list:")
             for index, file in enumerate(text_files):
                 print(f"[{index}]:", os.path.join(dir_files, file))
             text_file_option = -1
             while text_file_option < 0 or text_file_option >= len(text_files):
-                text_file_option = input("Enter the file number: ")
+                text_file_option = input(
+                    "Choose a text file. Use `*` for process all and `q` to quit. Enter the file number: "
+                )
                 if text_file_option == "*":
                     for file in text_files:
                         text_file_content = _increment_file_name(

ohmyscrapper/modules/process_with_ai.py CHANGED Viewed

@@ -28,13 +28,13 @@ def process_ai_response(response):
             url_parent = urls_manager.get_url_by_id(url_child_xml["id"])
             if len(url_parent) > 0:
                 url_parent = url_parent.iloc[0]
-            h1 = url_child_xml.copy()
-            del h1["id"]
-            del h1["url"]
-            h1 = " - ".join(h1.values())
+            title = url_child_xml.copy()
+            del title["id"]
+            del title["url"]
+            title = " - ".join(title.values())
             if url_parent["description_links"] > 1 and url_child_xml["id"] != "":
-                print("-- child updated -- \n", url_child_xml["url"], ":", h1)
-                urls_manager.set_url_h1(url_child_xml["url"], h1)
+                print("-- child updated -- \n", url_child_xml["url"], ":", title)
+                urls_manager.set_url_title(url_child_xml["url"], title)
                 urls_manager.set_url_ai_processed_by_url(
                     url_child_xml["url"], str(json.dumps(url_child_xml))
                 )
@@ -43,8 +43,8 @@ def process_ai_response(response):
                         url_parent["url"], "children-update"
                     )
             else:
-                print("-- parent updated -- \n", url_parent["url"], ":", h1)
-                urls_manager.set_url_h1(url_parent["url"], h1)
+                print("-- parent updated -- \n", url_parent["url"], ":", title)
+                urls_manager.set_url_title(url_parent["url"], title)
                 urls_manager.set_url_ai_processed_by_url(
                     url_parent["url"], str(json.dumps(url_child_xml))
                 )

ohmyscrapper/modules/scrap_urls.py CHANGED Viewed

@@ -2,154 +2,138 @@ import ohmyscrapper.models.urls_manager as urls_manager
 import ohmyscrapper.modules.sniff_url as sniff_url
 import ohmyscrapper.modules.load_txt as load_txt
 import ohmyscrapper.modules.classify_urls as classify_urls
+from ohmyscrapper.core import config
 import time
 import random
-def process_linkedin_redirect(url_report, url, verbose=False):
-    if verbose:
-        print("linkedin_redirect")
-    if url_report["total-a-links"] < 5:
-        if "first-a-link" in url_report.keys():
-            url_destiny = url_report["first-a-link"]
-        else:
-            urls_manager.set_url_error(url=url["url"], value="error: no first-a-link")
-            if verbose:
-                print("no url for:", url["url"])
-            return
-    else:
-        if "og:url" in url_report.keys():
-            url_destiny = url_report["og:url"]
-        else:
-            urls_manager.set_url_error(url=url["url"], value="error: no og:url")
-            if verbose:
-                print("no url for:", url["url"])
-            return
-    if verbose:
-        print(url["url"], ">>", url_destiny)
-    urls_manager.add_url(url=url_destiny)
-    urls_manager.set_url_destiny(url=url["url"], destiny=url_destiny)
+def scrap_url(url, verbose=False):
+    if url["url_type"] is None:
+        url["url_type"] = "generic"
-def process_linkedin_feed(url_report, url, verbose=False):
     if verbose:
-        print("linkedin_feed")
+        print("\n\n", url["url_type"] + ":", url["url"])
-    if "og:url" in url_report.keys():
-        url_destiny = url_report["og:url"]
-    else:
-        urls_manager.set_url_error(url=url["url"], value="error: no og:url")
+    try:
+        url_type = url["url_type"]
+        sniffing_config = config.get_url_sniffing()
+        if url_type not in sniffing_config:
+            default_type_sniffing = {
+                "bodytags": {"h1": "title"},
+                "metatags": {
+                    "og:title": "title",
+                    "og:description": "description",
+                    "description": "description",
+                },
+            }
+            config.append_url_sniffing({url_type: default_type_sniffing})
+            sniffing_config = config.get_url_sniffing()
+        url_report = sniff_url.get_tags(
+            url=url["url"], sniffing_config=sniffing_config[url_type]
+        )
+    except Exception as e:
+        urls_manager.set_url_error(url=url["url"], value="error on scrapping")
+        urls_manager.touch_url(url=url["url"])
         if verbose:
-            print("no url for:", url["url"])
+            print("\n\n!!! ERROR FOR:", url["url"])
+            print(
+                "\n\n!!! you can check the URL using the command sniff-url",
+                url["url"],
+                "\n\n",
+            )
         return
-    if verbose:
-        print(url["url"], ">>", url_destiny)
-    urls_manager.add_url(url=url_destiny)
-    urls_manager.set_url_destiny(url=url["url"], destiny=url_destiny)
+    process_sniffed_url(
+        url_report=url_report,
+        url=url,
+        sniffing_config=sniffing_config[url_type],
+        verbose=verbose,
+    )
-def process_linkedin_job(url_report, url, verbose=False):
-    if verbose:
-        print("linkedin_job")
-    changed = False
-    if "h1" in url_report.keys():
-        if verbose:
-            print(url["url"], ": ", url_report["h1"])
-        urls_manager.set_url_h1(url=url["url"], value=url_report["h1"])
-        changed = True
-    elif "og:title" in url_report.keys():
-        if verbose:
-            print(url["url"], ": ", url_report["og:title"])
-        urls_manager.set_url_h1(url=url["url"], value=url_report["og:title"])
-        changed = True
+    urls_manager.set_url_json(url=url["url"], value=url_report["json"])
+    urls_manager.touch_url(url=url["url"])
-    if "description" in url_report.keys():
-        urls_manager.set_url_description(
-            url=url["url"], value=url_report["description"]
-        )
-        changed = True
-    elif "og:description" in url_report.keys():
-        urls_manager.set_url_description(
-            url=url["url"], value=url_report["og:description"]
-        )
-        changed = True
-    if not changed:
-        urls_manager.set_url_error(url=url["url"], value="error: no h1 or description")
+    return
-def process_linkedin_post(url_report, url, verbose=False):
+def process_sniffed_url(url_report, url, sniffing_config, verbose=False):
     if verbose:
-        print("linkedin_post or generic")
+        print(url["url_type"])
         print(url["url"])
     changed = False
-    if "h1" in url_report.keys():
-        if verbose:
-            print(url["url"], ": ", url_report["h1"])
-        urls_manager.set_url_h1(url=url["url"], value=url_report["h1"])
-        changed = True
-    elif "og:title" in url_report.keys():
-        urls_manager.set_url_h1(url=url["url"], value=url_report["og:title"])
-        changed = True
-    description = None
-    if "description" in url_report.keys():
-        description = url_report["description"]
-        changed = True
-    elif "og:description" in url_report.keys():
-        description = url_report["og:description"]
+    db_fields = {}
+    db_fields["title"] = None
+    db_fields["description"] = None
+    db_fields["url_destiny"] = None
+    if "metatags" in sniffing_config.keys():
+        for tag, bd_field in sniffing_config["metatags"].items():
+            if tag in url_report.keys():
+                if bd_field[:1] == "+":
+                    if db_fields[bd_field[1:]] is None:
+                        db_fields[bd_field[1:]] = ""
+                    db_fields[bd_field[1:]] = (
+                        db_fields[bd_field[1:]] + " " + url_report[tag]
+                    )
+                else:
+                    db_fields[bd_field] = url_report[tag]
+    if "bodytags" in sniffing_config.keys():
+        for tag, bd_field in sniffing_config["bodytags"].items():
+            if tag in url_report.keys():
+                if bd_field[:1] == "+":
+                    if db_fields[bd_field[1:]] is None:
+                        db_fields[bd_field[1:]] = ""
+                    db_fields[bd_field[1:]] = (
+                        db_fields[bd_field[1:]] + " " + url_report[tag]
+                    )
+                else:
+                    db_fields[bd_field] = url_report[tag]
+    if (
+        "atags" in sniffing_config.keys()
+        and "first-tag-as-url_destiny" in sniffing_config["atags"].keys()
+    ):
+        if (
+            url_report["total-a-links"]
+            < sniffing_config["atags"]["first-tag-as-url_destiny"]
+        ):
+            if "first-a-link" in url_report.keys():
+                db_fields["url_destiny"] = url_report["first-a-link"]
+    if (
+        "atags" in sniffing_config.keys()
+        and "load_links" in sniffing_config["atags"].keys()
+    ):
+        for a_link in url_report["a_links"]:
+            urls_manager.add_url(url=a_link["href"], parent_url=url["url"])
+    if db_fields["title"] is not None:
+        urls_manager.set_url_title(url=url["url"], value=db_fields["title"])
         changed = True
-    if description is not None:
-        urls_manager.set_url_description(url=url["url"], value=description)
+    if db_fields["description"] is not None:
+        urls_manager.set_url_description(url=url["url"], value=db_fields["description"])
         description_links = load_txt.put_urls_from_string(
-            text_to_process=description, parent_url=url["url"]
+            text_to_process=db_fields["description"], parent_url=url["url"]
         )
         urls_manager.set_url_description_links(url=url["url"], value=description_links)
-    if not changed:
-        urls_manager.set_url_error(url=url["url"], value="error: no h1 or description")
-def scrap_url(url, verbose=False):
-    # TODO: Need to change this
-    if url["url_type"] is None:
-        if verbose:
-            print("\n\ngeneric:", url["url"])
-        url["url_type"] = "generic"
-    else:
-        if verbose:
-            print("\n\n", url["url_type"] + ":", url["url"])
-    try:
-        url_report = sniff_url.get_tags(url=url["url"])
-    except Exception as e:
-        urls_manager.set_url_error(url=url["url"], value="error")
-        urls_manager.touch_url(url=url["url"])
-        if verbose:
-            print("\n\n!!! ERROR FOR:", url["url"])
-            print(
-                "\n\n!!! you can check the URL using the command sniff-url",
-                url["url"],
-                "\n\n",
-            )
-        return
-    if url["url_type"] == "linkedin_redirect":
-        process_linkedin_redirect(url_report=url_report, url=url, verbose=verbose)
-    if url["url_type"] == "linkedin_feed":
-        process_linkedin_feed(url_report=url_report, url=url, verbose=verbose)
-    if url["url_type"] == "linkedin_job":
-        process_linkedin_job(url_report=url_report, url=url, verbose=verbose)
+        changed = True
-    if url["url_type"] == "linkedin_post" or url["url_type"] == "generic":
-        process_linkedin_post(url_report=url_report, url=url, verbose=verbose)
+    if db_fields["url_destiny"] is not None:
+        urls_manager.add_url(url=db_fields["url_destiny"])
+        urls_manager.set_url_destiny(url=url["url"], destiny=db_fields["url_destiny"])
+        changed = True
-    urls_manager.set_url_json(url=url["url"], value=url_report["json"])
-    urls_manager.touch_url(url=url["url"])
+    if not changed:
+        urls_manager.set_url_error(
+            url=url["url"],
+            value="error: no title, url_destiny or description was founded",
+        )
 def isNaN(num):

ohmyscrapper/modules/seed.py CHANGED Viewed

@@ -2,7 +2,10 @@ import ohmyscrapper.models.urls_manager as urls_manager
 from ohmyscrapper.core import config
-def seed():
+def seed(reset=False):
+    if reset:
+        urls_manager.reset_seeds()
     if not config.url_types_file_exists():
         db_url_types = urls_manager.get_urls_valid_prefix()
         if len(db_url_types) > 0:

ohmyscrapper/modules/sniff_url.py CHANGED Viewed

@@ -1,41 +1,74 @@
 import requests
 from bs4 import BeautifulSoup
 import json
+from ohmyscrapper.core import config
-def sniff_url(url="https://www.linkedin.com/in/cesardesouzacardoso/", silent=False):
-    if not silent:
-        print("checking url:", url)
+def sniff_url(
+    url="https://www.linkedin.com/in/cesardesouzacardoso/",
+    silent=False,
+    sniffing_config={},
+):
+    final_report = {}
+    final_report["error"] = None
+    if "metatags" in sniffing_config:
+        metatags_to_search = sniffing_config["metatags"]
+    else:
+        metatags_to_search = [
+            "description",
+            "og:url",
+            "og:title",
+            "og:description",
+            "og:type",
+            "lnkd:url",
+        ]
+    if "bodytags" in sniffing_config:
+        body_tags_to_search = sniffing_config["bodytags"]
+    else:
+        body_tags_to_search = {
+            "h1": "",
+            "h2": "",
+        }
-    r = requests.get(url=url)
-    soup = BeautifulSoup(r.text, "html.parser")
+    if type(metatags_to_search) is dict:
+        metatags_to_search = list(metatags_to_search.keys())
-    metatags_to_search = [
-        "description",
-        "og:url",
-        "og:title",
-        "og:description",
-        "og:type",
-        "lnkd:url",
-    ]
+    # force clean concatenate without any separator
+    if type(body_tags_to_search) is dict:
+        body_tags_to_search = list(body_tags_to_search.keys())
-    text_tags_to_search = {
-        "h1": "",
-        "h2": "|",
-    }
+    if type(body_tags_to_search) is list:
+        body_tags_to_search = dict.fromkeys(body_tags_to_search, " ")
+    if not silent:
+        print("checking url:", url)
+    try:
+        r = requests.get(url=url, timeout=config.get_sniffing("timeout"))
+        soup = BeautifulSoup(r.text, "html.parser")
+    except requests.exceptions.ReadTimeout:
+        url_domain = url.split("/")[2]
+        final_report["error"] = (
+            f"!!! timeout (10 seconds) while checking the url with domain: `{url_domain}` !!!"
+        )
+        print(f"\n\n{final_report['error']}\n\n")
+        soup = BeautifulSoup("", "html.parser")
-    final_report = {}
     final_report["scrapped-url"] = url
-    final_report.update(
-        _extract_meta_tags(
-            soup=soup, silent=silent, metatags_to_search=metatags_to_search
+    if len(metatags_to_search) > 0:
+        final_report.update(
+            _extract_meta_tags(
+                soup=soup, silent=silent, metatags_to_search=metatags_to_search
+            )
         )
-    )
-    final_report.update(
-        _extract_text_tags(
-            soup=soup, silent=silent, text_tags_to_search=text_tags_to_search
+    if len(body_tags_to_search) > 0:
+        final_report.update(
+            _extract_text_tags(
+                soup=soup, silent=silent, body_tags_to_search=body_tags_to_search
+            )
         )
-    )
     final_report["a_links"] = _extract_a_tags(soup=soup, silent=silent)
     final_report = _complementary_report(final_report, soup, silent).copy()
     final_report["json"] = json.dumps(final_report)
@@ -85,24 +118,24 @@ def _extract_meta_tags(soup, silent, metatags_to_search):
     return valid_meta_tags
-def _extract_text_tags(soup, silent, text_tags_to_search):
+def _extract_text_tags(soup, silent, body_tags_to_search):
     valid_text_tags = {}
     if not silent:
         print("\n\n\n\n---- all <text> tags ---\n")
     i = 0
-    for text_tag, separator in text_tags_to_search.items():
+    for text_tag, separator in body_tags_to_search.items():
         if len(soup.find_all(text_tag)) > 0:
             valid_text_tags[text_tag] = []
             for obj_tag in soup.find_all(text_tag):
                 valid_text_tags[text_tag].append(obj_tag.text.strip())
             valid_text_tags[text_tag] = separator.join(valid_text_tags[text_tag])
-        i = i + 1
-        if not silent:
-            print("-- text tag", i, "--")
-            print("name:", text_tag)
-            print("separator:", separator)
-            print("texts:", valid_text_tags[text_tag])
-            print("---------------- \n")
+            i = i + 1
+            if not silent:
+                print("-- text tag", i, "--")
+                print("name:", text_tag)
+                print("separator:", separator)
+                print("texts:", valid_text_tags[text_tag])
+                print("---------------- \n")
     return valid_text_tags
@@ -128,5 +161,5 @@ def _complementary_report(final_report, soup, silent):
     return final_report
-def get_tags(url):
-    return sniff_url(url=url, silent=True)
+def get_tags(url, sniffing_config={}):
+    return sniff_url(url=url, silent=True, sniffing_config=sniffing_config)

{ohmyscrapper-0.6.1.dist-info → ohmyscrapper-0.7.4.dist-info}/METADATA RENAMED Viewed

@@ -1,9 +1,10 @@
-Metadata-Version: 2.3
+Metadata-Version: 2.4
 Name: ohmyscrapper
-Version: 0.6.1
+Version: 0.7.4
 Summary: OhMyScrapper scrapes texts and urls looking for links and jobs-data to create a final report with general information about job positions.
 Author: Cesar Cardoso
 Author-email: Cesar Cardoso <hello@cesarcardoso.cc>
+License-Expression: MIT
 Requires-Dist: beautifulsoup4>=4.14.3
 Requires-Dist: google-genai>=1.55.0
 Requires-Dist: markdown>=3.10
@@ -14,9 +15,11 @@ Requires-Dist: requests>=2.32.5
 Requires-Dist: rich>=14.2.0
 Requires-Dist: urlextract>=1.9.0
 Requires-Python: >=3.11
+Project-URL: Changelog, https://github.com/bouli/ohmyscrapper/releases/latest
+Project-URL: Repository, https://github.com/bouli/ohmyscrapper
 Description-Content-Type: text/markdown
-# 🐶 OhMyScrapper - v0.6.1
+# 🐶 OhMyScrapper - v0.7.4
 OhMyScrapper scrapes texts and urls looking for links and jobs-data to create a
 final report with general information about job positions.

ohmyscrapper-0.7.4.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,21 @@
+ohmyscrapper/__init__.py,sha256=x3wLMhIU744W9DRtXoTrPpWghb7UdC3UJSYZh_gpzlw,7095
+ohmyscrapper/__main__.py,sha256=5BjNuyet8AY-POwoF5rGt722rHQ7tJ0Vf0UFUfzzi-I,58
+ohmyscrapper/core/config.py,sha256=aaSLxk6Fuzp88EMax6MAOX3WszH4OfYLz_dJoXlu0ME,3142
+ohmyscrapper/core/config_files.py,sha256=C79-Vgz1E5_jUWtob-yrCyBxsqWEXxqPI_r6TL7D1_Q,3314
+ohmyscrapper/core/default_files/config.yaml,sha256=gi8tqhSumQYJIl8QDisJ6eaib2tdcBNT-GFU-e6Dtns,273
+ohmyscrapper/core/default_files/url_sniffing.yaml,sha256=RU5GYWmC1PdBl4nn7HUfRBwuXz8Rlap75d4W3zWDzPM,465
+ohmyscrapper/core/default_files/url_types.yaml,sha256=20kvv8_iWRT-pLa014RXYpAmPSonn6tDnG302rx7l-o,228
+ohmyscrapper/models/urls_manager.py,sha256=k0N1If4YoRUWHX80OyBNEeJNIzDROc2ur6j8q2OBlqo,12103
+ohmyscrapper/modules/classify_urls.py,sha256=GhiosAQUITy1DQe_PksYV9QRKVTgpkSE28dkutzbWVA,1038
+ohmyscrapper/modules/load_txt.py,sha256=pkWBIdh6vORPfENDZ6wGM89vswnOnc1flqKfkLs9RD8,4138
+ohmyscrapper/modules/merge_dbs.py,sha256=0pK3PPUGSbnaDkdpQUGCHemOVaKO37bfHwnsy_EVpWQ,115
+ohmyscrapper/modules/process_with_ai.py,sha256=kl39Jzl-PUwh6AfmTZ9SLFUYs9Sk4biqgt8rNz3X1FA,7255
+ohmyscrapper/modules/scrap_urls.py,sha256=uN5j0dychVMGu7n1rcpYdba4sqc47ssyCn0tVaiz-Ic,6264
+ohmyscrapper/modules/seed.py,sha256=hHEGSoPXsmclTaRPeIcK2oC1Xpg3_JqBv_YFMD0m5Jw,1044
+ohmyscrapper/modules/show.py,sha256=jsAs4g8ouA9wymkBfkDCbpVWKD-m_20uKG-m1cZAUGA,3877
+ohmyscrapper/modules/sniff_url.py,sha256=1QnxEdCWLjLh0uM72dlPzst64qglqg2MHA_xYlNcLSA,5435
+ohmyscrapper/modules/untouch_all.py,sha256=DAwWYfqMFifHPtFCxSamu0AxHCgk6aJbTnBy6wLucXM,167
+ohmyscrapper-0.7.4.dist-info/WHEEL,sha256=xDCZ-UyfvkGuEHPeI7BcJzYKIZzdqN8A8o1M5Om8IyA,79
+ohmyscrapper-0.7.4.dist-info/entry_points.txt,sha256=BZud6D16XkfjelDa4Z33mji-KJbbZXgq2FoLrzjru5I,52
+ohmyscrapper-0.7.4.dist-info/METADATA,sha256=CVE8WUcraUtONy9UVIU0y8Y7wjsk4zEmMVfpA_al1CU,4261
+ohmyscrapper-0.7.4.dist-info/RECORD,,

ohmyscrapper-0.6.1.dist-info/RECORD DELETED Viewed

@@ -1,20 +0,0 @@
-ohmyscrapper/__init__.py,sha256=TGOizxll-06nyJdYSM8SRUccQ5Xhv6dDNW6sIbuH0Mk,6493
-ohmyscrapper/__main__.py,sha256=5BjNuyet8AY-POwoF5rGt722rHQ7tJ0Vf0UFUfzzi-I,58
-ohmyscrapper/core/config.py,sha256=_me0T6IQqz7bA6Kh6IofNrb-o-07nipcLozUuPrz0l4,2722
-ohmyscrapper/core/config_files.py,sha256=KC3yChTnlclclU9EKTqFBoAu9p6XdOKuegub5NPYDDY,2434
-ohmyscrapper/core/default_files/config.yaml,sha256=9nMOhnnJUcZudXUq5WBEXCCgezfUKI3m4azIuSch_wQ,214
-ohmyscrapper/core/default_files/url_types.yaml,sha256=20kvv8_iWRT-pLa014RXYpAmPSonn6tDnG302rx7l-o,228
-ohmyscrapper/models/urls_manager.py,sha256=93WvHnk89hA2BfJfDsD2JlZBeRxo2T_F3FfypiRKKHs,11523
-ohmyscrapper/modules/classify_urls.py,sha256=4rt7_iPDcCGHhJg-f75wBfFmvjdvQj1xFFP-if_IeFM,926
-ohmyscrapper/modules/load_txt.py,sha256=dNkUZ2ehBiPx-q4fPczRiHFvnpzCrjeycFtexhWGmEE,3967
-ohmyscrapper/modules/merge_dbs.py,sha256=0pK3PPUGSbnaDkdpQUGCHemOVaKO37bfHwnsy_EVpWQ,115
-ohmyscrapper/modules/process_with_ai.py,sha256=Th-HMJzQYGQ4UBG8AGFsF5cCKIa1HlPATfmGLTTAE24,7222
-ohmyscrapper/modules/scrap_urls.py,sha256=dxpvPyJWtmQj1vZ6IgnhcICWw1eOxYOeplDfZzDTLw4,6864
-ohmyscrapper/modules/seed.py,sha256=qDUE7TWx9iNQEzqThK4p7g8pTZjdpkmoqI8kOo_zdtk,983
-ohmyscrapper/modules/show.py,sha256=jsAs4g8ouA9wymkBfkDCbpVWKD-m_20uKG-m1cZAUGA,3877
-ohmyscrapper/modules/sniff_url.py,sha256=dF6Nv54TC1Si-FRyqtw4V2WNk3NqaJ1h_PzwZm3UNzk,4126
-ohmyscrapper/modules/untouch_all.py,sha256=DAwWYfqMFifHPtFCxSamu0AxHCgk6aJbTnBy6wLucXM,167
-ohmyscrapper-0.6.1.dist-info/WHEEL,sha256=xDCZ-UyfvkGuEHPeI7BcJzYKIZzdqN8A8o1M5Om8IyA,79
-ohmyscrapper-0.6.1.dist-info/entry_points.txt,sha256=BZud6D16XkfjelDa4Z33mji-KJbbZXgq2FoLrzjru5I,52
-ohmyscrapper-0.6.1.dist-info/METADATA,sha256=k06ZCfkLkDuy_GvCj6jAFq2xfCUA5gN8cVlDH-2Q6Bs,4096
-ohmyscrapper-0.6.1.dist-info/RECORD,,

{ohmyscrapper-0.6.1.dist-info → ohmyscrapper-0.7.4.dist-info}/WHEEL RENAMED Viewed

File without changes

{ohmyscrapper-0.6.1.dist-info → ohmyscrapper-0.7.4.dist-info}/entry_points.txt RENAMED Viewed

File without changes

ohmyscrapper 0.6.1__py3-none-any.whl → 0.7.4__py3-none-any.whl

ohmyscrapper 0.6.1py3-none-any.whl → 0.7.4py3-none-any.whl