PyPI - thordata-sdk - Versions diffs - 1.5.0__py3-none-any.whl → 1.6.0__py3-none-any.whl - Mend

thordata-sdk 1.5.0py3-none-any.whl → 1.6.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

thordata/__init__.py +1 -1
thordata/async_client.py +12 -7
thordata/client.py +12 -7
thordata/enums.py +2 -2
thordata/exceptions.py +70 -19
thordata/models.py +1 -1
thordata/retry.py +1 -1
thordata/tools/__init__.py +11 -1
thordata/tools/code.py +17 -4
thordata/tools/ecommerce.py +194 -10
thordata/tools/professional.py +155 -0
thordata/tools/search.py +47 -5
thordata/tools/social.py +225 -41
thordata/tools/travel.py +100 -0
thordata/tools/video.py +80 -7
thordata/types/task.py +16 -4
{thordata_sdk-1.5.0.dist-info → thordata_sdk-1.6.0.dist-info}/METADATA +63 -7
thordata_sdk-1.6.0.dist-info/RECORD +35 -0
{thordata_sdk-1.5.0.dist-info → thordata_sdk-1.6.0.dist-info}/WHEEL +1 -1
thordata/_example_utils.py +0 -77
thordata/demo.py +0 -138
thordata_sdk-1.5.0.dist-info/RECORD +0 -35
{thordata_sdk-1.5.0.dist-info → thordata_sdk-1.6.0.dist-info}/licenses/LICENSE +0 -0
{thordata_sdk-1.5.0.dist-info → thordata_sdk-1.6.0.dist-info}/top_level.txt +0 -0

thordata/tools/professional.py ADDED Viewed

@@ -0,0 +1,155 @@
+"""
+Professional Platform Scraper Tools (Indeed, Glassdoor, Crunchbase, etc.)
+"""
+from __future__ import annotations
+from dataclasses import dataclass
+from .base import ToolRequest
+class Indeed:
+    """Namespace for Indeed tools."""
+    @dataclass
+    class JobByUrl(ToolRequest):
+        """Indeed Job Listings Scraper by Job URL"""
+        SPIDER_ID = "indeed_job-listings_by-job-url"
+        SPIDER_NAME = "indeed.com"
+        job_url: str
+    @dataclass
+    class JobByKeyword(ToolRequest):
+        """Indeed Job Listings Scraper by Keyword"""
+        SPIDER_ID = "indeed_job-listings_by-keyword"
+        SPIDER_NAME = "indeed.com"
+        keyword: str
+        location: str
+        country: str | None = None
+        domain: str | None = None
+        date_posted: str | None = None
+        posted_by: str | None = None
+        pay: str | None = None
+        location_radius: str | None = None
+    @dataclass
+    class CompanyByListUrl(ToolRequest):
+        """Indeed Companies Info Scraper by Company List URL"""
+        SPIDER_ID = "indeed_companies-info_by-company-list-url"
+        SPIDER_NAME = "indeed.com"
+        company_list_url: str
+    @dataclass
+    class CompanyByKeyword(ToolRequest):
+        """Indeed Companies Info Scraper by Keyword"""
+        SPIDER_ID = "indeed_companies-info_by-keyword"
+        SPIDER_NAME = "indeed.com"
+        keyword: str
+    @dataclass
+    class CompanyByIndustryAndState(ToolRequest):
+        """Indeed Companies Info Scraper by Industry and State"""
+        SPIDER_ID = "indeed_companies-info_by-industry-and-state"
+        SPIDER_NAME = "indeed.com"
+        industry: str
+        state: str | None = None
+    @dataclass
+    class CompanyByUrl(ToolRequest):
+        """Indeed Companies Info Scraper by Company URL"""
+        SPIDER_ID = "indeed_companies-info_by-company-url"
+        SPIDER_NAME = "indeed.com"
+        company_url: str
+class Glassdoor:
+    """Namespace for Glassdoor tools."""
+    @dataclass
+    class CompanyByUrl(ToolRequest):
+        """Glassdoor Company Overview Information Scraper by URL"""
+        SPIDER_ID = "glassdoor_company_by-url"
+        SPIDER_NAME = "glassdoor.com"
+        url: str
+    @dataclass
+    class CompanyByInputFilter(ToolRequest):
+        """Glassdoor Company Overview Information Scraper by Input Filter"""
+        SPIDER_ID = "glassdoor_company_by-inputfilter"
+        SPIDER_NAME = "glassdoor.com"
+        company_name: str
+        location: str | None = None
+        industries: str | None = None
+        Job_title: str | None = None  # Note: capital J in API
+    @dataclass
+    class CompanyByKeywords(ToolRequest):
+        """Glassdoor Company Overview Information Scraper by Keywords"""
+        SPIDER_ID = "glassdoor_company_by-keywords"
+        SPIDER_NAME = "glassdoor.com"
+        search_url: str
+        max_search_results: int | None = None
+    @dataclass
+    class CompanyByListUrl(ToolRequest):
+        """Glassdoor Company Overview Information Scraper by List URL"""
+        SPIDER_ID = "glassdoor_company_by-listurl"
+        SPIDER_NAME = "glassdoor.com"
+        url: str
+    @dataclass
+    class JobByUrl(ToolRequest):
+        """Glassdoor Job Information Scraper by URL"""
+        SPIDER_ID = "glassdoor_joblistings_by-url"
+        SPIDER_NAME = "glassdoor.com"
+        url: str
+    @dataclass
+    class JobByKeywords(ToolRequest):
+        """Glassdoor Job Information Scraper by Keywords"""
+        SPIDER_ID = "glassdoor_joblistings_by-keywords"
+        SPIDER_NAME = "glassdoor.com"
+        keyword: str
+        location: str
+        country: str | None = None
+    @dataclass
+    class JobByListUrl(ToolRequest):
+        """Glassdoor Job Information Scraper by List URL"""
+        SPIDER_ID = "glassdoor_joblistings_by-listurl"
+        SPIDER_NAME = "glassdoor.com"
+        url: str
+class Crunchbase:
+    """Namespace for Crunchbase tools."""
+    @dataclass
+    class CompanyByUrl(ToolRequest):
+        """Crunchbase Company Information Scraper by URL"""
+        SPIDER_ID = "crunchbase_company_by-url"
+        SPIDER_NAME = "crunchbase.com"
+        url: str
+    @dataclass
+    class CompanyByKeywords(ToolRequest):
+        """Crunchbase Company Information Scraper by Keywords"""
+        SPIDER_ID = "crunchbase_company_by-keywords"
+        SPIDER_NAME = "crunchbase.com"
+        keyword: str

thordata/tools/search.py CHANGED Viewed

@@ -13,13 +13,47 @@ class GoogleMaps:
     """Namespace for Google Maps tools."""
     @dataclass
-    class Details(ToolRequest):
-        """Google Maps Details Information Scraper"""
+    class DetailsByUrl(ToolRequest):
+        """Google Maps Details Scraper by URL."""
         SPIDER_ID = "google_map-details_by-url"
         SPIDER_NAME = "google.com"
-        url: str  # Google Maps URL
+        url: str
+    @dataclass
+    class DetailsByCid(ToolRequest):
+        """Google Maps Details Scraper by CID."""
+        SPIDER_ID = "google_map-details_by-cid"
+        SPIDER_NAME = "google.com"
+        CID: str
+    @dataclass
+    class DetailsByLocation(ToolRequest):
+        """Google Maps Details Scraper by Location keyword + country (+ optional lat/long/zoom)."""  # noqa: E501
+        SPIDER_ID = "google_map-details_by-location"
+        SPIDER_NAME = "google.com"
+        country: str
+        keyword: str
+        lat: str | None = None
+        long: str | None = None
+        zoom_level: str | None = None
+    @dataclass
+    class DetailsByPlaceId(ToolRequest):
+        """Google Maps Details Scraper by Place ID."""
+        SPIDER_ID = "google_map-details_by-placeid"
+        SPIDER_NAME = "google.com"
+        place_id: str
+    # Backward compatible alias: keep old name working
+    Details = DetailsByUrl
     @dataclass
     class Reviews(ToolRequest):
@@ -37,14 +71,22 @@ class GoogleShopping:
     @dataclass
     class Product(ToolRequest):
-        """Google Shopping Information Scraper"""
+        """Google Shopping Information Scraper by URL"""
         SPIDER_ID = "google_shopping_by-url"
         SPIDER_NAME = "google.com"
         url: str
         country: str | None = None  # e.g. "US"
+    @dataclass
+    class ProductByKeywords(ToolRequest):
+        """Google Shopping Information Scraper by Keywords"""
+        SPIDER_ID = "google_shopping_by-keywords"
+        SPIDER_NAME = "google.com"
+        keyword: str
+        country: str | None = None  # e.g. "US"
 class GooglePlay:
     """Namespace for Google Play Store tools."""

thordata/tools/social.py CHANGED Viewed

@@ -12,12 +12,47 @@ from .base import ToolRequest
 class TikTok:
     @dataclass
     class Post(ToolRequest):
-        """TikTok Post Information Scraper"""
+        """TikTok Post Information Scraper by URL"""
         SPIDER_ID = "tiktok_posts_by-url"
         SPIDER_NAME = "tiktok.com"
         url: str
-        page_turning: int | None = None
+        country: str | None = None
+    @dataclass
+    class PostsByKeywords(ToolRequest):
+        """TikTok Post Information Scraper by Keywords"""
+        SPIDER_ID = "tiktok_posts_by-keywords"
+        SPIDER_NAME = "tiktok.com"
+        search_keyword: str
+        num_of_posts: int | None = None
+        posts_to_not_include: str | None = None
+        country: str | None = None
+    @dataclass
+    class PostsByProfileUrl(ToolRequest):
+        """TikTok Post Information Scraper by Profile URL"""
+        SPIDER_ID = "tiktok_posts_by-profileurl"
+        SPIDER_NAME = "tiktok.com"
+        url: str
+        start_date: str | None = None
+        end_date: str | None = None
+        num_of_posts: int | None = None
+        what_to_collect: str | None = None
+        post_type: str | None = None
+        posts_to_not_include: str | None = None
+        country: str | None = None
+    @dataclass
+    class PostsByListUrl(ToolRequest):
+        """TikTok Post Information Scraper by List URL"""
+        SPIDER_ID = "tiktok_posts_by-listurl"
+        SPIDER_NAME = "tiktok.com"
+        url: str
+        num_of_posts: int | None = None
     @dataclass
     class Comment(ToolRequest):
@@ -30,33 +65,62 @@ class TikTok:
     @dataclass
     class Profile(ToolRequest):
-        """TikTok Profile Information Scraper"""
+        """TikTok Profile Information Scraper by URL"""
         SPIDER_ID = "tiktok_profiles_by-url"
         SPIDER_NAME = "tiktok.com"
         url: str  # Profile URL (e.g. https://www.tiktok.com/@user)
-        search_url: str | None = None
+        country: str | None = None
+    @dataclass
+    class ProfilesByListUrl(ToolRequest):
+        """TikTok Profile Information Scraper by List URL"""
+        SPIDER_ID = "tiktok_profiles_by-listurl"
+        SPIDER_NAME = "tiktok.com"
+        search_url: str
         country: str | None = None
         page_turning: int | None = None
     @dataclass
     class Shop(ToolRequest):
-        """TikTok Shop Information Scraper"""
+        """TikTok Shop Information Scraper by URL"""
         SPIDER_ID = "tiktok_shop_by-url"
         SPIDER_NAME = "tiktok.com"
         url: str
-        category_url: str | None = None
-        keyword: str | None = None
+    @dataclass
+    class ShopByCategoryUrl(ToolRequest):
+        """TikTok Shop Information Scraper by Category URL"""
+        SPIDER_ID = "tiktok_shop_by-category-url"
+        SPIDER_NAME = "tiktok.com"
+        category_url: str
+    @dataclass
+    class ShopByKeywords(ToolRequest):
+        """TikTok Shop Information Scraper by Keywords"""
+        SPIDER_ID = "tiktok_shop_by-keywords"
+        SPIDER_NAME = "tiktok.com"
+        keyword: str
+        domain: str = "https://www.tiktok.com/shop"
         page_turning: int | None = None
 class Facebook:
+    @dataclass
+    class PostDetails(ToolRequest):
+        """Facebook Post Details Scraper"""
+        SPIDER_ID = "facebook_post_by-posts-url"
+        SPIDER_NAME = "facebook.com"
+        url: str
     @dataclass
     class Posts(ToolRequest):
-        """Facebook Posts Scraper"""
+        """Facebook Posts Scraper by Keywords"""
         SPIDER_ID = "facebook_post_by-keywords"
         SPIDER_NAME = "facebook.com"
@@ -66,27 +130,70 @@ class Facebook:
         number: int = 10
     @dataclass
-    class PostDetails(ToolRequest):
-        """Facebook Post Details Scraper"""
+    class EventByEventListUrl(ToolRequest):
+        """Facebook Events Scraper by Event List URL"""
-        SPIDER_ID = "facebook_post_by-posts-url"
+        SPIDER_ID = "facebook_event_by-eventlist-url"
+        SPIDER_NAME = "facebook.com"
+        url: str
+        upcoming_events_only: str | None = None
+    @dataclass
+    class EventBySearchUrl(ToolRequest):
+        """Facebook Events Scraper by Search URL"""
+        SPIDER_ID = "facebook_event_by-search-url"
+        SPIDER_NAME = "facebook.com"
+        url: str
+    @dataclass
+    class EventByEventsUrl(ToolRequest):
+        """Facebook Events Scraper by Events URL"""
+        SPIDER_ID = "facebook_event_by-events-url"
+        SPIDER_NAME = "facebook.com"
+        url: str
+    @dataclass
+    class Profile(ToolRequest):
+        """Facebook Profile Scraper"""
+        SPIDER_ID = "facebook_profile_by-profiles-url"
+        SPIDER_NAME = "facebook.com"
+        url: str
+    @dataclass
+    class Comment(ToolRequest):
+        """Facebook Post Comments Scraper"""
+        SPIDER_ID = "facebook_comment_by-comments-url"
         SPIDER_NAME = "facebook.com"
         url: str
+        get_all_replies: str | None = None
+        limit_records: str | None = None
+        comments_sort: str | None = None  # All comments
 class Instagram:
     @dataclass
     class Profile(ToolRequest):
-        """Instagram Profile Scraper"""
+        """Instagram Profile Scraper by Username"""
         SPIDER_ID = "ins_profiles_by-username"
         SPIDER_NAME = "instagram.com"
         username: str
-        profileurl: str | None = None
+    @dataclass
+    class ProfileByUrl(ToolRequest):
+        """Instagram Profile Scraper by Profile URL"""
+        SPIDER_ID = "ins_profiles_by-profileurl"
+        SPIDER_NAME = "instagram.com"
+        profileurl: str
     @dataclass
     class Post(ToolRequest):
-        """Instagram Post Information Scraper"""
+        """Instagram Post Information Scraper by Profile URL"""
         SPIDER_ID = "ins_posts_by-profileurl"
         SPIDER_NAME = "instagram.com"
@@ -96,14 +203,45 @@ class Instagram:
         end_date: str | None = None
         post_type: str | None = None  # Post or Reel
+    @dataclass
+    class PostByUrl(ToolRequest):
+        """Instagram Post Information Scraper by Post URL"""
+        SPIDER_ID = "ins_posts_by-posturl"
+        SPIDER_NAME = "instagram.com"
+        posturl: str
     @dataclass
     class Reel(ToolRequest):
-        """Instagram Reel Information Scraper"""
+        """Instagram Reel Information Scraper by URL"""
         SPIDER_ID = "ins_reel_by-url"
         SPIDER_NAME = "instagram.com"
         url: str
+    @dataclass
+    class AllReel(ToolRequest):
+        """Instagram All Reel Information Scraper by URL"""
+        SPIDER_ID = "ins_allreel_by-url"
+        SPIDER_NAME = "instagram.com"
+        url: str
+        num_of_posts: int | None = None
+        posts_to_not_include: str | None = None
+        start_date: str | None = None
+        end_date: str | None = None
+    @dataclass
+    class ReelByListUrl(ToolRequest):
+        """Instagram Reel Information Scraper by List URL"""
+        SPIDER_ID = "ins_reel_by-listurl"
+        SPIDER_NAME = "instagram.com"
+        url: str
         num_of_posts: int | None = None
+        posts_to_not_include: str | None = None
+        start_date: str | None = None
+        end_date: str | None = None
     @dataclass
     class Comment(ToolRequest):
@@ -117,30 +255,35 @@ class Instagram:
 class Twitter:
     @dataclass
     class Profile(ToolRequest):
-        """Twitter(X) Profile Scraper"""
+        """Twitter(X) Profile Scraper by Profile URL"""
-        SPIDER_ID = "twitter_profiles_by-url"
-        SPIDER_NAME = "twitter.com"
+        SPIDER_ID = "twitter_profile_by-profileurl"
+        SPIDER_NAME = "x.com"
         url: str
-        max_number_of_posts: int | None = None
-        user_name: str | None = None
     @dataclass
-    class Post(ToolRequest):
-        """
-        Twitter(X) Post Information Scraper
-        Updates based on integration snippet:
-        - SPIDER_NAME is 'x.com'
-        - Only 'url' is required.
-        """
+    class ProfileByUsername(ToolRequest):
+        """Twitter(X) Profile Scraper by Username"""
+        SPIDER_ID = "twitter_profile_by-username"
+        SPIDER_NAME = "x.com"
+        user_name: str
-        SPIDER_ID = "twitter_by-posturl_by-url"
-        SPIDER_NAME = "x.com"  # Updated from snippet
+    @dataclass
+    class Post(ToolRequest):
+        """Twitter(X) Post Information Scraper by Post URL"""
+        SPIDER_ID = "twitter_post_by-posturl"
+        SPIDER_NAME = "x.com"
         url: str  # Post URL (e.g. https://x.com/user/status/123)
-        start_date: str | None = None
-        end_date: str | None = None
+    @dataclass
+    class PostByProfileUrl(ToolRequest):
+        """Twitter(X) Post Information Scraper by Profile URL"""
+        SPIDER_ID = "twitter_post_by-profileurl"
+        SPIDER_NAME = "x.com"
+        url: str  # Profile URL
 class LinkedIn:
@@ -154,30 +297,70 @@ class LinkedIn:
     @dataclass
     class Jobs(ToolRequest):
-        """LinkedIn Job Listing Scraper"""
+        """LinkedIn Job Listing Scraper by Job Listing URL"""
         SPIDER_ID = "linkedin_job_listings_information_by-job-listing-url"
         SPIDER_NAME = "linkedin.com"
         job_listing_url: str
+        page_turning: int | None = None
+    @dataclass
+    class JobByUrl(ToolRequest):
+        """LinkedIn Job Listing Scraper by Job URL"""
+        SPIDER_ID = "linkedin_job_listings_information_by-job-url"
+        SPIDER_NAME = "linkedin.com"
+        job_url: str
+    @dataclass
+    class JobByKeyword(ToolRequest):
+        """LinkedIn Job Listing Scraper by Keyword"""
+        SPIDER_ID = "linkedin_job_listings_information_by-keyword"
+        SPIDER_NAME = "linkedin.com"
         location: str
-        job_url: str | None = None
+        keyword: str
+        time_range: str | None = None
+        experience_level: str | None = None
+        job_type: str | None = None
+        remote: str | None = None
+        company: str | None = None
+        selective_search: str | None = None
+        jobs_to_not_include: str | None = None
+        location_radius: str | None = None
         page_turning: int | None = None
-        keyword: str | None = None
-        remote: str | None = None  # On_site, Remote, Hybrid
 class Reddit:
     @dataclass
     class Posts(ToolRequest):
-        """Reddit Post Information Scraper"""
+        """Reddit Post Information Scraper by URL"""
         SPIDER_ID = "reddit_posts_by-url"
         SPIDER_NAME = "reddit.com"
         url: str
-        keyword: str | None = None
-        subreddit_url: str | None = None
+    @dataclass
+    class PostsByKeywords(ToolRequest):
+        """Reddit Post Information Scraper by Keywords"""
+        SPIDER_ID = "reddit_posts_by-keywords"
+        SPIDER_NAME = "reddit.com"
+        keyword: str
+        date: str | None = None  # All time
+        num_of_posts: int | None = None
+        sort_by: str | None = None
+    @dataclass
+    class PostsBySubredditUrl(ToolRequest):
+        """Reddit Post Information Scraper by Subreddit URL"""
+        SPIDER_ID = "reddit_posts_by-subredditurl"
+        SPIDER_NAME = "reddit.com"
+        url: str
+        sort_by: str | None = None
         num_of_posts: int | None = None
-        sort_by: str | None = None  # Relevance, Hot, Top, New
+        sort_by_time: str | None = None  # All Time
     @dataclass
     class Comment(ToolRequest):
@@ -187,4 +370,5 @@ class Reddit:
         SPIDER_NAME = "reddit.com"
         url: str
         days_back: int | None = None
-        load_all_replies: bool | None = None
+        load_all_replies: str | None = None
+        comment_limit: int | None = None

thordata-sdk 1.5.0__py3-none-any.whl → 1.6.0__py3-none-any.whl

thordata-sdk 1.5.0py3-none-any.whl → 1.6.0py3-none-any.whl