PyPI - parsehub - Versions diffs - 2.0.22__tar.gz → 2.0.23__tar.gz - Mend

parsehub 2.0.22tar.gz → 2.0.23tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (70) hide show

{parsehub-2.0.22/src/parsehub.egg-info → parsehub-2.0.23}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: parsehub
-Version: 2.0.22
+Version: 2.0.23
 Summary: 轻量、异步、开箱即用的社交媒体聚合解析库
 Author-email: 梓澪 <zilingmio@gmail.com>
 License: MIT

{parsehub-2.0.22 → parsehub-2.0.23}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "parsehub"
-version = "2.0.22"
+version = "2.0.23"
 description = "轻量、异步、开箱即用的社交媒体聚合解析库"
 readme = "README.md"
 requires-python = ">=3.12.0"
@@ -52,6 +52,8 @@ cli = [
 [dependency-groups]
 dev = [
+    "mypy>=2.1.0",
+    "pytest>=9.0.3",
     "ruff>=0.14.14",
 ]
@@ -79,3 +81,18 @@ ignore = [
     "B008", # 不在参数默认值中执行函数调用
     "C901", # 函数复杂度过高
 ]
+[tool.mypy]
+python_version = "3.12"
+files = ["./"]
+ignore_missing_imports = true
+warn_return_any = false
+warn_unused_ignores = true
+check_untyped_defs = false
+disallow_untyped_defs = false
+no_implicit_optional = false
+[tool.pytest.ini_options]
+testpaths =  ["test"]
+pythonpath = ["src"]
+python_files = ["test_*.py"]

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/__init__.py RENAMED Viewed

@@ -47,9 +47,9 @@ class ParseHub:
     async def download(
         self,
         url: str,
-        path: str | Path = None,
+        path: str | Path | None = None,
         *,
-        callback: ProgressCallback = None,
+        callback: ProgressCallback | None = None,
         callback_args: tuple = (),
         callback_kwargs: dict | None = None,
         proxy: str | None = None,
@@ -169,6 +169,8 @@ class ParseHub:
         :return: 原始链接
         """
         parser = self.get_parser(url)
+        if not parser:
+            raise UnknownPlatform(url)
         try:
             return await parser(proxy=proxy).get_raw_url(url, clean_all=clean_all)
         except Exception as e:
@@ -210,9 +212,10 @@ class ParseHub:
         """
         return [
             {
-                "id": parser.__platform__.id,
-                "name": parser.__platform__.display_name,
+                "id": platform.id,
+                "name": platform.display_name,
                 "supported_types": parser.__supported_type__,
             }
             for parser in self.parsers
+            if (platform := parser.__platform__) is not None
         ]

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/cli.py RENAMED Viewed

@@ -8,7 +8,7 @@ import unicodedata
 from dataclasses import asdict, is_dataclass
 from importlib.metadata import PackageNotFoundError, version
 from pathlib import Path
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, NoReturn, cast
 if TYPE_CHECKING:
     from .cli_config import AutoCookieStore, PlatformConfig
@@ -20,12 +20,13 @@ _CLI_EXTRA_MODULES = ("argcomplete", "platformdirs")
 class _ChineseArgumentParser(argparse.ArgumentParser):
     def __init__(self, *args: Any, **kwargs: Any):
         kwargs.setdefault("formatter_class", argparse.RawDescriptionHelpFormatter)
-        add_help = kwargs.pop("add_help", True)
-        super().__init__(*args, add_help=False, **kwargs)
+        add_help = bool(kwargs.pop("add_help", True))
+        kwargs["add_help"] = False
+        super().__init__(*args, **kwargs)
         if add_help:
             self.add_argument("-h", "--help", action="help", default=argparse.SUPPRESS, help="显示帮助信息")
-    def error(self, message: str) -> None:
+    def error(self, message: str) -> NoReturn:
         self.print_usage(sys.stderr)
         translated = _translate_argparse_error(message)
         hint = _usage_hint(self.prog)
@@ -212,7 +213,7 @@ def _add_set_commands(subparsers: argparse._SubParsersAction) -> None:
 def _add_platform_argument(parser: argparse.ArgumentParser) -> None:
     action = parser.add_argument("platform", help="平台 ID，如 xhs")
-    action.completer = _complete_platforms
+    action.completer = _complete_platforms  # type: ignore[attr-defined]
 def _add_json_options(parser: argparse.ArgumentParser) -> None:
@@ -436,7 +437,7 @@ def _platform_config_row(
 def _print_json(data: Any, *, pretty: bool) -> None:
-    kwargs = {"ensure_ascii": False}
+    kwargs: dict[str, Any] = {"ensure_ascii": False}
     if pretty:
         kwargs["indent"] = 2
     else:
@@ -547,8 +548,8 @@ def _download_result_to_dict(result: Any) -> dict[str, Any]:
 def _jsonable(value: Any) -> Any:
     if isinstance(value, Path):
         return str(value)
-    if is_dataclass(value):
-        return _jsonable(asdict(value))
+    if is_dataclass(value) and not isinstance(value, type):
+        return _jsonable(asdict(cast(Any, value)))
     if isinstance(value, dict):
         return {str(k): _jsonable(v) for k, v in value.items()}
     if isinstance(value, (list, tuple)):

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/base/base.py RENAMED Viewed

@@ -34,7 +34,7 @@ class BaseParser(ABC):
         self.proxy = proxy
         self.cookie = normalize_cookie(cookie)
-    def __init_subclass__(cls, /, register=True, **kwargs):
+    def __init_subclass__(cls, /, register: bool = True, **kwargs):
         super().__init_subclass__(**kwargs)
         if register:
             if not cls.__platform__:
@@ -56,7 +56,7 @@ class BaseParser(ABC):
     def match(cls, text: str) -> bool:
         """判断是否匹配该解析器"""
         url = match_url(text)
-        return bool(re.match(cls.__match__, url))
+        return bool(cls.__match__ and re.match(cls.__match__, url))
     async def parse(self, url: str) -> AnyParseResult:
         """解析
@@ -66,7 +66,8 @@ class BaseParser(ABC):
         raw_url = await self.get_raw_url(url, clean_all=False)
         result = await self._do_parse(raw_url)
         result.platform = self.__platform__
-        result.raw_url = self._clean_params(raw_url, self.__after_clean_parameters__)
+        raw_url_clean = self._clean_params(raw_url, self.__after_clean_parameters__)
+        result.raw_url = raw_url_clean
         return result
     @abstractmethod
@@ -104,7 +105,8 @@ class BaseParser(ABC):
         :return:
         """
-        url = match_url(url)
+        matched_url = match_url(url)
+        url = matched_url or url
         if not url.startswith("http"):
             url = f"https://{url}"
         if any(x in url for x in self.__redirect_keywords__):

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/base/ytdlp.py RENAMED Viewed

@@ -1,11 +1,11 @@
 import asyncio
 from dataclasses import dataclass
 from pathlib import Path
-from typing import Union
 from yt_dlp import YoutubeDL
 from ...types import (
+    AnyParseResult,
     DownloadError,
     DownloadResult,
     ParseError,
@@ -91,7 +91,7 @@ class MonotonicDownloadProgress:
 class YtParser(BaseParser, register=False):
     """yt-dlp解析器"""
-    async def _do_parse(self, raw_url: str) -> Union["YtVideoParseResult"]:
+    async def _do_parse(self, raw_url: str) -> AnyParseResult:
         video_info = await self._parse(raw_url)
         return YtVideoParseResult(
             dl=video_info,
@@ -114,8 +114,8 @@ class YtParser(BaseParser, register=False):
         except Exception as e:
             raise ParseError(f"解析视频信息失败: {str(e)}") from e
-        if dl.get("_type") and dl["_type"] == "playlist":  # type: ignore
-            dl = dl["entries"][0]  # type: ignore
+        if dl.get("_type") and dl["_type"] == "playlist":
+            dl = dl["entries"][0]
             url = dl["webpage_url"]
         title = dl["title"]
         duration = dl.get("duration", 0)
@@ -190,12 +190,13 @@ class YtVideoParseResult(VideoParseResult):
     ) -> "DownloadResult":
         if callback_kwargs is None:
             callback_kwargs = {}
+        output_dir_path = Path(output_dir)
         paramss = self.dl.paramss.copy()
         if self.dl.proxy:
             paramss["proxy"] = self.dl.proxy
-        paramss["outtmpl"] = f"{output_dir.joinpath('ytdlp_%(id)s')}.%(ext)s"
+        paramss["outtmpl"] = f"{output_dir_path.joinpath('ytdlp_%(id)s')}.%(ext)s"
         if callback:
             loop = asyncio.get_running_loop()
@@ -214,7 +215,11 @@ class YtVideoParseResult(VideoParseResult):
         await self._run_download(paramss, proxy=proxy)
-        v = list(output_dir.glob("*.mp4")) or list(output_dir.glob("*.mkv")) or list(output_dir.glob("*.webm"))
+        v = (
+            list(output_dir_path.glob("*.mp4"))
+            or list(output_dir_path.glob("*.mkv"))
+            or list(output_dir_path.glob("*.webm"))
+        )
         if not v:
             raise DownloadError("下载失败 -1")

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/bilibili.py RENAMED Viewed

@@ -1,6 +1,8 @@
+from __future__ import annotations
 import re
 from pathlib import Path
-from typing import Union
+from typing import cast
 from urllib.parse import parse_qs, urlparse
 from loguru import logger
@@ -29,11 +31,11 @@ class BiliParse(YtParser):
     __reserved_parameters__ = ["p"]
     __redirect_keywords__ = ["b23.tv", "bili2233.cn"]
-    async def _do_parse(self, raw_url: str) -> Union["YtVideoParseResult", "BiliVideoParseResult", ImageParseResult]:
+    async def _do_parse(self, raw_url: str) -> YtVideoParseResult | BiliVideoParseResult | ImageParseResult:
         if await self.is_dynamic(raw_url):
             dynamic = await self.get_dynamic_info(raw_url)
             content = self.hashtag_handler(dynamic.content)
-            photos = []
+            photos: list[LivePhotoRef | ImageRef] = []
             if dynamic.images:
                 for i in dynamic.images:
                     if i.live_url:
@@ -93,7 +95,7 @@ class BiliParse(YtParser):
                 raise ParseError(str(e)) from e
         return dynamic_info
-    async def bili_api_parse(self, url) -> Union["BiliVideoParseResult", "ImageParseResult"]:
+    async def bili_api_parse(self, url) -> BiliVideoParseResult | ImageParseResult:
         async with BiliAPI(proxy=self.proxy) as bili:
             video_info = await bili.get_video_info(url)
@@ -136,8 +138,8 @@ class BiliParse(YtParser):
             ),
         )
-    async def ytp_parse(self, url) -> Union["YtVideoParseResult"]:
-        result = await super()._do_parse(url)
+    async def ytp_parse(self, url) -> YtVideoParseResult:
+        result = cast(YtVideoParseResult, await super()._do_parse(url))
         return YtVideoParseResult(
             title=result.title,
             dl=result.dl,
@@ -172,7 +174,7 @@ class BiliVideoParseResult(VideoParseResult):
         callback_kwargs: dict | None = None,
         proxy: str | None = None,
         headers: dict | None = None,
-    ) -> "DownloadResult":
+    ) -> DownloadResult:
         headers = {"referer": "https://www.bilibili.com", "User-Agent": GlobalConfig.ua}
         return await super()._do_download(
             output_dir=output_dir,

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/coolapk.py RENAMED Viewed

@@ -31,14 +31,14 @@ class CoolapkParser(BaseParser):
             coolapk = await Coolapk.parse(raw_url, proxy=self.proxy)
         except Exception as e:
             raise ParseError(str(e)) from e
-        media = [AniRef(url=i) if ".gif" in i else ImageRef(url=i) for i in coolapk.imgs]
+        media = [AniRef(url=i) if ".gif" in i else ImageRef(url=i) for i in coolapk.imgs or []]
         if coolapk.markdown_content:
             return CoolapkRichTextParseResult(
                 title=coolapk.title,
                 media=media,
                 markdown_content=coolapk.markdown_content,
             )
-        content = self.hashtag_handler(coolapk.text_content)
+        content = self.hashtag_handler(coolapk.text_content or "")
         if any(isinstance(m, AniRef) for m in media):
             return CoolapkMultimediaParseResult(
                 title=coolapk.title,

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/douyin.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from enum import Enum
 from pathlib import Path
 from typing import Self, Union
@@ -47,6 +47,8 @@ class DouyinParser(BaseParser):
     @staticmethod
     def _build_video_result(result: "DouyinApiResult") -> VideoParseResult:
         """构建视频解析结果"""
+        if result.video is None:
+            raise ParseError("抖音解析失败: 未获取到视频")
         return DouyinVideoParseResult(
             title=result.desc,
             video=result.video,
@@ -134,9 +136,9 @@ class DouyinApiResult:
     """抖音 API 解析结果"""
     type: DouyinMediaType
-    video: VideoRef = None
+    video: VideoRef | None = None
     desc: str = ""
-    image_list: list[ImageRef | LivePhotoRef] = None
+    image_list: list[ImageRef | LivePhotoRef] = field(default_factory=list)
     @classmethod
     def parse(cls, json_dict: dict) -> Self:
@@ -162,7 +164,7 @@ class DouyinApiResult:
         has_live_photos = any(img.get("video") for img in images)
         if has_live_photos:
-            image_list = []
+            image_list: list[ImageRef | LivePhotoRef] = []
             for image in images:
                 if video := image.get("video"):
                     video_info = parse_video_info(video)
@@ -206,7 +208,7 @@ class DouyinApiResult:
     def _parse_image_post_info(cls, image_post_info: dict, desc: str) -> Self:
         """解析新版图片格式 (image_post_info 字段)"""
         images = image_post_info.get("images", [])
-        image_list = []
+        image_list: list[ImageRef | LivePhotoRef] = []
         for image in images:
             display_image = image.get("display_image", {})

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/instagram.py RENAMED Viewed

@@ -15,7 +15,7 @@ class InstagramParser(BaseParser):
     __match__ = r"^(http(s)?://)(www\.|)instagram\.com/(p|reel|share|.*/p|.*/reel)/.*"
     __redirect_keywords__ = ["share"]
-    async def _do_parse(self, raw_url: str) -> VideoParseResult | ImageParseResult | MultimediaParseResult | None:
+    async def _do_parse(self, raw_url: str) -> VideoParseResult | ImageParseResult | MultimediaParseResult:
         shortcode = self.get_short_code(raw_url)
         if not shortcode:
             raise ValueError("Instagram帖子链接无效")
@@ -32,7 +32,7 @@ class InstagramParser(BaseParser):
             case "GraphSidecar":
                 media = [
                     VideoRef(url=i.video_url, thumb_url=i.display_url, width=i.width, height=i.height)
-                    if i.is_video
+                    if i.is_video and i.video_url
                     else ImageRef(url=i.display_url, width=i.width, height=i.height)
                     for i in post.get_sidecar_nodes()
                 ]
@@ -44,9 +44,9 @@ class InstagramParser(BaseParser):
             case "GraphVideo":
                 return VideoParseResult(
                     video=VideoRef(
-                        url=post.video_url,
+                        url=post.video_url or post.url,
                         thumb_url=post.url,
-                        duration=int(post.video_duration),
+                        duration=int(post.video_duration or 0),
                         width=width,
                         height=height,
                     ),
@@ -81,7 +81,7 @@ class InstagramParser(BaseParser):
             if cookie:
                 text = f"Instagram 账号可能已被封禁\n\n使用的Cookie: {cookie_ellipsis(cookie)}"
             else:
-                text = e
+                text = str(e)
             raise ParseError(f"无法获取帖子内容: {text}") from e
         else:
             return post

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/pipix.py RENAMED Viewed

@@ -23,9 +23,9 @@ class PipixParser(BaseParser):
                 video=VideoRef(
                     url=ppx.video_url,
                     thumb_url=ppx.video_thumb,
-                    duration=ppx.video_duration,
-                    height=ppx.video_height,
-                    width=ppx.video_width,
+                    duration=ppx.video_duration or 0,
+                    height=ppx.video_height or 0,
+                    width=ppx.video_width or 0,
                 ),
             )
         else:

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/threads.py RENAMED Viewed

@@ -1,5 +1,5 @@
 from ...provider_api.threads import ThreadsAPI, ThreadsMedia, ThreadsMediaType
-from ...types import ImageRef, MultimediaParseResult, Platform, VideoRef
+from ...types import AnyMediaRef, ImageRef, MultimediaParseResult, Platform, VideoRef
 from ..base.base import BaseParser
@@ -10,7 +10,7 @@ class ThreadsParser(BaseParser):
     async def _do_parse(self, raw_url: str) -> "MultimediaParseResult":
         post = await ThreadsAPI(proxy=self.proxy).parse(raw_url)
-        media = []
+        media: list[AnyMediaRef] = []
         if post.media:
             pm: list[ThreadsMedia] = post.media if isinstance(post.media, list) else [post.media]
             for m in pm:

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/tieba.py RENAMED Viewed

@@ -2,7 +2,7 @@ from typing import Union
 import httpx
-from ...provider_api.tieba import TieBa, TieBaError, TieBaPostType
+from ...provider_api.tieba import TieBa, TieBaError, TieBaPostType, TieBaVideo
 from ...types import AniRef, ImageParseResult, ImageRef, ParseError, Platform, VideoParseResult, VideoRef
 from ..base.base import BaseParser
@@ -22,6 +22,8 @@ class TieBaParser(BaseParser):
         match tb.type:
             case TieBaPostType.VIDEO:
+                if not isinstance(tb.media, TieBaVideo):
+                    raise ParseError("贴吧解析失败: 未获取到视频")
                 return VideoParseResult(
                     title=tb.title,
                     video=VideoRef(
@@ -35,8 +37,8 @@ class TieBaParser(BaseParser):
                 )
             case TieBaPostType.PHOTO:
-                images = []
-                if tb.media:
+                images: list[ImageRef | AniRef] = []
+                if isinstance(tb.media, list):
                     for i in tb.media:
                         async with httpx.AsyncClient(proxy=self.proxy) as cli:
                             try:

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/tiktok.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from enum import Enum
 from pathlib import Path
 from typing import Self, Union
@@ -44,6 +44,8 @@ class TikTokParser(BaseParser):
     @staticmethod
     def _build_video_result(result: "TikTokApiResult") -> VideoParseResult:
+        if result.video is None:
+            raise ParseError("TikTok 解析失败: 未获取到视频")
         return TikTokVideoParseResult(
             title=result.desc,
             video=result.video,
@@ -199,9 +201,9 @@ class TikTokMediaType(Enum):
 @dataclass
 class TikTokApiResult:
     type: TikTokMediaType
-    video: VideoRef = None
+    video: VideoRef | None = None
     desc: str = ""
-    image_list: list[ImageRef] = None
+    image_list: list[ImageRef] = field(default_factory=list)
     @classmethod
     def parse(cls, json_dict: dict) -> Self:
@@ -216,7 +218,7 @@ class TikTokApiResult:
     @classmethod
     def _parse_image_post(cls, image_post_info: dict, desc: str) -> Self:
-        image_list = []
+        image_list: list[ImageRef] = []
         for image in image_post_info.get("images", []):
             display_image = (

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/twitter.py RENAMED Viewed

@@ -7,7 +7,16 @@ from ...provider_api.twitter import (
     TwitterTweet,
     TwitterVideo,
 )
-from ...types import AniRef, ImageRef, MultimediaParseResult, ParseError, Platform, RichTextParseResult, VideoRef
+from ...types import (
+    AniRef,
+    AnyMediaRef,
+    ImageRef,
+    MultimediaParseResult,
+    ParseError,
+    Platform,
+    RichTextParseResult,
+    VideoRef,
+)
 from ...utils.utils import cookie_ellipsis
 from ..base.base import BaseParser
@@ -47,12 +56,12 @@ class TwitterParser(BaseParser):
     @staticmethod
     async def media_parse(tweet: TwitterTweet):
-        media = []
+        media: list[AnyMediaRef] = []
         if tweet.media:
             for m in tweet.media:
                 match m:
                     case TwitterPhoto():
-                        path = ImageRef(url=m.url, height=m.height, width=m.width, thumb_url=m.thumb_url)
+                        path: AnyMediaRef = ImageRef(url=m.url, height=m.height, width=m.width, thumb_url=m.thumb_url)
                     case TwitterVideo():
                         path = VideoRef(
                             url=m.url,

parsehub-2.0.23/src/parsehub/parsers/parser/weibo.py ADDED Viewed

@@ -0,0 +1,101 @@
+import re
+from ...provider_api.weibo import MediaType, MixMediaInfoItem, PicInfo, WeiboAPI
+from ...types import (
+    AniRef,
+    ImageParseResult,
+    ImageRef,
+    LivePhotoRef,
+    MultimediaParseResult,
+    Platform,
+    VideoParseResult,
+    VideoRef,
+)
+from ..base.base import BaseParser
+class WeiboParser(BaseParser):
+    __platform__ = Platform.WEIBO
+    __supported_type__ = ["视频", "图文"]
+    __match__ = r"^(http(s)?://)(m\.|)weibo.(com|cn)/(?!(u/)).+"
+    async def _do_parse(self, raw_url: str) -> MultimediaParseResult | VideoParseResult | ImageParseResult:
+        weibo = await WeiboAPI(self.proxy).parse(raw_url)
+        data = weibo.data
+        text = self.f_text(data.content)
+        media: list[VideoRef | ImageRef | LivePhotoRef | AniRef] = []
+        if not data.pic_infos and data.page_info and data.page_info.object_type == MediaType.VIDEO:
+            playback = data.page_info.media_info and data.page_info.media_info.playback
+            if playback:
+                return VideoParseResult(
+                    content=text,
+                    video=VideoRef(
+                        url=playback.url,
+                        thumb_url=data.page_info.page_pic,
+                        width=playback.width,
+                        height=playback.height,
+                        duration=int(playback.duration),
+                    ),
+                )
+        media_info: list[PicInfo | MixMediaInfoItem] | None = None
+        if data.retweeted_status and data.retweeted_status.pic_infos:
+            media_info = list(data.retweeted_status.pic_infos)
+        elif data.pic_infos:
+            media_info = list(data.pic_infos)
+        elif data.mix_media_info and data.mix_media_info.items:
+            media_info = list(data.mix_media_info.items)
+        if not media_info:
+            return MultimediaParseResult(content=text, media=[])
+        for i in media_info:
+            match i.type:
+                case MediaType.VIDEO:
+                    if i.media_url:
+                        media.append(
+                            VideoRef(
+                                url=i.media_url,
+                                thumb_url=i.thumb_url,
+                                width=i.width,
+                                height=i.height,
+                                duration=i.duration,
+                            )
+                        )
+                case MediaType.LIVE_PHOTO:
+                    if i.thumb_url:
+                        media.append(
+                            LivePhotoRef(
+                                url=i.thumb_url,
+                                ext="mov",
+                                video_url=i.media_url,
+                                width=i.width,
+                                height=i.height,
+                            )
+                        )
+                case MediaType.GIF:
+                    if i.media_url:
+                        media.append(AniRef(url=i.media_url, thumb_url=i.thumb_url))
+                case _:
+                    if i.media_url:
+                        media.append(ImageRef(url=i.media_url, thumb_url=i.thumb_url, width=i.width, height=i.height))
+        if all((isinstance(m, ImageRef) or isinstance(m, LivePhotoRef)) for m in media):
+            photos = [m for m in media if isinstance(m, ImageRef | LivePhotoRef)]
+            return ImageParseResult(content=text, photo=photos)
+        return MultimediaParseResult(content=text, media=media)
+    def f_text(self, text: str | None) -> str:
+        # text = re.sub(r'<a  href="https://video.weibo.com.*?>.*的微博视频.*</a>', "", text)
+        # text = re.sub(r"<[^>]+>", " ", text)
+        text = self.hashtag_handler(text or "")
+        return text.strip()
+    @staticmethod
+    def hashtag_handler(desc: str):
+        hashtags = re.findall(r" ?#[^#]+# ?", desc)
+        for hashtag in hashtags:
+            desc = desc.replace(hashtag, f" {hashtag.strip().removesuffix('#')} ")
+        return desc
+__all__ = ["WeiboParser"]

{parsehub-2.0.22 → parsehub-2.0.23}/src/parsehub/parsers/parser/xiaoheihe.py RENAMED Viewed

@@ -36,13 +36,15 @@ class XiaoHeiHeParser(BaseParser):
     def __parse_media(xhh: XiaoHeiHePost):
         match xhh.type:
             case XiaoHeiHePostType.VIDEO:
+                if not xhh.media:
+                    return None
                 return VideoRef(url=xhh.media[0].url, thumb_url=xhh.media[0].thumb_url)
             case XiaoHeiHePostType.IMAGE | XiaoHeiHePostType.ARTICLE:
                 images: list[ImageRef | AniRef] = []
-                for i in xhh.media:
+                for i in xhh.media or []:
                     if i.type == XiaoHeiHeMediaType.IMAGE:
-                        images.append(ImageRef(url=i.url, width=i.width, height=i.height))
+                        images.append(ImageRef(url=i.url, width=i.width or 0, height=i.height or 0))
                     else:
-                        images.append(AniRef(url=i.url, width=i.width, height=i.height))
+                        images.append(AniRef(url=i.url, width=i.width or 0, height=i.height or 0))
                 return images

parsehub 2.0.22__tar.gz → 2.0.23__tar.gz

parsehub 2.0.22tar.gz → 2.0.23tar.gz