PyPI - pycoze - Versions diffs - 0.1.488__py3-none-any.whl → 0.1.490__py3-none-any.whl - Mend

pycoze 0.1.488py3-none-any.whl → 0.1.490py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

pycoze/api/__init__.py +0 -3
pycoze/utils/__init__.py +3 -1
pycoze/utils/web.py +56 -0
{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/METADATA +1 -1
{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/RECORD +8 -8
pycoze/api/lib/web.py +0 -67
{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/LICENSE +0 -0
{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/WHEEL +0 -0
{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/top_level.txt +0 -0

pycoze/api/__init__.py CHANGED Viewed

@@ -1,16 +1,13 @@
 from .lib.window import WindowCls
 from .lib.tab import TabCls
-from .lib.web import WebCls
 class Api:
     def __init__(self) -> None:
         self.window = WindowCls()
         self.tab = TabCls()
-        self.web = WebCls()
 api = Api()
 window = api.window
 tab = api.tab
-web = api.web
 # from ps_view import ViewCls, WebsiteViewCls, FileViewCls, DirectoryViewCls, WorkflowCls

pycoze/utils/__init__.py CHANGED Viewed

@@ -3,11 +3,13 @@ from .env import read_params_file, params, read_json_file
 from .socket import TcpSocket, socket, socket_subscribe
 from .text_or_file import to_text
 from .process import better_kill, execute_script, execute_script_and_block, execute_script_no_block
+from .web import get_simplified_html
 __all__ = [
     read_arg,
     read_params_file, params, read_json_file,
     TcpSocket, socket, socket_subscribe,
     to_text,
-    better_kill, execute_script, execute_script_and_block, execute_script_no_block
+    better_kill, execute_script, execute_script_and_block, execute_script_no_block,
+    get_simplified_html
 ]

pycoze/utils/web.py ADDED Viewed

@@ -0,0 +1,56 @@
+from bs4 import BeautifulSoup, Comment
+def get_simplified_html(html: str, selector=None) -> str:
+    soup = BeautifulSoup(html, 'html.parser')
+    # 如果指定了selector，则只提取该元素的内容
+    if selector:
+        element = soup.select_one(selector)
+        if element:
+            soup = BeautifulSoup(str(element), 'html.parser')
+        else:
+            return f"element not found: {selector}"
+    # 定义需要移除的标签
+    tags_to_remove = ['script', 'style', 'noscript', 'meta', 'link']
+    for tag in tags_to_remove:
+        for element in soup(tag):
+            element.decompose()
+    # 移除注释
+    for element in soup.find_all(string=lambda text: isinstance(text, Comment)):
+        element.extract()
+    # 定义需要保留的交互属性
+    INTERACTIVE_ATTRIBUTES = {
+        'a': ['href', 'onclick'],
+        'button': ['onclick'],
+        'img': ['src', 'onload'],
+        'form': ['action', 'onsubmit'],
+        'input': ['type', 'onclick', 'onchange'],
+        '*': ['onclick', 'onload', 'onchange', 'onsubmit', 'onmouseover']
+    }
+    # 遍历所有标签，保留交互属性并移除其他属性
+    for element in soup.find_all(True):
+        tag_name = element.name
+        allowed_attrs = INTERACTIVE_ATTRIBUTES.get(tag_name, []) + INTERACTIVE_ATTRIBUTES['*']
+        attrs = list(element.attrs.keys())
+        for attr in attrs:
+            if attr not in allowed_attrs:
+                del element[attr]
+        # 如果是<img>标签，检查src是否为Base64
+        if tag_name == 'img' and 'src' in element.attrs and element['src'].startswith('data:'):
+            del element['src']
+        # 处理文本内容，超过1000字符则截取
+        if element.string and len(element.string) > 1000:
+            element.string = element.string[:1000] + '...'
+    # 移除标签之间的多余空白
+    for element in soup.find_all(True):
+        if not element.get_text(strip=True):
+            element.string = ''
+    return str(soup)

{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: pycoze
-Version: 0.1.488
+Version: 0.1.490
 Summary: Package for pycoze only!
 Author: Yuan Jie Xiong
 Author-email: aiqqqqqqq@qq.com

{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/RECORD RENAMED Viewed

@@ -3,11 +3,10 @@ pycoze/ai/__init__.py,sha256=e8cRzp4bLXILIUVtOPqwpiV-szD2eKtaWIodYIuw-7s,312
 pycoze/ai/llm/__init__.py,sha256=7qmligvCSneLx5AFCjKYfGURIiI4KlB4hE19SxIr-Xk,342
 pycoze/ai/llm/chat.py,sha256=sQZT0ImvRW81fXdlKG0ZrHdDB8g5M4iudaWdG4Kpd6Q,6373
 pycoze/ai/llm/text_to_image_prompt.py,sha256=0bx2C_YRvjAo7iphHGp1-pmGKsKqwur7dM0t3SiA8kA,3398
-pycoze/api/__init__.py,sha256=TLKvaZlRzTTt0KiXijLjj9b_iCr7fU1siwsXqyd74b8,375
+pycoze/api/__init__.py,sha256=UQo7g4AIyNNktcxUbcb2gRqb4yKtTAoDOCAFZ_dvji8,305
 pycoze/api/lib/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 pycoze/api/lib/tab.py,sha256=UnvMGxawET0J2Gp0mMDqiBH-I21sUN88T7GtU4ZD2bE,3161
 pycoze/api/lib/view.py,sha256=_PIpTfeuTPPlMDKshMGsqFQYMq7ZiO4Hg5XwHwDoU60,7357
-pycoze/api/lib/web.py,sha256=4HaOV_zYHq6-SSQQIc_O7REnC1asIlXIELxee-pU6zc,2421
 pycoze/api/lib/window.py,sha256=ZZacqnX0fvZUnLUhNVjbbjhBcKkYdi_6E0LswLp1MqM,2071
 pycoze/bot/__init__.py,sha256=rL3Q-ycczRpSFfKn84fg3QBl5k22WpyeIU5qOEjEby8,79
 pycoze/bot/chat.py,sha256=UjiQeK-7rGmBY1w5EhQCx_-Y9ccHXHY_2F5LQX5NIa8,6582
@@ -27,14 +26,15 @@ pycoze/ui/base.py,sha256=7drlRZ40zF1nwGIRwLTC3EuZOSENz2qhQEWUM5yd9cg,1081
 pycoze/ui/color.py,sha256=cT9Ib8uNzkOKxyW0IwVj46o4LwdB1xgNCj1_Rou9d_4,854
 pycoze/ui/typ.py,sha256=NpT0FrbHvByOszBZMFtroRp7I7pN-38tYz_zPOPejF4,1723
 pycoze/ui/ui_def.py,sha256=lGWZGpzRoegP34D562PvK0EJHrmVZrlHW1JjsIG9A9Q,4521
-pycoze/utils/__init__.py,sha256=yj1LLPIRL7EhYuMzO1-NghW_6OMQgef3ofOeyLMksiA,488
+pycoze/utils/__init__.py,sha256=qspSyKzJneb2-esPG_RB7jF40m-VxllHO_NUFV1AaSs,550
 pycoze/utils/arg.py,sha256=jop1tBfe5hYkHW1NSpCeaZBEznkgguBscj_7M2dWfrs,503
 pycoze/utils/env.py,sha256=5pWlXfM1F5ZU9hhv1rHlDEanjEW5wf0nbyez9bNRqqA,559
 pycoze/utils/process.py,sha256=U2MURGmxfyWBqdbKfy5UvyV17M40B6HHlNELgWfgrTE,3824
 pycoze/utils/socket.py,sha256=4Wm4LlwdWXC_kAV0NnZbUc0Y3Kc6KRMyFRqSw79u-9w,2468
 pycoze/utils/text_or_file.py,sha256=gpxZVWt2DW6YiEg_MnMuwg36VNf3TX383QD_1oZNB0Y,551
-pycoze-0.1.488.dist-info/LICENSE,sha256=QStd_Qsd0-kAam_-sOesCIp_uKrGWeoKwt9M49NVkNU,1090
-pycoze-0.1.488.dist-info/METADATA,sha256=DTz7Cgp0sYAt2i2yfM-JFZwIZo7oeblaA-BrMbQYtWA,854
-pycoze-0.1.488.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
-pycoze-0.1.488.dist-info/top_level.txt,sha256=76dPeDhKvOCleL3ZC5gl1-y4vdS1tT_U1hxWVAn7sFo,7
-pycoze-0.1.488.dist-info/RECORD,,
+pycoze/utils/web.py,sha256=Fkre-ZtLCInbbylOMgXWF_WHkLwIY_THReflhnP3CM4,2007
+pycoze-0.1.490.dist-info/LICENSE,sha256=QStd_Qsd0-kAam_-sOesCIp_uKrGWeoKwt9M49NVkNU,1090
+pycoze-0.1.490.dist-info/METADATA,sha256=T9LmX3sLLZHmHYdvPnVzn6iV4phT17MofolBDKp1dbo,854
+pycoze-0.1.490.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
+pycoze-0.1.490.dist-info/top_level.txt,sha256=76dPeDhKvOCleL3ZC5gl1-y4vdS1tT_U1hxWVAn7sFo,7
+pycoze-0.1.490.dist-info/RECORD,,

pycoze/api/lib/web.py DELETED Viewed

@@ -1,67 +0,0 @@
-from pycoze import utils
-from bs4 import BeautifulSoup, Comment
-socket = utils.socket
-class WebCls:
-    def get_simplified_webpage(self, url: str) -> str:
-        return socket.post_and_recv_result(
-            "getSimplifiedWebpage", {"url": url}
-        )
-    def get_simplified_html(self, html: str, selector=None) -> str:
-        soup = BeautifulSoup(html, 'html.parser')
-        # 如果指定了selector，则只提取该元素的内容
-        if selector:
-            element = soup.select_one(selector)
-            if element:
-                soup = BeautifulSoup(str(element), 'html.parser')
-            else:
-                return f"element not found: {selector}"
-        # 定义需要移除的标签
-        tags_to_remove = ['script', 'style', 'noscript', 'meta', 'link']
-        for tag in tags_to_remove:
-            for element in soup(tag):
-                element.decompose()
-        # 移除注释
-        for element in soup.find_all(string=lambda text: isinstance(text, Comment)):
-            element.extract()
-        # 定义需要保留的交互属性
-        INTERACTIVE_ATTRIBUTES = {
-            'a': ['href', 'onclick'],
-            'button': ['onclick'],
-            'img': ['src', 'onload'],
-            'form': ['action', 'onsubmit'],
-            'input': ['type', 'onclick', 'onchange'],
-            '*': ['onclick', 'onload', 'onchange', 'onsubmit', 'onmouseover']
-        }
-        # 遍历所有标签，保留交互属性并移除其他属性
-        for element in soup.find_all(True):
-            tag_name = element.name
-            allowed_attrs = INTERACTIVE_ATTRIBUTES.get(tag_name, []) + INTERACTIVE_ATTRIBUTES['*']
-            attrs = list(element.attrs.keys())
-            for attr in attrs:
-                if attr not in allowed_attrs:
-                    del element[attr]
-            # 如果是<img>标签，检查src是否为Base64
-            if tag_name == 'img' and 'src' in element.attrs and element['src'].startswith('data:'):
-                del element['src']
-            # 处理文本内容，超过1000字符则截取
-            if element.string and len(element.string) > 1000:
-                element.string = element.string[:1000] + '...'
-        # 移除标签之间的多余空白
-        for element in soup.find_all(True):
-            if not element.get_text(strip=True):
-                element.string = ''
-        return str(soup)

{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/LICENSE RENAMED Viewed

File without changes

{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/WHEEL RENAMED Viewed

File without changes

{pycoze-0.1.488.dist-info → pycoze-0.1.490.dist-info}/top_level.txt RENAMED Viewed

File without changes

pycoze 0.1.488__py3-none-any.whl → 0.1.490__py3-none-any.whl

pycoze 0.1.488py3-none-any.whl → 0.1.490py3-none-any.whl