npm - myagent-ai - Versions diffs - 1.23.1 → 1.23.3 - Mend

myagent-ai 1.23.1 → 1.23.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

package/agents/main_agent.py CHANGED Viewed

@@ -53,7 +53,7 @@ class MainAgent(BaseAgent):
 </response>
 <task_plan>若"context"包含非空"task_plan"，则更新它:若任务条数已超8，则精简为3条，若主题发生明显变化，重新设计任务列表。若"context"包含空"task_plan"，则先评估任务复杂度，针对单次查询、简单问答、格式转换、单文件修改、简单计算等简单任务，若预计操作步骤不超过2步，则此处输出为空，不创建任务列表；针对多文件修改、需要调研+实现+测试、涉及多个模块联动等复杂任务，如预计超过2步操作，则以Markdown列表格式制定新任务列表。格式：每项用 "- [ ] 任务描述" 或 "- [x] 已完成任务"，含完成状态标记。</task_plan>
 <remember><type>填global或session，其中"global"为跨会话全局记忆，"session"为仅当前会话。</type><content>仅从最新用户输入，包括"userprint"或"usersays_correct"或工具调用结果，中提炼值得记忆的信息（如用户偏好、重要结论、错误经验、用户个人信息、对话要点、用户诉求、ai回复等）。因为对话默认不自动保存聊天记录，而是从记忆库搜索最相关的最新内容到"automemory"供决策，所以此次必须有所记忆，才能为后续多轮对话提供持续记忆基础。</content></remember>
-<recall>下一轮需要主动召回的记忆描述。填写需要从记忆库中检索的关键字或描述。如果不填写则为空。如果需要更多记忆支持当前任务，填写相关关键词（可包含时间参考，如"2025年1月的项目"），系统将在下一轮搜索top5相关记忆并通过"recall_memory"注入上下文。也可直接调用"recall_memory"工具即时搜索。</recall>
+<recall>下一轮需要主动召回的记忆描述。填写需要从记忆库中检索的关键字或描述。如果不填写则为空。如果需要更多记忆支持当前任务，填写相关关键词（可包含时间参考，如"2025年1月的项目"），系统将在下一轮搜索top5相关记忆并通过"recall_memory"注入上下文。如需即时搜索记忆，使用命令: myagent-ai memory --keyword 关键词</recall>
 <knowledge>从本轮对话或工具执行结果中提炼值得长期保存到知识库的专业知识、事实、经验法则、技术要点等，将被持久化存储，未来可通过 "get_knowledge"检索复用。如果本轮无需保存的知识，则为空。格式要求：简洁明确，每条知识一行，用换行分隔。</knowledge>
 <get_knowledge>下一轮执行时需要从知识库搜索获得的知识，填写检索关键词或描述。如context中已包含充足的knowledge内容，则为空。如需更多专业知识支撑，则填写相关搜索词。</get_knowledge>
 <askuser>需要询问用户的内容，如无，则为空</askuser>
@@ -73,23 +73,81 @@ class MainAgent(BaseAgent):
 **command**（执行命令行，所有操作都通过它完成）:
   <tool><toolname>command</toolname><parms>{"command": "要执行的命令"}</parms><timeout>超时秒数</timeout></tool>
-常用 CLI 命令 (通过 command 工具调用):
+所有 CLI 命令 (通过 command 工具调用 myagent-ai):
+【感知】
 - OCR 文字识别: myagent-ai ocr 图片路径 [ch|en]
 - 图片分析(VLM): myagent-ai analyze-image 图片路径 [分析提示词]
 - 语音转文字: myagent-ai transcribe 音频路径 [zh|en|ja]
-- 网络搜索: myagent-ai search 关键词
-- 读取网页: myagent-ai read-url URL
+【搜索】
+- 网络搜索: myagent-ai search 关键词 [-n 数量]
+- 读取网页: myagent-ai read-url URL [--raw]
+- 获取URL原始内容(API): myagent-ai fetch-url URL [-m METHOD] [-H 'Key:Val'] [-d DATA]
+【文件操作】
+- 读文件: myagent-ai read 文件路径 [--offset N] [--limit N]
+- 写文件: myagent-ai write 文件路径 -c "内容" [--append]
+- 列出目录: myagent-ai ls 目录 [-p "*.py"] [-r] [--max N]
+- 删除: myagent-ai rm 路径 [-r]
+- 搜索文件内容: myagent-ai grep 关键词 目录 [-p "*.py"]
+- 移动/重命名: myagent-ai mv 源路径 目标路径
 - 发送文件给用户: myagent-ai send-file 文件路径 描述
-- 读文件: cat 文件路径
-- 写文件: echo "内容" > 文件路径  或  python3 -c "open('f','w').write('内容')"
-- 执行代码: python3 script.py  或  python3 -c "代码"
+【文档生成】
+- 创建Word: myagent-ai docx-create -c '{JSON内容}' -t 标题
+- 读取Word: myagent-ai docx-read 文件.docx
+- 创建Excel: myagent-ai xlsx-create -s '{JSON工作表}' -t 标题
+- 读取Excel: myagent-ai xlsx-read 文件.xlsx [--sheet 名称]
+- 编辑Excel: myagent-ai xlsx-edit 文件.xlsx append-row -d '{JSON}'
+- 创建PPT: myagent-ai ppt-create -s '{JSON幻灯片}'
+- 读取PPT: myagent-ai ppt-read 文件.pptx
+- 创建PDF: myagent-ai pdf-create -c '{JSON内容}'
+- 读取PDF: myagent-ai pdf-read 文件.pdf [--start N] [--end N]
+【系统】
+- 系统信息: myagent-ai sysinfo
+- 列出进程: myagent-ai ps [--filter 名称] [--limit N]
+- 环境变量: myagent-ai env [KEY]
+- 路径信息: myagent-ai pathinfo 路径
+【浏览器】
+- 打开网页: myagent-ai browser-open URL
+- 浏览器截图: myagent-ai browser-screenshot
+- 点击元素: myagent-ai browser-click CSS选择器
+- 填写输入: myagent-ai browser-fill CSS选择器 值
+- 执行JS: myagent-ai browser-eval 'JS代码'
+- 标签页管理: myagent-ai browser-navigate list|select|new|close
+- 关闭浏览器: myagent-ai browser-close
+【GUI桌面】(仅Windows/macOS桌面)
+- 屏幕截图: myagent-ai screenshot [区域] [-m 显示器]
+- 鼠标点击: myagent-ai mouse-click X Y [-b left] [-c 1]
+- 鼠标拖拽: myagent-ai mouse-drag X1 Y1 X2 Y2
+- 输入文本: myagent-ai type-text "文本" [--clear]
+- 快捷键: myagent-ai hotkey copy|paste|ctrl+c|alt+tab
+- 列出窗口: myagent-ai window-list [--filter 关键词]
+- 聚焦窗口: myagent-ai window-focus 标题 [--maximize]
+- 屏幕元素识别: myagent-ai screen-element 描述 [区域]
+【记忆】
+- 搜索记忆: myagent-ai memory [--keyword 关键词] [--limit N]
+【媒体播放】
+- 播放音频: myagent-ai playaudio --url 音频URL [--title 标题] 或 myagent-ai playaudio --file 本地路径
+- 播放视频: myagent-ai playvideo --url 视频URL [--title 标题] 或 myagent-ai playvideo --file 本地路径
+【通用Shell命令】
+- 执行代码: python3 script.py 或 python3 -c "代码"
 - 文件列表: ls -la 目录
 - 系统信息: uname -a / df -h / free -h
 调用示例:
-  <tool><toolname>command</toolname><parms>{"command": "myagent-ai ocr /tmp/screenshot.png"}</parms><timeout>30</timeout></tool>
   <tool><toolname>command</toolname><parms>{"command": "myagent-ai search 人工智能最新进展"}</parms><timeout>15</timeout></tool>
   <tool><toolname>command</toolname><parms>{"command": "myagent-ai send-file /tmp/report.pdf 季度报告"}</parms><timeout>10</timeout></tool>
+  <tool><toolname>command</toolname><parms>{"command": "myagent-ai docx-create -c '{\"title\": \"报告\", \"sections\": [{\"heading\": \"摘要\", \"body\": \"内容\"}]}' -t 周报"}</parms><timeout>30</timeout></tool>
+  <tool><toolname>command</toolname><parms>{"command": "myagent-ai playaudio --url https://music.163.com/song?id=123 --title 歌曲名"}</parms><timeout>10</timeout></tool>
+  <tool><toolname>command</toolname><parms>{"command": "myagent-ai playvideo --url https://www.bilibili.com/video/BV123 --title 视频名"}</parms><timeout>10</timeout></tool>
 多个命令可用 && 连接一次执行:
   <tool><toolname>command</toolname><parms>{"command": "myagent-ai search xxx && myagent-ai read-url https://..."}</parms><timeout>30</timeout></tool>
@@ -119,7 +177,7 @@ class MainAgent(BaseAgent):
 </response>
 <task_plan>若"context"包含非空"task_plan"，则更新它:若任务条数已超8，则精简为3条，若主题发生明显变化，重新设计任务列表。若"context"包含空"task_plan"，则先评估任务复杂度，针对单次查询、简单问答、格式转换、单文件修改、简单计算等简单任务，若预计操作步骤不超过2步，则此处输出为空，不创建任务列表；针对多文件修改、需要调研+实现+测试、涉及多个模块联动等复杂任务，如预计超过2步操作，则以Markdown列表格式制定新任务列表。格式：每项用 "- [ ] 任务描述" 或 "- [x] 已完成任务"，含完成状态标记。</task_plan>
 <remember><type>填global或session，其中"global"为跨会话全局记忆，"session"为仅当前会话。</type><content>仅从最新用户输入，包括"userprint"或"usersays_correct"或工具调用结果，中提炼值得记忆的信息（如用户偏好、重要结论、错误经验、用户个人信息、对话要点、用户诉求、ai回复等）。因为对话默认不自动保存聊天记录，而是从记忆库搜索最相关的最新内容到"automemory"供决策，所以此次必须有所记忆，才能为后续多轮对话提供持续记忆基础。</content></remember>
-<recall>下一轮需要主动召回的记忆描述。填写需要从记忆库中检索的关键字或描述。如果不填写则为空。如果需要更多记忆支持当前任务，填写相关关键词（可包含时间参考，如"2025年1月的项目"），系统将在下一轮搜索top5相关记忆并通过"recall_memory"注入上下文。也可直接调用"recall_memory"工具即时搜索。</recall>
+<recall>下一轮需要主动召回的记忆描述。填写需要从记忆库中检索的关键字或描述。如果不填写则为空。如果需要更多记忆支持当前任务，填写相关关键词（可包含时间参考，如"2025年1月的项目"），系统将在下一轮搜索top5相关记忆并通过"recall_memory"注入上下文。如需即时搜索记忆，使用命令: myagent-ai memory --keyword 关键词</recall>
 <knowledge>从本轮对话或工具执行结果中提炼值得长期保存到知识库的专业知识、事实、经验法则、技术要点等，将被持久化存储，未来可通过 "get_knowledge"检索复用。如果本轮无需保存的知识，则为空。格式要求：简洁明确，每条知识一行，用换行分隔。</knowledge>
 <get_knowledge>下一轮执行时需要从知识库搜索获得的知识，填写检索关键词或描述。如context中已包含充足的knowledge内容，则为空。如需更多专业知识支撑，则填写相关搜索词。</get_knowledge>
 <askuser>需要询问用户的内容，如无，则为空</askuser>

package/core/stt.py CHANGED Viewed

@@ -37,12 +37,21 @@ def _convert_to_wav(audio_data: bytes, audio_format: Optional[str] = None) -> by
         from pydub import AudioSegment
         audio_buf = io.BytesIO(audio_data)
         seg = AudioSegment.from_file(audio_buf, format=audio_format or "webm")
+        # [v1.23.2] 检查音频时长，过短直接返回原始数据
+        if seg.duration_seconds < 0.1:
+            logger.debug(f"音频过短 ({seg.duration_seconds:.2f}s)，跳过转换")
+            return audio_data
         seg = seg.set_channels(1).set_frame_rate(16000).set_sample_width(2)
         wav_buf = io.BytesIO()
         seg.export(wav_buf, format="wav")
         wav_buf.seek(0)
         return wav_buf.read()
-    except Exception:
+    except Exception as e:
+        import shutil
+        if not shutil.which("ffmpeg"):
+            logger.warning(f"pydub 转换失败且缺少 ffmpeg: {e}")
+        else:
+            logger.warning(f"pydub 音频转换失败: {e}")
         return audio_data
@@ -68,10 +77,15 @@ async def _stt_sensevoice(audio_data: bytes, audio_format: Optional[str] = None)
             )
             logger.info("SenseVoice 模型已加载 (iic/SenseVoiceSmall, CPU)")
-        # 转换为 16kHz WAV
+        # [v1.23.2] 增强: pydub 转换失败记录警告、WAV 头验证、音频长度检查
         wav_data = _convert_to_wav(audio_data, audio_format)
         wav_path = f"/tmp/myagent_stt_{id(audio_data) % 100000}.wav"
         try:
+            # 验证 WAV 文件头 (RIFF....WAVE)
+            if len(wav_data) < 44 or wav_data[:4] != b'RIFF' or wav_data[8:12] != b'WAVE':
+                logger.warning(f"SenseVoice 跳过: 无效 WAV 数据 (size={len(wav_data)}, header={wav_data[:12].hex()})")
+                return None
             with open(wav_path, 'wb') as f:
                 f.write(wav_data)

package/core/tool_dispatcher.py CHANGED Viewed

@@ -108,23 +108,27 @@ class ToolDispatcher:
         Returns:
             {"success": bool, "output": str, "error": str, ...}
         """
-        # ── 内置平台工具 ──
+        # ── 内置平台工具 (LLM 直接调用) ──
         if tool_name == "command":
-            return await self._exec_command(params, timeout, task_id)
-        elif tool_name == "recall_memory":
-            return await self._exec_recall_memory(params, task_id)
-        elif tool_name == "file_send":
-            return await self._exec_file_send(params, task_id, stream_callback, sent_files)
-        elif tool_name in ("playaudio", "playvideo"):
-            return await self._exec_media(tool_name, params, task_id, stream_callback, sent_files)
+            return await self._exec_command(params, timeout, task_id, stream_callback, sent_files)
         elif tool_name == "web_control":
             return await self._exec_web_control(params, task_id, stream_callback)
-        elif tool_name == "image_ocr":
-            return await self._exec_image_ocr(params, task_id)
-        elif tool_name == "image_analyze":
-            return await self._exec_image_analyze(params, task_id)
-        elif tool_name == "audio_transcribe":
-            return await self._exec_audio_transcribe(params, task_id)
+        # ── [v1.23.0] 已迁移为内部服务/CLI 子命令的工具 ──
+        elif tool_name == "recall_memory":
+            return {"success": False, "error": "'recall_memory' 已迁移，请通过 <recall> 标签或 CLI 调用: command {\"command\": \"myagent-ai memory --keyword xxx\"}"}
+        elif tool_name in ("playaudio", "playvideo"):
+            return {"success": False, "error": f"'{tool_name}' 已迁移为 CLI 命令，请使用: command {{\"command\": \"myagent-ai {tool_name} --url URL --title 标题\"}}"}
+        # ── [v1.23.0] 已迁移为 CLI 子命令的工具 — 提示使用 command 调用 ──
+        elif tool_name in ("image_ocr", "ocr"):
+            return {"success": False, "error": f"'{tool_name}' 已迁移为 CLI 命令，请使用: command {{\"command\": \"myagent-ai ocr <image_path> [ch|en]\"}}"}
+        elif tool_name in ("image_analyze", "analyze_image"):
+            return {"success": False, "error": f"'{tool_name}' 已迁移为 CLI 命令，请使用: command {{\"command\": \"myagent-ai analyze-image <image_path>\"}}"}
+        elif tool_name in ("audio_transcribe", "transcribe"):
+            return {"success": False, "error": f"'{tool_name}' 已迁移为 CLI 命令，请使用: command {{\"command\": \"myagent-ai transcribe <audio_path>\"}}"}
+        elif tool_name == "file_send":
+            return {"success": False, "error": "'file_send' 已迁移为 CLI 命令，请使用: command {\"command\": \"myagent-ai send-file <path>\"}"}
         # ── 兜底: SkillRegistry ──
         if self.skills:
@@ -156,7 +160,9 @@ class ToolDispatcher:
     # 内置工具实现
     # =========================================================================
-    async def _exec_command(self, params: Dict, timeout: int, task_id: str) -> Dict:
+    async def _exec_command(self, params: Dict, timeout: int, task_id: str,
+                              stream_callback: Optional[Callable] = None,
+                              sent_files: Optional[List[Dict[str, Any]]] = None) -> Dict:
         """执行 shell 命令"""
         code_text = params.get("command", "")
         if not code_text:
@@ -171,16 +177,15 @@ class ToolDispatcher:
         )
         result = exec_result.to_dict()
-        # [v1.22.0] 检测 __SEND_FILE__ 标记 — CLI send-file 命令输出此标记
-        # 格式: __SEND_FILE__绝对路径|描述__END__
         output = result.get("output", "")
         import re as _re
+        # [v1.23.0] 检测 __SEND_FILE__ 标记 — CLI send-file 命令输出此标记
+        # 格式: __SEND_FILE__绝对路径|描述__END__
         send_markers = _re.findall(r'__SEND_FILE__(.+?)\|(.+?)__END__', output)
         if send_markers:
-            # 从输出中移除标记行
             clean_output = _re.sub(r'__SEND_FILE__.+?__END__\n?', '', output).strip()
             result["output"] = clean_output
-            # 执行 file_send
             for send_path, send_desc in send_markers:
                 send_path = send_path.strip()
                 send_desc = send_desc.strip()
@@ -199,6 +204,34 @@ class ToolDispatcher:
                 except Exception as e:
                     logger.warning(f"[{task_id}] CLI 文件发送异常: {e}")
                     result["output"] += f"\n[文件发送异常: {e}]"
+        else:
+            clean_output = output
+        # [v1.23.0] 检测 __EMBED_AUDIO__ / __EMBED_VIDEO__ 标记 — CLI playaudio/playvideo 输出
+        # 格式: __EMBED_AUDIO__URL|标题__END__ 或 __EMBED_VIDEO__URL|标题__END__
+        audio_markers = _re.findall(r'__EMBED_AUDIO__(.+?)\|(.+?)__END__', clean_output)
+        video_markers = _re.findall(r'__EMBED_VIDEO__(.+?)\|(.+?)__END__', clean_output)
+        if audio_markers:
+            clean_output = _re.sub(r'__EMBED_AUDIO__.+?__END__\n?', '', clean_output).strip()
+            result["output"] = clean_output
+            for media_url, media_title in audio_markers:
+                media_result = await self._exec_media(
+                    "playaudio", {"url": media_url.strip(), "title": media_title.strip()},
+                    task_id, stream_callback, sent_files,
+                )
+                if not media_result.get("success"):
+                    result["output"] += f"\n[音频播放失败: {media_result.get('error', '')}]"
+        if video_markers:
+            clean_output = result.get("output", "")
+            clean_output = _re.sub(r'__EMBED_VIDEO__.+?__END__\n?', '', clean_output).strip()
+            result["output"] = clean_output
+            for media_url, media_title in video_markers:
+                media_result = await self._exec_media(
+                    "playvideo", {"url": media_url.strip(), "title": media_title.strip()},
+                    task_id, stream_callback, sent_files,
+                )
+                if not media_result.get("success"):
+                    result["output"] += f"\n[视频播放失败: {media_result.get('error', '')}]"
         return result

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "myagent-ai",
-  "version": "1.23.1",
+  "version": "1.23.3",
   "description": "本地桌面端执行型AI助手 - Open Interpreter 风格 | Local Desktop Execution-Oriented AI Assistant",
   "main": "main.py",
   "bin": {