npm - myagent-ai - Versions diffs - 1.23.2 → 1.23.4 - Mend

myagent-ai 1.23.2 → 1.23.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/core/stt.py CHANGED Viewed

@@ -37,12 +37,21 @@ def _convert_to_wav(audio_data: bytes, audio_format: Optional[str] = None) -> by
         from pydub import AudioSegment
         audio_buf = io.BytesIO(audio_data)
         seg = AudioSegment.from_file(audio_buf, format=audio_format or "webm")
+        # [v1.23.2] 检查音频时长，过短直接返回原始数据
+        if seg.duration_seconds < 0.1:
+            logger.debug(f"音频过短 ({seg.duration_seconds:.2f}s)，跳过转换")
+            return audio_data
         seg = seg.set_channels(1).set_frame_rate(16000).set_sample_width(2)
         wav_buf = io.BytesIO()
         seg.export(wav_buf, format="wav")
         wav_buf.seek(0)
         return wav_buf.read()
-    except Exception:
+    except Exception as e:
+        import shutil
+        if not shutil.which("ffmpeg"):
+            logger.warning(f"pydub 转换失败且缺少 ffmpeg: {e}")
+        else:
+            logger.warning(f"pydub 音频转换失败: {e}")
         return audio_data
@@ -68,10 +77,15 @@ async def _stt_sensevoice(audio_data: bytes, audio_format: Optional[str] = None)
             )
             logger.info("SenseVoice 模型已加载 (iic/SenseVoiceSmall, CPU)")
-        # 转换为 16kHz WAV
+        # [v1.23.2] 增强: pydub 转换失败记录警告、WAV 头验证、音频长度检查
         wav_data = _convert_to_wav(audio_data, audio_format)
         wav_path = f"/tmp/myagent_stt_{id(audio_data) % 100000}.wav"
         try:
+            # 验证 WAV 文件头 (RIFF....WAVE)
+            if len(wav_data) < 44 or wav_data[:4] != b'RIFF' or wav_data[8:12] != b'WAVE':
+                logger.warning(f"SenseVoice 跳过: 无效 WAV 数据 (size={len(wav_data)}, header={wav_data[:12].hex()})")
+                return None
             with open(wav_path, 'wb') as f:
                 f.write(wav_data)

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "myagent-ai",
-  "version": "1.23.2",
+  "version": "1.23.4",
   "description": "本地桌面端执行型AI助手 - Open Interpreter 风格 | Local Desktop Execution-Oriented AI Assistant",
   "main": "main.py",
   "bin": {

package/scripts/cli.py CHANGED Viewed

@@ -402,8 +402,8 @@ async def cmd_docx_create(args):
     a = p.parse_args(args)
     content = _parse_json_arg(a.content)
-    from skills.docx_skill import DocxCreateSkill
-    skill = DocxCreateSkill()
+    from skills.docx_skill import DOCXCreateSkill
+    skill = DOCXCreateSkill()
     result = await skill.execute(content=content, title=a.title, output_path=a.output)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -418,8 +418,8 @@ async def cmd_docx_read(args):
     p.add_argument("path", help="Word 文件路径 (.docx)")
     a = p.parse_args(args)
-    from skills.docx_skill import DocxReadSkill
-    skill = DocxReadSkill()
+    from skills.docx_skill import DOCXReadSkill
+    skill = DOCXReadSkill()
     result = await skill.execute(path=a.path)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -435,8 +435,8 @@ async def cmd_xlsx_create(args):
     a = p.parse_args(args)
     sheets = _parse_json_arg(a.sheets)
-    from skills.xlsx_skill import XlsxCreateSkill
-    skill = XlsxCreateSkill()
+    from skills.xlsx_skill import XLSXCreateSkill
+    skill = XLSXCreateSkill()
     result = await skill.execute(sheets=sheets, title=a.title, output_path=a.output)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -452,8 +452,8 @@ async def cmd_xlsx_read(args):
     p.add_argument("--sheet", default="", help="工作表名称 (默认全部)")
     a = p.parse_args(args)
-    from skills.xlsx_skill import XlsxReadSkill
-    skill = XlsxReadSkill()
+    from skills.xlsx_skill import XLSXReadSkill
+    skill = XLSXReadSkill()
     result = await skill.execute(path=a.path, sheet_name=a.sheet)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -471,8 +471,8 @@ async def cmd_xlsx_edit(args):
     a = p.parse_args(args)
     data = _parse_json_arg(a.data)
-    from skills.xlsx_skill import XlsxEditSkill
-    skill = XlsxEditSkill()
+    from skills.xlsx_skill import XLSXEditSkill
+    skill = XLSXEditSkill()
     result = await skill.execute(path=a.path, action=a.action, data=data, sheet_name=a.sheet)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -488,8 +488,8 @@ async def cmd_ppt_create(args):
     a = p.parse_args(args)
     slides = _parse_json_arg(a.slides)
-    from skills.ppt_skill import PptCreateSkill
-    skill = PptCreateSkill()
+    from skills.ppt_skill import PPTCreateSkill
+    skill = PPTCreateSkill()
     result = await skill.execute(slides=slides, theme=a.theme, output_path=a.output)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -504,8 +504,8 @@ async def cmd_ppt_read(args):
     p.add_argument("path", help="PPT 文件路径 (.pptx)")
     a = p.parse_args(args)
-    from skills.ppt_skill import PptReadSkill
-    skill = PptReadSkill()
+    from skills.ppt_skill import PPTReadSkill
+    skill = PPTReadSkill()
     result = await skill.execute(path=a.path)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -521,8 +521,8 @@ async def cmd_pdf_create(args):
     a = p.parse_args(args)
     content = _parse_json_arg(a.content)
-    from skills.pdf_skill import PdfCreateSkill
-    skill = PdfCreateSkill()
+    from skills.pdf_skill import PDFCreateSkill
+    skill = PDFCreateSkill()
     result = await skill.execute(content=content, palette=a.palette, output_path=a.output)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})
@@ -539,8 +539,8 @@ async def cmd_pdf_read(args):
     p.add_argument("--end", type=int, default=0, help="结束页 (默认全部)")
     a = p.parse_args(args)
-    from skills.pdf_skill import PdfReadSkill
-    skill = PdfReadSkill()
+    from skills.pdf_skill import PDFReadSkill
+    skill = PDFReadSkill()
     result = await skill.execute(path=a.path, start_page=a.start, end_page=a.end)
     _print_result({"success": result.success, "message": result.message,
                    "data": result.data, "error": result.error})

package/web/api_server.py CHANGED Viewed

@@ -2497,36 +2497,57 @@ window.addEventListener('beforeunload', function() {{
                     logger.info("SenseVoice 模型已加载 (iic/SenseVoiceSmall, CPU)")
                 # SenseVoice 接受 16kHz WAV
+                # [v1.23.2] 增强: pydub 转换失败时记录警告、验证 WAV 头、检查音频长度
                 wav_path = f"/tmp/myagent_stt_{id(audio_data) % 100000}.wav"
                 wav_buf = io.BytesIO()
+                pydub_ok = False
                 try:
                     from pydub import AudioSegment
                     audio_buf = io.BytesIO(audio_data)
                     seg = AudioSegment.from_file(audio_buf, format=audio_format or "webm")
-                    seg = seg.set_channels(1).set_frame_rate(16000).set_sample_width(2)
-                    seg.export(wav_buf, format="wav")
-                except Exception:
+                    # 检查音频时长，过短直接跳过
+                    if seg.duration_seconds < 0.1:
+                        logger.debug(f"SenseVoice 跳过: 音频过短 ({seg.duration_seconds:.2f}s)")
+                    else:
+                        seg = seg.set_channels(1).set_frame_rate(16000).set_sample_width(2)
+                        seg.export(wav_buf, format="wav")
+                        pydub_ok = True
+                except Exception as conv_err:
+                    import shutil
+                    if not shutil.which("ffmpeg"):
+                        logger.warning(f"pydub 转换失败且缺少 ffmpeg: {conv_err}. 安装: sudo apt install ffmpeg")
+                    else:
+                        logger.warning(f"pydub 音频转换失败: {conv_err}")
+                if not pydub_ok:
                     wav_buf = io.BytesIO(audio_data)
                 wav_buf.seek(0)
-                with open(wav_path, 'wb') as f:
-                    f.write(wav_buf.read())
-                # SenseVoice 推理
-                res = sv_model.generate(input=wav_path, cache={},
-                                        language="auto",  # 自动检测语言
-                                        use_itn=True,     # 逆文本标准化（数字/日期等）
-                                        batch_size_s=300)
-                if res and len(res) > 0 and len(res[0]) > 0:
-                    text = res[0][0]["text"] if isinstance(res[0][0], dict) else str(res[0][0])
-                    # SenseVoice 可能输出带 <|zh|><|en|><|EMO|> 等特殊 token，清理掉
-                    import re
-                    text = re.sub(r'<\|[^|]+\|>', '', text).strip()
-                    if text:
-                        try:
-                            os.remove(wav_path)
-                        except Exception:
-                            pass
-                        return web.json_response({"text": text, "engine": "sensevoice"})
+                wav_bytes = wav_buf.read()
+                # 验证 WAV 文件头 (RIFF....WAVE)
+                if len(wav_bytes) < 44 or wav_bytes[:4] != b'RIFF' or wav_bytes[8:12] != b'WAVE':
+                    logger.warning(f"SenseVoice 跳过: 无效 WAV 数据 (size={len(wav_bytes)}, header={wav_bytes[:12].hex()})")
+                else:
+                    with open(wav_path, 'wb') as f:
+                        f.write(wav_bytes)
+                    # SenseVoice 推理
+                    res = sv_model.generate(input=wav_path, cache={},
+                                            language="auto",  # 自动检测语言
+                                            use_itn=True,     # 逆文本标准化（数字/日期等）
+                                            batch_size_s=300)
+                    if res and len(res) > 0 and len(res[0]) > 0:
+                        text = res[0][0]["text"] if isinstance(res[0][0], dict) else str(res[0][0])
+                        # SenseVoice 可能输出带 <|zh|><|en|><|EMO|> 等特殊 token，清理掉
+                        import re
+                        text = re.sub(r'<\|[^|]+\|>', '', text).strip()
+                        if text:
+                            try:
+                                os.remove(wav_path)
+                            except Exception:
+                                pass
+                            return web.json_response({"text": text, "engine": "sensevoice"})
                 try:
                     os.remove(wav_path)
                 except Exception: