npm - myagent-ai - Versions diffs - 1.19.9 → 1.20.0 - Mend

myagent-ai 1.19.9 → 1.20.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

package/core/deps_checker.py CHANGED Viewed

@@ -107,8 +107,7 @@ DEPENDENCIES: List[DepInfo] = [
             note="PyTorch 音频处理库 (SenseVoice 必需)"),
     DepInfo("funasr", "funasr", "1.1.0", "stt", "all",
             note="[v1.18.8] SenseVoice 中文语音识别（首选，阿里达摩院）"),
-    DepInfo("faster_whisper", "faster-whisper", "1.0.0", "stt", "all",
-            note="Whisper 本地语音识别引擎 (备选，需 C++ 编译)"),
     DepInfo("speech_recognition", "SpeechRecognition", "3.10.0", "stt", "all",
             note="在线语音识别 (Google API，纯 Python 无需编译，Termux 兼容)"),

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "myagent-ai",
-  "version": "1.19.9",
+  "version": "1.20.0",
   "description": "本地桌面端执行型AI助手 - Open Interpreter 风格 | Local Desktop Execution-Oriented AI Assistant",
   "main": "main.py",
   "bin": {

package/requirements-optional.txt CHANGED Viewed

@@ -6,5 +6,5 @@
 funasr>=1.1.0
 torch>=2.0.0
 torchaudio>=2.0.0
-faster-whisper>=1.0.0
 pydub>=0.25.1

package/setup.py CHANGED Viewed

@@ -41,7 +41,6 @@ setup(
         "funasr>=1.1.0",
         "torch>=2.0.0",
         "torchaudio>=2.0.0",
-        "faster-whisper>=1.0.0",
         # 浏览器自动化 (ChromeDev MCP, 无需 Playwright)
         # 桌面 GUI 自动化 (内置技能)
         "pynput>=1.7.6",
@@ -53,7 +52,7 @@ setup(
         "discord": ["discord.py>=2.3.0"],
         "anthropic": ["anthropic>=0.18.0"],
         "communication": ["cryptography>=41.0.0", "websockets>=12.0"],
-        "voice": ["funasr>=1.1.0", "torch>=2.0.0", "torchaudio>=2.0.0", "faster-whisper>=1.0.0"],
+        "voice": ["funasr>=1.1.0", "torch>=2.0.0", "torchaudio>=2.0.0"],
         "all": [
             "python-telegram-bot>=21.0",
             "discord.py>=2.3.0",
@@ -63,7 +62,6 @@ setup(
             "funasr>=1.1.0",
             "torch>=2.0.0",
             "torchaudio>=2.0.0",
-            "faster-whisper>=1.0.0",
         ],
     },
     entry_points={

package/web/api_server.py CHANGED Viewed

@@ -1549,11 +1549,10 @@ window.toggleFullscreen = function() {{
         接受音频文件（WAV/WEBM/OGG），使用本地 STT 引擎转录。
         支持的引擎（按优先级）：
-        1. [v1.18.7] SenseVoice（推荐，中文识别最佳，需：pip install funasr torch torchaudio）
-        2. faster-whisper（备选，需安装：pip install faster-whisper）
-        3. vosk（备选，需安装：pip install vosk）
-        4. LLM API Whisper 兼容端点
-        5. SpeechRecognition（Google，需外网）
+        1. SenseVoice（推荐，中文识别最佳，需：pip install funasr torch torchaudio）
+        2. vosk（备选，需安装：pip install vosk）
+        3. LLM API Whisper 兼容端点
+        4. SpeechRecognition（Google，需外网）
         """
         try:
             reader = await request.multipart()
@@ -1639,117 +1638,6 @@ window.toggleFullscreen = function() {{
             except Exception as e:
                 logger.warning(f"SenseVoice 转录失败: {e}")
-            # ── 尝试 faster-whisper ──
-            try:
-                whisper_model = self._whisper_model
-                if whisper_model is None:
-                    # 预加载未完成或未安装，尝试懒加载
-                    import warnings as _w
-                    _w.filterwarnings("ignore", message=".*HF_TOKEN.*", category=UserWarning)
-                    _w.filterwarnings("ignore", message=".*huggingface_hub.*token.*", category=UserWarning)
-                    _w.filterwarnings("ignore", message=".*ffmpeg or avconv.*", category=RuntimeWarning)
-                    os.environ.setdefault("HF_HUB_DISABLE_TELEMETRY", "1")
-                    os.environ.setdefault("HF_HUB_DISABLE_PROGRESS_BARS", "1")
-                    os.environ.setdefault("TRANSFORMERS_VERBOSITY", "error")
-                    from faster_whisper import WhisperModel
-                    model_dir = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), 'models', 'whisper')
-                    self._whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8",
-                                                       download_root=model_dir)
-                    whisper_model = self._whisper_model
-                    logger.info("faster-whisper tiny 模型已加载 (CPU int8)")
-                # faster-whisper 需要 16kHz WAV
-                # [v1.15.8] 使用 pydub+ffmpeg 正确转换 WebM/Opus/OGG 等格式
-                wav_buf = io.BytesIO()
-                try:
-                    from pydub import AudioSegment
-                    audio_buf = io.BytesIO(audio_data)
-                    seg = AudioSegment.from_file(audio_buf, format=audio_format or "webm")
-                    seg = seg.set_channels(1).set_frame_rate(16000).set_sample_width(2)
-                    seg.export(wav_buf, format="wav")
-                    wav_buf.seek(0)
-                except Exception as _pydub_err:
-                    # pydub 不可用时 fallback：仅处理已是 WAV 的情况
-                    import wave
-                    audio_buf = io.BytesIO(audio_data)
-                    try:
-                        with wave.open(audio_buf, 'rb') as rf:
-                            wav_buf = io.BytesIO()
-                            with wave.open(wav_buf, 'wb') as wf:
-                                wf.setnchannels(1)
-                                wf.setsampwidth(2)
-                                wf.setframerate(16000)
-                                frames = rf.readframes(rf.getnframes())
-                                wf.writeframes(frames)
-                            wav_buf.seek(0)
-                    except Exception:
-                        logger.warning(f"音频格式转换失败（pydub: {_pydub_err}）")
-                        return web.json_response({"error": "音频格式不支持，需要 WAV 或安装 pydub+ffmpeg"}, status=400)
-                wav_buf.seek(0)
-                segments, info = whisper_model.transcribe(wav_buf, beam_size=1,
-                                                          language="zh",
-                                                          initial_prompt="以下是普通话的句子",
-                                                          vad_filter=True, vad_parameters=dict(
-                                                              min_silence_duration_ms=300))
-                text = "".join(seg.text for seg in segments).strip()
-                if text:
-                    return web.json_response({"text": text, "engine": "faster-whisper"})
-            except ImportError:
-                logger.debug("faster-whisper 未安装，尝试自动安装...")
-                try:
-                    from core.deps_checker import ensure_skill_deps
-                    installed = ensure_skill_deps("stt")
-                    if installed:
-                        logger.info("faster-whisper 自动安装成功，重新尝试转录")
-                        from faster_whisper import WhisperModel
-                        import os
-                        model_dir = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), 'models', 'whisper')
-                        self._whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8",
-                                                           download_root=model_dir)
-                        whisper_model = self._whisper_model
-                        # 重新执行转录（跳过上面的 try 已完成的逻辑，直接进入转录流程）
-                        import io
-                        # [v1.15.8] 使用 pydub+ffmpeg 正确转换音频格式
-                        wav_buf = io.BytesIO()
-                        try:
-                            from pydub import AudioSegment
-                            audio_buf = io.BytesIO(audio_data)
-                            seg = AudioSegment.from_file(audio_buf, format=audio_format or "webm")
-                            seg = seg.set_channels(1).set_frame_rate(16000).set_sample_width(2)
-                            seg.export(wav_buf, format="wav")
-                            wav_buf.seek(0)
-                        except Exception as _pydub_err2:
-                            import wave
-                            audio_buf = io.BytesIO(audio_data)
-                            try:
-                                with wave.open(audio_buf, 'rb') as rf:
-                                    wav_buf = io.BytesIO()
-                                    with wave.open(wav_buf, 'wb') as wf:
-                                        wf.setnchannels(1)
-                                        wf.setsampwidth(2)
-                                        wf.setframerate(16000)
-                                        frames = rf.readframes(rf.getnframes())
-                                        wf.writeframes(frames)
-                                    wav_buf.seek(0)
-                            except Exception:
-                                logger.warning(f"音频格式转换失败（pydub: {_pydub_err2}）")
-                                return web.json_response({"error": "音频格式不支持"}, status=400)
-                        wav_buf.seek(0)
-                        segments, info = whisper_model.transcribe(wav_buf, beam_size=1,
-                                                                  language="zh",
-                                                                  initial_prompt="以下是普通话的句子",
-                                                                  vad_filter=True, vad_parameters=dict(
-                                                                      min_silence_duration_ms=300))
-                        text = "".join(seg.text for seg in segments).strip()
-                        if text:
-                            return web.json_response({"text": text, "engine": "faster-whisper"})
-                except Exception as inst_err:
-                    logger.warning(f"faster-whisper 自动安装/转录失败: {inst_err}")
-            except Exception as e:
-                logger.warning(f"faster-whisper 转录失败: {e}")
             # ── 尝试 vosk ──
             try:
                 import vosk
@@ -1872,9 +1760,8 @@ window.toggleFullscreen = function() {{
                 "error": "未检测到可用的 STT 引擎。请尝试以下方案：\n"
                          "  1. pip install funasr torch torchaudio  (SenseVoice，中文最佳，推荐)\n"
                          "  2. 配置支持 Whisper 的 LLM API（自动使用，无需安装）\n"
-                         "  3. pip install faster-whisper  (离线本地，需 C++ 编译环境)\n"
-                         "  4. pip install vosk             (离线本地，需下载模型)\n"
-                         "  5. pip install SpeechRecognition (需外网，国内不可用)",
+                         "  3. pip install vosk             (离线本地，需下载模型)\n"
+                         "  4. pip install SpeechRecognition (需外网，国内不可用)",
                 "available": False,
             }, status=503)
@@ -6772,8 +6659,8 @@ window.toggleFullscreen = function() {{
         except Exception:
             pass
-        # [v1.18.8] 后台预加载 STT 模型，避免首次语音识别时等待数秒
-        # 优先加载 SenseVoice（中文识别最佳），失败时回退到 faster-whisper
+        # 后台预加载 STT 模型，避免首次语音识别时等待数秒
+        # 仅加载 SenseVoice（中文识别最佳）
         try:
             import threading
             def _preload_stt():
@@ -6784,30 +6671,16 @@ window.toggleFullscreen = function() {{
                     os.environ.setdefault("HF_HUB_DISABLE_PROGRESS_BARS", "1")
                     os.environ.setdefault("TRANSFORMERS_VERBOSITY", "error")
-                    # 首选: SenseVoice (funasr)
                     try:
                         from funasr import AutoModel
                         model_dir = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), 'models', 'sensevoice')
                         self._sensevoice_model = AutoModel(model="iic/SenseVoiceSmall", model_dir=model_dir,
                                                              device="cpu", disable_pbar=True, disable_update=True)
-                        logger.info("STT SenseVoice 模型预加载完成 (首选引擎)")
-                        return  # 成功则不加载 whisper
-                    except ImportError:
-                        logger.debug("SenseVoice (funasr) 未安装，尝试 faster-whisper")
-                    except Exception as e:
-                        logger.debug(f"SenseVoice 预加载失败: {e}，尝试 faster-whisper")
-                    # 备选: faster-whisper
-                    try:
-                        from faster_whisper import WhisperModel
-                        model_dir = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), 'models', 'whisper')
-                        self._whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8",
-                                                           download_root=model_dir)
-                        logger.info("STT faster-whisper 模型预加载完成 (备选引擎)")
+                        logger.info("STT SenseVoice 模型预加载完成")
                     except ImportError:
-                        logger.debug("faster-whisper 未安装，跳过 STT 预加载")
+                        logger.debug("SenseVoice (funasr) 未安装，跳过 STT 预加载")
                     except Exception as e:
-                        logger.debug(f"STT 模型预加载失败（不影响使用）: {e}")
+                        logger.debug(f"SenseVoice 预加载失败（不影响使用）: {e}")
                 except Exception as e:
                     logger.debug(f"STT 预加载异常（不影响使用）: {e}")
             threading.Thread(target=_preload_stt, daemon=True).start()