PyPI - edge-gemma-speak - Versions diffs - 0.1.0__tar.gz → 0.1.1__tar.gz - Mend

edge-gemma-speak 0.1.0tar.gz → 0.1.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

{edge_gemma_speak-0.1.0/edge_gemma_speak.egg-info → edge_gemma_speak-0.1.1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: edge_gemma_speak
-Version: 0.1.0
+Version: 0.1.1
 Summary: Edge-based voice assistant using Gemma LLM with STT and TTS capabilities
 Home-page: https://github.com/yourusername/edge_gemma_speak
 Author: MimicLab, Sogang University
@@ -34,6 +34,9 @@ Dynamic: license-file
 Dynamic: requires-python
 # 🎙️ Edge Gemma Speak
+[![PyPI Status](https://badge.fury.io/py/edge-gemma-speak.svg)](https://badge.fury.io/py/edge-gemma-speak)
+[![license](https://img.shields.io/badge/License-MIT-blue.svg)](https://github.com/MIMICLab/EdgeGemmaSpeak/blob/main/LICENSE)
+[![Downloads](https://pepy.tech/badge/edge-gemma-speak)](https://pepy.tech/project/edge-gemma-speak)
 Edge-based voice assistant using Gemma LLM with Speech-to-Text and Text-to-Speech capabilities
@@ -122,6 +125,12 @@ edge-gemma-speak --stt-beam-size 10
 # Adjust VAD sensitivity (default: 0.5)
 edge-gemma-speak --stt-vad-threshold 0.3
+# Adjust minimum speech duration in ms (default: 250)
+edge-gemma-speak --stt-vad-min-speech-duration 200
+# Adjust minimum silence duration in ms (default: 1000)
+edge-gemma-speak --stt-vad-min-silence-duration 800
 # Change Whisper model size (tiny, base, small, medium, large)
 edge-gemma-speak --stt-model small
 ```
@@ -296,6 +305,7 @@ For large LLM models:
 - Check microphone permissions in system settings
 - Close other audio applications
 - Adjust VAD threshold: `--stt-vad-threshold 0.3`
+- Reduce silence duration for faster response: `--stt-vad-min-silence-duration 500`
 ### Model File Not Found

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1}/README.md RENAMED Viewed

@@ -1,4 +1,7 @@
 # 🎙️ Edge Gemma Speak
+[![PyPI Status](https://badge.fury.io/py/edge-gemma-speak.svg)](https://badge.fury.io/py/edge-gemma-speak)
+[![license](https://img.shields.io/badge/License-MIT-blue.svg)](https://github.com/MIMICLab/EdgeGemmaSpeak/blob/main/LICENSE)
+[![Downloads](https://pepy.tech/badge/edge-gemma-speak)](https://pepy.tech/project/edge-gemma-speak)
 Edge-based voice assistant using Gemma LLM with Speech-to-Text and Text-to-Speech capabilities
@@ -87,6 +90,12 @@ edge-gemma-speak --stt-beam-size 10
 # Adjust VAD sensitivity (default: 0.5)
 edge-gemma-speak --stt-vad-threshold 0.3
+# Adjust minimum speech duration in ms (default: 250)
+edge-gemma-speak --stt-vad-min-speech-duration 200
+# Adjust minimum silence duration in ms (default: 1000)
+edge-gemma-speak --stt-vad-min-silence-duration 800
 # Change Whisper model size (tiny, base, small, medium, large)
 edge-gemma-speak --stt-model small
 ```
@@ -261,6 +270,7 @@ For large LLM models:
 - Check microphone permissions in system settings
 - Close other audio applications
 - Adjust VAD threshold: `--stt-vad-threshold 0.3`
+- Reduce silence duration for faster response: `--stt-vad-min-silence-duration 500`
 ### Model File Not Found

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1}/edge_gemma_speak/__init__.py RENAMED Viewed

@@ -12,7 +12,7 @@ from .voice_assistant import (
     main
 )
-__version__ = "0.1.0"
+__version__ = "0.1.1"
 __author__ = "MimicLab, Sogang University"
 __all__ = [

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1}/edge_gemma_speak/cli.py RENAMED Viewed

@@ -107,6 +107,10 @@ def main():
                        help="STT temperature for sampling (default: 0.0)")
     parser.add_argument("--stt-vad-threshold", type=float, default=0.5,
                        help="STT VAD threshold (default: 0.5)")
+    parser.add_argument("--stt-vad-min-speech-duration", type=int, default=250,
+                       help="Minimum speech duration in ms (default: 250)")
+    parser.add_argument("--stt-vad-min-silence-duration", type=int, default=1000,
+                       help="Minimum silence duration in ms before cutting off (default: 1000)")
     # LLM 파라미터
     parser.add_argument("--llm-max-tokens", type=int, default=512,
@@ -268,6 +272,8 @@ def main():
         stt_beam_size=args.stt_beam_size,
         stt_temperature=args.stt_temperature,
         stt_vad_threshold=args.stt_vad_threshold,
+        stt_vad_min_speech_duration_ms=args.stt_vad_min_speech_duration,
+        stt_vad_min_silence_duration_ms=args.stt_vad_min_silence_duration,
         # TTS parameters
         tts_voice=tts_voice,
         # LLM parameters

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1}/edge_gemma_speak/voice_assistant.py RENAMED Viewed

@@ -72,7 +72,7 @@ class ModelConfig:
     stt_temperature: float = 0.0
     stt_vad_threshold: float = 0.5
     stt_vad_min_speech_duration_ms: int = 250
-    stt_vad_min_silence_duration_ms: int = 2000
+    stt_vad_min_silence_duration_ms: int = 1000  # Reduced from 2000ms for faster response
     # TTS detailed settings
     tts_voice: str = "ko-KR-HyunsuMultilingualNeural"

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1/edge_gemma_speak.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: edge_gemma_speak
-Version: 0.1.0
+Version: 0.1.1
 Summary: Edge-based voice assistant using Gemma LLM with STT and TTS capabilities
 Home-page: https://github.com/yourusername/edge_gemma_speak
 Author: MimicLab, Sogang University
@@ -34,6 +34,9 @@ Dynamic: license-file
 Dynamic: requires-python
 # 🎙️ Edge Gemma Speak
+[![PyPI Status](https://badge.fury.io/py/edge-gemma-speak.svg)](https://badge.fury.io/py/edge-gemma-speak)
+[![license](https://img.shields.io/badge/License-MIT-blue.svg)](https://github.com/MIMICLab/EdgeGemmaSpeak/blob/main/LICENSE)
+[![Downloads](https://pepy.tech/badge/edge-gemma-speak)](https://pepy.tech/project/edge-gemma-speak)
 Edge-based voice assistant using Gemma LLM with Speech-to-Text and Text-to-Speech capabilities
@@ -122,6 +125,12 @@ edge-gemma-speak --stt-beam-size 10
 # Adjust VAD sensitivity (default: 0.5)
 edge-gemma-speak --stt-vad-threshold 0.3
+# Adjust minimum speech duration in ms (default: 250)
+edge-gemma-speak --stt-vad-min-speech-duration 200
+# Adjust minimum silence duration in ms (default: 1000)
+edge-gemma-speak --stt-vad-min-silence-duration 800
 # Change Whisper model size (tiny, base, small, medium, large)
 edge-gemma-speak --stt-model small
 ```
@@ -296,6 +305,7 @@ For large LLM models:
 - Check microphone permissions in system settings
 - Close other audio applications
 - Adjust VAD threshold: `--stt-vad-threshold 0.3`
+- Reduce silence duration for faster response: `--stt-vad-min-silence-duration 500`
 ### Model File Not Found

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "edge_gemma_speak"
-version = "0.1.0"
+version = "0.1.1"
 description = "Edge-based voice assistant using Gemma LLM with STT and TTS capabilities"
 readme = "README.md"
 requires-python = ">=3.8"

{edge_gemma_speak-0.1.0 → edge_gemma_speak-0.1.1}/setup.py RENAMED Viewed

@@ -5,7 +5,7 @@ with open("README.md", "r", encoding="utf-8") as fh:
 setup(
     name="edge_gemma_speak",
-    version="0.1.0",
+    version="0.1.1",
     author="MimicLab, Sogang University",
     author_email="",
     description="Edge-based voice assistant using Gemma LLM with STT and TTS capabilities",