PyPI - dora-vad - Versions diffs - 0.3.10rc0__py3-none-any.whl → 0.3.11__py3-none-any.whl - Mend

dora-vad 0.3.10rc0py3-none-any.whl → 0.3.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

dora_vad/__init__.py CHANGED Viewed

@@ -1,3 +1,5 @@
+"""TODO: Add docstring."""
 import os
 # Define the path to the README file relative to the package directory

dora_vad/main.py CHANGED Viewed

@@ -1,3 +1,5 @@
+"""TODO: Add docstring."""
 import os
 import numpy as np
@@ -7,14 +9,15 @@ from dora import Node
 from silero_vad import get_speech_timestamps, load_silero_vad
 model = load_silero_vad()
-MIN_SILENCE_DURATION_MS = int(os.getenv("MIN_SILENCE_DURATION_MS", "100"))
+MIN_SILENCE_DURATION_MS = int(os.getenv("MIN_SILENCE_DURATION_MS", "200"))
 MIN_SPEECH_DURATION_MS = int(os.getenv("MIN_SPEECH_DURATION_MS", "300"))
-MIN_AUDIO_SAMPLING_DURAION_S = int(os.getenv("MAX_AUDIO_DURATION_S", "20"))
-MAX_AUDIO_DURAION_S = int(os.getenv("MAX_AUDIO_DURATION_S", "75"))
+THRESHOLD = float(os.getenv("THRESHOLD", "0.4"))
+MAX_AUDIO_DURATION_S = float(os.getenv("MAX_AUDIO_DURATION_S", "75"))
+MIN_AUDIO_SAMPLING_DURATION_MS = int(os.getenv("MIN_AUDIO_SAMPLING_DURATION_MS", "500"))
 def main():
+    """TODO: Add docstring."""
     node = Node()
     last_audios = []
     while True:
@@ -26,10 +29,11 @@ def main():
             last_audios += [audio]
             last_audios = last_audios[-100:]
             audio = np.concatenate(last_audios)
+            sr = event["metadata"].get("sample_rate", 16000)
             speech_timestamps = get_speech_timestamps(
                 torch.from_numpy(audio),
                 model,
-                threshold=0.2,
+                threshold=THRESHOLD,
                 min_speech_duration_ms=MIN_SPEECH_DURATION_MS,
                 min_silence_duration_ms=MIN_SILENCE_DURATION_MS,
             )
@@ -37,16 +41,20 @@ def main():
             # Check ig there is timestamp
             if (
                 len(speech_timestamps) > 0
-                and len(last_audios) > MIN_AUDIO_SAMPLING_DURAION_S
+                and len(audio) > MIN_AUDIO_SAMPLING_DURATION_MS * sr / 1000
             ):
                 # Check if the audio is not cut at the end. And only return if there is a long time spent
                 if speech_timestamps[-1]["end"] == len(audio):
+                    node.send_output(
+                        "timestamp_start",
+                        pa.array([speech_timestamps[-1]["start"]]),
+                    )
                     continue
                 audio = audio[0 : speech_timestamps[-1]["end"]]
-                node.send_output("audio", pa.array(audio))
+                node.send_output("audio", pa.array(audio), metadata={"sample_rate": sr})
                 last_audios = [audio[speech_timestamps[-1]["end"] :]]
             # If there is no sound for too long return the audio
-            elif len(last_audios) > 75:
-                node.send_output("audio", pa.array(audio))
+            elif len(last_audios) > MAX_AUDIO_DURATION_S:
+                node.send_output("audio", pa.array(audio), metadata={"sample_rate": sr})
                 last_audios = []

{dora_vad-0.3.10rc0.dist-info → dora_vad-0.3.11.dist-info}/METADATA RENAMED Viewed

@@ -1,12 +1,12 @@
-Metadata-Version: 2.2
+Metadata-Version: 2.4
 Name: dora-vad
-Version: 0.3.10rc0
+Version: 0.3.11
 Summary: Dora Node for Text translating using Argostranslate
 Author-email: Haixuan Xavier Tao <tao.xavier@outlook.com>
 License: MIT
 Requires-Python: >=3.8
 Description-Content-Type: text/markdown
-Requires-Dist: dora-rs>=0.3.6
+Requires-Dist: dora-rs>=0.3.9
 Requires-Dist: numpy<2.0.0
 Requires-Dist: silero-vad>=5.1

dora_vad-0.3.11.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,7 @@
+dora_vad/__init__.py,sha256=tF7WHhHiDweUUzyHsbmFe_ktphE08aA5j33E4ja1udA,381
+dora_vad/main.py,sha256=LVtwdNkQH6j9SUn0LsQ3N3oWf4XnxR4zTEzIH7BdVFY,2360
+dora_vad-0.3.11.dist-info/METADATA,sha256=OOGdc9k4RtOlhJqRe4pDV2Dlvv4eByagSyrytJMftPU,1461
+dora_vad-0.3.11.dist-info/WHEEL,sha256=CmyFI0kx5cdEMTLiONQRbGQwjIoR1aIYB7eCAQ4KPJ0,91
+dora_vad-0.3.11.dist-info/entry_points.txt,sha256=X82-C0mpNH9bVjwn24mzfoWX5ssrK6W1Ylk1HPDR0ME,48
+dora_vad-0.3.11.dist-info/top_level.txt,sha256=1EUgMajnck6tHR4mFagv_uv-t2A6Cabd2wYtEldKm2Q,9
+dora_vad-0.3.11.dist-info/RECORD,,

{dora_vad-0.3.10rc0.dist-info → dora_vad-0.3.11.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (75.8.0)
+Generator: setuptools (78.1.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

dora_vad-0.3.10rc0.dist-info/RECORD DELETED Viewed

@@ -1,7 +0,0 @@
-dora_vad/__init__.py,sha256=HuSK3dnyI9Pb5QAuaKFwQQ3J5SIZnLcKHPJO0norGzc,353
-dora_vad/main.py,sha256=HfdT87XdtlZfoNRfKbWKl-ylVNFoq9t8acfrzB6n3wE,1913
-dora_vad-0.3.10rc0.dist-info/METADATA,sha256=vd9g9MJob-CnGjULIw4r1xwRDZrMjYScFpt-cKzFIq8,1464
-dora_vad-0.3.10rc0.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
-dora_vad-0.3.10rc0.dist-info/entry_points.txt,sha256=X82-C0mpNH9bVjwn24mzfoWX5ssrK6W1Ylk1HPDR0ME,48
-dora_vad-0.3.10rc0.dist-info/top_level.txt,sha256=1EUgMajnck6tHR4mFagv_uv-t2A6Cabd2wYtEldKm2Q,9
-dora_vad-0.3.10rc0.dist-info/RECORD,,

{dora_vad-0.3.10rc0.dist-info → dora_vad-0.3.11.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{dora_vad-0.3.10rc0.dist-info → dora_vad-0.3.11.dist-info}/top_level.txt RENAMED Viewed

File without changes

dora-vad 0.3.10rc0__py3-none-any.whl → 0.3.11__py3-none-any.whl

dora-vad 0.3.10rc0py3-none-any.whl → 0.3.11py3-none-any.whl