PyPI - pysilero-vad - Versions diffs - 1.0.0__py3-none-any.whl → 2.0.1__py3-none-any.whl - Mend

pysilero-vad 1.0.0py3-none-any.whl → 2.0.1py3-none-any.whl

Files changed (9) hide show

pysilero_vad/__init__.py CHANGED Viewed

@@ -1,18 +1,25 @@
 import logging
 from pathlib import Path
-from typing import Final, Union
+from typing import Final, Iterable, Union
 import numpy as np
 import onnxruntime
-_RATE: Final = 16000
+_RATE: Final = 16000  # Khz
 _MAX_WAV: Final = 32767
 _DIR = Path(__file__).parent
 _DEFAULT_ONNX_PATH = _DIR / "models" / "silero_vad.onnx"
+_CONTEXT_SIZE: Final = 64  # 16Khz
+_CHUNK_SAMPLES: Final = 512
+_CHUNK_BYTES: Final = _CHUNK_SAMPLES * 2  # 16-bit
 _LOGGER = logging.getLogger()
+class InvalidChunkSizeError(Exception):
+    """Error raised when chunk size is not correct."""
 class SileroVoiceActivityDetector:
     """Detects speech/silence using Silero VAD.
@@ -30,31 +37,71 @@ class SileroVoiceActivityDetector:
             onnx_path, providers=["CPUExecutionProvider"], sess_options=opts
         )
-        self._h = np.zeros((2, 1, 64)).astype("float32")
-        self._c = np.zeros((2, 1, 64)).astype("float32")
+        self._context = np.zeros((1, _CONTEXT_SIZE), dtype=np.float32)
+        self._state = np.zeros((2, 1, 128), dtype=np.float32)
+        self._sr = np.array(_RATE, dtype=np.int64)
+    @staticmethod
+    def chunk_samples() -> int:
+        """Return number of samples required for an audio chunk."""
+        return _CHUNK_SAMPLES
+    @staticmethod
+    def chunk_bytes() -> int:
+        """Return number of bytes required for an audio chunk."""
+        return _CHUNK_BYTES
     def reset(self) -> None:
         """Reset state."""
-        self._h = np.zeros((2, 1, 64)).astype("float32")
-        self._c = np.zeros((2, 1, 64)).astype("float32")
+        self._state = np.zeros((2, 1, 128)).astype("float32")
     def __call__(self, audio: bytes) -> float:
-        """Return probability of speech in audio [0-1].
+        """Return probability of speech [0-1] in a single audio chunk.
-        Audio must be 16Khz 16-bit mono PCM.
+        Audio *must* be 512 samples of 16Khz 16-bit mono PCM.
+        """
+        return self.process_chunk(audio)
+    def process_chunk(self, audio: bytes) -> float:
+        """Return probability of speech [0-1] in a single audio chunk.
+        Audio *must* be 512 samples of 16Khz 16-bit mono PCM.
         """
+        if len(audio) != _CHUNK_BYTES:
+            # Window size is fixed at 512 samples in v5
+            raise InvalidChunkSizeError
         audio_array = np.frombuffer(audio, dtype=np.int16).astype(np.float32) / _MAX_WAV
-        # Add batch dimension
-        audio_array = np.expand_dims(audio_array, 0)
+        # Add batch dimension and context
+        audio_array = np.concatenate(
+            (self._context, audio_array[np.newaxis, :]), axis=1
+        )
+        self._context = audio_array[:, -_CONTEXT_SIZE:]
+        # ort_inputs = {"input": audio_array, "state": self._state, "sr": self._sr}
         ort_inputs = {
-            "input": audio_array,
-            "h": self._h,
-            "c": self._c,
-            "sr": np.array(_RATE, dtype=np.int64),
+            "input": audio_array[:, : _CHUNK_SAMPLES + _CONTEXT_SIZE],
+            "state": self._state,
+            "sr": self._sr,
         }
         ort_outs = self.session.run(None, ort_inputs)
-        out, self._h, self._c = ort_outs
+        out, self._state = ort_outs
         return out.squeeze()
+    def process_chunks(self, audio: bytes) -> Iterable[float]:
+        """Return probability of speech in audio [0-1] for each chunk of audio.
+        Audio must be 16Khz 16-bit mono PCM.
+        """
+        if len(audio) < _CHUNK_BYTES:
+            # Window size is fixed at 512 samples in v5
+            raise InvalidChunkSizeError
+        num_audio_bytes = len(audio)
+        audio_idx = 0
+        while (audio_idx + _CHUNK_BYTES) < num_audio_bytes:
+            yield self.process_chunk(audio[audio_idx : audio_idx + _CHUNK_BYTES])
+            audio_idx += _CHUNK_BYTES

pysilero_vad/models/silero_vad.onnx CHANGED Viewed

Binary file

{pysilero_vad-1.0.0.dist-info → pysilero_vad-2.0.1.dist-info}/METADATA RENAMED Viewed

@@ -1,25 +1,27 @@
-Metadata-Version: 2.1
-Name: pysilero-vad
-Version: 1.0.0
+Metadata-Version: 2.2
+Name: pysilero_vad
+Version: 2.0.1
 Summary: Pre-packaged voice activity detector using silero-vad
-Home-page: http://github.com/rhasspy/pysilero-vad
-Author: Michael Hansen
-Author-email: mike@rhasspy.org
+Author-email: Michael Hansen <mike@rhasspy.org>
 License: MIT
-Keywords: voice activity vad
+Project-URL: Source Code, http://github.com/rhasspy/pysilero-vad
+Keywords: voice,activity,vad
+Platform: any
 Classifier: Development Status :: 3 - Alpha
 Classifier: Intended Audience :: Developers
-Classifier: Topic :: Multimedia :: Sound/Audio :: Speech
+Classifier: Topic :: Text Processing :: Linguistic
 Classifier: License :: OSI Approved :: MIT License
-Classifier: Programming Language :: Python :: 3.7
 Classifier: Programming Language :: Python :: 3.8
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Classifier: Programming Language :: Python :: 3.13
+Requires-Python: >=3.8.0
 Description-Content-Type: text/markdown
 License-File: LICENSE.md
-Requires-Dist: onnxruntime <2,>=1.10.0
-Requires-Dist: numpy <1.26
+Requires-Dist: onnxruntime<2,>=1.18.0
+Requires-Dist: numpy<2
 # pySilero VAD
@@ -34,7 +36,10 @@ from pysilero_vad import SileroVoiceActivityDetector
 vad = SileroVoiceActivityDetector()
-# Audio must be 16Khz, 16-bit mono PCM
+# Audio must be 16Khz, 16-bit mono PCM with correct chunk size
+# See also: vad.chunk_samples()
+assert len(audio_bytes) == vad.chunk_bytes()
 if vad(audio_bytes) >= 0.5:
     print("Speech")
 else:

pysilero_vad-2.0.1.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,9 @@
+pysilero_vad/__init__.py,sha256=_QtP_z0JjpOkSHMaqRFuSI9Bf0oL-k8IJE0hmZdZDLk,3433
+pysilero_vad/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+pysilero_vad/models/silero_vad.onnx,sha256=a5nL_Tkka2cG-Y7BPHxQxrKZGB8kdPoFy8gEaswnQ5Y,2313101
+pysilero_vad-2.0.1.dist-info/LICENSE.md,sha256=E3RtUJ105V6iJl--8gS7fNv4SoMVsCB-mIMmy1Q4cCg,1071
+pysilero_vad-2.0.1.dist-info/METADATA,sha256=l2Xc-Dw2iaRvnXJ0e9lb69cUGn4LJAamNx138UAQh_A,1410
+pysilero_vad-2.0.1.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
+pysilero_vad-2.0.1.dist-info/top_level.txt,sha256=QQlOVbq_uDMukkVxjBFRi8eOwSrzJDrbP8YY1MCeMIs,13
+pysilero_vad-2.0.1.dist-info/zip-safe,sha256=AbpHGcgLb-kRsJGnwFEktk7uzpZOCcBY74-YBdrKVGs,1
+pysilero_vad-2.0.1.dist-info/RECORD,,

{pysilero_vad-1.0.0.dist-info → pysilero_vad-2.0.1.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: bdist_wheel (0.42.0)
+Generator: setuptools (75.8.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

pysilero_vad-2.0.1.dist-info/zip-safe ADDED Viewed

	@@ -0,0 +1 @@
1	+

pysilero_vad-1.0.0.dist-info/RECORD DELETED Viewed

@@ -1,8 +0,0 @@
-pysilero_vad/__init__.py,sha256=k0kb-HkhJwqD_O5YsOAQhV0Zbk7gnAy5XRTy2iiLQXY,1708
-pysilero_vad/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-pysilero_vad/models/silero_vad.onnx,sha256=o16_Uv085fFGmyo2FY26dhvEe5c-ozgrMYbKFbH1ryg,1807522
-pysilero_vad-1.0.0.dist-info/LICENSE.md,sha256=E3RtUJ105V6iJl--8gS7fNv4SoMVsCB-mIMmy1Q4cCg,1071
-pysilero_vad-1.0.0.dist-info/METADATA,sha256=-0F8V6kxyed4OmFwVuJkSZ9lbvnvnmEny0INFxmnHbQ,1219
-pysilero_vad-1.0.0.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
-pysilero_vad-1.0.0.dist-info/top_level.txt,sha256=QQlOVbq_uDMukkVxjBFRi8eOwSrzJDrbP8YY1MCeMIs,13
-pysilero_vad-1.0.0.dist-info/RECORD,,

{pysilero_vad-1.0.0.dist-info → pysilero_vad-2.0.1.dist-info}/LICENSE.md RENAMED Viewed

File without changes

{pysilero_vad-1.0.0.dist-info → pysilero_vad-2.0.1.dist-info}/top_level.txt RENAMED Viewed

File without changes

pysilero-vad 1.0.0__py3-none-any.whl → 2.0.1__py3-none-any.whl

pysilero-vad 1.0.0py3-none-any.whl → 2.0.1py3-none-any.whl