PyPI - sonusai - Versions diffs - 0.17.2__py3-none-any.whl → 0.17.3__py3-none-any.whl - Mend

sonusai 0.17.2py3-none-any.whl → 0.17.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

sonusai/audiofe.py +3 -3
sonusai/calc_metric_spenh.py +7 -7
sonusai/mixture/mixdb.py +0 -1
sonusai/mixture/sox_augmentation.py +3 -0
sonusai/mkwav.py +4 -4
sonusai/onnx_predict.py +2 -2
sonusai/post_spenh_targetf.py +2 -2
sonusai/speech/{voxceleb2.py → voxceleb.py} +19 -3
sonusai/utils/__init__.py +1 -1
sonusai/utils/asr_functions/aaware_whisper.py +2 -2
sonusai/utils/{wave.py → write_audio.py} +2 -2
{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/METADATA +2 -1
{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/RECORD +15 -15
{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/WHEEL +0 -0
{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/entry_points.txt +0 -0

sonusai/audiofe.py CHANGED Viewed

@@ -86,7 +86,7 @@ def main() -> None:
     from sonusai.utils import create_timestamp
     from sonusai.utils import get_input_devices
     from sonusai.utils import load_ort_session
-    from sonusai.utils import write_wav
+    from sonusai.utils import write_audio
     ts = create_timestamp()
     capture_name = f'audiofe_capture_{ts}'
@@ -121,7 +121,7 @@ def main() -> None:
             logger.exception(e)
             return
         # Only write if capture from device, not for file input
-        write_wav(capture_wav, capture_audio, SAMPLE_RATE)
+        write_audio(capture_wav, capture_audio, SAMPLE_RATE)
         logger.info('')
         logger.info(f'Wrote capture audio with shape {capture_audio.shape} to {capture_wav}')
@@ -175,7 +175,7 @@ def main() -> None:
             logger.info(f'Wrote predict with shape {predict.shape} to {h5_name}')
         predict_audio = get_audio_from_feature(feature=predict, feature_mode=feature_mode)
-        write_wav(predict_wav, predict_audio, SAMPLE_RATE)
+        write_audio(predict_wav, predict_audio, SAMPLE_RATE)
         logger.info(f'Wrote predict audio with shape {predict_audio.shape} to {predict_wav}')
         if debug:
             with h5py.File(h5_name, 'a') as f:

sonusai/calc_metric_spenh.py CHANGED Viewed

@@ -718,7 +718,7 @@ def _process_mixture(mixid: int) -> tuple[pd.DataFrame, pd.DataFrame]:
     from sonusai.utils import reshape_outputs
     from sonusai.utils import stack_complex
     from sonusai.utils import unstack_complex
-    from sonusai.utils import write_wav
+    from sonusai.utils import write_audio
     mixdb = MP_GLOBAL.mixdb
     predict_location = MP_GLOBAL.predict_location
@@ -968,12 +968,12 @@ def _process_mixture(mixid: int) -> tuple[pd.DataFrame, pd.DataFrame]:
     # 7) write wav files
     if enable_wav:
-        write_wav(name=base_name + '_mixture.wav', audio=float_to_int16(mixture))
-        write_wav(name=base_name + '_target.wav', audio=float_to_int16(target))
-        # write_wav(name=base_name + '_target_fi.wav', audio=float_to_int16(target_fi))
-        write_wav(name=base_name + '_noise.wav', audio=float_to_int16(noise))
-        write_wav(name=base_name + '_target_est.wav', audio=float_to_int16(target_est_wav))
-        write_wav(name=base_name + '_noise_est.wav', audio=float_to_int16(noise_est_wav))
+        write_audio(name=base_name + '_mixture.wav', audio=float_to_int16(mixture))
+        write_audio(name=base_name + '_target.wav', audio=float_to_int16(target))
+        # write_audio(name=base_name + '_target_fi.wav', audio=float_to_int16(target_fi))
+        write_audio(name=base_name + '_noise.wav', audio=float_to_int16(noise))
+        write_audio(name=base_name + '_target_est.wav', audio=float_to_int16(target_est_wav))
+        write_audio(name=base_name + '_noise_est.wav', audio=float_to_int16(noise_est_wav))
         # debug code to test for perfect reconstruction of the extraction method
         # note both 75% olsa-hanns and 50% olsa-hann modes checked to have perfect reconstruction

sonusai/mixture/mixdb.py CHANGED Viewed

@@ -10,7 +10,6 @@ from typing import Optional
 from praatio import textgrid
 from praatio.utilities.constants import Interval
 from sonusai.mixture.datatypes import AudioF
 from sonusai.mixture.datatypes import AudioT
 from sonusai.mixture.datatypes import AudiosF

sonusai/mixture/sox_augmentation.py CHANGED Viewed

@@ -84,6 +84,7 @@ def apply_impulse_response(audio: AudioT, ir: ImpulseResponseData) -> AudioT:
     :return: Augmented audio
     """
     import math
+    from pathlib import Path
     import tempfile
     import numpy as np
@@ -124,7 +125,9 @@ def apply_impulse_response(audio: AudioT, ir: ImpulseResponseData) -> AudioT:
     except Exception as e:
         raise SonusAIError(f'Error applying IR: {e}')
+    path = Path(temp.name)
     temp.close()
+    path.unlink()
     # Reset level to previous max value
     tfm = Transformer()

sonusai/mkwav.py CHANGED Viewed

@@ -72,7 +72,7 @@ def _process_mixture(mixid: int) -> None:
     from sonusai.mixture import mixture_metadata
     from sonusai.utils import float_to_int16
-    from sonusai.utils import write_wav
+    from sonusai.utils import write_audio
     mixture_filename = join(MP_GLOBAL.mixdb.location, MP_GLOBAL.mixdb.mixtures[mixid].name)
     mixture_basename = splitext(mixture_filename)[0]
@@ -100,11 +100,11 @@ def _process_mixture(mixid: int) -> None:
             if MP_GLOBAL.write_noise:
                 noise = np.array(f['noise'])
-    write_wav(name=mixture_basename + '_mixture.wav', audio=float_to_int16(mixture))
+    write_audio(name=mixture_basename + '_mixture.wav', audio=float_to_int16(mixture))
     if MP_GLOBAL.write_target:
-        write_wav(name=mixture_basename + '_target.wav', audio=float_to_int16(target))
+        write_audio(name=mixture_basename + '_target.wav', audio=float_to_int16(target))
     if MP_GLOBAL.write_noise:
-        write_wav(name=mixture_basename + '_noise.wav', audio=float_to_int16(noise))
+        write_audio(name=mixture_basename + '_noise.wav', audio=float_to_int16(noise))
     with open(file=mixture_basename + '.txt', mode='w') as f:
         f.write(mixture_metadata(MP_GLOBAL.mixdb, MP_GLOBAL.mixdb.mixture(mixid)))

sonusai/onnx_predict.py CHANGED Viewed

@@ -100,7 +100,7 @@ def main() -> None:
     from sonusai.utils import create_ts_name
     from sonusai.utils import load_ort_session
     from sonusai.utils import reshape_inputs
-    from sonusai.utils import write_wav
+    from sonusai.utils import write_audio
     mixdb_path = None
     mixdb = None
@@ -201,7 +201,7 @@ def main() -> None:
                 predict = np.transpose(predict, [1, 0, 2])
                 predict_audio = get_audio_from_feature(feature=predict, feature_mode=feature_mode)
                 owav_name = splitext(output_fname)[0] + '_predict.wav'
-                write_wav(owav_name, predict_audio)
+                write_audio(owav_name, predict_audio)
 if __name__ == '__main__':

sonusai/post_spenh_targetf.py CHANGED Viewed

@@ -137,7 +137,7 @@ def _process(file: str) -> None:
     from sonusai.mixture import get_audio_from_transform
     from sonusai.utils import float_to_int16
     from sonusai.utils import unstack_complex
-    from sonusai.utils import write_wav
+    from sonusai.utils import write_audio
     try:
         with h5py.File(file, 'r') as f:
@@ -153,7 +153,7 @@ def _process(file: str) -> None:
                                                                          bin_end=MP_GLOBAL.bin_end,
                                                                          ttype=MP_GLOBAL.ttype,
                                                                          gain=np.float32(1)))
-    write_wav(name=output_name, audio=float_to_int16(audio))
+    write_audio(name=output_name, audio=float_to_int16(audio))
 if __name__ == '__main__':

sonusai/speech/{voxceleb2.py → voxceleb.py} RENAMED Viewed

@@ -16,14 +16,30 @@ def load_speakers(input_dir: Path) -> dict:
     import csv
     speakers = {}
+    # VoxCeleb1
+    first = True
+    with open(input_dir / 'vox1_meta.csv', newline='') as file:
+        data = csv.reader(file, delimiter='\t')
+        for row in data:
+            if first:
+                first = False
+            else:
+                speakers[row[0].strip()] = {'gender':   row[2].strip(),
+                                            'dialect':  row[3].strip(),
+                                            'category': row[4].strip()}
+    # VoxCeleb2
     first = True
-    with open(input_dir / 'vox2_meta_cleansed.csv', newline='') as file:
-        data = csv.reader(file)
+    with open(input_dir / 'vox2_meta.csv', newline='') as file:
+        data = csv.reader(file, delimiter='\t')
         for row in data:
             if first:
                 first = False
             else:
-                speakers[row[0].strip()] = {'gender': row[2].strip(), 'category': row[3].strip()}
+                speakers[row[1].strip()] = {'gender':   row[3].strip(),
+                                            'category': row[4].strip()}
     return speakers

sonusai/utils/__init__.py CHANGED Viewed

@@ -49,5 +49,5 @@ from .stacked_complex import stacked_complex_imag
 from .stacked_complex import stacked_complex_real
 from .stacked_complex import unstack_complex
 from .stratified_shuffle_split import stratified_shuffle_split_mixid
-from .wave import write_wav
+from .write_audio import write_audio
 from .yes_or_no import yes_or_no

sonusai/utils/asr_functions/aaware_whisper.py CHANGED Viewed

@@ -13,7 +13,7 @@ def aaware_whisper(data: ASRData) -> ASRResult:
     from sonusai import SonusAIError
     from sonusai.utils import ASRResult
     from sonusai.utils import float_to_int16
-    from sonusai.utils import write_wav
+    from sonusai.utils import write_audio
     url = getenv('AAWARE_WHISPER_URL')
     if url is None:
@@ -22,7 +22,7 @@ def aaware_whisper(data: ASRData) -> ASRResult:
     with tempfile.TemporaryDirectory() as tmp:
         file = join(tmp, 'asr.wav')
-        write_wav(name=file, audio=float_to_int16(data.audio))
+        write_audio(name=file, audio=float_to_int16(data.audio))
         files = {'audio_file': (file, open(file, 'rb'), 'audio/wav')}

sonusai/utils/{wave.py → write_audio.py} RENAMED Viewed

@@ -2,8 +2,8 @@ from sonusai.mixture.constants import SAMPLE_RATE
 from sonusai.mixture.datatypes import AudioT
-def write_wav(name: str, audio: AudioT, sample_rate: int = SAMPLE_RATE) -> None:
-    """ Write a simple, uncompressed WAV file.
+def write_audio(name: str, audio: AudioT, sample_rate: int = SAMPLE_RATE) -> None:
+    """ Write an audio file.
     To write multiple channels, use a 2D array of shape [channels, samples].
     The bits per sample and PCM/float are determined by the data type.

{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sonusai
-Version: 0.17.2
+Version: 0.17.3
 Summary: Framework for building deep neural network models for sound, speech, and voice AI
 Home-page: https://aaware.com
 License: GPL-3.0-only
@@ -21,6 +21,7 @@ Requires-Dist: h5py (>=3.11.0,<4.0.0)
 Requires-Dist: jiwer (>=3.0.3,<4.0.0)
 Requires-Dist: librosa (>=0.10.1,<0.11.0)
 Requires-Dist: matplotlib (>=3.8.0,<4.0.0)
+Requires-Dist: numpy (>=1.26.4,<2.0.0)
 Requires-Dist: onnx (>=1.14.1,<2.0.0)
 Requires-Dist: onnxruntime (>=1.16.1,<2.0.0)
 Requires-Dist: paho-mqtt (>=2.0.0,<3.0.0)

{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/RECORD RENAMED Viewed

@@ -1,7 +1,7 @@
 sonusai/__init__.py,sha256=vzTFfRB-NeO-Sm3puySDJOybk3ND_Oj6w0EejQPmH1U,2978
 sonusai/aawscd_probwrite.py,sha256=GukR5owp_0A3DrqSl9fHWULYgclNft4D5OkHIwfxxkc,3698
-sonusai/audiofe.py,sha256=AHXV7fQKumkwUSbOS-ZU6Cp1VF88DRtqt7foVbf-Nh8,11148
-sonusai/calc_metric_spenh.py,sha256=Xgy9EKbZRPAydjTZbpZjaqLBNkjQPjDmSbfL8PbVSgY,62157
+sonusai/audiofe.py,sha256=zOySiYs5ZZm60eMbA7RjhG6C0Ouhaii3WfL1d0Q8rxg,11154
+sonusai/calc_metric_spenh.py,sha256=0UvJibVjjoHTty3QFh0qzugXe-LvIj2XsMwoaIR44BM,62171
 sonusai/data/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 sonusai/data/genmixdb.yml,sha256=-XSs_hUR6wHJVoTPmSewzXL7u61X-xmHY46lNPatxSE,1025
 sonusai/data/speech_ma01_01.wav,sha256=PK0vMKg-NR6rPE3KouxHGF6PKXnJCr7AwjMqfu98LUA,76644
@@ -41,10 +41,10 @@ sonusai/mixture/generation.py,sha256=miUrc3QOSUNIG6mDkiMCZ6M2ulivUZxlYUAJUOVomWc
 sonusai/mixture/helpers.py,sha256=GSGSD2KnvOeEIB6IwNTxyaQNjghTSBMB729kUEd_RiM,22403
 sonusai/mixture/log_duration_and_sizes.py,sha256=baTUpqyM15wA125jo9E3posmVJUe3WlpksyO6v9Jul0,1347
 sonusai/mixture/mapped_snr_f.py,sha256=mlbYM1t14OXe_Zg4CjpWTuA_Zun4W0O3bSUXeodRBQs,1845
-sonusai/mixture/mixdb.py,sha256=PvLeEOLn2n0EfBRe7GuvUQfOmj3SKOrzjUimw2qRHP8,49792
+sonusai/mixture/mixdb.py,sha256=zfBaVOuMKHTDzmwR4hWRpGxFwnV_fJkwLDmn9M1SDds,49791
 sonusai/mixture/soundfile_audio.py,sha256=mHa5SIXsu_uE0j3DO52GydRJrvWSzU_nII-7YJfQ6Qo,4154
 sonusai/mixture/sox_audio.py,sha256=HT3kYA9TP5QPCuoOJdUMnGVN-qY6q96DGL8zxuog76o,12277
-sonusai/mixture/sox_augmentation.py,sha256=F9tBdNvX2guCn7gRppAFrxRnBtjw9q6qAq2_v_A4hh0,4490
+sonusai/mixture/sox_augmentation.py,sha256=kBWPrsFk0EBi71nLcKt5v0GA34bY7g9D9x0cEamNWbU,4564
 sonusai/mixture/speaker_metadata.py,sha256=l98avdxLYUsSDZ88xUjfvHnACkbnD0_Dg1aBGDbzS9I,1380
 sonusai/mixture/spectral_mask.py,sha256=8AkCwhy-PSdP1Uri9miKZP-bXFYnFcH_c9xZCGrHavU,2071
 sonusai/mixture/target_class_balancing.py,sha256=NTNiKZH0_PWLooeow0l41CjJKK8ZTMVbUqz9ZkaNtWk,4900
@@ -62,10 +62,10 @@ sonusai/mixture/truth_functions/phoneme.py,sha256=stYdlPuNytQK_LLT61OJLfYSqKd-sD
 sonusai/mixture/truth_functions/sed.py,sha256=8cHjEFjZaH_0hIOHhPmj4AJz2GpEADM6Ys2x4NoiWSY,2469
 sonusai/mixture/truth_functions/target.py,sha256=KAsjugDRooOA5BRcHVAbZRgV7l8S5CFg7CZ0XtKZaQ0,5764
 sonusai/mkmanifest.py,sha256=imI8swwPYVzumrUYEL-9JLvun-ez98PtlUBj2b729k8,8682
-sonusai/mkwav.py,sha256=kLfC2ZuF-t8P97nqYw2falTZpymxAeXv0YTJCe6nK10,5356
-sonusai/onnx_predict.py,sha256=ZhicNEbjxm34edIrUcmuvKkV3NRFQk4LBn1LUCFdPjg,8733
+sonusai/mkwav.py,sha256=zfSyIiQTIK3KV9Ij33jkLhhZIMVYqaROcRQ4S7c4sIo,5364
+sonusai/onnx_predict.py,sha256=jSxhD2oFyGSTHOGCXbW4fRT-k4SqKOboK2JaDO-yWcs,8737
 sonusai/plot.py,sha256=ERkmxMM3qjcCDm4LGDQY4fRAncCYAzP7uW8iZ7_brcg,17105
-sonusai/post_spenh_targetf.py,sha256=xOz5T6WZuyTHmfbtILIY9skgH064Wvi2GF2Bo5L3YMU,4998
+sonusai/post_spenh_targetf.py,sha256=pHaJZtms7aj4r6sgqQnEGVi6Gg8H_V29szigogV1vZ8,5002
 sonusai/queries/__init__.py,sha256=oKY5JeqZ4Cz7DwCwPc1_ydB8bUs6KaMcWFp_w02TjOs,255
 sonusai/queries/queries.py,sha256=oV-m9uiLZOwYTK-Wo7Gf8dpGisaoGf6uDsAJAarVqZI,7553
 sonusai/speech/__init__.py,sha256=SuPcU_K9wQISsZRIzsRNLtEC6cb616l-Jlx3PU-HWMs,113
@@ -76,14 +76,14 @@ sonusai/speech/textgrid.py,sha256=8hB6SdEEXxo6JXVFq8mJ1-ilRbBiRXhaHTQjA-HWg-0,33
 sonusai/speech/timit.py,sha256=1vWgj6isD3ATOjMJSTjOPLmDkYyB65M5MwYipEmLEvg,4081
 sonusai/speech/types.py,sha256=4eKVPAktpkIrZ2qoVp2iT45zxTVNocQEGT6O_Zlub_w,214
 sonusai/speech/vctk.py,sha256=EAMEBAzjZUI6dw15n-yI2oCN-H4tzM9t4aUVlOxpAbo,1540
-sonusai/speech/voxceleb2.py,sha256=-u0mtxFm4chFipLgMGZXR5EBDtYTCQoU1_j_wYTGwPY,2158
+sonusai/speech/voxceleb.py,sha256=aJGN0yDb2LFLmCKmRzmUEjpZWQ-QGWw6XWOpy9967AI,2686
 sonusai/summarize_metric_spenh.py,sha256=OiZe_bhCq5esXNhsOkHDD7g4ssYrpENDHvDVoPzV9iw,1822
 sonusai/tplot.py,sha256=85T6OPZfxVegHBiSuilFpdgCNMEE0VKAuciNy4rCY5Y,14544
-sonusai/utils/__init__.py,sha256=y2Xe72QMNk8LbbjdOUOHiR5eVg32fYrFhinWSuSHi-w,2248
+sonusai/utils/__init__.py,sha256=h7QrOyEBMUMoIBFKZpNwDG8Jg-1uw3bs-qflB3CXxhU,2257
 sonusai/utils/asl_p56.py,sha256=-bvQpd-jRQVURbkZJpRoyEAq6gTv9Rc3oFDbh5_lcjY,3861
 sonusai/utils/asr.py,sha256=6y6VYJizHpuQ3MgKbEQ4t2gofO-MW6Ez23oAd6d23IE,2920
 sonusai/utils/asr_functions/__init__.py,sha256=JyHK67s97bw7QzrlkboWhws4yNytdPatqzLJxfwx-yw,43
-sonusai/utils/asr_functions/aaware_whisper.py,sha256=LzO9CZV0wBWkjmCR2nSWN_AW9UJwriAsC1OYSlfVeT8,1981
+sonusai/utils/asr_functions/aaware_whisper.py,sha256=Ew3zb8OfbxEW7q1s-KA7D5eph4SjVSUAJgiLK-vVqhI,1985
 sonusai/utils/asr_manifest_functions/__init__.py,sha256=jfi9xC5c86F_aMSsI5Xj-pxWGxuQ7fwZ8Wdf4T7kDsA,343
 sonusai/utils/asr_manifest_functions/data.py,sha256=nO4oT3EQmydwn1pzc-ZM09yz4X2ic-LQuHzGEnJhKe8,32
 sonusai/utils/asr_manifest_functions/librispeech.py,sha256=_3tGc8qfAUpYJZ0_avpW0vGp7zjdpeqj1HAgXi3TL4Q,1612
@@ -118,10 +118,10 @@ sonusai/utils/reshape.py,sha256=E8Eu6grynaeWwVO6peIR0BF22SrVaJSa1Rkl109lq6Y,5997
 sonusai/utils/seconds_to_hms.py,sha256=oxLuZhTJJr9swj-fOSOrZJ5vBNM7_BrOMQhX1pYpiv0,260
 sonusai/utils/stacked_complex.py,sha256=feLhz3GC1ILxBGMHOj3sJK--sidsXKbfwkalwAVwizc,2950
 sonusai/utils/stratified_shuffle_split.py,sha256=rJNXvBp-GxoKzH3OpL7k0ANSu5xMP2zJ7K1fm_33UzE,7022
-sonusai/utils/wave.py,sha256=O4ZXkZ6wjrKGa99wBCdFd8G6bp91MXXDnmGihpaEMh0,856
+sonusai/utils/write_audio.py,sha256=ZsPGExwM86QHLLN2LOWekK2uAqf5pV_1oRW811p0QAI,840
 sonusai/utils/yes_or_no.py,sha256=eMLXBVH0cEahiXY4W2KNORmwNQ-ba10eRtldh0y4NYg,263
 sonusai/vars.py,sha256=m2AefF0m5bXWGXpJj8Pi42zWL2ydeEj7bkak3GrtMyM,940
-sonusai-0.17.2.dist-info/METADATA,sha256=eZmrmMohaVLBAz3v2lGdBcwGCjnszgDiKcAHI9i_2YE,2483
-sonusai-0.17.2.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
-sonusai-0.17.2.dist-info/entry_points.txt,sha256=zMNjEphEPO6B3cD1GNpit7z-yA9tUU5-j3W2v-UWstU,92
-sonusai-0.17.2.dist-info/RECORD,,
+sonusai-0.17.3.dist-info/METADATA,sha256=Zu3DK9fCT1xiipWOBY4JhUZJ3qm1cVRc5eLAXonDb2s,2522
+sonusai-0.17.3.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
+sonusai-0.17.3.dist-info/entry_points.txt,sha256=zMNjEphEPO6B3cD1GNpit7z-yA9tUU5-j3W2v-UWstU,92
+sonusai-0.17.3.dist-info/RECORD,,

{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/WHEEL RENAMED Viewed

File without changes

{sonusai-0.17.2.dist-info → sonusai-0.17.3.dist-info}/entry_points.txt RENAMED Viewed

File without changes

sonusai 0.17.2__py3-none-any.whl → 0.17.3__py3-none-any.whl

sonusai 0.17.2py3-none-any.whl → 0.17.3py3-none-any.whl