PyPI - sonusai - Versions diffs - 0.18.8__py3-none-any.whl → 0.19.5__py3-none-any.whl - Mend

sonusai 0.18.8py3-none-any.whl → 0.19.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (118) hide show

sonusai/__init__.py +20 -29
sonusai/aawscd_probwrite.py +18 -18
sonusai/audiofe.py +93 -80
sonusai/calc_metric_spenh.py +395 -321
sonusai/data/genmixdb.yml +5 -11
sonusai/{gentcst.py → deprecated/gentcst.py} +146 -149
sonusai/{plot.py → deprecated/plot.py} +177 -131
sonusai/{tplot.py → deprecated/tplot.py} +124 -102
sonusai/doc/__init__.py +1 -1
sonusai/doc/doc.py +112 -177
sonusai/doc.py +10 -10
sonusai/genft.py +93 -77
sonusai/genmetrics.py +59 -46
sonusai/genmix.py +116 -104
sonusai/genmixdb.py +194 -153
sonusai/lsdb.py +56 -66
sonusai/main.py +23 -20
sonusai/metrics/__init__.py +2 -0
sonusai/metrics/calc_audio_stats.py +29 -24
sonusai/metrics/calc_class_weights.py +7 -7
sonusai/metrics/calc_optimal_thresholds.py +5 -7
sonusai/metrics/calc_pcm.py +3 -3
sonusai/metrics/calc_pesq.py +10 -7
sonusai/metrics/calc_phase_distance.py +3 -3
sonusai/metrics/calc_sa_sdr.py +10 -8
sonusai/metrics/calc_segsnr_f.py +15 -17
sonusai/metrics/calc_speech.py +105 -47
sonusai/metrics/calc_wer.py +35 -32
sonusai/metrics/calc_wsdr.py +10 -7
sonusai/metrics/class_summary.py +30 -27
sonusai/metrics/confusion_matrix_summary.py +25 -22
sonusai/metrics/one_hot.py +91 -57
sonusai/metrics/snr_summary.py +53 -46
sonusai/mixture/__init__.py +19 -14
sonusai/mixture/audio.py +4 -6
sonusai/mixture/augmentation.py +37 -43
sonusai/mixture/class_count.py +5 -14
sonusai/mixture/config.py +292 -225
sonusai/mixture/constants.py +41 -30
sonusai/mixture/data_io.py +155 -0
sonusai/mixture/datatypes.py +111 -108
sonusai/mixture/db_datatypes.py +54 -70
sonusai/mixture/eq_rule_is_valid.py +6 -9
sonusai/mixture/feature.py +50 -46
sonusai/mixture/generation.py +522 -389
sonusai/mixture/helpers.py +217 -272
sonusai/mixture/log_duration_and_sizes.py +16 -13
sonusai/mixture/mixdb.py +677 -473
sonusai/mixture/soundfile_audio.py +12 -17
sonusai/mixture/sox_audio.py +91 -112
sonusai/mixture/sox_augmentation.py +8 -9
sonusai/mixture/spectral_mask.py +4 -6
sonusai/mixture/target_class_balancing.py +41 -36
sonusai/mixture/targets.py +69 -67
sonusai/mixture/tokenized_shell_vars.py +23 -23
sonusai/mixture/torchaudio_audio.py +14 -15
sonusai/mixture/torchaudio_augmentation.py +23 -27
sonusai/mixture/truth.py +48 -26
sonusai/mixture/truth_functions/__init__.py +26 -0
sonusai/mixture/truth_functions/crm.py +56 -38
sonusai/mixture/truth_functions/datatypes.py +37 -0
sonusai/mixture/truth_functions/energy.py +85 -59
sonusai/mixture/truth_functions/file.py +30 -30
sonusai/mixture/truth_functions/phoneme.py +14 -7
sonusai/mixture/truth_functions/sed.py +71 -45
sonusai/mixture/truth_functions/target.py +69 -106
sonusai/mkwav.py +52 -85
sonusai/onnx_predict.py +46 -43
sonusai/queries/__init__.py +3 -1
sonusai/queries/queries.py +100 -59
sonusai/speech/__init__.py +2 -0
sonusai/speech/l2arctic.py +24 -23
sonusai/speech/librispeech.py +16 -17
sonusai/speech/mcgill.py +22 -21
sonusai/speech/textgrid.py +32 -25
sonusai/speech/timit.py +45 -42
sonusai/speech/vctk.py +14 -13
sonusai/speech/voxceleb.py +26 -20
sonusai/summarize_metric_spenh.py +11 -10
sonusai/utils/__init__.py +4 -3
sonusai/utils/asl_p56.py +1 -1
sonusai/utils/asr.py +37 -17
sonusai/utils/asr_functions/__init__.py +2 -0
sonusai/utils/asr_functions/aaware_whisper.py +18 -12
sonusai/utils/audio_devices.py +12 -12
sonusai/utils/braced_glob.py +6 -8
sonusai/utils/calculate_input_shape.py +1 -4
sonusai/utils/compress.py +2 -2
sonusai/utils/convert_string_to_number.py +1 -3
sonusai/utils/create_timestamp.py +1 -1
sonusai/utils/create_ts_name.py +2 -2
sonusai/utils/dataclass_from_dict.py +1 -1
sonusai/utils/docstring.py +6 -6
sonusai/utils/energy_f.py +9 -7
sonusai/utils/engineering_number.py +56 -54
sonusai/utils/get_label_names.py +8 -10
sonusai/utils/human_readable_size.py +2 -2
sonusai/utils/model_utils.py +3 -5
sonusai/utils/numeric_conversion.py +2 -4
sonusai/utils/onnx_utils.py +43 -32
sonusai/utils/parallel.py +40 -27
sonusai/utils/print_mixture_details.py +25 -22
sonusai/utils/ranges.py +12 -12
sonusai/utils/read_predict_data.py +11 -9
sonusai/utils/reshape.py +19 -26
sonusai/utils/seconds_to_hms.py +1 -1
sonusai/utils/stacked_complex.py +8 -16
sonusai/utils/stratified_shuffle_split.py +29 -27
sonusai/utils/write_audio.py +2 -2
sonusai/utils/yes_or_no.py +3 -3
sonusai/vars.py +14 -14
{sonusai-0.18.8.dist-info → sonusai-0.19.5.dist-info}/METADATA +20 -21
sonusai-0.19.5.dist-info/RECORD +125 -0
{sonusai-0.18.8.dist-info → sonusai-0.19.5.dist-info}/WHEEL +1 -1
sonusai/mixture/truth_functions/data.py +0 -58
sonusai/utils/read_mixture_data.py +0 -14
sonusai-0.18.8.dist-info/RECORD +0 -125
{sonusai-0.18.8.dist-info → sonusai-0.19.5.dist-info}/entry_points.txt +0 -0

sonusai/mixture/db_datatypes.py CHANGED Viewed

@@ -1,72 +1,56 @@
 from collections import namedtuple
-TruthSettingRecord = namedtuple('TruthSettingRecord', [
-    'id',
-    'setting'])
-TargetFileRecord = namedtuple('TargetFileRecord', [
-    'id',
-    'name',
-    'samples',
-    'level_type',
-    'speaker_id'])
-NoiseFileRecord = namedtuple('NoiseFileRecord', [
-    'id',
-    'name',
-    'samples'])
-TopRecord = namedtuple('TopRecord', [
-    'id',
-    'version',
-    'class_balancing',
-    'feature',
-    'noise_mix_mode',
-    'num_classes',
-    'seed',
-    'truth_mutex',
-    'truth_reduction_function',
-    'mixid_width',
-    'speaker_metadata_tiers',
-    'textgrid_metadata_tiers'])
-ClassLabelRecord = namedtuple('ClassLabelRecord', [
-    'id',
-    'label'])
-ClassWeightsThresholdRecord = namedtuple('ClassWeightsThresholdRecord', [
-    'id',
-    'threshold'])
-ImpulseResponseFileRecord = namedtuple('ImpulseResponseFileRecord', [
-    'id',
-    'file'])
-SpectralMaskRecord = namedtuple('SpectralMaskRecord', [
-    'id',
-    'f_max_width',
-    'f_num',
-    't_max_width',
-    't_num',
-    't_max_percent'])
-TargetRecord = namedtuple('TargetRecord', [
-    'id',
-    'file_id',
-    'augmentation',
-    'gain'])
-MixtureRecord = namedtuple('MixtureRecord', [
-    'id',
-    'name',
-    'noise_file_id',
-    'noise_augmentation',
-    'noise_offset',
-    'noise_snr_gain',
-    'random_snr',
-    'snr',
-    'samples',
-    'spectral_mask_id',
-    'spectral_mask_seed',
-    'target_snr_gain'
-])
+TruthConfigRecord = namedtuple("TruthConfigRecord", ["id", "name", "function", "stride_reduction", "config"])
+TruthParametersRecord = namedtuple("TruthParametersRecord", ["id", "name", "parameters"])
+TargetFileRecord = namedtuple("TargetFileRecord", ["id", "name", "samples", "class_indices", "level_type", "speaker_id"])
+NoiseFileRecord = namedtuple("NoiseFileRecord", ["id", "name", "samples"])
+TopRecord = namedtuple(
+    "TopRecord",
+    [
+        "id",
+        "version",
+        "class_balancing",
+        "feature",
+        "noise_mix_mode",
+        "num_classes",
+        "seed",
+        "mixid_width",
+        "speaker_metadata_tiers",
+        "textgrid_metadata_tiers",
+    ],
+)
+ClassLabelRecord = namedtuple("ClassLabelRecord", ["id", "label"])
+ClassWeightsThresholdRecord = namedtuple("ClassWeightsThresholdRecord", ["id", "threshold"])
+ImpulseResponseFileRecord = namedtuple("ImpulseResponseFileRecord", ["id", "file"])
+SpectralMaskRecord = namedtuple(
+    "SpectralMaskRecord",
+    ["id", "f_max_width", "f_num", "t_max_width", "t_num", "t_max_percent"],
+)
+TargetRecord = namedtuple("TargetRecord", ["id", "file_id", "augmentation", "gain"])
+MixtureRecord = namedtuple(
+    "MixtureRecord",
+    [
+        "id",
+        "name",
+        "noise_file_id",
+        "noise_augmentation",
+        "noise_offset",
+        "noise_snr_gain",
+        "random_snr",
+        "snr",
+        "samples",
+        "spectral_mask_id",
+        "spectral_mask_seed",
+        "target_snr_gain",
+    ],
+)

sonusai/mixture/eq_rule_is_valid.py CHANGED Viewed

@@ -8,7 +8,7 @@ def eq_rule_is_valid(rule: Any) -> bool:
     """
     # Must be a list or string equal to 'none'
-    if isinstance(rule, str) and rule == 'none':
+    if isinstance(rule, str) and rule == "none":
         return True
     if not isinstance(rule, list):
@@ -27,22 +27,19 @@ def eq_rule_is_valid(rule: Any) -> bool:
         if not all(isinstance(el, float | int | str) for el in r):
             return False
-        if isinstance(r, str) and r == 'none':
+        if isinstance(r, str) and r == "none":
             continue
         for el in r:
             # If a string, item must start with 'rand'
-            if isinstance(el, str) and not el.startswith('rand'):
+            if isinstance(el, str) and not el.startswith("rand"):
                 return False
     return True
 def _check_for_none(rule: Any) -> bool:
-    """Check if EQ rule is 'none'
-    """
-    if isinstance(rule, str) and rule == 'none':
-        return True
-    if isinstance(rule, list) and len(rule) == 3:
+    """Check if EQ rule is 'none'"""
+    if isinstance(rule, str) and rule == "none":
         return True
-    return False
+    return bool(isinstance(rule, list) and len(rule) == 3)

sonusai/mixture/feature.py CHANGED Viewed

@@ -1,46 +1,38 @@
-from typing import Optional
 from sonusai.mixture.datatypes import AudioT
 from sonusai.mixture.datatypes import Feature
-def get_feature_from_audio(audio: AudioT,
-                           feature_mode: str,
-                           num_classes: Optional[int] = 1,
-                           truth_mutex: Optional[bool] = False) -> Feature:
+def get_feature_from_audio(
+    audio: AudioT,
+    feature_mode: str,
+) -> Feature:
     """Apply forward transform and generate feature data from audio data
     :param audio: Time domain audio data [samples]
     :param feature_mode: Feature mode
-    :param num_classes: Number of classes
-    :param truth_mutex: Whether to calculate 'other' label
     :return: Feature data [frames, strides, feature_parameters]
     """
     import numpy as np
     from pyaaware import FeatureGenerator
-    from .augmentation import pad_audio_to_frame
     from .datatypes import TransformConfig
     from .helpers import forward_transform
-    fg = FeatureGenerator(feature_mode=feature_mode,
-                          num_classes=num_classes,
-                          truth_mutex=truth_mutex)
-    feature_step_samples = fg.ftransform_R * fg.decimation * fg.step
-    audio = pad_audio_to_frame(audio, feature_step_samples)
-    audio_f = forward_transform(audio=audio,
-                                config=TransformConfig(N=fg.ftransform_N,
-                                                       R=fg.ftransform_R,
-                                                       bin_start=fg.bin_start,
-                                                       bin_end=fg.bin_end,
-                                                       ttype=fg.ftransform_ttype))
-    samples = len(audio)
-    transform_frames = samples // fg.ftransform_R
-    feature_frames = samples // feature_step_samples
+    fg = FeatureGenerator(feature_mode=feature_mode)
+    audio_f = forward_transform(
+        audio=audio,
+        config=TransformConfig(
+            length=fg.ftransform_length,
+            overlap=fg.ftransform_overlap,
+            bin_start=fg.bin_start,
+            bin_end=fg.bin_end,
+            ttype=fg.ftransform_ttype,
+        ),
+    )
+    transform_frames = audio_f.shape[0]
+    feature_frames = transform_frames // (fg.decimation * fg.step)
     feature = np.empty((feature_frames, fg.stride, fg.feature_parameters), dtype=np.float32)
     feature_frame = 0
@@ -54,37 +46,49 @@ def get_feature_from_audio(audio: AudioT,
     return feature
-def get_audio_from_feature(feature: Feature,
-                           feature_mode: str,
-                           num_classes: Optional[int] = 1,
-                           truth_mutex: Optional[bool] = False) -> AudioT:
+def get_audio_from_feature(
+    feature: Feature,
+    feature_mode: str,
+    num_classes: int | None = 1,
+    truth_mutex: bool | None = False,
+) -> AudioT:
     """Apply inverse transform to feature data to generate audio data
-    :param feature: Feature data [frames, strides, feature_parameters]
+    :param feature: Feature data [frames, stride=1, feature_parameters]
     :param feature_mode: Feature mode
     :param num_classes: Number of classes
     :param truth_mutex: Whether to calculate 'other' label
     :return: Audio data [samples]
     """
     import numpy as np
     from pyaaware import FeatureGenerator
+    from sonusai.utils.compress import power_uncompress
+    from sonusai.utils.stacked_complex import unstack_complex
     from .datatypes import TransformConfig
     from .helpers import inverse_transform
-    from sonusai.utils.stacked_complex import unstack_complex
-    from sonusai.utils.compress import power_uncompress
-    fg = FeatureGenerator(feature_mode=feature_mode,
-                          num_classes=num_classes,
-                          truth_mutex=truth_mutex)
+    if feature.ndim != 3:
+        raise ValueError("feature must have 3 dimensions: [frames, stride=1, feature_parameters]")
+    if feature.shape[1] != 1:
+        raise ValueError("Strided feature data is not supported for audio extraction; stride must be 1.")
+    fg = FeatureGenerator(feature_mode=feature_mode, num_classes=num_classes, truth_mutex=truth_mutex)
-    feature_complex = unstack_complex(feature)
-    if feature_mode[0:1] == 'h':
+    feature_complex = unstack_complex(feature.squeeze())
+    if feature_mode[0:1] == "h":
         feature_complex = power_uncompress(feature_complex)
-    return np.squeeze(inverse_transform(transform=feature_complex,
-                                        config=TransformConfig(N=fg.itransform_N,
-                                                               R=fg.itransform_R,
-                                                               bin_start=fg.bin_start,
-                                                               bin_end=fg.bin_end,
-                                                               ttype=fg.itransform_ttype)))
+    return np.squeeze(
+        inverse_transform(
+            transform=feature_complex,
+            config=TransformConfig(
+                length=fg.itransform_length,
+                overlap=fg.itransform_overlap,
+                bin_start=fg.bin_start,
+                bin_end=fg.bin_end,
+                ttype=fg.itransform_ttype,
+            ),
+        )
+    )

sonusai 0.18.8__py3-none-any.whl → 0.19.5__py3-none-any.whl

sonusai 0.18.8py3-none-any.whl → 0.19.5py3-none-any.whl