PyPI - sonusai - Versions diffs - 0.18.7__py3-none-any.whl → 0.18.9__py3-none-any.whl - Mend

sonusai 0.18.7py3-none-any.whl → 0.18.9py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

sonusai/__init__.py +0 -1
sonusai/mixture/feature.py +11 -9
sonusai/mixture/helpers.py +4 -2
sonusai/mixture/mixdb.py +77 -19
{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/METADATA +1 -1
{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/RECORD +8 -9
sonusai/post_spenh_targetf.py +0 -160
{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/WHEEL +0 -0
{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/entry_points.txt +0 -0

sonusai/__init__.py CHANGED Viewed

@@ -24,7 +24,6 @@ commands_doc = """
    mkwav                        Make WAV files from a mixture database
    onnx_predict                 Run ONNX predict on a trained model
    plot                         Plot mixture data
-   post_spenh_targetf           Run post-processing for speech enhancement targetf data
    summarize_metric_spenh       Summarize speech enhancement and analysis results
    tplot                        Plot truth data
    vars                         List custom SonusAI variables

sonusai/mixture/feature.py CHANGED Viewed

@@ -27,9 +27,6 @@ def get_feature_from_audio(audio: AudioT,
                           num_classes=num_classes,
                           truth_mutex=truth_mutex)
-    feature_step_samples = fg.ftransform_R * fg.decimation * fg.step
-    audio = pad_audio_to_frame(audio, feature_step_samples)
     audio_f = forward_transform(audio=audio,
                                 config=TransformConfig(N=fg.ftransform_N,
                                                        R=fg.ftransform_R,
@@ -37,10 +34,8 @@ def get_feature_from_audio(audio: AudioT,
                                                        bin_end=fg.bin_end,
                                                        ttype=fg.ftransform_ttype))
-    samples = len(audio)
-    transform_frames = samples // fg.ftransform_R
-    feature_frames = samples // feature_step_samples
+    transform_frames = audio_f.shape[0]
+    feature_frames = transform_frames // (fg.decimation * fg.step)
     feature = np.empty((feature_frames, fg.stride, fg.feature_parameters), dtype=np.float32)
     feature_frame = 0
@@ -60,7 +55,7 @@ def get_audio_from_feature(feature: Feature,
                            truth_mutex: Optional[bool] = False) -> AudioT:
     """Apply inverse transform to feature data to generate audio data
-    :param feature: Feature data [frames, strides, feature_parameters]
+    :param feature: Feature data [frames, stride=1, feature_parameters]
     :param feature_mode: Feature mode
     :param num_classes: Number of classes
     :param truth_mutex: Whether to calculate 'other' label
@@ -70,16 +65,23 @@ def get_audio_from_feature(feature: Feature,
     from pyaaware import FeatureGenerator
+    from sonusai import SonusAIError
     from .datatypes import TransformConfig
     from .helpers import inverse_transform
     from sonusai.utils.stacked_complex import unstack_complex
     from sonusai.utils.compress import power_uncompress
+    if feature.ndim != 3:
+        raise SonusAIError('feature must have 3 dimensions: [frames, stride=1, feature_parameters]')
+    if feature.shape[1] != 1:
+        raise SonusAIError('Strided feature data is not supported for audio extraction; stride must be 1.')
     fg = FeatureGenerator(feature_mode=feature_mode,
                           num_classes=num_classes,
                           truth_mutex=truth_mutex)
-    feature_complex = unstack_complex(feature)
+    feature_complex = unstack_complex(feature.squeeze())
     if feature_mode[0:1] == 'h':
         feature_complex = power_uncompress(feature_complex)
     return np.squeeze(inverse_transform(transform=feature_complex,

sonusai/mixture/helpers.py CHANGED Viewed

@@ -276,7 +276,6 @@ def read_mixture_data(name: str, items: list[str] | str) -> Any:
     :return: Data (or tuple of data)
     """
     from os.path import exists
-    from typing import Any
     import h5py
     import numpy as np
@@ -287,7 +286,10 @@ def read_mixture_data(name: str, items: list[str] | str) -> Any:
         if d_name in file:
             data = np.array(file[d_name])
             if data.size == 1:
-                return data.item()
+                item = data.item()
+                if isinstance(item, bytes):
+                    return item.decode('utf-8')
+                return item
             return data
         return None

sonusai/mixture/mixdb.py CHANGED Viewed

@@ -214,8 +214,14 @@ class MixtureDatabase:
             MetricDoc('Truth Metrics', 'sedtopn', '(not implemented) N most active by largest sedavg [N, 1]'),
         ])
         for name in self.asr_configs:
+            metrics.append(MetricDoc('Target Metrics', f'tasr.{name}',
+                                     f'Target[0] ASR text using {name} ASR as defined in mixdb asr_configs parameter'))
+            metrics.append(MetricDoc('Mixture Metrics', f'mxasr.{name}',
+                                     f'ASR text using {name} ASR as defined in mixdb asr_configs parameter'))
+            metrics.append(MetricDoc('Target Metrics', f'basewer.{name}',
+                                     f'Word error rate of tasr.{name} vs. speech text metadata for the target'))
             metrics.append(MetricDoc('Mixture Metrics', f'mxwer.{name}',
-                                     f'Word error rate using {name} ASR as defined in mixdb asr_configs parameter'))
+                                     f'Word error rate of mxasr.{name} vs. tasr.{name}'))
         return metrics
@@ -1185,7 +1191,7 @@ class MixtureDatabase:
     def mixture_metrics(self, m_id: int,
                         metrics: list[str],
-                        force: bool = False) -> list[float | int | Segsnr]:
+                        force: bool = False) -> list[float | int | str | Segsnr]:
         """Get metrics data for the given mixture ID
         :param m_id: Zero-based mixture ID
@@ -1328,7 +1334,56 @@ class MixtureDatabase:
         noise_stats = create_noise_stats()
-        def calc(m: str) -> float | int | Segsnr:
+        def create_asr_config() -> Callable[[str], dict]:
+            state: dict[str, dict] = {}
+            def get(asr_name) -> dict:
+                nonlocal state
+                if asr_name not in state:
+                    state[asr_name] = self.asr_configs.get(asr_name, None)
+                    if state[asr_name] is None:
+                        raise SonusAIError(f"Unrecognized ASR name: '{asr_name}'")
+                return state[asr_name]
+            return get
+        asr_config = create_asr_config()
+        def create_target_asr() -> Callable[[str], str]:
+            state: dict[str, str] = {}
+            def get(asr_name) -> str:
+                nonlocal state
+                if asr_name not in state:
+                    state[asr_name] = calc_asr(target_audio(), **asr_config(asr_name)).text
+                return state[asr_name]
+            return get
+        target_asr = create_target_asr()
+        def create_mixture_asr() -> Callable[[str], str]:
+            state: dict[str, str] = {}
+            def get(asr_name) -> str:
+                nonlocal state
+                if asr_name not in state:
+                    state[asr_name] = calc_asr(mixture_audio(), **asr_config(asr_name)).text
+                return state[asr_name]
+            return get
+        mixture_asr = create_mixture_asr()
+        def get_asr_name(m: str) -> str:
+            parts = m.split('.')
+            if len(parts) != 2:
+                raise SonusAIError(
+                    f"Unrecognized format: '{m}'; must be of the form: '<metric>.<name>'")
+            asr_name = parts[1]
+            return asr_name
+        def calc(m: str) -> float | int | str | Segsnr:
             if m == 'mxsnr':
                 return self.mixture(m_id).snr
@@ -1340,31 +1395,31 @@ class MixtureDatabase:
             # Otherwise, generate data as needed
             if m.startswith('mxwer'):
-                parts = m.split('.')
-                if len(parts) != 2:
-                    raise SonusAIError(
-                        f"Unrecognized 'mxwer' format: '{m}'; must be of the form: 'mxwer.<name>'")
-                asr_name = parts[1]
-                asr_config = self.asr_configs.get(asr_name, None)
-                if asr_config is None:
-                    raise SonusAIError(f"Unrecognized metric: '{m}'")
+                asr_name = get_asr_name(m)
                 if self.mixture(m_id).snr < -96:
                     # noise only, ignore/reset target asr
                     return float('nan')
-                # ignore mixup
-                target_asr = self.mixture_speech_metadata(m_id, 'text')[0]
-                if target_asr is None:
-                    target_asr = calc_asr(target_audio(), **asr_config).text
+                if target_asr(asr_name):
+                    return calc_wer(mixture_asr(asr_name), target_asr(asr_name)).wer * 100
-                if target_asr:
-                    mixture_asr = calc_asr(mixture_audio(), **asr_config).text
-                    return calc_wer(mixture_asr, target_asr).wer * 100
+                # TODO: should this be NaN like above?
+                return float(0)
+            if m.startswith('basewer'):
+                asr_name = get_asr_name(m)
+                text = self.mixture_speech_metadata(m_id, 'text')[0]
+                if text is not None:
+                    return calc_wer(target_asr(asr_name), text).wer * 100
                 # TODO: should this be NaN like above?
                 return float(0)
+            if m.startswith('mxasr'):
+                return mixture_asr(get_asr_name(m))
             if m == 'mxssnr_avg':
                 return calc_segsnr_f(segsnr_f()).avg
@@ -1454,6 +1509,9 @@ class MixtureDatabase:
             if m == 'tpkc':
                 return target_stats().pkc
+            if m.startswith('tasr'):
+                return target_asr(get_asr_name(m))
             if m == 'ndco':
                 return noise_stats().dco
@@ -1501,7 +1559,7 @@ class MixtureDatabase:
             raise SonusAIError(f"Unrecognized metric: '{m}'")
-        result: list[float | int | Segsnr] = []
+        result: list[float | int | str | Segsnr] = []
         for metric in metrics:
             result.append(calc(metric))

{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sonusai
-Version: 0.18.7
+Version: 0.18.9
 Summary: Framework for building deep neural network models for sound, speech, and voice AI
 Home-page: https://aaware.com
 License: GPL-3.0-only

{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/RECORD RENAMED Viewed

@@ -1,4 +1,4 @@
-sonusai/__init__.py,sha256=zV3NEEnPJs_dFdCpCS5dM8vJ8nW1bvNQDSNVbJOU7KQ,3150
+sonusai/__init__.py,sha256=PakKXwYWgB0TZysZ6t9l6s33WobyS55qTR5jceMrADQ,3062
 sonusai/aawscd_probwrite.py,sha256=GukR5owp_0A3DrqSl9fHWULYgclNft4D5OkHIwfxxkc,3698
 sonusai/audiofe.py,sha256=3LssRiL73DH8teihD9f3nCvfZ0a65WQtXCqWGnKHuJM,11157
 sonusai/calc_metric_spenh.py,sha256=ee2xrx6L1lFyWSoQSiq56He3RQ1cF7T_ak-6TjejXsc,47738
@@ -42,11 +42,11 @@ sonusai/mixture/constants.py,sha256=90qaRIEcmIoS3Od5h_UP0_SkkvG2aE_eYPv6WsIktC0,
 sonusai/mixture/datatypes.py,sha256=2vegllgZcmFLq5NjqS7Lo97dOpOJOAj0Eml4ggP_tGo,10966
 sonusai/mixture/db_datatypes.py,sha256=GDYbcSrlgUJsesiUUNnR4s5aBkMgviiNSQDaBcgYX7I,1428
 sonusai/mixture/eq_rule_is_valid.py,sha256=MpQwRA5M76wSiQWEI1lW2cLFdPaMttBLcQp3tWD8efM,1243
-sonusai/mixture/feature.py,sha256=bHAPRaYGyS-ZTOb-RLCwDau7n1NDKsVEW30Gd9SRZYo,3676
+sonusai/mixture/feature.py,sha256=kYomwZpuvPQAZdb2MCaJBD8UD5LD2w5jTIkkRldaFlM,3839
 sonusai/mixture/generation.py,sha256=W3n6ipI-dxg4Wj6YBJn8RTpFqkAyIXzxwObeFbSLq08,42801
-sonusai/mixture/helpers.py,sha256=ijADvIy_xVf0btAsvrQtHv6_6UqDIuesYESp_p3B1KA,24647
+sonusai/mixture/helpers.py,sha256=9x7gezEqPm5xKGAbwCqDMjedVEmoDWyFR_5-T_5nlno,24740
 sonusai/mixture/log_duration_and_sizes.py,sha256=baTUpqyM15wA125jo9E3posmVJUe3WlpksyO6v9Jul0,1347
-sonusai/mixture/mixdb.py,sha256=63LnDBfVKKXSgi825tXCELoQ3xH_jAguW91Xlb86_qE,62807
+sonusai/mixture/mixdb.py,sha256=EoH-kwg-zVJLAqpxbRKV7TtCxPqiBo3rIfdvCeZhEyI,64872
 sonusai/mixture/soundfile_audio.py,sha256=BwO4lftNvrhoPTJERONcrpxSpM2fjO6kL_e5Ylz742A,4220
 sonusai/mixture/sox_audio.py,sha256=DbHuyLtEuQYtKsIRxx6g1webW_LsdgLz52P5VO37MqI,17119
 sonusai/mixture/sox_augmentation.py,sha256=kBWPrsFk0EBi71nLcKt5v0GA34bY7g9D9x0cEamNWbU,4564
@@ -68,7 +68,6 @@ sonusai/mixture/truth_functions/target.py,sha256=XypzXVMi24Ys13TiEM9JFY_cvHK61Lo
 sonusai/mkwav.py,sha256=zfSyIiQTIK3KV9Ij33jkLhhZIMVYqaROcRQ4S7c4sIo,5364
 sonusai/onnx_predict.py,sha256=jSxhD2oFyGSTHOGCXbW4fRT-k4SqKOboK2JaDO-yWcs,8737
 sonusai/plot.py,sha256=ERkmxMM3qjcCDm4LGDQY4fRAncCYAzP7uW8iZ7_brcg,17105
-sonusai/post_spenh_targetf.py,sha256=MBikRQfVfSZtRz9I5R3muxUtzR83S-i5INu3fAXliT4,4959
 sonusai/queries/__init__.py,sha256=oKY5JeqZ4Cz7DwCwPc1_ydB8bUs6KaMcWFp_w02TjOs,255
 sonusai/queries/queries.py,sha256=oV-m9uiLZOwYTK-Wo7Gf8dpGisaoGf6uDsAJAarVqZI,7553
 sonusai/speech/__init__.py,sha256=SuPcU_K9wQISsZRIzsRNLtEC6cb616l-Jlx3PU-HWMs,113
@@ -120,7 +119,7 @@ sonusai/utils/stratified_shuffle_split.py,sha256=rJNXvBp-GxoKzH3OpL7k0ANSu5xMP2z
 sonusai/utils/write_audio.py,sha256=ZsPGExwM86QHLLN2LOWekK2uAqf5pV_1oRW811p0QAI,840
 sonusai/utils/yes_or_no.py,sha256=eMLXBVH0cEahiXY4W2KNORmwNQ-ba10eRtldh0y4NYg,263
 sonusai/vars.py,sha256=m2AefF0m5bXWGXpJj8Pi42zWL2ydeEj7bkak3GrtMyM,940
-sonusai-0.18.7.dist-info/METADATA,sha256=sVH6EUuzc-eaPUUAPtOqWJrvCYtuGyaSytSdf2q44p0,2591
-sonusai-0.18.7.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
-sonusai-0.18.7.dist-info/entry_points.txt,sha256=zMNjEphEPO6B3cD1GNpit7z-yA9tUU5-j3W2v-UWstU,92
-sonusai-0.18.7.dist-info/RECORD,,
+sonusai-0.18.9.dist-info/METADATA,sha256=GdYfD7ldc9oJoMQxNgpG8Vs-RFOmP597X306RuMGi_M,2591
+sonusai-0.18.9.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
+sonusai-0.18.9.dist-info/entry_points.txt,sha256=zMNjEphEPO6B3cD1GNpit7z-yA9tUU5-j3W2v-UWstU,92
+sonusai-0.18.9.dist-info/RECORD,,

sonusai/post_spenh_targetf.py DELETED Viewed

@@ -1,160 +0,0 @@
-"""sonusai post_spenh_targetf
-usage: post_spenh_targetf [-hv] (-m MODEL) (-w KMODEL) INPUT ...
-options:
-    -h, --help
-    -v, --verbose                   Be verbose.
-    -m MODEL, --model MODEL         Python model file.
-    -w KMODEL, --weights KMODEL     Keras model weights file.
-Run post-processing on speech enhancement targetf prediction data.
-Inputs:
-    MODEL       A SonusAI Python model file with build and/or hypermodel functions.
-    KMODEL      A Keras model weights file (or model file with weights).
-    INPUT       A single H5 file or a glob of H5 files
-Outputs the following to post_spenh_targetf-<TIMESTAMP> directory:
-    <name>.wav
-    post_spenh_targetf.log
-"""
-import signal
-from dataclasses import dataclass
-def signal_handler(_sig, _frame):
-    import sys
-    from sonusai import logger
-    logger.info('Canceled due to keyboard interrupt')
-    sys.exit(1)
-signal.signal(signal.SIGINT, signal_handler)
-@dataclass
-class MPGlobal:
-    N: int = None
-    R: int = None
-    bin_start: int = None
-    bin_end: int = None
-    ttype: str = None
-    output_dir: str = None
-MP_GLOBAL = MPGlobal()
-def main() -> None:
-    from docopt import docopt
-    import sonusai
-    from sonusai.utils import trim_docstring
-    args = docopt(trim_docstring(__doc__), version=sonusai.__version__, options_first=True)
-    verbose = args['--verbose']
-    model_name = args['--model']
-    weights_name = args['--weights']
-    input_name = args['INPUT']
-    import time
-    from os import makedirs
-    from os.path import isfile
-    from os.path import join
-    from os.path import splitext
-    from pyaaware import FeatureGenerator
-    from tqdm import tqdm
-    from sonusai import create_file_handler
-    from sonusai import initial_log_messages
-    from sonusai import logger
-    from sonusai import update_console_handler
-    from sonusai.utils import create_ts_name
-    from sonusai.utils import import_and_check_keras_model
-    from sonusai.utils import pp_tqdm_imap
-    from sonusai.utils import seconds_to_hms
-    start_time = time.monotonic()
-    output_dir = create_ts_name('post_spenh_targetf')
-    makedirs(output_dir, exist_ok=True)
-    # Setup logging file
-    create_file_handler(join(output_dir, 'post_spenh_targetf.log'))
-    update_console_handler(verbose)
-    initial_log_messages('post_spenh_targetf')
-    hypermodel = import_and_check_keras_model(model_name=model_name, weights_name=weights_name)
-    fg = FeatureGenerator(feature_mode=hypermodel.feature,
-                          num_classes=hypermodel.num_classes,
-                          truth_mutex=hypermodel.truth_mutex)
-    MP_GLOBAL.N = fg.itransform_N
-    MP_GLOBAL.R = fg.itransform_R
-    MP_GLOBAL.bin_start = fg.bin_start
-    MP_GLOBAL.bin_end = fg.bin_end
-    MP_GLOBAL.ttype = fg.itransform_ttype
-    MP_GLOBAL.output_dir = output_dir
-    if not all(isfile(file) and splitext(file)[1] == '.h5' for file in input_name):
-        logger.exception(f'Do not know how to process input from {input_name}')
-        raise SystemExit(1)
-    logger.info('')
-    logger.info(f'Found {len(input_name):,} files to process')
-    progress = tqdm(total=len(input_name))
-    pp_tqdm_imap(_process, input_name, progress=progress)
-    progress.close()
-    logger.info(f'Wrote {len(input_name)} mixtures to {output_dir}')
-    logger.info('')
-    end_time = time.monotonic()
-    logger.info(f'Completed in {seconds_to_hms(seconds=end_time - start_time)}')
-    logger.info('')
-def _process(file: str) -> None:
-    """Run extraction on predict data to generate estimation audio
-    """
-    from os.path import basename
-    from os.path import join
-    from os.path import splitext
-    import h5py
-    import numpy as np
-    from sonusai import InverseTransform
-    from sonusai import SonusAIError
-    from sonusai.mixture import get_audio_from_transform
-    from sonusai.utils import float_to_int16
-    from sonusai.utils import unstack_complex
-    from sonusai.utils import write_audio
-    try:
-        with h5py.File(file, 'r') as f:
-            predict = unstack_complex(np.array(f['predict']))
-    except Exception as e:
-        raise SonusAIError(f'Error reading {file}: {e}')
-    output_name = join(MP_GLOBAL.output_dir, splitext(basename(file))[0] + '.wav')
-    audio, _ = get_audio_from_transform(data=predict,
-                                        transform=InverseTransform(N=MP_GLOBAL.N,
-                                                                   R=MP_GLOBAL.R,
-                                                                   bin_start=MP_GLOBAL.bin_start,
-                                                                   bin_end=MP_GLOBAL.bin_end,
-                                                                   ttype=MP_GLOBAL.ttype,
-                                                                   gain=np.float32(1)))
-    write_audio(name=output_name, audio=float_to_int16(audio))
-if __name__ == '__main__':
-    main()

{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/WHEEL RENAMED Viewed

File without changes

{sonusai-0.18.7.dist-info → sonusai-0.18.9.dist-info}/entry_points.txt RENAMED Viewed

File without changes

sonusai 0.18.7__py3-none-any.whl → 0.18.9__py3-none-any.whl

sonusai 0.18.7py3-none-any.whl → 0.18.9py3-none-any.whl