PyPI - sonusai - Versions diffs - 0.18.8__tar.gz → 0.18.9__tar.gz - Mend

@@ -27,9 +27,6 @@ def get_feature_from_audio(audio: AudioT,
                           num_classes=num_classes,
                           truth_mutex=truth_mutex)
-    feature_step_samples = fg.ftransform_R * fg.decimation * fg.step
-    audio = pad_audio_to_frame(audio, feature_step_samples)
     audio_f = forward_transform(audio=audio,
                                 config=TransformConfig(N=fg.ftransform_N,
                                                        R=fg.ftransform_R,
@@ -37,10 +34,8 @@ def get_feature_from_audio(audio: AudioT,
                                                        bin_end=fg.bin_end,
                                                        ttype=fg.ftransform_ttype))
-    samples = len(audio)
-    transform_frames = samples // fg.ftransform_R
-    feature_frames = samples // feature_step_samples
+    transform_frames = audio_f.shape[0]
+    feature_frames = transform_frames // (fg.decimation * fg.step)
     feature = np.empty((feature_frames, fg.stride, fg.feature_parameters), dtype=np.float32)
     feature_frame = 0
@@ -60,7 +55,7 @@ def get_audio_from_feature(feature: Feature,
                            truth_mutex: Optional[bool] = False) -> AudioT:
     """Apply inverse transform to feature data to generate audio data
-    :param feature: Feature data [frames, strides, feature_parameters]
+    :param feature: Feature data [frames, stride=1, feature_parameters]
     :param feature_mode: Feature mode
     :param num_classes: Number of classes
     :param truth_mutex: Whether to calculate 'other' label
@@ -70,16 +65,23 @@ def get_audio_from_feature(feature: Feature,
     from pyaaware import FeatureGenerator
+    from sonusai import SonusAIError
     from .datatypes import TransformConfig
     from .helpers import inverse_transform
     from sonusai.utils.stacked_complex import unstack_complex
     from sonusai.utils.compress import power_uncompress
+    if feature.ndim != 3:
+        raise SonusAIError('feature must have 3 dimensions: [frames, stride=1, feature_parameters]')
+    if feature.shape[1] != 1:
+        raise SonusAIError('Strided feature data is not supported for audio extraction; stride must be 1.')
     fg = FeatureGenerator(feature_mode=feature_mode,
                           num_classes=num_classes,
                           truth_mutex=truth_mutex)
-    feature_complex = unstack_complex(feature)
+    feature_complex = unstack_complex(feature.squeeze())
     if feature_mode[0:1] == 'h':
         feature_complex = power_uncompress(feature_complex)
     return np.squeeze(inverse_transform(transform=feature_complex,

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sonusai
-Version: 0.18.8
+Version: 0.18.9
 Summary: Framework for building deep neural network models for sound, speech, and voice AI
 Home-page: https://aaware.com
 License: GPL-3.0-only

@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "sonusai"
-version = "0.18.8"
+version = "0.18.9"
 description = "Framework for building deep neural network models for sound, speech, and voice AI"
 authors = ["Chris Eddington <chris@aaware.com>", "Jason Calderwood <jason@aaware.com>"]
 maintainers = ["Chris Eddington <chris@aaware.com>", "Jason Calderwood <jason@aaware.com>"]

@@ -218,8 +218,10 @@ class MixtureDatabase:
                                      f'Target[0] ASR text using {name} ASR as defined in mixdb asr_configs parameter'))
             metrics.append(MetricDoc('Mixture Metrics', f'mxasr.{name}',
                                      f'ASR text using {name} ASR as defined in mixdb asr_configs parameter'))
+            metrics.append(MetricDoc('Target Metrics', f'basewer.{name}',
+                                     f'Word error rate of tasr.{name} vs. speech text metadata for the target'))
             metrics.append(MetricDoc('Mixture Metrics', f'mxwer.{name}',
-                                     f'Word error rate using {name} ASR as defined in mixdb asr_configs parameter'))
+                                     f'Word error rate of mxasr.{name} vs. tasr.{name}'))
         return metrics
@@ -1405,6 +1407,16 @@ class MixtureDatabase:
                 # TODO: should this be NaN like above?
                 return float(0)
+            if m.startswith('basewer'):
+                asr_name = get_asr_name(m)
+                text = self.mixture_speech_metadata(m_id, 'text')[0]
+                if text is not None:
+                    return calc_wer(target_asr(asr_name), text).wer * 100
+                # TODO: should this be NaN like above?
+                return float(0)
             if m.startswith('mxasr'):
                 return mixture_asr(get_asr_name(m))

sonusai 0.18.8__tar.gz → 0.18.9__tar.gz

sonusai 0.18.8tar.gz → 0.18.9tar.gz