PyPI - torchaudio - Versions diffs - 2.7.1__cp312-cp312-win_amd64.whl → 2.8.0__cp312-cp312-win_amd64.whl - Mend

torchaudio 2.7.1__cp312-cp312-win_amd64.whl → 2.8.0__cp312-cp312-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of torchaudio might be problematic. Click here for more details.

Files changed (52) hide show

torchaudio/__init__.py +16 -5
torchaudio/_backend/sox.py +2 -2
torchaudio/_backend/utils.py +33 -0
torchaudio/_internal/module_utils.py +59 -10
torchaudio/_torchcodec.py +352 -0
torchaudio/backend/no_backend.py +2 -2
torchaudio/backend/soundfile_backend.py +2 -2
torchaudio/backend/sox_io_backend.py +2 -2
torchaudio/functional/__init__.py +6 -1
torchaudio/functional/functional.py +7 -3
torchaudio/io/__init__.py +10 -3
torchaudio/kaldi_io.py +6 -0
torchaudio/lib/_torchaudio.pyd +0 -0
torchaudio/lib/libtorchaudio.pyd +0 -0
torchaudio/models/decoder/__init__.py +7 -1
torchaudio/pipelines/_tts/utils.py +3 -1
torchaudio/prototype/datasets/musan.py +2 -1
torchaudio/prototype/functional/_dsp.py +8 -0
torchaudio/prototype/functional/_rir.py +3 -0
torchaudio/prototype/functional/functional.py +3 -0
torchaudio/prototype/models/__init__.py +4 -1
torchaudio/prototype/models/_conformer_wav2vec2.py +7 -0
torchaudio/prototype/models/_emformer_hubert.py +4 -0
torchaudio/prototype/models/conv_emformer.py +4 -0
torchaudio/prototype/models/hifi_gan.py +6 -0
torchaudio/prototype/models/rnnt.py +6 -0
torchaudio/prototype/models/rnnt_decoder.py +3 -0
torchaudio/prototype/pipelines/__init__.py +11 -2
torchaudio/prototype/pipelines/_vggish/__init__.py +5 -1
torchaudio/prototype/pipelines/_vggish/_vggish_impl.py +4 -1
torchaudio/prototype/pipelines/_vggish/_vggish_pipeline.py +3 -2
torchaudio/prototype/pipelines/hifigan_pipeline.py +5 -0
torchaudio/prototype/transforms/_transforms.py +6 -1
torchaudio/sox_effects/sox_effects.py +4 -1
torchaudio/transforms/__init__.py +3 -1
torchaudio/transforms/_transforms.py +3 -2
torchaudio/utils/download.py +2 -0
torchaudio/utils/sox_utils.py +19 -0
torchaudio/version.py +2 -2
{torchaudio-2.7.1.dist-info → torchaudio-2.8.0.dist-info}/METADATA +13 -2
{torchaudio-2.7.1.dist-info → torchaudio-2.8.0.dist-info}/RECORD +52 -51
torio/io/_streaming_media_decoder.py +0 -1
torio/lib/_torio_ffmpeg4.pyd +0 -0
torio/lib/_torio_ffmpeg5.pyd +0 -0
torio/lib/_torio_ffmpeg6.pyd +0 -0
torio/lib/libtorio_ffmpeg4.pyd +0 -0
torio/lib/libtorio_ffmpeg5.pyd +0 -0
torio/lib/libtorio_ffmpeg6.pyd +0 -0
torio/utils/ffmpeg_utils.py +28 -0
{torchaudio-2.7.1.dist-info → torchaudio-2.8.0.dist-info}/WHEEL +0 -0
{torchaudio-2.7.1.dist-info → torchaudio-2.8.0.dist-info}/licenses/LICENSE +0 -0
{torchaudio-2.7.1.dist-info → torchaudio-2.8.0.dist-info}/top_level.txt +0 -0

torchaudio/io/__init__.py CHANGED Viewed

@@ -1,7 +1,14 @@
-from torio.io import CodecConfig, StreamingMediaDecoder as StreamReader, StreamingMediaEncoder as StreamWriter
+from torio.io import CodecConfig as _CodecConfig, StreamingMediaDecoder as _StreamReader, StreamingMediaEncoder as _StreamWriter
+from torchaudio._internal.module_utils import dropping_class_io_support, dropping_class_support, dropping_io_support
-from ._effector import AudioEffector
-from ._playback import play_audio
+from ._effector import AudioEffector as _AudioEffector
+from ._playback import play_audio as _play_audio
+CodecConfig = dropping_class_io_support(_CodecConfig)
+StreamReader = dropping_class_io_support(_StreamReader)
+StreamWriter = dropping_class_io_support(_StreamWriter)
+AudioEffector = dropping_class_support(_AudioEffector)
+play_audio = dropping_io_support(_play_audio)
 __all__ = [

torchaudio/kaldi_io.py CHANGED Viewed

@@ -6,6 +6,7 @@ from typing import Any, Callable, Iterable, Tuple
 import torch
 from torch import Tensor
 from torchaudio._internal import module_utils as _mod_utils
+from torchaudio._internal.module_utils import dropping_support
 if _mod_utils.is_module_available("numpy"):
     import numpy as np
@@ -41,6 +42,7 @@ def _convert_method_output_to_tensor(
         yield key, torch.from_numpy(np_arr)
+@dropping_support
 @_mod_utils.requires_module("kaldi_io", "numpy")
 def read_vec_int_ark(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     r"""Create generator of (key,vector<int>) tuples, which reads from the ark file/stream.
@@ -64,6 +66,7 @@ def read_vec_int_ark(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     return _convert_method_output_to_tensor(file_or_fd, kaldi_io.read_vec_int_ark, convert_contiguous=True)
+@dropping_support
 @_mod_utils.requires_module("kaldi_io", "numpy")
 def read_vec_flt_scp(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     r"""Create generator of (key,vector<float32/float64>) tuples, read according to Kaldi scp.
@@ -84,6 +87,7 @@ def read_vec_flt_scp(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     return _convert_method_output_to_tensor(file_or_fd, kaldi_io.read_vec_flt_scp)
+@dropping_support
 @_mod_utils.requires_module("kaldi_io", "numpy")
 def read_vec_flt_ark(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     r"""Create generator of (key,vector<float32/float64>) tuples, which reads from the ark file/stream.
@@ -104,6 +108,7 @@ def read_vec_flt_ark(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     return _convert_method_output_to_tensor(file_or_fd, kaldi_io.read_vec_flt_ark)
+@dropping_support
 @_mod_utils.requires_module("kaldi_io", "numpy")
 def read_mat_scp(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     r"""Create generator of (key,matrix<float32/float64>) tuples, read according to Kaldi scp.
@@ -124,6 +129,7 @@ def read_mat_scp(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     return _convert_method_output_to_tensor(file_or_fd, kaldi_io.read_mat_scp)
+@dropping_support
 @_mod_utils.requires_module("kaldi_io", "numpy")
 def read_mat_ark(file_or_fd: Any) -> Iterable[Tuple[str, Tensor]]:
     r"""Create generator of (key,matrix<float32/float64>) tuples, which reads from the ark file/stream.

torchaudio/lib/_torchaudio.pyd CHANGED Viewed

Binary file

torchaudio/lib/libtorchaudio.pyd CHANGED Viewed

Binary file

torchaudio/models/decoder/__init__.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from torchaudio._internal.module_utils import dropping_support, dropping_class_support
+import inspect
 _CTC_DECODERS = [
     "CTCHypothesis",
     "CTCDecoder",
@@ -33,7 +35,11 @@ def __getattr__(name: str):
                 "To use CUCTC decoder, please set BUILD_CUDA_CTC_DECODER=1 when building from source."
             ) from err
-        item = getattr(_cuda_ctc_decoder, name)
+        orig_item = getattr(_cuda_ctc_decoder, name)
+        if inspect.isclass(orig_item):
+            item = dropping_class_support(orig_item)
+        else:
+            item = dropping_support(orig_item)
         globals()[name] = item
         return item
     raise AttributeError(f"module {__name__} has no attribute {name}")

torchaudio/pipelines/_tts/utils.py CHANGED Viewed

@@ -161,6 +161,7 @@ def _load_phonemizer(file, dl_kwargs):
         raise RuntimeError("DeepPhonemizer is not installed. Please install it.")
     from dp.phonemizer import Phonemizer
+    from dp.preprocessing.text import Preprocessor, LanguageTokenizer, SequenceTokenizer
     # By default, dp issues DEBUG level log.
     logger = logging.getLogger("dp")
@@ -174,7 +175,8 @@ def _load_phonemizer(file, dl_kwargs):
         if not os.path.exists(path):
             dl_kwargs = {} if dl_kwargs is None else dl_kwargs
             download_url_to_file(url, path, **dl_kwargs)
-        return Phonemizer.from_checkpoint(path)
+        with torch.serialization.safe_globals([Preprocessor, LanguageTokenizer, SequenceTokenizer]):
+            return Phonemizer.from_checkpoint(path)
     finally:
         logger.setLevel(orig_level)

torchaudio/prototype/datasets/musan.py CHANGED Viewed

@@ -4,12 +4,13 @@ from typing import Tuple, Union
 import torch
 from torch.utils.data import Dataset
 from torchaudio.datasets.utils import _load_waveform
+from torchaudio._internal.module_utils import dropping_support, dropping_class_support
 _SUBSETS = ["music", "noise", "speech"]
 _SAMPLE_RATE = 16_000
+@dropping_class_support
 class Musan(Dataset):
     r"""*MUSAN* :cite:`musan2015` dataset.

torchaudio/prototype/functional/_dsp.py CHANGED Viewed

@@ -4,8 +4,10 @@ from typing import List, Optional, Union
 import torch
 from torchaudio.functional import fftconvolve
+from torchaudio._internal.module_utils import dropping_support
+@dropping_support
 def oscillator_bank(
     frequencies: torch.Tensor,
     amplitudes: torch.Tensor,
@@ -81,6 +83,7 @@ def oscillator_bank(
     return waveform
+@dropping_support
 def adsr_envelope(
     num_frames: int,
     *,
@@ -182,6 +185,7 @@ def adsr_envelope(
     return out
+@dropping_support
 def extend_pitch(
     base: torch.Tensor,
     pattern: Union[int, List[float], torch.Tensor],
@@ -249,6 +253,7 @@ def extend_pitch(
     return h_freq
+@dropping_support
 def sinc_impulse_response(cutoff: torch.Tensor, window_size: int = 513, high_pass: bool = False):
     """Create windowed-sinc impulse response for given cutoff frequencies.
@@ -288,6 +293,7 @@ def sinc_impulse_response(cutoff: torch.Tensor, window_size: int = 513, high_pas
     return filt
+@dropping_support
 def frequency_impulse_response(magnitudes):
     """Create filter from desired frequency response
@@ -319,6 +325,7 @@ def _overlap_and_add(waveform, stride):
     return buffer
+@dropping_support
 def filter_waveform(waveform: torch.Tensor, kernels: torch.Tensor, delay_compensation: int = -1):
     """Applies filters along time axis of the given waveform.
@@ -404,6 +411,7 @@ def filter_waveform(waveform: torch.Tensor, kernels: torch.Tensor, delay_compens
     return result
+@dropping_support
 def exp_sigmoid(
     input: torch.Tensor, exponent: float = 10.0, max_value: float = 2.0, threshold: float = 1e-7
 ) -> torch.Tensor:

torchaudio/prototype/functional/_rir.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import math
 from typing import Optional, Tuple, Union
+from torchaudio._internal.module_utils import dropping_support
 import torch
 import torchaudio
@@ -176,6 +177,7 @@ def _validate_inputs(
         raise ValueError(f"`mic_array` must be a 2D Tensor with shape (num_channels, 3). Found {mic_array.shape}.")
+@dropping_support
 def simulate_rir_ism(
     room: torch.Tensor,
     source: torch.Tensor,
@@ -276,6 +278,7 @@ def simulate_rir_ism(
     return rir
+@dropping_support
 def ray_tracing(
     room: torch.Tensor,
     source: torch.Tensor,

torchaudio/prototype/functional/functional.py CHANGED Viewed

@@ -4,6 +4,7 @@ from typing import Optional
 import torch
 from torchaudio.functional.functional import _create_triangular_filterbank
+from torchaudio._internal.module_utils import dropping_support
 def _hz_to_bark(freqs: float, bark_scale: str = "traunmuller") -> float:
@@ -72,6 +73,7 @@ def _hz_to_octs(freqs, tuning=0.0, bins_per_octave=12):
     return torch.log2(freqs / (a440 / 16))
+@dropping_support
 def barkscale_fbanks(
     n_freqs: int,
     f_min: float,
@@ -129,6 +131,7 @@ def barkscale_fbanks(
     return fb
+@dropping_support
 def chroma_filterbank(
     sample_rate: int,
     n_freqs: int,

torchaudio/prototype/models/__init__.py CHANGED Viewed

@@ -1,3 +1,4 @@
+from torchaudio._internal.module_utils import dropping_const_support
 from ._conformer_wav2vec2 import (
     conformer_wav2vec2_base,
     conformer_wav2vec2_model,
@@ -10,7 +11,9 @@ from ._emformer_hubert import emformer_hubert_base, emformer_hubert_model
 from .conv_emformer import ConvEmformer
 from .hifi_gan import hifigan_vocoder, hifigan_vocoder_v1, hifigan_vocoder_v2, hifigan_vocoder_v3, HiFiGANVocoder
 from .rnnt import conformer_rnnt_base, conformer_rnnt_biasing, conformer_rnnt_biasing_base, conformer_rnnt_model
-from .rnnt_decoder import Hypothesis, RNNTBeamSearchBiasing
+from .rnnt_decoder import Hypothesis as _Hypothesis, RNNTBeamSearchBiasing
+Hypothesis = dropping_const_support(_Hypothesis, name="Hypothesis")
 __all__ = [
     "conformer_rnnt_base",

torchaudio/prototype/models/_conformer_wav2vec2.py CHANGED Viewed

@@ -7,6 +7,7 @@ from torchaudio.models import Wav2Vec2Model
 from torchaudio.models.conformer import ConformerLayer
 from torchaudio.models.rnnt import _TimeReduction
 from torchaudio.models.wav2vec2 import components
+from torchaudio._internal.module_utils import dropping_class_support, dropping_support
 def _buffered_arange(max) -> Tensor:
@@ -252,6 +253,7 @@ class ConformerEncoder(Module):
         return self._get_intermediate_outputs(x, mask=masks, num_layers=num_layers)
+@dropping_class_support
 class ConformerWav2Vec2PretrainModel(Module):
     """Conformer Wav2Vec2 pre-train model for training from scratch.
@@ -437,6 +439,7 @@ def _get_conformer_negativer_sampler(
     return NegativeSampler(preprocessor, num_negatives, cross_sample_negatives)
+@dropping_support
 def conformer_wav2vec2_model(
     extractor_input_dim: int,
     extractor_output_dim: int,
@@ -501,6 +504,7 @@ def conformer_wav2vec2_model(
     return Wav2Vec2Model(feature_extractor, encoder)
+@dropping_support
 def conformer_wav2vec2_base(
     extractor_input_dim: int = 64,
     extractor_output_dim: int = 256,
@@ -536,6 +540,7 @@ def conformer_wav2vec2_base(
     )
+@dropping_support
 def conformer_wav2vec2_pretrain_model(
     extractor_input_dim: int,
     extractor_output_dim: int,
@@ -672,6 +677,7 @@ def conformer_wav2vec2_pretrain_model(
     )
+@dropping_support
 def conformer_wav2vec2_pretrain_base(
     extractor_input_dim: int = 64,
     extractor_output_dim: int = 256,
@@ -733,6 +739,7 @@ def conformer_wav2vec2_pretrain_base(
     )
+@dropping_support
 def conformer_wav2vec2_pretrain_large(
     extractor_input_dim: int = 64,
     extractor_output_dim: int = 256,

torchaudio/prototype/models/_emformer_hubert.py CHANGED Viewed

@@ -4,6 +4,8 @@ import torch
 from torchaudio.models import Wav2Vec2Model
 from torchaudio.models.emformer import Emformer
 from torchaudio.models.rnnt import _TimeReduction
+from torchaudio._internal.module_utils import dropping_support
 class FeatureEncoder(torch.nn.Module):
@@ -217,6 +219,7 @@ def _get_emformer_encoder(
     return EmformerEncoder(emformer, output_linear, layer_norm)
+@dropping_support
 def emformer_hubert_model(
     extractor_input_dim: int,
     extractor_output_dim: int,
@@ -292,6 +295,7 @@ def emformer_hubert_model(
     return Wav2Vec2Model(feature_extractor, emformer, aux)
+@dropping_support
 def emformer_hubert_base(
     extractor_input_dim: int = 80,
     extractor_output_dim: int = 128,

torchaudio/prototype/models/conv_emformer.py CHANGED Viewed

@@ -3,6 +3,8 @@ from typing import List, Optional, Tuple
 import torch
 from torchaudio.models.emformer import _EmformerAttention, _EmformerImpl, _get_weight_init_gains
+from torchaudio._internal.module_utils import dropping_class_support, dropping_support
 def _get_activation_module(activation: str) -> torch.nn.Module:
@@ -441,6 +443,7 @@ class _ConvEmformerLayer(torch.nn.Module):
         return output_utterance, output_right_context, output_state, next_m
+@dropping_class_support
 class ConvEmformer(_EmformerImpl):
     r"""Implements the convolution-augmented streaming transformer architecture introduced in
     *Streaming Transformer Transducer based Speech Recognition Using Non-Causal Convolution*
@@ -476,6 +479,7 @@ class ConvEmformer(_EmformerImpl):
         >>> output, lengths, states = conv_emformer.infer(input, lengths, None)
     """
+    @dropping_support
     def __init__(
         self,
         input_dim: int,

torchaudio/prototype/models/hifi_gan.py CHANGED Viewed

@@ -28,8 +28,10 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from torch.nn import Conv1d, ConvTranspose1d
+from torchaudio._internal.module_utils import dropping_class_support, dropping_support
+@dropping_class_support
 class HiFiGANVocoder(torch.nn.Module):
     """Generator part of *HiFi GAN* :cite:`NEURIPS2020_c5d73680`.
     Source: https://github.com/jik876/hifi-gan/blob/4769534d45265d52a904b850da5a622601885777/models.py#L75
@@ -246,6 +248,7 @@ def get_padding(kernel_size, dilation=1):
     return int((kernel_size * dilation - dilation) / 2)
+@dropping_support
 def hifigan_vocoder(
     in_channels: int,
     upsample_rates: Tuple[int, ...],
@@ -282,6 +285,7 @@ def hifigan_vocoder(
     )
+@dropping_support
 def hifigan_vocoder_v1() -> HiFiGANVocoder:
     r"""Builds HiFiGAN Vocoder with V1 architecture :cite:`NEURIPS2020_c5d73680`.
@@ -300,6 +304,7 @@ def hifigan_vocoder_v1() -> HiFiGANVocoder:
     )
+@dropping_support
 def hifigan_vocoder_v2() -> HiFiGANVocoder:
     r"""Builds HiFiGAN Vocoder with V2 architecture :cite:`NEURIPS2020_c5d73680`.
@@ -318,6 +323,7 @@ def hifigan_vocoder_v2() -> HiFiGANVocoder:
     )
+@dropping_support
 def hifigan_vocoder_v3() -> HiFiGANVocoder:
     r"""Builds HiFiGAN Vocoder with V3 architecture :cite:`NEURIPS2020_c5d73680`.

torchaudio/prototype/models/rnnt.py CHANGED Viewed

@@ -5,6 +5,8 @@ import torch
 from torchaudio.models import Conformer, RNNT
 from torchaudio.models.rnnt import _Joiner, _Predictor, _TimeReduction, _Transcriber
+from torchaudio._internal.module_utils import dropping_support
 TrieNode = Tuple[Dict[int, "TrieNode"], int, Optional[Tuple[int, int]]]
@@ -472,6 +474,7 @@ class RNNTBiasing(RNNT):
         return output, source_lengths, jointer_activation
+@dropping_support
 def conformer_rnnt_model(
     *,
     input_dim: int,
@@ -544,6 +547,7 @@ def conformer_rnnt_model(
     return RNNT(encoder, predictor, joiner)
+@dropping_support
 def conformer_rnnt_base() -> RNNT:
     r"""Builds basic version of Conformer RNN-T model.
@@ -572,6 +576,7 @@ def conformer_rnnt_base() -> RNNT:
     )
+@dropping_support
 def conformer_rnnt_biasing(
     *,
     input_dim: int,
@@ -677,6 +682,7 @@ def conformer_rnnt_biasing(
     )
+@dropping_support
 def conformer_rnnt_biasing_base(charlist=None, biasing=True) -> RNNT:
     r"""Builds basic version of Conformer RNN-T model with TCPGen.

torchaudio/prototype/models/rnnt_decoder.py CHANGED Viewed

@@ -4,6 +4,8 @@ import torch
 from torchaudio.models import RNNT
 from torchaudio.prototype.models.rnnt import TrieNode
+from torchaudio._internal.module_utils import dropping_class_support
 __all__ = ["Hypothesis", "RNNTBeamSearchBiasing"]
@@ -80,6 +82,7 @@ def _remove_hypo(hypo: Hypothesis, hypo_list: List[Hypothesis]) -> None:
             break
+@dropping_class_support
 class RNNTBeamSearchBiasing(torch.nn.Module):
     r"""Beam search decoder for RNN-T model with biasing support.

torchaudio/prototype/pipelines/__init__.py CHANGED Viewed

@@ -1,6 +1,15 @@
 from ._vggish import VGGISH, VGGishBundle
-from .hifigan_pipeline import HIFIGAN_VOCODER_V3_LJSPEECH, HiFiGANVocoderBundle
-from .rnnt_pipeline import EMFORMER_RNNT_BASE_MUSTC, EMFORMER_RNNT_BASE_TEDLIUM3
+from .hifigan_pipeline import HIFIGAN_VOCODER_V3_LJSPEECH as _HIFIGAN_VOCODER_V3_LJSPEECH, HiFiGANVocoderBundle
+from .rnnt_pipeline import (
+    EMFORMER_RNNT_BASE_MUSTC as _EMFORMER_RNNT_BASE_MUSTC,
+    EMFORMER_RNNT_BASE_TEDLIUM3 as _EMFORMER_RNNT_BASE_TEDLIUM3
+)
+from torchaudio._internal.module_utils import dropping_const_support
+EMFORMER_RNNT_BASE_MUSTC = dropping_const_support(_EMFORMER_RNNT_BASE_MUSTC)
+EMFORMER_RNNT_BASE_TEDLIUM3 = dropping_const_support(_EMFORMER_RNNT_BASE_TEDLIUM3)
+HIFIGAN_VOCODER_V3_LJSPEECH = dropping_const_support(_HIFIGAN_VOCODER_V3_LJSPEECH)
 __all__ = [
     "EMFORMER_RNNT_BASE_MUSTC",

torchaudio/prototype/pipelines/_vggish/__init__.py CHANGED Viewed

@@ -1,3 +1,7 @@
-from ._vggish_pipeline import VGGISH, VGGishBundle
+from ._vggish_pipeline import VGGISH as _VGGISH, VGGishBundle
+from torchaudio._internal.module_utils import dropping_const_support
+VGGISH = dropping_const_support(_VGGISH, "VGGISH")
 __all__ = ["VGGISH", "VGGishBundle"]

torchaudio/prototype/pipelines/_vggish/_vggish_impl.py CHANGED Viewed

@@ -18,6 +18,8 @@ import math
 import torch
+from torchaudio._internal.module_utils import dropping_class_support
 _MEL_BREAK_FREQUENCY_HERTZ = 700.0
 _MEL_HIGH_FREQUENCY_Q = 1127.0
@@ -191,6 +193,7 @@ def _waveform_to_examples(data):
     return log_mel_examples.unsqueeze(1)
+@dropping_class_support
 class VGGish(torch.nn.Module):
     """Implementation of VGGish model :cite:`45611`."""
@@ -215,7 +218,7 @@ class VGGish(torch.nn.Module):
         return self.embedding_network(x)
+@dropping_class_support
 class VGGishInputProcessor:
     """Converts raw waveforms to batches of examples to use as inputs to VGGish."""

torchaudio/prototype/pipelines/_vggish/_vggish_pipeline.py CHANGED Viewed

@@ -1,8 +1,8 @@
 from dataclasses import dataclass
 from typing import Callable, Dict
-import torch
-import torchaudio
+from torchaudio._internal.module_utils import dropping_class_support
 from ._vggish_impl import _SAMPLE_RATE, VGGish as _VGGish, VGGishInputProcessor as _VGGishInputProcessor
@@ -12,6 +12,7 @@ def _get_state_dict():
     return torch.load(path)
+@dropping_class_support
 @dataclass
 class VGGishBundle:
     """VGGish :cite:`45611` inference pipeline ported from

torchaudio/prototype/pipelines/hifigan_pipeline.py CHANGED Viewed

@@ -9,7 +9,10 @@ from torchaudio._internal import load_state_dict_from_url
 from torchaudio.prototype.models.hifi_gan import hifigan_vocoder, HiFiGANVocoder
 from torchaudio.transforms import MelSpectrogram
+from torchaudio._internal.module_utils import dropping_support, dropping_class_support
+@dropping_class_support
 @dataclass
 class HiFiGANVocoderBundle:
     """Data class that bundles associated information to use pretrained
@@ -82,6 +85,7 @@ class HiFiGANVocoderBundle:
         state_dict = load_state_dict_from_url(url, **dl_kwargs)
         return state_dict
+    @dropping_support
     def get_vocoder(self, *, dl_kwargs=None) -> HiFiGANVocoder:
         """Construct the HiFiGAN Generator model, which can be used a vocoder, and load the pretrained weight.
@@ -99,6 +103,7 @@ class HiFiGANVocoderBundle:
         model.eval()
         return model
+    @dropping_support
     def get_mel_transform(self) -> Module:
         """Construct an object which transforms waveforms into mel spectrograms."""
         return _HiFiGANMelSpectrogram(

torchaudio/prototype/transforms/_transforms.py CHANGED Viewed

@@ -3,8 +3,9 @@ from typing import Callable, Optional
 import torch
 from torchaudio.prototype.functional import barkscale_fbanks, chroma_filterbank
 from torchaudio.transforms import Spectrogram
+from torchaudio._internal.module_utils import dropping_support, dropping_class_support
+@dropping_class_support
 class BarkScale(torch.nn.Module):
     r"""Turn a normal STFT into a bark frequency STFT with triangular filter banks.
@@ -72,6 +73,7 @@ class BarkScale(torch.nn.Module):
         return bark_specgram
+@dropping_class_support
 class InverseBarkScale(torch.nn.Module):
     r"""Estimate a STFT in normal frequency domain from bark frequency domain.
@@ -188,6 +190,7 @@ class InverseBarkScale(torch.nn.Module):
         return specgram
+@dropping_class_support
 class BarkSpectrogram(torch.nn.Module):
     r"""Create BarkSpectrogram for a raw audio signal.
@@ -297,6 +300,7 @@ class BarkSpectrogram(torch.nn.Module):
         return bark_specgram
+@dropping_class_support
 class ChromaScale(torch.nn.Module):
     r"""Converts spectrogram to chromagram.
@@ -356,6 +360,7 @@ class ChromaScale(torch.nn.Module):
         return torch.matmul(x.transpose(-1, -2), self.fb).transpose(-1, -2)
+@dropping_class_support
 class ChromaSpectrogram(torch.nn.Module):
     r"""Generates chromagram for audio signal.

torchaudio/sox_effects/sox_effects.py CHANGED Viewed

@@ -3,7 +3,7 @@ from typing import List, Optional, Tuple
 import torch
 import torchaudio
-from torchaudio._internal.module_utils import deprecated
+from torchaudio._internal.module_utils import deprecated, dropping_support
 from torchaudio.utils.sox_utils import list_effects
@@ -39,6 +39,7 @@ def shutdown_sox_effects():
     pass
+@dropping_support
 def effect_names() -> List[str]:
     """Gets list of valid sox effect names
@@ -52,6 +53,7 @@ def effect_names() -> List[str]:
     return list(list_effects().keys())
+@dropping_support
 def apply_effects_tensor(
     tensor: torch.Tensor,
     sample_rate: int,
@@ -156,6 +158,7 @@ def apply_effects_tensor(
     return sox_ext.apply_effects_tensor(tensor, sample_rate, effects, channels_first)
+@dropping_support
 def apply_effects_file(
     path: str,
     effects: List[List[str]],

torchaudio/transforms/__init__.py CHANGED Viewed

@@ -1,3 +1,4 @@
+from torchaudio._internal.module_utils import dropping_class_support
 from ._multi_channel import MVDR, PSD, RTFMVDR, SoudenMVDR
 from ._transforms import (
     AddNoise,
@@ -21,7 +22,7 @@ from ._transforms import (
     PitchShift,
     Preemphasis,
     Resample,
-    RNNTLoss,
+    RNNTLoss as _RNNTLoss,
     SlidingWindowCmn,
     SpecAugment,
     SpectralCentroid,
@@ -34,6 +35,7 @@ from ._transforms import (
     Vol,
 )
+RNNTLoss = dropping_class_support(_RNNTLoss)
 __all__ = [
     "AddNoise",

torchaudio/transforms/_transforms.py CHANGED Viewed

@@ -10,6 +10,7 @@ from torch.nn.modules.lazy import LazyModuleMixin
 from torch.nn.parameter import UninitializedParameter
 from torchaudio import functional as F
+from torchaudio.functional.functional import _rnnt_loss
 from torchaudio.functional.functional import (
     _apply_sinc_resample_kernel,
     _check_convolve_mode,
@@ -1846,7 +1847,7 @@ class RNNTLoss(torch.nn.Module):
             Tensor: Loss with the reduction option applied. If ``reduction`` is  ``"none"``, then size (batch),
             otherwise scalar.
         """
-        return F.rnnt_loss(
+        return _rnnt_loss(
             logits,
             targets,
             logit_lengths,
@@ -2134,4 +2135,4 @@ class Deemphasis(torch.nn.Module):
         Returns:
             torch.Tensor: De-emphasized waveform, with shape `(..., N)`.
         """
-        return F.deemphasis(waveform, coeff=self.coeff)
+        return F.functional.deemphasis(waveform, coeff=self.coeff)