RubyGems - torchaudio - Versions diffs - 0.2.0 → 0.2.1 - Mend

torchaudio 0.2.0 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +5 -0
data/README.md +10 -0
data/ext/torchaudio/extconf.rb +0 -1
data/lib/torchaudio.rb +4 -0
data/lib/torchaudio/functional.rb +29 -3
data/lib/torchaudio/transforms/compute_deltas.rb +15 -0
data/lib/torchaudio/transforms/fade.rb +74 -0
data/lib/torchaudio/transforms/mel_spectrogram.rb +2 -0
data/lib/torchaudio/transforms/mfcc.rb +43 -0
data/lib/torchaudio/transforms/vol.rb +31 -0
data/lib/torchaudio/version.rb +1 -1
metadata +7 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 9488128781f307b653965c253dcacbe246ebaf27bf4e6359b030d9a93bafc1b2
-  data.tar.gz: 5dc18368bdef8945ecaeb1ad2d60771df98bfdd8c356ad2fcdd2b343b8c02b51
+  metadata.gz: 9ed4c14921f1eee18f5e08ddabfae51e09a9b5a7ef408f1dd67fdf7bfe9622fe
+  data.tar.gz: 1e37d5b9abed9cab7bf56a8c30a769bc8ff8f8a3e15e78bbb772847c444571b2
 SHA512:
-  metadata.gz: ddabdfa32632e9d2af024a0f7b67f2add1b694a9a7ef9036f2a1c2f9338106069e6ec1afaea50a0c6f68a8aaa695e57c492d981fb7b3d704fd28ef420c3e2519
-  data.tar.gz: 83131487d0566bb957bab2388e888843ca9b108ec95644811fb702c57bfad628bb41a1ea2b9d1b728090230b48767175bc53af7f0601e8acf8c4d299b5a6de33
+  metadata.gz: 9ca5436d7e4309dd9659fdce7ee893b122e9da96e9f7b15bf00de5dea32c635e2828a99939f04ef5bf0d9494ab89957829a65002dc3e855fa8a66f54abbbd181
+  data.tar.gz: d62b2a137c19d3b24facb11eda5c1b81be5841120b505877b8617bee2b9f183dbe4b4d42a95af27447346a3d48476d7faec48b57cd89b88c0ddc9709f1b5d51b

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,8 @@
+## 0.2.1 (2021-07-16)
+- Added `create_dct` method
+- Added `ComputeDeltas`, `Fade`, `MFCC`, and `Vol` transforms
 ## 0.2.0 (2021-05-23)
 - Updated to Rice 4

data/README.md CHANGED Viewed

@@ -51,10 +51,16 @@ TorchAudio::Transforms::Spectrogram.new.call(waveform)
 Supported transforms are:
+- AmplitudeToDB
+- ComputeDeltas
+- Fade
+- MelScale
 - MelSpectrogram
+- MFCC
 - MuLawDecoding
 - MuLawEncoding
 - Spectrogram
+- Vol
 ## Functional
@@ -64,7 +70,11 @@ TorchAudio::Functional.lowpass_biquad(waveform, sample_rate, cutoff_freq)
 Supported functions are:
+- amplitude_to_DB
 - compute_deltas
+- create_dct
+- create_fb_matrix
+- DB_to_amplitude
 - dither
 - gain
 - highpass_biquad

data/ext/torchaudio/extconf.rb CHANGED Viewed

@@ -22,7 +22,6 @@ apple_clang = RbConfig::CONFIG["CC_VERSION_MESSAGE"] =~ /apple clang/i
 # check omp first
 if have_library("omp") || have_library("gomp")
-  $CXXFLAGS += " -DAT_PARALLEL_OPENMP=1"
   $CXXFLAGS += " -Xclang" if apple_clang
   $CXXFLAGS += " -fopenmp"
 end

data/lib/torchaudio.rb CHANGED Viewed

@@ -15,12 +15,16 @@ require "set"
 require "torchaudio/datasets/utils"
 require "torchaudio/datasets/yesno"
 require "torchaudio/functional"
+require "torchaudio/transforms/compute_deltas"
+require "torchaudio/transforms/fade"
 require "torchaudio/transforms/mel_scale"
 require "torchaudio/transforms/mel_spectrogram"
 require "torchaudio/transforms/mu_law_encoding"
 require "torchaudio/transforms/mu_law_decoding"
 require "torchaudio/transforms/spectrogram"
 require "torchaudio/transforms/amplitude_to_db"
+require "torchaudio/transforms/mfcc"
+require "torchaudio/transforms/vol"
 require "torchaudio/version"
 module TorchAudio

data/lib/torchaudio/functional.rb CHANGED Viewed

@@ -12,9 +12,18 @@ module TorchAudio
         waveform = waveform.reshape(-1, shape[-1])
         # default values are consistent with librosa.core.spectrum._spectrogram
-        spec_f = Torch.stft(
-          waveform, n_fft, hop_length: hop_length, win_length: win_length, window: window, center: true, pad_mode: "reflect", normalized: false, onesided: true
-        )
+        spec_f =
+          Torch.stft(
+            waveform,
+            n_fft,
+            hop_length: hop_length,
+            win_length: win_length,
+            window: window,
+            center: true,
+            pad_mode: "reflect",
+            normalized: false,
+            onesided: true
+          )
         # unpack batch
         spec_f = spec_f.reshape(shape[0..-2] + spec_f.shape[-3..-1])
@@ -240,6 +249,23 @@ module TorchAudio
         Torch.pow(Torch.pow(10.0, db * 0.1), power) * ref
       end
+      def create_dct(n_mfcc, n_mels, norm: nil)
+        n = Torch.arange(n_mels.to_f)
+        k = Torch.arange(n_mfcc.to_f).unsqueeze!(1)
+        dct = Torch.cos((n + 0.5) * k * Math::PI / n_mels.to_f)
+        if norm.nil?
+          dct *= 2.0
+        else
+          raise ArgumentError, "Invalid DCT norm value" unless norm == :ortho
+          dct[0] *= 1.0 / Math.sqrt(2.0)
+          dct *= Math.sqrt(2.0 / n_mels)
+        end
+        dct.t
+      end
       private
       def _apply_probability_distribution(waveform, density_function: "TPDF")

data/lib/torchaudio/transforms/compute_deltas.rb ADDED Viewed

@@ -0,0 +1,15 @@
+module TorchAudio
+  module Transforms
+    class ComputeDeltas < Torch::NN::Module
+      def initialize(win_length: 5, mode: "replicate")
+        super()
+        @win_length = win_length
+        @mode = mode
+      end
+      def forward(specgram)
+        F.compute_deltas(specgram, win_length: @win_length, mode: @mode)
+      end
+    end
+  end
+end

data/lib/torchaudio/transforms/fade.rb ADDED Viewed

@@ -0,0 +1,74 @@
+module TorchAudio
+  module Transforms
+    class Fade < Torch::NN::Module
+      def initialize(fade_in_len: 0, fade_out_len: 0, fade_shape: "linear")
+        super()
+        @fade_in_len = fade_in_len
+        @fade_out_len = fade_out_len
+        @fade_shape = fade_shape
+      end
+      def forward(waveform)
+        waveform_length = waveform.size[-1]
+        device = waveform.device
+        fade_in(waveform_length).to(device) * fade_out(waveform_length).to(device) * waveform
+      end
+      private
+      def fade_in(waveform_length)
+        fade = Torch.linspace(0, 1, @fade_in_len)
+        ones = Torch.ones(waveform_length - @fade_in_len)
+        if @fade_shape == "linear"
+          fade = fade
+        end
+        if @fade_shape == "exponential"
+          fade = Torch.pow(2, (fade - 1)) * fade
+        end
+        if @fade_shape == "logarithmic"
+          fade = Torch.log10(0.1 + fade) + 1
+        end
+        if @fade_shape == "quarter_sine"
+          fade = Torch.sin(fade * Math::PI / 2)
+        end
+        if @fade_shape == "half_sine"
+          fade = Torch.sin(fade * Math::PI - Math::PI / 2) / 2 + 0.5
+        end
+        Torch.cat([fade, ones]).clamp!(0, 1)
+      end
+      def fade_out(waveform_length)
+        fade = Torch.linspace(0, 1, @fade_out_len)
+        ones = Torch.ones(waveform_length - @fade_out_len)
+        if @fade_shape == "linear"
+          fade = - fade + 1
+        end
+        if @fade_shape == "exponential"
+          fade = Torch.pow(2, - fade) * (1 - fade)
+        end
+        if @fade_shape == "logarithmic"
+          fade = Torch.log10(1.1 - fade) + 1
+        end
+        if @fade_shape == "quarter_sine"
+          fade = Torch.sin(fade * Math::PI / 2 + Math::PI / 2)
+        end
+        if @fade_shape == "half_sine"
+          fade = Torch.sin(fade * Math::PI + Math::PI / 2) / 2 + 0.5
+        end
+        Torch.cat([ones, fade]).clamp!(0, 1)
+      end
+    end
+  end
+end

data/lib/torchaudio/transforms/mel_spectrogram.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 module TorchAudio
   module Transforms
     class MelSpectrogram < Torch::NN::Module
+      attr_reader :n_mels
       def initialize(
         sample_rate: 16000, n_fft: 400, win_length: nil, hop_length: nil, f_min: 0.0,
         f_max: nil, pad: 0, n_mels: 128, window_fn: Torch.method(:hann_window),

data/lib/torchaudio/transforms/mfcc.rb ADDED Viewed

@@ -0,0 +1,43 @@
+module TorchAudio
+  module Transforms
+    class MFCC < Torch::NN::Module
+      SUPPORTED_DCT_TYPES = [2]
+      def initialize(sample_rate: 16000, n_mfcc: 40, dct_type: 2, norm: :ortho, log_mels: false, melkwargs: {})
+        super()
+        raise ArgumentError, "DCT type not supported: #{dct_type}" unless SUPPORTED_DCT_TYPES.include?(dct_type)
+        @sample_rate = sample_rate
+        @n_mfcc = n_mfcc
+        @dct_type = dct_type
+        @norm = norm
+        @top_db = 80.0
+        @amplitude_to_db = TorchAudio::Transforms::AmplitudeToDB.new(stype: :power, top_db: @top_db)
+        @melspectrogram = TorchAudio::Transforms::MelSpectrogram.new(sample_rate: @sample_rate, **melkwargs)
+        raise ArgumentError, "Cannot select more MFCC coefficients than # mel bins" if @n_mfcc > @melspectrogram.n_mels
+        dct_mat = F.create_dct(@n_mfcc, @melspectrogram.n_mels, norm: @norm)
+        register_buffer('dct_mat', dct_mat)
+        @log_mels = log_mels
+      end
+      def forward(waveform)
+        mel_specgram = @melspectrogram.(waveform)
+        if @log_mels
+          mel_specgram = Torch.log(mel_specgram + 1e-6)
+        else
+          mel_specgram = @amplitude_to_db.(mel_specgram)
+        end
+        Torch
+          .matmul(mel_specgram.transpose(-2, -1), @dct_mat)
+          .transpose(-2, -1)
+      end
+    end
+  end
+end

data/lib/torchaudio/transforms/vol.rb ADDED Viewed

@@ -0,0 +1,31 @@
+module TorchAudio
+  module Transforms
+    class Vol < Torch::NN::Module
+      def initialize(gain, gain_type: "amplitude")
+        super()
+        @gain = gain
+        @gain_type = gain_type
+        if ["amplitude", "power"].include?(gain_type) && gain < 0
+          raise ArgumentError, "If gain_type = amplitude or power, gain must be positive."
+        end
+      end
+      def forward(waveform)
+        if @gain_type == "amplitude"
+          waveform = waveform * @gain
+        end
+        if @gain_type == "db"
+          waveform = F.gain(waveform, @gain)
+        end
+        if @gain_type == "power"
+          waveform = F.gain(waveform, 10 * Math.log10(@gain))
+        end
+        Torch.clamp(waveform, -1, 1)
+      end
+    end
+  end
+end

data/lib/torchaudio/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module TorchAudio
-  VERSION = "0.2.0"
+  VERSION = "0.2.1"
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: torchaudio
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.2.1
 platform: ruby
 authors:
 - Andrew Kane
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-05-23 00:00:00.000000000 Z
+date: 2021-07-16 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: torch-rb
@@ -64,11 +64,15 @@ files:
 - lib/torchaudio/datasets/yesno.rb
 - lib/torchaudio/functional.rb
 - lib/torchaudio/transforms/amplitude_to_db.rb
+- lib/torchaudio/transforms/compute_deltas.rb
+- lib/torchaudio/transforms/fade.rb
 - lib/torchaudio/transforms/mel_scale.rb
 - lib/torchaudio/transforms/mel_spectrogram.rb
+- lib/torchaudio/transforms/mfcc.rb
 - lib/torchaudio/transforms/mu_law_decoding.rb
 - lib/torchaudio/transforms/mu_law_encoding.rb
 - lib/torchaudio/transforms/spectrogram.rb
+- lib/torchaudio/transforms/vol.rb
 - lib/torchaudio/version.rb
 homepage: https://github.com/ankane/torchaudio
 licenses:
@@ -89,7 +93,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.2.3
+rubygems_version: 3.2.22
 signing_key:
 specification_version: 4
 summary: Data manipulation and transformation for audio signal processing