PyPI - lt-tensor - Versions diffs - 0.0.1a35__py3-none-any.whl → 0.0.1a37__py3-none-any.whl - Mend

lt-tensor 0.0.1a35py3-none-any.whl → 0.0.1a37py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

lt_tensor/model_zoo/losses/discriminators.py CHANGED Viewed

@@ -726,3 +726,235 @@ class MultiResolutionDiscriminator(_MultiDiscriminatorT):
             y_d_gs.append(y_d_g)
             fmap_gs.append(fmap_g)
         return y_d_rs, y_d_gs, fmap_rs, fmap_gs
+class DiscriminatorCQT(ConvNets):
+    """Adapted from https://github.com/open-mmlab/Amphion/blob/main/models/vocoders/gan/discriminator/mssbcqtd.py under the MIT license."""
+    def __init__(
+        self,
+        hop_length: int,
+        n_octaves: int,
+        bins_per_octave: int,
+        sampling_rate: int,
+        cqtd_filters: int = 128,
+        cqtd_max_filters: int = 1024,
+        cqtd_filters_scale: int = 1,
+        cqtd_dilations: list = [1, 2, 4],
+        cqtd_in_channels: int = 1,
+        cqtd_out_channels: int = 1,
+        cqtd_normalize_volume: bool = False,
+    ):
+        super().__init__()
+        self.filters = cqtd_filters
+        self.max_filters = cqtd_max_filters
+        self.filters_scale = cqtd_filters_scale
+        self.kernel_size = (3, 9)
+        self.dilations = cqtd_dilations
+        self.stride = (1, 2)
+        self.fs = sampling_rate
+        self.in_channels = cqtd_in_channels
+        self.out_channels = cqtd_out_channels
+        self.hop_length = hop_length
+        self.n_octaves = n_octaves
+        self.bins_per_octave = bins_per_octave
+        # Lazy-load
+        from lt_tensor.model_zoo.losses.CQT.transforms import CQT2010v2
+        self.cqt_transform = CQT2010v2(
+            sr=self.fs * 2,
+            hop_length=self.hop_length,
+            n_bins=self.bins_per_octave * self.n_octaves,
+            bins_per_octave=self.bins_per_octave,
+            output_format="Complex",
+            pad_mode="constant",
+        )
+        self.conv_pres = nn.ModuleList()
+        for _ in range(self.n_octaves):
+            self.conv_pres.append(
+                nn.Conv2d(
+                    self.in_channels * 2,
+                    self.in_channels * 2,
+                    kernel_size=self.kernel_size,
+                    padding=self.get_2d_padding(self.kernel_size),
+                )
+            )
+        self.convs = nn.ModuleList()
+        self.convs.append(
+            nn.Conv2d(
+                self.in_channels * 2,
+                self.filters,
+                kernel_size=self.kernel_size,
+                padding=self.get_2d_padding(self.kernel_size),
+            )
+        )
+        in_chs = min(self.filters_scale * self.filters, self.max_filters)
+        for i, dilation in enumerate(self.dilations):
+            out_chs = min(
+                (self.filters_scale ** (i + 1)) * self.filters, self.max_filters
+            )
+            self.convs.append(
+                weight_norm(
+                    nn.Conv2d(
+                        in_chs,
+                        out_chs,
+                        kernel_size=self.kernel_size,
+                        stride=self.stride,
+                        dilation=(dilation, 1),
+                        padding=self.get_2d_padding(self.kernel_size, (dilation, 1)),
+                    )
+                )
+            )
+            in_chs = out_chs
+        out_chs = min(
+            (self.filters_scale ** (len(self.dilations) + 1)) * self.filters,
+            self.max_filters,
+        )
+        self.convs.append(
+            weight_norm(
+                nn.Conv2d(
+                    in_chs,
+                    out_chs,
+                    kernel_size=(self.kernel_size[0], self.kernel_size[0]),
+                    padding=self.get_2d_padding(
+                        (self.kernel_size[0], self.kernel_size[0])
+                    ),
+                )
+            )
+        )
+        self.conv_post = weight_norm(
+            nn.Conv2d(
+                out_chs,
+                self.out_channels,
+                kernel_size=(self.kernel_size[0], self.kernel_size[0]),
+                padding=self.get_2d_padding((self.kernel_size[0], self.kernel_size[0])),
+            )
+        )
+        self.activation = torch.nn.LeakyReLU(negative_slope=0.1)
+        self.resample = T.Resample(orig_freq=self.fs, new_freq=self.fs * 2)
+        self.cqtd_normalize_volume = cqtd_normalize_volume
+        if self.cqtd_normalize_volume:
+            print(
+                f"[INFO] cqtd_normalize_volume set to True. Will apply DC offset removal & peak volume normalization in CQTD!"
+            )
+    def get_2d_padding(
+        self,
+        kernel_size: Tuple[int, int],
+        dilation: Tuple[int, int] = (1, 1),
+    ):
+        return (
+            ((kernel_size[0] - 1) * dilation[0]) // 2,
+            ((kernel_size[1] - 1) * dilation[1]) // 2,
+        )
+    def forward(self, x: torch.tensor) -> Tuple[torch.Tensor, List[torch.Tensor]]:
+        fmap = []
+        if self.cqtd_normalize_volume:
+            # Remove DC offset
+            x = x - x.mean(dim=-1, keepdims=True)
+            # Peak normalize the volume of input audio
+            x = 0.8 * x / (x.abs().max(dim=-1, keepdim=True)[0] + 1e-9)
+        x = self.resample(x)
+        z = self.cqt_transform(x)
+        z_amplitude = z[:, :, :, 0].unsqueeze(1)
+        z_phase = z[:, :, :, 1].unsqueeze(1)
+        z = torch.cat([z_amplitude, z_phase], dim=1)
+        z = torch.permute(z, (0, 1, 3, 2))  # [B, C, W, T] -> [B, C, T, W]
+        latent_z = []
+        for i in range(self.n_octaves):
+            latent_z.append(
+                self.conv_pres[i](
+                    z[
+                        :,
+                        :,
+                        :,
+                        i * self.bins_per_octave : (i + 1) * self.bins_per_octave,
+                    ]
+                )
+            )
+        latent_z = torch.cat(latent_z, dim=-1)
+        for i, l in enumerate(self.convs):
+            latent_z = l(latent_z)
+            latent_z = self.activation(latent_z)
+            fmap.append(latent_z)
+        latent_z = self.conv_post(latent_z)
+        return latent_z, fmap
+class MultiScaleSubbandCQTDiscriminator(_MultiDiscriminatorT):
+    def __init__(
+        self,
+        sampling_rate: int,
+        cqtd_filters: int = 128,
+        cqtd_max_filters: int = 1024,
+        cqtd_filters_scale: Number = 1,
+        cqtd_dilations: list = [1, 2, 4],
+        cqtd_hop_lengths: list = [512, 256, 256],
+        cqtd_n_octaves: list = [9, 9, 9],
+        cqtd_bins_per_octaves: list = [24, 36, 48],
+        cqtd_in_channels: int = 1,
+        cqtd_out_channels: int = 1,
+        cqtd_normalize_volume: bool = False,
+    ):
+        super().__init__()
+        self.discriminators = nn.ModuleList(
+            [
+                DiscriminatorCQT(
+                    hop_length=cqtd_hop_lengths[i],
+                    n_octaves=cqtd_n_octaves[i],
+                    bins_per_octave=cqtd_bins_per_octaves[i],
+                    sampling_rate=sampling_rate,
+                    cqtd_filters=cqtd_filters,
+                    cqtd_max_filters=cqtd_max_filters,
+                    cqtd_filters_scale=cqtd_filters_scale,
+                    cqtd_dilations=cqtd_dilations,
+                    cqtd_in_channels=cqtd_in_channels,
+                    cqtd_out_channels=cqtd_out_channels,
+                    cqtd_normalize_volume=cqtd_normalize_volume,
+                )
+                for i in range(len(cqtd_hop_lengths))
+            ]
+        )
+    def forward(self, y: torch.Tensor, y_hat: torch.Tensor) -> Tuple[
+        List[torch.Tensor],
+        List[torch.Tensor],
+        List[List[torch.Tensor]],
+        List[List[torch.Tensor]],
+    ]:
+        y_d_rs = []
+        y_d_gs = []
+        fmap_rs = []
+        fmap_gs = []
+        for disc in self.discriminators:
+            y_d_r, fmap_r = disc(y)
+            y_d_g, fmap_g = disc(y_hat)
+            y_d_rs.append(y_d_r)
+            fmap_rs.append(fmap_r)
+            y_d_gs.append(y_d_g)
+            fmap_gs.append(fmap_g)
+        return y_d_rs, y_d_gs, fmap_rs, fmap_gs

lt-tensor 0.0.1a35__py3-none-any.whl → 0.0.1a37__py3-none-any.whl

lt-tensor 0.0.1a35py3-none-any.whl → 0.0.1a37py3-none-any.whl