PyPI - broccoli-ml - Versions diffs - 0.1.41__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

broccoli-ml 0.1.41py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

broccoli/cnn.py +404 -322
broccoli/transformer.py +96 -82
broccoli/vit.py +169 -125
{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/METADATA +1 -1
{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/RECORD +7 -7
{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/LICENSE +0 -0
{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/WHEEL +0 -0

broccoli/vit.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import math
 from typing import Optional
-from .transformer import TransformerEncoder
-from .cnn import ConvLayer, ConcatPool
+from .transformer import TransformerEncoder, DenoisingAutoEncoder
+from .cnn import SpaceToDepth, calculate_output_spatial_size, spatial_tuple
 from .activation import ReLU, SquaredReLU, GELU, SwiGLU
 from einops import einsum
 from einops.layers.torch import Rearrange
@@ -61,38 +61,34 @@ class CCTEncoder(nn.Module):
     def __init__(
         self,
-        image_size=32,
-        conv_kernel_size=3,
-        conv_pooling_type="maxpool",
-        conv_pooling_kernel_size=3,
-        conv_pooling_kernel_stride=2,
-        conv_pooling_kernel_padding=1,
-        conv_dropout=0.0,
+        input_size=(32, 32),
+        cnn_in_channels=3,
+        cnn_kernel_size=3,
+        cnn_kernel_stride=1,
+        cnn_kernel_padding="same",
+        cnn_kernel_dilation=1,
+        cnn_kernel_groups=1,
+        cnn_activation: nn.Module = nn.ReLU,
+        cnn_activation_kwargs: Optional[dict] = None,
+        cnn_dropout=0.0,
+        pooling_type="maxpool",
+        pooling_kernel_size=3,
+        pooling_kernel_stride=2,
+        pooling_kernel_padding=1,
         transformer_position_embedding="absolute",  # absolute or relative
         transformer_embedding_size=256,
         transformer_layers=7,
         transformer_heads=4,
         transformer_mlp_ratio=2,
         transformer_bos_tokens=4,
-        tranformer_share_kv=True,
-        tranformer_max_subtract=True,
-        tranformer_d_model_scale=True,
-        tranformer_log_length_scale=True,
-        tranformer_quiet_attention=True,
-        cnn_activation: nn.Module = nn.ReLU,
-        cnn_activation_kwargs: Optional[dict] = None,
         transformer_activation: nn.Module = nn.GELU,
         transformer_activation_kwargs: Optional[dict] = None,
         mlp_dropout=0.0,
         msa_dropout=0.1,
         stochastic_depth=0.1,
         linear_module=nn.Linear,
-        image_channels=3,
-        batch_norm=False,
+        batch_norm=True,
     ):
-        if conv_pooling_type not in ["maxpool", "concat"]:
-            raise NotImplementedError("Pooling type must be maxpool or concat")
         super().__init__()
         if cnn_activation_kwargs is not None:
@@ -107,55 +103,122 @@ class CCTEncoder(nn.Module):
         else:
             self.transformer_activation = transformer_activation()
-        self.image_size = image_size
+        self.input_size = input_size
+        self.spatial_dimensions = len(self.input_size)
+        if self.spatial_dimensions == 1:
+            maxpoolxd = nn.MaxPool1d
+            convxd = nn.Conv1d
+            batchnormxd = nn.BatchNorm1d
+            spatial_dim_names = "D1"
+        elif self.spatial_dimensions == 2:
+            maxpoolxd = nn.MaxPool2d
+            convxd = nn.Conv2d
+            batchnormxd = nn.BatchNorm2d
+            spatial_dim_names = "D1 D2"
+        elif self.spatial_dimensions == 3:
+            maxpoolxd = nn.MaxPool3d
+            convxd = nn.Conv3d
+            batchnormxd = nn.BatchNorm3d
+            spatial_dim_names = "D1 D2 D3"
+        else:
+            raise NotImplementedError(
+                "`input_size` must be a tuple of length 1, 2, or 3."
+            )
-        # XXX: We assume a square image here
-        output_size = math.floor(
-            (image_size + 2 * conv_pooling_kernel_padding - conv_pooling_kernel_size)
-            / conv_pooling_kernel_stride
-            + 1
-        )  # output of pooling
+        cnn_output_size = calculate_output_spatial_size(
+            input_size,
+            kernel_size=cnn_kernel_size,
+            stride=cnn_kernel_stride,
+            padding=cnn_kernel_padding,
+            dilation=cnn_kernel_dilation,
+        )
-        self.sequence_length = output_size**2
+        pooling_output_size = (
+            cnn_output_size
+            if pooling_type is None
+            else calculate_output_spatial_size(
+                cnn_output_size,
+                kernel_size=pooling_kernel_size,
+                stride=pooling_kernel_stride,
+                padding=pooling_kernel_padding,
+                dilation=1,
+            )
+        )
+        self.sequence_length = math.prod(pooling_output_size)  # One token per voxel
+        pooling_kernel_voxels = math.prod(
+            spatial_tuple(pooling_kernel_size, self.spatial_dimensions)
+        )
-        if conv_pooling_type == "maxpool":
-            conv_out_channels = transformer_embedding_size
-        elif conv_pooling_type == "concat":
-            conv_out_channels = int(
-                math.floor(transformer_embedding_size / (conv_pooling_kernel_size**2))
+        if pooling_type in ["maxpool", None]:
+            cnn_out_channels = transformer_embedding_size
+        elif pooling_type == "concat":
+            cnn_out_channels = math.floor(
+                transformer_embedding_size / pooling_kernel_voxels
             )
+        else:
+            raise NotImplementedError("Pooling type must be maxpool, concat or None")
+        cnn_activation_out_channels = cnn_out_channels
-        # This if block rhymes:
+        # This block rhymes:
         if cnn_activation.__name__.endswith("GLU"):
-            conv_out_channels *= 2
-        self.conv = ConvLayer(
-            image_channels,
-            conv_out_channels,
-            kernel_size=conv_kernel_size,
-            stride=1,
-            padding="same",
-            linear_module=linear_module,
+            cnn_out_channels *= 2
+        self.cnn = convxd(
+            cnn_in_channels,
+            cnn_out_channels,
+            cnn_kernel_size,
+            stride=cnn_kernel_stride,
+            padding=cnn_kernel_padding,
+            dilation=cnn_kernel_dilation,
+            groups=cnn_kernel_groups,
+            bias=True,
+            padding_mode="zeros",
+        )
+        self.activate_and_dropout = nn.Sequential(
+            *[
+                Rearrange(  # rearrange in case we're using XGLU activation
+                    f"N C {spatial_dim_names} -> N {spatial_dim_names} C"
+                ),
+                self.cnn_activation,
+                Rearrange(f"N {spatial_dim_names} C -> N C {spatial_dim_names}"),
+                nn.Dropout(cnn_dropout),
+                (
+                    batchnormxd(cnn_activation_out_channels)
+                    if batch_norm
+                    else nn.Identity()
+                ),
+            ]
         )
-        if conv_pooling_type == "maxpool":
+        if pooling_type is None:
             self.pool = nn.Sequential(
                 *[
-                    Rearrange(  # rearrange in case we're using XGLU activation
-                        "N C H W -> N H W C"
-                    ),
-                    self.cnn_activation,
-                    Rearrange("N H W C -> N C H W"),
-                    nn.MaxPool2d(
-                        conv_pooling_kernel_size,
-                        stride=conv_pooling_kernel_stride,
-                        padding=conv_pooling_kernel_padding,
+                    Rearrange(
+                        f"N C {spatial_dim_names} -> N ({spatial_dim_names}) C"
+                    ),  # for transformer
+                ]
+            )
+        elif pooling_type == "maxpool":
+            self.pool = nn.Sequential(
+                *[
+                    maxpoolxd(
+                        pooling_kernel_size,
+                        stride=pooling_kernel_stride,
+                        padding=pooling_kernel_padding,
                     ),
-                    Rearrange("N C H W -> N (H W) C"),  # for transformer
+                    Rearrange(
+                        f"N C {spatial_dim_names} -> N ({spatial_dim_names}) C"
+                    ),  # for transformer
                 ]
             )
-        elif conv_pooling_type == "concat":
+        elif pooling_type == "concat":
             if transformer_activation_kwargs is not None:
                 self.concatpool_activation = transformer_activation(
@@ -164,44 +227,29 @@ class CCTEncoder(nn.Module):
             else:
                 self.concatpool_activation = transformer_activation()
-            concatpool_out_channels = conv_pooling_kernel_size**2 * conv_out_channels
-            if cnn_activation.__name__.endswith("GLU"):
-                cnn_activation_output_channels = concatpool_out_channels / 2
-            else:
-                cnn_activation_output_channels = concatpool_out_channels
+            concatpool_out_channels = (
+                pooling_kernel_voxels * cnn_activation_out_channels
+            )
             self.pool = nn.Sequential(
                 *[
-                    ConcatPool(
-                        conv_pooling_kernel_size,
-                        stride=conv_pooling_kernel_stride,
-                        padding=conv_pooling_kernel_padding,
-                    ),
-                    Rearrange(  # rearrange in case we're using XGLU activation
-                        "N C H W -> N H W C"
+                    SpaceToDepth(
+                        pooling_kernel_size,
+                        stride=pooling_kernel_stride,
+                        padding=pooling_kernel_padding,
+                        spatial_dimensions=self.spatial_dimensions,
                     ),
-                    self.cnn_activation,
-                    nn.Dropout(conv_dropout),
-                    Rearrange(  # rearrange in case we're using XGLU activation
-                        "N H W C -> N C H W"
+                    Rearrange(  # for transformer
+                        f"N C {spatial_dim_names} -> N ({spatial_dim_names}) C"
                     ),
-                    nn.BatchNorm2d(cnn_activation_output_channels),
-                    Rearrange(  # rearrange in case we're using XGLU activation
-                        "N C H W -> N (H W) C"
-                    ),
-                    nn.Linear(
-                        cnn_activation_output_channels,
-                        (
-                            2 * transformer_embedding_size * transformer_mlp_ratio
-                            if transformer_activation.__name__.endswith("GLU")
-                            else transformer_embedding_size * transformer_mlp_ratio
-                        ),
-                    ),
-                    self.concatpool_activation,
-                    nn.Linear(
-                        transformer_embedding_size * transformer_mlp_ratio,
+                    DenoisingAutoEncoder(
+                        concatpool_out_channels,
+                        transformer_mlp_ratio,
                         transformer_embedding_size,
+                        activation=transformer_activation,
+                        activation_kwargs=transformer_activation_kwargs,
+                        dropout=0.0,
+                        linear_module=linear_module,
                     ),
                 ]
             )
@@ -213,7 +261,7 @@ class CCTEncoder(nn.Module):
                 transformer_layers,
                 transformer_heads,
                 position_embedding_type=transformer_position_embedding,
-                source_size=(output_size, output_size),
+                source_size=pooling_output_size,
                 mlp_ratio=transformer_mlp_ratio,
                 activation=transformer_activation,
                 activation_kwargs=transformer_activation_kwargs,
@@ -221,11 +269,6 @@ class CCTEncoder(nn.Module):
                 msa_dropout=msa_dropout,
                 stochastic_depth=stochastic_depth,
                 causal=False,
-                share_kv=tranformer_share_kv,
-                max_subtract=tranformer_max_subtract,
-                d_model_scale=tranformer_d_model_scale,
-                log_length_scale=tranformer_log_length_scale,
-                quiet_attention=tranformer_quiet_attention,
                 linear_module=linear_module,
                 bos_tokens=transformer_bos_tokens,
             )
@@ -234,8 +277,9 @@ class CCTEncoder(nn.Module):
         self.encoder = nn.Sequential(
             *[
-                nn.BatchNorm2d(image_channels) if batch_norm else nn.Identity(),
-                self.conv,
+                batchnormxd(cnn_in_channels) if batch_norm else nn.Identity(),
+                self.cnn,
+                self.activate_and_dropout,
                 self.pool,
                 self.transformer,
             ]
@@ -255,8 +299,16 @@ class CCT(nn.Module):
     def __init__(
         self,
-        image_size=32,
-        conv_kernel_size=3,  # Only 2 is supported for eigenvector initialisation
+        input_size=(32, 32),
+        cnn_in_channels=3,
+        cnn_kernel_size=3,
+        cnn_kernel_stride=1,
+        cnn_kernel_padding="same",
+        cnn_kernel_dilation=1,
+        cnn_kernel_groups=1,
+        cnn_activation: nn.Module = nn.ReLU,
+        cnn_activation_kwargs: Optional[dict] = None,
+        cnn_dropout=0.0,
         pooling_type="maxpool",
         pooling_kernel_size=3,
         pooling_kernel_stride=2,
@@ -267,22 +319,14 @@ class CCT(nn.Module):
         transformer_heads=4,
         transformer_mlp_ratio=2,
         transformer_bos_tokens=4,
-        tranformer_share_kv=True,
-        tranformer_max_subtract=True,
-        tranformer_d_model_scale=True,
-        tranformer_log_length_scale=True,
-        tranformer_quiet_attention=True,
-        cnn_activation: nn.Module = nn.ReLU,
-        cnn_activation_kwargs: Optional[dict] = None,
         transformer_activation: nn.Module = nn.GELU,
         transformer_activation_kwargs: Optional[dict] = None,
-        mlp_dropout=0.0,  # The original paper got best performance from mlp_dropout=0.
-        msa_dropout=0.1,  # "" msa_dropout=0.1
-        stochastic_depth=0.1,  # "" stochastic_depth=0.1
-        image_classes=100,
+        mlp_dropout=0.0,
+        msa_dropout=0.1,
+        stochastic_depth=0.1,
         linear_module=nn.Linear,
-        image_channels=3,
-        batch_norm=False,
+        batch_norm=True,
+        image_classes=100,
     ):
         super().__init__()
@@ -304,32 +348,32 @@ class CCT(nn.Module):
             }[transformer_activation]
         self.encoder = CCTEncoder(
-            image_size=image_size,
-            conv_kernel_size=conv_kernel_size,
-            conv_pooling_type=pooling_type,
-            conv_pooling_kernel_size=pooling_kernel_size,
-            conv_pooling_kernel_stride=pooling_kernel_stride,
-            conv_pooling_kernel_padding=pooling_kernel_padding,
+            input_size=input_size,
+            cnn_in_channels=cnn_in_channels,
+            cnn_kernel_size=cnn_kernel_size,
+            cnn_kernel_stride=cnn_kernel_stride,
+            cnn_kernel_padding=cnn_kernel_padding,
+            cnn_kernel_dilation=cnn_kernel_dilation,
+            cnn_kernel_groups=cnn_kernel_groups,
+            cnn_activation=cnn_activation,
+            cnn_activation_kwargs=cnn_activation_kwargs,
+            cnn_dropout=cnn_dropout,
+            pooling_type=pooling_type,
+            pooling_kernel_size=pooling_kernel_size,
+            pooling_kernel_stride=pooling_kernel_stride,
+            pooling_kernel_padding=pooling_kernel_padding,
             transformer_position_embedding=transformer_position_embedding,
             transformer_embedding_size=transformer_embedding_size,
             transformer_layers=transformer_layers,
             transformer_heads=transformer_heads,
             transformer_mlp_ratio=transformer_mlp_ratio,
             transformer_bos_tokens=transformer_bos_tokens,
-            tranformer_share_kv=tranformer_share_kv,
-            tranformer_max_subtract=tranformer_max_subtract,
-            tranformer_d_model_scale=tranformer_d_model_scale,
-            tranformer_log_length_scale=tranformer_log_length_scale,
-            tranformer_quiet_attention=tranformer_quiet_attention,
-            cnn_activation=cnn_activation,
-            cnn_activation_kwargs=cnn_activation_kwargs,
             transformer_activation=transformer_activation,
             transformer_activation_kwargs=transformer_activation_kwargs,
             mlp_dropout=mlp_dropout,
             msa_dropout=msa_dropout,
             stochastic_depth=stochastic_depth,
             linear_module=linear_module,
-            image_channels=image_channels,
             batch_norm=batch_norm,
         )
         self.pool = SequencePool(

{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: broccoli-ml
-Version: 0.1.41
+Version: 0.2.0
 Summary: Some useful Pytorch models, circa 2025
 License: MIT
 Author: Nicholas Bailey

{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/RECORD RENAMED Viewed

@@ -3,15 +3,15 @@ broccoli/activation.py,sha256=jmKSNcq3VfZdVm8Ed65iiUB0ZfqmP_7lmEGkAWSIMdQ,2519
 broccoli/assets/2025_resnet_imagenet_1k_pretrained_state_dict.pkl,sha256=RZpPupWxFaVfgZrK-gBgfW1hj78oMEGhVWTbjRB3qMo,46835797
 broccoli/assets/cifar100_eigenvectors_size_2.pt,sha256=DjXDOXMeuMpIqNuGhX9z-OWYVqZwIMScSXZApRr9JjU,2501
 broccoli/assets/cifar100_eigenvectors_size_3.pt,sha256=gL6k0xtXYiYP6ZSvEiMBdJ7kIkT0AngTpDJHFQqwgxA,7173
-broccoli/cnn.py,sha256=pv8ttV_-CmNRpYO1HINR-Z3WemaK5SBd2iojZ7E2QBA,14680
+broccoli/cnn.py,sha256=jeRyKIAMWu1E3iyI14MGgSZuZivPMh12iqkqW9ilNjo,17785
 broccoli/eigenpatches.py,sha256=J6n2usN1oQuHEHYiBNyYpn_a9eQcHjOBiIlvSei520Y,2413
 broccoli/linear.py,sha256=0XYCi3ckTEKwAgBOMUSJP2HsnrroOH8eyrhRdpANG2w,1298
 broccoli/rope.py,sha256=hw7kBPNR9GQXj4GxyIAffsGKPfcTPOFh8Bc7oEHtaZY,12108
 broccoli/tensor.py,sha256=E2JK5mQwJf75e23-JGcDoT7QxQf89DJReUo2et1LhRY,1716
-broccoli/transformer.py,sha256=gFBIEowGFPSgQhM1RwsRtQlw_WzVJPY-LJyf1MLtPek,16277
+broccoli/transformer.py,sha256=23R58t3TLZMb9ulhCtQ3gXu0mPlfyPvLM8TaGOpaz58,16310
 broccoli/utils.py,sha256=htq_hOsdhUhL0nJi9WkKiEYOjEoWqFpK5X49PtgTf-0,299
-broccoli/vit.py,sha256=JC-NWM1Ys7JOrapH9Ka6ED8C4yViJ2Bv3d0SfFgDaZ8,12876
-broccoli_ml-0.1.41.dist-info/LICENSE,sha256=0BAzJE5BqQ7Iixp_AFdB2W1uO-HCRX-Qfun8PHt6yVM,1073
-broccoli_ml-0.1.41.dist-info/METADATA,sha256=dEBaKtK3p19LI1gW7bExrE_xHmUaT1lhp7GoMwI510s,1257
-broccoli_ml-0.1.41.dist-info/WHEEL,sha256=b4K_helf-jlQoXBBETfwnf4B04YC67LOev0jo4fX5m8,88
-broccoli_ml-0.1.41.dist-info/RECORD,,
+broccoli/vit.py,sha256=4BHh8ohcVMr_iGVD-FRnyRnKQaaMMjdgs4fixeBm90M,13602
+broccoli_ml-0.2.0.dist-info/LICENSE,sha256=0BAzJE5BqQ7Iixp_AFdB2W1uO-HCRX-Qfun8PHt6yVM,1073
+broccoli_ml-0.2.0.dist-info/METADATA,sha256=pvawWlKwj4Ee9e0VWqmu4jdK9fTLuTU82_NP4tCOVaA,1256
+broccoli_ml-0.2.0.dist-info/WHEEL,sha256=b4K_helf-jlQoXBBETfwnf4B04YC67LOev0jo4fX5m8,88
+broccoli_ml-0.2.0.dist-info/RECORD,,

{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/LICENSE RENAMED Viewed

File without changes

{broccoli_ml-0.1.41.dist-info → broccoli_ml-0.2.0.dist-info}/WHEEL RENAMED Viewed

File without changes

broccoli-ml 0.1.41__py3-none-any.whl → 0.2.0__py3-none-any.whl

broccoli-ml 0.1.41py3-none-any.whl → 0.2.0py3-none-any.whl