PyPI - birder - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

birder 0.3.3py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (92) hide show

birder/common/fs_ops.py +2 -2
birder/introspection/attention_rollout.py +1 -1
birder/introspection/transformer_attribution.py +1 -1
birder/layers/layer_scale.py +1 -1
birder/net/__init__.py +2 -10
birder/net/_rope_vit_configs.py +430 -0
birder/net/_vit_configs.py +479 -0
birder/net/biformer.py +1 -0
birder/net/cait.py +5 -5
birder/net/coat.py +12 -12
birder/net/conv2former.py +3 -3
birder/net/convmixer.py +1 -1
birder/net/convnext_v1.py +1 -1
birder/net/crossvit.py +5 -5
birder/net/davit.py +1 -1
birder/net/deit.py +12 -26
birder/net/deit3.py +42 -189
birder/net/densenet.py +9 -8
birder/net/detection/deformable_detr.py +5 -2
birder/net/detection/detr.py +5 -2
birder/net/detection/efficientdet.py +1 -1
birder/net/dpn.py +1 -2
birder/net/edgenext.py +2 -1
birder/net/edgevit.py +3 -0
birder/net/efficientformer_v1.py +2 -1
birder/net/efficientformer_v2.py +18 -31
birder/net/efficientnet_v2.py +3 -0
birder/net/efficientvit_mit.py +5 -5
birder/net/fasternet.py +2 -2
birder/net/flexivit.py +22 -43
birder/net/groupmixformer.py +1 -1
birder/net/hgnet_v1.py +5 -5
birder/net/inception_next.py +1 -1
birder/net/inception_resnet_v1.py +3 -3
birder/net/inception_resnet_v2.py +7 -4
birder/net/inception_v3.py +3 -0
birder/net/inception_v4.py +3 -0
birder/net/maxvit.py +1 -1
birder/net/metaformer.py +3 -3
birder/net/mim/crossmae.py +1 -1
birder/net/mim/mae_vit.py +1 -1
birder/net/mim/simmim.py +1 -1
birder/net/mobilenet_v1.py +0 -9
birder/net/mobilenet_v2.py +38 -44
birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} +37 -10
birder/net/mobilevit_v1.py +5 -32
birder/net/mobilevit_v2.py +1 -45
birder/net/moganet.py +8 -5
birder/net/mvit_v2.py +6 -6
birder/net/nfnet.py +4 -0
birder/net/pit.py +1 -1
birder/net/pvt_v1.py +5 -5
birder/net/pvt_v2.py +5 -5
birder/net/repghost.py +1 -30
birder/net/resmlp.py +2 -2
birder/net/resnest.py +3 -0
birder/net/resnet_v1.py +125 -1
birder/net/resnet_v2.py +75 -1
birder/net/resnext.py +35 -1
birder/net/rope_deit3.py +33 -136
birder/net/rope_flexivit.py +18 -18
birder/net/rope_vit.py +3 -735
birder/net/simple_vit.py +22 -16
birder/net/smt.py +1 -1
birder/net/squeezenet.py +5 -12
birder/net/squeezenext.py +0 -24
birder/net/ssl/capi.py +1 -1
birder/net/ssl/data2vec.py +1 -1
birder/net/ssl/dino_v2.py +2 -2
birder/net/ssl/franca.py +2 -2
birder/net/ssl/i_jepa.py +1 -1
birder/net/ssl/ibot.py +1 -1
birder/net/swiftformer.py +12 -2
birder/net/swin_transformer_v2.py +1 -1
birder/net/tiny_vit.py +3 -16
birder/net/van.py +2 -2
birder/net/vit.py +35 -963
birder/net/vit_sam.py +13 -38
birder/net/xcit.py +7 -6
birder/tools/introspection.py +1 -1
birder/tools/model_info.py +3 -1
birder/version.py +1 -1
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/METADATA +1 -1
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/RECORD +88 -90
birder/net/mobilenet_v3_small.py +0 -43
birder/net/se_resnet_v1.py +0 -105
birder/net/se_resnet_v2.py +0 -59
birder/net/se_resnext.py +0 -30
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/WHEEL +0 -0
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/entry_points.txt +0 -0
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/licenses/LICENSE +0 -0
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/top_level.txt +0 -0

birder/net/efficientvit_mit.py CHANGED Viewed

@@ -54,7 +54,7 @@ class DSConv(nn.Module):
             in_channels,
             kernel_size=kernel_size,
             stride=stride,
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             groups=in_channels,
             norm_layer=norm_layer[0],
             activation_layer=act_layer[0],
@@ -96,7 +96,7 @@ class ConvBlock(nn.Module):
             mid_channels,
             kernel_size=kernel_size,
             stride=stride,
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             norm_layer=norm_layer[0],
             activation_layer=act_layer[0],
             inplace=None,
@@ -106,7 +106,7 @@ class ConvBlock(nn.Module):
             out_channels,
             kernel_size=kernel_size,
             stride=(1, 1),
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             norm_layer=norm_layer[1],
             activation_layer=act_layer[1],
             inplace=None,
@@ -148,7 +148,7 @@ class MBConv(nn.Module):
             mid_channels,
             kernel_size=kernel_size,
             stride=stride,
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             groups=mid_channels,
             norm_layer=norm_layer[1],
             activation_layer=act_layer[1],
@@ -192,7 +192,7 @@ class FusedMBConv(nn.Module):
             mid_channels,
             kernel_size=kernel_size,
             stride=stride,
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             norm_layer=norm_layer[0],
             activation_layer=act_layer[0],
             inplace=None,

birder/net/fasternet.py CHANGED Viewed

@@ -50,10 +50,10 @@ class MLPBlock(nn.Module):
         mlp_hidden_dim = int(dim * mlp_ratio)
         self.spatial_mixing = PartialConv(dim, n_div)
         self.mlp = nn.Sequential(
-            nn.Conv2d(dim, mlp_hidden_dim, 1, bias=False),
+            nn.Conv2d(dim, mlp_hidden_dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False),
             nn.BatchNorm2d(mlp_hidden_dim),
             act_layer(),
-            nn.Conv2d(mlp_hidden_dim, dim, 1, bias=False),
+            nn.Conv2d(mlp_hidden_dim, dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False),
         )
         self.drop_path = StochasticDepth(drop_path, mode="row")

birder/net/flexivit.py CHANGED Viewed

@@ -22,6 +22,8 @@ from birder.layers import MultiHeadAttentionPool
 from birder.layers import SwiGLU_FFN
 from birder.layers.activations import get_activation_module
 from birder.model_registry import registry
+from birder.net._vit_configs import BASE
+from birder.net._vit_configs import SMALL
 from birder.net.base import DetectorBackbone
 from birder.net.base import MaskedTokenOmissionMixin
 from birder.net.base import MaskedTokenRetentionMixin
@@ -583,70 +585,47 @@ class FlexiViT(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, Mask
 registry.register_model_config(
     "flexivit_s16",
     FlexiViT,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "drop_path_rate": 0.0,
-    },
+    config={"patch_size": 16, **SMALL},
 )
 registry.register_model_config(
     "flexivit_s16_ls",
     FlexiViT,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "layer_scale_init_value": 1e-5,
-        "drop_path_rate": 0.0,
-    },
+    config={"patch_size": 16, **SMALL, "layer_scale_init_value": 1e-5},
 )
+registry.register_model_config(
+    "flexivit_b16",
+    FlexiViT,
+    config={"patch_size": 16, **BASE},
+)
+# With registers
+####################
 registry.register_model_config(
     "flexivit_reg1_s16",
     FlexiViT,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "num_reg_tokens": 1,
-        "drop_path_rate": 0.0,
-    },
+    config={"patch_size": 16, **SMALL, "num_reg_tokens": 1},
 )
 registry.register_model_config(
     "flexivit_reg1_s16_rms_ls",
     FlexiViT,
     config={
         "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
+        **SMALL,
         "layer_scale_init_value": 1e-5,
         "num_reg_tokens": 1,
         "norm_layer_type": "RMSNorm",
-        "drop_path_rate": 0.0,
     },
 )
+registry.register_model_config(
+    "flexivit_reg4_b16",
+    FlexiViT,
+    config={"patch_size": 16, **BASE, "num_reg_tokens": 4},
+)
 registry.register_model_config(
     "flexivit_reg8_b14_ap",
     FlexiViT,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 12,
-        "hidden_dim": 768,
-        "mlp_dim": 3072,
-        "num_reg_tokens": 8,
-        "class_token": False,
-        "attn_pool_head": True,
-        "drop_path_rate": 0.1,
-    },
+    config={"patch_size": 14, **BASE, "num_reg_tokens": 8, "class_token": False, "attn_pool_head": True},
 )
 registry.register_weights(
@@ -661,7 +640,7 @@ registry.register_weights(
         "formats": {
             "pt": {
                 "file_size": 83.6,
-                "sha256": "8d11fb14630f2a54632aeebd09c5a9c2b3b7de1099e09de5e91f433ed915b784",
+                "sha256": "8285f4fe56401f169491cb2399d2a7c82f3a0cfbe8a5a8d3c27163024a274800",
             },
         },
         "net": {"network": "flexivit_reg1_s16_rms_ls", "tag": "dino-v2-il-all"},

birder/net/groupmixformer.py CHANGED Viewed

@@ -160,7 +160,7 @@ class ConvPosEnc(nn.Module):
             dim,
             kernel_size=kernel_size,
             stride=(1, 1),
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             groups=dim,
         )

birder/net/hgnet_v1.py CHANGED Viewed

@@ -23,8 +23,8 @@ from birder.net.base import DetectorBackbone
 class LearnableAffineBlock(nn.Module):
     def __init__(self, scale_value: float, bias_value: float) -> None:
         super().__init__()
-        self.scale = nn.Parameter(torch.tensor([scale_value]), requires_grad=True)
-        self.bias = nn.Parameter(torch.tensor([bias_value]), requires_grad=True)
+        self.scale = nn.Parameter(torch.tensor([scale_value]))
+        self.bias = nn.Parameter(torch.tensor([bias_value]))
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         return self.scale * x + self.bias
@@ -90,7 +90,7 @@ class LightConvBNAct(nn.Module):
             out_channels,
             kernel_size=kernel_size,
             stride=(1, 1),
-            padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             groups=out_channels,
             use_act=True,
             use_lab=use_lab,
@@ -180,7 +180,7 @@ class HighPerfGPUBlock(nn.Module):
                         mid_channels,
                         kernel_size=kernel_size,
                         stride=(1, 1),
-                        padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+                        padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
                         groups=1,
                         use_act=True,
                         use_lab=use_lab,
@@ -267,7 +267,7 @@ class HighPerfGPUStage(nn.Module):
                 in_channels,
                 kernel_size=(3, 3),
                 stride=stride,
-                padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+                padding=(1, 1),
                 groups=in_channels,
                 use_act=False,
                 use_lab=False,

birder/net/inception_next.py CHANGED Viewed

@@ -110,7 +110,7 @@ class InceptionNeXtBlock(nn.Module):
             nn.BatchNorm2d(channels),
             ConvMLP(channels, hidden_features=int(mlp_ratio * channels), out_features=channels),
         )
-        self.layer_scale = nn.Parameter(torch.ones(channels, 1, 1) * layer_scale, requires_grad=True)
+        self.layer_scale = nn.Parameter(torch.ones(channels, 1, 1) * layer_scale)
         self.stochastic_depth = StochasticDepth(stochastic_depth_prob, mode="row")
     def forward(self, x: torch.Tensor) -> torch.Tensor:

birder/net/inception_resnet_v1.py CHANGED Viewed

@@ -33,7 +33,7 @@ class InceptionBlockA(nn.Module):
             Conv2dNormActivation(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False),
         )
-        self.conv2d = nn.Conv2d(96, 256, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.conv2d = nn.Conv2d(96, 256, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.relu = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -84,7 +84,7 @@ class InceptionBlockB(nn.Module):
             Conv2dNormActivation(128, 128, kernel_size=(7, 1), stride=(1, 1), padding=(3, 0), bias=False),
         )
-        self.conv2d = nn.Conv2d(256, 896, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.conv2d = nn.Conv2d(256, 896, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.relu = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -140,7 +140,7 @@ class InceptionBlockC(nn.Module):
             Conv2dNormActivation(192, 192, kernel_size=(3, 1), stride=(1, 1), padding=(1, 0), bias=False),
         )
-        self.conv2d = nn.Conv2d(384, 1792, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.conv2d = nn.Conv2d(384, 1792, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.relu = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:

birder/net/inception_resnet_v2.py CHANGED Viewed

@@ -4,6 +4,9 @@ https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/incept
 Paper "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning",
 https://arxiv.org/abs/1602.07261
+Changes from original:
+* Using nn.BatchNorm2d with eps 1e-5 instead of 1e-3
 """
 # Reference license: Apache-2.0
@@ -35,7 +38,7 @@ class StemBlock(nn.Module):
             Conv2dNormActivation(96, 96, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False),
         )
         self.branch_pool = nn.Sequential(
-            nn.AvgPool2d(kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)),
+            nn.AvgPool2d(kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), count_include_pad=False),
             Conv2dNormActivation(in_channels, 64, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False),
         )
@@ -66,7 +69,7 @@ class InceptionBlockA(nn.Module):
             Conv2dNormActivation(48, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False),
         )
-        self.conv2d = nn.Conv2d(128, 320, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.conv2d = nn.Conv2d(128, 320, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.relu = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -117,7 +120,7 @@ class InceptionBlockB(nn.Module):
             Conv2dNormActivation(160, 192, kernel_size=(7, 1), stride=(1, 1), padding=(3, 0), bias=False),
         )
-        self.conv2d = nn.Conv2d(384, 1088, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.conv2d = nn.Conv2d(384, 1088, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.relu = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -174,7 +177,7 @@ class InceptionBlockC(nn.Module):
             Conv2dNormActivation(224, 256, kernel_size=(3, 1), stride=(1, 1), padding=(1, 0), bias=False),
         )
-        self.conv2d = nn.Conv2d(448, 2080, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.conv2d = nn.Conv2d(448, 2080, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.relu = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:

birder/net/inception_v3.py CHANGED Viewed

@@ -3,6 +3,9 @@ Inception v3, adapted from
 https://github.com/pytorch/vision/blob/main/torchvision/models/inception.py
 Paper "Rethinking the Inception Architecture for Computer Vision", https://arxiv.org/abs/1512.00567
+Changes from original:
+* Using nn.BatchNorm2d with eps 1e-5 instead of 1e-3
 """
 # Reference license: BSD 3-Clause

birder/net/inception_v4.py CHANGED Viewed

@@ -4,6 +4,9 @@ https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/incept
 Paper "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning",
 https://arxiv.org/abs/1602.07261
+Changes from original:
+* Using nn.BatchNorm2d with eps 1e-5 instead of 1e-3
 """
 # Reference license: Apache-2.0

birder/net/maxvit.py CHANGED Viewed

@@ -82,7 +82,7 @@ class MBConv(nn.Module):
         if stride[0] != 1 or stride[1] != 1 or in_channels != out_channels:
             self.proj = nn.Sequential(
-                nn.AvgPool2d(kernel_size=(2, 2), stride=stride, padding=(0, 0)),
+                nn.AvgPool2d(kernel_size=(3, 3), stride=stride, padding=(1, 1)),
                 nn.Conv2d(in_channels, out_channels, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=True),
             )
         else:

birder/net/metaformer.py CHANGED Viewed

@@ -81,7 +81,7 @@ class ConvMLP(nn.Module):
 class Scale(nn.Module):
     def __init__(self, dim: int, init_value: float) -> None:
         super().__init__()
-        self.scale = nn.Parameter(init_value * torch.ones(dim, 1, 1), requires_grad=True)
+        self.scale = nn.Parameter(init_value * torch.ones(dim, 1, 1))
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         return x * self.scale
@@ -104,8 +104,8 @@ class StarReLU(nn.Module):
     def __init__(self, scale_value: float = 1.0, bias_value: float = 0.0, inplace: bool = False) -> None:
         super().__init__()
         self.relu = nn.ReLU(inplace=inplace)
-        self.scale = nn.Parameter(scale_value * torch.ones(1), requires_grad=True)
-        self.bias = nn.Parameter(bias_value * torch.ones(1), requires_grad=True)
+        self.scale = nn.Parameter(scale_value * torch.ones(1))
+        self.bias = nn.Parameter(bias_value * torch.ones(1))
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         return self.scale * self.relu(x) ** 2 + self.bias

birder/net/mim/crossmae.py CHANGED Viewed

@@ -113,7 +113,7 @@ class CrossMAE(MIMBaseNet):
             dim=decoder_embed_dim,
             num_special_tokens=0,
         ).unsqueeze(0)
-        self.decoder_pos_embed = nn.Parameter(pos_embedding, requires_grad=False)
+        self.decoder_pos_embed = nn.Buffer(pos_embedding)
         self.decoder_layers = nn.ModuleList()
         for _ in range(decoder_depth):

birder/net/mim/mae_vit.py CHANGED Viewed

@@ -67,7 +67,7 @@ class MAE_ViT(MIMBaseNet):
                 dim=decoder_embed_dim,
                 num_special_tokens=self.encoder.num_special_tokens,
             )
-            self.decoder_pos_embed = nn.Parameter(pos_embedding, requires_grad=False)
+            self.decoder_pos_embed = nn.Buffer(pos_embedding)
         layers = []
         for _ in range(decoder_depth):

birder/net/mim/simmim.py CHANGED Viewed

@@ -83,7 +83,7 @@ class SimMIM(MIMBaseNet):
             bias=True,
         )
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.encoder.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.encoder.stem_width))
         # Weights initialization
         nn.init.trunc_normal_(self.mask_token, mean=0.0, std=0.02)

birder/net/mobilenet_v1.py CHANGED Viewed

@@ -107,15 +107,6 @@ class MobileNet_v1(DetectorBackbone):
         self.body = nn.Sequential(stages)
         self.features = nn.Sequential(
-            Conv2dNormActivation(
-                base * 32,
-                base * 32,
-                kernel_size=(1, 1),
-                stride=(1, 1),
-                padding=(0, 0),
-                bias=False,
-                activation_layer=None,
-            ),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),
         )

birder/net/mobilenet_v2.py CHANGED Viewed

@@ -37,36 +37,44 @@ class InvertedResidual(nn.Module):
         num_expfilter = int(round(in_channels * expansion_factor))
         self.shortcut = shortcut
-        self.block = nn.Sequential(
-            Conv2dNormActivation(
-                in_channels,
-                num_expfilter,
-                kernel_size=(1, 1),
-                stride=(1, 1),
-                padding=(0, 0),
-                bias=False,
-                activation_layer=activation_layer,
-            ),
-            Conv2dNormActivation(
-                num_expfilter,
-                num_expfilter,
-                kernel_size=kernel_size,
-                stride=stride,
-                padding=padding,
-                groups=num_expfilter,
-                bias=False,
-                activation_layer=activation_layer,
-            ),
-            Conv2dNormActivation(
-                num_expfilter,
-                out_channels,
-                kernel_size=(1, 1),
-                stride=(1, 1),
-                padding=(0, 0),
-                bias=False,
-                activation_layer=None,
-            ),
+        layers = []
+        if expansion_factor != 1.0:
+            layers.append(
+                Conv2dNormActivation(
+                    in_channels,
+                    num_expfilter,
+                    kernel_size=(1, 1),
+                    stride=(1, 1),
+                    padding=(0, 0),
+                    bias=False,
+                    activation_layer=activation_layer,
+                )
+            )
+        layers.extend(
+            [
+                Conv2dNormActivation(
+                    num_expfilter,
+                    num_expfilter,
+                    kernel_size=kernel_size,
+                    stride=stride,
+                    padding=padding,
+                    groups=num_expfilter,
+                    bias=False,
+                    activation_layer=activation_layer,
+                ),
+                Conv2dNormActivation(
+                    num_expfilter,
+                    out_channels,
+                    kernel_size=(1, 1),
+                    stride=(1, 1),
+                    padding=(0, 0),
+                    bias=False,
+                    activation_layer=None,
+                ),
+            ]
         )
+        self.block = nn.Sequential(*layers)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         if self.shortcut is True:
@@ -171,6 +179,7 @@ class MobileNet_v2(DetectorBackbone):
             ),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),
+            nn.Dropout(0.2),
         )
         self.return_channels = return_channels[1:5]
         self.embedding_size = last_channels
@@ -230,18 +239,3 @@ registry.register_model_config("mobilenet_v2_1_25", MobileNet_v2, config={"alpha
 registry.register_model_config("mobilenet_v2_1_5", MobileNet_v2, config={"alpha": 1.5})
 registry.register_model_config("mobilenet_v2_1_75", MobileNet_v2, config={"alpha": 1.75})
 registry.register_model_config("mobilenet_v2_2_0", MobileNet_v2, config={"alpha": 2.0})
-registry.register_weights(
-    "mobilenet_v2_1_0_il-common",
-    {
-        "description": "MobileNet v2 (1.0 multiplier) model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 10.6,
-                "sha256": "d6182293e98c102026f7cdc0d446aaf0e511232173c4b98c1a882c9f147be6e7",
-            }
-        },
-        "net": {"network": "mobilenet_v2_1_0", "tag": "il-common"},
-    },
-)

birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} RENAMED Viewed

@@ -3,6 +3,9 @@ MobileNet v3, adapted from
 https://github.com/pytorch/vision/blob/main/torchvision/models/mobilenetv3.py
 Paper "Searching for MobileNetV3", https://arxiv.org/abs/1905.02244
+Changes from original:
+* Using nn.BatchNorm2d with eps 1e-5 instead of 1e-3
 """
 # Reference license: BSD 3-Clause
@@ -113,7 +116,7 @@ class InvertedResidual(nn.Module):
 # pylint: disable=invalid-name
-class MobileNet_v3_Large(DetectorBackbone):
+class MobileNet_v3(DetectorBackbone):
     def __init__(
         self,
         input_channels: int,
@@ -121,12 +124,12 @@ class MobileNet_v3_Large(DetectorBackbone):
         *,
         config: Optional[dict[str, Any]] = None,
         size: Optional[tuple[int, int]] = None,
-        large: bool = True,
     ) -> None:
         super().__init__(input_channels, num_classes, config=config, size=size)
         assert self.config is not None, "must set config"
         alpha: float = self.config["alpha"]
+        large: bool = self.config["large"]
         if large is True:
             last_channels = int(round(1280 * max(1.0, alpha)))
@@ -268,15 +271,39 @@ class MobileNet_v3_Large(DetectorBackbone):
         )
-registry.register_model_config("mobilenet_v3_large_0_25", MobileNet_v3_Large, config={"alpha": 0.25})
-registry.register_model_config("mobilenet_v3_large_0_5", MobileNet_v3_Large, config={"alpha": 0.5})
-registry.register_model_config("mobilenet_v3_large_0_75", MobileNet_v3_Large, config={"alpha": 0.75})
-registry.register_model_config("mobilenet_v3_large_1_0", MobileNet_v3_Large, config={"alpha": 1.0})
-registry.register_model_config("mobilenet_v3_large_1_25", MobileNet_v3_Large, config={"alpha": 1.25})
-registry.register_model_config("mobilenet_v3_large_1_5", MobileNet_v3_Large, config={"alpha": 1.5})
-registry.register_model_config("mobilenet_v3_large_1_75", MobileNet_v3_Large, config={"alpha": 1.75})
-registry.register_model_config("mobilenet_v3_large_2_0", MobileNet_v3_Large, config={"alpha": 2.0})
+registry.register_model_config("mobilenet_v3_small_0_25", MobileNet_v3, config={"alpha": 0.25, "large": False})
+registry.register_model_config("mobilenet_v3_small_0_5", MobileNet_v3, config={"alpha": 0.5, "large": False})
+registry.register_model_config("mobilenet_v3_small_0_75", MobileNet_v3, config={"alpha": 0.75, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_0", MobileNet_v3, config={"alpha": 1.0, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_25", MobileNet_v3, config={"alpha": 1.25, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_5", MobileNet_v3, config={"alpha": 1.5, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_75", MobileNet_v3, config={"alpha": 1.75, "large": False})
+registry.register_model_config("mobilenet_v3_small_2_0", MobileNet_v3, config={"alpha": 2.0, "large": False})
+registry.register_model_config("mobilenet_v3_large_0_25", MobileNet_v3, config={"alpha": 0.25, "large": True})
+registry.register_model_config("mobilenet_v3_large_0_5", MobileNet_v3, config={"alpha": 0.5, "large": True})
+registry.register_model_config("mobilenet_v3_large_0_75", MobileNet_v3, config={"alpha": 0.75, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_0", MobileNet_v3, config={"alpha": 1.0, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_25", MobileNet_v3, config={"alpha": 1.25, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_5", MobileNet_v3, config={"alpha": 1.5, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_75", MobileNet_v3, config={"alpha": 1.75, "large": True})
+registry.register_model_config("mobilenet_v3_large_2_0", MobileNet_v3, config={"alpha": 2.0, "large": True})
+registry.register_weights(
+    "mobilenet_v3_small_1_0_il-common",
+    {
+        "description": "MobileNet v3 small (1.0 multiplier) model trained on the il-common dataset",
+        "resolution": (256, 256),
+        "formats": {
+            "pt": {
+                "file_size": 7.4,
+                "sha256": "ac53227f7513fd0c0b5204ee57403de2ab6c74c4e4d1061b9168596c6b5cea48",
+            }
+        },
+        "net": {"network": "mobilenet_v3_small_1_0", "tag": "il-common"},
+    },
+)
 registry.register_weights(
     "mobilenet_v3_large_0_75_il-common",
     {

birder/net/mobilevit_v1.py CHANGED Viewed

@@ -1,11 +1,14 @@
 """
-MobileViT, adapted from
+MobileViT v1, adapted from
 https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/mobilevit.py
 and
 https://github.com/lucidrains/vit-pytorch/blob/main/vit_pytorch/mobile_vit.py
 Paper "MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer",
 https://arxiv.org/abs/2110.02178
+Changes from original:
+* Removed classifier bias
 """
 # Reference license: Apache-2.0 and MIT
@@ -63,6 +66,7 @@ class MobileVitBlock(nn.Module):
                     attention_dropout=attn_drop,
                     drop_path=drop_path_rate,
                     activation_layer=nn.SiLU,
+                    norm_layer_eps=1e-5,
                 )
                 for _ in range(transformer_depth)
             ]
@@ -166,7 +170,6 @@ class MobileViT_v1(BaseNet):
             stride=(2, 2),
             padding=(1, 1),
             activation_layer=nn.SiLU,
-            bias=True,
         )
         layers = []
@@ -231,7 +234,6 @@ class MobileViT_v1(BaseNet):
                 stride=(1, 1),
                 padding=(0, 0),
                 activation_layer=nn.SiLU,
-                bias=True,
             ),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),
@@ -290,32 +292,3 @@ registry.register_model_config(
         "expansion": 4,
     },
 )
-registry.register_weights(
-    "mobilevit_v1_xxs_il-common",
-    {
-        "description": "MobileViT v1 XXS model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 4.2,
-                "sha256": "2b565a768ca21fd72d5ef5090ff0f8b725f3e1165cd8e56749815041e5254d26",
-            }
-        },
-        "net": {"network": "mobilevit_v1_xxs", "tag": "il-common"},
-    },
-)
-registry.register_weights(
-    "mobilevit_v1_xs_il-common",
-    {
-        "description": "MobileViT v1 XS model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 8.1,
-                "sha256": "193bcede7f0b9f4574673e95c23c6ca3b8eeb30254a32a85e93342f1d67db31b",
-            }
-        },
-        "net": {"network": "mobilevit_v1_xs", "tag": "il-common"},
-    },
-)

birder 0.3.3__py3-none-any.whl → 0.4.0__py3-none-any.whl

birder 0.3.3py3-none-any.whl → 0.4.0py3-none-any.whl