PyPI - birder - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (216) hide show

birder/adversarial/base.py +1 -1
birder/adversarial/simba.py +4 -4
birder/common/cli.py +1 -1
birder/common/fs_ops.py +13 -13
birder/common/lib.py +2 -2
birder/common/masking.py +3 -3
birder/common/training_cli.py +24 -2
birder/common/training_utils.py +28 -4
birder/data/collators/detection.py +9 -1
birder/data/transforms/detection.py +27 -8
birder/data/transforms/mosaic.py +1 -1
birder/datahub/classification.py +3 -3
birder/inference/classification.py +3 -3
birder/inference/data_parallel.py +1 -1
birder/inference/detection.py +5 -5
birder/inference/wbf.py +1 -1
birder/introspection/attention_rollout.py +6 -6
birder/introspection/feature_pca.py +4 -4
birder/introspection/gradcam.py +1 -1
birder/introspection/guided_backprop.py +2 -2
birder/introspection/transformer_attribution.py +4 -4
birder/layers/attention_pool.py +2 -2
birder/layers/layer_scale.py +1 -1
birder/model_registry/model_registry.py +2 -1
birder/net/__init__.py +4 -10
birder/net/_rope_vit_configs.py +435 -0
birder/net/_vit_configs.py +466 -0
birder/net/alexnet.py +5 -5
birder/net/base.py +28 -3
birder/net/biformer.py +18 -17
birder/net/cait.py +7 -7
birder/net/cas_vit.py +1 -1
birder/net/coat.py +27 -27
birder/net/conv2former.py +3 -3
birder/net/convmixer.py +1 -1
birder/net/convnext_v1.py +3 -11
birder/net/convnext_v1_iso.py +198 -0
birder/net/convnext_v2.py +2 -10
birder/net/crossformer.py +9 -9
birder/net/crossvit.py +6 -6
birder/net/cspnet.py +1 -1
birder/net/cswin_transformer.py +10 -10
birder/net/davit.py +11 -11
birder/net/deit.py +68 -29
birder/net/deit3.py +69 -204
birder/net/densenet.py +9 -8
birder/net/detection/__init__.py +4 -0
birder/net/detection/{yolo_anchors.py → _yolo_anchors.py} +5 -5
birder/net/detection/base.py +6 -5
birder/net/detection/deformable_detr.py +31 -30
birder/net/detection/detr.py +14 -11
birder/net/detection/efficientdet.py +10 -29
birder/net/detection/faster_rcnn.py +22 -22
birder/net/detection/fcos.py +8 -8
birder/net/detection/plain_detr.py +852 -0
birder/net/detection/retinanet.py +4 -4
birder/net/detection/rt_detr_v1.py +81 -25
birder/net/detection/rt_detr_v2.py +1147 -0
birder/net/detection/ssd.py +5 -5
birder/net/detection/yolo_v2.py +12 -12
birder/net/detection/yolo_v3.py +19 -19
birder/net/detection/yolo_v4.py +16 -16
birder/net/detection/yolo_v4_tiny.py +3 -3
birder/net/dpn.py +1 -2
birder/net/edgenext.py +5 -4
birder/net/edgevit.py +13 -14
birder/net/efficientformer_v1.py +3 -2
birder/net/efficientformer_v2.py +18 -31
birder/net/efficientnet_v2.py +3 -0
birder/net/efficientvim.py +9 -9
birder/net/efficientvit_mit.py +7 -7
birder/net/efficientvit_msft.py +3 -3
birder/net/fasternet.py +3 -3
birder/net/fastvit.py +5 -12
birder/net/flexivit.py +50 -58
birder/net/focalnet.py +5 -9
birder/net/gc_vit.py +11 -11
birder/net/ghostnet_v1.py +1 -1
birder/net/ghostnet_v2.py +1 -1
birder/net/groupmixformer.py +13 -13
birder/net/hgnet_v1.py +6 -6
birder/net/hgnet_v2.py +4 -4
birder/net/hiera.py +6 -6
birder/net/hieradet.py +9 -9
birder/net/hornet.py +3 -3
birder/net/iformer.py +4 -4
birder/net/inception_next.py +5 -15
birder/net/inception_resnet_v1.py +3 -3
birder/net/inception_resnet_v2.py +7 -4
birder/net/inception_v3.py +3 -0
birder/net/inception_v4.py +3 -0
birder/net/levit.py +3 -3
birder/net/lit_v1.py +13 -15
birder/net/lit_v1_tiny.py +9 -9
birder/net/lit_v2.py +14 -15
birder/net/maxvit.py +11 -23
birder/net/metaformer.py +5 -5
birder/net/mim/crossmae.py +6 -6
birder/net/mim/fcmae.py +3 -5
birder/net/mim/mae_hiera.py +7 -7
birder/net/mim/mae_vit.py +4 -6
birder/net/mim/simmim.py +3 -4
birder/net/mobilenet_v1.py +0 -9
birder/net/mobilenet_v2.py +38 -44
birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} +37 -10
birder/net/mobilenet_v4_hybrid.py +4 -4
birder/net/mobileone.py +5 -12
birder/net/mobilevit_v1.py +7 -34
birder/net/mobilevit_v2.py +6 -54
birder/net/moganet.py +8 -5
birder/net/mvit_v2.py +30 -30
birder/net/nextvit.py +2 -2
birder/net/nfnet.py +4 -0
birder/net/pit.py +11 -26
birder/net/pvt_v1.py +9 -9
birder/net/pvt_v2.py +10 -16
birder/net/regionvit.py +15 -15
birder/net/regnet.py +1 -1
birder/net/repghost.py +5 -35
birder/net/repvgg.py +3 -5
birder/net/repvit.py +2 -2
birder/net/resmlp.py +2 -2
birder/net/resnest.py +4 -1
birder/net/resnet_v1.py +125 -1
birder/net/resnet_v2.py +75 -1
birder/net/resnext.py +35 -1
birder/net/rope_deit3.py +62 -151
birder/net/rope_flexivit.py +46 -33
birder/net/rope_vit.py +44 -758
birder/net/sequencer2d.py +3 -4
birder/net/shufflenet_v1.py +1 -1
birder/net/shufflenet_v2.py +1 -1
birder/net/simple_vit.py +69 -21
birder/net/smt.py +8 -8
birder/net/squeezenet.py +5 -12
birder/net/squeezenext.py +0 -24
birder/net/ssl/barlow_twins.py +1 -1
birder/net/ssl/byol.py +2 -2
birder/net/ssl/capi.py +4 -4
birder/net/ssl/data2vec.py +1 -1
birder/net/ssl/data2vec2.py +1 -1
birder/net/ssl/dino_v2.py +13 -3
birder/net/ssl/franca.py +28 -4
birder/net/ssl/i_jepa.py +5 -5
birder/net/ssl/ibot.py +1 -1
birder/net/ssl/mmcr.py +1 -1
birder/net/swiftformer.py +13 -3
birder/net/swin_transformer_v1.py +4 -5
birder/net/swin_transformer_v2.py +5 -8
birder/net/tiny_vit.py +6 -19
birder/net/transnext.py +19 -19
birder/net/uniformer.py +4 -4
birder/net/van.py +2 -2
birder/net/vgg.py +1 -10
birder/net/vit.py +72 -987
birder/net/vit_parallel.py +35 -20
birder/net/vit_sam.py +23 -48
birder/net/vovnet_v2.py +1 -1
birder/net/xcit.py +16 -13
birder/ops/msda.py +4 -4
birder/ops/swattention.py +10 -10
birder/results/classification.py +3 -3
birder/results/gui.py +8 -8
birder/scripts/benchmark.py +37 -12
birder/scripts/evaluate.py +1 -1
birder/scripts/predict.py +3 -3
birder/scripts/predict_detection.py +2 -2
birder/scripts/train.py +63 -15
birder/scripts/train_barlow_twins.py +10 -7
birder/scripts/train_byol.py +10 -7
birder/scripts/train_capi.py +15 -10
birder/scripts/train_data2vec.py +10 -7
birder/scripts/train_data2vec2.py +10 -7
birder/scripts/train_detection.py +29 -14
birder/scripts/train_dino_v1.py +13 -9
birder/scripts/train_dino_v2.py +27 -14
birder/scripts/train_dino_v2_dist.py +28 -15
birder/scripts/train_franca.py +16 -9
birder/scripts/train_i_jepa.py +12 -9
birder/scripts/train_ibot.py +15 -11
birder/scripts/train_kd.py +64 -17
birder/scripts/train_mim.py +11 -8
birder/scripts/train_mmcr.py +11 -8
birder/scripts/train_rotnet.py +11 -7
birder/scripts/train_simclr.py +10 -7
birder/scripts/train_vicreg.py +10 -7
birder/tools/adversarial.py +4 -4
birder/tools/auto_anchors.py +5 -5
birder/tools/avg_model.py +1 -1
birder/tools/convert_model.py +30 -22
birder/tools/det_results.py +1 -1
birder/tools/download_model.py +1 -1
birder/tools/ensemble_model.py +1 -1
birder/tools/introspection.py +12 -3
birder/tools/labelme_to_coco.py +2 -2
birder/tools/model_info.py +15 -15
birder/tools/pack.py +8 -8
birder/tools/quantize_model.py +53 -4
birder/tools/results.py +2 -2
birder/tools/show_det_iterator.py +19 -6
birder/tools/show_iterator.py +2 -2
birder/tools/similarity.py +5 -5
birder/tools/stats.py +4 -6
birder/tools/voc_to_coco.py +1 -1
birder/version.py +1 -1
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/METADATA +3 -3
birder-0.4.1.dist-info/RECORD +300 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/WHEEL +1 -1
birder/net/mobilenet_v3_small.py +0 -43
birder/net/se_resnet_v1.py +0 -105
birder/net/se_resnet_v2.py +0 -59
birder/net/se_resnext.py +0 -30
birder-0.3.3.dist-info/RECORD +0 -299
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/entry_points.txt +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/licenses/LICENSE +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/top_level.txt +0 -0

birder/net/mobilenet_v2.py CHANGED Viewed

@@ -37,36 +37,44 @@ class InvertedResidual(nn.Module):
         num_expfilter = int(round(in_channels * expansion_factor))
         self.shortcut = shortcut
-        self.block = nn.Sequential(
-            Conv2dNormActivation(
-                in_channels,
-                num_expfilter,
-                kernel_size=(1, 1),
-                stride=(1, 1),
-                padding=(0, 0),
-                bias=False,
-                activation_layer=activation_layer,
-            ),
-            Conv2dNormActivation(
-                num_expfilter,
-                num_expfilter,
-                kernel_size=kernel_size,
-                stride=stride,
-                padding=padding,
-                groups=num_expfilter,
-                bias=False,
-                activation_layer=activation_layer,
-            ),
-            Conv2dNormActivation(
-                num_expfilter,
-                out_channels,
-                kernel_size=(1, 1),
-                stride=(1, 1),
-                padding=(0, 0),
-                bias=False,
-                activation_layer=None,
-            ),
+        layers = []
+        if expansion_factor != 1.0:
+            layers.append(
+                Conv2dNormActivation(
+                    in_channels,
+                    num_expfilter,
+                    kernel_size=(1, 1),
+                    stride=(1, 1),
+                    padding=(0, 0),
+                    bias=False,
+                    activation_layer=activation_layer,
+                )
+            )
+        layers.extend(
+            [
+                Conv2dNormActivation(
+                    num_expfilter,
+                    num_expfilter,
+                    kernel_size=kernel_size,
+                    stride=stride,
+                    padding=padding,
+                    groups=num_expfilter,
+                    bias=False,
+                    activation_layer=activation_layer,
+                ),
+                Conv2dNormActivation(
+                    num_expfilter,
+                    out_channels,
+                    kernel_size=(1, 1),
+                    stride=(1, 1),
+                    padding=(0, 0),
+                    bias=False,
+                    activation_layer=None,
+                ),
+            ]
         )
+        self.block = nn.Sequential(*layers)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         if self.shortcut is True:
@@ -171,6 +179,7 @@ class MobileNet_v2(DetectorBackbone):
             ),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),
+            nn.Dropout(0.2),
         )
         self.return_channels = return_channels[1:5]
         self.embedding_size = last_channels
@@ -230,18 +239,3 @@ registry.register_model_config("mobilenet_v2_1_25", MobileNet_v2, config={"alpha
 registry.register_model_config("mobilenet_v2_1_5", MobileNet_v2, config={"alpha": 1.5})
 registry.register_model_config("mobilenet_v2_1_75", MobileNet_v2, config={"alpha": 1.75})
 registry.register_model_config("mobilenet_v2_2_0", MobileNet_v2, config={"alpha": 2.0})
-registry.register_weights(
-    "mobilenet_v2_1_0_il-common",
-    {
-        "description": "MobileNet v2 (1.0 multiplier) model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 10.6,
-                "sha256": "d6182293e98c102026f7cdc0d446aaf0e511232173c4b98c1a882c9f147be6e7",
-            }
-        },
-        "net": {"network": "mobilenet_v2_1_0", "tag": "il-common"},
-    },
-)

birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} RENAMED Viewed

@@ -3,6 +3,9 @@ MobileNet v3, adapted from
 https://github.com/pytorch/vision/blob/main/torchvision/models/mobilenetv3.py
 Paper "Searching for MobileNetV3", https://arxiv.org/abs/1905.02244
+Changes from original:
+* Using nn.BatchNorm2d with eps 1e-5 instead of 1e-3
 """
 # Reference license: BSD 3-Clause
@@ -113,7 +116,7 @@ class InvertedResidual(nn.Module):
 # pylint: disable=invalid-name
-class MobileNet_v3_Large(DetectorBackbone):
+class MobileNet_v3(DetectorBackbone):
     def __init__(
         self,
         input_channels: int,
@@ -121,12 +124,12 @@ class MobileNet_v3_Large(DetectorBackbone):
         *,
         config: Optional[dict[str, Any]] = None,
         size: Optional[tuple[int, int]] = None,
-        large: bool = True,
     ) -> None:
         super().__init__(input_channels, num_classes, config=config, size=size)
         assert self.config is not None, "must set config"
         alpha: float = self.config["alpha"]
+        large: bool = self.config["large"]
         if large is True:
             last_channels = int(round(1280 * max(1.0, alpha)))
@@ -268,15 +271,39 @@ class MobileNet_v3_Large(DetectorBackbone):
         )
-registry.register_model_config("mobilenet_v3_large_0_25", MobileNet_v3_Large, config={"alpha": 0.25})
-registry.register_model_config("mobilenet_v3_large_0_5", MobileNet_v3_Large, config={"alpha": 0.5})
-registry.register_model_config("mobilenet_v3_large_0_75", MobileNet_v3_Large, config={"alpha": 0.75})
-registry.register_model_config("mobilenet_v3_large_1_0", MobileNet_v3_Large, config={"alpha": 1.0})
-registry.register_model_config("mobilenet_v3_large_1_25", MobileNet_v3_Large, config={"alpha": 1.25})
-registry.register_model_config("mobilenet_v3_large_1_5", MobileNet_v3_Large, config={"alpha": 1.5})
-registry.register_model_config("mobilenet_v3_large_1_75", MobileNet_v3_Large, config={"alpha": 1.75})
-registry.register_model_config("mobilenet_v3_large_2_0", MobileNet_v3_Large, config={"alpha": 2.0})
+registry.register_model_config("mobilenet_v3_small_0_25", MobileNet_v3, config={"alpha": 0.25, "large": False})
+registry.register_model_config("mobilenet_v3_small_0_5", MobileNet_v3, config={"alpha": 0.5, "large": False})
+registry.register_model_config("mobilenet_v3_small_0_75", MobileNet_v3, config={"alpha": 0.75, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_0", MobileNet_v3, config={"alpha": 1.0, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_25", MobileNet_v3, config={"alpha": 1.25, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_5", MobileNet_v3, config={"alpha": 1.5, "large": False})
+registry.register_model_config("mobilenet_v3_small_1_75", MobileNet_v3, config={"alpha": 1.75, "large": False})
+registry.register_model_config("mobilenet_v3_small_2_0", MobileNet_v3, config={"alpha": 2.0, "large": False})
+registry.register_model_config("mobilenet_v3_large_0_25", MobileNet_v3, config={"alpha": 0.25, "large": True})
+registry.register_model_config("mobilenet_v3_large_0_5", MobileNet_v3, config={"alpha": 0.5, "large": True})
+registry.register_model_config("mobilenet_v3_large_0_75", MobileNet_v3, config={"alpha": 0.75, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_0", MobileNet_v3, config={"alpha": 1.0, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_25", MobileNet_v3, config={"alpha": 1.25, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_5", MobileNet_v3, config={"alpha": 1.5, "large": True})
+registry.register_model_config("mobilenet_v3_large_1_75", MobileNet_v3, config={"alpha": 1.75, "large": True})
+registry.register_model_config("mobilenet_v3_large_2_0", MobileNet_v3, config={"alpha": 2.0, "large": True})
+registry.register_weights(
+    "mobilenet_v3_small_1_0_il-common",
+    {
+        "description": "MobileNet v3 small (1.0 multiplier) model trained on the il-common dataset",
+        "resolution": (256, 256),
+        "formats": {
+            "pt": {
+                "file_size": 7.4,
+                "sha256": "ac53227f7513fd0c0b5204ee57403de2ab6c74c4e4d1061b9168596c6b5cea48",
+            }
+        },
+        "net": {"network": "mobilenet_v3_small_1_0", "tag": "il-common"},
+    },
+)
 registry.register_weights(
     "mobilenet_v3_large_0_75_il-common",
     {

birder/net/mobilenet_v4_hybrid.py CHANGED Viewed

@@ -142,24 +142,24 @@ class MultiQueryAttention(nn.Module):
         self.output = nn.Sequential(*output_layers)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, C, H, W) = x.size()
+        B, C, H, W = x.size()
         q = self.query(x)
         q = q.reshape(B, self.num_heads, self.key_dim, -1)
         q = q.transpose(-1, -2).contiguous()
         k = self.key(x)
-        (B, C, _, _) = k.size()
+        B, C, _, _ = k.size()
         k = k.reshape(B, C, -1).transpose(1, 2)
         k = k.unsqueeze(1).contiguous()
         v = self.value(x)
-        (B, C, _, _) = v.size()
+        B, C, _, _ = v.size()
         v = v.reshape(B, C, -1).transpose(1, 2)
         v = v.unsqueeze(1).contiguous()
         # Calculate attention score
         attn_score = F.scaled_dot_product_attention(q, k, v, dropout_p=0.0)  # pylint: disable=not-callable
-        (B, _, _, C) = attn_score.size()
+        B, _, _, C = attn_score.size()
         feat_dim = C * self.num_heads
         attn_score = attn_score.transpose(1, 2)
         attn_score = (

birder/net/mobileone.py CHANGED Viewed

@@ -61,13 +61,7 @@ class MobileOneBlock(nn.Module):
         if reparameterized is True:
             self.reparam_conv = nn.Conv2d(
-                in_channels,
-                out_channels,
-                kernel_size=kernel_size,
-                stride=stride,
-                padding=padding,
-                groups=groups,
-                bias=True,
+                in_channels, out_channels, kernel_size=kernel_size, stride=stride, padding=padding, groups=groups
             )
         else:
             self.reparam_conv = None
@@ -144,7 +138,7 @@ class MobileOneBlock(nn.Module):
         if self.reparameterized is True:
             return
-        (kernel, bias) = self._get_kernel_bias()
+        kernel, bias = self._get_kernel_bias()
         self.reparam_conv = nn.Conv2d(
             in_channels=self.in_channels,
             out_channels=self.out_channels,
@@ -152,7 +146,6 @@ class MobileOneBlock(nn.Module):
             stride=self.stride,
             padding=self.padding,
             groups=self.groups,
-            bias=True,
         )
         self.reparam_conv.weight.data = kernel
         self.reparam_conv.bias.data = bias
@@ -178,7 +171,7 @@ class MobileOneBlock(nn.Module):
         kernel_scale = 0
         bias_scale = 0
         if self.rbr_scale is not None:
-            (kernel_scale, bias_scale) = self._fuse_bn_tensor(self.rbr_scale)
+            kernel_scale, bias_scale = self._fuse_bn_tensor(self.rbr_scale)
             pad = self.kernel_size // 2
             kernel_scale = F.pad(kernel_scale, [pad, pad, pad, pad])
@@ -186,13 +179,13 @@ class MobileOneBlock(nn.Module):
         kernel_identity = 0
         bias_identity = 0
         if self.rbr_skip is not None:
-            (kernel_identity, bias_identity) = self._fuse_bn_tensor(self.rbr_skip)
+            kernel_identity, bias_identity = self._fuse_bn_tensor(self.rbr_skip)
         # Get weights and bias of conv branches
         kernel_conv = 0
         bias_conv = 0
         for ix in range(self.num_conv_branches):
-            (_kernel, _bias) = self._fuse_bn_tensor(self.rbr_conv[ix])
+            _kernel, _bias = self._fuse_bn_tensor(self.rbr_conv[ix])
             kernel_conv += _kernel
             bias_conv += _bias

birder/net/mobilevit_v1.py CHANGED Viewed

@@ -1,11 +1,14 @@
 """
-MobileViT, adapted from
+MobileViT v1, adapted from
 https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/mobilevit.py
 and
 https://github.com/lucidrains/vit-pytorch/blob/main/vit_pytorch/mobile_vit.py
 Paper "MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer",
 https://arxiv.org/abs/2110.02178
+Changes from original:
+* Removed classifier bias
 """
 # Reference license: Apache-2.0 and MIT
@@ -63,6 +66,7 @@ class MobileVitBlock(nn.Module):
                     attention_dropout=attn_drop,
                     drop_path=drop_path_rate,
                     activation_layer=nn.SiLU,
+                    norm_layer_eps=1e-5,
                 )
                 for _ in range(transformer_depth)
             ]
@@ -97,8 +101,8 @@ class MobileVitBlock(nn.Module):
         x = self.conv_1x1(x)
         # Unfold (feature map -> patches)
-        (patch_h, patch_w) = self.patch_size
-        (B, C, H, W) = x.shape
+        patch_h, patch_w = self.patch_size
+        B, C, H, W = x.shape
         new_h, new_w = math.ceil(H / patch_h) * patch_h, math.ceil(W / patch_w) * patch_w
         num_patch_h = new_h // patch_h  # n_h, n_w
         num_patch_w = new_w // patch_w
@@ -166,7 +170,6 @@ class MobileViT_v1(BaseNet):
             stride=(2, 2),
             padding=(1, 1),
             activation_layer=nn.SiLU,
-            bias=True,
         )
         layers = []
@@ -231,7 +234,6 @@ class MobileViT_v1(BaseNet):
                 stride=(1, 1),
                 padding=(0, 0),
                 activation_layer=nn.SiLU,
-                bias=True,
             ),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),
@@ -290,32 +292,3 @@ registry.register_model_config(
         "expansion": 4,
     },
 )
-registry.register_weights(
-    "mobilevit_v1_xxs_il-common",
-    {
-        "description": "MobileViT v1 XXS model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 4.2,
-                "sha256": "2b565a768ca21fd72d5ef5090ff0f8b725f3e1165cd8e56749815041e5254d26",
-            }
-        },
-        "net": {"network": "mobilevit_v1_xxs", "tag": "il-common"},
-    },
-)
-registry.register_weights(
-    "mobilevit_v1_xs_il-common",
-    {
-        "description": "MobileViT v1 XS model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 8.1,
-                "sha256": "193bcede7f0b9f4574673e95c23c6ca3b8eeb30254a32a85e93342f1d67db31b",
-            }
-        },
-        "net": {"network": "mobilevit_v1_xs", "tag": "il-common"},
-    },
-)

birder/net/mobilevit_v2.py CHANGED Viewed

@@ -63,7 +63,7 @@ class LinearSelfAttention(nn.Module):
         # Project x into query, key and value
         # Query --> [B, 1, P, N]
         # value, key --> [B, d, P, N]
-        (query, key, value) = qkv.split([1, self.embed_dim, self.embed_dim], dim=1)
+        query, key, value = qkv.split([1, self.embed_dim, self.embed_dim], dim=1)
         # apply softmax along N dimension
         context_scores = F.softmax(query, dim=-1)
@@ -98,14 +98,10 @@ class LinearTransformerBlock(nn.Module):
         self.norm2 = nn.GroupNorm(num_groups=1, num_channels=embed_dim)
         self.mlp = nn.Sequential(
-            nn.Conv2d(
-                embed_dim, int(embed_dim * mlp_ratio), kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=True
-            ),
+            nn.Conv2d(embed_dim, int(embed_dim * mlp_ratio), kernel_size=(1, 1), stride=(1, 1), padding=(0, 0)),
             nn.SiLU(),
             nn.Dropout(drop),
-            nn.Conv2d(
-                int(embed_dim * mlp_ratio), embed_dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=True
-            ),
+            nn.Conv2d(int(embed_dim * mlp_ratio), embed_dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0)),
         )
         self.drop_path2 = StochasticDepth(drop_path, mode="row")
@@ -159,20 +155,15 @@ class MobileVitBlock(nn.Module):
         self.norm = nn.GroupNorm(num_groups=1, num_channels=transformer_dim)
         self.conv_proj = Conv2dNormActivation(
-            transformer_dim,
-            channels,
-            kernel_size=(1, 1),
-            stride=(1, 1),
-            padding=(0, 0),
-            activation_layer=nn.SiLU,
+            transformer_dim, channels, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), activation_layer=None
         )
         self.patch_size = patch_size
         self.patch_area = self.patch_size[0] * self.patch_size[1]
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, C, H, W) = x.shape
-        (patch_h, patch_w) = self.patch_size
+        B, C, H, W = x.shape
+        patch_h, patch_w = self.patch_size
         new_h = math.ceil(H / patch_h) * patch_h
         new_w = math.ceil(W / patch_w) * patch_w
         num_patch_h, num_patch_w = new_h // patch_h, new_w // patch_w  # n_h, n_w
@@ -236,7 +227,6 @@ class MobileViT_v2(DetectorBackbone):
             stride=(2, 2),
             padding=(1, 1),
             activation_layer=nn.SiLU,
-            bias=True,
         )
         stages: OrderedDict[str, nn.Module] = OrderedDict()
@@ -340,15 +330,6 @@ class MobileViT_v2(DetectorBackbone):
         x = self.forward_features(x)
         return self.features(x)
-    def create_classifier(self, embed_dim: Optional[int] = None) -> nn.Module:
-        if self.num_classes == 0:
-            return nn.Identity()
-        if embed_dim is None:
-            embed_dim = self.embedding_size
-        return nn.Linear(embed_dim, self.num_classes, bias=False)
 registry.register_model_config("mobilevit_v2_0_25", MobileViT_v2, config={"width_factor": 0.25})
 registry.register_model_config("mobilevit_v2_0_5", MobileViT_v2, config={"width_factor": 0.5})
@@ -358,32 +339,3 @@ registry.register_model_config("mobilevit_v2_1_25", MobileViT_v2, config={"width
 registry.register_model_config("mobilevit_v2_1_5", MobileViT_v2, config={"width_factor": 1.5})
 registry.register_model_config("mobilevit_v2_1_75", MobileViT_v2, config={"width_factor": 1.75})
 registry.register_model_config("mobilevit_v2_2_0", MobileViT_v2, config={"width_factor": 2.0})
-registry.register_weights(
-    "mobilevit_v2_1_0_il-common",
-    {
-        "description": "MobileViT v2 with width multiplier of 1.0 trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 17.6,
-                "sha256": "2b45b7f2ffe3dd129d9a7e9690d2dfd0f93ac60f24d118b920a51bcb950fd95e",
-            }
-        },
-        "net": {"network": "mobilevit_v2_1_0", "tag": "il-common"},
-    },
-)
-registry.register_weights(
-    "mobilevit_v2_1_5_il-common",
-    {
-        "description": "MobileViT v2 with width multiplier of 1.5 trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 38.8,
-                "sha256": "acd28c3ee653b62c69ad765c1d99827cea5051deb6dbdd7b9c8d7612782c86a3",
-            }
-        },
-        "net": {"network": "mobilevit_v2_1_5", "tag": "il-common"},
-    },
-)

birder/net/moganet.py CHANGED Viewed

@@ -4,6 +4,9 @@ https://github.com/Westlake-AI/MogaNet/blob/main/models/moganet.py
 Paper "MogaNet: Multi-order Gated Aggregation Network",
 https://arxiv.org/abs/2211.03295
+Changes from original:
+* Removed biases before norms
 """
 # Reference license: Apache-2.0
@@ -30,7 +33,7 @@ from birder.net.base import TokenRetentionResultType
 class ElementScale(nn.Module):
     def __init__(self, embed_dims: int, init_value: float) -> None:
         super().__init__()
-        self.scale = nn.Parameter(init_value * torch.ones((1, embed_dims, 1, 1)), requires_grad=True)
+        self.scale = nn.Parameter(init_value * torch.ones((1, embed_dims, 1, 1)))
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         return x * self.scale
@@ -179,14 +182,14 @@ class MogaBlock(nn.Module):
         super().__init__()
         # Spatial attention
-        self.norm1 = nn.BatchNorm2d(embed_dims, eps=1e-5)
+        self.norm1 = nn.BatchNorm2d(embed_dims)
         self.attn = MultiOrderGatedAggregation(
             embed_dims, attn_dw_dilation=attn_dw_dilation, attn_channel_split=attn_channel_split
         )
-        self.layer_scale_1 = nn.Parameter(init_value * torch.ones((1, embed_dims, 1, 1)), requires_grad=True)
+        self.layer_scale_1 = nn.Parameter(init_value * torch.ones((1, embed_dims, 1, 1)))
         # Channel MLP
-        self.norm2 = nn.BatchNorm2d(embed_dims, eps=1e-5)
+        self.norm2 = nn.BatchNorm2d(embed_dims)
         mlp_hidden_dim = int(embed_dims * ffn_ratio)
         self.mlp = ChannelAggregationFFN(
             embed_dims=embed_dims,
@@ -194,7 +197,7 @@ class MogaBlock(nn.Module):
             kernel_size=3,
             ffn_drop=drop_rate,
         )
-        self.layer_scale_2 = nn.Parameter(init_value * torch.ones((1, embed_dims, 1, 1)), requires_grad=True)
+        self.layer_scale_2 = nn.Parameter(init_value * torch.ones((1, embed_dims, 1, 1)))
         self.drop_path = StochasticDepth(drop_path_rate, mode="row")

birder 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl