PyPI - birder - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (216) hide show

birder/adversarial/base.py +1 -1
birder/adversarial/simba.py +4 -4
birder/common/cli.py +1 -1
birder/common/fs_ops.py +13 -13
birder/common/lib.py +2 -2
birder/common/masking.py +3 -3
birder/common/training_cli.py +24 -2
birder/common/training_utils.py +28 -4
birder/data/collators/detection.py +9 -1
birder/data/transforms/detection.py +27 -8
birder/data/transforms/mosaic.py +1 -1
birder/datahub/classification.py +3 -3
birder/inference/classification.py +3 -3
birder/inference/data_parallel.py +1 -1
birder/inference/detection.py +5 -5
birder/inference/wbf.py +1 -1
birder/introspection/attention_rollout.py +6 -6
birder/introspection/feature_pca.py +4 -4
birder/introspection/gradcam.py +1 -1
birder/introspection/guided_backprop.py +2 -2
birder/introspection/transformer_attribution.py +4 -4
birder/layers/attention_pool.py +2 -2
birder/layers/layer_scale.py +1 -1
birder/model_registry/model_registry.py +2 -1
birder/net/__init__.py +4 -10
birder/net/_rope_vit_configs.py +435 -0
birder/net/_vit_configs.py +466 -0
birder/net/alexnet.py +5 -5
birder/net/base.py +28 -3
birder/net/biformer.py +18 -17
birder/net/cait.py +7 -7
birder/net/cas_vit.py +1 -1
birder/net/coat.py +27 -27
birder/net/conv2former.py +3 -3
birder/net/convmixer.py +1 -1
birder/net/convnext_v1.py +3 -11
birder/net/convnext_v1_iso.py +198 -0
birder/net/convnext_v2.py +2 -10
birder/net/crossformer.py +9 -9
birder/net/crossvit.py +6 -6
birder/net/cspnet.py +1 -1
birder/net/cswin_transformer.py +10 -10
birder/net/davit.py +11 -11
birder/net/deit.py +68 -29
birder/net/deit3.py +69 -204
birder/net/densenet.py +9 -8
birder/net/detection/__init__.py +4 -0
birder/net/detection/{yolo_anchors.py → _yolo_anchors.py} +5 -5
birder/net/detection/base.py +6 -5
birder/net/detection/deformable_detr.py +31 -30
birder/net/detection/detr.py +14 -11
birder/net/detection/efficientdet.py +10 -29
birder/net/detection/faster_rcnn.py +22 -22
birder/net/detection/fcos.py +8 -8
birder/net/detection/plain_detr.py +852 -0
birder/net/detection/retinanet.py +4 -4
birder/net/detection/rt_detr_v1.py +81 -25
birder/net/detection/rt_detr_v2.py +1147 -0
birder/net/detection/ssd.py +5 -5
birder/net/detection/yolo_v2.py +12 -12
birder/net/detection/yolo_v3.py +19 -19
birder/net/detection/yolo_v4.py +16 -16
birder/net/detection/yolo_v4_tiny.py +3 -3
birder/net/dpn.py +1 -2
birder/net/edgenext.py +5 -4
birder/net/edgevit.py +13 -14
birder/net/efficientformer_v1.py +3 -2
birder/net/efficientformer_v2.py +18 -31
birder/net/efficientnet_v2.py +3 -0
birder/net/efficientvim.py +9 -9
birder/net/efficientvit_mit.py +7 -7
birder/net/efficientvit_msft.py +3 -3
birder/net/fasternet.py +3 -3
birder/net/fastvit.py +5 -12
birder/net/flexivit.py +50 -58
birder/net/focalnet.py +5 -9
birder/net/gc_vit.py +11 -11
birder/net/ghostnet_v1.py +1 -1
birder/net/ghostnet_v2.py +1 -1
birder/net/groupmixformer.py +13 -13
birder/net/hgnet_v1.py +6 -6
birder/net/hgnet_v2.py +4 -4
birder/net/hiera.py +6 -6
birder/net/hieradet.py +9 -9
birder/net/hornet.py +3 -3
birder/net/iformer.py +4 -4
birder/net/inception_next.py +5 -15
birder/net/inception_resnet_v1.py +3 -3
birder/net/inception_resnet_v2.py +7 -4
birder/net/inception_v3.py +3 -0
birder/net/inception_v4.py +3 -0
birder/net/levit.py +3 -3
birder/net/lit_v1.py +13 -15
birder/net/lit_v1_tiny.py +9 -9
birder/net/lit_v2.py +14 -15
birder/net/maxvit.py +11 -23
birder/net/metaformer.py +5 -5
birder/net/mim/crossmae.py +6 -6
birder/net/mim/fcmae.py +3 -5
birder/net/mim/mae_hiera.py +7 -7
birder/net/mim/mae_vit.py +4 -6
birder/net/mim/simmim.py +3 -4
birder/net/mobilenet_v1.py +0 -9
birder/net/mobilenet_v2.py +38 -44
birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} +37 -10
birder/net/mobilenet_v4_hybrid.py +4 -4
birder/net/mobileone.py +5 -12
birder/net/mobilevit_v1.py +7 -34
birder/net/mobilevit_v2.py +6 -54
birder/net/moganet.py +8 -5
birder/net/mvit_v2.py +30 -30
birder/net/nextvit.py +2 -2
birder/net/nfnet.py +4 -0
birder/net/pit.py +11 -26
birder/net/pvt_v1.py +9 -9
birder/net/pvt_v2.py +10 -16
birder/net/regionvit.py +15 -15
birder/net/regnet.py +1 -1
birder/net/repghost.py +5 -35
birder/net/repvgg.py +3 -5
birder/net/repvit.py +2 -2
birder/net/resmlp.py +2 -2
birder/net/resnest.py +4 -1
birder/net/resnet_v1.py +125 -1
birder/net/resnet_v2.py +75 -1
birder/net/resnext.py +35 -1
birder/net/rope_deit3.py +62 -151
birder/net/rope_flexivit.py +46 -33
birder/net/rope_vit.py +44 -758
birder/net/sequencer2d.py +3 -4
birder/net/shufflenet_v1.py +1 -1
birder/net/shufflenet_v2.py +1 -1
birder/net/simple_vit.py +69 -21
birder/net/smt.py +8 -8
birder/net/squeezenet.py +5 -12
birder/net/squeezenext.py +0 -24
birder/net/ssl/barlow_twins.py +1 -1
birder/net/ssl/byol.py +2 -2
birder/net/ssl/capi.py +4 -4
birder/net/ssl/data2vec.py +1 -1
birder/net/ssl/data2vec2.py +1 -1
birder/net/ssl/dino_v2.py +13 -3
birder/net/ssl/franca.py +28 -4
birder/net/ssl/i_jepa.py +5 -5
birder/net/ssl/ibot.py +1 -1
birder/net/ssl/mmcr.py +1 -1
birder/net/swiftformer.py +13 -3
birder/net/swin_transformer_v1.py +4 -5
birder/net/swin_transformer_v2.py +5 -8
birder/net/tiny_vit.py +6 -19
birder/net/transnext.py +19 -19
birder/net/uniformer.py +4 -4
birder/net/van.py +2 -2
birder/net/vgg.py +1 -10
birder/net/vit.py +72 -987
birder/net/vit_parallel.py +35 -20
birder/net/vit_sam.py +23 -48
birder/net/vovnet_v2.py +1 -1
birder/net/xcit.py +16 -13
birder/ops/msda.py +4 -4
birder/ops/swattention.py +10 -10
birder/results/classification.py +3 -3
birder/results/gui.py +8 -8
birder/scripts/benchmark.py +37 -12
birder/scripts/evaluate.py +1 -1
birder/scripts/predict.py +3 -3
birder/scripts/predict_detection.py +2 -2
birder/scripts/train.py +63 -15
birder/scripts/train_barlow_twins.py +10 -7
birder/scripts/train_byol.py +10 -7
birder/scripts/train_capi.py +15 -10
birder/scripts/train_data2vec.py +10 -7
birder/scripts/train_data2vec2.py +10 -7
birder/scripts/train_detection.py +29 -14
birder/scripts/train_dino_v1.py +13 -9
birder/scripts/train_dino_v2.py +27 -14
birder/scripts/train_dino_v2_dist.py +28 -15
birder/scripts/train_franca.py +16 -9
birder/scripts/train_i_jepa.py +12 -9
birder/scripts/train_ibot.py +15 -11
birder/scripts/train_kd.py +64 -17
birder/scripts/train_mim.py +11 -8
birder/scripts/train_mmcr.py +11 -8
birder/scripts/train_rotnet.py +11 -7
birder/scripts/train_simclr.py +10 -7
birder/scripts/train_vicreg.py +10 -7
birder/tools/adversarial.py +4 -4
birder/tools/auto_anchors.py +5 -5
birder/tools/avg_model.py +1 -1
birder/tools/convert_model.py +30 -22
birder/tools/det_results.py +1 -1
birder/tools/download_model.py +1 -1
birder/tools/ensemble_model.py +1 -1
birder/tools/introspection.py +12 -3
birder/tools/labelme_to_coco.py +2 -2
birder/tools/model_info.py +15 -15
birder/tools/pack.py +8 -8
birder/tools/quantize_model.py +53 -4
birder/tools/results.py +2 -2
birder/tools/show_det_iterator.py +19 -6
birder/tools/show_iterator.py +2 -2
birder/tools/similarity.py +5 -5
birder/tools/stats.py +4 -6
birder/tools/voc_to_coco.py +1 -1
birder/version.py +1 -1
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/METADATA +3 -3
birder-0.4.1.dist-info/RECORD +300 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/WHEEL +1 -1
birder/net/mobilenet_v3_small.py +0 -43
birder/net/se_resnet_v1.py +0 -105
birder/net/se_resnet_v2.py +0 -59
birder/net/se_resnext.py +0 -30
birder-0.3.3.dist-info/RECORD +0 -299
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/entry_points.txt +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/licenses/LICENSE +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/top_level.txt +0 -0

birder/net/cait.py CHANGED Viewed

@@ -47,7 +47,7 @@ class ClassAttention(nn.Module):
         self.proj_drop = nn.Dropout(proj_drop)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, N, C) = x.shape
+        B, N, C = x.shape
         q = self.q(x[:, 0]).unsqueeze(1).reshape(B, 1, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
         k = self.k(x).reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
         v = self.v(x).reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
@@ -66,12 +66,12 @@ class ClassAttentionBlock(nn.Module):
         self, dim: int, num_heads: int, mlp_ratio: float, qkv_bias: bool, proj_drop: float, drop_path: float, eta: float
     ) -> None:
         super().__init__()
-        self.norm1 = nn.LayerNorm(dim)
+        self.norm1 = nn.LayerNorm(dim, eps=1e-6)
         self.attn = ClassAttention(dim, num_heads=num_heads, qkv_bias=qkv_bias, proj_drop=proj_drop)
         self.drop_path = StochasticDepth(drop_path, mode="row")
-        self.norm2 = nn.LayerNorm(dim)
+        self.norm2 = nn.LayerNorm(dim, eps=1e-6)
         self.mlp = MLP(dim, [int(dim * mlp_ratio), dim], activation_layer=nn.GELU, dropout=proj_drop)
         self.gamma1 = nn.Parameter(eta * torch.ones(dim))
@@ -103,7 +103,7 @@ class TalkingHeadAttn(nn.Module):
         self.proj_drop = nn.Dropout(proj_drop)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, N, C) = x.shape
+        B, N, C = x.shape
         qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
         q = qkv[0] * self.scale
         k = qkv[1]
@@ -135,7 +135,7 @@ class LayerScaleBlock(nn.Module):
         init_values: float,
     ) -> None:
         super().__init__()
-        self.norm1 = nn.LayerNorm(dim)
+        self.norm1 = nn.LayerNorm(dim, eps=1e-6)
         self.attn = TalkingHeadAttn(
             dim,
             num_heads=num_heads,
@@ -144,7 +144,7 @@ class LayerScaleBlock(nn.Module):
             proj_drop=proj_drop,
         )
         self.drop_path = StochasticDepth(drop_path, mode="row")
-        self.norm2 = nn.LayerNorm(dim)
+        self.norm2 = nn.LayerNorm(dim, eps=1e-6)
         self.mlp = MLP(dim, [int(dim * mlp_ratio), dim], activation_layer=nn.GELU, dropout=proj_drop)
         self.gamma_1 = nn.Parameter(init_values * torch.ones(dim))
         self.gamma_2 = nn.Parameter(init_values * torch.ones(dim))
@@ -221,7 +221,7 @@ class CaiT(BaseNet):
                 )
             )
-        self.norm = nn.LayerNorm(embed_dim)
+        self.norm = nn.LayerNorm(embed_dim, eps=1e-6)
         self.embedding_size = embed_dim
         self.classifier = self.create_classifier()

birder/net/cas_vit.py CHANGED Viewed

@@ -122,7 +122,7 @@ class AdditiveTokenMixer(nn.Module):
         self.proj_drop = nn.Dropout(proj_drop)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (q, k, v) = self.qkv(x).chunk(3, dim=1)
+        q, k, v = self.qkv(x).chunk(3, dim=1)
         q = self.op_q(q)
         k = self.op_k(k)

birder/net/coat.py CHANGED Viewed

@@ -21,7 +21,7 @@ from birder.net.base import DetectorBackbone
 def insert_cls(x: torch.Tensor, cls_token: torch.Tensor) -> torch.Tensor:
-    cls_tokens = cls_token.expand(x.shape[0], -1, -1)
+    cls_tokens = cls_token.expand(x.size(0), -1, -1)
     x = torch.concat((cls_tokens, x), dim=1)
     return x
@@ -57,8 +57,8 @@ class ConvRelPosEnc(nn.Module):
         self.channel_splits = [x * head_channels for x in head_splits]
     def forward(self, q: torch.Tensor, v: torch.Tensor, size: tuple[int, int]) -> torch.Tensor:
-        (B, num_heads, N, C) = q.size()
-        (H, W) = size
+        B, num_heads, N, C = q.size()
+        H, W = size
         torch._assert(N == 1 + H * W, "size mismatch")  # pylint: disable=protected-access
         # Convolutional relative position encoding.
@@ -102,11 +102,11 @@ class FactorAttnConvRelPosEnc(nn.Module):
         self.crpe = shared_crpe
     def forward(self, x: torch.Tensor, size: tuple[int, int]) -> torch.Tensor:
-        (B, N, C) = x.size()
+        B, N, C = x.size()
         # Generate Q, K, V
         qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
-        (q, k, v) = qkv.unbind(0)  # [B, h, N, Ch]
+        q, k, v = qkv.unbind(0)  # [B, h, N, Ch]
         # Factorized attention
         k_softmax = k.softmax(dim=2)
@@ -135,8 +135,8 @@ class ConvPosEnc(nn.Module):
         )
     def forward(self, x: torch.Tensor, size: tuple[int, int]) -> torch.Tensor:
-        (B, N, C) = x.size()
-        (H, W) = size
+        B, N, C = x.size()
+        H, W = size
         torch._assert(N == 1 + H * W, "size mismatch")  # pylint: disable=protected-access
         # Extract CLS token and image tokens
@@ -170,7 +170,7 @@ class SerialBlock(nn.Module):
         # Conv-attention
         self.cpe = shared_cpe
-        self.norm1 = nn.LayerNorm(dim)
+        self.norm1 = nn.LayerNorm(dim, eps=1e-6)
         self.factor_attn_crpe = FactorAttnConvRelPosEnc(
             dim,
             num_heads=num_heads,
@@ -181,7 +181,7 @@ class SerialBlock(nn.Module):
         self.drop_path = StochasticDepth(drop_path, mode="row")
         # MLP
-        self.norm2 = nn.LayerNorm(dim)
+        self.norm2 = nn.LayerNorm(dim, eps=1e-6)
         self.mlp = MLP(dim, [int(dim * mlp_ratio), dim], activation_layer=nn.GELU, dropout=proj_drop)
     def forward(self, x: torch.Tensor, size: tuple[int, int]) -> torch.Tensor:
@@ -213,9 +213,9 @@ class ParallelBlock(nn.Module):
         super().__init__()
         # Conv-attention
-        self.norm12 = nn.LayerNorm(dims[1])
-        self.norm13 = nn.LayerNorm(dims[2])
-        self.norm14 = nn.LayerNorm(dims[3])
+        self.norm12 = nn.LayerNorm(dims[1], eps=1e-6)
+        self.norm13 = nn.LayerNorm(dims[2], eps=1e-6)
+        self.norm14 = nn.LayerNorm(dims[3], eps=1e-6)
         self.factor_attn_crpe2 = FactorAttnConvRelPosEnc(
             dims[1], num_heads=num_heads, qkv_bias=qkv_bias, proj_drop=proj_drop, shared_crpe=shared_crpes[1]
         )
@@ -228,9 +228,9 @@ class ParallelBlock(nn.Module):
         self.drop_path = StochasticDepth(drop_path, mode="row")
         # MLP
-        self.norm22 = nn.LayerNorm(dims[1])
-        self.norm23 = nn.LayerNorm(dims[2])
-        self.norm24 = nn.LayerNorm(dims[3])
+        self.norm22 = nn.LayerNorm(dims[1], eps=1e-6)
+        self.norm23 = nn.LayerNorm(dims[2], eps=1e-6)
+        self.norm24 = nn.LayerNorm(dims[3], eps=1e-6)
         # In the parallel block, we assume dimensions are the same and share the linear transformation
         assert dims[1] == dims[2] == dims[3]
@@ -244,8 +244,8 @@ class ParallelBlock(nn.Module):
         return self.interpolate(x, scale_factor=1.0 / factor, size=size)
     def interpolate(self, x: torch.Tensor, scale_factor: float, size: tuple[int, int]) -> torch.Tensor:
-        (B, N, C) = x.size()
-        (H, W) = size
+        B, N, C = x.size()
+        H, W = size
         torch._assert(N == 1 + H * W, "size mismatch")  # pylint: disable=protected-access
         cls_token = x[:, :1, :]
@@ -268,7 +268,7 @@ class ParallelBlock(nn.Module):
     def forward(
         self, x1: torch.Tensor, x2: torch.Tensor, x3: torch.Tensor, x4: torch.Tensor, sizes: list[tuple[int, int]]
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-        (_, s2, s3, s4) = sizes
+        _, s2, s3, s4 = sizes
         cur2 = self.norm12(x2)
         cur3 = self.norm13(x3)
         cur4 = self.norm14(x4)
@@ -310,7 +310,7 @@ class PatchEmbed(nn.Module):
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, tuple[int, int]]:
         x = self.proj(x)
-        (H, W) = x.shape[2:4]
+        H, W = x.shape[2:4]
         x = x.flatten(2).transpose(1, 2)
         x = self.norm(x)
@@ -447,13 +447,13 @@ class CoaT(DetectorBackbone):
         # Norms
         if self.parallel_blocks is not None:
-            self.norm2 = nn.LayerNorm(embed_dims[1])
-            self.norm3 = nn.LayerNorm(embed_dims[2])
+            self.norm2 = nn.LayerNorm(embed_dims[1], eps=1e-6)
+            self.norm3 = nn.LayerNorm(embed_dims[2], eps=1e-6)
         else:
             self.norm2 = None
             self.norm3 = None
-        self.norm4 = nn.LayerNorm(embed_dims[3])
+        self.norm4 = nn.LayerNorm(embed_dims[3], eps=1e-6)
         # Head
         if parallel_depth > 0:
@@ -500,7 +500,7 @@ class CoaT(DetectorBackbone):
         B = x.shape[0]
         # Serial blocks 1
-        (x1, (h1, w1)) = self.patch_embed1(x)
+        x1, (h1, w1) = self.patch_embed1(x)
         x1 = insert_cls(x1, self.cls_token1)
         for blk in self.serial_blocks1:
             x1 = blk(x1, size=(h1, w1))
@@ -508,7 +508,7 @@ class CoaT(DetectorBackbone):
         x1_no_cls = remove_cls(x1).reshape(B, h1, w1, -1).permute(0, 3, 1, 2).contiguous()
         # Serial blocks 2
-        (x2, (h2, w2)) = self.patch_embed2(x1_no_cls)
+        x2, (h2, w2) = self.patch_embed2(x1_no_cls)
         x2 = insert_cls(x2, self.cls_token2)
         for blk in self.serial_blocks2:
             x2 = blk(x2, size=(h2, w2))
@@ -516,7 +516,7 @@ class CoaT(DetectorBackbone):
         x2_no_cls = remove_cls(x2).reshape(B, h2, w2, -1).permute(0, 3, 1, 2).contiguous()
         # Serial blocks 3
-        (x3, (h3, w3)) = self.patch_embed3(x2_no_cls)
+        x3, (h3, w3) = self.patch_embed3(x2_no_cls)
         x3 = insert_cls(x3, self.cls_token3)
         for blk in self.serial_blocks3:
             x3 = blk(x3, size=(h3, w3))
@@ -524,7 +524,7 @@ class CoaT(DetectorBackbone):
         x3_no_cls = remove_cls(x3).reshape(B, h3, w3, -1).permute(0, 3, 1, 2).contiguous()
         # Serial blocks 4
-        (x4, (h4, w4)) = self.patch_embed4(x3_no_cls)
+        x4, (h4, w4) = self.patch_embed4(x3_no_cls)
         x4 = insert_cls(x4, self.cls_token4)
         for blk in self.serial_blocks4:
             x4 = blk(x4, size=(h4, w4))
@@ -537,7 +537,7 @@ class CoaT(DetectorBackbone):
                 x2 = self.cpe2(x2, (h2, w2))
                 x3 = self.cpe3(x3, (h3, w3))
                 x4 = self.cpe4(x4, (h4, w4))
-                (x1, x2, x3, x4) = blk(x1, x2, x3, x4, sizes=[(h1, w1), (h2, w2), (h3, w3), (h4, w4)])
+                x1, x2, x3, x4 = blk(x1, x2, x3, x4, sizes=[(h1, w1), (h2, w2), (h3, w3), (h4, w4)])
             x1_no_cls = remove_cls(x1).reshape(B, h1, w1, -1).permute(0, 3, 1, 2).contiguous()
             x2_no_cls = remove_cls(x2).reshape(B, h2, w2, -1).permute(0, 3, 1, 2).contiguous()

birder/net/conv2former.py CHANGED Viewed

@@ -64,7 +64,7 @@ class SpatialAttention(nn.Module):
                 dim,
                 kernel_size=kernel_size,
                 stride=(1, 1),
-                padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+                padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
                 groups=dim,
             ),
         )
@@ -87,8 +87,8 @@ class Conv2FormerBlock(nn.Module):
         self.mlp = MLP(dim, mlp_ratio)
         layer_scale_init_value = 1e-6
-        self.layer_scale_1 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)), requires_grad=True)
-        self.layer_scale_2 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)), requires_grad=True)
+        self.layer_scale_1 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)))
+        self.layer_scale_2 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)))
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = x + self.drop_path(self.layer_scale_1 * self.attn(x))

birder/net/convmixer.py CHANGED Viewed

@@ -58,7 +58,7 @@ class ConvMixer(BaseNet):
             inplace=None,
         )
-        padding = (kernel_size[0] // 2, kernel_size[1] // 2)
+        padding = ((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2)
         self.body = nn.Sequential(
             *[
                 nn.Sequential(

birder/net/convnext_v1.py CHANGED Viewed

@@ -37,15 +37,7 @@ class ConvNeXtBlock(nn.Module):
     ) -> None:
         super().__init__()
         self.block = nn.Sequential(
-            nn.Conv2d(
-                channels,
-                channels,
-                kernel_size=(7, 7),
-                stride=(1, 1),
-                padding=(3, 3),
-                groups=channels,
-                bias=True,
-            ),
+            nn.Conv2d(channels, channels, kernel_size=(7, 7), stride=(1, 1), padding=(3, 3), groups=channels),
             Permute([0, 2, 3, 1]),
             nn.LayerNorm(channels, eps=1e-6),
             nn.Linear(channels, 4 * channels),  # Same as 1x1 conv
@@ -53,7 +45,7 @@ class ConvNeXtBlock(nn.Module):
             nn.Linear(4 * channels, channels),  # Same as 1x1 conv
             Permute([0, 3, 1, 2]),
         )
-        self.layer_scale = nn.Parameter(torch.ones(channels, 1, 1) * layer_scale, requires_grad=True)
+        self.layer_scale = nn.Parameter(torch.ones(channels, 1, 1) * layer_scale)
         self.stochastic_depth = StochasticDepth(stochastic_depth_prob, mode="row")
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -119,7 +111,7 @@ class ConvNeXt_v1(DetectorBackbone, PreTrainEncoder, MaskedTokenRetentionMixin):
                 layers.append(
                     nn.Sequential(
                         LayerNorm2d(i, eps=1e-6),
-                        nn.Conv2d(i, out, kernel_size=(2, 2), stride=(2, 2), padding=(0, 0), bias=True),
+                        nn.Conv2d(i, out, kernel_size=(2, 2), stride=(2, 2), padding=(0, 0)),
                     )
                 )

birder/net/convnext_v1_iso.py ADDED Viewed

@@ -0,0 +1,198 @@
+"""
+ConvNeXt v1 Isotropic, adapted from
+https://github.com/facebookresearch/ConvNeXt/blob/main/models/convnext_isotropic.py
+Paper "A ConvNet for the 2020s", https://arxiv.org/abs/2201.03545
+"""
+# Reference license: MIT
+from functools import partial
+from typing import Any
+from typing import Literal
+from typing import Optional
+import torch
+from torch import nn
+from torchvision.ops import Permute
+from torchvision.ops import StochasticDepth
+from birder.common.masking import mask_tensor
+from birder.layers import LayerNorm2d
+from birder.model_registry import registry
+from birder.net.base import DetectorBackbone
+from birder.net.base import MaskedTokenRetentionMixin
+from birder.net.base import PreTrainEncoder
+from birder.net.base import TokenRetentionResultType
+from birder.net.base import normalize_out_indices
+class ConvNeXtBlock(nn.Module):
+    def __init__(self, channels: int, stochastic_depth_prob: float) -> None:
+        super().__init__()
+        self.block = nn.Sequential(
+            nn.Conv2d(channels, channels, kernel_size=(7, 7), stride=(1, 1), padding=(3, 3), groups=channels),
+            Permute([0, 2, 3, 1]),
+            nn.LayerNorm(channels, eps=1e-6),
+            nn.Linear(channels, 4 * channels),
+            nn.GELU(),
+            nn.Linear(4 * channels, channels),
+            Permute([0, 3, 1, 2]),
+        )
+        self.stochastic_depth = StochasticDepth(stochastic_depth_prob, mode="row")
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        identity = x
+        x = self.block(x)
+        x = self.stochastic_depth(x)
+        x += identity
+        return x
+# pylint: disable=invalid-name
+class ConvNeXt_v1_Isotropic(DetectorBackbone, PreTrainEncoder, MaskedTokenRetentionMixin):
+    block_group_regex = r"body\.(\d+)"
+    def __init__(
+        self,
+        input_channels: int,
+        num_classes: int,
+        *,
+        config: Optional[dict[str, Any]] = None,
+        size: Optional[tuple[int, int]] = None,
+    ) -> None:
+        super().__init__(input_channels, num_classes, config=config, size=size)
+        assert self.config is not None, "must set config"
+        patch_size = 16
+        dim: int = self.config["dim"]
+        num_layers: int = self.config["num_layers"]
+        out_indices: Optional[list[int]] = self.config.get("out_indices", None)
+        drop_path_rate: float = self.config["drop_path_rate"]
+        torch._assert(self.size[0] % patch_size == 0, "Input shape indivisible by patch size!")
+        torch._assert(self.size[1] % patch_size == 0, "Input shape indivisible by patch size!")
+        self.patch_size = patch_size
+        self.out_indices = normalize_out_indices(out_indices, num_layers)
+        self.stem = nn.Conv2d(
+            self.input_channels,
+            dim,
+            kernel_size=(patch_size, patch_size),
+            stride=(patch_size, patch_size),
+            padding=(0, 0),
+        )
+        layers = []
+        for idx in range(num_layers):
+            # Adjust stochastic depth probability based on the depth of the stage block
+            sd_prob = drop_path_rate * idx / (num_layers - 1.0)
+            layers.append(ConvNeXtBlock(dim, sd_prob))
+        self.body = nn.Sequential(*layers)
+        self.features = nn.Sequential(
+            nn.AdaptiveAvgPool2d(output_size=(1, 1)),
+            LayerNorm2d(dim, eps=1e-6),
+            nn.Flatten(1),
+        )
+        num_return_stages = len(self.out_indices) if self.out_indices is not None else 1
+        self.return_stages = [f"stage{stage_idx + 1}" for stage_idx in range(num_return_stages)]
+        self.return_channels = [dim] * num_return_stages
+        self.embedding_size = dim
+        self.classifier = self.create_classifier()
+        self.max_stride = patch_size
+        self.stem_stride = patch_size
+        self.stem_width = dim
+        self.encoding_size = dim
+        self.decoder_block = partial(ConvNeXtBlock, stochastic_depth_prob=0)
+        # Weights initialization
+        for m in self.modules():
+            if isinstance(m, (nn.Conv2d, nn.Linear)):
+                nn.init.trunc_normal_(m.weight, std=0.02)
+                if m.bias is not None:
+                    nn.init.zeros_(m.bias)
+    def detection_features(self, x: torch.Tensor) -> dict[str, torch.Tensor]:
+        x = self.stem(x)
+        if self.out_indices is None:
+            x = self.body(x)
+            return {self.return_stages[0]: x}
+        stage_num = 0
+        out: dict[str, torch.Tensor] = {}
+        for idx, module in enumerate(self.body.children()):
+            x = module(x)
+            if idx in self.out_indices:
+                out[self.return_stages[stage_num]] = x
+                stage_num += 1
+        return out
+    def freeze_stages(self, up_to_stage: int) -> None:
+        for param in self.stem.parameters():
+            param.requires_grad_(False)
+        for idx, module in enumerate(self.body.children()):
+            if idx >= up_to_stage:
+                break
+            for param in module.parameters():
+                param.requires_grad_(False)
+    def masked_encoding_retention(
+        self,
+        x: torch.Tensor,
+        mask: torch.Tensor,
+        mask_token: Optional[torch.Tensor] = None,
+        return_keys: Literal["all", "features", "embedding"] = "features",
+    ) -> TokenRetentionResultType:
+        x = self.stem(x)
+        x = mask_tensor(x, mask, patch_factor=self.max_stride // self.stem_stride, mask_token=mask_token)
+        x = self.body(x)
+        result: TokenRetentionResultType = {}
+        if return_keys in ("all", "features"):
+            result["features"] = x
+        if return_keys in ("all", "embedding"):
+            result["embedding"] = self.features(x)
+        return result
+    def forward_features(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.stem(x)
+        return self.body(x)
+    def embedding(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.forward_features(x)
+        return self.features(x)
+    def adjust_size(self, new_size: tuple[int, int]) -> None:
+        if new_size == self.size:
+            return
+        assert new_size[0] % self.patch_size == 0, "Input shape indivisible by patch size!"
+        assert new_size[1] % self.patch_size == 0, "Input shape indivisible by patch size!"
+        super().adjust_size(new_size)
+registry.register_model_config(
+    "convnext_v1_iso_small",
+    ConvNeXt_v1_Isotropic,
+    config={"dim": 384, "num_layers": 18, "drop_path_rate": 0.1},
+)
+registry.register_model_config(
+    "convnext_v1_iso_base",
+    ConvNeXt_v1_Isotropic,
+    config={"in_channels": 768, "num_layers": 18, "drop_path_rate": 0.2},
+)
+registry.register_model_config(
+    "convnext_v1_iso_large",
+    ConvNeXt_v1_Isotropic,
+    config={"in_channels": 1024, "num_layers": 36, "drop_path_rate": 0.5},
+)

birder/net/convnext_v2.py CHANGED Viewed

@@ -56,15 +56,7 @@ class ConvNeXtBlock(nn.Module):
     ) -> None:
         super().__init__()
         self.block = nn.Sequential(
-            nn.Conv2d(
-                channels,
-                channels,
-                kernel_size=(7, 7),
-                stride=(1, 1),
-                padding=(3, 3),
-                groups=channels,
-                bias=True,
-            ),
+            nn.Conv2d(channels, channels, kernel_size=(7, 7), stride=(1, 1), padding=(3, 3), groups=channels),
             Permute([0, 2, 3, 1]),
             nn.LayerNorm(channels, eps=1e-6),
             nn.Linear(channels, 4 * channels),  # Same as 1x1 conv
@@ -137,7 +129,7 @@ class ConvNeXt_v2(DetectorBackbone, PreTrainEncoder, MaskedTokenRetentionMixin):
                 layers.append(
                     nn.Sequential(
                         LayerNorm2d(i, eps=1e-6),
-                        nn.Conv2d(i, out, kernel_size=(2, 2), stride=(2, 2), padding=(0, 0), bias=True),
+                        nn.Conv2d(i, out, kernel_size=(2, 2), stride=(2, 2), padding=(0, 0)),
                     )
                 )

birder/net/crossformer.py CHANGED Viewed

@@ -120,9 +120,9 @@ class Attention(nn.Module):
         self.relative_position_index = nn.Buffer(relative_position_index)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, N, C) = x.size()
+        B, N, C = x.size()
         qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
-        (q, k, v) = qkv.unbind(0)
+        q, k, v = qkv.unbind(0)
         q = q * self.scale
         attn = q @ k.transpose(-2, -1)
@@ -188,15 +188,15 @@ class CrossFormerBlock(nn.Module):
         self.drop_path = StochasticDepth(drop_path, mode="row")
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (H, W) = self.input_resolution
-        (B, _, C) = x.size()
+        H, W = self.input_resolution
+        B, _, C = x.size()
         shortcut = x
         x = self.norm1(x)
         x = x.view(B, H, W, C)
         # Group embeddings
-        (GH, GW) = self.group_size  # pylint: disable=invalid-name
+        GH, GW = self.group_size  # pylint: disable=invalid-name
         if self.use_lda is False:
             x = x.reshape(B, H // GH, GH, W // GW, GW, C).permute(0, 1, 3, 2, 4, 5)
         else:
@@ -244,8 +244,8 @@ class PatchMerging(nn.Module):
             )
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (H, W) = self.input_resolution
-        (B, _, C) = x.shape
+        H, W = self.input_resolution
+        B, _, C = x.shape
         x = self.norm(x)
         x = x.view(B, H, W, C).permute(0, 3, 1, 2)
@@ -396,8 +396,8 @@ class CrossFormer(DetectorBackbone):
         for name, module in self.body.named_children():
             x = module(x)
             if name in self.return_stages:
-                (H, W) = module.resolution
-                (B, _, C) = x.size()
+                H, W = module.resolution
+                B, _, C = x.size()
                 out[name] = x.view(B, H, W, C).permute(0, 3, 1, 2).contiguous()
         return out

birder/net/crossvit.py CHANGED Viewed

@@ -74,7 +74,7 @@ class CrossAttention(nn.Module):
         self.proj_drop = nn.Dropout(proj_drop)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, N, C) = x.shape
+        B, N, C = x.shape
         # B1C -> B1H(C/H) -> BH1(C/H)
         q = self.wq(x[:, 0:1, ...]).reshape(B, 1, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
         # BNC -> BNH(C/H) -> BHN(C/H)
@@ -97,7 +97,7 @@ class CrossAttentionBlock(nn.Module):
         self, dim: int, num_heads: int, qkv_bias: bool, proj_drop: float, attn_drop: float, drop_path: float
     ) -> None:
         super().__init__()
-        self.norm1 = nn.LayerNorm(dim)
+        self.norm1 = nn.LayerNorm(dim, eps=1e-6)
         self.attn = CrossAttention(
             dim, num_heads=num_heads, qkv_bias=qkv_bias, attn_drop=attn_drop, proj_drop=proj_drop
         )
@@ -146,7 +146,7 @@ class MultiScaleBlock(nn.Module):
         for d in range(num_branches):
             self.projs.append(
                 nn.Sequential(
-                    nn.LayerNorm(dim[d]),
+                    nn.LayerNorm(dim[d], eps=1e-6),
                     nn.GELU(),
                     nn.Linear(dim[d], dim[(d + 1) % num_branches]),
                 )
@@ -187,7 +187,7 @@ class MultiScaleBlock(nn.Module):
         for d in range(num_branches):
             self.revert_projs.append(
                 nn.Sequential(
-                    nn.LayerNorm(dim[(d + 1) % num_branches]),
+                    nn.LayerNorm(dim[(d + 1) % num_branches], eps=1e-6),
                     nn.GELU(),
                     nn.Linear(dim[(d + 1) % num_branches], dim[d]),
                 )
@@ -290,7 +290,7 @@ class CrossViT(BaseNet):
             dpr_ptr += curr_depth
             self.blocks.append(block)
-        self.norm = nn.ModuleList([nn.LayerNorm(embed_dim[i]) for i in range(self.num_branches)])
+        self.norm = nn.ModuleList([nn.LayerNorm(embed_dim[i], eps=1e-6) for i in range(self.num_branches)])
         self.embedding_size = sum(self.embed_dim)
         self.classifier = nn.ModuleList()
         for i in range(self.num_branches):
@@ -482,7 +482,7 @@ registry.register_weights(
         "formats": {
             "pt": {
                 "file_size": 32.7,
-                "sha256": "515265ed725adce09464bfd23ce612b1d1178bc22a57960db089d7148556149a",
+                "sha256": "08f674d8165dc97cc535f8188a5c5361751a8d0bb85061454986a21541a6fe8e",
             }
         },
         "net": {"network": "crossvit_9d", "tag": "il-common"},

birder/net/cspnet.py CHANGED Viewed

@@ -226,7 +226,7 @@ class CrossStage(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = self.conv_down(x)
         x = self.conv_exp(x)
-        (xs, xb) = x.split(self.expand_channels // 2, dim=1)
+        xs, xb = x.split(self.expand_channels // 2, dim=1)
         xb = self.blocks(xb)
         xb = self.conv_transition_b(xb).contiguous()
         out = self.conv_transition(torch.concat([xs, xb], dim=1))

birder 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl