PyPI - birder - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

birder 0.3.3py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (92) hide show

birder/common/fs_ops.py +2 -2
birder/introspection/attention_rollout.py +1 -1
birder/introspection/transformer_attribution.py +1 -1
birder/layers/layer_scale.py +1 -1
birder/net/__init__.py +2 -10
birder/net/_rope_vit_configs.py +430 -0
birder/net/_vit_configs.py +479 -0
birder/net/biformer.py +1 -0
birder/net/cait.py +5 -5
birder/net/coat.py +12 -12
birder/net/conv2former.py +3 -3
birder/net/convmixer.py +1 -1
birder/net/convnext_v1.py +1 -1
birder/net/crossvit.py +5 -5
birder/net/davit.py +1 -1
birder/net/deit.py +12 -26
birder/net/deit3.py +42 -189
birder/net/densenet.py +9 -8
birder/net/detection/deformable_detr.py +5 -2
birder/net/detection/detr.py +5 -2
birder/net/detection/efficientdet.py +1 -1
birder/net/dpn.py +1 -2
birder/net/edgenext.py +2 -1
birder/net/edgevit.py +3 -0
birder/net/efficientformer_v1.py +2 -1
birder/net/efficientformer_v2.py +18 -31
birder/net/efficientnet_v2.py +3 -0
birder/net/efficientvit_mit.py +5 -5
birder/net/fasternet.py +2 -2
birder/net/flexivit.py +22 -43
birder/net/groupmixformer.py +1 -1
birder/net/hgnet_v1.py +5 -5
birder/net/inception_next.py +1 -1
birder/net/inception_resnet_v1.py +3 -3
birder/net/inception_resnet_v2.py +7 -4
birder/net/inception_v3.py +3 -0
birder/net/inception_v4.py +3 -0
birder/net/maxvit.py +1 -1
birder/net/metaformer.py +3 -3
birder/net/mim/crossmae.py +1 -1
birder/net/mim/mae_vit.py +1 -1
birder/net/mim/simmim.py +1 -1
birder/net/mobilenet_v1.py +0 -9
birder/net/mobilenet_v2.py +38 -44
birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} +37 -10
birder/net/mobilevit_v1.py +5 -32
birder/net/mobilevit_v2.py +1 -45
birder/net/moganet.py +8 -5
birder/net/mvit_v2.py +6 -6
birder/net/nfnet.py +4 -0
birder/net/pit.py +1 -1
birder/net/pvt_v1.py +5 -5
birder/net/pvt_v2.py +5 -5
birder/net/repghost.py +1 -30
birder/net/resmlp.py +2 -2
birder/net/resnest.py +3 -0
birder/net/resnet_v1.py +125 -1
birder/net/resnet_v2.py +75 -1
birder/net/resnext.py +35 -1
birder/net/rope_deit3.py +33 -136
birder/net/rope_flexivit.py +18 -18
birder/net/rope_vit.py +3 -735
birder/net/simple_vit.py +22 -16
birder/net/smt.py +1 -1
birder/net/squeezenet.py +5 -12
birder/net/squeezenext.py +0 -24
birder/net/ssl/capi.py +1 -1
birder/net/ssl/data2vec.py +1 -1
birder/net/ssl/dino_v2.py +2 -2
birder/net/ssl/franca.py +2 -2
birder/net/ssl/i_jepa.py +1 -1
birder/net/ssl/ibot.py +1 -1
birder/net/swiftformer.py +12 -2
birder/net/swin_transformer_v2.py +1 -1
birder/net/tiny_vit.py +3 -16
birder/net/van.py +2 -2
birder/net/vit.py +35 -963
birder/net/vit_sam.py +13 -38
birder/net/xcit.py +7 -6
birder/tools/introspection.py +1 -1
birder/tools/model_info.py +3 -1
birder/version.py +1 -1
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/METADATA +1 -1
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/RECORD +88 -90
birder/net/mobilenet_v3_small.py +0 -43
birder/net/se_resnet_v1.py +0 -105
birder/net/se_resnet_v2.py +0 -59
birder/net/se_resnext.py +0 -30
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/WHEEL +0 -0
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/entry_points.txt +0 -0
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/licenses/LICENSE +0 -0
{birder-0.3.3.dist-info → birder-0.4.0.dist-info}/top_level.txt +0 -0

birder/net/simple_vit.py CHANGED Viewed

@@ -20,6 +20,12 @@ import torch
 from torch import nn
 from birder.model_registry import registry
+from birder.net._vit_configs import BASE
+from birder.net._vit_configs import GIANT
+from birder.net._vit_configs import HUGE
+from birder.net._vit_configs import LARGE
+from birder.net._vit_configs import MEDIUM
+from birder.net._vit_configs import SMALL
 from birder.net.base import MaskedTokenOmissionMixin
 from birder.net.base import PreTrainEncoder
 from birder.net.base import TokenOmissionResultType
@@ -45,12 +51,12 @@ class Simple_ViT(PreTrainEncoder, MaskedTokenOmissionMixin):
         assert self.config is not None, "must set config"
         image_size = self.size
-        drop_path_rate = 0.0
         patch_size: int = self.config["patch_size"]
         num_layers: int = self.config["num_layers"]
         num_heads: int = self.config["num_heads"]
         hidden_dim: int = self.config["hidden_dim"]
         mlp_dim: int = self.config["mlp_dim"]
+        drop_path_rate: float = self.config["drop_path_rate"]
         torch._assert(image_size[0] % patch_size == 0, "Input shape indivisible by patch size!")
         torch._assert(image_size[1] % patch_size == 0, "Input shape indivisible by patch size!")
@@ -215,75 +221,75 @@ class Simple_ViT(PreTrainEncoder, MaskedTokenOmissionMixin):
 registry.register_model_config(
     "simple_vit_s32",
     Simple_ViT,
-    config={"patch_size": 32, "num_layers": 12, "num_heads": 6, "hidden_dim": 384, "mlp_dim": 1536},
+    config={"patch_size": 32, **SMALL},
 )
 registry.register_model_config(
     "simple_vit_s16",
     Simple_ViT,
-    config={"patch_size": 16, "num_layers": 12, "num_heads": 6, "hidden_dim": 384, "mlp_dim": 1536},
+    config={"patch_size": 16, **SMALL},
 )
 registry.register_model_config(
     "simple_vit_s14",
     Simple_ViT,
-    config={"patch_size": 14, "num_layers": 12, "num_heads": 6, "hidden_dim": 384, "mlp_dim": 1536},
+    config={"patch_size": 14, **SMALL},
 )
 registry.register_model_config(
     "simple_vit_m32",
     Simple_ViT,
-    config={"patch_size": 32, "num_layers": 12, "num_heads": 8, "hidden_dim": 512, "mlp_dim": 2048},
+    config={"patch_size": 32, **MEDIUM},
 )
 registry.register_model_config(
     "simple_vit_m16",
     Simple_ViT,
-    config={"patch_size": 16, "num_layers": 12, "num_heads": 8, "hidden_dim": 512, "mlp_dim": 2048},
+    config={"patch_size": 16, **MEDIUM},
 )
 registry.register_model_config(
     "simple_vit_m14",
     Simple_ViT,
-    config={"patch_size": 14, "num_layers": 12, "num_heads": 8, "hidden_dim": 512, "mlp_dim": 2048},
+    config={"patch_size": 14, **MEDIUM},
 )
 registry.register_model_config(
     "simple_vit_b32",
     Simple_ViT,
-    config={"patch_size": 32, "num_layers": 12, "num_heads": 12, "hidden_dim": 768, "mlp_dim": 3072},
+    config={"patch_size": 32, **BASE},  # Override the BASE definition
 )
 registry.register_model_config(
     "simple_vit_b16",
     Simple_ViT,
-    config={"patch_size": 16, "num_layers": 12, "num_heads": 12, "hidden_dim": 768, "mlp_dim": 3072},
+    config={"patch_size": 16, **BASE},
 )
 registry.register_model_config(
     "simple_vit_b14",
     Simple_ViT,
-    config={"patch_size": 14, "num_layers": 12, "num_heads": 12, "hidden_dim": 768, "mlp_dim": 3072},
+    config={"patch_size": 14, **BASE},
 )
 registry.register_model_config(
     "simple_vit_l32",
     Simple_ViT,
-    config={"patch_size": 32, "num_layers": 24, "num_heads": 16, "hidden_dim": 1024, "mlp_dim": 4096},
+    config={"patch_size": 32, **LARGE},
 )
 registry.register_model_config(
     "simple_vit_l16",
     Simple_ViT,
-    config={"patch_size": 16, "num_layers": 24, "num_heads": 16, "hidden_dim": 1024, "mlp_dim": 4096},
+    config={"patch_size": 16, **LARGE},
 )
 registry.register_model_config(
     "simple_vit_l14",
     Simple_ViT,
-    config={"patch_size": 14, "num_layers": 24, "num_heads": 16, "hidden_dim": 1024, "mlp_dim": 4096},
+    config={"patch_size": 14, **LARGE},
 )
 registry.register_model_config(
     "simple_vit_h16",
     Simple_ViT,
-    config={"patch_size": 16, "num_layers": 32, "num_heads": 16, "hidden_dim": 1280, "mlp_dim": 5120},
+    config={"patch_size": 16, **HUGE},
 )
 registry.register_model_config(
     "simple_vit_h14",
     Simple_ViT,
-    config={"patch_size": 14, "num_layers": 32, "num_heads": 16, "hidden_dim": 1280, "mlp_dim": 5120},
+    config={"patch_size": 14, **HUGE},
 )
 registry.register_model_config(  # From "Scaling Vision Transformers"
     "simple_vit_g14",
     Simple_ViT,
-    config={"patch_size": 14, "num_layers": 40, "num_heads": 16, "hidden_dim": 1408, "mlp_dim": 6144},
+    config={"patch_size": 14, **GIANT},
 )

birder/net/smt.py CHANGED Viewed

@@ -259,7 +259,7 @@ class Stem(nn.Module):
                 embed_dim,
                 kernel_size=kernel_size,
                 stride=stride,
-                padding=(kernel_size[0] // 2, kernel_size[1] // 2),
+                padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
             ),
             nn.Conv2d(embed_dim, embed_dim, kernel_size=(2, 2), stride=(2, 2), padding=(0, 0)),
         )

birder/net/squeezenet.py CHANGED Viewed

@@ -20,11 +20,11 @@ from birder.net.base import BaseNet
 class Fire(nn.Module):
     def __init__(self, in_planes: int, squeeze: int, expand: int) -> None:
         super().__init__()
-        self.squeeze = nn.Conv2d(in_planes, squeeze, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.squeeze = nn.Conv2d(in_planes, squeeze, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.squeeze_activation = nn.ReLU(inplace=True)
-        self.left = nn.Conv2d(squeeze, expand, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0), bias=False)
+        self.left = nn.Conv2d(squeeze, expand, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
         self.left_activation = nn.ReLU(inplace=True)
-        self.right = nn.Conv2d(squeeze, expand, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
+        self.right = nn.Conv2d(squeeze, expand, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
         self.right_activation = nn.ReLU(inplace=True)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -53,7 +53,7 @@ class SqueezeNet(BaseNet):
         assert self.config is None, "config not supported"
         self.stem = nn.Sequential(
-            nn.Conv2d(self.input_channels, 64, kernel_size=(3, 3), stride=(2, 2), padding=(0, 0), bias=False),
+            nn.Conv2d(self.input_channels, 64, kernel_size=(3, 3), stride=(2, 2), padding=(0, 0)),
             nn.ReLU(inplace=True),
             nn.MaxPool2d(kernel_size=(3, 3), stride=(2, 2), padding=(0, 0), ceil_mode=True),
         )
@@ -94,14 +94,7 @@ class SqueezeNet(BaseNet):
         return nn.Sequential(
             nn.Dropout(p=0.5, inplace=True),
-            nn.Conv2d(
-                embed_dim,
-                self.num_classes,
-                kernel_size=(1, 1),
-                stride=(1, 1),
-                padding=(0, 0),
-                bias=False,
-            ),
+            nn.Conv2d(embed_dim, self.num_classes, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0)),
             nn.ReLU(inplace=True),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),

birder/net/squeezenext.py CHANGED Viewed

@@ -27,7 +27,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(1, 1),
                 stride=(stride, stride),
                 padding=(0, 0),
-                bias=False,
             )
         elif in_channels > out_channels:
@@ -38,7 +37,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(1, 1),
                 stride=(stride, stride),
                 padding=(0, 0),
-                bias=False,
             )
         else:
@@ -52,7 +50,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(1, 1),
                 stride=(stride, stride),
                 padding=(0, 0),
-                bias=False,
             ),
             Conv2dNormActivation(
                 in_channels // reduction,
@@ -60,7 +57,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(1, 1),
                 stride=(1, 1),
                 padding=(0, 0),
-                bias=False,
             ),
             Conv2dNormActivation(
                 in_channels // (2 * reduction),
@@ -68,7 +64,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(1, 3),
                 stride=(1, 1),
                 padding=(0, 1),
-                bias=False,
             ),
             Conv2dNormActivation(
                 in_channels // reduction,
@@ -76,7 +71,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(3, 1),
                 stride=(1, 1),
                 padding=(1, 0),
-                bias=False,
             ),
             Conv2dNormActivation(
                 in_channels // reduction,
@@ -84,7 +78,6 @@ class SqnxtUnit(nn.Module):
                 kernel_size=(1, 1),
                 stride=(1, 1),
                 padding=(0, 0),
-                bias=False,
             ),
         )
         self.relu = nn.ReLU(inplace=True)
@@ -124,7 +117,6 @@ class SqueezeNext(DetectorBackbone):
                 kernel_size=(7, 7),
                 stride=(2, 2),
                 padding=(1, 1),
-                bias=False,
             ),
             nn.MaxPool2d(kernel_size=(3, 3), stride=(2, 2), padding=(0, 0), ceil_mode=True),
         )
@@ -155,7 +147,6 @@ class SqueezeNext(DetectorBackbone):
                 kernel_size=(1, 1),
                 stride=(1, 1),
                 padding=(0, 0),
-                bias=False,
             ),
             nn.AdaptiveAvgPool2d(output_size=(1, 1)),
             nn.Flatten(1),
@@ -199,18 +190,3 @@ registry.register_model_config("squeezenext_0_5", SqueezeNext, config={"width_sc
 registry.register_model_config("squeezenext_1_0", SqueezeNext, config={"width_scale": 1.0})
 registry.register_model_config("squeezenext_1_5", SqueezeNext, config={"width_scale": 1.5})
 registry.register_model_config("squeezenext_2_0", SqueezeNext, config={"width_scale": 2.0})
-registry.register_weights(
-    "squeezenext_1_0_il-common",
-    {
-        "description": "SqueezeNext v2 1.0x output channels model trained on the il-common dataset",
-        "resolution": (259, 259),
-        "formats": {
-            "pt": {
-                "file_size": 3.5,
-                "sha256": "da01d1cd05c71b80b5e4e6ca66400f64fa3f6179d0e90834c4f6942c8095557a",
-            }
-        },
-        "net": {"network": "squeezenext_1_0", "tag": "il-common"},
-    },
-)

birder/net/ssl/capi.py CHANGED Viewed

@@ -306,7 +306,7 @@ class Decoder(nn.Module):
             dim=decoder_embed_dim,
             num_special_tokens=0,
         ).unsqueeze(0)
-        self.decoder_pos_embed = nn.Parameter(pos_embedding, requires_grad=False)
+        self.decoder_pos_embed = nn.Buffer(pos_embedding)
         self.decoder_layers = nn.ModuleList()
         for _ in range(decoder_depth):

birder/net/ssl/data2vec.py CHANGED Viewed

@@ -51,7 +51,7 @@ class Data2Vec(SSLBaseNet):
         self.ema_backbone = copy.deepcopy(self.backbone)
         self.head = nn.Linear(self.backbone.embedding_size, self.backbone.embedding_size)
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width))
         # Weights initialization
         self.ema_backbone.load_state_dict(self.backbone.state_dict())

birder/net/ssl/dino_v2.py CHANGED Viewed

@@ -460,7 +460,7 @@ class DINOv2Student(SSLBaseNet):
                 bottleneck_dim=head_bottleneck_dim,
             )
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width))
     # pylint: disable=arguments-differ
     def forward(  # type: ignore[override]
@@ -543,7 +543,7 @@ class DINOv2Teacher(SSLBaseNet):
             )
         # Unused, Makes for an easier EMA update
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width))
     # pylint: disable=arguments-differ
     def forward(  # type: ignore[override]

birder/net/ssl/franca.py CHANGED Viewed

@@ -433,7 +433,7 @@ class FrancaStudent(SSLBaseNet):
                 nesting_list=nesting_list,
             )
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width))
     # pylint: disable=arguments-differ
     def forward(  # type: ignore[override]
@@ -523,7 +523,7 @@ class FrancaTeacher(SSLBaseNet):
             )
         # Unused, Makes for an easier EMA update
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width))
     # pylint: disable=arguments-differ
     def forward(  # type: ignore[override]

birder/net/ssl/i_jepa.py CHANGED Viewed

@@ -200,7 +200,7 @@ class VisionTransformerPredictor(nn.Module):
         self.mask_token = nn.Parameter(torch.zeros(1, 1, predictor_embed_dim))
         pos_embedding = pos_embedding_sin_cos_2d(h=size[0], w=size[1], dim=predictor_embed_dim, num_special_tokens=0)
-        self.pos_embedding = nn.Parameter(pos_embedding, requires_grad=False)
+        self.pos_embedding = nn.Buffer(pos_embedding)
         self.encoder = Encoder(
             depth, num_heads, predictor_embed_dim, mlp_dim, dropout=0.0, attention_dropout=0.0, dpr=dpr

birder/net/ssl/ibot.py CHANGED Viewed

@@ -254,7 +254,7 @@ class iBOT(SSLBaseNet):
             shared_head=shared_head,
         )
-        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width), requires_grad=True)
+        self.mask_token = nn.Parameter(torch.zeros(1, 1, 1, self.backbone.stem_width))
     def forward(  # type: ignore[override]  # pylint: disable=arguments-differ
         self, x: torch.Tensor, masks: Optional[torch.Tensor], return_keys: Literal["all", "embedding"] = "all"

birder/net/swiftformer.py CHANGED Viewed

@@ -48,7 +48,12 @@ class ConvEncoder(nn.Module):
     ) -> None:
         super().__init__()
         self.dw_conv = nn.Conv2d(
-            dim, dim, kernel_size, stride=(1, 1), padding=(kernel_size[0] // 2, kernel_size[1] // 2), groups=dim
+            dim,
+            dim,
+            kernel_size,
+            stride=(1, 1),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
+            groups=dim,
         )
         self.norm = nn.BatchNorm2d(dim)
         self.pw_conv1 = nn.Conv2d(dim, hidden_dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
@@ -125,7 +130,12 @@ class LocalRepresentation(nn.Module):
     def __init__(self, dim: int, kernel_size: tuple[int, int], drop_path: float, use_layer_scale: bool) -> None:
         super().__init__()
         self.dw_conv = nn.Conv2d(
-            dim, dim, kernel_size, stride=(1, 1), padding=(kernel_size[0] // 2, kernel_size[1] // 2), groups=dim
+            dim,
+            dim,
+            kernel_size,
+            stride=(1, 1),
+            padding=((kernel_size[0] - 1) // 2, (kernel_size[1] - 1) // 2),
+            groups=dim,
         )
         self.norm = nn.BatchNorm2d(dim)
         self.pw_conv1 = nn.Conv2d(dim, dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))

birder/net/swin_transformer_v2.py CHANGED Viewed

@@ -72,7 +72,7 @@ class ShiftedWindowAttention(nn.Module):
         self.define_relative_position_bias_table()
         self.define_relative_position_index()
-        self.logit_scale = nn.Parameter(torch.log(10 * torch.ones((num_heads, 1, 1))), requires_grad=True)
+        self.logit_scale = nn.Parameter(torch.log(10 * torch.ones((num_heads, 1, 1))))
         # MLP to generate continuous relative position bias
         self.cpb_mlp = nn.Sequential(

birder/net/tiny_vit.py CHANGED Viewed

@@ -77,10 +77,11 @@ class MBConv(nn.Module):
             kernel_size=(1, 1),
             stride=(1, 1),
             padding=(0, 0),
-            activation_layer=nn.GELU,
+            activation_layer=None,
             inplace=None,
         )
         self.drop_path = StochasticDepth(drop_path, mode="row")
+        self.act = nn.GELU()
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         shortcut = x
@@ -89,6 +90,7 @@ class MBConv(nn.Module):
         x = self.conv3(x)
         x = self.drop_path(x)
         x += shortcut
+        x = self.act(x)
         return x
@@ -508,18 +510,3 @@ registry.register_model_config(
         "drop_path_rate": 0.2,
     },
 )
-registry.register_weights(
-    "tiny_vit_5m_il-common",
-    {
-        "description": "TinyViT 5M model trained on the il-common dataset",
-        "resolution": (256, 256),
-        "formats": {
-            "pt": {
-                "file_size": 20.0,
-                "sha256": "57f84dc3144fc4e3ca39328d3a1446ca9e26ddb54e4c4d84301b7638bee2ec21",
-            },
-        },
-        "net": {"network": "tiny_vit_5m", "tag": "il-common"},
-    },
-)

birder/net/van.py CHANGED Viewed

@@ -116,8 +116,8 @@ class VANBlock(nn.Module):
         self.mlp = DWConvMLP(in_features=dim, hidden_features=int(dim * mlp_ratio), drop=drop)
         layer_scale_init_value = 1e-2
-        self.layer_scale_1 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)), requires_grad=True)
-        self.layer_scale_2 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)), requires_grad=True)
+        self.layer_scale_1 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)))
+        self.layer_scale_2 = nn.Parameter(layer_scale_init_value * torch.ones((1, dim, 1, 1)))
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = x + self.drop_path(self.layer_scale_1 * self.attn(self.norm1(x)))

birder 0.3.3__py3-none-any.whl → 0.4.0__py3-none-any.whl

birder 0.3.3py3-none-any.whl → 0.4.0py3-none-any.whl