PyPI - birder - Versions diffs - 0.4.0__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

birder 0.4.0py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (187) hide show

birder/adversarial/base.py +1 -1
birder/adversarial/simba.py +4 -4
birder/common/cli.py +1 -1
birder/common/fs_ops.py +11 -11
birder/common/lib.py +2 -2
birder/common/masking.py +3 -3
birder/common/training_cli.py +24 -2
birder/common/training_utils.py +28 -4
birder/data/collators/detection.py +9 -1
birder/data/transforms/detection.py +27 -8
birder/data/transforms/mosaic.py +1 -1
birder/datahub/classification.py +3 -3
birder/inference/classification.py +3 -3
birder/inference/data_parallel.py +1 -1
birder/inference/detection.py +5 -5
birder/inference/wbf.py +1 -1
birder/introspection/attention_rollout.py +5 -5
birder/introspection/feature_pca.py +4 -4
birder/introspection/gradcam.py +1 -1
birder/introspection/guided_backprop.py +2 -2
birder/introspection/transformer_attribution.py +3 -3
birder/layers/attention_pool.py +2 -2
birder/model_registry/model_registry.py +2 -1
birder/net/__init__.py +2 -0
birder/net/_rope_vit_configs.py +5 -0
birder/net/_vit_configs.py +0 -13
birder/net/alexnet.py +5 -5
birder/net/base.py +28 -3
birder/net/biformer.py +17 -17
birder/net/cait.py +2 -2
birder/net/cas_vit.py +1 -1
birder/net/coat.py +15 -15
birder/net/convnext_v1.py +2 -10
birder/net/convnext_v1_iso.py +198 -0
birder/net/convnext_v2.py +2 -10
birder/net/crossformer.py +9 -9
birder/net/crossvit.py +1 -1
birder/net/cspnet.py +1 -1
birder/net/cswin_transformer.py +10 -10
birder/net/davit.py +10 -10
birder/net/deit.py +56 -3
birder/net/deit3.py +27 -15
birder/net/detection/__init__.py +4 -0
birder/net/detection/{yolo_anchors.py → _yolo_anchors.py} +5 -5
birder/net/detection/base.py +6 -5
birder/net/detection/deformable_detr.py +26 -28
birder/net/detection/detr.py +9 -9
birder/net/detection/efficientdet.py +9 -28
birder/net/detection/faster_rcnn.py +22 -22
birder/net/detection/fcos.py +8 -8
birder/net/detection/plain_detr.py +852 -0
birder/net/detection/retinanet.py +4 -4
birder/net/detection/rt_detr_v1.py +81 -25
birder/net/detection/rt_detr_v2.py +1147 -0
birder/net/detection/ssd.py +5 -5
birder/net/detection/yolo_v2.py +12 -12
birder/net/detection/yolo_v3.py +19 -19
birder/net/detection/yolo_v4.py +16 -16
birder/net/detection/yolo_v4_tiny.py +3 -3
birder/net/edgenext.py +3 -3
birder/net/edgevit.py +10 -14
birder/net/efficientformer_v1.py +1 -1
birder/net/efficientvim.py +9 -9
birder/net/efficientvit_mit.py +2 -2
birder/net/efficientvit_msft.py +3 -3
birder/net/fasternet.py +1 -1
birder/net/fastvit.py +5 -12
birder/net/flexivit.py +28 -15
birder/net/focalnet.py +5 -9
birder/net/gc_vit.py +11 -11
birder/net/ghostnet_v1.py +1 -1
birder/net/ghostnet_v2.py +1 -1
birder/net/groupmixformer.py +12 -12
birder/net/hgnet_v1.py +1 -1
birder/net/hgnet_v2.py +4 -4
birder/net/hiera.py +6 -6
birder/net/hieradet.py +9 -9
birder/net/hornet.py +3 -3
birder/net/iformer.py +4 -4
birder/net/inception_next.py +4 -14
birder/net/levit.py +3 -3
birder/net/lit_v1.py +13 -15
birder/net/lit_v1_tiny.py +9 -9
birder/net/lit_v2.py +14 -15
birder/net/maxvit.py +10 -22
birder/net/metaformer.py +2 -2
birder/net/mim/crossmae.py +5 -5
birder/net/mim/fcmae.py +3 -5
birder/net/mim/mae_hiera.py +7 -7
birder/net/mim/mae_vit.py +3 -5
birder/net/mim/simmim.py +2 -3
birder/net/mobilenet_v4_hybrid.py +4 -4
birder/net/mobileone.py +5 -12
birder/net/mobilevit_v1.py +2 -2
birder/net/mobilevit_v2.py +5 -9
birder/net/mvit_v2.py +24 -24
birder/net/nextvit.py +2 -2
birder/net/pit.py +11 -26
birder/net/pvt_v1.py +4 -4
birder/net/pvt_v2.py +5 -11
birder/net/regionvit.py +15 -15
birder/net/regnet.py +1 -1
birder/net/repghost.py +4 -5
birder/net/repvgg.py +3 -5
birder/net/repvit.py +2 -2
birder/net/resnest.py +1 -1
birder/net/rope_deit3.py +29 -15
birder/net/rope_flexivit.py +28 -15
birder/net/rope_vit.py +41 -23
birder/net/sequencer2d.py +3 -4
birder/net/shufflenet_v1.py +1 -1
birder/net/shufflenet_v2.py +1 -1
birder/net/simple_vit.py +47 -5
birder/net/smt.py +7 -7
birder/net/ssl/barlow_twins.py +1 -1
birder/net/ssl/byol.py +2 -2
birder/net/ssl/capi.py +3 -3
birder/net/ssl/data2vec2.py +1 -1
birder/net/ssl/dino_v2.py +11 -1
birder/net/ssl/franca.py +26 -2
birder/net/ssl/i_jepa.py +4 -4
birder/net/ssl/mmcr.py +1 -1
birder/net/swiftformer.py +1 -1
birder/net/swin_transformer_v1.py +4 -5
birder/net/swin_transformer_v2.py +4 -7
birder/net/tiny_vit.py +3 -3
birder/net/transnext.py +19 -19
birder/net/uniformer.py +4 -4
birder/net/vgg.py +1 -10
birder/net/vit.py +38 -25
birder/net/vit_parallel.py +35 -20
birder/net/vit_sam.py +10 -10
birder/net/vovnet_v2.py +1 -1
birder/net/xcit.py +9 -7
birder/ops/msda.py +4 -4
birder/ops/swattention.py +10 -10
birder/results/classification.py +3 -3
birder/results/gui.py +8 -8
birder/scripts/benchmark.py +37 -12
birder/scripts/evaluate.py +1 -1
birder/scripts/predict.py +3 -3
birder/scripts/predict_detection.py +2 -2
birder/scripts/train.py +63 -15
birder/scripts/train_barlow_twins.py +10 -7
birder/scripts/train_byol.py +10 -7
birder/scripts/train_capi.py +15 -10
birder/scripts/train_data2vec.py +10 -7
birder/scripts/train_data2vec2.py +10 -7
birder/scripts/train_detection.py +29 -14
birder/scripts/train_dino_v1.py +13 -9
birder/scripts/train_dino_v2.py +27 -14
birder/scripts/train_dino_v2_dist.py +28 -15
birder/scripts/train_franca.py +16 -9
birder/scripts/train_i_jepa.py +12 -9
birder/scripts/train_ibot.py +15 -11
birder/scripts/train_kd.py +64 -17
birder/scripts/train_mim.py +11 -8
birder/scripts/train_mmcr.py +11 -8
birder/scripts/train_rotnet.py +11 -7
birder/scripts/train_simclr.py +10 -7
birder/scripts/train_vicreg.py +10 -7
birder/tools/adversarial.py +4 -4
birder/tools/auto_anchors.py +5 -5
birder/tools/avg_model.py +1 -1
birder/tools/convert_model.py +30 -22
birder/tools/det_results.py +1 -1
birder/tools/download_model.py +1 -1
birder/tools/ensemble_model.py +1 -1
birder/tools/introspection.py +11 -2
birder/tools/labelme_to_coco.py +2 -2
birder/tools/model_info.py +12 -14
birder/tools/pack.py +8 -8
birder/tools/quantize_model.py +53 -4
birder/tools/results.py +2 -2
birder/tools/show_det_iterator.py +19 -6
birder/tools/show_iterator.py +2 -2
birder/tools/similarity.py +5 -5
birder/tools/stats.py +4 -6
birder/tools/voc_to_coco.py +1 -1
birder/version.py +1 -1
{birder-0.4.0.dist-info → birder-0.4.1.dist-info}/METADATA +3 -3
birder-0.4.1.dist-info/RECORD +300 -0
{birder-0.4.0.dist-info → birder-0.4.1.dist-info}/WHEEL +1 -1
birder-0.4.0.dist-info/RECORD +0 -297
{birder-0.4.0.dist-info → birder-0.4.1.dist-info}/entry_points.txt +0 -0
{birder-0.4.0.dist-info → birder-0.4.1.dist-info}/licenses/LICENSE +0 -0
{birder-0.4.0.dist-info → birder-0.4.1.dist-info}/top_level.txt +0 -0

birder/net/smt.py CHANGED Viewed

@@ -36,7 +36,7 @@ class DWConv(nn.Module):
         self.dwconv = nn.Conv2d(dim, dim, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=dim)
     def forward(self, x: torch.Tensor, H: int, W: int) -> torch.Tensor:
-        (B, _, C) = x.size()
+        B, _, C = x.size()
         x = x.transpose(1, 2).view(B, C, H, W)
         x = self.dwconv(x)
         x = x.flatten(2).transpose(1, 2)
@@ -94,7 +94,7 @@ class CAAttention(nn.Module):
         self.proj1 = nn.Conv2d(dim * expand_ratio, dim, kernel_size=(1, 1), stride=(1, 1), padding=(0, 0))
     def forward(self, x: torch.Tensor, H: int, W: int) -> torch.Tensor:
-        (B, N, C) = x.size()
+        B, N, C = x.size()
         v = self.v(x)
         s = self.s(x).reshape(B, H, W, self.ca_num_heads, C // self.ca_num_heads).permute(3, 0, 4, 1, 2)
@@ -140,11 +140,11 @@ class SAAttention(nn.Module):
         self.conv = nn.Conv2d(dim, dim, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=dim)
     def forward(self, x: torch.Tensor, H: int, W: int) -> torch.Tensor:
-        (B, N, C) = x.size()
+        B, N, C = x.size()
         q = self.q(x).reshape(B, N, self.sa_num_heads, C // self.sa_num_heads).permute(0, 2, 1, 3)
         kv = self.kv(x).reshape(B, -1, 2, self.sa_num_heads, C // self.sa_num_heads).permute(2, 0, 3, 1, 4)
-        (k, v) = kv.unbind(0)
+        k, v = kv.unbind(0)
         attn = (q @ k.transpose(-2, -1)) * self.scale
         attn = attn.softmax(dim=-1)
         attn = self.attn_drop(attn)
@@ -243,7 +243,7 @@ class OverlapPatchEmbed(nn.Module):
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, int, int]:
         x = self.proj(x)
-        (_, _, H, W) = x.size()
+        _, _, H, W = x.size()
         x = x.flatten(2).transpose(1, 2)
         x = self.norm(x)
@@ -267,7 +267,7 @@ class Stem(nn.Module):
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, int, int]:
         x = self.conv(x)
-        (_, _, H, W) = x.size()
+        _, _, H, W = x.size()
         x = x.flatten(2).transpose(1, 2)
         x = self.norm(x)
@@ -329,7 +329,7 @@ class SMTStage(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         B = x.size(0)
-        (x, H, W) = self.downsample_block(x)
+        x, H, W = self.downsample_block(x)
         x = self.blocks(x, H, W)
         x = self.norm(x)
         x = x.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()

birder/net/ssl/barlow_twins.py CHANGED Viewed

@@ -21,7 +21,7 @@ from birder.net.ssl.base import SSLBaseNet
 def off_diagonal(x: torch.Tensor) -> torch.Tensor:
     # Return a flattened view of the off-diagonal elements of a square matrix
-    (n, _) = x.size()
+    n, _ = x.size()
     # assert n == m
     return x.flatten()[:-1].view(n - 1, n + 1)[:, 1:].flatten()

birder/net/ssl/byol.py CHANGED Viewed

@@ -80,11 +80,11 @@ class BYOL(SSLBaseNet):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         projection = self.online_encoder(x)
         online_predictions = self.online_predictor(projection)
-        (online_pred_one, online_pred_two) = online_predictions.chunk(2, dim=0)
+        online_pred_one, online_pred_two = online_predictions.chunk(2, dim=0)
         with torch.no_grad():
             target_projections = self.target_encoder(x)
-            (target_proj_one, target_proj_two) = target_projections.chunk(2, dim=0)
+            target_proj_one, target_proj_two = target_projections.chunk(2, dim=0)
         loss_one = loss_fn(online_pred_one, target_proj_two.detach())
         loss_two = loss_fn(online_pred_two, target_proj_one.detach())

birder/net/ssl/capi.py CHANGED Viewed

@@ -263,11 +263,11 @@ class CrossAttention(nn.Module):
         self.proj = nn.Linear(decoder_dim, decoder_dim)
     def forward(self, tgt: torch.Tensor, memory: torch.Tensor) -> torch.Tensor:
-        (B, N, C) = tgt.size()
+        B, N, C = tgt.size()
         n_kv = memory.size(1)
         q = self.q(tgt).reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
         kv = self.kv(memory).reshape(B, n_kv, 2, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
-        (k, v) = kv.unbind(0)
+        k, v = kv.unbind(0)
         attn = F.scaled_dot_product_attention(q, k, v, dropout_p=0.0)  # pylint: disable=not-callable
         x = attn.transpose(1, 2).reshape(B, N, C)
@@ -419,7 +419,7 @@ class CAPITeacher(SSLBaseNet):
             x = self.backbone.masked_encoding_omission(x, ids_keep)["tokens"]
         x = x[:, self.backbone.num_special_tokens :, :]
-        (assignments, clustering_loss) = self.head(x.transpose(0, 1))
+        assignments, clustering_loss = self.head(x.transpose(0, 1))
         assignments = assignments.detach().transpose(0, 1)
         row_indices = torch.arange(B).unsqueeze(1).expand_as(ids_predict)

birder/net/ssl/data2vec2.py CHANGED Viewed

@@ -68,7 +68,7 @@ class Decoder2d(nn.Module):
         self.proj = nn.Linear(embed_dim, in_channels)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, _, C) = x.size()  # B, N, C
+        B, _, C = x.size()  # B, N, C
         x = x.transpose(1, 2).reshape(B, C, self.H, self.W)

birder/net/ssl/dino_v2.py CHANGED Viewed

@@ -148,7 +148,17 @@ class DINOLoss(nn.Module):
     def forward(
         self, student_output_list: list[torch.Tensor], teacher_out_softmax_centered_list: list[torch.Tensor]
-    ) -> float:
+    ) -> torch.Tensor:
+        s = torch.stack(student_output_list, 0)
+        t = torch.stack(teacher_out_softmax_centered_list, 0)
+        lsm = F.log_softmax(s / self.student_temp, dim=-1)
+        loss = -(torch.einsum("tbk,sbk->tsb", t, lsm).mean(-1).sum())
+        return loss
+    def forward_reference(
+        self, student_output_list: list[torch.Tensor], teacher_out_softmax_centered_list: list[torch.Tensor]
+    ) -> torch.Tensor:
         total_loss = 0.0
         for s in student_output_list:
             lsm = F.log_softmax(s / self.student_temp, dim=-1)

birder/net/ssl/franca.py CHANGED Viewed

@@ -69,7 +69,7 @@ class DINOHeadMRL(nn.Module):
     ) -> None:
         super().__init__()
         self.nesting_list = nesting_list
-        self.matryoshka_projections = nn.ModuleList([nn.Linear(dim, dim, bias=True) for dim in self.nesting_list])
+        self.matryoshka_projections = nn.ModuleList([nn.Linear(dim, dim) for dim in self.nesting_list])
         self.mlps = nn.ModuleList(
             [
@@ -197,7 +197,31 @@ class DINOLossMRL(nn.Module):
         teacher_out_softmax_centered_list: list[torch.Tensor],
         n_crops: int | tuple[int, int],
         teacher_global: bool,
-    ) -> float:
+    ) -> torch.Tensor:
+        total_loss = 0.0
+        if teacher_global is False:
+            for student_outputs, teacher_outputs in zip(student_output_list, teacher_out_softmax_centered_list):
+                s = torch.stack(student_outputs.chunk(n_crops[0]), 0)  # type: ignore[index]
+                t = teacher_outputs.view(n_crops[1], -1, teacher_outputs.shape[-1])  # type: ignore[index]
+                lsm = F.log_softmax(s / self.student_temp, dim=-1)
+                total_loss -= torch.einsum("tbk,sbk->tsb", t, lsm).mean(-1).sum()
+        else:
+            for student_outputs, teacher_outputs in zip(student_output_list, teacher_out_softmax_centered_list):
+                teacher_outputs = teacher_outputs.view(n_crops, -1, teacher_outputs.shape[-1])
+                lsm = F.log_softmax(student_outputs / self.student_temp, dim=-1)
+                loss = torch.sum(teacher_outputs.flatten(0, 1) * lsm, dim=-1)
+                total_loss -= loss.mean()
+        return total_loss
+    def forward_reference(
+        self,
+        student_output_list: list[torch.Tensor],
+        teacher_out_softmax_centered_list: list[torch.Tensor],
+        n_crops: int | tuple[int, int],
+        teacher_global: bool,
+    ) -> torch.Tensor:
         total_loss = 0.0
         if teacher_global is False:
             for student_outputs, teacher_outputs in zip(student_output_list, teacher_out_softmax_centered_list):

birder/net/ssl/i_jepa.py CHANGED Viewed

@@ -69,11 +69,11 @@ class MultiBlockMasking:
     ) -> tuple[int, int]:
         _rand = torch.rand(1).item()
-        (min_s, max_s) = scale
+        min_s, max_s = scale
         mask_scale = min_s + _rand * (max_s - min_s)
         max_keep = int(self.height * self.width * mask_scale)
-        (min_ar, max_ar) = aspect_ratio_scale
+        min_ar, max_ar = aspect_ratio_scale
         aspect_ratio = min_ar + _rand * (max_ar - min_ar)
         # Compute block height and width (given scale and aspect-ratio)
@@ -154,7 +154,7 @@ class MultiBlockMasking:
             masks_p = []
             masks_c = []
             for _ in range(self.n_pred):
-                (mask, mask_c) = self._sample_block_mask(p_size)
+                mask, mask_c = self._sample_block_mask(p_size)
                 masks_p.append(mask)
                 masks_c.append(mask_c)
                 min_keep_pred = min(min_keep_pred, len(mask))
@@ -167,7 +167,7 @@ class MultiBlockMasking:
             masks_e = []
             for _ in range(self.n_enc):
-                (mask, _) = self._sample_block_mask(e_size, acceptable_regions=acceptable_regions)
+                mask, _ = self._sample_block_mask(e_size, acceptable_regions=acceptable_regions)
                 masks_e.append(mask)
                 min_keep_enc = min(min_keep_enc, len(mask))

birder/net/ssl/mmcr.py CHANGED Viewed

@@ -125,7 +125,7 @@ class MMCR(SSLBaseNet):
         self.momentum_encoder.load_state_dict(self.encoder.state_dict())
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
-        (C, H, W) = x.shape[-3:]  # B, num_views, C, H, W
+        C, H, W = x.shape[-3:]  # B, num_views, C, H, W
         x = x.reshape(-1, C, H, W)
         z = self.encoder(x)

birder/net/swiftformer.py CHANGED Viewed

@@ -111,7 +111,7 @@ class EfficientAdditiveAttention(nn.Module):
         self.final = nn.Linear(token_dim * num_heads, token_dim)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, _, H, W) = x.size()
+        B, _, H, W = x.size()
         x = x.flatten(2).permute(0, 2, 1)
         query = F.normalize(self.to_query(x), dim=-1)

birder/net/swin_transformer_v1.py CHANGED Viewed

@@ -30,7 +30,7 @@ from birder.net.base import DetectorBackbone
 def patch_merging_pad(x: torch.Tensor) -> torch.Tensor:
-    (H, W, _) = x.shape[-3:]
+    H, W, _ = x.shape[-3:]
     x = F.pad(x, (0, 0, 0, W % 2, 0, H % 2))
     x0 = x[..., 0::2, 0::2, :]  # ... H/2 W/2 C
     x1 = x[..., 1::2, 0::2, :]  # ... H/2 W/2 C
@@ -73,13 +73,13 @@ def shifted_window_attention(
     proj_bias: Optional[torch.Tensor] = None,
     logit_scale: Optional[torch.Tensor] = None,
 ) -> torch.Tensor:
-    (B, H, W, C) = x.size()
+    B, H, W, C = x.size()
     # Pad feature maps to multiples of window size
     pad_b = (window_size[0] - H % window_size[0]) % window_size[0]
     pad_r = (window_size[1] - W % window_size[1]) % window_size[1]
     x = F.pad(x, (0, 0, 0, pad_r, 0, pad_b))
-    (_, pad_h, pad_w, _) = x.size()
+    _, pad_h, pad_w, _ = x.size()
     # If window size is larger than feature size, there is no need to shift window
     shift_size_w = shift_size[0]
@@ -309,7 +309,6 @@ class Swin_Transformer_v1(DetectorBackbone):
                 kernel_size=(patch_size, patch_size),
                 stride=(patch_size, patch_size),
                 padding=(0, 0),
-                bias=True,
             ),
             Permute([0, 2, 3, 1]),
             nn.LayerNorm(embed_dim, eps=1e-5),
@@ -434,7 +433,7 @@ class Swin_Transformer_v1(DetectorBackbone):
                     num_attn_heads = rel_pos_bias.size(1)
                     def _calc(src: int, dst: int) -> list[float]:
-                        (left, right) = 1.01, 1.5
+                        left, right = 1.01, 1.5
                         while right - left > 1e-6:
                             q = (left + right) / 2.0
                             gp = (1.0 - q ** (src // 2)) / (1.0 - q)  # Geometric progression

birder/net/swin_transformer_v2.py CHANGED Viewed

@@ -76,7 +76,9 @@ class ShiftedWindowAttention(nn.Module):
         # MLP to generate continuous relative position bias
         self.cpb_mlp = nn.Sequential(
-            nn.Linear(2, 512, bias=True), nn.ReLU(inplace=True), nn.Linear(512, num_heads, bias=False)
+            nn.Linear(2, 512),
+            nn.ReLU(inplace=True),
+            nn.Linear(512, num_heads, bias=False),
         )
         if qkv_bias is True:
             length = self.qkv.bias.numel() // 3
@@ -224,12 +226,7 @@ class Swin_Transformer_v2(DetectorBackbone, PreTrainEncoder, MaskedTokenRetentio
         self.stem = nn.Sequential(
             nn.Conv2d(
-                self.input_channels,
-                embed_dim,
-                kernel_size=(patch_size, patch_size),
-                stride=patch_size,
-                padding=(0, 0),
-                bias=True,
+                self.input_channels, embed_dim, kernel_size=(patch_size, patch_size), stride=patch_size, padding=(0, 0)
             ),
             Permute([0, 2, 3, 1]),
             nn.LayerNorm(embed_dim, eps=1e-5),

birder/net/tiny_vit.py CHANGED Viewed

@@ -201,12 +201,12 @@ class Attention(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         attn_bias = self.attention_biases[:, self.attention_bias_idxs]
-        (B, N, _) = x.shape
+        B, N, _ = x.shape
         # Normalization
         x = self.norm(x)
         qkv = self.qkv(x)
-        (q, k, v) = qkv.view(B, N, self.num_heads, -1).split([self.key_dim, self.key_dim, self.val_dim], dim=3)
+        q, k, v = qkv.view(B, N, self.num_heads, -1).split([self.key_dim, self.key_dim, self.val_dim], dim=3)
         q = q.permute(0, 2, 1, 3)
         k = k.permute(0, 2, 1, 3)
@@ -252,7 +252,7 @@ class TinyVitBlock(nn.Module):
         )
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, H, W, C) = x.shape
+        B, H, W, C = x.shape
         L = H * W
         shortcut = x

birder/net/transnext.py CHANGED Viewed

@@ -32,8 +32,8 @@ def get_relative_position_cpb(
     axis_kh = F.adaptive_avg_pool1d(axis_qh.unsqueeze(0), key_size[0]).squeeze(0)  # pylint: disable=not-callable
     axis_qw = torch.arange(query_size[1], dtype=torch.float32, device=device)
     axis_kw = F.adaptive_avg_pool1d(axis_qw.unsqueeze(0), key_size[1]).squeeze(0)  # pylint: disable=not-callable
-    (axis_kh, axis_kw) = torch.meshgrid(axis_kh, axis_kw, indexing="ij")
-    (axis_qh, axis_qw) = torch.meshgrid(axis_qh, axis_qw, indexing="ij")
+    axis_kh, axis_kw = torch.meshgrid(axis_kh, axis_kw, indexing="ij")
+    axis_qh, axis_qw = torch.meshgrid(axis_qh, axis_qw, indexing="ij")
     axis_kh = torch.reshape(axis_kh, [-1])
     axis_kw = torch.reshape(axis_kw, [-1])
@@ -44,7 +44,7 @@ def get_relative_position_cpb(
     relative_w = (axis_qw[:, None] - axis_kw[None, :]) / (pretrain_size[1] - 1) * 8
     relative_hw = torch.stack([relative_h, relative_w], dim=-1).view(-1, 2)
-    (relative_coords_table, idx_map) = torch.unique(relative_hw, return_inverse=True, dim=0)
+    relative_coords_table, idx_map = torch.unique(relative_hw, return_inverse=True, dim=0)
     relative_coords_table = (
         torch.sign(relative_coords_table)
@@ -86,9 +86,9 @@ class ConvolutionalGLU(nn.Module):
         self.drop = nn.Dropout(drop)
     def forward(self, x: torch.Tensor, H: int, W: int) -> torch.Tensor:
-        (x, v) = self.fc1(x).chunk(2, dim=-1)
+        x, v = self.fc1(x).chunk(2, dim=-1)
-        (B, _, C) = x.size()
+        B, _, C = x.size()
         x = x.transpose(1, 2).view(B, C, H, W).contiguous()
         x = self.dwconv(x)
         x = x.flatten(2).transpose(1, 2)
@@ -143,9 +143,9 @@ class Attention(nn.Module):
     def forward(
         self, x: torch.Tensor, _h: int, _w: int, relative_pos_index: torch.Tensor, relative_coords_table: torch.Tensor
     ) -> torch.Tensor:
-        (B, N, C) = x.size()
+        B, N, C = x.size()
         qkv = self.qkv(x).reshape(B, -1, 3 * self.num_heads, self.head_dim).permute(0, 2, 1, 3)
-        (q, k, v) = qkv.chunk(3, dim=1)
+        q, k, v = qkv.chunk(3, dim=1)
         # Use MLP to generate continuous relative positional bias
         rel_bias = (
@@ -217,9 +217,9 @@ class AggregatedAttention(nn.Module):
         self.act = nn.GELU()
         # MLP to generate continuous relative position bias
-        self.cpb_fc1 = nn.Linear(2, 512, bias=True)
+        self.cpb_fc1 = nn.Linear(2, 512)
         self.cpb_act = nn.ReLU(inplace=True)
-        self.cpb_fc2 = nn.Linear(512, num_heads, bias=True)
+        self.cpb_fc2 = nn.Linear(512, num_heads)
         # relative bias for local features
         self.relative_pos_bias_local = nn.Parameter(
@@ -227,7 +227,7 @@ class AggregatedAttention(nn.Module):
         )
         # Generate padding_mask and sequence length scale
-        (local_seq_length, padding_mask) = get_seqlen_and_mask(input_resolution, self.window_size)
+        local_seq_length, padding_mask = get_seqlen_and_mask(input_resolution, self.window_size)
         self.seq_length_scale = nn.Buffer(torch.log(local_seq_length + self.pool_len), persistent=False)
         self.padding_mask = nn.Buffer(padding_mask, persistent=False)
@@ -240,7 +240,7 @@ class AggregatedAttention(nn.Module):
     def forward(
         self, x: torch.Tensor, H: int, W: int, relative_pos_index: torch.Tensor, relative_coords_table: torch.Tensor
     ) -> torch.Tensor:
-        (B, N, C) = x.size()
+        B, N, C = x.size()
         # Generate queries, normalize them with L2, add query embedding,
         # and then magnify with sequence length scale and temperature.
@@ -252,7 +252,7 @@ class AggregatedAttention(nn.Module):
             * self.seq_length_scale
         )
-        (attn_local, v_local) = self.swa_qk_rpb(
+        attn_local, v_local = self.swa_qk_rpb(
             self.kv(x),
             q_norm_scaled.contiguous(),
             self.relative_pos_bias_local,
@@ -272,7 +272,7 @@ class AggregatedAttention(nn.Module):
         # Generate pooled keys and values
         kv_pool = self.kv(x_).reshape(B, self.pool_len, 2 * self.num_heads, self.head_dim).permute(0, 2, 1, 3)
-        (k_pool, v_pool) = kv_pool.chunk(2, dim=1)
+        k_pool, v_pool = kv_pool.chunk(2, dim=1)
         # Use MLP to generate continuous relative positional bias for pooled features.
         pool_bias = (
@@ -288,7 +288,7 @@ class AggregatedAttention(nn.Module):
         attn = self.attn_drop(attn)
         # Split the attention weights and separately aggregate the values of local & pooled features
-        (attn_local, attn_pool) = torch.split(attn, [self.local_len, self.pool_len], dim=-1)
+        attn_local, attn_pool = torch.split(attn, [self.local_len, self.pool_len], dim=-1)
         x_local = self.swa_av(
             q_norm, attn_local, v_local.contiguous(), self.learnable_tokens, self.learnable_bias, self.window_size, H, W
@@ -367,7 +367,7 @@ class OverlapPatchEmbed(nn.Module):
     def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, int, int]:
         x = self.proj(x)
-        (_, _, H, W) = x.size()
+        _, _, H, W = x.size()
         x = x.flatten(2).transpose(1, 2)
         x = self.norm(x)
@@ -396,7 +396,7 @@ class TransNeXtStage(nn.Module):
         # Generate relative positional coordinate table and index for each stage
         # to compute continuous relative positional bias
-        (relative_pos_index, relative_coords_table) = get_relative_position_cpb(
+        relative_pos_index, relative_coords_table = get_relative_position_cpb(
             query_size=input_resolution, key_size=(input_resolution[0] // sr_ratio, input_resolution[1] // sr_ratio)
         )
         self.relative_pos_index = nn.Buffer(relative_pos_index, persistent=False)
@@ -430,7 +430,7 @@ class TransNeXtStage(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         B = x.size(0)
-        (x, H, W) = self.patch_embed(x)
+        x, H, W = self.patch_embed(x)
         for blk in self.blocks:
             x = blk(x, H, W, self.relative_pos_index, self.relative_coords_table)
@@ -553,7 +553,7 @@ class TransNeXt(DetectorBackbone):
                 sr_ratio = self.sr_ratio[i]
                 with torch.no_grad():
                     device = next(m.parameters()).device
-                    (relative_pos_index, relative_coords_table) = get_relative_position_cpb(
+                    relative_pos_index, relative_coords_table = get_relative_position_cpb(
                         query_size=input_resolution,
                         key_size=(input_resolution[0] // sr_ratio, input_resolution[1] // sr_ratio),
                         device=device,
@@ -574,7 +574,7 @@ class TransNeXt(DetectorBackbone):
                             blk.pool_len = pool_h * pool_w
                             blk.pool = nn.AdaptiveAvgPool2d((pool_h, pool_w))
-                            (local_seq_length, padding_mask) = get_seqlen_and_mask(
+                            local_seq_length, padding_mask = get_seqlen_and_mask(
                                 input_resolution, blk.window_size, device=device
                             )
                             blk.seq_length_scale = nn.Buffer(

birder/net/uniformer.py CHANGED Viewed

@@ -71,9 +71,9 @@ class Attention(nn.Module):
         self.proj_drop = nn.Dropout(proj_drop)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        (B, N, C) = x.shape
+        B, N, C = x.shape
         qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
-        (q, k, v) = qkv.unbind(0)
+        q, k, v = qkv.unbind(0)
         x = F.scaled_dot_product_attention(  # pylint: disable=not-callable
             q, k, v, dropout_p=self.attn_drop.p if self.training else 0.0, scale=self.scale
@@ -137,7 +137,7 @@ class AttentionBlock(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = x + self.pos_embed(x)
-        (B, N, H, W) = x.shape
+        B, N, H, W = x.shape
         x = x.flatten(2).transpose(1, 2)
         x = x + self.drop_path(self.layer_scale_1(self.attn(self.norm1(x))))
         x = x + self.drop_path(self.layer_scale_2(self.mlp(self.norm2(x))))
@@ -155,7 +155,7 @@ class PatchEmbed(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = self.proj(x)
-        (B, _, H, W) = x.size()  # B, C, H, W
+        B, _, H, W = x.size()  # B, C, H, W
         x = x.flatten(2).transpose(1, 2)
         x = self.norm(x)
         x = x.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()

birder/net/vgg.py CHANGED Viewed

@@ -40,16 +40,7 @@ class Vgg(DetectorBackbone):
                 else:
                     in_channels = filters[i]
-                layers.append(
-                    nn.Conv2d(
-                        in_channels,
-                        filters[i],
-                        kernel_size=(3, 3),
-                        stride=(1, 1),
-                        padding=(1, 1),
-                        bias=True,
-                    )
-                )
+                layers.append(nn.Conv2d(in_channels, filters[i], kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)))
                 layers.append(nn.ReLU(inplace=True))
             layers.append(nn.MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=(0, 0)))

birder 0.4.0__py3-none-any.whl → 0.4.1__py3-none-any.whl

birder 0.4.0py3-none-any.whl → 0.4.1py3-none-any.whl