PyPI - birder - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (216) hide show

birder/adversarial/base.py +1 -1
birder/adversarial/simba.py +4 -4
birder/common/cli.py +1 -1
birder/common/fs_ops.py +13 -13
birder/common/lib.py +2 -2
birder/common/masking.py +3 -3
birder/common/training_cli.py +24 -2
birder/common/training_utils.py +28 -4
birder/data/collators/detection.py +9 -1
birder/data/transforms/detection.py +27 -8
birder/data/transforms/mosaic.py +1 -1
birder/datahub/classification.py +3 -3
birder/inference/classification.py +3 -3
birder/inference/data_parallel.py +1 -1
birder/inference/detection.py +5 -5
birder/inference/wbf.py +1 -1
birder/introspection/attention_rollout.py +6 -6
birder/introspection/feature_pca.py +4 -4
birder/introspection/gradcam.py +1 -1
birder/introspection/guided_backprop.py +2 -2
birder/introspection/transformer_attribution.py +4 -4
birder/layers/attention_pool.py +2 -2
birder/layers/layer_scale.py +1 -1
birder/model_registry/model_registry.py +2 -1
birder/net/__init__.py +4 -10
birder/net/_rope_vit_configs.py +435 -0
birder/net/_vit_configs.py +466 -0
birder/net/alexnet.py +5 -5
birder/net/base.py +28 -3
birder/net/biformer.py +18 -17
birder/net/cait.py +7 -7
birder/net/cas_vit.py +1 -1
birder/net/coat.py +27 -27
birder/net/conv2former.py +3 -3
birder/net/convmixer.py +1 -1
birder/net/convnext_v1.py +3 -11
birder/net/convnext_v1_iso.py +198 -0
birder/net/convnext_v2.py +2 -10
birder/net/crossformer.py +9 -9
birder/net/crossvit.py +6 -6
birder/net/cspnet.py +1 -1
birder/net/cswin_transformer.py +10 -10
birder/net/davit.py +11 -11
birder/net/deit.py +68 -29
birder/net/deit3.py +69 -204
birder/net/densenet.py +9 -8
birder/net/detection/__init__.py +4 -0
birder/net/detection/{yolo_anchors.py → _yolo_anchors.py} +5 -5
birder/net/detection/base.py +6 -5
birder/net/detection/deformable_detr.py +31 -30
birder/net/detection/detr.py +14 -11
birder/net/detection/efficientdet.py +10 -29
birder/net/detection/faster_rcnn.py +22 -22
birder/net/detection/fcos.py +8 -8
birder/net/detection/plain_detr.py +852 -0
birder/net/detection/retinanet.py +4 -4
birder/net/detection/rt_detr_v1.py +81 -25
birder/net/detection/rt_detr_v2.py +1147 -0
birder/net/detection/ssd.py +5 -5
birder/net/detection/yolo_v2.py +12 -12
birder/net/detection/yolo_v3.py +19 -19
birder/net/detection/yolo_v4.py +16 -16
birder/net/detection/yolo_v4_tiny.py +3 -3
birder/net/dpn.py +1 -2
birder/net/edgenext.py +5 -4
birder/net/edgevit.py +13 -14
birder/net/efficientformer_v1.py +3 -2
birder/net/efficientformer_v2.py +18 -31
birder/net/efficientnet_v2.py +3 -0
birder/net/efficientvim.py +9 -9
birder/net/efficientvit_mit.py +7 -7
birder/net/efficientvit_msft.py +3 -3
birder/net/fasternet.py +3 -3
birder/net/fastvit.py +5 -12
birder/net/flexivit.py +50 -58
birder/net/focalnet.py +5 -9
birder/net/gc_vit.py +11 -11
birder/net/ghostnet_v1.py +1 -1
birder/net/ghostnet_v2.py +1 -1
birder/net/groupmixformer.py +13 -13
birder/net/hgnet_v1.py +6 -6
birder/net/hgnet_v2.py +4 -4
birder/net/hiera.py +6 -6
birder/net/hieradet.py +9 -9
birder/net/hornet.py +3 -3
birder/net/iformer.py +4 -4
birder/net/inception_next.py +5 -15
birder/net/inception_resnet_v1.py +3 -3
birder/net/inception_resnet_v2.py +7 -4
birder/net/inception_v3.py +3 -0
birder/net/inception_v4.py +3 -0
birder/net/levit.py +3 -3
birder/net/lit_v1.py +13 -15
birder/net/lit_v1_tiny.py +9 -9
birder/net/lit_v2.py +14 -15
birder/net/maxvit.py +11 -23
birder/net/metaformer.py +5 -5
birder/net/mim/crossmae.py +6 -6
birder/net/mim/fcmae.py +3 -5
birder/net/mim/mae_hiera.py +7 -7
birder/net/mim/mae_vit.py +4 -6
birder/net/mim/simmim.py +3 -4
birder/net/mobilenet_v1.py +0 -9
birder/net/mobilenet_v2.py +38 -44
birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} +37 -10
birder/net/mobilenet_v4_hybrid.py +4 -4
birder/net/mobileone.py +5 -12
birder/net/mobilevit_v1.py +7 -34
birder/net/mobilevit_v2.py +6 -54
birder/net/moganet.py +8 -5
birder/net/mvit_v2.py +30 -30
birder/net/nextvit.py +2 -2
birder/net/nfnet.py +4 -0
birder/net/pit.py +11 -26
birder/net/pvt_v1.py +9 -9
birder/net/pvt_v2.py +10 -16
birder/net/regionvit.py +15 -15
birder/net/regnet.py +1 -1
birder/net/repghost.py +5 -35
birder/net/repvgg.py +3 -5
birder/net/repvit.py +2 -2
birder/net/resmlp.py +2 -2
birder/net/resnest.py +4 -1
birder/net/resnet_v1.py +125 -1
birder/net/resnet_v2.py +75 -1
birder/net/resnext.py +35 -1
birder/net/rope_deit3.py +62 -151
birder/net/rope_flexivit.py +46 -33
birder/net/rope_vit.py +44 -758
birder/net/sequencer2d.py +3 -4
birder/net/shufflenet_v1.py +1 -1
birder/net/shufflenet_v2.py +1 -1
birder/net/simple_vit.py +69 -21
birder/net/smt.py +8 -8
birder/net/squeezenet.py +5 -12
birder/net/squeezenext.py +0 -24
birder/net/ssl/barlow_twins.py +1 -1
birder/net/ssl/byol.py +2 -2
birder/net/ssl/capi.py +4 -4
birder/net/ssl/data2vec.py +1 -1
birder/net/ssl/data2vec2.py +1 -1
birder/net/ssl/dino_v2.py +13 -3
birder/net/ssl/franca.py +28 -4
birder/net/ssl/i_jepa.py +5 -5
birder/net/ssl/ibot.py +1 -1
birder/net/ssl/mmcr.py +1 -1
birder/net/swiftformer.py +13 -3
birder/net/swin_transformer_v1.py +4 -5
birder/net/swin_transformer_v2.py +5 -8
birder/net/tiny_vit.py +6 -19
birder/net/transnext.py +19 -19
birder/net/uniformer.py +4 -4
birder/net/van.py +2 -2
birder/net/vgg.py +1 -10
birder/net/vit.py +72 -987
birder/net/vit_parallel.py +35 -20
birder/net/vit_sam.py +23 -48
birder/net/vovnet_v2.py +1 -1
birder/net/xcit.py +16 -13
birder/ops/msda.py +4 -4
birder/ops/swattention.py +10 -10
birder/results/classification.py +3 -3
birder/results/gui.py +8 -8
birder/scripts/benchmark.py +37 -12
birder/scripts/evaluate.py +1 -1
birder/scripts/predict.py +3 -3
birder/scripts/predict_detection.py +2 -2
birder/scripts/train.py +63 -15
birder/scripts/train_barlow_twins.py +10 -7
birder/scripts/train_byol.py +10 -7
birder/scripts/train_capi.py +15 -10
birder/scripts/train_data2vec.py +10 -7
birder/scripts/train_data2vec2.py +10 -7
birder/scripts/train_detection.py +29 -14
birder/scripts/train_dino_v1.py +13 -9
birder/scripts/train_dino_v2.py +27 -14
birder/scripts/train_dino_v2_dist.py +28 -15
birder/scripts/train_franca.py +16 -9
birder/scripts/train_i_jepa.py +12 -9
birder/scripts/train_ibot.py +15 -11
birder/scripts/train_kd.py +64 -17
birder/scripts/train_mim.py +11 -8
birder/scripts/train_mmcr.py +11 -8
birder/scripts/train_rotnet.py +11 -7
birder/scripts/train_simclr.py +10 -7
birder/scripts/train_vicreg.py +10 -7
birder/tools/adversarial.py +4 -4
birder/tools/auto_anchors.py +5 -5
birder/tools/avg_model.py +1 -1
birder/tools/convert_model.py +30 -22
birder/tools/det_results.py +1 -1
birder/tools/download_model.py +1 -1
birder/tools/ensemble_model.py +1 -1
birder/tools/introspection.py +12 -3
birder/tools/labelme_to_coco.py +2 -2
birder/tools/model_info.py +15 -15
birder/tools/pack.py +8 -8
birder/tools/quantize_model.py +53 -4
birder/tools/results.py +2 -2
birder/tools/show_det_iterator.py +19 -6
birder/tools/show_iterator.py +2 -2
birder/tools/similarity.py +5 -5
birder/tools/stats.py +4 -6
birder/tools/voc_to_coco.py +1 -1
birder/version.py +1 -1
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/METADATA +3 -3
birder-0.4.1.dist-info/RECORD +300 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/WHEEL +1 -1
birder/net/mobilenet_v3_small.py +0 -43
birder/net/se_resnet_v1.py +0 -105
birder/net/se_resnet_v2.py +0 -59
birder/net/se_resnext.py +0 -30
birder-0.3.3.dist-info/RECORD +0 -299
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/entry_points.txt +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/licenses/LICENSE +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/top_level.txt +0 -0

birder/net/deit3.py CHANGED Viewed

@@ -15,12 +15,19 @@ from torch import nn
 from birder.common.masking import mask_tensor
 from birder.model_registry import registry
+from birder.net._vit_configs import BASE
+from birder.net._vit_configs import HUGE
+from birder.net._vit_configs import LARGE
+from birder.net._vit_configs import MEDIUM
+from birder.net._vit_configs import SMALL
+from birder.net._vit_configs import TINY
 from birder.net.base import DetectorBackbone
 from birder.net.base import MaskedTokenOmissionMixin
 from birder.net.base import MaskedTokenRetentionMixin
 from birder.net.base import PreTrainEncoder
 from birder.net.base import TokenOmissionResultType
 from birder.net.base import TokenRetentionResultType
+from birder.net.base import normalize_out_indices
 from birder.net.vit import Encoder
 from birder.net.vit import EncoderBlock
 from birder.net.vit import PatchEmbed
@@ -53,6 +60,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         mlp_dim: int = self.config["mlp_dim"]
         layer_scale_init_value: Optional[float] = self.config.get("layer_scale_init_value", 1e-5)
         num_reg_tokens: int = self.config.get("num_reg_tokens", 0)
+        out_indices: Optional[list[int]] = self.config.get("out_indices", None)
         drop_path_rate: float = self.config["drop_path_rate"]
         torch._assert(image_size[0] % patch_size == 0, "Input shape indivisible by patch size!")
@@ -64,6 +72,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         self.num_reg_tokens = num_reg_tokens
         self.num_special_tokens = 1 + self.num_reg_tokens
         self.pos_embed_special_tokens = pos_embed_special_tokens
+        self.out_indices = normalize_out_indices(out_indices, num_layers)
         dpr = [x.item() for x in torch.linspace(0, drop_path_rate, num_layers)]  # Stochastic depth decay rule
         self.conv_proj = nn.Conv2d(
@@ -72,7 +81,6 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
             kernel_size=(patch_size, patch_size),
             stride=(patch_size, patch_size),
             padding=(0, 0),
-            bias=True,
         )
         self.patch_embed = PatchEmbed()
@@ -106,8 +114,9 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         )
         self.norm = nn.LayerNorm(hidden_dim, eps=1e-6)
-        self.return_stages = ["neck"]  # Actually meaningless, just for completeness
-        self.return_channels = [hidden_dim]
+        num_return_stages = len(self.out_indices) if self.out_indices is not None else 1
+        self.return_stages = [f"stage{stage_idx + 1}" for stage_idx in range(num_return_stages)]
+        self.return_channels = [hidden_dim] * num_return_stages
         self.embedding_size = hidden_dim
         self.classifier = self.create_classifier()
@@ -153,7 +162,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         )
     def detection_features(self, x: torch.Tensor) -> dict[str, torch.Tensor]:
-        (H, W) = x.shape[-2:]
+        H, W = x.shape[-2:]
         x = self.conv_proj(x)
         x = self.patch_embed(x)
@@ -170,15 +179,20 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
             x = x + self._get_pos_embed(H, W)
             x = torch.concat([batch_special_tokens, x], dim=1)
-        x = self.encoder(x)
-        x = self.norm(x)
+        if self.out_indices is None:
+            xs = [self.encoder(x)]
+        else:
+            xs = self.encoder.forward_features(x, out_indices=self.out_indices)
-        x = x[:, self.num_special_tokens :]
-        x = x.permute(0, 2, 1)
-        (B, C, _) = x.size()
-        x = x.reshape(B, C, H // self.patch_size, W // self.patch_size)
+        out: dict[str, torch.Tensor] = {}
+        for stage_name, stage_x in zip(self.return_stages, xs):
+            stage_x = stage_x[:, self.num_special_tokens :]
+            stage_x = stage_x.permute(0, 2, 1)
+            B, C, _ = stage_x.size()
+            stage_x = stage_x.reshape(B, C, H // self.patch_size, W // self.patch_size)
+            out[stage_name] = stage_x
-        return {self.return_stages[0]: x}
+        return out
     def freeze_stages(self, up_to_stage: int) -> None:
         for param in self.conv_proj.parameters():
@@ -193,6 +207,10 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
             for param in module.parameters():
                 param.requires_grad_(False)
+    def transform_to_backbone(self) -> None:
+        super().transform_to_backbone()
+        self.norm = nn.Identity()
     def set_causal_attention(self, is_causal: bool = True) -> None:
         self.encoder.set_causal_attention(is_causal)
@@ -203,7 +221,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         return_all_features: bool = False,
         return_keys: Literal["all", "tokens", "embedding"] = "tokens",
     ) -> TokenOmissionResultType:
-        (H, W) = x.shape[-2:]
+        H, W = x.shape[-2:]
         # Reshape and permute the input tensor
         x = self.conv_proj(x)
@@ -266,7 +284,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         mask_token: Optional[torch.Tensor] = None,
         return_keys: Literal["all", "features", "embedding"] = "features",
     ) -> TokenRetentionResultType:
-        (H, W) = x.shape[-2:]
+        H, W = x.shape[-2:]
         x = self.conv_proj(x)
         x = mask_tensor(x, mask, mask_token=mask_token, patch_factor=self.max_stride // self.stem_stride)
@@ -296,7 +314,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         if return_keys in ("all", "features"):
             features = x[:, self.num_special_tokens :]
             features = features.permute(0, 2, 1)
-            (B, C, _) = features.size()
+            B, C, _ = features.size()
             features = features.reshape(B, C, H // self.patch_size, W // self.patch_size)
             result["features"] = features
@@ -306,7 +324,7 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
         return result
     def forward_features(self, x: torch.Tensor) -> torch.Tensor:
-        (H, W) = x.shape[-2:]
+        H, W = x.shape[-2:]
         # Reshape and permute the input tensor
         x = self.conv_proj(x)
@@ -368,279 +386,126 @@ class DeiT3(DetectorBackbone, PreTrainEncoder, MaskedTokenOmissionMixin, MaskedT
 registry.register_model_config(
     "deit3_t16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 3,
-        "hidden_dim": 192,
-        "mlp_dim": 768,
-        "drop_path_rate": 0.0,
-    },
+    config={"patch_size": 16, **TINY},
+)
+registry.register_model_config(
+    "deit3_t14",
+    DeiT3,
+    config={"patch_size": 14, **TINY},
 )
 registry.register_model_config(
     "deit3_s16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "drop_path_rate": 0.05,
-    },
+    config={"patch_size": 16, **SMALL, "drop_path_rate": 0.05},
 )
 registry.register_model_config(
     "deit3_s14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "drop_path_rate": 0.05,
-    },
+    config={"patch_size": 14, **SMALL, "drop_path_rate": 0.05},
 )
 registry.register_model_config(
     "deit3_m16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 8,
-        "hidden_dim": 512,
-        "mlp_dim": 2048,
-        "drop_path_rate": 0.1,
-    },
+    config={"patch_size": 16, **MEDIUM, "drop_path_rate": 0.1},
 )
 registry.register_model_config(
     "deit3_m14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 8,
-        "hidden_dim": 512,
-        "mlp_dim": 2048,
-        "drop_path_rate": 0.1,
-    },
+    config={"patch_size": 14, **MEDIUM, "drop_path_rate": 0.1},
 )
 registry.register_model_config(
     "deit3_b16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 12,
-        "hidden_dim": 768,
-        "mlp_dim": 3072,
-        "drop_path_rate": 0.2,
-    },
+    config={"patch_size": 16, **BASE, "drop_path_rate": 0.2},
 )
 registry.register_model_config(
     "deit3_b14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 12,
-        "hidden_dim": 768,
-        "mlp_dim": 3072,
-        "drop_path_rate": 0.2,
-    },
+    config={"patch_size": 14, **BASE, "drop_path_rate": 0.2},
 )
 registry.register_model_config(
     "deit3_l16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 24,
-        "num_heads": 16,
-        "hidden_dim": 1024,
-        "mlp_dim": 4096,
-        "drop_path_rate": 0.45,
-    },
+    config={"patch_size": 16, **LARGE, "drop_path_rate": 0.45},
 )
 registry.register_model_config(
     "deit3_l14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 24,
-        "num_heads": 16,
-        "hidden_dim": 1024,
-        "mlp_dim": 4096,
-        "drop_path_rate": 0.45,
-    },
+    config={"patch_size": 14, **LARGE, "drop_path_rate": 0.45},
 )
 registry.register_model_config(
     "deit3_h16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 32,
-        "num_heads": 16,
-        "hidden_dim": 1280,
-        "mlp_dim": 5120,
-        "drop_path_rate": 0.55,
-    },
+    config={"patch_size": 16, **HUGE, "drop_path_rate": 0.55},
 )
 registry.register_model_config(
     "deit3_h14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 32,
-        "num_heads": 16,
-        "hidden_dim": 1280,
-        "mlp_dim": 5120,
-        "drop_path_rate": 0.55,
-    },
+    config={"patch_size": 14, **HUGE, "drop_path_rate": 0.55},
 )
 # With registers
+####################
 registry.register_model_config(
     "deit3_reg4_t16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 3,
-        "hidden_dim": 192,
-        "mlp_dim": 768,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.0,
-    },
+    config={"patch_size": 16, **TINY, "num_reg_tokens": 4},
+)
+registry.register_model_config(
+    "deit3_reg4_t14",
+    DeiT3,
+    config={"patch_size": 14, **TINY, "num_reg_tokens": 4},
 )
 registry.register_model_config(
     "deit3_reg4_s16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.05,
-    },
+    config={"patch_size": 16, **SMALL, "num_reg_tokens": 4, "drop_path_rate": 0.05},
 )
 registry.register_model_config(
     "deit3_reg4_s14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 6,
-        "hidden_dim": 384,
-        "mlp_dim": 1536,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.05,
-    },
+    config={"patch_size": 14, **SMALL, "num_reg_tokens": 4, "drop_path_rate": 0.05},
 )
 registry.register_model_config(
     "deit3_reg4_m16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 8,
-        "hidden_dim": 512,
-        "mlp_dim": 2048,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.1,
-    },
+    config={"patch_size": 16, **MEDIUM, "num_reg_tokens": 4, "drop_path_rate": 0.1},
 )
 registry.register_model_config(
     "deit3_reg4_m14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 8,
-        "hidden_dim": 512,
-        "mlp_dim": 2048,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.1,
-    },
+    config={"patch_size": 14, **MEDIUM, "num_reg_tokens": 4, "drop_path_rate": 0.1},
 )
 registry.register_model_config(
     "deit3_reg4_b16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 12,
-        "num_heads": 12,
-        "hidden_dim": 768,
-        "mlp_dim": 3072,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.2,
-    },
+    config={"patch_size": 16, **BASE, "num_reg_tokens": 4, "drop_path_rate": 0.2},
 )
 registry.register_model_config(
     "deit3_reg4_b14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 12,
-        "num_heads": 12,
-        "hidden_dim": 768,
-        "mlp_dim": 3072,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.2,
-    },
+    config={"patch_size": 14, **BASE, "num_reg_tokens": 4, "drop_path_rate": 0.2},
 )
 registry.register_model_config(
     "deit3_reg4_l16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 24,
-        "num_heads": 16,
-        "hidden_dim": 1024,
-        "mlp_dim": 4096,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.45,
-    },
+    config={"patch_size": 16, **LARGE, "num_reg_tokens": 4, "drop_path_rate": 0.45},
 )
 registry.register_model_config(
     "deit3_reg4_l14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 24,
-        "num_heads": 16,
-        "hidden_dim": 1024,
-        "mlp_dim": 4096,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.45,
-    },
+    config={"patch_size": 14, **LARGE, "num_reg_tokens": 4, "drop_path_rate": 0.45},
 )
 registry.register_model_config(
     "deit3_reg4_h16",
     DeiT3,
-    config={
-        "patch_size": 16,
-        "num_layers": 32,
-        "num_heads": 16,
-        "hidden_dim": 1280,
-        "mlp_dim": 5120,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.55,
-    },
+    config={"patch_size": 16, **HUGE, "num_reg_tokens": 4, "drop_path_rate": 0.55},
 )
 registry.register_model_config(
     "deit3_reg4_h14",
     DeiT3,
-    config={
-        "patch_size": 14,
-        "num_layers": 32,
-        "num_heads": 16,
-        "hidden_dim": 1280,
-        "mlp_dim": 5120,
-        "num_reg_tokens": 4,
-        "drop_path_rate": 0.55,
-    },
+    config={"patch_size": 14, **HUGE, "num_reg_tokens": 4, "drop_path_rate": 0.55},
 )
 registry.register_weights(
@@ -651,7 +516,7 @@ registry.register_weights(
         "formats": {
             "pt": {
                 "file_size": 21.5,
-                "sha256": "6cd9749a9522f8ff61088e38702553fb1c4d2547b417c499652e3bfa6a81e77a",
+                "sha256": "a04141c7f6c459ae075a48ccdee5b82d191bbaa82337673140c06ef82f0a8dc5",
             }
         },
         "net": {"network": "deit3_t16", "tag": "il-common"},
@@ -665,7 +530,7 @@ registry.register_weights(
         "formats": {
             "pt": {
                 "file_size": 21.5,
-                "sha256": "6806a5ae7d45f1c84b25e9869a9cbc7de94368fe9573dc3777acf2da8c83dc4e",
+                "sha256": "d26320462da64df6d62b307f7fb35d09c86a5f073002dfb24a51f014074e65c3",
             }
         },
         "net": {"network": "deit3_reg4_t16", "tag": "il-common"},

birder/net/densenet.py CHANGED Viewed

@@ -104,19 +104,20 @@ class DenseNet(DetectorBackbone):
         num_features = num_init_features
         stages: OrderedDict[str, nn.Module] = OrderedDict()
         return_channels: list[int] = []
-        layers = []
         for i, num_layers in enumerate(layer_list):
+            stage_layers = []
+            if i != 0:
+                stage_layers.append(TransitionBlock(num_features, num_features // 2))
+                num_features = num_features // 2
-            layers.append(DenseBlock(num_features, num_layers=num_layers, growth_rate=growth_rate))
+            stage_layers.append(DenseBlock(num_features, num_layers=num_layers, growth_rate=growth_rate))
             num_features = num_features + (num_layers * growth_rate)
+            if i == len(layer_list) - 1:
+                stage_layers.append(nn.BatchNorm2d(num_features))
+                stage_layers.append(nn.ReLU(inplace=True))
-            stages[f"stage{i+1}"] = nn.Sequential(*layers)
+            stages[f"stage{i+1}"] = nn.Sequential(*stage_layers)
             return_channels.append(num_features)
-            layers = []
-            if i != len(layer_list) - 1:
-                layers.append(TransitionBlock(num_features, num_features // 2))
-                num_features = num_features // 2
         self.body = nn.Sequential(stages)
         self.features = nn.Sequential(

birder/net/detection/__init__.py CHANGED Viewed

@@ -3,8 +3,10 @@ from birder.net.detection.detr import DETR
 from birder.net.detection.efficientdet import EfficientDet
 from birder.net.detection.faster_rcnn import Faster_RCNN
 from birder.net.detection.fcos import FCOS
+from birder.net.detection.plain_detr import Plain_DETR
 from birder.net.detection.retinanet import RetinaNet
 from birder.net.detection.rt_detr_v1 import RT_DETR_v1
+from birder.net.detection.rt_detr_v2 import RT_DETR_v2
 from birder.net.detection.ssd import SSD
 from birder.net.detection.ssdlite import SSDLite
 from birder.net.detection.vitdet import ViTDet
@@ -19,8 +21,10 @@ __all__ = [
     "EfficientDet",
     "Faster_RCNN",
     "FCOS",
+    "Plain_DETR",
     "RetinaNet",
     "RT_DETR_v1",
+    "RT_DETR_v2",
     "SSD",
     "SSDLite",
     "ViTDet",

birder/net/detection/{yolo_anchors.py → _yolo_anchors.py} RENAMED Viewed

@@ -71,7 +71,7 @@ def scale_anchors(anchors: AnchorGroups, from_size: tuple[int, int], to_size: tu
 def scale_anchors(anchors: AnchorLike, from_size: tuple[int, int], to_size: tuple[int, int]) -> AnchorLike:
-    (anchor_groups, single) = _normalize_anchor_groups(anchors)
+    anchor_groups, single = _normalize_anchor_groups(anchors)
     if from_size == to_size:
         # Avoid aliasing default anchors in case they are mutated later
@@ -100,7 +100,7 @@ def pixels_to_grid(anchors: AnchorGroups, strides: Sequence[int]) -> AnchorGroup
 def pixels_to_grid(anchors: AnchorLike, strides: Sequence[int]) -> AnchorLike:
-    (anchor_groups, single) = _normalize_anchor_groups(anchors)
+    anchor_groups, single = _normalize_anchor_groups(anchors)
     if len(anchor_groups) != len(strides):
         raise ValueError("strides must provide one value per anchor scale")
@@ -123,7 +123,7 @@ def grid_to_pixels(anchors: AnchorGroups, strides: Sequence[int]) -> AnchorGroup
 def grid_to_pixels(anchors: AnchorLike, strides: Sequence[int]) -> AnchorLike:
-    (anchor_groups, single) = _normalize_anchor_groups(anchors)
+    anchor_groups, single = _normalize_anchor_groups(anchors)
     if len(anchor_groups) != len(strides):
         raise ValueError("strides must provide one value per anchor scale")
@@ -187,7 +187,7 @@ def resolve_anchor_group(
     preset: str, *, anchor_format: str, model_size: tuple[int, int], model_strides: Sequence[int]
 ) -> AnchorGroup:
     anchors = _resolve_anchors(preset, anchor_format=anchor_format, model_size=model_size, model_strides=model_strides)
-    (anchor_groups, single) = _normalize_anchor_groups(anchors)
+    anchor_groups, single = _normalize_anchor_groups(anchors)
     if single is False:
         raise ValueError("Expected a single anchor group for this model")
@@ -198,7 +198,7 @@ def resolve_anchor_groups(
     preset: str, *, anchor_format: str, model_size: tuple[int, int], model_strides: Sequence[int]
 ) -> AnchorGroups:
     anchors = _resolve_anchors(preset, anchor_format=anchor_format, model_size=model_size, model_strides=model_strides)
-    (anchor_groups, single) = _normalize_anchor_groups(anchors)
+    anchor_groups, single = _normalize_anchor_groups(anchors)
     if single is True:
         raise ValueError("Expected multiple anchor groups for this model")

birder/net/detection/base.py CHANGED Viewed

@@ -41,6 +41,7 @@ def get_detection_signature(input_shape: tuple[int, ...], num_outputs: int, dyna
 class DetectionBaseNet(nn.Module):
     default_size: tuple[int, int]
+    block_group_regex: Optional[str]
     auto_register = False
     scriptable = True
     task = str(Task.OBJECT_DETECTION)
@@ -308,7 +309,7 @@ class SimpleFeaturePyramidNetwork(nn.Module):
             names.append(f"stage{idx+1}")
         if self.extra_blocks is not None:
-            (results, names) = self.extra_blocks(results, [x], names)
+            results, names = self.extra_blocks(results, [x], names)
         out = OrderedDict(list(zip(names, results)))
@@ -432,7 +433,7 @@ class BoxCoder:
         ctr_x = boxes[:, 0] + 0.5 * widths
         ctr_y = boxes[:, 1] + 0.5 * heights
-        (wx, wy, ww, wh) = self.weights
+        wx, wy, ww, wh = self.weights
         dx = rel_codes[:, 0::4] / wx
         dy = rel_codes[:, 1::4] / wy
         dw = rel_codes[:, 2::4] / ww
@@ -510,8 +511,8 @@ class AnchorGenerator(nn.Module):
         )
         for size, stride, base_anchors in zip(grid_sizes, strides, cell_anchors):
-            (grid_height, grid_width) = size
-            (stride_height, stride_width) = stride
+            grid_height, grid_width = size
+            stride_height, stride_width = stride
             device = base_anchors.device
             # For output anchor, compute [x_center, y_center, x_center, y_center]
@@ -656,7 +657,7 @@ class Matcher(nn.Module):
         #  tensor([39796, 32055, 32070, 39190, 40255, 40390, 41455, 45470, 45325, 46390]))
         # Each element in the first tensor is a gt index,
         # and each element in second tensor is a prediction index
-        # Note how gt items 1, 2, 3, and 5 each have two ties
+        # Note how gt items 1, 2, 3 and 5 each have two ties
         pred_idx_to_update = gt_pred_pairs_of_highest_quality[1]
         matches[pred_idx_to_update] = all_matches[pred_idx_to_update]

birder 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl