PyPI - birder - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (216) hide show

birder/adversarial/base.py +1 -1
birder/adversarial/simba.py +4 -4
birder/common/cli.py +1 -1
birder/common/fs_ops.py +13 -13
birder/common/lib.py +2 -2
birder/common/masking.py +3 -3
birder/common/training_cli.py +24 -2
birder/common/training_utils.py +28 -4
birder/data/collators/detection.py +9 -1
birder/data/transforms/detection.py +27 -8
birder/data/transforms/mosaic.py +1 -1
birder/datahub/classification.py +3 -3
birder/inference/classification.py +3 -3
birder/inference/data_parallel.py +1 -1
birder/inference/detection.py +5 -5
birder/inference/wbf.py +1 -1
birder/introspection/attention_rollout.py +6 -6
birder/introspection/feature_pca.py +4 -4
birder/introspection/gradcam.py +1 -1
birder/introspection/guided_backprop.py +2 -2
birder/introspection/transformer_attribution.py +4 -4
birder/layers/attention_pool.py +2 -2
birder/layers/layer_scale.py +1 -1
birder/model_registry/model_registry.py +2 -1
birder/net/__init__.py +4 -10
birder/net/_rope_vit_configs.py +435 -0
birder/net/_vit_configs.py +466 -0
birder/net/alexnet.py +5 -5
birder/net/base.py +28 -3
birder/net/biformer.py +18 -17
birder/net/cait.py +7 -7
birder/net/cas_vit.py +1 -1
birder/net/coat.py +27 -27
birder/net/conv2former.py +3 -3
birder/net/convmixer.py +1 -1
birder/net/convnext_v1.py +3 -11
birder/net/convnext_v1_iso.py +198 -0
birder/net/convnext_v2.py +2 -10
birder/net/crossformer.py +9 -9
birder/net/crossvit.py +6 -6
birder/net/cspnet.py +1 -1
birder/net/cswin_transformer.py +10 -10
birder/net/davit.py +11 -11
birder/net/deit.py +68 -29
birder/net/deit3.py +69 -204
birder/net/densenet.py +9 -8
birder/net/detection/__init__.py +4 -0
birder/net/detection/{yolo_anchors.py → _yolo_anchors.py} +5 -5
birder/net/detection/base.py +6 -5
birder/net/detection/deformable_detr.py +31 -30
birder/net/detection/detr.py +14 -11
birder/net/detection/efficientdet.py +10 -29
birder/net/detection/faster_rcnn.py +22 -22
birder/net/detection/fcos.py +8 -8
birder/net/detection/plain_detr.py +852 -0
birder/net/detection/retinanet.py +4 -4
birder/net/detection/rt_detr_v1.py +81 -25
birder/net/detection/rt_detr_v2.py +1147 -0
birder/net/detection/ssd.py +5 -5
birder/net/detection/yolo_v2.py +12 -12
birder/net/detection/yolo_v3.py +19 -19
birder/net/detection/yolo_v4.py +16 -16
birder/net/detection/yolo_v4_tiny.py +3 -3
birder/net/dpn.py +1 -2
birder/net/edgenext.py +5 -4
birder/net/edgevit.py +13 -14
birder/net/efficientformer_v1.py +3 -2
birder/net/efficientformer_v2.py +18 -31
birder/net/efficientnet_v2.py +3 -0
birder/net/efficientvim.py +9 -9
birder/net/efficientvit_mit.py +7 -7
birder/net/efficientvit_msft.py +3 -3
birder/net/fasternet.py +3 -3
birder/net/fastvit.py +5 -12
birder/net/flexivit.py +50 -58
birder/net/focalnet.py +5 -9
birder/net/gc_vit.py +11 -11
birder/net/ghostnet_v1.py +1 -1
birder/net/ghostnet_v2.py +1 -1
birder/net/groupmixformer.py +13 -13
birder/net/hgnet_v1.py +6 -6
birder/net/hgnet_v2.py +4 -4
birder/net/hiera.py +6 -6
birder/net/hieradet.py +9 -9
birder/net/hornet.py +3 -3
birder/net/iformer.py +4 -4
birder/net/inception_next.py +5 -15
birder/net/inception_resnet_v1.py +3 -3
birder/net/inception_resnet_v2.py +7 -4
birder/net/inception_v3.py +3 -0
birder/net/inception_v4.py +3 -0
birder/net/levit.py +3 -3
birder/net/lit_v1.py +13 -15
birder/net/lit_v1_tiny.py +9 -9
birder/net/lit_v2.py +14 -15
birder/net/maxvit.py +11 -23
birder/net/metaformer.py +5 -5
birder/net/mim/crossmae.py +6 -6
birder/net/mim/fcmae.py +3 -5
birder/net/mim/mae_hiera.py +7 -7
birder/net/mim/mae_vit.py +4 -6
birder/net/mim/simmim.py +3 -4
birder/net/mobilenet_v1.py +0 -9
birder/net/mobilenet_v2.py +38 -44
birder/net/{mobilenet_v3_large.py → mobilenet_v3.py} +37 -10
birder/net/mobilenet_v4_hybrid.py +4 -4
birder/net/mobileone.py +5 -12
birder/net/mobilevit_v1.py +7 -34
birder/net/mobilevit_v2.py +6 -54
birder/net/moganet.py +8 -5
birder/net/mvit_v2.py +30 -30
birder/net/nextvit.py +2 -2
birder/net/nfnet.py +4 -0
birder/net/pit.py +11 -26
birder/net/pvt_v1.py +9 -9
birder/net/pvt_v2.py +10 -16
birder/net/regionvit.py +15 -15
birder/net/regnet.py +1 -1
birder/net/repghost.py +5 -35
birder/net/repvgg.py +3 -5
birder/net/repvit.py +2 -2
birder/net/resmlp.py +2 -2
birder/net/resnest.py +4 -1
birder/net/resnet_v1.py +125 -1
birder/net/resnet_v2.py +75 -1
birder/net/resnext.py +35 -1
birder/net/rope_deit3.py +62 -151
birder/net/rope_flexivit.py +46 -33
birder/net/rope_vit.py +44 -758
birder/net/sequencer2d.py +3 -4
birder/net/shufflenet_v1.py +1 -1
birder/net/shufflenet_v2.py +1 -1
birder/net/simple_vit.py +69 -21
birder/net/smt.py +8 -8
birder/net/squeezenet.py +5 -12
birder/net/squeezenext.py +0 -24
birder/net/ssl/barlow_twins.py +1 -1
birder/net/ssl/byol.py +2 -2
birder/net/ssl/capi.py +4 -4
birder/net/ssl/data2vec.py +1 -1
birder/net/ssl/data2vec2.py +1 -1
birder/net/ssl/dino_v2.py +13 -3
birder/net/ssl/franca.py +28 -4
birder/net/ssl/i_jepa.py +5 -5
birder/net/ssl/ibot.py +1 -1
birder/net/ssl/mmcr.py +1 -1
birder/net/swiftformer.py +13 -3
birder/net/swin_transformer_v1.py +4 -5
birder/net/swin_transformer_v2.py +5 -8
birder/net/tiny_vit.py +6 -19
birder/net/transnext.py +19 -19
birder/net/uniformer.py +4 -4
birder/net/van.py +2 -2
birder/net/vgg.py +1 -10
birder/net/vit.py +72 -987
birder/net/vit_parallel.py +35 -20
birder/net/vit_sam.py +23 -48
birder/net/vovnet_v2.py +1 -1
birder/net/xcit.py +16 -13
birder/ops/msda.py +4 -4
birder/ops/swattention.py +10 -10
birder/results/classification.py +3 -3
birder/results/gui.py +8 -8
birder/scripts/benchmark.py +37 -12
birder/scripts/evaluate.py +1 -1
birder/scripts/predict.py +3 -3
birder/scripts/predict_detection.py +2 -2
birder/scripts/train.py +63 -15
birder/scripts/train_barlow_twins.py +10 -7
birder/scripts/train_byol.py +10 -7
birder/scripts/train_capi.py +15 -10
birder/scripts/train_data2vec.py +10 -7
birder/scripts/train_data2vec2.py +10 -7
birder/scripts/train_detection.py +29 -14
birder/scripts/train_dino_v1.py +13 -9
birder/scripts/train_dino_v2.py +27 -14
birder/scripts/train_dino_v2_dist.py +28 -15
birder/scripts/train_franca.py +16 -9
birder/scripts/train_i_jepa.py +12 -9
birder/scripts/train_ibot.py +15 -11
birder/scripts/train_kd.py +64 -17
birder/scripts/train_mim.py +11 -8
birder/scripts/train_mmcr.py +11 -8
birder/scripts/train_rotnet.py +11 -7
birder/scripts/train_simclr.py +10 -7
birder/scripts/train_vicreg.py +10 -7
birder/tools/adversarial.py +4 -4
birder/tools/auto_anchors.py +5 -5
birder/tools/avg_model.py +1 -1
birder/tools/convert_model.py +30 -22
birder/tools/det_results.py +1 -1
birder/tools/download_model.py +1 -1
birder/tools/ensemble_model.py +1 -1
birder/tools/introspection.py +12 -3
birder/tools/labelme_to_coco.py +2 -2
birder/tools/model_info.py +15 -15
birder/tools/pack.py +8 -8
birder/tools/quantize_model.py +53 -4
birder/tools/results.py +2 -2
birder/tools/show_det_iterator.py +19 -6
birder/tools/show_iterator.py +2 -2
birder/tools/similarity.py +5 -5
birder/tools/stats.py +4 -6
birder/tools/voc_to_coco.py +1 -1
birder/version.py +1 -1
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/METADATA +3 -3
birder-0.4.1.dist-info/RECORD +300 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/WHEEL +1 -1
birder/net/mobilenet_v3_small.py +0 -43
birder/net/se_resnet_v1.py +0 -105
birder/net/se_resnet_v2.py +0 -59
birder/net/se_resnext.py +0 -30
birder-0.3.3.dist-info/RECORD +0 -299
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/entry_points.txt +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/licenses/LICENSE +0 -0
{birder-0.3.3.dist-info → birder-0.4.1.dist-info}/top_level.txt +0 -0

birder/scripts/train_i_jepa.py CHANGED Viewed

@@ -74,7 +74,7 @@ class TrainCollator:
     def __call__(self, batch: Any) -> tuple[torch.Tensor, list[torch.Tensor], list[torch.Tensor]]:
         B = len(batch)
         collated_batch = torch.utils.data.default_collate(batch)
-        (enc_masks, pred_masks) = self.mask_generator(B)
+        enc_masks, pred_masks = self.mask_generator(B)
         return (collated_batch, enc_masks, pred_masks)
@@ -84,7 +84,7 @@ def train(args: argparse.Namespace) -> None:
     #
     # Initialize
     #
-    (device, device_id, disable_tqdm) = training_utils.init_training(args, logger)
+    device, device_id, disable_tqdm = training_utils.init_training(args, logger)
     if args.size is None:
         args.size = registry.get_default_size(args.network)
@@ -119,9 +119,9 @@ def train(args: argparse.Namespace) -> None:
     else:
         model_config = {"drop_path_rate": 0.0}
-    backbone = registry.net_factory(args.network, sample_shape[1], 0, config=model_config, size=args.size)
+    backbone = registry.net_factory(args.network, 0, sample_shape[1], config=model_config, size=args.size)
     num_special_tokens = backbone.num_special_tokens
-    target_backbone = registry.net_factory(args.network, sample_shape[1], 0, config=model_config, size=args.size)
+    target_backbone = registry.net_factory(args.network, 0, sample_shape[1], config=model_config, size=args.size)
     encoder = I_JEPA(backbone)
     target_encoder = I_JEPA(target_backbone)
     target_encoder.load_state_dict(encoder.state_dict())
@@ -148,7 +148,7 @@ def train(args: argparse.Namespace) -> None:
     if args.resume_epoch is not None:
         begin_epoch = args.resume_epoch + 1
-        (net, training_states) = fs_ops.load_simple_checkpoint(
+        net, training_states = fs_ops.load_simple_checkpoint(
             device, net, network_name, epoch=args.resume_epoch, strict=not args.non_strict_weights
         )
         encoder = net["encoder"]
@@ -198,11 +198,11 @@ def train(args: argparse.Namespace) -> None:
     elif args.wds is True:
         wds_path: str | list[str]
         if args.wds_info is not None:
-            (wds_path, dataset_size) = wds_args_from_info(args.wds_info, args.wds_split)
+            wds_path, dataset_size = wds_args_from_info(args.wds_info, args.wds_split)
             if args.wds_size is not None:
                 dataset_size = args.wds_size
         else:
-            (wds_path, dataset_size) = prepare_wds_args(args.data_path[0], args.wds_size, device)
+            wds_path, dataset_size = prepare_wds_args(args.data_path[0], args.wds_size, device)
         training_dataset = make_wds_dataset(
             wds_path,
@@ -228,7 +228,7 @@ def train(args: argparse.Namespace) -> None:
     # Data loaders and samplers
     virtual_epoch_mode = args.steps_per_epoch is not None
-    (train_sampler, _) = training_utils.get_samplers(
+    train_sampler, _ = training_utils.get_samplers(
         args, training_dataset, validation_dataset=None, infinite=virtual_epoch_mode
     )
@@ -320,7 +320,7 @@ def train(args: argparse.Namespace) -> None:
         wd_schedule = None
     # Gradient scaler and AMP related tasks
-    (scaler, amp_dtype) = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
+    scaler, amp_dtype = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
     # Load states
     if args.load_states is True:
@@ -440,6 +440,9 @@ def train(args: argparse.Namespace) -> None:
         tic = time.time()
         net.train()
+        # Clear metrics
+        running_loss.clear()
         if args.distributed is True or virtual_epoch_mode is True:
             train_sampler.set_epoch(epoch)

birder/scripts/train_ibot.py CHANGED Viewed

@@ -107,7 +107,7 @@ def train(args: argparse.Namespace) -> None:
     #
     # Initialize
     #
-    (device, device_id, disable_tqdm) = training_utils.init_training(args, logger)
+    device, device_id, disable_tqdm = training_utils.init_training(args, logger)
     if args.size is None:
         args.size = registry.get_default_size(args.network)
@@ -136,7 +136,7 @@ def train(args: argparse.Namespace) -> None:
     network_name = get_mim_network_name("ibot", encoder=args.network, tag=args.tag)
-    student_backbone = registry.net_factory(args.network, sample_shape[1], 0, config=args.model_config, size=args.size)
+    student_backbone = registry.net_factory(args.network, 0, sample_shape[1], config=args.model_config, size=args.size)
     if args.model_config is not None:
         teacher_model_config = args.model_config.copy()
         teacher_model_config.update({"drop_path_rate": 0.0})
@@ -144,7 +144,7 @@ def train(args: argparse.Namespace) -> None:
         teacher_model_config = {"drop_path_rate": 0.0}
     teacher_backbone = registry.net_factory(
-        args.network, sample_shape[1], 0, config=teacher_model_config, size=args.size
+        args.network, 0, sample_shape[1], config=teacher_model_config, size=args.size
     )
     student_backbone.set_dynamic_size()
     student = iBOT(
@@ -204,7 +204,7 @@ def train(args: argparse.Namespace) -> None:
     if args.resume_epoch is not None:
         begin_epoch = args.resume_epoch + 1
-        (net, training_states) = fs_ops.load_simple_checkpoint(
+        net, training_states = fs_ops.load_simple_checkpoint(
             device, net, network_name, epoch=args.resume_epoch, strict=not args.non_strict_weights
         )
         student = net["student"]
@@ -266,11 +266,11 @@ def train(args: argparse.Namespace) -> None:
     elif args.wds is True:
         wds_path: str | list[str]
         if args.wds_info is not None:
-            (wds_path, dataset_size) = wds_args_from_info(args.wds_info, args.wds_split)
+            wds_path, dataset_size = wds_args_from_info(args.wds_info, args.wds_split)
             if args.wds_size is not None:
                 dataset_size = args.wds_size
         else:
-            (wds_path, dataset_size) = prepare_wds_args(args.data_path[0], args.wds_size, device)
+            wds_path, dataset_size = prepare_wds_args(args.data_path[0], args.wds_size, device)
         training_dataset = make_wds_dataset(
             wds_path,
@@ -296,7 +296,7 @@ def train(args: argparse.Namespace) -> None:
     # Data loaders and samplers
     virtual_epoch_mode = args.steps_per_epoch is not None
-    (train_sampler, _) = training_utils.get_samplers(
+    train_sampler, _ = training_utils.get_samplers(
         args, training_dataset, validation_dataset=None, infinite=virtual_epoch_mode
     )
@@ -387,7 +387,7 @@ def train(args: argparse.Namespace) -> None:
         wd_schedule = None
     # Gradient scaler and AMP related tasks
-    (scaler, amp_dtype) = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
+    scaler, amp_dtype = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
     # Load states
     if args.load_states is True:
@@ -507,6 +507,10 @@ def train(args: argparse.Namespace) -> None:
         tic = time.time()
         net.train()
+        # Clear metrics
+        running_loss.clear()
+        train_proto_agreement.clear()
         if args.distributed is True or virtual_epoch_mode is True:
             train_sampler.set_epoch(epoch)
@@ -553,12 +557,12 @@ def train(args: argparse.Namespace) -> None:
             with torch.amp.autocast("cuda", enabled=args.amp, dtype=amp_dtype):
                 # Global views
                 with torch.no_grad():
-                    (teacher_embedding, teacher_features) = teacher(torch.concat(images[:2], dim=0), None)
+                    teacher_embedding, teacher_features = teacher(torch.concat(images[:2], dim=0), None)
-                (student_embedding, student_features) = student(torch.concat(images[:2], dim=0), masks)
+                student_embedding, student_features = student(torch.concat(images[:2], dim=0), masks)
                 # Local views
-                (student_local_embedding, _) = student(torch.concat(images[2:], dim=0), None, return_keys="embedding")
+                student_local_embedding, _ = student(torch.concat(images[2:], dim=0), None, return_keys="embedding")
                 loss = ibot_loss(
                     student_embedding,

birder/scripts/train_kd.py CHANGED Viewed

@@ -76,13 +76,13 @@ def train(args: argparse.Namespace) -> None:
     #
     # Initialize
     #
-    (device, device_id, disable_tqdm) = training_utils.init_training(args, logger)
+    device, device_id, disable_tqdm = training_utils.init_training(args, logger)
     if args.type != "soft":
         args.temperature = 1.0
     # Using the teacher rgb values for the student
-    (teacher, (class_to_idx, signature, rgb_stats, *_)) = fs_ops.load_model(
+    teacher, (class_to_idx, signature, rgb_stats, *_) = fs_ops.load_model(
         device,
         args.teacher,
         config=args.teacher_model_config,
@@ -113,15 +113,15 @@ def train(args: argparse.Namespace) -> None:
         training_wds_path: str | list[str]
         val_wds_path: str | list[str]
         if args.wds_info is not None:
-            (training_wds_path, training_size) = wds_args_from_info(args.wds_info, args.wds_training_split)
-            (val_wds_path, val_size) = wds_args_from_info(args.wds_info, args.wds_val_split)
+            training_wds_path, training_size = wds_args_from_info(args.wds_info, args.wds_training_split)
+            val_wds_path, val_size = wds_args_from_info(args.wds_info, args.wds_val_split)
             if args.wds_train_size is not None:
                 training_size = args.wds_train_size
             if args.wds_val_size is not None:
                 val_size = args.wds_val_size
         else:
-            (training_wds_path, training_size) = prepare_wds_args(args.data_path, args.wds_train_size, device)
-            (val_wds_path, val_size) = prepare_wds_args(args.val_path, args.wds_val_size, device)
+            training_wds_path, training_size = prepare_wds_args(args.data_path, args.wds_train_size, device)
+            val_wds_path, val_size = prepare_wds_args(args.val_path, args.wds_val_size, device)
         training_dataset = make_wds_dataset(
             training_wds_path,
@@ -187,7 +187,7 @@ def train(args: argparse.Namespace) -> None:
     # Data loaders and samplers
     virtual_epoch_mode = args.steps_per_epoch is not None
-    (train_sampler, validation_sampler) = training_utils.get_samplers(
+    train_sampler, validation_sampler = training_utils.get_samplers(
         args, training_dataset, validation_dataset, infinite=virtual_epoch_mode
     )
@@ -269,7 +269,7 @@ def train(args: argparse.Namespace) -> None:
     if args.resume_epoch is not None:
         begin_epoch = args.resume_epoch + 1
-        (student, class_to_idx_saved, training_states) = fs_ops.load_checkpoint(
+        student, class_to_idx_saved, training_states = fs_ops.load_checkpoint(
             device,
             args.student,
             config=args.student_model_config,
@@ -283,8 +283,8 @@ def train(args: argparse.Namespace) -> None:
     else:
         student = registry.net_factory(
             args.student,
-            sample_shape[1],
             num_outputs,
+            sample_shape[1],
             config=args.student_model_config,
             size=args.size,
         )
@@ -383,7 +383,7 @@ def train(args: argparse.Namespace) -> None:
         optimizer.step = torch.compile(optimizer.step, fullgraph=False)
     # Gradient scaler and AMP related tasks
-    (scaler, amp_dtype) = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
+    scaler, amp_dtype = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
     # Load states
     if args.load_states is True:
@@ -567,10 +567,16 @@ def train(args: argparse.Namespace) -> None:
     if virtual_epoch_mode is True:
         train_iter = iter(training_loader)
+    top_k = args.top_k
     running_loss = training_utils.SmoothedValue(window_size=64)
     running_val_loss = training_utils.SmoothedValue()
     train_accuracy = training_utils.SmoothedValue(window_size=64)
     val_accuracy = training_utils.SmoothedValue()
+    train_topk: Optional[training_utils.SmoothedValue] = None
+    val_topk: Optional[training_utils.SmoothedValue] = None
+    if top_k is not None:
+        train_topk = training_utils.SmoothedValue(window_size=64)
+        val_topk = training_utils.SmoothedValue()
     logger.info(f"Starting training with learning rate of {last_lr}")
     for epoch in range(begin_epoch, args.stop_epoch):
@@ -579,6 +585,16 @@ def train(args: argparse.Namespace) -> None:
         if embedding_projection is not None:
             embedding_projection.train()
+        # Clear metrics
+        running_loss.clear()
+        running_val_loss.clear()
+        train_accuracy.clear()
+        val_accuracy.clear()
+        if train_topk is not None:
+            train_topk.clear()
+        if val_topk is not None:
+            val_topk.clear()
         if args.distributed is True or virtual_epoch_mode is True:
             train_sampler.set_epoch(epoch)
@@ -616,7 +632,7 @@ def train(args: argparse.Namespace) -> None:
                         teacher_embedding = teacher.embedding(inputs)
                         teacher_embedding = F.normalize(teacher_embedding, dim=-1)
-                    (outputs, student_embedding) = train_student(inputs)
+                    outputs, student_embedding = train_student(inputs)
                     student_embedding = embedding_projection(student_embedding)  # type: ignore[misc]
                     student_embedding = F.normalize(student_embedding, dim=-1)
                     dist_loss = distillation_criterion(student_embedding, teacher_embedding)
@@ -637,7 +653,7 @@ def train(args: argparse.Namespace) -> None:
                         outputs = train_student(inputs)
                         dist_loss = distillation_criterion(outputs, teacher_targets)
                     elif distillation_type == "deit":
-                        (outputs, dist_output) = torch.unbind(train_student(inputs), dim=1)
+                        outputs, dist_output = torch.unbind(train_student(inputs), dim=1)
                         dist_loss = distillation_criterion(dist_output, teacher_targets)
                     else:
                         raise RuntimeError
@@ -693,6 +709,9 @@ def train(args: argparse.Namespace) -> None:
                 targets = targets.argmax(dim=1)
             train_accuracy.update(training_utils.accuracy(targets, outputs.detach()))
+            if train_topk is not None:
+                topk_val = training_utils.topk_accuracy(targets, outputs.detach(), topk=(top_k,))[0]
+                train_topk.update(topk_val)
             # Write statistics
             if (i % args.log_interval == 0 and i > 0) or i == last_batch_idx:
@@ -711,6 +730,9 @@ def train(args: argparse.Namespace) -> None:
                 running_loss.synchronize_between_processes(device)
                 train_accuracy.synchronize_between_processes(device)
+                if train_topk is not None:
+                    train_topk.synchronize_between_processes(device)
                 with training_utils.single_handler_logging(logger, file_handler, enabled=not disable_tqdm) as log:
                     log.info(
                         f"[Trn] Epoch {epoch}/{epochs-1}, iter {i+1}/{last_batch_idx+1}  "
@@ -725,8 +747,17 @@ def train(args: argparse.Namespace) -> None:
                         f"[Trn] Epoch {epoch}/{epochs-1}, iter {i+1}/{last_batch_idx+1}  "
                         f"Accuracy: {train_accuracy.avg:.4f}"
                     )
+                    if train_topk is not None:
+                        log.info(
+                            f"[Trn] Epoch {epoch}/{epochs-1}, iter {i+1}/{last_batch_idx+1}  "
+                            f"Accuracy@{top_k}: {train_topk.avg:.4f}"
+                        )
                 if training_utils.is_local_primary(args) is True:
+                    performance = {"training_accuracy": train_accuracy.avg}
+                    if train_topk is not None:
+                        performance[f"training_accuracy@{top_k}"] = train_topk.avg
                     summary_writer.add_scalars(
                         "loss",
                         {"training": running_loss.avg},
@@ -734,7 +765,7 @@ def train(args: argparse.Namespace) -> None:
                     )
                     summary_writer.add_scalars(
                         "performance",
-                        {"training_accuracy": train_accuracy.avg},
+                        performance,
                         ((epoch - 1) * epoch_samples) + ((i + 1) * batch_size * args.world_size),
                     )
@@ -746,6 +777,8 @@ def train(args: argparse.Namespace) -> None:
         # Epoch training metrics
         logger.info(f"[Trn] Epoch {epoch}/{epochs-1} training_loss: {running_loss.global_avg:.4f}")
         logger.info(f"[Trn] Epoch {epoch}/{epochs-1} training_accuracy: {train_accuracy.global_avg:.4f}")
+        if train_topk is not None:
+            logger.info(f"[Trn] Epoch {epoch}/{epochs-1} training_accuracy@{top_k}: {train_topk.global_avg:.4f}")
         # Validation
         eval_model.eval()
@@ -772,6 +805,9 @@ def train(args: argparse.Namespace) -> None:
                 # Statistics
                 running_val_loss.update(val_loss.detach())
                 val_accuracy.update(training_utils.accuracy(targets, outputs), n=outputs.size(0))
+                if val_topk is not None:
+                    topk_val = training_utils.topk_accuracy(targets, outputs, topk=(top_k,))[0]
+                    val_topk.update(topk_val, n=outputs.size(0))
                 # Update progress bar
                 progress.update(n=batch_size * args.world_size)
@@ -789,19 +825,30 @@ def train(args: argparse.Namespace) -> None:
         running_val_loss.synchronize_between_processes(device)
         val_accuracy.synchronize_between_processes(device)
+        if val_topk is not None:
+            val_topk.synchronize_between_processes(device)
         epoch_val_loss = running_val_loss.global_avg
         epoch_val_accuracy = val_accuracy.global_avg
+        if val_topk is not None:
+            epoch_val_topk = val_topk.global_avg
+        else:
+            epoch_val_topk = None
         # Write statistics
         if training_utils.is_local_primary(args) is True:
             summary_writer.add_scalars("loss", {"validation": epoch_val_loss}, epoch * epoch_samples)
-            summary_writer.add_scalars(
-                "performance", {"validation_accuracy": epoch_val_accuracy}, epoch * epoch_samples
-            )
+            performance = {"validation_accuracy": epoch_val_accuracy}
+            if epoch_val_topk is not None:
+                performance[f"validation_accuracy@{top_k}"] = epoch_val_topk
+            summary_writer.add_scalars("performance", performance, epoch * epoch_samples)
         # Epoch validation metrics
         logger.info(f"[Val] Epoch {epoch}/{epochs-1} validation_loss (target only): {epoch_val_loss:.4f}")
         logger.info(f"[Val] Epoch {epoch}/{epochs-1} validation_accuracy: {epoch_val_accuracy:.4f}")
+        if epoch_val_topk is not None:
+            logger.info(f"[Val] Epoch {epoch}/{epochs-1} validation_accuracy@{top_k}: {epoch_val_topk:.4f}")
         # Learning rate scheduler update
         if step_update is False:
@@ -989,7 +1036,7 @@ def get_args_parser() -> argparse.ArgumentParser:
     training_cli.add_compile_args(parser, teacher=True)
     training_cli.add_checkpoint_args(parser, default_save_frequency=5)
     training_cli.add_distributed_args(parser)
-    training_cli.add_logging_and_debug_args(parser)
+    training_cli.add_logging_and_debug_args(parser, classification=True)
     training_cli.add_training_data_args(parser)
     return parser

birder/scripts/train_mim.py CHANGED Viewed

@@ -49,7 +49,7 @@ def train(args: argparse.Namespace) -> None:
     #
     # Initialize
     #
-    (device, device_id, disable_tqdm) = training_utils.init_training(args, logger)
+    device, device_id, disable_tqdm = training_utils.init_training(args, logger)
     if args.size is None:
         # Prefer mim size over encoder default size
@@ -73,11 +73,11 @@ def train(args: argparse.Namespace) -> None:
     elif args.wds is True:
         wds_path: str | list[str]
         if args.wds_info is not None:
-            (wds_path, dataset_size) = wds_args_from_info(args.wds_info, args.wds_split)
+            wds_path, dataset_size = wds_args_from_info(args.wds_info, args.wds_split)
             if args.wds_size is not None:
                 dataset_size = args.wds_size
         else:
-            (wds_path, dataset_size) = prepare_wds_args(args.data_path[0], args.wds_size, device)
+            wds_path, dataset_size = prepare_wds_args(args.data_path[0], args.wds_size, device)
         training_dataset = make_wds_dataset(
             wds_path,
@@ -107,7 +107,7 @@ def train(args: argparse.Namespace) -> None:
     # Data loaders and samplers
     virtual_epoch_mode = args.steps_per_epoch is not None
-    (train_sampler, _) = training_utils.get_samplers(
+    train_sampler, _ = training_utils.get_samplers(
         args, training_dataset, validation_dataset=None, infinite=virtual_epoch_mode
     )
@@ -172,7 +172,7 @@ def train(args: argparse.Namespace) -> None:
     if args.resume_epoch is not None:
         begin_epoch = args.resume_epoch + 1
-        (net, training_states) = fs_ops.load_mim_checkpoint(
+        net, training_states = fs_ops.load_mim_checkpoint(
             device,
             args.network,
             config=args.model_config,
@@ -187,7 +187,7 @@ def train(args: argparse.Namespace) -> None:
     elif args.pretrained is True:
         fs_ops.download_model_by_weights(network_name, progress_bar=training_utils.is_local_primary(args))
-        (net, training_states) = fs_ops.load_mim_checkpoint(
+        net, training_states = fs_ops.load_mim_checkpoint(
             device,
             args.network,
             config=args.model_config,
@@ -202,7 +202,7 @@ def train(args: argparse.Namespace) -> None:
     else:
         encoder = registry.net_factory(
-            args.encoder, sample_shape[1], 0, config=args.encoder_model_config, size=args.size
+            args.encoder, 0, sample_shape[1], config=args.encoder_model_config, size=args.size
         )
         net = registry.mim_net_factory(
             args.network,
@@ -263,7 +263,7 @@ def train(args: argparse.Namespace) -> None:
         optimizer.step = torch.compile(optimizer.step, fullgraph=False)
     # Gradient scaler and AMP related tasks
-    (scaler, amp_dtype) = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
+    scaler, amp_dtype = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
     # Load states
     if args.load_states is True:
@@ -375,6 +375,9 @@ def train(args: argparse.Namespace) -> None:
         tic = time.time()
         net.train()
+        # Clear metrics
+        running_loss.clear()
         if args.distributed is True or virtual_epoch_mode is True:
             train_sampler.set_epoch(epoch)

birder/scripts/train_mmcr.py CHANGED Viewed

@@ -74,7 +74,7 @@ def train(args: argparse.Namespace) -> None:
     #
     # Initialize
     #
-    (device, device_id, disable_tqdm) = training_utils.init_training(args, logger)
+    device, device_id, disable_tqdm = training_utils.init_training(args, logger)
     if args.size is None:
         args.size = registry.get_default_size(args.network)
@@ -97,11 +97,11 @@ def train(args: argparse.Namespace) -> None:
     elif args.wds is True:
         wds_path: str | list[str]
         if args.wds_info is not None:
-            (wds_path, dataset_size) = wds_args_from_info(args.wds_info, args.wds_split)
+            wds_path, dataset_size = wds_args_from_info(args.wds_info, args.wds_split)
             if args.wds_size is not None:
                 dataset_size = args.wds_size
         else:
-            (wds_path, dataset_size) = prepare_wds_args(args.data_path[0], args.wds_size, device)
+            wds_path, dataset_size = prepare_wds_args(args.data_path[0], args.wds_size, device)
         training_dataset = make_wds_dataset(
             wds_path,
@@ -131,7 +131,7 @@ def train(args: argparse.Namespace) -> None:
     # Data loaders and samplers
     virtual_epoch_mode = args.steps_per_epoch is not None
-    (train_sampler, _) = training_utils.get_samplers(
+    train_sampler, _ = training_utils.get_samplers(
         args, training_dataset, validation_dataset=None, infinite=virtual_epoch_mode
     )
@@ -194,12 +194,12 @@ def train(args: argparse.Namespace) -> None:
     network_name = get_mim_network_name("mmcr", encoder=args.network, tag=args.tag)
-    backbone = registry.net_factory(args.network, sample_shape[1], 0, config=args.model_config, size=args.size)
+    backbone = registry.net_factory(args.network, 0, sample_shape[1], config=args.model_config, size=args.size)
     net = MMCR(backbone, config={"projector_dims": args.projector_dims})
     if args.resume_epoch is not None:
         begin_epoch = args.resume_epoch + 1
-        (net, training_states) = fs_ops.load_simple_checkpoint(
+        net, training_states = fs_ops.load_simple_checkpoint(
             device, net, network_name, epoch=args.resume_epoch, strict=not args.non_strict_weights
         )
@@ -265,7 +265,7 @@ def train(args: argparse.Namespace) -> None:
         optimizer.step = torch.compile(optimizer.step, fullgraph=False)
     # Gradient scaler and AMP related tasks
-    (scaler, amp_dtype) = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
+    scaler, amp_dtype = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
     # Load states
     if args.load_states is True:
@@ -377,6 +377,9 @@ def train(args: argparse.Namespace) -> None:
         tic = time.time()
         net.train()
+        # Clear metrics
+        running_loss.clear()
         if args.distributed is True or virtual_epoch_mode is True:
             train_sampler.set_epoch(epoch)
@@ -407,7 +410,7 @@ def train(args: argparse.Namespace) -> None:
             # Forward, backward and optimize
             with torch.amp.autocast("cuda", enabled=args.amp, dtype=amp_dtype):
-                (z, z_m) = net(images)
+                z, z_m = net(images)
                 loss = mmcr_loss(z, z_m)
             if scaler is not None:

birder/scripts/train_rotnet.py CHANGED Viewed

@@ -83,7 +83,7 @@ def train(args: argparse.Namespace) -> None:
     #
     # Initialize
     #
-    (device, device_id, disable_tqdm) = training_utils.init_training(args, logger)
+    device, device_id, disable_tqdm = training_utils.init_training(args, logger)
     if args.size is None:
         args.size = registry.get_default_size(args.network)
@@ -111,11 +111,11 @@ def train(args: argparse.Namespace) -> None:
     elif args.wds is True:
         wds_path: str | list[str]
         if args.wds_info is not None:
-            (wds_path, dataset_size) = wds_args_from_info(args.wds_info, args.wds_split)
+            wds_path, dataset_size = wds_args_from_info(args.wds_info, args.wds_split)
             if args.wds_size is not None:
                 dataset_size = args.wds_size
         else:
-            (wds_path, dataset_size) = prepare_wds_args(args.data_path[0], args.wds_size, device)
+            wds_path, dataset_size = prepare_wds_args(args.data_path[0], args.wds_size, device)
         training_dataset = make_wds_dataset(
             wds_path,
@@ -145,7 +145,7 @@ def train(args: argparse.Namespace) -> None:
     # Data loaders and samplers
     virtual_epoch_mode = args.steps_per_epoch is not None
-    (train_sampler, _) = training_utils.get_samplers(
+    train_sampler, _ = training_utils.get_samplers(
         args, training_dataset, validation_dataset=None, infinite=virtual_epoch_mode
     )
@@ -207,12 +207,12 @@ def train(args: argparse.Namespace) -> None:
         network_name = f"{network_name}-{args.tag}"
     net = registry.net_factory(
-        args.network, sample_shape[1], len(class_to_idx), config=args.model_config, size=args.size
+        args.network, len(class_to_idx), sample_shape[1], config=args.model_config, size=args.size
     )
     if args.resume_epoch is not None:
         begin_epoch = args.resume_epoch + 1
-        (net, training_states) = fs_ops.load_simple_checkpoint(
+        net, training_states = fs_ops.load_simple_checkpoint(
             device, net, network_name, epoch=args.resume_epoch, strict=not args.non_strict_weights
         )
@@ -277,7 +277,7 @@ def train(args: argparse.Namespace) -> None:
         optimizer.step = torch.compile(optimizer.step, fullgraph=False)
     # Gradient scaler and AMP related tasks
-    (scaler, amp_dtype) = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
+    scaler, amp_dtype = training_utils.get_amp_scaler(args.amp, args.amp_dtype)
     # Load states
     if args.load_states is True:
@@ -389,6 +389,10 @@ def train(args: argparse.Namespace) -> None:
         tic = time.time()
         net.train()
+        # Clear metrics
+        running_loss.clear()
+        train_accuracy.clear()
         if args.distributed is True or virtual_epoch_mode is True:
             train_sampler.set_epoch(epoch)

birder 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl

birder 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl