PyPI - ultralytics-opencv-headless - Versions diffs - 8.3.242__py3-none-any.whl - Mend

ultralytics-opencv-headless 8.3.242__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (298) hide show

tests/__init__.py +23 -0
tests/conftest.py +59 -0
tests/test_cli.py +131 -0
tests/test_cuda.py +216 -0
tests/test_engine.py +157 -0
tests/test_exports.py +309 -0
tests/test_integrations.py +151 -0
tests/test_python.py +777 -0
tests/test_solutions.py +371 -0
ultralytics/__init__.py +48 -0
ultralytics/assets/bus.jpg +0 -0
ultralytics/assets/zidane.jpg +0 -0
ultralytics/cfg/__init__.py +1026 -0
ultralytics/cfg/datasets/Argoverse.yaml +78 -0
ultralytics/cfg/datasets/DOTAv1.5.yaml +37 -0
ultralytics/cfg/datasets/DOTAv1.yaml +36 -0
ultralytics/cfg/datasets/GlobalWheat2020.yaml +68 -0
ultralytics/cfg/datasets/HomeObjects-3K.yaml +32 -0
ultralytics/cfg/datasets/ImageNet.yaml +2025 -0
ultralytics/cfg/datasets/Objects365.yaml +447 -0
ultralytics/cfg/datasets/SKU-110K.yaml +58 -0
ultralytics/cfg/datasets/VOC.yaml +102 -0
ultralytics/cfg/datasets/VisDrone.yaml +87 -0
ultralytics/cfg/datasets/african-wildlife.yaml +25 -0
ultralytics/cfg/datasets/brain-tumor.yaml +22 -0
ultralytics/cfg/datasets/carparts-seg.yaml +44 -0
ultralytics/cfg/datasets/coco-pose.yaml +64 -0
ultralytics/cfg/datasets/coco.yaml +118 -0
ultralytics/cfg/datasets/coco128-seg.yaml +101 -0
ultralytics/cfg/datasets/coco128.yaml +101 -0
ultralytics/cfg/datasets/coco8-grayscale.yaml +103 -0
ultralytics/cfg/datasets/coco8-multispectral.yaml +104 -0
ultralytics/cfg/datasets/coco8-pose.yaml +47 -0
ultralytics/cfg/datasets/coco8-seg.yaml +101 -0
ultralytics/cfg/datasets/coco8.yaml +101 -0
ultralytics/cfg/datasets/construction-ppe.yaml +32 -0
ultralytics/cfg/datasets/crack-seg.yaml +22 -0
ultralytics/cfg/datasets/dog-pose.yaml +52 -0
ultralytics/cfg/datasets/dota8-multispectral.yaml +38 -0
ultralytics/cfg/datasets/dota8.yaml +35 -0
ultralytics/cfg/datasets/hand-keypoints.yaml +50 -0
ultralytics/cfg/datasets/kitti.yaml +27 -0
ultralytics/cfg/datasets/lvis.yaml +1240 -0
ultralytics/cfg/datasets/medical-pills.yaml +21 -0
ultralytics/cfg/datasets/open-images-v7.yaml +663 -0
ultralytics/cfg/datasets/package-seg.yaml +22 -0
ultralytics/cfg/datasets/signature.yaml +21 -0
ultralytics/cfg/datasets/tiger-pose.yaml +41 -0
ultralytics/cfg/datasets/xView.yaml +155 -0
ultralytics/cfg/default.yaml +130 -0
ultralytics/cfg/models/11/yolo11-cls-resnet18.yaml +17 -0
ultralytics/cfg/models/11/yolo11-cls.yaml +33 -0
ultralytics/cfg/models/11/yolo11-obb.yaml +50 -0
ultralytics/cfg/models/11/yolo11-pose.yaml +51 -0
ultralytics/cfg/models/11/yolo11-seg.yaml +50 -0
ultralytics/cfg/models/11/yolo11.yaml +50 -0
ultralytics/cfg/models/11/yoloe-11-seg.yaml +48 -0
ultralytics/cfg/models/11/yoloe-11.yaml +48 -0
ultralytics/cfg/models/12/yolo12-cls.yaml +32 -0
ultralytics/cfg/models/12/yolo12-obb.yaml +48 -0
ultralytics/cfg/models/12/yolo12-pose.yaml +49 -0
ultralytics/cfg/models/12/yolo12-seg.yaml +48 -0
ultralytics/cfg/models/12/yolo12.yaml +48 -0
ultralytics/cfg/models/rt-detr/rtdetr-l.yaml +53 -0
ultralytics/cfg/models/rt-detr/rtdetr-resnet101.yaml +45 -0
ultralytics/cfg/models/rt-detr/rtdetr-resnet50.yaml +45 -0
ultralytics/cfg/models/rt-detr/rtdetr-x.yaml +57 -0
ultralytics/cfg/models/v10/yolov10b.yaml +45 -0
ultralytics/cfg/models/v10/yolov10l.yaml +45 -0
ultralytics/cfg/models/v10/yolov10m.yaml +45 -0
ultralytics/cfg/models/v10/yolov10n.yaml +45 -0
ultralytics/cfg/models/v10/yolov10s.yaml +45 -0
ultralytics/cfg/models/v10/yolov10x.yaml +45 -0
ultralytics/cfg/models/v3/yolov3-spp.yaml +49 -0
ultralytics/cfg/models/v3/yolov3-tiny.yaml +40 -0
ultralytics/cfg/models/v3/yolov3.yaml +49 -0
ultralytics/cfg/models/v5/yolov5-p6.yaml +62 -0
ultralytics/cfg/models/v5/yolov5.yaml +51 -0
ultralytics/cfg/models/v6/yolov6.yaml +56 -0
ultralytics/cfg/models/v8/yoloe-v8-seg.yaml +48 -0
ultralytics/cfg/models/v8/yoloe-v8.yaml +48 -0
ultralytics/cfg/models/v8/yolov8-cls-resnet101.yaml +28 -0
ultralytics/cfg/models/v8/yolov8-cls-resnet50.yaml +28 -0
ultralytics/cfg/models/v8/yolov8-cls.yaml +32 -0
ultralytics/cfg/models/v8/yolov8-ghost-p2.yaml +58 -0
ultralytics/cfg/models/v8/yolov8-ghost-p6.yaml +60 -0
ultralytics/cfg/models/v8/yolov8-ghost.yaml +50 -0
ultralytics/cfg/models/v8/yolov8-obb.yaml +49 -0
ultralytics/cfg/models/v8/yolov8-p2.yaml +57 -0
ultralytics/cfg/models/v8/yolov8-p6.yaml +59 -0
ultralytics/cfg/models/v8/yolov8-pose-p6.yaml +60 -0
ultralytics/cfg/models/v8/yolov8-pose.yaml +50 -0
ultralytics/cfg/models/v8/yolov8-rtdetr.yaml +49 -0
ultralytics/cfg/models/v8/yolov8-seg-p6.yaml +59 -0
ultralytics/cfg/models/v8/yolov8-seg.yaml +49 -0
ultralytics/cfg/models/v8/yolov8-world.yaml +51 -0
ultralytics/cfg/models/v8/yolov8-worldv2.yaml +49 -0
ultralytics/cfg/models/v8/yolov8.yaml +49 -0
ultralytics/cfg/models/v9/yolov9c-seg.yaml +41 -0
ultralytics/cfg/models/v9/yolov9c.yaml +41 -0
ultralytics/cfg/models/v9/yolov9e-seg.yaml +64 -0
ultralytics/cfg/models/v9/yolov9e.yaml +64 -0
ultralytics/cfg/models/v9/yolov9m.yaml +41 -0
ultralytics/cfg/models/v9/yolov9s.yaml +41 -0
ultralytics/cfg/models/v9/yolov9t.yaml +41 -0
ultralytics/cfg/trackers/botsort.yaml +21 -0
ultralytics/cfg/trackers/bytetrack.yaml +12 -0
ultralytics/data/__init__.py +26 -0
ultralytics/data/annotator.py +66 -0
ultralytics/data/augment.py +2801 -0
ultralytics/data/base.py +435 -0
ultralytics/data/build.py +437 -0
ultralytics/data/converter.py +855 -0
ultralytics/data/dataset.py +834 -0
ultralytics/data/loaders.py +704 -0
ultralytics/data/scripts/download_weights.sh +18 -0
ultralytics/data/scripts/get_coco.sh +61 -0
ultralytics/data/scripts/get_coco128.sh +18 -0
ultralytics/data/scripts/get_imagenet.sh +52 -0
ultralytics/data/split.py +138 -0
ultralytics/data/split_dota.py +344 -0
ultralytics/data/utils.py +798 -0
ultralytics/engine/__init__.py +1 -0
ultralytics/engine/exporter.py +1574 -0
ultralytics/engine/model.py +1124 -0
ultralytics/engine/predictor.py +508 -0
ultralytics/engine/results.py +1522 -0
ultralytics/engine/trainer.py +974 -0
ultralytics/engine/tuner.py +448 -0
ultralytics/engine/validator.py +384 -0
ultralytics/hub/__init__.py +166 -0
ultralytics/hub/auth.py +151 -0
ultralytics/hub/google/__init__.py +174 -0
ultralytics/hub/session.py +422 -0
ultralytics/hub/utils.py +162 -0
ultralytics/models/__init__.py +9 -0
ultralytics/models/fastsam/__init__.py +7 -0
ultralytics/models/fastsam/model.py +79 -0
ultralytics/models/fastsam/predict.py +169 -0
ultralytics/models/fastsam/utils.py +23 -0
ultralytics/models/fastsam/val.py +38 -0
ultralytics/models/nas/__init__.py +7 -0
ultralytics/models/nas/model.py +98 -0
ultralytics/models/nas/predict.py +56 -0
ultralytics/models/nas/val.py +38 -0
ultralytics/models/rtdetr/__init__.py +7 -0
ultralytics/models/rtdetr/model.py +63 -0
ultralytics/models/rtdetr/predict.py +88 -0
ultralytics/models/rtdetr/train.py +89 -0
ultralytics/models/rtdetr/val.py +216 -0
ultralytics/models/sam/__init__.py +25 -0
ultralytics/models/sam/amg.py +275 -0
ultralytics/models/sam/build.py +365 -0
ultralytics/models/sam/build_sam3.py +377 -0
ultralytics/models/sam/model.py +169 -0
ultralytics/models/sam/modules/__init__.py +1 -0
ultralytics/models/sam/modules/blocks.py +1067 -0
ultralytics/models/sam/modules/decoders.py +495 -0
ultralytics/models/sam/modules/encoders.py +794 -0
ultralytics/models/sam/modules/memory_attention.py +298 -0
ultralytics/models/sam/modules/sam.py +1160 -0
ultralytics/models/sam/modules/tiny_encoder.py +979 -0
ultralytics/models/sam/modules/transformer.py +344 -0
ultralytics/models/sam/modules/utils.py +512 -0
ultralytics/models/sam/predict.py +3940 -0
ultralytics/models/sam/sam3/__init__.py +3 -0
ultralytics/models/sam/sam3/decoder.py +546 -0
ultralytics/models/sam/sam3/encoder.py +529 -0
ultralytics/models/sam/sam3/geometry_encoders.py +415 -0
ultralytics/models/sam/sam3/maskformer_segmentation.py +286 -0
ultralytics/models/sam/sam3/model_misc.py +199 -0
ultralytics/models/sam/sam3/necks.py +129 -0
ultralytics/models/sam/sam3/sam3_image.py +339 -0
ultralytics/models/sam/sam3/text_encoder_ve.py +307 -0
ultralytics/models/sam/sam3/vitdet.py +547 -0
ultralytics/models/sam/sam3/vl_combiner.py +160 -0
ultralytics/models/utils/__init__.py +1 -0
ultralytics/models/utils/loss.py +466 -0
ultralytics/models/utils/ops.py +315 -0
ultralytics/models/yolo/__init__.py +7 -0
ultralytics/models/yolo/classify/__init__.py +7 -0
ultralytics/models/yolo/classify/predict.py +90 -0
ultralytics/models/yolo/classify/train.py +202 -0
ultralytics/models/yolo/classify/val.py +216 -0
ultralytics/models/yolo/detect/__init__.py +7 -0
ultralytics/models/yolo/detect/predict.py +122 -0
ultralytics/models/yolo/detect/train.py +227 -0
ultralytics/models/yolo/detect/val.py +507 -0
ultralytics/models/yolo/model.py +430 -0
ultralytics/models/yolo/obb/__init__.py +7 -0
ultralytics/models/yolo/obb/predict.py +56 -0
ultralytics/models/yolo/obb/train.py +79 -0
ultralytics/models/yolo/obb/val.py +302 -0
ultralytics/models/yolo/pose/__init__.py +7 -0
ultralytics/models/yolo/pose/predict.py +65 -0
ultralytics/models/yolo/pose/train.py +110 -0
ultralytics/models/yolo/pose/val.py +248 -0
ultralytics/models/yolo/segment/__init__.py +7 -0
ultralytics/models/yolo/segment/predict.py +109 -0
ultralytics/models/yolo/segment/train.py +69 -0
ultralytics/models/yolo/segment/val.py +307 -0
ultralytics/models/yolo/world/__init__.py +5 -0
ultralytics/models/yolo/world/train.py +173 -0
ultralytics/models/yolo/world/train_world.py +178 -0
ultralytics/models/yolo/yoloe/__init__.py +22 -0
ultralytics/models/yolo/yoloe/predict.py +162 -0
ultralytics/models/yolo/yoloe/train.py +287 -0
ultralytics/models/yolo/yoloe/train_seg.py +122 -0
ultralytics/models/yolo/yoloe/val.py +206 -0
ultralytics/nn/__init__.py +27 -0
ultralytics/nn/autobackend.py +958 -0
ultralytics/nn/modules/__init__.py +182 -0
ultralytics/nn/modules/activation.py +54 -0
ultralytics/nn/modules/block.py +1947 -0
ultralytics/nn/modules/conv.py +669 -0
ultralytics/nn/modules/head.py +1183 -0
ultralytics/nn/modules/transformer.py +793 -0
ultralytics/nn/modules/utils.py +159 -0
ultralytics/nn/tasks.py +1768 -0
ultralytics/nn/text_model.py +356 -0
ultralytics/py.typed +1 -0
ultralytics/solutions/__init__.py +41 -0
ultralytics/solutions/ai_gym.py +108 -0
ultralytics/solutions/analytics.py +264 -0
ultralytics/solutions/config.py +107 -0
ultralytics/solutions/distance_calculation.py +123 -0
ultralytics/solutions/heatmap.py +125 -0
ultralytics/solutions/instance_segmentation.py +86 -0
ultralytics/solutions/object_blurrer.py +89 -0
ultralytics/solutions/object_counter.py +190 -0
ultralytics/solutions/object_cropper.py +87 -0
ultralytics/solutions/parking_management.py +280 -0
ultralytics/solutions/queue_management.py +93 -0
ultralytics/solutions/region_counter.py +133 -0
ultralytics/solutions/security_alarm.py +151 -0
ultralytics/solutions/similarity_search.py +219 -0
ultralytics/solutions/solutions.py +828 -0
ultralytics/solutions/speed_estimation.py +114 -0
ultralytics/solutions/streamlit_inference.py +260 -0
ultralytics/solutions/templates/similarity-search.html +156 -0
ultralytics/solutions/trackzone.py +88 -0
ultralytics/solutions/vision_eye.py +67 -0
ultralytics/trackers/__init__.py +7 -0
ultralytics/trackers/basetrack.py +115 -0
ultralytics/trackers/bot_sort.py +257 -0
ultralytics/trackers/byte_tracker.py +469 -0
ultralytics/trackers/track.py +116 -0
ultralytics/trackers/utils/__init__.py +1 -0
ultralytics/trackers/utils/gmc.py +339 -0
ultralytics/trackers/utils/kalman_filter.py +482 -0
ultralytics/trackers/utils/matching.py +154 -0
ultralytics/utils/__init__.py +1450 -0
ultralytics/utils/autobatch.py +118 -0
ultralytics/utils/autodevice.py +205 -0
ultralytics/utils/benchmarks.py +728 -0
ultralytics/utils/callbacks/__init__.py +5 -0
ultralytics/utils/callbacks/base.py +233 -0
ultralytics/utils/callbacks/clearml.py +146 -0
ultralytics/utils/callbacks/comet.py +625 -0
ultralytics/utils/callbacks/dvc.py +197 -0
ultralytics/utils/callbacks/hub.py +110 -0
ultralytics/utils/callbacks/mlflow.py +134 -0
ultralytics/utils/callbacks/neptune.py +126 -0
ultralytics/utils/callbacks/platform.py +73 -0
ultralytics/utils/callbacks/raytune.py +42 -0
ultralytics/utils/callbacks/tensorboard.py +123 -0
ultralytics/utils/callbacks/wb.py +188 -0
ultralytics/utils/checks.py +998 -0
ultralytics/utils/cpu.py +85 -0
ultralytics/utils/dist.py +123 -0
ultralytics/utils/downloads.py +529 -0
ultralytics/utils/errors.py +35 -0
ultralytics/utils/events.py +113 -0
ultralytics/utils/export/__init__.py +7 -0
ultralytics/utils/export/engine.py +237 -0
ultralytics/utils/export/imx.py +315 -0
ultralytics/utils/export/tensorflow.py +231 -0
ultralytics/utils/files.py +219 -0
ultralytics/utils/git.py +137 -0
ultralytics/utils/instance.py +484 -0
ultralytics/utils/logger.py +444 -0
ultralytics/utils/loss.py +849 -0
ultralytics/utils/metrics.py +1560 -0
ultralytics/utils/nms.py +337 -0
ultralytics/utils/ops.py +664 -0
ultralytics/utils/patches.py +201 -0
ultralytics/utils/plotting.py +1045 -0
ultralytics/utils/tal.py +403 -0
ultralytics/utils/torch_utils.py +984 -0
ultralytics/utils/tqdm.py +440 -0
ultralytics/utils/triton.py +112 -0
ultralytics/utils/tuner.py +160 -0
ultralytics_opencv_headless-8.3.242.dist-info/METADATA +374 -0
ultralytics_opencv_headless-8.3.242.dist-info/RECORD +298 -0
ultralytics_opencv_headless-8.3.242.dist-info/WHEEL +5 -0
ultralytics_opencv_headless-8.3.242.dist-info/entry_points.txt +3 -0
ultralytics_opencv_headless-8.3.242.dist-info/licenses/LICENSE +661 -0
ultralytics_opencv_headless-8.3.242.dist-info/top_level.txt +1 -0

ultralytics/utils/loss.py ADDED Viewed

@@ -0,0 +1,849 @@
+# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
+from __future__ import annotations
+from typing import Any
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from ultralytics.utils.metrics import OKS_SIGMA
+from ultralytics.utils.ops import crop_mask, xywh2xyxy, xyxy2xywh
+from ultralytics.utils.tal import RotatedTaskAlignedAssigner, TaskAlignedAssigner, dist2bbox, dist2rbox, make_anchors
+from ultralytics.utils.torch_utils import autocast
+from .metrics import bbox_iou, probiou
+from .tal import bbox2dist
+class VarifocalLoss(nn.Module):
+    """Varifocal loss by Zhang et al.
+    Implements the Varifocal Loss function for addressing class imbalance in object detection by focusing on
+    hard-to-classify examples and balancing positive/negative samples.
+    Attributes:
+        gamma (float): The focusing parameter that controls how much the loss focuses on hard-to-classify examples.
+        alpha (float): The balancing factor used to address class imbalance.
+    References:
+        https://arxiv.org/abs/2008.13367
+    """
+    def __init__(self, gamma: float = 2.0, alpha: float = 0.75):
+        """Initialize the VarifocalLoss class with focusing and balancing parameters."""
+        super().__init__()
+        self.gamma = gamma
+        self.alpha = alpha
+    def forward(self, pred_score: torch.Tensor, gt_score: torch.Tensor, label: torch.Tensor) -> torch.Tensor:
+        """Compute varifocal loss between predictions and ground truth."""
+        weight = self.alpha * pred_score.sigmoid().pow(self.gamma) * (1 - label) + gt_score * label
+        with autocast(enabled=False):
+            loss = (
+                (F.binary_cross_entropy_with_logits(pred_score.float(), gt_score.float(), reduction="none") * weight)
+                .mean(1)
+                .sum()
+            )
+        return loss
+class FocalLoss(nn.Module):
+    """Wraps focal loss around existing loss_fcn(), i.e. criteria = FocalLoss(nn.BCEWithLogitsLoss(), gamma=1.5).
+    Implements the Focal Loss function for addressing class imbalance by down-weighting easy examples and focusing on
+    hard negatives during training.
+    Attributes:
+        gamma (float): The focusing parameter that controls how much the loss focuses on hard-to-classify examples.
+        alpha (torch.Tensor): The balancing factor used to address class imbalance.
+    """
+    def __init__(self, gamma: float = 1.5, alpha: float = 0.25):
+        """Initialize FocalLoss class with focusing and balancing parameters."""
+        super().__init__()
+        self.gamma = gamma
+        self.alpha = torch.tensor(alpha)
+    def forward(self, pred: torch.Tensor, label: torch.Tensor) -> torch.Tensor:
+        """Calculate focal loss with modulating factors for class imbalance."""
+        loss = F.binary_cross_entropy_with_logits(pred, label, reduction="none")
+        # p_t = torch.exp(-loss)
+        # loss *= self.alpha * (1.000001 - p_t) ** self.gamma  # non-zero power for gradient stability
+        # TF implementation https://github.com/tensorflow/addons/blob/v0.7.1/tensorflow_addons/losses/focal_loss.py
+        pred_prob = pred.sigmoid()  # prob from logits
+        p_t = label * pred_prob + (1 - label) * (1 - pred_prob)
+        modulating_factor = (1.0 - p_t) ** self.gamma
+        loss *= modulating_factor
+        if (self.alpha > 0).any():
+            self.alpha = self.alpha.to(device=pred.device, dtype=pred.dtype)
+            alpha_factor = label * self.alpha + (1 - label) * (1 - self.alpha)
+            loss *= alpha_factor
+        return loss.mean(1).sum()
+class DFLoss(nn.Module):
+    """Criterion class for computing Distribution Focal Loss (DFL)."""
+    def __init__(self, reg_max: int = 16) -> None:
+        """Initialize the DFL module with regularization maximum."""
+        super().__init__()
+        self.reg_max = reg_max
+    def __call__(self, pred_dist: torch.Tensor, target: torch.Tensor) -> torch.Tensor:
+        """Return sum of left and right DFL losses from https://ieeexplore.ieee.org/document/9792391."""
+        target = target.clamp_(0, self.reg_max - 1 - 0.01)
+        tl = target.long()  # target left
+        tr = tl + 1  # target right
+        wl = tr - target  # weight left
+        wr = 1 - wl  # weight right
+        return (
+            F.cross_entropy(pred_dist, tl.view(-1), reduction="none").view(tl.shape) * wl
+            + F.cross_entropy(pred_dist, tr.view(-1), reduction="none").view(tl.shape) * wr
+        ).mean(-1, keepdim=True)
+class BboxLoss(nn.Module):
+    """Criterion class for computing training losses for bounding boxes."""
+    def __init__(self, reg_max: int = 16):
+        """Initialize the BboxLoss module with regularization maximum and DFL settings."""
+        super().__init__()
+        self.dfl_loss = DFLoss(reg_max) if reg_max > 1 else None
+    def forward(
+        self,
+        pred_dist: torch.Tensor,
+        pred_bboxes: torch.Tensor,
+        anchor_points: torch.Tensor,
+        target_bboxes: torch.Tensor,
+        target_scores: torch.Tensor,
+        target_scores_sum: torch.Tensor,
+        fg_mask: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """Compute IoU and DFL losses for bounding boxes."""
+        weight = target_scores.sum(-1)[fg_mask].unsqueeze(-1)
+        iou = bbox_iou(pred_bboxes[fg_mask], target_bboxes[fg_mask], xywh=False, CIoU=True)
+        loss_iou = ((1.0 - iou) * weight).sum() / target_scores_sum
+        # DFL loss
+        if self.dfl_loss:
+            target_ltrb = bbox2dist(anchor_points, target_bboxes, self.dfl_loss.reg_max - 1)
+            loss_dfl = self.dfl_loss(pred_dist[fg_mask].view(-1, self.dfl_loss.reg_max), target_ltrb[fg_mask]) * weight
+            loss_dfl = loss_dfl.sum() / target_scores_sum
+        else:
+            loss_dfl = torch.tensor(0.0).to(pred_dist.device)
+        return loss_iou, loss_dfl
+class RotatedBboxLoss(BboxLoss):
+    """Criterion class for computing training losses for rotated bounding boxes."""
+    def __init__(self, reg_max: int):
+        """Initialize the RotatedBboxLoss module with regularization maximum and DFL settings."""
+        super().__init__(reg_max)
+    def forward(
+        self,
+        pred_dist: torch.Tensor,
+        pred_bboxes: torch.Tensor,
+        anchor_points: torch.Tensor,
+        target_bboxes: torch.Tensor,
+        target_scores: torch.Tensor,
+        target_scores_sum: torch.Tensor,
+        fg_mask: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """Compute IoU and DFL losses for rotated bounding boxes."""
+        weight = target_scores.sum(-1)[fg_mask].unsqueeze(-1)
+        iou = probiou(pred_bboxes[fg_mask], target_bboxes[fg_mask])
+        loss_iou = ((1.0 - iou) * weight).sum() / target_scores_sum
+        # DFL loss
+        if self.dfl_loss:
+            target_ltrb = bbox2dist(anchor_points, xywh2xyxy(target_bboxes[..., :4]), self.dfl_loss.reg_max - 1)
+            loss_dfl = self.dfl_loss(pred_dist[fg_mask].view(-1, self.dfl_loss.reg_max), target_ltrb[fg_mask]) * weight
+            loss_dfl = loss_dfl.sum() / target_scores_sum
+        else:
+            loss_dfl = torch.tensor(0.0).to(pred_dist.device)
+        return loss_iou, loss_dfl
+class KeypointLoss(nn.Module):
+    """Criterion class for computing keypoint losses."""
+    def __init__(self, sigmas: torch.Tensor) -> None:
+        """Initialize the KeypointLoss class with keypoint sigmas."""
+        super().__init__()
+        self.sigmas = sigmas
+    def forward(
+        self, pred_kpts: torch.Tensor, gt_kpts: torch.Tensor, kpt_mask: torch.Tensor, area: torch.Tensor
+    ) -> torch.Tensor:
+        """Calculate keypoint loss factor and Euclidean distance loss for keypoints."""
+        d = (pred_kpts[..., 0] - gt_kpts[..., 0]).pow(2) + (pred_kpts[..., 1] - gt_kpts[..., 1]).pow(2)
+        kpt_loss_factor = kpt_mask.shape[1] / (torch.sum(kpt_mask != 0, dim=1) + 1e-9)
+        # e = d / (2 * (area * self.sigmas) ** 2 + 1e-9)  # from formula
+        e = d / ((2 * self.sigmas).pow(2) * (area + 1e-9) * 2)  # from cocoeval
+        return (kpt_loss_factor.view(-1, 1) * ((1 - torch.exp(-e)) * kpt_mask)).mean()
+class v8DetectionLoss:
+    """Criterion class for computing training losses for YOLOv8 object detection."""
+    def __init__(self, model, tal_topk: int = 10):  # model must be de-paralleled
+        """Initialize v8DetectionLoss with model parameters and task-aligned assignment settings."""
+        device = next(model.parameters()).device  # get model device
+        h = model.args  # hyperparameters
+        m = model.model[-1]  # Detect() module
+        self.bce = nn.BCEWithLogitsLoss(reduction="none")
+        self.hyp = h
+        self.stride = m.stride  # model strides
+        self.nc = m.nc  # number of classes
+        self.no = m.nc + m.reg_max * 4
+        self.reg_max = m.reg_max
+        self.device = device
+        self.use_dfl = m.reg_max > 1
+        self.assigner = TaskAlignedAssigner(topk=tal_topk, num_classes=self.nc, alpha=0.5, beta=6.0)
+        self.bbox_loss = BboxLoss(m.reg_max).to(device)
+        self.proj = torch.arange(m.reg_max, dtype=torch.float, device=device)
+    def preprocess(self, targets: torch.Tensor, batch_size: int, scale_tensor: torch.Tensor) -> torch.Tensor:
+        """Preprocess targets by converting to tensor format and scaling coordinates."""
+        nl, ne = targets.shape
+        if nl == 0:
+            out = torch.zeros(batch_size, 0, ne - 1, device=self.device)
+        else:
+            i = targets[:, 0]  # image index
+            _, counts = i.unique(return_counts=True)
+            counts = counts.to(dtype=torch.int32)
+            out = torch.zeros(batch_size, counts.max(), ne - 1, device=self.device)
+            for j in range(batch_size):
+                matches = i == j
+                if n := matches.sum():
+                    out[j, :n] = targets[matches, 1:]
+            out[..., 1:5] = xywh2xyxy(out[..., 1:5].mul_(scale_tensor))
+        return out
+    def bbox_decode(self, anchor_points: torch.Tensor, pred_dist: torch.Tensor) -> torch.Tensor:
+        """Decode predicted object bounding box coordinates from anchor points and distribution."""
+        if self.use_dfl:
+            b, a, c = pred_dist.shape  # batch, anchors, channels
+            pred_dist = pred_dist.view(b, a, 4, c // 4).softmax(3).matmul(self.proj.type(pred_dist.dtype))
+            # pred_dist = pred_dist.view(b, a, c // 4, 4).transpose(2,3).softmax(3).matmul(self.proj.type(pred_dist.dtype))
+            # pred_dist = (pred_dist.view(b, a, c // 4, 4).softmax(2) * self.proj.type(pred_dist.dtype).view(1, 1, -1, 1)).sum(2)
+        return dist2bbox(pred_dist, anchor_points, xywh=False)
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate the sum of the loss for box, cls and dfl multiplied by batch size."""
+        loss = torch.zeros(3, device=self.device)  # box, cls, dfl
+        feats = preds[1] if isinstance(preds, tuple) else preds
+        pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split(
+            (self.reg_max * 4, self.nc), 1
+        )
+        pred_scores = pred_scores.permute(0, 2, 1).contiguous()
+        pred_distri = pred_distri.permute(0, 2, 1).contiguous()
+        dtype = pred_scores.dtype
+        batch_size = pred_scores.shape[0]
+        imgsz = torch.tensor(feats[0].shape[2:], device=self.device, dtype=dtype) * self.stride[0]  # image size (h,w)
+        anchor_points, stride_tensor = make_anchors(feats, self.stride, 0.5)
+        # Targets
+        targets = torch.cat((batch["batch_idx"].view(-1, 1), batch["cls"].view(-1, 1), batch["bboxes"]), 1)
+        targets = self.preprocess(targets, batch_size, scale_tensor=imgsz[[1, 0, 1, 0]])
+        gt_labels, gt_bboxes = targets.split((1, 4), 2)  # cls, xyxy
+        mask_gt = gt_bboxes.sum(2, keepdim=True).gt_(0.0)
+        # Pboxes
+        pred_bboxes = self.bbox_decode(anchor_points, pred_distri)  # xyxy, (b, h*w, 4)
+        # dfl_conf = pred_distri.view(batch_size, -1, 4, self.reg_max).detach().softmax(-1)
+        # dfl_conf = (dfl_conf.amax(-1).mean(-1) + dfl_conf.amax(-1).amin(-1)) / 2
+        _, target_bboxes, target_scores, fg_mask, _ = self.assigner(
+            # pred_scores.detach().sigmoid() * 0.8 + dfl_conf.unsqueeze(-1) * 0.2,
+            pred_scores.detach().sigmoid(),
+            (pred_bboxes.detach() * stride_tensor).type(gt_bboxes.dtype),
+            anchor_points * stride_tensor,
+            gt_labels,
+            gt_bboxes,
+            mask_gt,
+        )
+        target_scores_sum = max(target_scores.sum(), 1)
+        # Cls loss
+        # loss[1] = self.varifocal_loss(pred_scores, target_scores, target_labels) / target_scores_sum  # VFL way
+        loss[1] = self.bce(pred_scores, target_scores.to(dtype)).sum() / target_scores_sum  # BCE
+        # Bbox loss
+        if fg_mask.sum():
+            loss[0], loss[2] = self.bbox_loss(
+                pred_distri,
+                pred_bboxes,
+                anchor_points,
+                target_bboxes / stride_tensor,
+                target_scores,
+                target_scores_sum,
+                fg_mask,
+            )
+        loss[0] *= self.hyp.box  # box gain
+        loss[1] *= self.hyp.cls  # cls gain
+        loss[2] *= self.hyp.dfl  # dfl gain
+        return loss * batch_size, loss.detach()  # loss(box, cls, dfl)
+class v8SegmentationLoss(v8DetectionLoss):
+    """Criterion class for computing training losses for YOLOv8 segmentation."""
+    def __init__(self, model):  # model must be de-paralleled
+        """Initialize the v8SegmentationLoss class with model parameters and mask overlap setting."""
+        super().__init__(model)
+        self.overlap = model.args.overlap_mask
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate and return the combined loss for detection and segmentation."""
+        loss = torch.zeros(4, device=self.device)  # box, seg, cls, dfl
+        feats, pred_masks, proto = preds if len(preds) == 3 else preds[1]
+        batch_size, _, mask_h, mask_w = proto.shape  # batch size, number of masks, mask height, mask width
+        pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split(
+            (self.reg_max * 4, self.nc), 1
+        )
+        # B, grids, ..
+        pred_scores = pred_scores.permute(0, 2, 1).contiguous()
+        pred_distri = pred_distri.permute(0, 2, 1).contiguous()
+        pred_masks = pred_masks.permute(0, 2, 1).contiguous()
+        dtype = pred_scores.dtype
+        imgsz = torch.tensor(feats[0].shape[2:], device=self.device, dtype=dtype) * self.stride[0]  # image size (h,w)
+        anchor_points, stride_tensor = make_anchors(feats, self.stride, 0.5)
+        # Targets
+        try:
+            batch_idx = batch["batch_idx"].view(-1, 1)
+            targets = torch.cat((batch_idx, batch["cls"].view(-1, 1), batch["bboxes"]), 1)
+            targets = self.preprocess(targets, batch_size, scale_tensor=imgsz[[1, 0, 1, 0]])
+            gt_labels, gt_bboxes = targets.split((1, 4), 2)  # cls, xyxy
+            mask_gt = gt_bboxes.sum(2, keepdim=True).gt_(0.0)
+        except RuntimeError as e:
+            raise TypeError(
+                "ERROR ❌ segment dataset incorrectly formatted or not a segment dataset.\n"
+                "This error can occur when incorrectly training a 'segment' model on a 'detect' dataset, "
+                "i.e. 'yolo train model=yolo11n-seg.pt data=coco8.yaml'.\nVerify your dataset is a "
+                "correctly formatted 'segment' dataset using 'data=coco8-seg.yaml' "
+                "as an example.\nSee https://docs.ultralytics.com/datasets/segment/ for help."
+            ) from e
+        # Pboxes
+        pred_bboxes = self.bbox_decode(anchor_points, pred_distri)  # xyxy, (b, h*w, 4)
+        _, target_bboxes, target_scores, fg_mask, target_gt_idx = self.assigner(
+            pred_scores.detach().sigmoid(),
+            (pred_bboxes.detach() * stride_tensor).type(gt_bboxes.dtype),
+            anchor_points * stride_tensor,
+            gt_labels,
+            gt_bboxes,
+            mask_gt,
+        )
+        target_scores_sum = max(target_scores.sum(), 1)
+        # Cls loss
+        # loss[1] = self.varifocal_loss(pred_scores, target_scores, target_labels) / target_scores_sum  # VFL way
+        loss[2] = self.bce(pred_scores, target_scores.to(dtype)).sum() / target_scores_sum  # BCE
+        if fg_mask.sum():
+            # Bbox loss
+            loss[0], loss[3] = self.bbox_loss(
+                pred_distri,
+                pred_bboxes,
+                anchor_points,
+                target_bboxes / stride_tensor,
+                target_scores,
+                target_scores_sum,
+                fg_mask,
+            )
+            # Masks loss
+            masks = batch["masks"].to(self.device).float()
+            if tuple(masks.shape[-2:]) != (mask_h, mask_w):  # downsample
+                masks = F.interpolate(masks[None], (mask_h, mask_w), mode="nearest")[0]
+            loss[1] = self.calculate_segmentation_loss(
+                fg_mask, masks, target_gt_idx, target_bboxes, batch_idx, proto, pred_masks, imgsz, self.overlap
+            )
+        # WARNING: lines below prevent Multi-GPU DDP 'unused gradient' PyTorch errors, do not remove
+        else:
+            loss[1] += (proto * 0).sum() + (pred_masks * 0).sum()  # inf sums may lead to nan loss
+        loss[0] *= self.hyp.box  # box gain
+        loss[1] *= self.hyp.box  # seg gain
+        loss[2] *= self.hyp.cls  # cls gain
+        loss[3] *= self.hyp.dfl  # dfl gain
+        return loss * batch_size, loss.detach()  # loss(box, seg, cls, dfl)
+    @staticmethod
+    def single_mask_loss(
+        gt_mask: torch.Tensor, pred: torch.Tensor, proto: torch.Tensor, xyxy: torch.Tensor, area: torch.Tensor
+    ) -> torch.Tensor:
+        """Compute the instance segmentation loss for a single image.
+        Args:
+            gt_mask (torch.Tensor): Ground truth mask of shape (N, H, W), where N is the number of objects.
+            pred (torch.Tensor): Predicted mask coefficients of shape (N, 32).
+            proto (torch.Tensor): Prototype masks of shape (32, H, W).
+            xyxy (torch.Tensor): Ground truth bounding boxes in xyxy format, normalized to [0, 1], of shape (N, 4).
+            area (torch.Tensor): Area of each ground truth bounding box of shape (N,).
+        Returns:
+            (torch.Tensor): The calculated mask loss for a single image.
+        Notes:
+            The function uses the equation pred_mask = torch.einsum('in,nhw->ihw', pred, proto) to produce the
+            predicted masks from the prototype masks and predicted mask coefficients.
+        """
+        pred_mask = torch.einsum("in,nhw->ihw", pred, proto)  # (n, 32) @ (32, 80, 80) -> (n, 80, 80)
+        loss = F.binary_cross_entropy_with_logits(pred_mask, gt_mask, reduction="none")
+        return (crop_mask(loss, xyxy).mean(dim=(1, 2)) / area).sum()
+    def calculate_segmentation_loss(
+        self,
+        fg_mask: torch.Tensor,
+        masks: torch.Tensor,
+        target_gt_idx: torch.Tensor,
+        target_bboxes: torch.Tensor,
+        batch_idx: torch.Tensor,
+        proto: torch.Tensor,
+        pred_masks: torch.Tensor,
+        imgsz: torch.Tensor,
+        overlap: bool,
+    ) -> torch.Tensor:
+        """Calculate the loss for instance segmentation.
+        Args:
+            fg_mask (torch.Tensor): A binary tensor of shape (BS, N_anchors) indicating which anchors are positive.
+            masks (torch.Tensor): Ground truth masks of shape (BS, H, W) if `overlap` is False, otherwise (BS, ?, H, W).
+            target_gt_idx (torch.Tensor): Indexes of ground truth objects for each anchor of shape (BS, N_anchors).
+            target_bboxes (torch.Tensor): Ground truth bounding boxes for each anchor of shape (BS, N_anchors, 4).
+            batch_idx (torch.Tensor): Batch indices of shape (N_labels_in_batch, 1).
+            proto (torch.Tensor): Prototype masks of shape (BS, 32, H, W).
+            pred_masks (torch.Tensor): Predicted masks for each anchor of shape (BS, N_anchors, 32).
+            imgsz (torch.Tensor): Size of the input image as a tensor of shape (2), i.e., (H, W).
+            overlap (bool): Whether the masks in `masks` tensor overlap.
+        Returns:
+            (torch.Tensor): The calculated loss for instance segmentation.
+        Notes:
+            The batch loss can be computed for improved speed at higher memory usage.
+            For example, pred_mask can be computed as follows:
+                pred_mask = torch.einsum('in,nhw->ihw', pred, proto)  # (i, 32) @ (32, 160, 160) -> (i, 160, 160)
+        """
+        _, _, mask_h, mask_w = proto.shape
+        loss = 0
+        # Normalize to 0-1
+        target_bboxes_normalized = target_bboxes / imgsz[[1, 0, 1, 0]]
+        # Areas of target bboxes
+        marea = xyxy2xywh(target_bboxes_normalized)[..., 2:].prod(2)
+        # Normalize to mask size
+        mxyxy = target_bboxes_normalized * torch.tensor([mask_w, mask_h, mask_w, mask_h], device=proto.device)
+        for i, single_i in enumerate(zip(fg_mask, target_gt_idx, pred_masks, proto, mxyxy, marea, masks)):
+            fg_mask_i, target_gt_idx_i, pred_masks_i, proto_i, mxyxy_i, marea_i, masks_i = single_i
+            if fg_mask_i.any():
+                mask_idx = target_gt_idx_i[fg_mask_i]
+                if overlap:
+                    gt_mask = masks_i == (mask_idx + 1).view(-1, 1, 1)
+                    gt_mask = gt_mask.float()
+                else:
+                    gt_mask = masks[batch_idx.view(-1) == i][mask_idx]
+                loss += self.single_mask_loss(
+                    gt_mask, pred_masks_i[fg_mask_i], proto_i, mxyxy_i[fg_mask_i], marea_i[fg_mask_i]
+                )
+            # WARNING: lines below prevents Multi-GPU DDP 'unused gradient' PyTorch errors, do not remove
+            else:
+                loss += (proto * 0).sum() + (pred_masks * 0).sum()  # inf sums may lead to nan loss
+        return loss / fg_mask.sum()
+class v8PoseLoss(v8DetectionLoss):
+    """Criterion class for computing training losses for YOLOv8 pose estimation."""
+    def __init__(self, model):  # model must be de-paralleled
+        """Initialize v8PoseLoss with model parameters and keypoint-specific loss functions."""
+        super().__init__(model)
+        self.kpt_shape = model.model[-1].kpt_shape
+        self.bce_pose = nn.BCEWithLogitsLoss()
+        is_pose = self.kpt_shape == [17, 3]
+        nkpt = self.kpt_shape[0]  # number of keypoints
+        sigmas = torch.from_numpy(OKS_SIGMA).to(self.device) if is_pose else torch.ones(nkpt, device=self.device) / nkpt
+        self.keypoint_loss = KeypointLoss(sigmas=sigmas)
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate the total loss and detach it for pose estimation."""
+        loss = torch.zeros(5, device=self.device)  # box, cls, dfl, kpt_location, kpt_visibility
+        feats, pred_kpts = preds if isinstance(preds[0], list) else preds[1]
+        pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split(
+            (self.reg_max * 4, self.nc), 1
+        )
+        # B, grids, ..
+        pred_scores = pred_scores.permute(0, 2, 1).contiguous()
+        pred_distri = pred_distri.permute(0, 2, 1).contiguous()
+        pred_kpts = pred_kpts.permute(0, 2, 1).contiguous()
+        dtype = pred_scores.dtype
+        imgsz = torch.tensor(feats[0].shape[2:], device=self.device, dtype=dtype) * self.stride[0]  # image size (h,w)
+        anchor_points, stride_tensor = make_anchors(feats, self.stride, 0.5)
+        # Targets
+        batch_size = pred_scores.shape[0]
+        batch_idx = batch["batch_idx"].view(-1, 1)
+        targets = torch.cat((batch_idx, batch["cls"].view(-1, 1), batch["bboxes"]), 1)
+        targets = self.preprocess(targets, batch_size, scale_tensor=imgsz[[1, 0, 1, 0]])
+        gt_labels, gt_bboxes = targets.split((1, 4), 2)  # cls, xyxy
+        mask_gt = gt_bboxes.sum(2, keepdim=True).gt_(0.0)
+        # Pboxes
+        pred_bboxes = self.bbox_decode(anchor_points, pred_distri)  # xyxy, (b, h*w, 4)
+        pred_kpts = self.kpts_decode(anchor_points, pred_kpts.view(batch_size, -1, *self.kpt_shape))  # (b, h*w, 17, 3)
+        _, target_bboxes, target_scores, fg_mask, target_gt_idx = self.assigner(
+            pred_scores.detach().sigmoid(),
+            (pred_bboxes.detach() * stride_tensor).type(gt_bboxes.dtype),
+            anchor_points * stride_tensor,
+            gt_labels,
+            gt_bboxes,
+            mask_gt,
+        )
+        target_scores_sum = max(target_scores.sum(), 1)
+        # Cls loss
+        # loss[1] = self.varifocal_loss(pred_scores, target_scores, target_labels) / target_scores_sum  # VFL way
+        loss[3] = self.bce(pred_scores, target_scores.to(dtype)).sum() / target_scores_sum  # BCE
+        # Bbox loss
+        if fg_mask.sum():
+            target_bboxes /= stride_tensor
+            loss[0], loss[4] = self.bbox_loss(
+                pred_distri, pred_bboxes, anchor_points, target_bboxes, target_scores, target_scores_sum, fg_mask
+            )
+            keypoints = batch["keypoints"].to(self.device).float().clone()
+            keypoints[..., 0] *= imgsz[1]
+            keypoints[..., 1] *= imgsz[0]
+            loss[1], loss[2] = self.calculate_keypoints_loss(
+                fg_mask, target_gt_idx, keypoints, batch_idx, stride_tensor, target_bboxes, pred_kpts
+            )
+        loss[0] *= self.hyp.box  # box gain
+        loss[1] *= self.hyp.pose  # pose gain
+        loss[2] *= self.hyp.kobj  # kobj gain
+        loss[3] *= self.hyp.cls  # cls gain
+        loss[4] *= self.hyp.dfl  # dfl gain
+        return loss * batch_size, loss.detach()  # loss(box, cls, dfl)
+    @staticmethod
+    def kpts_decode(anchor_points: torch.Tensor, pred_kpts: torch.Tensor) -> torch.Tensor:
+        """Decode predicted keypoints to image coordinates."""
+        y = pred_kpts.clone()
+        y[..., :2] *= 2.0
+        y[..., 0] += anchor_points[:, [0]] - 0.5
+        y[..., 1] += anchor_points[:, [1]] - 0.5
+        return y
+    def calculate_keypoints_loss(
+        self,
+        masks: torch.Tensor,
+        target_gt_idx: torch.Tensor,
+        keypoints: torch.Tensor,
+        batch_idx: torch.Tensor,
+        stride_tensor: torch.Tensor,
+        target_bboxes: torch.Tensor,
+        pred_kpts: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate the keypoints loss for the model.
+        This function calculates the keypoints loss and keypoints object loss for a given batch. The keypoints loss is
+        based on the difference between the predicted keypoints and ground truth keypoints. The keypoints object loss is
+        a binary classification loss that classifies whether a keypoint is present or not.
+        Args:
+            masks (torch.Tensor): Binary mask tensor indicating object presence, shape (BS, N_anchors).
+            target_gt_idx (torch.Tensor): Index tensor mapping anchors to ground truth objects, shape (BS, N_anchors).
+            keypoints (torch.Tensor): Ground truth keypoints, shape (N_kpts_in_batch, N_kpts_per_object, kpts_dim).
+            batch_idx (torch.Tensor): Batch index tensor for keypoints, shape (N_kpts_in_batch, 1).
+            stride_tensor (torch.Tensor): Stride tensor for anchors, shape (N_anchors, 1).
+            target_bboxes (torch.Tensor): Ground truth boxes in (x1, y1, x2, y2) format, shape (BS, N_anchors, 4).
+            pred_kpts (torch.Tensor): Predicted keypoints, shape (BS, N_anchors, N_kpts_per_object, kpts_dim).
+        Returns:
+            kpts_loss (torch.Tensor): The keypoints loss.
+            kpts_obj_loss (torch.Tensor): The keypoints object loss.
+        """
+        batch_idx = batch_idx.flatten()
+        batch_size = len(masks)
+        # Find the maximum number of keypoints in a single image
+        max_kpts = torch.unique(batch_idx, return_counts=True)[1].max()
+        # Create a tensor to hold batched keypoints
+        batched_keypoints = torch.zeros(
+            (batch_size, max_kpts, keypoints.shape[1], keypoints.shape[2]), device=keypoints.device
+        )
+        # TODO: any idea how to vectorize this?
+        # Fill batched_keypoints with keypoints based on batch_idx
+        for i in range(batch_size):
+            keypoints_i = keypoints[batch_idx == i]
+            batched_keypoints[i, : keypoints_i.shape[0]] = keypoints_i
+        # Expand dimensions of target_gt_idx to match the shape of batched_keypoints
+        target_gt_idx_expanded = target_gt_idx.unsqueeze(-1).unsqueeze(-1)
+        # Use target_gt_idx_expanded to select keypoints from batched_keypoints
+        selected_keypoints = batched_keypoints.gather(
+            1, target_gt_idx_expanded.expand(-1, -1, keypoints.shape[1], keypoints.shape[2])
+        )
+        # Divide coordinates by stride
+        selected_keypoints[..., :2] /= stride_tensor.view(1, -1, 1, 1)
+        kpts_loss = 0
+        kpts_obj_loss = 0
+        if masks.any():
+            gt_kpt = selected_keypoints[masks]
+            area = xyxy2xywh(target_bboxes[masks])[:, 2:].prod(1, keepdim=True)
+            pred_kpt = pred_kpts[masks]
+            kpt_mask = gt_kpt[..., 2] != 0 if gt_kpt.shape[-1] == 3 else torch.full_like(gt_kpt[..., 0], True)
+            kpts_loss = self.keypoint_loss(pred_kpt, gt_kpt, kpt_mask, area)  # pose loss
+            if pred_kpt.shape[-1] == 3:
+                kpts_obj_loss = self.bce_pose(pred_kpt[..., 2], kpt_mask.float())  # keypoint obj loss
+        return kpts_loss, kpts_obj_loss
+class v8ClassificationLoss:
+    """Criterion class for computing training losses for classification."""
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Compute the classification loss between predictions and true labels."""
+        preds = preds[1] if isinstance(preds, (list, tuple)) else preds
+        loss = F.cross_entropy(preds, batch["cls"], reduction="mean")
+        return loss, loss.detach()
+class v8OBBLoss(v8DetectionLoss):
+    """Calculates losses for object detection, classification, and box distribution in rotated YOLO models."""
+    def __init__(self, model):
+        """Initialize v8OBBLoss with model, assigner, and rotated bbox loss; model must be de-paralleled."""
+        super().__init__(model)
+        self.assigner = RotatedTaskAlignedAssigner(topk=10, num_classes=self.nc, alpha=0.5, beta=6.0)
+        self.bbox_loss = RotatedBboxLoss(self.reg_max).to(self.device)
+    def preprocess(self, targets: torch.Tensor, batch_size: int, scale_tensor: torch.Tensor) -> torch.Tensor:
+        """Preprocess targets for oriented bounding box detection."""
+        if targets.shape[0] == 0:
+            out = torch.zeros(batch_size, 0, 6, device=self.device)
+        else:
+            i = targets[:, 0]  # image index
+            _, counts = i.unique(return_counts=True)
+            counts = counts.to(dtype=torch.int32)
+            out = torch.zeros(batch_size, counts.max(), 6, device=self.device)
+            for j in range(batch_size):
+                matches = i == j
+                if n := matches.sum():
+                    bboxes = targets[matches, 2:]
+                    bboxes[..., :4].mul_(scale_tensor)
+                    out[j, :n] = torch.cat([targets[matches, 1:2], bboxes], dim=-1)
+        return out
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate and return the loss for oriented bounding box detection."""
+        loss = torch.zeros(3, device=self.device)  # box, cls, dfl
+        feats, pred_angle = preds if isinstance(preds[0], list) else preds[1]
+        batch_size = pred_angle.shape[0]  # batch size
+        pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split(
+            (self.reg_max * 4, self.nc), 1
+        )
+        # b, grids, ..
+        pred_scores = pred_scores.permute(0, 2, 1).contiguous()
+        pred_distri = pred_distri.permute(0, 2, 1).contiguous()
+        pred_angle = pred_angle.permute(0, 2, 1).contiguous()
+        dtype = pred_scores.dtype
+        imgsz = torch.tensor(feats[0].shape[2:], device=self.device, dtype=dtype) * self.stride[0]  # image size (h,w)
+        anchor_points, stride_tensor = make_anchors(feats, self.stride, 0.5)
+        # targets
+        try:
+            batch_idx = batch["batch_idx"].view(-1, 1)
+            targets = torch.cat((batch_idx, batch["cls"].view(-1, 1), batch["bboxes"].view(-1, 5)), 1)
+            rw, rh = targets[:, 4] * float(imgsz[1]), targets[:, 5] * float(imgsz[0])
+            targets = targets[(rw >= 2) & (rh >= 2)]  # filter rboxes of tiny size to stabilize training
+            targets = self.preprocess(targets, batch_size, scale_tensor=imgsz[[1, 0, 1, 0]])
+            gt_labels, gt_bboxes = targets.split((1, 5), 2)  # cls, xywhr
+            mask_gt = gt_bboxes.sum(2, keepdim=True).gt_(0.0)
+        except RuntimeError as e:
+            raise TypeError(
+                "ERROR ❌ OBB dataset incorrectly formatted or not a OBB dataset.\n"
+                "This error can occur when incorrectly training a 'OBB' model on a 'detect' dataset, "
+                "i.e. 'yolo train model=yolo11n-obb.pt data=coco8.yaml'.\nVerify your dataset is a "
+                "correctly formatted 'OBB' dataset using 'data=dota8.yaml' "
+                "as an example.\nSee https://docs.ultralytics.com/datasets/obb/ for help."
+            ) from e
+        # Pboxes
+        pred_bboxes = self.bbox_decode(anchor_points, pred_distri, pred_angle)  # xyxy, (b, h*w, 4)
+        bboxes_for_assigner = pred_bboxes.clone().detach()
+        # Only the first four elements need to be scaled
+        bboxes_for_assigner[..., :4] *= stride_tensor
+        _, target_bboxes, target_scores, fg_mask, _ = self.assigner(
+            pred_scores.detach().sigmoid(),
+            bboxes_for_assigner.type(gt_bboxes.dtype),
+            anchor_points * stride_tensor,
+            gt_labels,
+            gt_bboxes,
+            mask_gt,
+        )
+        target_scores_sum = max(target_scores.sum(), 1)
+        # Cls loss
+        # loss[1] = self.varifocal_loss(pred_scores, target_scores, target_labels) / target_scores_sum  # VFL way
+        loss[1] = self.bce(pred_scores, target_scores.to(dtype)).sum() / target_scores_sum  # BCE
+        # Bbox loss
+        if fg_mask.sum():
+            target_bboxes[..., :4] /= stride_tensor
+            loss[0], loss[2] = self.bbox_loss(
+                pred_distri, pred_bboxes, anchor_points, target_bboxes, target_scores, target_scores_sum, fg_mask
+            )
+        else:
+            loss[0] += (pred_angle * 0).sum()
+        loss[0] *= self.hyp.box  # box gain
+        loss[1] *= self.hyp.cls  # cls gain
+        loss[2] *= self.hyp.dfl  # dfl gain
+        return loss * batch_size, loss.detach()  # loss(box, cls, dfl)
+    def bbox_decode(
+        self, anchor_points: torch.Tensor, pred_dist: torch.Tensor, pred_angle: torch.Tensor
+    ) -> torch.Tensor:
+        """Decode predicted object bounding box coordinates from anchor points and distribution.
+        Args:
+            anchor_points (torch.Tensor): Anchor points, (h*w, 2).
+            pred_dist (torch.Tensor): Predicted rotated distance, (bs, h*w, 4).
+            pred_angle (torch.Tensor): Predicted angle, (bs, h*w, 1).
+        Returns:
+            (torch.Tensor): Predicted rotated bounding boxes with angles, (bs, h*w, 5).
+        """
+        if self.use_dfl:
+            b, a, c = pred_dist.shape  # batch, anchors, channels
+            pred_dist = pred_dist.view(b, a, 4, c // 4).softmax(3).matmul(self.proj.type(pred_dist.dtype))
+        return torch.cat((dist2rbox(pred_dist, pred_angle, anchor_points), pred_angle), dim=-1)
+class E2EDetectLoss:
+    """Criterion class for computing training losses for end-to-end detection."""
+    def __init__(self, model):
+        """Initialize E2EDetectLoss with one-to-many and one-to-one detection losses using the provided model."""
+        self.one2many = v8DetectionLoss(model, tal_topk=10)
+        self.one2one = v8DetectionLoss(model, tal_topk=1)
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate the sum of the loss for box, cls and dfl multiplied by batch size."""
+        preds = preds[1] if isinstance(preds, tuple) else preds
+        one2many = preds["one2many"]
+        loss_one2many = self.one2many(one2many, batch)
+        one2one = preds["one2one"]
+        loss_one2one = self.one2one(one2one, batch)
+        return loss_one2many[0] + loss_one2one[0], loss_one2many[1] + loss_one2one[1]
+class TVPDetectLoss:
+    """Criterion class for computing training losses for text-visual prompt detection."""
+    def __init__(self, model):
+        """Initialize TVPDetectLoss with task-prompt and visual-prompt criteria using the provided model."""
+        self.vp_criterion = v8DetectionLoss(model)
+        # NOTE: store following info as it's changeable in __call__
+        self.ori_nc = self.vp_criterion.nc
+        self.ori_no = self.vp_criterion.no
+        self.ori_reg_max = self.vp_criterion.reg_max
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate the loss for text-visual prompt detection."""
+        feats = preds[1] if isinstance(preds, tuple) else preds
+        if self.ori_reg_max * 4 + self.ori_nc == feats[0].shape[1]:
+            loss = torch.zeros(3, device=self.vp_criterion.device, requires_grad=True)
+            return loss, loss.detach()
+        vp_feats = self._get_vp_features(feats)
+        vp_loss = self.vp_criterion(vp_feats, batch)
+        cls_loss = vp_loss[0][1]
+        return cls_loss, vp_loss[1]
+    def _get_vp_features(self, feats: list[torch.Tensor]) -> list[torch.Tensor]:
+        """Extract visual-prompt features from the model output."""
+        vnc = feats[0].shape[1] - self.ori_reg_max * 4 - self.ori_nc
+        self.vp_criterion.nc = vnc
+        self.vp_criterion.no = vnc + self.vp_criterion.reg_max * 4
+        self.vp_criterion.assigner.num_classes = vnc
+        return [
+            torch.cat((box, cls_vp), dim=1)
+            for box, _, cls_vp in [xi.split((self.ori_reg_max * 4, self.ori_nc, vnc), dim=1) for xi in feats]
+        ]
+class TVPSegmentLoss(TVPDetectLoss):
+    """Criterion class for computing training losses for text-visual prompt segmentation."""
+    def __init__(self, model):
+        """Initialize TVPSegmentLoss with task-prompt and visual-prompt criteria using the provided model."""
+        super().__init__(model)
+        self.vp_criterion = v8SegmentationLoss(model)
+    def __call__(self, preds: Any, batch: dict[str, torch.Tensor]) -> tuple[torch.Tensor, torch.Tensor]:
+        """Calculate the loss for text-visual prompt segmentation."""
+        feats, pred_masks, proto = preds if len(preds) == 3 else preds[1]
+        if self.ori_reg_max * 4 + self.ori_nc == feats[0].shape[1]:
+            loss = torch.zeros(4, device=self.vp_criterion.device, requires_grad=True)
+            return loss, loss.detach()
+        vp_feats = self._get_vp_features(feats)
+        vp_loss = self.vp_criterion((vp_feats, pred_masks, proto), batch)
+        cls_loss = vp_loss[0][2]
+        return cls_loss, vp_loss[1]