PyPI - inference-models - Versions diffs - 0.18.3__py3-none-any.whl - Mend

inference-models 0.18.3__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (195) hide show

inference_models/__init__.py +36 -0
inference_models/configuration.py +72 -0
inference_models/constants.py +2 -0
inference_models/entities.py +5 -0
inference_models/errors.py +137 -0
inference_models/logger.py +52 -0
inference_models/model_pipelines/__init__.py +0 -0
inference_models/model_pipelines/auto_loaders/__init__.py +0 -0
inference_models/model_pipelines/auto_loaders/core.py +120 -0
inference_models/model_pipelines/auto_loaders/pipelines_registry.py +36 -0
inference_models/model_pipelines/face_and_gaze_detection/__init__.py +0 -0
inference_models/model_pipelines/face_and_gaze_detection/mediapipe_l2cs.py +200 -0
inference_models/models/__init__.py +0 -0
inference_models/models/auto_loaders/__init__.py +0 -0
inference_models/models/auto_loaders/access_manager.py +168 -0
inference_models/models/auto_loaders/auto_negotiation.py +1329 -0
inference_models/models/auto_loaders/auto_resolution_cache.py +129 -0
inference_models/models/auto_loaders/constants.py +7 -0
inference_models/models/auto_loaders/core.py +1341 -0
inference_models/models/auto_loaders/dependency_models.py +52 -0
inference_models/models/auto_loaders/entities.py +57 -0
inference_models/models/auto_loaders/models_registry.py +497 -0
inference_models/models/auto_loaders/presentation_utils.py +333 -0
inference_models/models/auto_loaders/ranking.py +413 -0
inference_models/models/auto_loaders/utils.py +31 -0
inference_models/models/base/__init__.py +0 -0
inference_models/models/base/classification.py +123 -0
inference_models/models/base/depth_estimation.py +62 -0
inference_models/models/base/documents_parsing.py +111 -0
inference_models/models/base/embeddings.py +66 -0
inference_models/models/base/instance_segmentation.py +87 -0
inference_models/models/base/keypoints_detection.py +93 -0
inference_models/models/base/object_detection.py +143 -0
inference_models/models/base/semantic_segmentation.py +74 -0
inference_models/models/base/types.py +5 -0
inference_models/models/clip/__init__.py +0 -0
inference_models/models/clip/clip_onnx.py +148 -0
inference_models/models/clip/clip_pytorch.py +104 -0
inference_models/models/clip/preprocessing.py +162 -0
inference_models/models/common/__init__.py +0 -0
inference_models/models/common/cuda.py +30 -0
inference_models/models/common/model_packages.py +25 -0
inference_models/models/common/onnx.py +379 -0
inference_models/models/common/roboflow/__init__.py +0 -0
inference_models/models/common/roboflow/model_packages.py +361 -0
inference_models/models/common/roboflow/post_processing.py +436 -0
inference_models/models/common/roboflow/pre_processing.py +1332 -0
inference_models/models/common/torch.py +20 -0
inference_models/models/common/trt.py +266 -0
inference_models/models/deep_lab_v3_plus/__init__.py +0 -0
inference_models/models/deep_lab_v3_plus/deep_lab_v3_plus_segmentation_onnx.py +282 -0
inference_models/models/deep_lab_v3_plus/deep_lab_v3_plus_segmentation_torch.py +264 -0
inference_models/models/deep_lab_v3_plus/deep_lab_v3_plus_segmentation_trt.py +313 -0
inference_models/models/depth_anything_v2/__init__.py +0 -0
inference_models/models/depth_anything_v2/depth_anything_v2_hf.py +77 -0
inference_models/models/dinov3/__init__.py +0 -0
inference_models/models/dinov3/dinov3_classification_onnx.py +348 -0
inference_models/models/dinov3/dinov3_classification_torch.py +323 -0
inference_models/models/doctr/__init__.py +0 -0
inference_models/models/doctr/doctr_torch.py +304 -0
inference_models/models/easy_ocr/__init__.py +0 -0
inference_models/models/easy_ocr/easy_ocr_torch.py +222 -0
inference_models/models/florence2/__init__.py +0 -0
inference_models/models/florence2/florence2_hf.py +897 -0
inference_models/models/grounding_dino/__init__.py +0 -0
inference_models/models/grounding_dino/grounding_dino_torch.py +227 -0
inference_models/models/l2cs/__init__.py +0 -0
inference_models/models/l2cs/l2cs_onnx.py +216 -0
inference_models/models/mediapipe_face_detection/__init__.py +0 -0
inference_models/models/mediapipe_face_detection/face_detection.py +203 -0
inference_models/models/moondream2/__init__.py +0 -0
inference_models/models/moondream2/moondream2_hf.py +281 -0
inference_models/models/owlv2/__init__.py +0 -0
inference_models/models/owlv2/cache.py +182 -0
inference_models/models/owlv2/entities.py +112 -0
inference_models/models/owlv2/owlv2_hf.py +695 -0
inference_models/models/owlv2/reference_dataset.py +291 -0
inference_models/models/paligemma/__init__.py +0 -0
inference_models/models/paligemma/paligemma_hf.py +209 -0
inference_models/models/perception_encoder/__init__.py +0 -0
inference_models/models/perception_encoder/perception_encoder_pytorch.py +197 -0
inference_models/models/perception_encoder/vision_encoder/__init__.py +0 -0
inference_models/models/perception_encoder/vision_encoder/config.py +160 -0
inference_models/models/perception_encoder/vision_encoder/pe.py +742 -0
inference_models/models/perception_encoder/vision_encoder/rope.py +344 -0
inference_models/models/perception_encoder/vision_encoder/tokenizer.py +342 -0
inference_models/models/perception_encoder/vision_encoder/transforms.py +33 -0
inference_models/models/qwen25vl/__init__.py +1 -0
inference_models/models/qwen25vl/qwen25vl_hf.py +285 -0
inference_models/models/resnet/__init__.py +0 -0
inference_models/models/resnet/resnet_classification_onnx.py +330 -0
inference_models/models/resnet/resnet_classification_torch.py +305 -0
inference_models/models/resnet/resnet_classification_trt.py +369 -0
inference_models/models/rfdetr/__init__.py +0 -0
inference_models/models/rfdetr/backbone_builder.py +101 -0
inference_models/models/rfdetr/class_remapping.py +41 -0
inference_models/models/rfdetr/common.py +115 -0
inference_models/models/rfdetr/default_labels.py +108 -0
inference_models/models/rfdetr/dinov2_with_windowed_attn.py +1330 -0
inference_models/models/rfdetr/misc.py +26 -0
inference_models/models/rfdetr/ms_deform_attn.py +180 -0
inference_models/models/rfdetr/ms_deform_attn_func.py +60 -0
inference_models/models/rfdetr/position_encoding.py +166 -0
inference_models/models/rfdetr/post_processor.py +83 -0
inference_models/models/rfdetr/projector.py +373 -0
inference_models/models/rfdetr/rfdetr_backbone_pytorch.py +394 -0
inference_models/models/rfdetr/rfdetr_base_pytorch.py +807 -0
inference_models/models/rfdetr/rfdetr_instance_segmentation_onnx.py +206 -0
inference_models/models/rfdetr/rfdetr_instance_segmentation_pytorch.py +373 -0
inference_models/models/rfdetr/rfdetr_instance_segmentation_trt.py +227 -0
inference_models/models/rfdetr/rfdetr_object_detection_onnx.py +244 -0
inference_models/models/rfdetr/rfdetr_object_detection_pytorch.py +470 -0
inference_models/models/rfdetr/rfdetr_object_detection_trt.py +270 -0
inference_models/models/rfdetr/segmentation_head.py +273 -0
inference_models/models/rfdetr/transformer.py +767 -0
inference_models/models/roboflow_instant/__init__.py +0 -0
inference_models/models/roboflow_instant/roboflow_instant_hf.py +141 -0
inference_models/models/sam/__init__.py +0 -0
inference_models/models/sam/cache.py +147 -0
inference_models/models/sam/entities.py +25 -0
inference_models/models/sam/sam_torch.py +675 -0
inference_models/models/sam2/__init__.py +0 -0
inference_models/models/sam2/cache.py +162 -0
inference_models/models/sam2/entities.py +43 -0
inference_models/models/sam2/sam2_torch.py +905 -0
inference_models/models/sam2_rt/__init__.py +0 -0
inference_models/models/sam2_rt/sam2_pytorch.py +119 -0
inference_models/models/smolvlm/__init__.py +0 -0
inference_models/models/smolvlm/smolvlm_hf.py +245 -0
inference_models/models/trocr/__init__.py +0 -0
inference_models/models/trocr/trocr_hf.py +53 -0
inference_models/models/vit/__init__.py +0 -0
inference_models/models/vit/vit_classification_huggingface.py +319 -0
inference_models/models/vit/vit_classification_onnx.py +326 -0
inference_models/models/vit/vit_classification_trt.py +365 -0
inference_models/models/yolact/__init__.py +1 -0
inference_models/models/yolact/yolact_instance_segmentation_onnx.py +336 -0
inference_models/models/yolact/yolact_instance_segmentation_trt.py +361 -0
inference_models/models/yolo_world/__init__.py +1 -0
inference_models/models/yolonas/__init__.py +0 -0
inference_models/models/yolonas/nms.py +44 -0
inference_models/models/yolonas/yolonas_object_detection_onnx.py +204 -0
inference_models/models/yolonas/yolonas_object_detection_trt.py +230 -0
inference_models/models/yolov10/__init__.py +0 -0
inference_models/models/yolov10/yolov10_object_detection_onnx.py +187 -0
inference_models/models/yolov10/yolov10_object_detection_trt.py +215 -0
inference_models/models/yolov11/__init__.py +0 -0
inference_models/models/yolov11/yolov11_onnx.py +28 -0
inference_models/models/yolov11/yolov11_torch_script.py +25 -0
inference_models/models/yolov11/yolov11_trt.py +21 -0
inference_models/models/yolov12/__init__.py +0 -0
inference_models/models/yolov12/yolov12_onnx.py +7 -0
inference_models/models/yolov12/yolov12_torch_script.py +7 -0
inference_models/models/yolov12/yolov12_trt.py +7 -0
inference_models/models/yolov5/__init__.py +0 -0
inference_models/models/yolov5/nms.py +99 -0
inference_models/models/yolov5/yolov5_instance_segmentation_onnx.py +225 -0
inference_models/models/yolov5/yolov5_instance_segmentation_trt.py +255 -0
inference_models/models/yolov5/yolov5_object_detection_onnx.py +192 -0
inference_models/models/yolov5/yolov5_object_detection_trt.py +218 -0
inference_models/models/yolov7/__init__.py +0 -0
inference_models/models/yolov7/yolov7_instance_segmentation_onnx.py +226 -0
inference_models/models/yolov7/yolov7_instance_segmentation_trt.py +253 -0
inference_models/models/yolov8/__init__.py +0 -0
inference_models/models/yolov8/yolov8_classification_onnx.py +181 -0
inference_models/models/yolov8/yolov8_instance_segmentation_onnx.py +239 -0
inference_models/models/yolov8/yolov8_instance_segmentation_torch_script.py +201 -0
inference_models/models/yolov8/yolov8_instance_segmentation_trt.py +268 -0
inference_models/models/yolov8/yolov8_key_points_detection_onnx.py +263 -0
inference_models/models/yolov8/yolov8_key_points_detection_torch_script.py +218 -0
inference_models/models/yolov8/yolov8_key_points_detection_trt.py +287 -0
inference_models/models/yolov8/yolov8_object_detection_onnx.py +213 -0
inference_models/models/yolov8/yolov8_object_detection_torch_script.py +166 -0
inference_models/models/yolov8/yolov8_object_detection_trt.py +231 -0
inference_models/models/yolov9/__init__.py +0 -0
inference_models/models/yolov9/yolov9_onnx.py +7 -0
inference_models/models/yolov9/yolov9_torch_script.py +7 -0
inference_models/models/yolov9/yolov9_trt.py +7 -0
inference_models/runtime_introspection/__init__.py +0 -0
inference_models/runtime_introspection/core.py +410 -0
inference_models/utils/__init__.py +0 -0
inference_models/utils/download.py +608 -0
inference_models/utils/environment.py +28 -0
inference_models/utils/file_system.py +51 -0
inference_models/utils/hashing.py +7 -0
inference_models/utils/imports.py +48 -0
inference_models/utils/onnx_introspection.py +17 -0
inference_models/weights_providers/__init__.py +0 -0
inference_models/weights_providers/core.py +20 -0
inference_models/weights_providers/entities.py +159 -0
inference_models/weights_providers/roboflow.py +601 -0
inference_models-0.18.3.dist-info/METADATA +466 -0
inference_models-0.18.3.dist-info/RECORD +195 -0
inference_models-0.18.3.dist-info/WHEEL +5 -0
inference_models-0.18.3.dist-info/top_level.txt +1 -0

inference_models/models/rfdetr/transformer.py ADDED Viewed

@@ -0,0 +1,767 @@
+# ------------------------------------------------------------------------
+# RF-DETR
+# Copyright (c) 2025 Roboflow. All Rights Reserved.
+# Licensed under the Apache License, Version 2.0 [see LICENSE for details]
+# ------------------------------------------------------------------------
+# Modified from LW-DETR (https://github.com/Atten4Vis/LW-DETR)
+# Copyright (c) 2024 Baidu. All Rights Reserved.
+# ------------------------------------------------------------------------
+# Modified from Conditional DETR (https://github.com/Atten4Vis/ConditionalDETR)
+# Copyright (c) 2021 Microsoft. All Rights Reserved.
+# ------------------------------------------------------------------------
+# Modified from DETR (https://github.com/facebookresearch/detr)
+# Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved.
+# ------------------------------------------------------------------------
+"""
+Transformer class
+"""
+import copy
+import math
+from typing import Optional
+import torch
+import torch.nn.functional as F
+from torch import Tensor, nn
+from inference_models.models.rfdetr.ms_deform_attn import MSDeformAttn
+class MLP(nn.Module):
+    """Very simple multi-layer perceptron (also called FFN)"""
+    def __init__(self, input_dim, hidden_dim, output_dim, num_layers):
+        super().__init__()
+        self.num_layers = num_layers
+        h = [hidden_dim] * (num_layers - 1)
+        self.layers = nn.ModuleList(
+            nn.Linear(n, k) for n, k in zip([input_dim] + h, h + [output_dim])
+        )
+    def forward(self, x):
+        for i, layer in enumerate(self.layers):
+            x = F.relu(layer(x)) if i < self.num_layers - 1 else layer(x)
+        return x
+def gen_sineembed_for_position(pos_tensor, dim=128):
+    # n_query, bs, _ = pos_tensor.size()
+    # sineembed_tensor = torch.zeros(n_query, bs, 256)
+    scale = 2 * math.pi
+    dim_t = torch.arange(dim, dtype=pos_tensor.dtype, device=pos_tensor.device)
+    dim_t = 10000 ** (2 * (dim_t // 2) / dim)
+    x_embed = pos_tensor[:, :, 0] * scale
+    y_embed = pos_tensor[:, :, 1] * scale
+    pos_x = x_embed[:, :, None] / dim_t
+    pos_y = y_embed[:, :, None] / dim_t
+    pos_x = torch.stack(
+        (pos_x[:, :, 0::2].sin(), pos_x[:, :, 1::2].cos()), dim=3
+    ).flatten(2)
+    pos_y = torch.stack(
+        (pos_y[:, :, 0::2].sin(), pos_y[:, :, 1::2].cos()), dim=3
+    ).flatten(2)
+    if pos_tensor.size(-1) == 2:
+        pos = torch.cat((pos_y, pos_x), dim=2)
+    elif pos_tensor.size(-1) == 4:
+        w_embed = pos_tensor[:, :, 2] * scale
+        pos_w = w_embed[:, :, None] / dim_t
+        pos_w = torch.stack(
+            (pos_w[:, :, 0::2].sin(), pos_w[:, :, 1::2].cos()), dim=3
+        ).flatten(2)
+        h_embed = pos_tensor[:, :, 3] * scale
+        pos_h = h_embed[:, :, None] / dim_t
+        pos_h = torch.stack(
+            (pos_h[:, :, 0::2].sin(), pos_h[:, :, 1::2].cos()), dim=3
+        ).flatten(2)
+        pos = torch.cat((pos_y, pos_x, pos_w, pos_h), dim=2)
+    else:
+        raise ValueError("Unknown pos_tensor shape(-1):{}".format(pos_tensor.size(-1)))
+    return pos
+def gen_encoder_output_proposals(
+    memory, memory_padding_mask, spatial_shapes, unsigmoid=True
+):
+    """
+    Input:
+        - memory: bs, \sum{hw}, d_model
+        - memory_padding_mask: bs, \sum{hw}
+        - spatial_shapes: nlevel, 2
+    Output:
+        - output_memory: bs, \sum{hw}, d_model
+        - output_proposals: bs, \sum{hw}, 4
+    """
+    N_, S_, C_ = memory.shape
+    base_scale = 4.0
+    proposals = []
+    _cur = 0
+    for lvl, (H_, W_) in enumerate(spatial_shapes):
+        if memory_padding_mask is not None:
+            mask_flatten_ = memory_padding_mask[:, _cur : (_cur + H_ * W_)].view(
+                N_, H_, W_, 1
+            )
+            valid_H = torch.sum(~mask_flatten_[:, :, 0, 0], 1)
+            valid_W = torch.sum(~mask_flatten_[:, 0, :, 0], 1)
+        else:
+            valid_H = torch.tensor([H_ for _ in range(N_)], device=memory.device)
+            valid_W = torch.tensor([W_ for _ in range(N_)], device=memory.device)
+        grid_y, grid_x = torch.meshgrid(
+            torch.linspace(0, H_ - 1, H_, dtype=torch.float32, device=memory.device),
+            torch.linspace(0, W_ - 1, W_, dtype=torch.float32, device=memory.device),
+        )
+        grid = torch.cat([grid_x.unsqueeze(-1), grid_y.unsqueeze(-1)], -1)  # H_, W_, 2
+        scale = torch.cat([valid_W.unsqueeze(-1), valid_H.unsqueeze(-1)], 1).view(
+            N_, 1, 1, 2
+        )
+        grid = (grid.unsqueeze(0).expand(N_, -1, -1, -1) + 0.5) / scale
+        wh = torch.ones_like(grid) * 0.05 * (2.0**lvl)
+        proposal = torch.cat((grid, wh), -1).view(N_, -1, 4)
+        proposals.append(proposal)
+        _cur += H_ * W_
+    output_proposals = torch.cat(proposals, 1)
+    output_proposals_valid = (
+        (output_proposals > 0.01) & (output_proposals < 0.99)
+    ).all(-1, keepdim=True)
+    if unsigmoid:
+        output_proposals = torch.log(
+            output_proposals / (1 - output_proposals)
+        )  # unsigmoid
+        if memory_padding_mask is not None:
+            output_proposals = output_proposals.masked_fill(
+                memory_padding_mask.unsqueeze(-1), float("inf")
+            )
+        output_proposals = output_proposals.masked_fill(
+            ~output_proposals_valid, float("inf")
+        )
+    else:
+        if memory_padding_mask is not None:
+            output_proposals = output_proposals.masked_fill(
+                memory_padding_mask.unsqueeze(-1), float(0)
+            )
+        output_proposals = output_proposals.masked_fill(
+            ~output_proposals_valid, float(0)
+        )
+    output_memory = memory
+    if memory_padding_mask is not None:
+        output_memory = output_memory.masked_fill(
+            memory_padding_mask.unsqueeze(-1), float(0)
+        )
+    output_memory = output_memory.masked_fill(~output_proposals_valid, float(0))
+    return output_memory.to(memory.dtype), output_proposals.to(memory.dtype)
+class Transformer(nn.Module):
+    def __init__(
+        self,
+        d_model=512,
+        sa_nhead=8,
+        ca_nhead=8,
+        num_queries=300,
+        num_decoder_layers=6,
+        dim_feedforward=2048,
+        dropout=0.0,
+        activation="relu",
+        normalize_before=False,
+        return_intermediate_dec=False,
+        group_detr=1,
+        two_stage=False,
+        num_feature_levels=4,
+        dec_n_points=4,
+        lite_refpoint_refine=False,
+        decoder_norm_type="LN",
+        bbox_reparam=False,
+    ):
+        super().__init__()
+        self.encoder = None
+        decoder_layer = TransformerDecoderLayer(
+            d_model,
+            sa_nhead,
+            ca_nhead,
+            dim_feedforward,
+            dropout,
+            activation,
+            normalize_before,
+            group_detr=group_detr,
+            num_feature_levels=num_feature_levels,
+            dec_n_points=dec_n_points,
+            skip_self_attn=False,
+        )
+        assert decoder_norm_type in ["LN", "Identity"]
+        norm = {
+            "LN": lambda channels: nn.LayerNorm(channels),
+            "Identity": lambda channels: nn.Identity(),
+        }
+        decoder_norm = norm[decoder_norm_type](d_model)
+        self.decoder = TransformerDecoder(
+            decoder_layer,
+            num_decoder_layers,
+            decoder_norm,
+            return_intermediate=return_intermediate_dec,
+            d_model=d_model,
+            lite_refpoint_refine=lite_refpoint_refine,
+            bbox_reparam=bbox_reparam,
+        )
+        self.two_stage = two_stage
+        if two_stage:
+            self.enc_output = nn.ModuleList(
+                [nn.Linear(d_model, d_model) for _ in range(group_detr)]
+            )
+            self.enc_output_norm = nn.ModuleList(
+                [nn.LayerNorm(d_model) for _ in range(group_detr)]
+            )
+        self._reset_parameters()
+        self.num_queries = num_queries
+        self.d_model = d_model
+        self.dec_layers = num_decoder_layers
+        self.group_detr = group_detr
+        self.num_feature_levels = num_feature_levels
+        self.bbox_reparam = bbox_reparam
+        self._export = False
+    def export(self):
+        self._export = True
+    def _reset_parameters(self):
+        for p in self.parameters():
+            if p.dim() > 1:
+                nn.init.xavier_uniform_(p)
+        for m in self.modules():
+            if isinstance(m, MSDeformAttn):
+                m._reset_parameters()
+    def get_valid_ratio(self, mask):
+        _, H, W = mask.shape
+        valid_H = torch.sum(~mask[:, :, 0], 1)
+        valid_W = torch.sum(~mask[:, 0, :], 1)
+        valid_ratio_h = valid_H.float() / H
+        valid_ratio_w = valid_W.float() / W
+        valid_ratio = torch.stack([valid_ratio_w, valid_ratio_h], -1)
+        return valid_ratio
+    def forward(self, srcs, masks, pos_embeds, refpoint_embed, query_feat):
+        src_flatten = []
+        mask_flatten = [] if masks is not None else None
+        lvl_pos_embed_flatten = []
+        spatial_shapes = []
+        valid_ratios = [] if masks is not None else None
+        for lvl, (src, pos_embed) in enumerate(zip(srcs, pos_embeds)):
+            bs, c, h, w = src.shape
+            spatial_shape = (h, w)
+            spatial_shapes.append(spatial_shape)
+            src = src.flatten(2).transpose(1, 2)  # bs, hw, c
+            pos_embed = pos_embed.flatten(2).transpose(1, 2)  # bs, hw, c
+            lvl_pos_embed_flatten.append(pos_embed)
+            src_flatten.append(src)
+            if masks is not None:
+                mask = masks[lvl].flatten(1)  # bs, hw
+                mask_flatten.append(mask)
+        memory = torch.cat(src_flatten, 1)  # bs, \sum{hxw}, c
+        if masks is not None:
+            mask_flatten = torch.cat(mask_flatten, 1)  # bs, \sum{hxw}
+            valid_ratios = torch.stack([self.get_valid_ratio(m) for m in masks], 1)
+        lvl_pos_embed_flatten = torch.cat(lvl_pos_embed_flatten, 1)  # bs, \sum{hxw}, c
+        spatial_shapes = torch.as_tensor(
+            spatial_shapes, dtype=torch.long, device=memory.device
+        )
+        level_start_index = torch.cat(
+            (spatial_shapes.new_zeros((1,)), spatial_shapes.prod(1).cumsum(0)[:-1])
+        )
+        if self.two_stage:
+            output_memory, output_proposals = gen_encoder_output_proposals(
+                memory, mask_flatten, spatial_shapes, unsigmoid=not self.bbox_reparam
+            )
+            # group detr for first stage
+            refpoint_embed_ts, memory_ts, boxes_ts = [], [], []
+            group_detr = self.group_detr if self.training else 1
+            for g_idx in range(group_detr):
+                output_memory_gidx = self.enc_output_norm[g_idx](
+                    self.enc_output[g_idx](output_memory)
+                )
+                enc_outputs_class_unselected_gidx = self.enc_out_class_embed[g_idx](
+                    output_memory_gidx
+                )
+                if self.bbox_reparam:
+                    enc_outputs_coord_delta_gidx = self.enc_out_bbox_embed[g_idx](
+                        output_memory_gidx
+                    )
+                    enc_outputs_coord_cxcy_gidx = (
+                        enc_outputs_coord_delta_gidx[..., :2]
+                        * output_proposals[..., 2:]
+                        + output_proposals[..., :2]
+                    )
+                    enc_outputs_coord_wh_gidx = (
+                        enc_outputs_coord_delta_gidx[..., 2:].exp()
+                        * output_proposals[..., 2:]
+                    )
+                    enc_outputs_coord_unselected_gidx = torch.concat(
+                        [enc_outputs_coord_cxcy_gidx, enc_outputs_coord_wh_gidx], dim=-1
+                    )
+                else:
+                    enc_outputs_coord_unselected_gidx = (
+                        self.enc_out_bbox_embed[g_idx](output_memory_gidx)
+                        + output_proposals
+                    )  # (bs, \sum{hw}, 4) unsigmoid
+                topk = min(
+                    self.num_queries, enc_outputs_class_unselected_gidx.shape[-2]
+                )
+                topk_proposals_gidx = torch.topk(
+                    enc_outputs_class_unselected_gidx.max(-1)[0], topk, dim=1
+                )[
+                    1
+                ]  # bs, nq
+                refpoint_embed_gidx_undetach = torch.gather(
+                    enc_outputs_coord_unselected_gidx,
+                    1,
+                    topk_proposals_gidx.unsqueeze(-1).repeat(1, 1, 4),
+                )  # unsigmoid
+                # for decoder layer, detached as initial ones, (bs, nq, 4)
+                refpoint_embed_gidx = refpoint_embed_gidx_undetach.detach()
+                # get memory tgt
+                tgt_undetach_gidx = torch.gather(
+                    output_memory_gidx,
+                    1,
+                    topk_proposals_gidx.unsqueeze(-1).repeat(1, 1, self.d_model),
+                )
+                refpoint_embed_ts.append(refpoint_embed_gidx)
+                memory_ts.append(tgt_undetach_gidx)
+                boxes_ts.append(refpoint_embed_gidx_undetach)
+            # concat on dim=1, the nq dimension, (bs, nq, d) --> (bs, nq, d)
+            refpoint_embed_ts = torch.cat(refpoint_embed_ts, dim=1)
+            # (bs, nq, d)
+            memory_ts = torch.cat(memory_ts, dim=1)  # .transpose(0, 1)
+            boxes_ts = torch.cat(boxes_ts, dim=1)  # .transpose(0, 1)
+        if self.dec_layers > 0:
+            tgt = query_feat.unsqueeze(0).repeat(bs, 1, 1)
+            refpoint_embed = refpoint_embed.unsqueeze(0).repeat(bs, 1, 1)
+            if self.two_stage:
+                ts_len = refpoint_embed_ts.shape[-2]
+                refpoint_embed_ts_subset = refpoint_embed[..., :ts_len, :]
+                refpoint_embed_subset = refpoint_embed[..., ts_len:, :]
+                if self.bbox_reparam:
+                    refpoint_embed_cxcy = (
+                        refpoint_embed_ts_subset[..., :2] * refpoint_embed_ts[..., 2:]
+                    )
+                    refpoint_embed_cxcy = (
+                        refpoint_embed_cxcy + refpoint_embed_ts[..., :2]
+                    )
+                    refpoint_embed_wh = (
+                        refpoint_embed_ts_subset[..., 2:].exp()
+                        * refpoint_embed_ts[..., 2:]
+                    )
+                    refpoint_embed_ts_subset = torch.concat(
+                        [refpoint_embed_cxcy, refpoint_embed_wh], dim=-1
+                    )
+                else:
+                    refpoint_embed_ts_subset = (
+                        refpoint_embed_ts_subset + refpoint_embed_ts
+                    )
+                refpoint_embed = torch.concat(
+                    [refpoint_embed_ts_subset, refpoint_embed_subset], dim=-2
+                )
+            hs, references = self.decoder(
+                tgt,
+                memory,
+                memory_key_padding_mask=mask_flatten,
+                pos=lvl_pos_embed_flatten,
+                refpoints_unsigmoid=refpoint_embed,
+                level_start_index=level_start_index,
+                spatial_shapes=spatial_shapes,
+                valid_ratios=(
+                    valid_ratios.to(memory.dtype)
+                    if valid_ratios is not None
+                    else valid_ratios
+                ),
+            )
+        else:
+            assert self.two_stage, "if not using decoder, two_stage must be True"
+            hs = None
+            references = None
+        if self.two_stage:
+            if self.bbox_reparam:
+                return hs, references, memory_ts, boxes_ts
+            else:
+                return hs, references, memory_ts, boxes_ts.sigmoid()
+        return hs, references, None, None
+class TransformerDecoder(nn.Module):
+    def __init__(
+        self,
+        decoder_layer,
+        num_layers,
+        norm=None,
+        return_intermediate=False,
+        d_model=256,
+        lite_refpoint_refine=False,
+        bbox_reparam=False,
+    ):
+        super().__init__()
+        self.layers = _get_clones(decoder_layer, num_layers)
+        self.num_layers = num_layers
+        self.d_model = d_model
+        self.norm = norm
+        self.return_intermediate = return_intermediate
+        self.lite_refpoint_refine = lite_refpoint_refine
+        self.bbox_reparam = bbox_reparam
+        self.ref_point_head = MLP(2 * d_model, d_model, d_model, 2)
+        self._export = False
+    def export(self):
+        self._export = True
+    def refpoints_refine(self, refpoints_unsigmoid, new_refpoints_delta):
+        if self.bbox_reparam:
+            new_refpoints_cxcy = (
+                new_refpoints_delta[..., :2] * refpoints_unsigmoid[..., 2:]
+                + refpoints_unsigmoid[..., :2]
+            )
+            new_refpoints_wh = (
+                new_refpoints_delta[..., 2:].exp() * refpoints_unsigmoid[..., 2:]
+            )
+            new_refpoints_unsigmoid = torch.concat(
+                [new_refpoints_cxcy, new_refpoints_wh], dim=-1
+            )
+        else:
+            new_refpoints_unsigmoid = refpoints_unsigmoid + new_refpoints_delta
+        return new_refpoints_unsigmoid
+    def forward(
+        self,
+        tgt,
+        memory,
+        tgt_mask: Optional[Tensor] = None,
+        memory_mask: Optional[Tensor] = None,
+        tgt_key_padding_mask: Optional[Tensor] = None,
+        memory_key_padding_mask: Optional[Tensor] = None,
+        pos: Optional[Tensor] = None,
+        refpoints_unsigmoid: Optional[Tensor] = None,
+        # for memory
+        level_start_index: Optional[Tensor] = None,  # num_levels
+        spatial_shapes: Optional[Tensor] = None,  # bs, num_levels, 2
+        valid_ratios: Optional[Tensor] = None,
+    ):
+        output = tgt
+        intermediate = []
+        hs_refpoints_unsigmoid = [refpoints_unsigmoid]
+        def get_reference(refpoints):
+            # [num_queries, batch_size, 4]
+            obj_center = refpoints[..., :4]
+            if self._export:
+                query_sine_embed = gen_sineembed_for_position(
+                    obj_center, self.d_model / 2
+                )  # bs, nq, 256*2
+                refpoints_input = obj_center[:, :, None]  # bs, nq, 1, 4
+            else:
+                refpoints_input = (
+                    obj_center[:, :, None]
+                    * torch.cat([valid_ratios, valid_ratios], -1)[:, None]
+                )  # bs, nq, nlevel, 4
+                query_sine_embed = gen_sineembed_for_position(
+                    refpoints_input[:, :, 0, :], self.d_model / 2
+                )  # bs, nq, 256*2
+            query_pos = self.ref_point_head(query_sine_embed)
+            return obj_center, refpoints_input, query_pos, query_sine_embed
+        # always use init refpoints
+        if self.lite_refpoint_refine:
+            if self.bbox_reparam:
+                obj_center, refpoints_input, query_pos, query_sine_embed = (
+                    get_reference(refpoints_unsigmoid)
+                )
+            else:
+                obj_center, refpoints_input, query_pos, query_sine_embed = (
+                    get_reference(refpoints_unsigmoid.sigmoid())
+                )
+        for layer_id, layer in enumerate(self.layers):
+            # iter refine each layer
+            if not self.lite_refpoint_refine:
+                if self.bbox_reparam:
+                    obj_center, refpoints_input, query_pos, query_sine_embed = (
+                        get_reference(refpoints_unsigmoid)
+                    )
+                else:
+                    obj_center, refpoints_input, query_pos, query_sine_embed = (
+                        get_reference(refpoints_unsigmoid.sigmoid())
+                    )
+            # For the first decoder layer, we do not apply transformation over p_s
+            pos_transformation = 1
+            query_pos = query_pos * pos_transformation
+            output = layer(
+                output,
+                memory,
+                tgt_mask=tgt_mask,
+                memory_mask=memory_mask,
+                tgt_key_padding_mask=tgt_key_padding_mask,
+                memory_key_padding_mask=memory_key_padding_mask,
+                pos=pos,
+                query_pos=query_pos,
+                query_sine_embed=query_sine_embed,
+                is_first=(layer_id == 0),
+                reference_points=refpoints_input,
+                spatial_shapes=spatial_shapes,
+                level_start_index=level_start_index,
+            )
+            if not self.lite_refpoint_refine:
+                # box iterative update
+                new_refpoints_delta = self.bbox_embed(output)
+                new_refpoints_unsigmoid = self.refpoints_refine(
+                    refpoints_unsigmoid, new_refpoints_delta
+                )
+                if layer_id != self.num_layers - 1:
+                    hs_refpoints_unsigmoid.append(new_refpoints_unsigmoid)
+                refpoints_unsigmoid = new_refpoints_unsigmoid.detach()
+            if self.return_intermediate:
+                intermediate.append(self.norm(output))
+        if self.norm is not None:
+            output = self.norm(output)
+            if self.return_intermediate:
+                intermediate.pop()
+                intermediate.append(output)
+        if self.return_intermediate:
+            if self._export:
+                # to shape: B, N, C
+                hs = intermediate[-1]
+                if self.bbox_embed is not None:
+                    ref = hs_refpoints_unsigmoid[-1]
+                else:
+                    ref = refpoints_unsigmoid
+                return hs, ref
+            # box iterative update
+            if self.bbox_embed is not None:
+                return [
+                    torch.stack(intermediate),
+                    torch.stack(hs_refpoints_unsigmoid),
+                ]
+            else:
+                return [torch.stack(intermediate), refpoints_unsigmoid.unsqueeze(0)]
+        return output.unsqueeze(0)
+class TransformerDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        d_model,
+        sa_nhead,
+        ca_nhead,
+        dim_feedforward=2048,
+        dropout=0.1,
+        activation="relu",
+        normalize_before=False,
+        group_detr=1,
+        num_feature_levels=4,
+        dec_n_points=4,
+        skip_self_attn=False,
+    ):
+        super().__init__()
+        # Decoder Self-Attention
+        self.self_attn = nn.MultiheadAttention(
+            embed_dim=d_model, num_heads=sa_nhead, dropout=dropout, batch_first=True
+        )
+        self.dropout1 = nn.Dropout(dropout)
+        self.norm1 = nn.LayerNorm(d_model)
+        # Decoder Cross-Attention
+        self.cross_attn = MSDeformAttn(
+            d_model,
+            n_levels=num_feature_levels,
+            n_heads=ca_nhead,
+            n_points=dec_n_points,
+        )
+        self.nhead = ca_nhead
+        # Implementation of Feedforward model
+        self.linear1 = nn.Linear(d_model, dim_feedforward)
+        self.dropout = nn.Dropout(dropout)
+        self.linear2 = nn.Linear(dim_feedforward, d_model)
+        self.norm2 = nn.LayerNorm(d_model)
+        self.norm3 = nn.LayerNorm(d_model)
+        self.dropout2 = nn.Dropout(dropout)
+        self.dropout3 = nn.Dropout(dropout)
+        self.activation = _get_activation_fn(activation)
+        self.normalize_before = normalize_before
+        self.group_detr = group_detr
+    def with_pos_embed(self, tensor, pos: Optional[Tensor]):
+        return tensor if pos is None else tensor + pos
+    def forward_post(
+        self,
+        tgt,
+        memory,
+        tgt_mask: Optional[Tensor] = None,
+        memory_mask: Optional[Tensor] = None,
+        tgt_key_padding_mask: Optional[Tensor] = None,
+        memory_key_padding_mask: Optional[Tensor] = None,
+        pos: Optional[Tensor] = None,
+        query_pos: Optional[Tensor] = None,
+        query_sine_embed=None,
+        is_first=False,
+        reference_points=None,
+        spatial_shapes=None,
+        level_start_index=None,
+    ):
+        bs, num_queries, _ = tgt.shape
+        # ========== Begin of Self-Attention =============
+        # Apply projections here
+        # shape: batch_size x num_queries x 256
+        q = k = tgt + query_pos
+        v = tgt
+        if self.training:
+            q = torch.cat(q.split(num_queries // self.group_detr, dim=1), dim=0)
+            k = torch.cat(k.split(num_queries // self.group_detr, dim=1), dim=0)
+            v = torch.cat(v.split(num_queries // self.group_detr, dim=1), dim=0)
+        tgt2 = self.self_attn(
+            q,
+            k,
+            v,
+            attn_mask=tgt_mask,
+            key_padding_mask=tgt_key_padding_mask,
+            need_weights=False,
+        )[0]
+        if self.training:
+            tgt2 = torch.cat(tgt2.split(bs, dim=0), dim=1)
+        # ========== End of Self-Attention =============
+        tgt = tgt + self.dropout1(tgt2)
+        tgt = self.norm1(tgt)
+        # ========== Begin of Cross-Attention =============
+        tgt2 = self.cross_attn(
+            self.with_pos_embed(tgt, query_pos),
+            reference_points,
+            memory,
+            spatial_shapes,
+            level_start_index,
+            memory_key_padding_mask,
+        )
+        # ========== End of Cross-Attention =============
+        tgt = tgt + self.dropout2(tgt2)
+        tgt = self.norm2(tgt)
+        tgt2 = self.linear2(self.dropout(self.activation(self.linear1(tgt))))
+        tgt = tgt + self.dropout3(tgt2)
+        tgt = self.norm3(tgt)
+        return tgt
+    def forward(
+        self,
+        tgt,
+        memory,
+        tgt_mask: Optional[Tensor] = None,
+        memory_mask: Optional[Tensor] = None,
+        tgt_key_padding_mask: Optional[Tensor] = None,
+        memory_key_padding_mask: Optional[Tensor] = None,
+        pos: Optional[Tensor] = None,
+        query_pos: Optional[Tensor] = None,
+        query_sine_embed=None,
+        is_first=False,
+        reference_points=None,
+        spatial_shapes=None,
+        level_start_index=None,
+    ):
+        return self.forward_post(
+            tgt,
+            memory,
+            tgt_mask,
+            memory_mask,
+            tgt_key_padding_mask,
+            memory_key_padding_mask,
+            pos,
+            query_pos,
+            query_sine_embed,
+            is_first,
+            reference_points,
+            spatial_shapes,
+            level_start_index,
+        )
+def _get_clones(module, N):
+    return nn.ModuleList([copy.deepcopy(module) for i in range(N)])
+def build_transformer(args):
+    try:
+        two_stage = args.two_stage
+    except:
+        two_stage = False
+    return Transformer(
+        d_model=args.hidden_dim,
+        sa_nhead=args.sa_nheads,
+        ca_nhead=args.ca_nheads,
+        num_queries=args.num_queries,
+        dropout=args.dropout,
+        dim_feedforward=args.dim_feedforward,
+        num_decoder_layers=args.dec_layers,
+        return_intermediate_dec=True,
+        group_detr=args.group_detr,
+        two_stage=two_stage,
+        num_feature_levels=args.num_feature_levels,
+        dec_n_points=args.dec_n_points,
+        lite_refpoint_refine=args.lite_refpoint_refine,
+        decoder_norm_type=args.decoder_norm,
+        bbox_reparam=args.bbox_reparam,
+    )
+def _get_activation_fn(activation):
+    """Return an activation function given a string"""
+    if activation == "relu":
+        return F.relu
+    if activation == "gelu":
+        return F.gelu
+    if activation == "glu":
+        return F.glu
+    raise RuntimeError(f"activation should be relu/gelu, not {activation}.")