PyPI - fbgemm-gpu-nightly-cpu - Versions diffs - 2025.7.19__cp311-cp311-manylinux_2_28_aarch64.whl → 2026.1.29__cp311-cp311-manylinux_2_28_aarch64.whl - Mend

fbgemm-gpu-nightly-cpu 2025.7.19__cp311-cp311-manylinux_2_28_aarch64.whl → 2026.1.29__cp311-cp311-manylinux_2_28_aarch64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (102) hide show

fbgemm_gpu/__init__.py +112 -19
fbgemm_gpu/asmjit.so +0 -0
fbgemm_gpu/batched_unary_embeddings_ops.py +3 -3
fbgemm_gpu/config/feature_list.py +7 -1
fbgemm_gpu/docs/jagged_tensor_ops.py +0 -1
fbgemm_gpu/docs/sparse_ops.py +118 -0
fbgemm_gpu/docs/target.default.json.py +6 -0
fbgemm_gpu/enums.py +3 -4
fbgemm_gpu/fbgemm.so +0 -0
fbgemm_gpu/fbgemm_gpu_config.so +0 -0
fbgemm_gpu/fbgemm_gpu_embedding_inplace_ops.so +0 -0
fbgemm_gpu/fbgemm_gpu_py.so +0 -0
fbgemm_gpu/fbgemm_gpu_sparse_async_cumsum.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_cache.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_common.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_index_select.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_inference.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_optimizers.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_backward.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_backward_dense.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_backward_gwd.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_backward_pt2.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_backward_split_host.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_backward_vbe.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_training_forward.so +0 -0
fbgemm_gpu/fbgemm_gpu_tbe_utils.so +0 -0
fbgemm_gpu/permute_pooled_embedding_modules.py +5 -4
fbgemm_gpu/permute_pooled_embedding_modules_split.py +4 -4
fbgemm_gpu/quantize/__init__.py +2 -0
fbgemm_gpu/quantize/quantize_ops.py +1 -0
fbgemm_gpu/quantize_comm.py +29 -12
fbgemm_gpu/quantize_utils.py +88 -8
fbgemm_gpu/runtime_monitor.py +9 -5
fbgemm_gpu/sll/__init__.py +3 -0
fbgemm_gpu/sll/cpu/cpu_sll.py +8 -8
fbgemm_gpu/sll/triton/__init__.py +0 -10
fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py +2 -3
fbgemm_gpu/sll/triton/triton_jagged_bmm.py +2 -2
fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py +1 -0
fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py +5 -6
fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py +1 -2
fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py +1 -2
fbgemm_gpu/sparse_ops.py +190 -54
fbgemm_gpu/split_embedding_codegen_lookup_invokers/__init__.py +12 -0
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_adagrad.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_adam.py +14 -7
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_args.py +2 -0
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_args_ssd.py +2 -0
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_lamb.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_lars_sgd.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_none.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_partial_rowwise_adam.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_partial_rowwise_lamb.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_rowwise_adagrad.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_rowwise_adagrad_ssd.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_rowwise_adagrad_with_counter.py +12 -5
fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_sgd.py +12 -5
fbgemm_gpu/split_embedding_configs.py +134 -37
fbgemm_gpu/split_embedding_inference_converter.py +7 -6
fbgemm_gpu/split_table_batched_embeddings_ops_common.py +117 -24
fbgemm_gpu/split_table_batched_embeddings_ops_inference.py +37 -37
fbgemm_gpu/split_table_batched_embeddings_ops_training.py +764 -123
fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py +44 -1
fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py +0 -1
fbgemm_gpu/tbe/bench/__init__.py +6 -1
fbgemm_gpu/tbe/bench/bench_config.py +14 -3
fbgemm_gpu/tbe/bench/bench_runs.py +163 -14
fbgemm_gpu/tbe/bench/benchmark_click_interface.py +5 -2
fbgemm_gpu/tbe/bench/eeg_cli.py +3 -3
fbgemm_gpu/tbe/bench/embedding_ops_common_config.py +3 -2
fbgemm_gpu/tbe/bench/eval_compression.py +3 -3
fbgemm_gpu/tbe/bench/tbe_data_config.py +115 -197
fbgemm_gpu/tbe/bench/tbe_data_config_bench_helper.py +332 -0
fbgemm_gpu/tbe/bench/tbe_data_config_loader.py +108 -8
fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py +15 -8
fbgemm_gpu/tbe/bench/utils.py +129 -5
fbgemm_gpu/tbe/cache/kv_embedding_ops_inference.py +22 -19
fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py +4 -4
fbgemm_gpu/tbe/ssd/common.py +1 -0
fbgemm_gpu/tbe/ssd/inference.py +15 -15
fbgemm_gpu/tbe/ssd/training.py +1292 -267
fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py +2 -3
fbgemm_gpu/tbe/stats/bench_params_reporter.py +198 -42
fbgemm_gpu/tbe/utils/offsets.py +6 -6
fbgemm_gpu/tbe/utils/quantize.py +8 -8
fbgemm_gpu/tbe/utils/requests.py +15 -15
fbgemm_gpu/tbe_input_multiplexer.py +10 -11
fbgemm_gpu/triton/common.py +0 -1
fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py +11 -11
fbgemm_gpu/triton/quantize.py +14 -9
fbgemm_gpu/utils/filestore.py +6 -2
fbgemm_gpu/utils/torch_library.py +2 -2
fbgemm_gpu/utils/writeback_util.py +124 -0
fbgemm_gpu/uvm.py +1 -0
{fbgemm_gpu_nightly_cpu-2025.7.19.dist-info → fbgemm_gpu_nightly_cpu-2026.1.29.dist-info}/METADATA +2 -2
fbgemm_gpu_nightly_cpu-2026.1.29.dist-info/RECORD +135 -0
fbgemm_gpu_nightly_cpu-2026.1.29.dist-info/top_level.txt +2 -0
fbgemm_gpu/docs/version.py → list_versions/__init__.py +5 -4
list_versions/cli_run.py +161 -0
fbgemm_gpu_nightly_cpu-2025.7.19.dist-info/RECORD +0 -131
fbgemm_gpu_nightly_cpu-2025.7.19.dist-info/top_level.txt +0 -1
{fbgemm_gpu_nightly_cpu-2025.7.19.dist-info → fbgemm_gpu_nightly_cpu-2026.1.29.dist-info}/WHEEL +0 -0

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_lamb.py CHANGED Viewed

@@ -66,14 +66,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -91,7 +92,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -156,6 +157,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -231,7 +237,7 @@ def invoke(
     optim_float.append(dict_optim_float["beta1"])
     optim_float.append(dict_optim_float["beta2"])
     optim_float.append(dict_optim_float["weight_decay"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_lamb_function_pt2(
         # common_args
@@ -253,6 +259,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_lars_sgd.py CHANGED Viewed

@@ -65,14 +65,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -90,7 +91,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -143,6 +144,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -217,7 +223,7 @@ def invoke(
     optim_float.append(dict_optim_float["eta"])
     optim_float.append(dict_optim_float["momentum"])
     optim_float.append(dict_optim_float["weight_decay"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_lars_sgd_function_pt2(
         # common_args
@@ -239,6 +245,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_none.py CHANGED Viewed

@@ -56,14 +56,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -81,7 +82,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args
     dict_optim_int["total_hash_size"] = optimizer_args.total_hash_size # if optimizer == none
@@ -121,6 +122,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -193,7 +199,7 @@ def invoke(
     optim_int.append(dict_optim_int["total_hash_size"])
     # optim_float
     # ['optim_int', 'total_unique_indices']
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_none_function_pt2(
         # common_args
@@ -215,6 +221,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_partial_rowwise_adam.py CHANGED Viewed

@@ -57,14 +57,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -82,7 +83,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -147,6 +148,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -222,7 +228,7 @@ def invoke(
     optim_float.append(dict_optim_float["beta1"])
     optim_float.append(dict_optim_float["beta2"])
     optim_float.append(dict_optim_float["weight_decay"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_partial_rowwise_adam_function_pt2(
         # common_args
@@ -244,6 +250,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_partial_rowwise_lamb.py CHANGED Viewed

@@ -57,14 +57,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -82,7 +83,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -147,6 +148,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -222,7 +228,7 @@ def invoke(
     optim_float.append(dict_optim_float["beta1"])
     optim_float.append(dict_optim_float["beta2"])
     optim_float.append(dict_optim_float["weight_decay"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_partial_rowwise_lamb_function_pt2(
         # common_args
@@ -244,6 +250,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_rowwise_adagrad.py CHANGED Viewed

@@ -56,14 +56,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -81,7 +82,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -135,6 +136,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -211,7 +217,7 @@ def invoke(
     optim_float.append(dict_optim_float["eps"])
     optim_float.append(dict_optim_float["weight_decay"])
     optim_float.append(dict_optim_float["max_norm"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_rowwise_adagrad_function_pt2(
         # common_args
@@ -233,6 +239,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_rowwise_adagrad_ssd.py CHANGED Viewed

@@ -77,14 +77,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -103,7 +104,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -157,6 +158,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -238,7 +244,7 @@ def invoke(
     optim_float.append(dict_optim_float["eps"])
     optim_float.append(dict_optim_float["weight_decay"])
     optim_float.append(dict_optim_float["max_norm"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.ssd_embedding_codegen_lookup_rowwise_adagrad_function_pt2(
         # common_args
@@ -261,6 +267,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_rowwise_adagrad_with_counter.py CHANGED Viewed

@@ -57,14 +57,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -82,7 +83,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter.dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -168,6 +169,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -254,7 +260,7 @@ def invoke(
     optim_float.append(dict_optim_float["tail_id_threshold"])
     optim_float.append(dict_optim_float["weight_norm_coefficient"])
     optim_float.append(dict_optim_float["lower_bound"])
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function_pt2(
         # common_args
@@ -276,6 +282,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int

fbgemm_gpu/split_embedding_codegen_lookup_invokers/lookup_sgd.py CHANGED Viewed

@@ -55,14 +55,15 @@ def invoke(
         "vbe_B_offsets_rank_per_feature": vbe_metadata.B_offsets_rank_per_feature,
         "lxu_cache_locations": common_args.lxu_cache_locations,
         "uvm_cache_stats": common_args.uvm_cache_stats,
+        "vbe_output_offsets" : vbe_metadata.vbe_output_offsets,
     }
     dict_aux_int: Dict[str, int] = {
-        "iter": iter,
-        "info_B_num_bits": common_args.info_B_num_bits,
+        "iter": iter,
+        "info_B_num_bits": common_args.info_B_num_bits,
         "info_B_mask": common_args.info_B_mask,
     }
     dict_aux_float: Dict[str, float] = {
         "gwd_lower_bound": gwd_lower_bound,
     }
@@ -80,7 +81,7 @@ def invoke(
     # Explicitly pass only prev_iter_dev for global weight decay, unless it already exists in optim arg
     dict_aux_tensor["prev_iter_dev"] = prev_iter_dev
     # optimizer_args # if optimizer == none
     dict_aux_bool["gradient_clipping"] = optimizer_args.gradient_clipping
@@ -119,6 +120,11 @@ def invoke(
         "Please check the frontend and backend version. "
     )
     aux_tensor.append(dict_aux_tensor["prev_iter_dev"])
+    assert "vbe_output_offsets" in dict_aux_tensor, (
+        "vbe_output_offsets must be in dict_aux_tensor. "
+        "Please check the frontend and backend version. "
+    )
+    aux_tensor.append(dict_aux_tensor["vbe_output_offsets"])
     aux_int: List[int] = []
     assert "iter" in dict_aux_int, (
@@ -189,7 +195,7 @@ def invoke(
     # optim_int
     # optim_float
     # ['learning_rate_tensor']
-    # optim_bool
+    # optim_bool
     return torch.ops.fbgemm.split_embedding_codegen_lookup_sgd_function_pt2(
         # common_args
@@ -211,6 +217,7 @@ def invoke(
         max_B=vbe_metadata.max_B,
         max_B_feature_rank=vbe_metadata.max_B_feature_rank,
         vbe_output_size=vbe_metadata.output_size,
+        vbe_output=vbe_metadata.vbe_output,
         # aux_tensor
         aux_tensor=aux_tensor,
         # aux_int