PyPI - fbgemm-gpu-genai-nightly - Versions diffs - 2025.9.29__cp311-cp311-manylinux_2_28_x86_64.whl → 2025.10.2__cp311-cp311-manylinux_2_28_x86_64.whl - Mend

fbgemm-gpu-genai-nightly 2025.9.29__cp311-cp311-manylinux_2_28_x86_64.whl → 2025.10.2__cp311-cp311-manylinux_2_28_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of fbgemm-gpu-genai-nightly might be problematic. Click here for more details.

Files changed (12) hide show

fbgemm_gpu/asmjit.so CHANGED Viewed

Binary file

fbgemm_gpu/docs/version.py CHANGED Viewed

@@ -6,6 +6,6 @@
 # This source code is licensed under the BSD-style license found in the
 # LICENSE file in the root directory of this source tree.
-__version__: str = "2025.9.29"
+__version__: str = "2025.10.2"
 __target__: str = "genai"
 __variant__: str = "cuda"

fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so CHANGED Viewed

Binary file

fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py CHANGED Viewed

@@ -3814,7 +3814,6 @@ def get_full_non_persistent_tuning_space():
                                                     num_stages=num_stages,
                                                 )
                                             )
-    logger.info(f"all configs #: {len(configs)}")
     return configs
@@ -3839,6 +3838,8 @@ _MATMUL_CONFIG_TUPLES_PINGPONG_4K_8K_16K = [
     (128, 64, 64, 4, 1, 0, 16, 2, 4, 2),
     (128, 64, 64, 1, 1, 0, 16, 2, 4, 2),
     (256, 128, 128, 1, 1, 2, 16, 1, 8, 2),
+    (128, 256, 128, 2, 1, 2, 16, 2, 4, 1),
+    (256, 128, 64, 2, 1, 2, 16, 1, 4, 2),
 ]

fbgemm_gpu/experimental/gen_ai/attention/cutlass_blackwell_fmha/cutlass_blackwell_fmha_custom_op.py CHANGED Viewed

@@ -13,13 +13,13 @@ from torch.library import register_fake
 torch.library.define(
     "blackwell_fmha::fmha_fwd",
     "(Tensor q, Tensor k, Tensor v, Tensor? cu_seqlens_q, Tensor? cu_seqlens_k, int? max_seq_len_q, int? max_seq_len_k, float? softmax_scale, bool? causal, Tensor? seqlen_kv) -> (Tensor, Tensor)",
-    tags=[torch.Tag.pt2_compliant_tag],
+    tags=torch.Tag.pt2_compliant_tag,
 )
 torch.library.define(
     "blackwell_fmha::fmha_bwd",
     "(Tensor dout, Tensor q, Tensor k, Tensor v, Tensor out, Tensor softmax_lse, Tensor? cu_seqlens_q, Tensor? cu_seqlens_k, int? max_seq_len_q, int? max_seq_len_k, bool? causal) -> (Tensor, Tensor, Tensor)",
-    tags=[torch.Tag.pt2_compliant_tag],
+    tags=torch.Tag.pt2_compliant_tag,
 )

fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so CHANGED Viewed

Binary file

fbgemm_gpu/fbgemm.so CHANGED Viewed

Binary file

fbgemm_gpu/tbe/ssd/training.py CHANGED Viewed

@@ -3971,8 +3971,8 @@ class SSDTableBatchedEmbeddingBags(nn.Module):
             self.step, stats_reporter.report_interval  # pyre-ignore
         )
-        if len(dram_kv_perf_stats) != 23:
-            logging.error("dram cache perf stats should have 23 elements")
+        if len(dram_kv_perf_stats) != 24:
+            logging.error("dram cache perf stats should have 24 elements")
             return
         dram_read_duration = dram_kv_perf_stats[0]
@@ -4001,6 +4001,7 @@ class SSDTableBatchedEmbeddingBags(nn.Module):
         dram_kv_allocated_bytes = dram_kv_perf_stats[20]
         dram_kv_actual_used_chunk_bytes = dram_kv_perf_stats[21]
         dram_kv_num_rows = dram_kv_perf_stats[22]
+        dram_kv_read_counts = dram_kv_perf_stats[23]
         stats_reporter.report_duration(
             iteration_step=self.step,
@@ -4142,6 +4143,13 @@ class SSDTableBatchedEmbeddingBags(nn.Module):
             enable_tb_metrics=True,
         )
+        stats_reporter.report_data_amount(
+            iteration_step=self.step,
+            event_name="dram_kv.perf.get.dram_kv_read_counts",
+            data_bytes=dram_kv_read_counts,
+            enable_tb_metrics=True,
+        )
         stats_reporter.report_data_amount(
             iteration_step=self.step,
             event_name=self.dram_kv_allocated_bytes_stats_name,

{fbgemm_gpu_genai_nightly-2025.9.29.dist-info → fbgemm_gpu_genai_nightly-2025.10.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: fbgemm_gpu_genai_nightly
-Version: 2025.9.29
+Version: 2025.10.2
 Home-page: https://github.com/pytorch/fbgemm
 Author: FBGEMM Team
 Author-email: packages@pytorch.org

{fbgemm_gpu_genai_nightly-2025.9.29.dist-info → fbgemm_gpu_genai_nightly-2025.10.2.dist-info}/RECORD RENAMED Viewed

@@ -1,8 +1,8 @@
 fbgemm_gpu/__init__.py,sha256=FdQCmpvETH80tlIPP6W8MrOmzLaX9eoGY-fuHtVPbj0,5747
-fbgemm_gpu/asmjit.so,sha256=RxTYI8zY4PpIBRpSKT_-U7bRIVeTRohdtRFUmLNU1tQ,501728
+fbgemm_gpu/asmjit.so,sha256=tf4jzD7HrM0qcrQl_7Q_y3FJ62duD7b3tKkh5TAN7k8,484232
 fbgemm_gpu/batched_unary_embeddings_ops.py,sha256=GYeJ9pg-Wc9FokXVci_npDsL6UV18-pJXID2xzrJ9O8,2904
 fbgemm_gpu/enums.py,sha256=37ewGSfO1x7sO31ZkRiqV1yKuklfHXT5qZIxzeeGogo,755
-fbgemm_gpu/fbgemm.so,sha256=P-80NThzhyQWN9WMb2kYfl04sAgPCehbdArfnktJaqw,5634424
+fbgemm_gpu/fbgemm.so,sha256=HdsyKYHtVNz5ZNpTcSI4SDuYAGks1hYeVz45ZPjuJts,5790800
 fbgemm_gpu/metrics.py,sha256=TsurFLJf0nJvPDN7urWb4LMQlf5RgdWPTTTDO7S4wtI,5663
 fbgemm_gpu/permute_pooled_embedding_modules.py,sha256=vOXMYclaGnwSt0St_SOAlAe18kz6WjMyTeHnC9jLhcE,5130
 fbgemm_gpu/permute_pooled_embedding_modules_split.py,sha256=f3VJvH_kw9Ltd_DXtaf_PJPHmlmEWrQgzQ7MDkhh5Nw,2746
@@ -32,21 +32,21 @@ fbgemm_gpu/docs/merge_pooled_embedding_ops.py,sha256=oJLgSgZQmhsyGLbTmZTxNgQrk65
 fbgemm_gpu/docs/permute_pooled_embedding_ops.py,sha256=tZUqLVXlk5O6VAKKDA-OEMx2fCu5QPOOeoAPZA9_nLY,4454
 fbgemm_gpu/docs/quantize_ops.py,sha256=xTtOaVK1P02ymreE_i21YiyYDZCqhoZY9eWp_mEIRlo,1297
 fbgemm_gpu/docs/sparse_ops.py,sha256=gSLUFdnu8lle_6gLewFkM20wL3ek2jKLvDGMKR6POaY,27292
-fbgemm_gpu/docs/version.py,sha256=F5j2fIxoKrCau1X_4joWddM6S3n3XwdUZvZg5Gc_F48,316
+fbgemm_gpu/docs/version.py,sha256=U9HFTyqt_827sXJZ7N9Dik7e18vj0x7B38Go9HoScG4,316
 fbgemm_gpu/experimental/example/__init__.py,sha256=V_XrGMq2oNVMpzwe1srlaTaHeIcZJw5oAGbo3seM_Ks,870
-fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so,sha256=-VrIV7q3ZUbZSwgISxDhp5ch8YiOkC6ftvwwQ9UNcb8,243904
+fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so,sha256=1dZS9lk6C74qym6nRYRikoQlfcRelfkL4i8v2stWylY,232488
 fbgemm_gpu/experimental/example/utils.py,sha256=Je__VkMlBMLOhh7NXOocOdvaa2gz9kl9Dkqeu25tpFA,562
 fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py,sha256=AqHefiOaN_SjP5ew7RYGuKFuSlhedOJL_6f97TtLv7c,566
 fbgemm_gpu/experimental/gemm/triton_gemm/fp4_quantize.py,sha256=I2xf2DlU27KA9s0256tkGLhdOoImUv7i7oHc8bz5Y2M,211841
-fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py,sha256=iB13OssIfH1ShYn-L-Kwd0hFrvkInFnK9YXw248EdMA,152719
+fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py,sha256=5m4SdgUsf2rM_Vul8czgRn_5oVnyi-52TmeidXh05hg,152754
 fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py,sha256=rbjxTMefjQWgJrWK_bYFtBklJigFwv4awPeVexkkiIA,44511
 fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py,sha256=SltbY_dsit5e7B8lDIB_VYPrEq0t9kckthj9mQaVNfA,7571
 fbgemm_gpu/experimental/gemm/triton_gemm/utils.py,sha256=rULXIpVaaRS3GKUZ1RHcWUrUyy0xMVREwS1SFShGgcw,4302
 fbgemm_gpu/experimental/gen_ai/__init__.py,sha256=qwfuF5E5K4oDiH7RJkpC7zth3kAsG7wv_glCl2A_G2A,1860
-fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so,sha256=2Xp9jIeo84oH-Y0sjSU5KC5eAjU_52lZAap03P3E33c,78714952
+fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so,sha256=crMx6rSmrjg53kw2gLRXCksM4G-vnqDzxEmHFuRuPYk,78050824
 fbgemm_gpu/experimental/gen_ai/quantize.py,sha256=KAljWSdN-1_c5DWfT-3MDxWLMULK49Yu36t6TmQI9Tw,12599
 fbgemm_gpu/experimental/gen_ai/attention/cutlass_blackwell_fmha/__init__.py,sha256=oExepXpjMOwM43gARZARY0UtR-EX2zqRnSrOaQPy448,1044
-fbgemm_gpu/experimental/gen_ai/attention/cutlass_blackwell_fmha/cutlass_blackwell_fmha_custom_op.py,sha256=D90VgPOxnx1NpnDnajIv_L7AHq4rrmFIch0iV2elAVU,7825
+fbgemm_gpu/experimental/gen_ai/attention/cutlass_blackwell_fmha/cutlass_blackwell_fmha_custom_op.py,sha256=FADVTYzS2u8fA-3iChS5CbtWd0mWF8F3lnXcwr_7vDw,7821
 fbgemm_gpu/experimental/gen_ai/attention/cutlass_blackwell_fmha/cutlass_blackwell_fmha_interface.py,sha256=sWk5888_e7Qhfik0X1uZ1VsEUmY5uidxHcqtpoH42Is,9406
 fbgemm_gpu/experimental/gen_ai/bench/__init__.py,sha256=GvCUF6o7wCR3XSWingWKxn_Y3_F2GhZtOIRAB3pfqK0,551
 fbgemm_gpu/experimental/gen_ai/bench/comm_bench.py,sha256=ApEyJOf_rdIo8V_EgvhZXBGNov8ITC_dnB95v8szulI,8515
@@ -99,7 +99,7 @@ fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py,sha256=vZHj7KIe1DoJDy5eft29Xt
 fbgemm_gpu/tbe/ssd/__init__.py,sha256=wzfMT10cp_dqK2lrebC449hOdexBnizcf_98lA1NyHs,483
 fbgemm_gpu/tbe/ssd/common.py,sha256=1J8K7sTQswgCYWaVwF-ZdCJj7mNN6O9GI70AaZWzJGE,1044
 fbgemm_gpu/tbe/ssd/inference.py,sha256=B_uX66ajGA9YKGlFa5TmGWs7b-b1RFigzwxmENZ9Oio,22816
-fbgemm_gpu/tbe/ssd/training.py,sha256=dnUHnl9FzPneXrWUCA_HKvLI5QHQnL0vd9neMrjZJ-Q,194623
+fbgemm_gpu/tbe/ssd/training.py,sha256=iepmavrK6cSXrqWg3TqVXL5gVmSftfHJycesp7I0Nw4,194911
 fbgemm_gpu/tbe/ssd/utils/__init__.py,sha256=5DgmR2HA6NtmYh2ddkUgpDsZ6a7hF0DPedA1gMpdh18,250
 fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py,sha256=SFg2-29b-i49LWm-FlaWUkTz2XzXbicYi_AzVj4jKNE,7601
 fbgemm_gpu/tbe/stats/__init__.py,sha256=on29iDtq7cVNh90JR9aeFNG-K9DDoYq0JryzoplL49I,322
@@ -121,7 +121,7 @@ fbgemm_gpu/utils/loader.py,sha256=1hCEhNvkflniH46fGcrguLeP1z-6uyOu2QFwqKU5CIM,99
 fbgemm_gpu/utils/torch_library.py,sha256=ywsAHjbuwesj50LjEu99WkAH17FlaVgePZ9OmFg6YE4,4193
 list_versions/__init__.py,sha256=UmTeqCk-UJWFtlZQWvZao3xvui2w9E3X_JdOXVjRaNw,315
 list_versions/cli_run.py,sha256=CChZoXQ-tiKaWboXAYlPVJ5w8K5zAKiKcncA087I1sc,4508
-fbgemm_gpu_genai_nightly-2025.9.29.dist-info/METADATA,sha256=EJ6RwlJa0HCpvnSKgLfI9lNQm95VHwHh9RosQp900Fg,2655
-fbgemm_gpu_genai_nightly-2025.9.29.dist-info/WHEEL,sha256=V2Q6mQKbouIadCxoRjt9FQ9oKfi45-uZUcoc77zzs0M,108
-fbgemm_gpu_genai_nightly-2025.9.29.dist-info/top_level.txt,sha256=_2s1Aa08r_eDn0JP4FjOhzK09Q8bVlEI7q8pMep51UY,25
-fbgemm_gpu_genai_nightly-2025.9.29.dist-info/RECORD,,
+fbgemm_gpu_genai_nightly-2025.10.2.dist-info/METADATA,sha256=KiCiRdg53J2HiyUZMdm_uIZHb-E8u0QQj9uRSc9oRIM,2655
+fbgemm_gpu_genai_nightly-2025.10.2.dist-info/WHEEL,sha256=V2Q6mQKbouIadCxoRjt9FQ9oKfi45-uZUcoc77zzs0M,108
+fbgemm_gpu_genai_nightly-2025.10.2.dist-info/top_level.txt,sha256=_2s1Aa08r_eDn0JP4FjOhzK09Q8bVlEI7q8pMep51UY,25
+fbgemm_gpu_genai_nightly-2025.10.2.dist-info/RECORD,,

{fbgemm_gpu_genai_nightly-2025.9.29.dist-info → fbgemm_gpu_genai_nightly-2025.10.2.dist-info}/WHEEL RENAMED Viewed

File without changes

{fbgemm_gpu_genai_nightly-2025.9.29.dist-info → fbgemm_gpu_genai_nightly-2025.10.2.dist-info}/top_level.txt RENAMED Viewed

File without changes