PyPI - tpu-inference - Versions diffs - 0.11.1.dev202511220812__py3-none-any.whl → 0.13.2.dev20251230__py3-none-any.whl - Mend

tpu-inference 0.11.1.dev202511220812py3-none-any.whl → 0.13.2.dev20251230py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of tpu-inference might be problematic. Click here for more details.

Files changed (257) hide show

tests/__init__.py +13 -0
tests/core/__init__.py +13 -0
tests/core/test_disagg_utils.py +14 -0
tests/core/test_dp_scheduler.py +650 -768
tests/core/test_init.py +14 -0
tests/distributed/__init__.py +13 -0
tests/distributed/test_distributed_utils.py +120 -0
tests/distributed/test_tpu_connector.py +478 -0
tests/e2e/__init__.py +13 -0
tests/e2e/test_async_scheduler.py +211 -0
tests/e2e/test_data_parallel.py +289 -0
tests/e2e/test_hybrid_kvcache.py +219 -0
tests/e2e/test_local_disagg.py +257 -0
tests/e2e/test_model_loader.py +268 -0
tests/e2e/test_multi_modal_inference.py +111 -0
tests/e2e/test_pipeline_parallel.py +265 -0
tests/e2e/test_runai_model_streamer_loader.py +104 -0
tests/e2e/test_sampling_params.py +269 -0
tests/e2e/test_speculative_decoding.py +311 -0
tests/e2e/test_structured_decoding.py +46 -0
tests/executors/__init__.py +13 -0
tests/executors/test_ray_distributed_executor.py +199 -0
tests/experimental/__init__.py +13 -0
tests/experimental/test_llama3_jax_stashed.py +208 -0
tests/kernels/__init__.py +13 -0
tests/kernels/collectives/__init__.py +13 -0
tests/kernels/collectives/all_gather_matmul_kernel_test.py +69 -0
tests/kernels/fused_moe_v1_test.py +317 -34
tests/kernels/gmm_test.py +205 -0
tests/kernels/mla_v1_test.py +143 -41
tests/kernels/quantized_matmul_kernel_test.py +2 -34
tests/kernels/ragged_kv_cache_update_v2_test.py +14 -0
tests/kernels/ragged_paged_attention_kernel_v2_test.py +14 -0
tests/kernels/ragged_paged_attention_kernel_v3_hd64_test.py +17 -1
tests/kernels/ragged_paged_attention_kernel_v3_test.py +17 -1
tests/layers/__init__.py +13 -0
tests/layers/common/__init__.py +13 -0
tests/layers/common/test_attention_interface.py +156 -0
tests/layers/common/test_quantization.py +149 -0
tests/layers/jax/__init__.py +13 -0
tests/layers/jax/attention/__init__.py +13 -0
tests/layers/jax/attention/test_common_attention.py +103 -0
tests/layers/jax/attention/test_deepseek_v3_attention.py +233 -0
tests/layers/jax/attention/test_llama4_attention.py +135 -0
tests/layers/jax/moe/__init__.py +13 -0
tests/layers/jax/moe/test_deepseek_moe.py +235 -0
tests/layers/jax/sample/__init__.py +13 -0
tests/layers/jax/sample/test_rejection_sampler.py +1624 -0
tests/layers/jax/sample/test_sampling.py +115 -0
tests/layers/jax/sample/test_sampling_metadata.py +254 -0
tests/layers/jax/test_layers.py +155 -0
tests/{test_quantization.py → layers/jax/test_qwix.py} +183 -50
tests/layers/jax/test_rope.py +93 -0
tests/layers/jax/test_sharding.py +159 -0
tests/layers/jax/test_transformer_block.py +152 -0
tests/layers/vllm/__init__.py +13 -0
tests/layers/vllm/test_attention.py +363 -0
tests/layers/vllm/test_awq.py +406 -0
tests/layers/vllm/test_compressed_tensors_moe.py +199 -0
tests/layers/vllm/test_compressed_tensors_w8a8_fp8.py +441 -0
tests/layers/vllm/test_compressed_tensors_w8a8_int8.py +443 -0
tests/layers/vllm/test_fp8.py +17 -0
tests/layers/vllm/test_mxfp4.py +320 -0
tests/layers/vllm/test_unquantized.py +662 -0
tests/layers/vllm/utils.py +87 -0
tests/lora/__init__.py +13 -0
tests/lora/conftest.py +14 -0
tests/lora/test_bgmv.py +14 -0
tests/lora/test_layers.py +26 -6
tests/lora/test_lora.py +15 -1
tests/lora/test_lora_perf.py +67 -0
tests/models/__init__.py +13 -0
tests/models/common/__init__.py +13 -0
tests/models/common/test_model_loader.py +455 -0
tests/models/jax/__init__.py +13 -0
tests/models/jax/test_deepseek_v3.py +401 -0
tests/models/jax/test_llama3.py +184 -0
tests/models/jax/test_llama4.py +298 -0
tests/models/jax/test_llama_eagle3.py +197 -0
tests/models/jax/test_llama_guard_4.py +242 -0
tests/models/jax/test_qwen2.py +172 -0
tests/models/jax/test_qwen2_5_vl.py +605 -0
tests/models/jax/test_qwen3.py +169 -0
tests/models/jax/test_weight_loading.py +180 -0
tests/models/jax/utils/__init__.py +13 -0
tests/models/jax/utils/test_multi_modal_utils.py +212 -0
tests/platforms/__init__.py +13 -0
tests/platforms/test_tpu_platform.py +54 -0
tests/runner/__init__.py +13 -0
tests/runner/test_block_table.py +395 -0
tests/runner/test_input_batch.py +226 -0
tests/runner/test_kv_cache.py +220 -0
tests/runner/test_kv_cache_manager.py +498 -0
tests/runner/test_multimodal_manager.py +429 -0
tests/runner/test_persistent_batch_manager.py +84 -0
tests/runner/test_speculative_decoding_manager.py +368 -0
tests/runner/test_structured_decoding_manager.py +220 -0
tests/runner/test_tpu_runner.py +261 -0
tests/runner/test_tpu_runner_dp.py +1099 -0
tests/runner/test_tpu_runner_mesh.py +200 -0
tests/runner/test_utils.py +411 -0
tests/spec_decode/__init__.py +13 -0
tests/spec_decode/test_eagle3.py +311 -0
tests/test_base.py +14 -0
tests/test_envs.py +110 -12
tests/test_tpu_info.py +14 -0
tests/test_utils.py +2 -45
tests/worker/__init__.py +13 -0
tests/worker/tpu_worker_test.py +414 -0
tpu_inference/__init__.py +14 -0
tpu_inference/core/__init__.py +13 -0
tpu_inference/core/sched/__init__.py +13 -0
tpu_inference/core/sched/dp_scheduler.py +372 -56
tpu_inference/distributed/__init__.py +13 -0
tpu_inference/distributed/jax_parallel_state.py +14 -0
tpu_inference/distributed/tpu_connector.py +15 -10
tpu_inference/distributed/utils.py +56 -4
tpu_inference/envs.py +92 -8
tpu_inference/executors/__init__.py +13 -0
tpu_inference/executors/ray_distributed_executor.py +25 -4
tpu_inference/experimental/__init__.py +13 -0
tpu_inference/experimental/llama3_jax_stashed.py +14 -0
tpu_inference/kernels/__init__.py +13 -0
tpu_inference/kernels/collectives/__init__.py +13 -0
tpu_inference/kernels/collectives/all_gather_matmul.py +12 -6
tpu_inference/kernels/collectives/all_gather_matmul_tuned_block_sizes.py +7 -2
tpu_inference/kernels/flash_attention/__init__.py +13 -0
tpu_inference/kernels/fused_moe/__init__.py +13 -0
tpu_inference/kernels/fused_moe/v1/__init__.py +13 -0
tpu_inference/kernels/fused_moe/v1/kernel.py +807 -230
tpu_inference/kernels/megablox/__init__.py +13 -0
tpu_inference/kernels/megablox/common.py +54 -0
tpu_inference/kernels/megablox/gmm.py +646 -0
tpu_inference/kernels/mla/__init__.py +13 -0
tpu_inference/kernels/mla/v1/__init__.py +13 -0
tpu_inference/kernels/mla/v1/kernel.py +117 -145
tpu_inference/kernels/quantized_matmul/__init__.py +13 -0
tpu_inference/kernels/quantized_matmul/kernel.py +69 -8
tpu_inference/kernels/ragged_paged_attention/__init__.py +13 -0
tpu_inference/kernels/ragged_paged_attention/v2/__init__.py +13 -0
tpu_inference/kernels/ragged_paged_attention/v2/kernel.py +2 -1
tpu_inference/kernels/ragged_paged_attention/v2/ragged_kv_cache_update.py +2 -1
tpu_inference/kernels/ragged_paged_attention/v3/__init__.py +13 -0
tpu_inference/kernels/ragged_paged_attention/v3/kernel.py +194 -101
tpu_inference/kernels/ragged_paged_attention/v3/kernel_hd64.py +218 -137
tpu_inference/kernels/ragged_paged_attention/v3/tuned_block_sizes.py +3817 -3504
tpu_inference/kernels/ragged_paged_attention/v3/tuned_block_sizes_hd64.py +376 -195
tpu_inference/kernels/ragged_paged_attention/v3/util.py +15 -1
tpu_inference/layers/__init__.py +13 -0
tpu_inference/layers/common/__init__.py +13 -0
tpu_inference/layers/common/attention_interface.py +25 -12
tpu_inference/layers/common/attention_metadata.py +14 -0
tpu_inference/layers/common/fused_moe_gmm.py +506 -0
tpu_inference/layers/common/quant_methods.py +15 -0
tpu_inference/layers/common/quantization.py +282 -0
tpu_inference/layers/common/sharding.py +32 -9
tpu_inference/layers/common/utils.py +94 -0
tpu_inference/layers/jax/__init__.py +13 -0
tpu_inference/layers/jax/attention/__init__.py +13 -0
tpu_inference/layers/jax/attention/attention.py +19 -6
tpu_inference/layers/jax/attention/deepseek_v3_attention.py +270 -77
tpu_inference/layers/jax/attention/gpt_oss_attention.py +24 -11
tpu_inference/layers/jax/attention/llama4_attention.py +17 -4
tpu_inference/layers/jax/base.py +14 -0
tpu_inference/layers/jax/constants.py +13 -0
tpu_inference/layers/jax/layers.py +14 -0
tpu_inference/layers/jax/misc.py +14 -0
tpu_inference/layers/jax/moe/__init__.py +13 -0
tpu_inference/layers/jax/moe/deepseek_v3_moe.py +20 -13
tpu_inference/layers/jax/moe/gpt_oss_moe.py +14 -0
tpu_inference/layers/jax/moe/moe.py +43 -3
tpu_inference/layers/jax/pp_utils.py +53 -0
tpu_inference/layers/jax/rope.py +14 -0
tpu_inference/layers/jax/rope_interface.py +14 -0
tpu_inference/layers/jax/sample/__init__.py +13 -0
tpu_inference/layers/jax/sample/rejection_sampler.py +13 -0
tpu_inference/layers/jax/sample/sampling.py +15 -1
tpu_inference/layers/jax/sample/sampling_metadata.py +14 -0
tpu_inference/layers/jax/transformer_block.py +14 -0
tpu_inference/layers/vllm/__init__.py +13 -0
tpu_inference/layers/vllm/attention.py +4 -4
tpu_inference/layers/vllm/fused_moe.py +101 -494
tpu_inference/layers/vllm/linear.py +64 -0
tpu_inference/layers/vllm/process_weights/__init__.py +13 -0
tpu_inference/layers/vllm/{sharding.py → process_weights/cleanup_sharding.py} +24 -15
tpu_inference/layers/vllm/process_weights/fused_moe_weights.py +369 -0
tpu_inference/layers/vllm/process_weights/linear_weights.py +174 -0
tpu_inference/layers/vllm/quantization/__init__.py +19 -3
tpu_inference/layers/vllm/quantization/awq.py +96 -82
tpu_inference/layers/vllm/quantization/compressed_tensors/__init__.py +13 -0
tpu_inference/layers/vllm/quantization/compressed_tensors/compressed_tensors.py +23 -8
tpu_inference/layers/vllm/quantization/compressed_tensors/compressed_tensors_moe.py +172 -176
tpu_inference/layers/vllm/quantization/compressed_tensors/schemes/__init__.py +13 -0
tpu_inference/layers/vllm/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py +111 -91
tpu_inference/layers/vllm/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py +79 -43
tpu_inference/layers/vllm/quantization/{common.py → configs.py} +42 -25
tpu_inference/layers/vllm/quantization/fp8.py +119 -0
tpu_inference/layers/vllm/quantization/mxfp4.py +137 -178
tpu_inference/layers/vllm/quantization/unquantized.py +157 -233
tpu_inference/lora/__init__.py +13 -0
tpu_inference/lora/torch_lora_ops.py +8 -13
tpu_inference/models/__init__.py +13 -0
tpu_inference/models/common/__init__.py +13 -0
tpu_inference/models/common/model_loader.py +112 -35
tpu_inference/models/jax/__init__.py +13 -0
tpu_inference/models/jax/deepseek_v3.py +267 -157
tpu_inference/models/jax/gpt_oss.py +26 -10
tpu_inference/models/jax/jax_intermediate_tensor.py +14 -0
tpu_inference/models/jax/llama3.py +99 -36
tpu_inference/models/jax/llama4.py +14 -0
tpu_inference/models/jax/llama_eagle3.py +18 -5
tpu_inference/models/jax/llama_guard_4.py +15 -1
tpu_inference/models/jax/qwen2.py +17 -2
tpu_inference/models/jax/qwen2_5_vl.py +179 -51
tpu_inference/models/jax/qwen3.py +17 -2
tpu_inference/models/jax/utils/__init__.py +13 -0
tpu_inference/models/jax/utils/file_utils.py +14 -0
tpu_inference/models/jax/utils/multi_modal_utils.py +18 -4
tpu_inference/models/jax/utils/qwix/__init__.py +13 -0
tpu_inference/models/jax/utils/{quantization/quantization_utils.py → qwix/qwix_utils.py} +92 -32
tpu_inference/models/jax/utils/weight_utils.py +234 -155
tpu_inference/models/vllm/__init__.py +13 -0
tpu_inference/models/vllm/vllm_model_wrapper.py +32 -8
tpu_inference/models/vllm/vllm_model_wrapper_context.py +14 -0
tpu_inference/platforms/__init__.py +14 -0
tpu_inference/platforms/tpu_platform.py +51 -72
tpu_inference/runner/__init__.py +13 -0
tpu_inference/runner/compilation_manager.py +180 -80
tpu_inference/runner/kv_cache.py +54 -20
tpu_inference/runner/kv_cache_manager.py +55 -33
tpu_inference/runner/lora_utils.py +16 -1
tpu_inference/runner/multimodal_manager.py +16 -2
tpu_inference/runner/persistent_batch_manager.py +54 -2
tpu_inference/runner/speculative_decoding_manager.py +14 -0
tpu_inference/runner/structured_decoding_manager.py +16 -3
tpu_inference/runner/tpu_runner.py +124 -61
tpu_inference/runner/utils.py +2 -2
tpu_inference/spec_decode/__init__.py +13 -0
tpu_inference/spec_decode/jax/__init__.py +13 -0
tpu_inference/spec_decode/jax/eagle3.py +84 -22
tpu_inference/tpu_info.py +14 -0
tpu_inference/utils.py +72 -44
tpu_inference/worker/__init__.py +13 -0
tpu_inference/worker/tpu_worker.py +66 -52
{tpu_inference-0.11.1.dev202511220812.dist-info → tpu_inference-0.13.2.dev20251230.dist-info}/METADATA +8 -9
tpu_inference-0.13.2.dev20251230.dist-info/RECORD +266 -0
tpu_inference/layers/vllm/linear_common.py +0 -186
tpu_inference/models/jax/utils/quantization/__init__.py +0 -0
tpu_inference/models/jax/utils/quantization/configs/fp8_all_modules_w_only.yaml +0 -5
tpu_inference/models/jax/utils/quantization/configs/fp8_default.yaml +0 -6
tpu_inference/models/jax/utils/quantization/configs/int8_all_modules_w_only.yaml +0 -5
tpu_inference/models/jax/utils/quantization/configs/int8_default.yaml +0 -6
tpu_inference/models/jax/utils/quantization/mxfp4_utils.py +0 -105
tpu_inference-0.11.1.dev202511220812.dist-info/RECORD +0 -174
{tpu_inference-0.11.1.dev202511220812.dist-info → tpu_inference-0.13.2.dev20251230.dist-info}/WHEEL +0 -0
{tpu_inference-0.11.1.dev202511220812.dist-info → tpu_inference-0.13.2.dev20251230.dist-info}/licenses/LICENSE +0 -0
{tpu_inference-0.11.1.dev202511220812.dist-info → tpu_inference-0.13.2.dev20251230.dist-info}/top_level.txt +0 -0

tests/core/test_init.py CHANGED Viewed

@@ -1,3 +1,17 @@
+# Copyright 2025 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
 import importlib
 import unittest
 from unittest.mock import patch

tests/distributed/__init__.py ADDED Viewed

@@ -0,0 +1,13 @@
+# Copyright 2025 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.

tests/distributed/test_distributed_utils.py ADDED Viewed

@@ -0,0 +1,120 @@
+# Copyright 2025 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections import namedtuple
+import pytest
+from tpu_inference.distributed.utils import get_device_topology_order_id
+# Mock TpuDevice object to simulate the real one.
+TpuDevice = namedtuple('TpuDevice',
+                       ['id', 'process_index', 'coords', 'core_on_chip'])
+def test_get_device_topology_order_id():
+    """
+    Tests the get_device_topology_order_id function with a mock topology.
+    """
+    # V7x
+    global_devices = [
+        TpuDevice(id=0, process_index=0, coords=(0, 0, 0), core_on_chip=0),
+        TpuDevice(id=1, process_index=0, coords=(0, 0, 0), core_on_chip=1),
+        TpuDevice(id=2, process_index=0, coords=(1, 0, 0), core_on_chip=0),
+        TpuDevice(id=3, process_index=0, coords=(1, 0, 0), core_on_chip=1),
+        TpuDevice(id=4, process_index=0, coords=(0, 1, 0), core_on_chip=0),
+        TpuDevice(id=5, process_index=0, coords=(0, 1, 0), core_on_chip=1),
+        TpuDevice(id=6, process_index=0, coords=(1, 1, 0), core_on_chip=0),
+        TpuDevice(id=7, process_index=0, coords=(1, 1, 0), core_on_chip=1),
+        TpuDevice(id=8, process_index=1, coords=(0, 0, 1), core_on_chip=0),
+        TpuDevice(id=9, process_index=1, coords=(0, 0, 1), core_on_chip=1),
+        TpuDevice(id=10, process_index=1, coords=(1, 0, 1), core_on_chip=0),
+        TpuDevice(id=11, process_index=1, coords=(1, 0, 1), core_on_chip=1),
+        TpuDevice(id=12, process_index=1, coords=(0, 1, 1), core_on_chip=0),
+        TpuDevice(id=13, process_index=1, coords=(0, 1, 1), core_on_chip=1),
+        TpuDevice(id=14, process_index=1, coords=(1, 1, 1), core_on_chip=0),
+        TpuDevice(id=15, process_index=1, coords=(1, 1, 1), core_on_chip=1),
+    ]
+    local_devices_1 = global_devices[:8]
+    local_devices_2 = global_devices[8:]
+    assert get_device_topology_order_id(local_devices_1, global_devices) == 0
+    assert get_device_topology_order_id(local_devices_2, global_devices) == 1
+    # Test with unsorted in global_devices
+    shuffled_z_global_devices = [
+        TpuDevice(id=8, process_index=1, coords=(0, 0, 1), core_on_chip=0),
+        TpuDevice(id=0, process_index=0, coords=(0, 0, 0), core_on_chip=0),
+    ]
+    local_devices_z1 = [
+        TpuDevice(id=8, process_index=1, coords=(0, 0, 1), core_on_chip=0)
+    ]
+    local_devices_z0 = [
+        TpuDevice(id=0, process_index=0, coords=(0, 0, 0), core_on_chip=0)
+    ]
+    assert get_device_topology_order_id(local_devices_z0,
+                                        shuffled_z_global_devices) == 0
+    assert get_device_topology_order_id(local_devices_z1,
+                                        shuffled_z_global_devices) == 1
+    #v6e
+    global_devices = [
+        TpuDevice(id=0, process_index=0, coords=(0, 0, 0), core_on_chip=0),
+        TpuDevice(id=1, process_index=1, coords=(1, 0, 0), core_on_chip=0),
+        TpuDevice(id=2, process_index=2, coords=(0, 1, 0), core_on_chip=0),
+        TpuDevice(id=3, process_index=3, coords=(1, 1, 0), core_on_chip=0)
+    ]
+    local_devices = [
+        TpuDevice(id=0, process_index=0, coords=(0, 0, 0), core_on_chip=0)
+    ]
+    assert get_device_topology_order_id(local_devices, global_devices) == 0
+    local_devices = [
+        TpuDevice(id=1, process_index=1, coords=(1, 0, 0), core_on_chip=0)
+    ]
+    assert get_device_topology_order_id(local_devices, global_devices) == 2
+    local_devices = [
+        TpuDevice(id=2, process_index=2, coords=(0, 1, 0), core_on_chip=0)
+    ]
+    assert get_device_topology_order_id(local_devices, global_devices) == 1
+    local_devices = [
+        TpuDevice(id=3, process_index=3, coords=(1, 1, 0), core_on_chip=0)
+    ]
+    assert get_device_topology_order_id(local_devices, global_devices) == 3
+def test_get_device_topology_order_id_empty_local():
+    """
+    Tests that a ValueError is raised for empty local_devices.
+    """
+    with pytest.raises(ValueError, match="local_devices cannot be empty"):
+        get_device_topology_order_id([], [])
+def test_get_device_topology_order_id_not_in_global():
+    """
+    Tests that a ValueError is raised if local z-coordinate is not in global list.
+    """
+    global_devices = [
+        TpuDevice(id=0, process_index=0, coords=(0, 0, 0), core_on_chip=0),
+    ]
+    local_devices = [
+        TpuDevice(id=1, process_index=1, coords=(0, 0, 1), core_on_chip=0),
+    ]
+    with pytest.raises(ValueError, match="do not exist in the global device:"):
+        get_device_topology_order_id(local_devices, global_devices)

tests/distributed/test_tpu_connector.py ADDED Viewed

@@ -0,0 +1,478 @@
+# Copyright 2025 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import unittest
+from unittest.mock import MagicMock, patch
+from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorRole
+from vllm.v1.request import RequestStatus
+from tpu_inference.distributed import tpu_connector
+class MockVllmConfig:
+    def __init__(self):
+        self.kv_transfer_config = MagicMock()
+        self.kv_transfer_config.is_kv_producer = True
+        self.cache_config = MagicMock()
+        self.cache_config.block_size = 16
+        self.parallel_config = MagicMock()
+@patch("tpu_inference.distributed.tpu_connector.TPUConnectorWorker")
+@patch("tpu_inference.distributed.tpu_connector.TPUConnectorScheduler")
+class TestTPUConnector(unittest.TestCase):
+    def setUp(self):
+        self.vllm_config = MockVllmConfig()
+    def test_init_scheduler_role(self, mock_scheduler_cls, mock_worker_cls):
+        """
+        Tests that TPUConnector initializes the scheduler connector for the
+        SCHEDULER role.
+        """
+        connector = tpu_connector.TPUConnector(self.vllm_config,
+                                               KVConnectorRole.SCHEDULER)
+        mock_scheduler_cls.assert_called_once_with(self.vllm_config)
+        mock_worker_cls.assert_not_called()
+        self.assertIsNotNone(connector.connector_scheduler)
+        self.assertIsNone(connector.connector_worker)
+    def test_init_worker_role(self, mock_scheduler_cls, mock_worker_cls):
+        """
+        Tests that TPUConnector initializes the worker connector for the WORKER
+        role.
+        """
+        connector = tpu_connector.TPUConnector(self.vllm_config,
+                                               KVConnectorRole.WORKER)
+        mock_worker_cls.assert_called_once_with(self.vllm_config)
+        mock_scheduler_cls.assert_not_called()
+        self.assertIsNone(connector.connector_scheduler)
+        self.assertIsNotNone(connector.connector_worker)
+    def test_scheduler_methods_are_called(self, mock_scheduler_cls,
+                                          mock_worker_cls):
+        """Tests that scheduler-side methods are correctly delegated."""
+        mock_scheduler_instance = mock_scheduler_cls.return_value
+        connector = tpu_connector.TPUConnector(self.vllm_config,
+                                               KVConnectorRole.SCHEDULER)
+        mock_request = MagicMock()
+        mock_blocks = MagicMock()
+        mock_scheduler_output = MagicMock()
+        connector.get_num_new_matched_tokens(mock_request, 16)
+        mock_scheduler_instance.get_num_new_matched_tokens.assert_called_once_with(
+            mock_request, 16)
+        connector.update_state_after_alloc(mock_request, mock_blocks, 16)
+        mock_scheduler_instance.update_state_after_alloc.assert_called_once_with(
+            mock_request, mock_blocks, 16)
+        connector.build_connector_meta(mock_scheduler_output)
+        mock_scheduler_instance.build_connector_meta.assert_called_once_with()
+        connector.request_finished(mock_request, [1, 2])
+        mock_scheduler_instance.request_finished.assert_called_once_with(
+            mock_request, [1, 2])
+    def test_worker_methods_are_called(self, mock_scheduler_cls,
+                                       mock_worker_cls):
+        """Tests that worker-side methods are correctly delegated."""
+        mock_worker_instance = mock_worker_cls.return_value
+        connector = tpu_connector.TPUConnector(self.vllm_config,
+                                               KVConnectorRole.WORKER)
+        connector._connector_metadata = tpu_connector.TPUConnectorMetadata(
+        )  # need to set this for start_load_kv
+        mock_runner = MagicMock()
+        connector.register_runner(mock_runner)
+        mock_worker_instance.register_runner.assert_called_once_with(
+            mock_runner)
+        connector.start_load_kv(None)
+        mock_worker_instance.process_send_load.assert_called_once_with(
+            connector._connector_metadata)
+        connector.get_finished(set())
+        mock_worker_instance.get_finished.assert_called_once_with()
+class TestTPUConnectorScheduler(unittest.TestCase):
+    def setUp(self):
+        self.vllm_config = MockVllmConfig()
+        self.vllm_config.cache_config.block_size = 16
+        self.vllm_config.kv_transfer_config.is_kv_producer = False
+        with patch("tpu_inference.distributed.tpu_connector.get_kv_ips",
+                   return_value="1.1.1.1"), patch(
+                       "tpu_inference.distributed.tpu_connector.get_kv_ports",
+                       return_value=12345):
+            self.scheduler = tpu_connector.TPUConnectorScheduler(
+                self.vllm_config)
+    def test_get_num_new_matched_tokens_producer(self):
+        """Tests that producer returns 0 tokens to load."""
+        self.scheduler.is_producer = True
+        mock_request = MagicMock()
+        num_tokens, is_async = self.scheduler.get_num_new_matched_tokens(
+            mock_request, 16)
+        self.assertEqual(num_tokens, 0)
+        self.assertFalse(is_async)
+    def test_get_num_new_matched_tokens_consumer_needs_loading(self):
+        """Tests consumer calculates correct number of tokens to load."""
+        mock_request = MagicMock()
+        mock_request.prompt_token_ids = [0] * 35  # 2 blocks worth, plus some
+        num_computed_tokens = 16  # 1 block
+        # rounded_down(35) = 32. 32 - 16 = 16.
+        expected_tokens = 16
+        num_tokens, is_async = self.scheduler.get_num_new_matched_tokens(
+            mock_request, num_computed_tokens)
+        self.assertEqual(num_tokens, expected_tokens)
+        self.assertTrue(is_async)
+    def test_get_num_new_matched_tokens_consumer_no_loading(self):
+        """Tests consumer returns 0 if prompt is fully cached."""
+        mock_request = MagicMock()
+        mock_request.prompt_token_ids = [0] * 31  # less than 2 blocks
+        num_computed_tokens = 32  # 2 blocks computed
+        expected_tokens = 0
+        num_tokens, is_async = self.scheduler.get_num_new_matched_tokens(
+            mock_request, num_computed_tokens)
+        self.assertEqual(num_tokens, expected_tokens)
+        self.assertFalse(is_async)
+    def test_update_state_after_alloc_producer(self):
+        """Tests that update_state_after_alloc is a no-op for producers."""
+        self.scheduler.is_producer = True
+        self.scheduler.update_state_after_alloc(MagicMock(), MagicMock(), 16)
+        self.assertEqual(len(self.scheduler.reqs_to_load), 0)
+    def test_update_state_after_alloc_consumer_with_external_tokens(self):
+        """
+        Tests consumer state is updated when external tokens are needed.
+        """
+        mock_request = MagicMock()
+        mock_request.request_id = "req1"
+        mock_request.kv_transfer_params = {
+            "uuid": 123,
+            "remote_block_ids": [10, 11],
+            "remote_host": "2.2.2.2",
+            "remote_port": 54321
+        }
+        mock_blocks = MagicMock()
+        mock_blocks.get_block_ids.return_value = [[1, 2]]
+        num_external_tokens = 32
+        self.scheduler.update_state_after_alloc(mock_request, mock_blocks,
+                                                num_external_tokens)
+        self.assertIn("req1", self.scheduler.reqs_to_load)
+        load_meta = self.scheduler.reqs_to_load["req1"]
+        self.assertEqual(load_meta.uuid, 123)
+        self.assertEqual(load_meta.local_block_ids, [1, 2])
+        self.assertEqual(load_meta.remote_block_ids, [10, 11])
+    def test_update_state_after_alloc_consumer_no_external_tokens(self):
+        """
+        Tests consumer state is updated for notification when no external
+        tokens are needed.
+        """
+        mock_request = MagicMock()
+        mock_request.request_id = "req1"
+        mock_request.kv_transfer_params = {
+            "uuid": 123,
+            "remote_block_ids": [10, 11],
+            "remote_host": "2.2.2.2",
+            "remote_port": 54321
+        }
+        mock_blocks = MagicMock()
+        num_external_tokens = 0
+        self.scheduler.update_state_after_alloc(mock_request, mock_blocks,
+                                                num_external_tokens)
+        self.assertIn("req1", self.scheduler.reqs_to_load)
+        load_meta = self.scheduler.reqs_to_load["req1"]
+        self.assertEqual(load_meta.uuid, 123)
+        self.assertIsNone(load_meta.local_block_ids)
+        self.assertIsNone(load_meta.remote_block_ids)
+    def test_build_connector_meta(self):
+        """Tests that metadata is built and state is cleared."""
+        self.scheduler.is_producer = True
+        self.scheduler.reqs_to_send = {"req1": "meta1"}
+        meta = self.scheduler.build_connector_meta()
+        self.assertEqual(meta.reqs_to_send, {"req1": "meta1"})
+        self.assertEqual(len(self.scheduler.reqs_to_send),
+                         0)  # check it was cleared
+        self.scheduler.is_producer = False
+        self.scheduler.reqs_to_load = {"req2": "meta2"}
+        meta = self.scheduler.build_connector_meta()
+        self.assertEqual(meta.reqs_to_load, {"req2": "meta2"})
+        self.assertEqual(len(self.scheduler.reqs_to_load), 0)
+    def test_request_finished_consumer(self):
+        """Tests request_finished is a no-op for consumers."""
+        self.scheduler.is_producer = False
+        delay_free, params = self.scheduler.request_finished(MagicMock(), [])
+        self.assertFalse(delay_free)
+        self.assertIsNone(params)
+    @patch("tpu_inference.distributed.tpu_connector.get_uuid",
+           return_value=456)
+    def test_request_finished_producer_finished_by_length(self, mock_get_uuid):
+        """Tests producer logic when a request finishes normally."""
+        self.scheduler.is_producer = True
+        mock_request = MagicMock()
+        mock_request.request_id = "req-finished"
+        mock_request.status = RequestStatus.FINISHED_LENGTH_CAPPED
+        mock_request.num_computed_tokens = 32  # 2 blocks
+        block_ids = [1, 2]
+        delay_free, params = self.scheduler.request_finished(
+            mock_request, block_ids)
+        self.assertTrue(delay_free)
+        self.assertIn("req-finished", self.scheduler.reqs_to_send)
+        send_meta = self.scheduler.reqs_to_send["req-finished"]
+        self.assertEqual(send_meta.uuid, 456)
+        self.assertEqual(send_meta.local_block_ids, [1, 2])
+        self.assertIsNotNone(params)
+        self.assertEqual(params["uuid"], 456)
+        self.assertEqual(params["remote_block_ids"], [1, 2])
+        self.assertEqual(params["remote_host"], "1.1.1.1")
+        self.assertEqual(params["remote_port"], 12345)
+    def test_request_finished_producer_not_finished(self):
+        """Tests producer logic when a request is not yet finished."""
+        self.scheduler.is_producer = True
+        mock_request = MagicMock()
+        mock_request.status = RequestStatus.RUNNING  # Not finished
+        delay_free, params = self.scheduler.request_finished(
+            mock_request, [1, 2])
+        self.assertFalse(delay_free)
+        self.assertIsNone(params)
+    def test_request_finished_producer_prompt_too_short(self):
+        """Tests producer logic when prompt is too short to transfer."""
+        self.scheduler.is_producer = True
+        mock_request = MagicMock()
+        mock_request.request_id = "req-short"
+        mock_request.status = RequestStatus.FINISHED_LENGTH_CAPPED
+        mock_request.num_computed_tokens = 10  # less than a block
+        block_ids = [1]
+        delay_free, params = self.scheduler.request_finished(
+            mock_request, block_ids)
+        self.assertFalse(delay_free)
+        self.assertEqual(params, {})
+        self.assertNotIn("req-short", self.scheduler.reqs_to_send)
+class TestTPUConnectorWorker(unittest.TestCase):
+    def setUp(self):
+        self.vllm_config = MockVllmConfig()
+        patchers = {
+            "jax":
+            patch('tpu_inference.distributed.tpu_connector.jax'),
+            "get_host_ip":
+            patch('tpu_inference.distributed.tpu_connector.get_host_ip',
+                  return_value='127.0.0.1'),
+            "get_kv_transfer_port":
+            patch(
+                'tpu_inference.distributed.tpu_connector.get_kv_transfer_port',
+                return_value=10000),
+            "get_side_channel_port":
+            patch(
+                'tpu_inference.distributed.tpu_connector.get_side_channel_port',
+                return_value=20000),
+            "start_transfer_server":
+            patch(
+                'tpu_inference.distributed.tpu_connector.start_transfer_server'
+            ),
+            "zmq":
+            patch('tpu_inference.distributed.tpu_connector.zmq'),
+            "threading":
+            patch('tpu_inference.distributed.tpu_connector.threading'),
+            "ThreadPoolExecutor":
+            patch(
+                'tpu_inference.distributed.tpu_connector.ThreadPoolExecutor'),
+            "device_array":
+            patch('tpu_inference.distributed.tpu_connector.device_array'),
+            "select_from_kv_caches":
+            patch(
+                'tpu_inference.distributed.tpu_connector.select_from_kv_caches'
+            ),
+            "scatter_kv_slices":
+            patch('tpu_inference.distributed.tpu_connector.scatter_kv_slices'),
+            "time":
+            patch('tpu_inference.distributed.tpu_connector.time'),
+            "make_zmq_path":
+            patch('tpu_inference.distributed.tpu_connector.make_zmq_path'),
+            "make_zmq_socket":
+            patch('tpu_inference.distributed.tpu_connector.make_zmq_socket'),
+        }
+        self.all_mocks = {k: p.start() for k, p in patchers.items()}
+        self.all_mocks["jax"].local_devices.return_value = [MagicMock()]
+        for p in patchers.values():
+            self.addCleanup(p.stop)
+    def test_init_producer(self):
+        """Tests worker initialization for the producer role."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = True
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        self.all_mocks["zmq"].Context.assert_called_once()
+        self.all_mocks["threading"].Thread.assert_called_once()
+        self.all_mocks["threading"].Event.assert_called()
+        self.all_mocks["ThreadPoolExecutor"].assert_not_called()
+        self.assertTrue(worker.is_producer)
+    def test_init_consumer(self):
+        """Tests worker initialization for the consumer role."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = False
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        self.all_mocks["zmq"].Context.assert_called_once()
+        self.all_mocks["threading"].Thread.assert_not_called()
+        self.all_mocks["ThreadPoolExecutor"].assert_called_once_with(
+            max_workers=64)
+        self.assertFalse(worker.is_producer)
+    def test_register_runner(self):
+        """Tests that runner registration correctly sets worker attributes."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = False
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        mock_runner = MagicMock()
+        mock_kv_cache_layer = MagicMock()
+        mock_kv_cache_layer.shape = [10, 20, 30, 40]
+        mock_kv_cache_layer.dtype = 'float32'
+        mock_kv_cache_layer.sharding = 'sharding_spec'
+        mock_runner.kv_caches = [mock_kv_cache_layer] * 5
+        mock_runner.mesh = 'mesh'
+        worker.register_runner(mock_runner)
+        self.all_mocks["start_transfer_server"].assert_called_once()
+        self.assertEqual(worker.runner, mock_runner)
+        self.assertEqual(worker.mesh, 'mesh')
+        self.assertEqual(worker.num_layers, 5)
+        self.assertEqual(worker.shape, [10, 20, 30, 40])
+        self.assertEqual(worker.dtype, 'float32')
+        self.assertEqual(worker.sharding, 'sharding_spec')
+    def test_process_send_load_for_producer(self):
+        """Tests process_send_load for the producer role."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = True
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        worker._prepare_kv_and_wait = MagicMock()
+        meta = tpu_connector.TPUConnectorMetadata()
+        send_meta = tpu_connector.SendMeta(uuid=1,
+                                           local_block_ids=[1],
+                                           expiration_time=123)
+        meta.reqs_to_send = {"req1": send_meta}
+        worker.process_send_load(meta)
+        worker._prepare_kv_and_wait.assert_called_once_with("req1", send_meta)
+    def test_process_send_load_for_consumer_loading(self):
+        """Tests process_send_load for a consumer that needs to load KV."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = False
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        worker._maybe_build_kv_connection = MagicMock(return_value="conn")
+        meta = tpu_connector.TPUConnectorMetadata()
+        load_meta = tpu_connector.LoadMeta(uuid=1,
+                                           local_block_ids=[1],
+                                           remote_block_ids=[10],
+                                           remote_host="host",
+                                           remote_port=123)
+        meta.reqs_to_load = {"req1": load_meta}
+        worker.process_send_load(meta)
+        worker._maybe_build_kv_connection.assert_called_once_with(load_meta)
+        self.all_mocks[
+            "ThreadPoolExecutor"].return_value.submit.assert_called_once_with(
+                worker._pull_kv, "conn", load_meta)
+    def test_process_send_load_for_consumer_notifying(self):
+        """Tests process_send_load for a consumer that needs to notify."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = False
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        worker._maybe_build_notif_socket = MagicMock(return_value="socket")
+        worker._notify_pull_done = MagicMock()
+        meta = tpu_connector.TPUConnectorMetadata()
+        load_meta = tpu_connector.LoadMeta(uuid=1,
+                                           local_block_ids=None,
+                                           remote_block_ids=None,
+                                           remote_host="host",
+                                           remote_port=123)
+        meta.reqs_to_load = {"req1": load_meta}
+        worker.process_send_load(meta)
+        worker._maybe_build_notif_socket.assert_called_once_with(load_meta)
+        worker._notify_pull_done.assert_called_once_with("socket", "req1")
+    def test_get_finished_recving(self):
+        """Tests get_finished for a request that has finished pulling."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = False
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        worker.runner = MagicMock()
+        original_kv_caches = worker.runner.kv_caches
+        mock_future = MagicMock()
+        mock_future.done.return_value = True
+        mock_future.result.return_value = ('kv_data', 'indices')
+        worker.reqs_pulling = {'req1': mock_future}
+        done_sending, done_recving = worker.get_finished()
+        self.assertEqual(done_sending, set())
+        self.assertEqual(done_recving, {'req1'})
+        self.assertNotIn('req1', worker.reqs_pulling)
+        self.all_mocks['scatter_kv_slices'].assert_called_once_with(
+            original_kv_caches, 'kv_data', 'indices')
+    def test_get_finished_sending_expired(self):
+        """Tests get_finished for a request that has expired."""
+        self.vllm_config.kv_transfer_config.is_kv_producer = True
+        worker = tpu_connector.TPUConnectorWorker(self.vllm_config)
+        self.all_mocks['time'].perf_counter.return_value = 1000
+        worker.reqs_wait_pull = {'req1': ['kv_data', 900]}
+        done_sending, done_recving = worker.get_finished()
+        self.assertEqual(done_sending, {'req1'})
+        self.assertEqual(done_recving, set())
+        self.assertNotIn('req1', worker.reqs_wait_pull)
+if __name__ == "__main__":
+    unittest.main()

tests/e2e/__init__.py ADDED Viewed

@@ -0,0 +1,13 @@
+# Copyright 2025 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.

tpu-inference 0.11.1.dev202511220812__py3-none-any.whl → 0.13.2.dev20251230__py3-none-any.whl

Potentially problematic release.

tpu-inference 0.11.1.dev202511220812py3-none-any.whl → 0.13.2.dev20251230py3-none-any.whl