PyPI - vllm-npu - Versions diffs - 0.4.2__tar.gz → 0.4.2.post2__tar.gz - Mend

{vllm_npu-0.4.2/vllm_npu.egg-info → vllm_npu-0.4.2.post2}/PKG-INFO +4 -4

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/setup.py +2 -2

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2/vllm_npu.egg-info}/PKG-INFO +4 -4

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm_npu.egg-info/requires.txt +2 -2

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/CMakeLists.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/LICENSE +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/MANIFEST.in +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/README.md +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/cmake/cpu_extension.cmake +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/cmake/hipify.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/cmake/utils.cmake +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/activation_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/attention_dtypes.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/attention_generic.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/attention_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/attention_utils.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/dtype_bfloat16.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/dtype_float16.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/dtype_float32.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/attention/dtype_fp8.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cache.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cache_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/activation.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/attention.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/cache.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/cpu_types.hpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/layernorm.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/pos_encoding.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cpu/pybind.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cuda_compat.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cuda_utils.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/cuda_utils_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/custom_all_reduce.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/custom_all_reduce.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/custom_all_reduce_test.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/dispatch_utils.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/layernorm_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/moe/moe_ops.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/moe/moe_ops.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/moe/topk_softmax_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/moe_align_block_size_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/ops.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/pos_encoding_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/LICENSE +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_bf16_bf16_bf16.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_bf16_fp32_bf16.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_config.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_fp16_fp16_fp16.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_fp16_fp32_fp16.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_fp32_bf16_bf16.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_fp32_fp16_fp16.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/bgmv_impl.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/generator.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/bgmv/vec_dtypes.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/punica/punica_ops.cc +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/pybind.cpp +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/aqlm/gemm_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/awq/dequantize.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/awq/gemm_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/fp8/amd_detail/hip_float8.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/fp8/amd_detail/hip_float8_impl.h +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/fp8/amd_detail/quant_utils.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/fp8/fp8_cuda_kernels.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/fp8_e5m2_kvcache/quant_utils.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/compat.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/matrix_view.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/q_gemm.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/qdq_2.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/qdq_3.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/qdq_4.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/qdq_8.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq/qdq_util.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq_marlin/gptq_marlin.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq_marlin/gptq_marlin.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/gptq_marlin/gptq_marlin_repack.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/marlin/LICENSE +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/marlin/marlin_cuda_kernel.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/quantization/squeezellm/quant_cuda_kernel.cu +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/csrc/reduction_utils.cuh +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/pyproject.toml +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/requirements-common.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/requirements-cpu.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/requirements-cuda.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/requirements-neuron.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/requirements-rocm.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/setup.cfg +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_cache_block_hashing.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_config.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_logger.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_logits_processor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_regression.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_sampling_params.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/tests/test_sequence.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/_custom_ops.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/abstract.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/flash_attn.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/flashinfer.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/rocm_flash_attn.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/torch_sdpa.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/backends/xformers.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/layer.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/ops/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/ops/paged_attn.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/ops/prefix_prefill.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/ops/triton_flash_attention.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/attention/selector.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/block.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/config.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/block_table.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/common.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/cpu_gpu_block_allocator.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/interfaces.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/naive_block.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block/prefix_caching_block.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block_manager_v1.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/block_manager_v2.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/evictor_v1.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/evictor_v2.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/interfaces.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/policy.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/core/scheduler.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/communication_op.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/device_communicators/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/device_communicators/custom_all_reduce.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/device_communicators/pynccl.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/device_communicators/pynccl_utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/parallel_state.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/distributed/utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/arg_utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/async_llm_engine.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/llm_engine.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/metrics.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/output_processor/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/output_processor/interfaces.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/output_processor/multi_step.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/output_processor/single_step.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/output_processor/stop_checker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/engine/output_processor/util.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/api_server.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/llm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/api_server.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/cli_args.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/protocol.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/serving_chat.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/serving_completion.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/entrypoints/openai/serving_engine.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/envs.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/cpu_executor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/distributed_gpu_executor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/executor_base.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/gpu_executor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/multiproc_worker_utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/neuron_executor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/ray_gpu_executor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/executor/ray_utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/logger.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/logging/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/logging/formatter.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/fully_sharded_layers.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/layers.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/lora.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/models.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/punica.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/request.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/lora/worker_manager.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/guided_decoding/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/guided_decoding/lm_format_enforcer_decoding.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/guided_decoding/outlines_decoding.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/guided_decoding/outlines_logits_processors.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/activation.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-40GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=16,N=1344,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=16,N=2688,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-40GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=1792,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=2048,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-40GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=3584,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=4096,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_A100-SXM4-80GB.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3,dtype=float8.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/configs/E=8,N=7168,device_name=NVIDIA_H100_80GB_HBM3.json +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/fused_moe/fused_moe.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/layernorm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/linear.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/logits_processor.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/ops/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/ops/rand.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/ops/sample.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/aqlm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/awq.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/base_config.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/fp8.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/gptq.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/gptq_marlin.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/marlin.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/schema.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/quantization/squeezellm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/rejection_sampler.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/rotary_embedding.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/sampler.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/layers/vocab_parallel_embedding.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/model_loader/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/model_loader/loader.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/model_loader/neuron.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/model_loader/tensorizer.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/model_loader/utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/model_loader/weight_utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/baichuan.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/bloom.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/chatglm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/commandr.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/dbrx.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/decilm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/deepseek.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/falcon.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/gemma.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/gpt2.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/gpt_bigcode.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/gpt_j.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/gpt_neox.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/internlm2.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/jais.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/llama.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/llava.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/minicpm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/mixtral.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/mixtral_quant.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/mpt.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/olmo.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/opt.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/orion.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/phi.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/qwen.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/qwen2.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/qwen2_moe.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/stablelm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/starcoder2.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/models/xverse.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/sampling_metadata.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/model_executor/utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/outputs.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/py.typed +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/sampling_params.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/sequence.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/batch_expansion.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/interfaces.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/metrics.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/multi_step_worker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/ngram_worker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/spec_decode_worker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/top1_proposer.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/spec_decode/util.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/test_utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/config.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/configs/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/configs/chatglm.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/configs/dbrx.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/configs/falcon.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/configs/jais.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/configs/mpt.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/detokenizer.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizer.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizer_group/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizer_group/base_tokenizer_group.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizer_group/ray_tokenizer_group.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizer_group/tokenizer_group.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizers/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/transformers_utils/tokenizers/baichuan.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/usage/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/usage/usage_lib.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/utils.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/__init__.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/cache_engine.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/cpu_model_runner.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/cpu_worker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/model_runner.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/neuron_model_runner.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/neuron_worker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/worker.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm/worker/worker_base.py +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm_npu.egg-info/SOURCES.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm_npu.egg-info/dependency_links.txt +0 -0

{vllm_npu-0.4.2 → vllm_npu-0.4.2.post2}/vllm_npu.egg-info/top_level.txt +0 -0

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
-Name: vllm_npu
-Version: 0.4.2
+Name: vllm-npu
+Version: 0.4.2.post2
 Summary: A high-throughput and memory-efficient inference and serving engine for LLMs
 Home-page: https://github.com/vllm-project/vllm
 Author: vLLM Team
@@ -20,7 +20,7 @@ Requires-Dist: cmake>=3.21
 Requires-Dist: ninja
 Requires-Dist: psutil
 Requires-Dist: sentencepiece
-Requires-Dist: numpy
+Requires-Dist: numpy==1.26.4
 Requires-Dist: requests
 Requires-Dist: py-cpuinfo
 Requires-Dist: transformers>=4.40.0
@@ -38,7 +38,7 @@ Requires-Dist: filelock>=3.10.4
 Requires-Dist: ray==2.9.3
 Requires-Dist: pynvml==11.5.0
 Requires-Dist: outlines==0.0.34
-Requires-Dist: npu-vllm==0.4.2
+Requires-Dist: npu-vllm==0.4.2.post3
 Provides-Extra: tensorizer
 Requires-Dist: tensorizer==2.9.0; extra == "tensorizer"
 Dynamic: author

@@ -262,8 +262,8 @@ if envs.VLLM_USE_PRECOMPILED:
     package_data["vllm"].append("*.so")
 setup(
-    name="vllm_npu",
-    version=get_vllm_version(),
+    name="vllm-npu",
+    version=get_vllm_version() + '.post2',
     author="vLLM Team",
     license="Apache 2.0",
     description=(

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
-Name: vllm_npu
-Version: 0.4.2
+Name: vllm-npu
+Version: 0.4.2.post2
 Summary: A high-throughput and memory-efficient inference and serving engine for LLMs
 Home-page: https://github.com/vllm-project/vllm
 Author: vLLM Team
@@ -20,7 +20,7 @@ Requires-Dist: cmake>=3.21
 Requires-Dist: ninja
 Requires-Dist: psutil
 Requires-Dist: sentencepiece
-Requires-Dist: numpy
+Requires-Dist: numpy==1.26.4
 Requires-Dist: requests
 Requires-Dist: py-cpuinfo
 Requires-Dist: transformers>=4.40.0
@@ -38,7 +38,7 @@ Requires-Dist: filelock>=3.10.4
 Requires-Dist: ray==2.9.3
 Requires-Dist: pynvml==11.5.0
 Requires-Dist: outlines==0.0.34
-Requires-Dist: npu-vllm==0.4.2
+Requires-Dist: npu-vllm==0.4.2.post3
 Provides-Extra: tensorizer
 Requires-Dist: tensorizer==2.9.0; extra == "tensorizer"
 Dynamic: author

@@ -2,7 +2,7 @@ cmake>=3.21
 ninja
 psutil
 sentencepiece
-numpy
+numpy==1.26.4
 requests
 py-cpuinfo
 transformers>=4.40.0
@@ -20,7 +20,7 @@ filelock>=3.10.4
 ray==2.9.3
 pynvml==11.5.0
 outlines==0.0.34
-npu-vllm==0.4.2
+npu-vllm==0.4.2.post3
 [tensorizer]
 tensorizer==2.9.0

vllm-npu 0.4.2__tar.gz → 0.4.2.post2__tar.gz

vllm-npu 0.4.2tar.gz → 0.4.2.post2tar.gz