PyPI - isagellm-core - Versions diffs - 0.2.2.8__tar.gz → 0.3.0.2__tar.gz - Mend

isagellm-core 0.2.2.8tar.gz → 0.3.0.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (77) hide show

{isagellm_core-0.2.2.8/src/isagellm_core.egg-info → isagellm_core-0.3.0.2}/PKG-INFO RENAMED Viewed

@@ -1,7 +1,7 @@
 Metadata-Version: 2.4
 Name: isagellm-core
-Version: 0.2.2.8
-Summary: sageLLM core runtime (config/observability/registries), plugin-ready
+Version: 0.3.0.2
+Summary: sageLLM core runtime with PD separation (MVP)
 Author: IntelliStream Team
 License: Proprietary - IntelliStream
 Classifier: Development Status :: 3 - Alpha
@@ -13,8 +13,10 @@ Requires-Python: ==3.11.*
 Description-Content-Type: text/markdown
 Requires-Dist: pydantic>=2.0.0
 Requires-Dist: pyyaml>=6.0.0
-Requires-Dist: isagellm-protocol<0.2.0,>=0.1.0
-Requires-Dist: isagellm-backend<0.3.0,>=0.2.0.0
+Requires-Dist: isagellm-protocol<0.4.0,>=0.3.0.0
+Requires-Dist: isagellm-backend<0.4.0,>=0.3.0.0
+Requires-Dist: isagellm-comm<0.4.0,>=0.3.0.0
+Requires-Dist: isagellm-kv-cache<0.4.0,>=0.3.0.0
 Provides-Extra: dev
 Requires-Dist: pytest>=7.0.0; extra == "dev"
 Requires-Dist: pytest-cov>=4.0.0; extra == "dev"
@@ -23,6 +25,7 @@ Requires-Dist: ruff>=0.8.0; extra == "dev"
 Requires-Dist: mypy>=1.0.0; extra == "dev"
 Requires-Dist: types-PyYAML>=6.0.0; extra == "dev"
 Requires-Dist: pre-commit>=3.0.0; extra == "dev"
+Requires-Dist: isage-pypi-publisher>=0.2.0; extra == "dev"
 # sagellm-core

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/pyproject.toml RENAMED Viewed

@@ -4,8 +4,8 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "isagellm-core"
-version = "0.2.2.8"
-description = "sageLLM core runtime (config/observability/registries), plugin-ready"
+version = "0.3.0.2"
+description = "sageLLM core runtime with PD separation (MVP)"
 readme = "README.md"
 requires-python = "==3.11.*"
 authors = [{ name = "IntelliStream Team" }]
@@ -20,8 +20,10 @@ classifiers = [
 dependencies = [
   "pydantic>=2.0.0",
   "pyyaml>=6.0.0",
-  "isagellm-protocol>=0.1.0,<0.2.0",
-  "isagellm-backend>=0.2.0.0,<0.3.0",
+  "isagellm-protocol>=0.3.0.0,<0.4.0",
+  "isagellm-backend>=0.3.0.0,<0.4.0",
+  "isagellm-comm>=0.3.0.0,<0.4.0",
+  "isagellm-kv-cache>=0.3.0.0,<0.4.0",
 ]
 [project.optional-dependencies]
@@ -33,6 +35,7 @@ dev = [
   "mypy>=1.0.0",
   "types-PyYAML>=6.0.0",
   "pre-commit>=3.0.0",
+  "isage-pypi-publisher>=0.2.0",
 ]
 [tool.setuptools]
@@ -51,7 +54,9 @@ line-length = 100
 [project.entry-points."sagellm.engines"]
 cpu = "sagellm_core.engines.cpu:create_cpu_engine"
+hf-cuda = "sagellm_core.engines.hf_cuda:create_hf_cuda_engine"
 pytorch = "sagellm_core.engines.pytorch:create_pytorch_engine"
+ascend = "sagellm_core.engines.ascend:create_ascend_engine"
 [tool.mypy]
 python_version = "3.10"

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2/src/isagellm_core.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,7 +1,7 @@
 Metadata-Version: 2.4
 Name: isagellm-core
-Version: 0.2.2.8
-Summary: sageLLM core runtime (config/observability/registries), plugin-ready
+Version: 0.3.0.2
+Summary: sageLLM core runtime with PD separation (MVP)
 Author: IntelliStream Team
 License: Proprietary - IntelliStream
 Classifier: Development Status :: 3 - Alpha
@@ -13,8 +13,10 @@ Requires-Python: ==3.11.*
 Description-Content-Type: text/markdown
 Requires-Dist: pydantic>=2.0.0
 Requires-Dist: pyyaml>=6.0.0
-Requires-Dist: isagellm-protocol<0.2.0,>=0.1.0
-Requires-Dist: isagellm-backend<0.3.0,>=0.2.0.0
+Requires-Dist: isagellm-protocol<0.4.0,>=0.3.0.0
+Requires-Dist: isagellm-backend<0.4.0,>=0.3.0.0
+Requires-Dist: isagellm-comm<0.4.0,>=0.3.0.0
+Requires-Dist: isagellm-kv-cache<0.4.0,>=0.3.0.0
 Provides-Extra: dev
 Requires-Dist: pytest>=7.0.0; extra == "dev"
 Requires-Dist: pytest-cov>=4.0.0; extra == "dev"
@@ -23,6 +25,7 @@ Requires-Dist: ruff>=0.8.0; extra == "dev"
 Requires-Dist: mypy>=1.0.0; extra == "dev"
 Requires-Dist: types-PyYAML>=6.0.0; extra == "dev"
 Requires-Dist: pre-commit>=3.0.0; extra == "dev"
+Requires-Dist: isage-pypi-publisher>=0.2.0; extra == "dev"
 # sagellm-core

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/isagellm_core.egg-info/SOURCES.txt RENAMED Viewed

@@ -17,31 +17,40 @@ src/sagellm_core/engine.pyc
 src/sagellm_core/engine_factory.pyc
 src/sagellm_core/factory.pyc
 src/sagellm_core/health.pyc
+src/sagellm_core/pd_executor.pyc
 src/sagellm_core/plugins.pyc
 src/sagellm_core/py.typed
 src/sagellm_core/runner.pyc
+src/sagellm_core/runtime.pyc
 src/sagellm_core/workload.pyc
 src/sagellm_core/__pycache__/__init__.cpython-311.pyc
+src/sagellm_core/__pycache__/base_engine.cpython-311.pyc
 src/sagellm_core/__pycache__/config.cpython-311.pyc
 src/sagellm_core/__pycache__/demo.cpython-311.pyc
 src/sagellm_core/__pycache__/engine.cpython-311.pyc
 src/sagellm_core/__pycache__/engine_factory.cpython-311.pyc
 src/sagellm_core/__pycache__/factory.cpython-311.pyc
 src/sagellm_core/__pycache__/health.cpython-311.pyc
+src/sagellm_core/__pycache__/mock_engine.cpython-311.pyc
+src/sagellm_core/__pycache__/pd_executor.cpython-311.pyc
 src/sagellm_core/__pycache__/plugins.cpython-311.pyc
 src/sagellm_core/__pycache__/runner.cpython-311.pyc
+src/sagellm_core/__pycache__/runtime.cpython-311.pyc
 src/sagellm_core/__pycache__/workload.cpython-311.pyc
 src/sagellm_core/engines/__init__.py
 src/sagellm_core/engines/__init__.pyc
+src/sagellm_core/engines/ascend.pyc
 src/sagellm_core/engines/cpu.pyc
 src/sagellm_core/engines/embedding.pyc
 src/sagellm_core/engines/hf_cuda.pyc
 src/sagellm_core/engines/pytorch.pyc
 src/sagellm_core/engines/pytorch_engine.pyc
 src/sagellm_core/engines/__pycache__/__init__.cpython-311.pyc
+src/sagellm_core/engines/__pycache__/ascend.cpython-311.pyc
 src/sagellm_core/engines/__pycache__/cpu.cpython-311.pyc
 src/sagellm_core/engines/__pycache__/embedding.cpython-311.pyc
 src/sagellm_core/engines/__pycache__/hf_cuda.cpython-311.pyc
+src/sagellm_core/engines/__pycache__/mock.cpython-311.pyc
 src/sagellm_core/engines/__pycache__/pytorch.cpython-311.pyc
 src/sagellm_core/engines/__pycache__/pytorch_engine.cpython-311.pyc
 tests/test_ci_smoke.py
@@ -53,5 +62,7 @@ tests/test_engine.py
 tests/test_engine_behavior_parity.py
 tests/test_engine_contract.py
 tests/test_engine_contract_simplified.py
+tests/test_pd_separation.py
 tests/test_pytorch_engine.py
+tests/test_streaming_pd.py
 tests/test_task0_10_workload.py

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/isagellm_core.egg-info/entry_points.txt RENAMED Viewed

@@ -1,3 +1,5 @@
 [sagellm.engines]
+ascend = sagellm_core.engines.ascend:create_ascend_engine
 cpu = sagellm_core.engines.cpu:create_cpu_engine
+hf-cuda = sagellm_core.engines.hf_cuda:create_hf_cuda_engine
 pytorch = sagellm_core.engines.pytorch:create_pytorch_engine

isagellm_core-0.3.0.2/src/isagellm_core.egg-info/requires.txt ADDED Viewed

@@ -0,0 +1,16 @@
+pydantic>=2.0.0
+pyyaml>=6.0.0
+isagellm-protocol<0.4.0,>=0.3.0.0
+isagellm-backend<0.4.0,>=0.3.0.0
+isagellm-comm<0.4.0,>=0.3.0.0
+isagellm-kv-cache<0.4.0,>=0.3.0.0
+[dev]
+pytest>=7.0.0
+pytest-cov>=4.0.0
+pytest-timeout>=2.0.0
+ruff>=0.8.0
+mypy>=1.0.0
+types-PyYAML>=6.0.0
+pre-commit>=3.0.0
+isage-pypi-publisher>=0.2.0

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__init__.py RENAMED Viewed

@@ -6,6 +6,8 @@
 - Engine 工厂函数
 - 插件系统
 - Demo Runner
+- 分布式 Runtime（PD 分离 MVP）
+- PD 分离执行器
 """
 from __future__ import annotations
@@ -23,17 +25,24 @@ from sagellm_core.config import (
 from sagellm_core.demo import main as demo_main
 from sagellm_core.engine_factory import EngineFactory
 from sagellm_core.engines import (
+    AscendEngine,
+    AscendEngineConfig,
     CPUEngine,
     EmbeddingEngine,
     EmbeddingEngineConfig,
     HFCudaEngine,
     HFCudaEngineConfig,
+    create_ascend_engine,
 )
 from sagellm_core.factory import create_backend, create_engine
 from sagellm_core.health import HealthStatus
 from sagellm_core.plugins import PluginResolutionError, list_entry_points, resolve_kind
 from sagellm_core.runner import DemoRunner, RunnerContext
+# PD 分离 MVP 模块
+from sagellm_core.runtime import DistributedConfig, DistributedRuntime, RuntimeState
+from sagellm_core.pd_executor import PDExecutionContext, PDSeparatedExecutor
 # PyTorch engine (optional, loaded lazily)
 PyTorchEngine = None
 PyTorchEngineConfig = None
@@ -61,6 +70,11 @@ try:
 except Exception:
     pass  # torch or CUDA not available
+try:
+    EngineFactory.register(AscendEngine)
+except Exception:
+    pass  # torch_npu or Ascend deps not available
 try:
     EngineFactory.register(EmbeddingEngine)
 except Exception:
@@ -72,7 +86,7 @@ try:
 except Exception:
     pass  # torch or transformers not available
-__version__ = "0.2.2.8"
+__version__ = "0.3.0.0"
 __all__ = [
     # Version
@@ -90,6 +104,9 @@ __all__ = [
     "EngineInstanceConfig",  # For runtime engine instantiation
     "HealthStatus",
     # Engine implementations
+    "AscendEngine",
+    "AscendEngineConfig",
+    "create_ascend_engine",
     "CPUEngine",
     "HFCudaEngine",
     "HFCudaEngineConfig",
@@ -111,4 +128,10 @@ __all__ = [
     "demo_main",
     "DemoRunner",
     "RunnerContext",
+    # PD Separation MVP
+    "DistributedConfig",
+    "DistributedRuntime",
+    "RuntimeState",
+    "PDExecutionContext",
+    "PDSeparatedExecutor",
 ]

isagellm_core-0.3.0.2/src/sagellm_core/__init__.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__main__.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/__pycache__/base_engine.cpython-311.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/config.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/demo.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/engine.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/engine_factory.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/factory.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/health.cpython-311.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/__pycache__/mock_engine.cpython-311.pyc ADDED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/__pycache__/pd_executor.cpython-311.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/plugins.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/runner.cpython-311.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/__pycache__/runtime.cpython-311.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/__pycache__/workload.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/config.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/demo.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engine.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engine_factory.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/__init__.py RENAMED Viewed

@@ -3,27 +3,39 @@
 This module provides built-in engine implementations:
 - CPUEngine: CPU-only inference with HuggingFace Transformers
 - HFCudaEngine: CUDA inference with HuggingFace Transformers
+- AscendEngine: Huawei Ascend NPU (PyTorch-NPU)
 - PyTorchEngine: Unified PyTorch engine (auto-detects CUDA/NPU/CPU)
 - EmbeddingEngine: Embedding model inference
 """
 from __future__ import annotations
-from sagellm_core.engines.cpu import CPUEngine
+from sagellm_core.engines.ascend import AscendEngine, AscendEngineConfig, create_ascend_engine
+from sagellm_core.engines.cpu import CPUEngine, create_cpu_engine
 from sagellm_core.engines.embedding import EmbeddingEngine, EmbeddingEngineConfig
-from sagellm_core.engines.hf_cuda import HFCudaEngine, HFCudaEngineInstanceConfig
+from sagellm_core.engines.hf_cuda import (
+    HFCudaEngine,
+    HFCudaEngineInstanceConfig,
+    create_hf_cuda_engine,
+)
 from sagellm_core.engines.pytorch_engine import PyTorchEngine, create_pytorch_engine
 # Export aliases for backward compatibility
 HFCudaEngineConfig = HFCudaEngineInstanceConfig
 __all__ = [
+    # Ascend engine
+    "AscendEngine",
+    "AscendEngineConfig",
+    "create_ascend_engine",
     # CPU engine
     "CPUEngine",
+    "create_cpu_engine",
     # CUDA engine
     "HFCudaEngine",
     "HFCudaEngineConfig",
     "HFCudaEngineInstanceConfig",
+    "create_hf_cuda_engine",
     # PyTorch engine (unified)
     "PyTorchEngine",
     "create_pytorch_engine",

isagellm_core-0.3.0.2/src/sagellm_core/engines/__init__.pyc ADDED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/engines/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/engines/__pycache__/ascend.cpython-311.pyc ADDED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/engines/__pycache__/cpu.cpython-311.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/__pycache__/embedding.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/__pycache__/hf_cuda.cpython-311.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/engines/__pycache__/mock.cpython-311.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/__pycache__/pytorch.cpython-311.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/__pycache__/pytorch_engine.cpython-311.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/engines/ascend.pyc ADDED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/engines/cpu.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/embedding.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/hf_cuda.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/pytorch.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/engines/pytorch_engine.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/factory.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/health.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/pd_executor.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/plugins.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/runner.pyc RENAMED Viewed

Binary file

isagellm_core-0.3.0.2/src/sagellm_core/runtime.pyc ADDED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/src/sagellm_core/workload.pyc RENAMED Viewed

Binary file

{isagellm_core-0.2.2.8 → isagellm_core-0.3.0.2}/tests/test_engine.py RENAMED Viewed

@@ -43,6 +43,28 @@ class TestCPUEngine(BaseEngine):
     async def health_check(self) -> bool:
         return self._is_running
+    async def prefill(self, request: Request) -> dict:
+        """Minimal prefill implementation for testing."""
+        if not self._is_running:
+            raise RuntimeError("not running")
+        return {
+            "kv_handle": {"test": "handle"},
+            "num_tokens": len(request.prompt.split()) if request.prompt else 0,
+            "first_token_id": 1,
+        }
+    async def decode(self, request: Request, kv_handle=None, max_new_tokens=None) -> dict:
+        """Minimal decode implementation for testing."""
+        if not self._is_running:
+            raise RuntimeError("not running")
+        num_tokens = max_new_tokens or request.max_tokens
+        return {
+            "output_tokens": [1, 2, 3][:num_tokens],
+            "output_text": "test output",
+            "finish_reason": "stop",
+            "num_tokens": min(3, num_tokens),
+        }
     async def execute(self, request: Request) -> Response:
         if not self._is_running:
             raise RuntimeError("not running")

isagellm_core-0.3.0.2/tests/test_pd_separation.py ADDED Viewed

@@ -0,0 +1,207 @@
+"""测试 PD 分离功能
+验证 CPUEngine 的 prefill() 和 decode() 方法是否正常工作。
+"""
+from __future__ import annotations
+import asyncio
+import logging
+import pytest
+from sagellm_protocol.types import Request
+from sagellm_core import PDSeparatedExecutor, DistributedRuntime, create_backend, create_engine
+from sagellm_core.config import EngineConfig
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+@pytest.mark.asyncio
+async def test_cpu_engine_prefill():
+    """测试 CPUEngine 的 prefill 方法"""
+    # 创建引擎 - 使用轻量级模型（约 50MB，快速下载）
+    backend = create_backend({"kind": "cpu"})
+    config = EngineConfig(
+        kind="cpu",
+        model="sshleifer/tiny-gpt2",  # 轻量级测试模型
+        device="cpu",
+    )
+    engine = create_engine(config, backend)
+    try:
+        await engine.start()
+        # 创建请求
+        request = Request(
+            request_id="req-prefill-001",
+            trace_id="trace-001",
+            model="sshleifer/tiny-gpt2",
+            prompt="Hello, how are you?",
+            max_tokens=10,
+            stream=False,
+        )
+        # 执行 Prefill
+        result = await engine.prefill(request)
+        # 验证结果
+        assert "kv_handle" in result
+        assert "num_tokens" in result
+        assert result["num_tokens"] > 0
+        assert "first_token_id" in result
+        logger.info(f"✓ Prefill completed: {result['num_tokens']} tokens processed")
+    finally:
+        await engine.stop()
+@pytest.mark.asyncio
+async def test_cpu_engine_decode():
+    """测试 CPUEngine 的 decode 方法"""
+    backend = create_backend({"kind": "cpu"})
+    config = EngineConfig(
+        kind="cpu",
+        model="sshleifer/tiny-gpt2",
+        device="cpu",
+    )
+    engine = create_engine(config, backend)
+    try:
+        await engine.start()
+        # 先执行 Prefill
+        request = Request(
+            request_id="req-decode-001",
+            trace_id="trace-001",
+            model="sshleifer/tiny-gpt2",
+            prompt="Hello!",
+            max_tokens=10,
+            stream=False,
+        )
+        prefill_result = await engine.prefill(request)
+        kv_handle = prefill_result["kv_handle"]
+        # 执行 Decode
+        decode_result = await engine.decode(request, kv_handle=kv_handle, max_new_tokens=10)
+        # 验证结果
+        assert "output_tokens" in decode_result
+        assert "output_text" in decode_result
+        assert "finish_reason" in decode_result
+        assert len(decode_result["output_tokens"]) > 0
+        logger.info(
+            f"✓ Decode completed: {len(decode_result['output_tokens'])} tokens generated, "
+            f"text='{decode_result['output_text']}'"
+        )
+    finally:
+        await engine.stop()
+@pytest.mark.asyncio
+async def test_pd_executor_hybrid():
+    """测试 PDSeparatedExecutor 的 Hybrid 模式"""
+    # 初始化 Runtime
+    runtime = DistributedRuntime()
+    await runtime.initialize()
+    # 创建引擎
+    backend = create_backend({"kind": "cpu"})
+    config = EngineConfig(
+        kind="cpu",
+        model="sshleifer/tiny-gpt2",
+        device="cpu",
+    )
+    engine = create_engine(config, backend)
+    try:
+        await engine.start()
+        # 创建 PD Executor
+        executor = PDSeparatedExecutor(engine=engine, runtime=runtime)
+        # 创建 Hybrid 请求
+        request = Request(
+            request_id="req-hybrid-001",
+            trace_id="trace-001",
+            model="sshleifer/tiny-gpt2",
+            prompt="Hello!",
+            max_tokens=10,
+            stream=False,
+            phase="decode",  # hybrid mode
+        )
+        # 执行
+        response = await executor.execute(request)
+        # 验证结果
+        assert response.request_id == "req-hybrid-001"
+        assert response.metrics.prefill_ms > 0
+        assert response.metrics.decode_ms > 0
+        assert len(response.output_text) > 0
+        logger.info("✓ Hybrid execution completed:")
+        logger.info(f"  - Prefill: {response.metrics.prefill_ms:.2f} ms")
+        logger.info(f"  - Decode: {response.metrics.decode_ms:.2f} ms")
+        logger.info(f"  - Output: '{response.output_text}'")
+    finally:
+        await engine.stop()
+        await runtime.shutdown()
+@pytest.mark.asyncio
+async def test_pd_executor_prefill_only():
+    """测试 PDSeparatedExecutor 的 Prefill-Only 模式"""
+    runtime = DistributedRuntime()
+    await runtime.initialize()
+    backend = create_backend({"kind": "cpu"})
+    config = EngineConfig(
+        kind="cpu",
+        model="sshleifer/tiny-gpt2",
+        device="cpu",
+    )
+    engine = create_engine(config, backend)
+    try:
+        await engine.start()
+        executor = PDSeparatedExecutor(engine=engine, runtime=runtime)
+        # Prefill-Only 请求
+        request = Request(
+            request_id="req-prefill-only-001",
+            trace_id="trace-001",
+            model="sshleifer/tiny-gpt2",
+            prompt="Hello!",
+            max_tokens=1,  # 最小值（但实际只做 prefill）
+            stream=False,
+            phase="prefill",
+        )
+        response = await executor.execute(request)
+        # 验证：只有 Prefill，没有 Decode（或 Decode 很少）
+        assert response.metrics.prefill_ms > 0
+        # decode_ms 可能为 0（prefill-only）或很小（生成了 1 token）
+        logger.info("✓ Prefill-Only execution completed:")
+        logger.info(f"  - Prefill: {response.metrics.prefill_ms:.2f} ms")
+    finally:
+        await engine.stop()
+        await runtime.shutdown()
+if __name__ == "__main__":
+    # 运行测试
+    asyncio.run(test_cpu_engine_prefill())
+    asyncio.run(test_cpu_engine_decode())
+    asyncio.run(test_pd_executor_hybrid())
+    asyncio.run(test_pd_executor_prefill_only())
+    print("\n✅ All PD separation tests passed!")

isagellm_core-0.3.0.2/tests/test_streaming_pd.py ADDED Viewed

@@ -0,0 +1,186 @@
+"""Tests for Streaming PD Separation.
+测试流式 Prefill-Decode 分离功能。
+"""
+from __future__ import annotations
+import pytest
+from sagellm_protocol.types import Request
+from sagellm_core.engines.cpu import CPUEngine, CPUEngineConfig
+from sagellm_core.pd_executor import PDSeparatedExecutor
+from sagellm_core.runtime import DistributedRuntime
+@pytest.mark.asyncio
+async def test_streaming_pd_separation():
+    """测试流式 PD 分离：验证事件顺序和 TTFT 在首 token"""
+    config = CPUEngineConfig(
+        engine_id="cpu-engine-stream-001",
+        model_path="sshleifer/tiny-gpt2",
+        torch_dtype="float32",
+        trust_remote_code=True,
+    )
+    engine = CPUEngine(config)
+    runtime = DistributedRuntime()
+    try:
+        await engine.start()
+        await runtime.initialize()
+        executor = PDSeparatedExecutor(engine=engine, runtime=runtime)
+        request = Request(
+            request_id="test-stream-001",
+            trace_id="trace-stream-001",
+            model="sshleifer/tiny-gpt2",
+            prompt="Once upon a time",
+            max_tokens=5,
+            stream=True,
+        )
+        events = []
+        async for event in executor.stream(request):
+            events.append(event)
+        # Verify Event Sequence
+        # ═════════════════════════════════════════════════════════════════
+        assert len(events) >= 3, "Should have at least start, delta, end"
+        # 1. Start Event
+        assert events[0].event == "start"
+        assert events[0].request_id == "test-stream-001"
+        assert events[0].trace_id == "trace-stream-001"
+        # 2. Delta Events (至少一个)
+        delta_events = [e for e in events if e.event == "delta"]
+        assert len(delta_events) > 0, "Should have at least one delta event"
+        # 每个 delta 应包含 chunk 和 chunk_tokens
+        for delta in delta_events:
+            assert hasattr(delta, "chunk"), "Delta should have chunk"
+            assert hasattr(delta, "chunk_tokens"), "Delta should have chunk_tokens"
+        # 3. End Event
+        assert events[-1].event == "end"
+        assert events[-1].finish_reason in ["stop", "length", "error"]
+        assert events[-1].metrics is not None, "End event should contain final metrics"
+        # Verify PD Metrics
+        # ═════════════════════════════════════════════════════════════════
+        final_metrics = events[-1].metrics
+        assert final_metrics.ttft_ms > 0, "TTFT should be positive"
+        assert final_metrics.prefill_ms > 0, "Prefill time should be positive"
+        assert final_metrics.decode_ms > 0, "Decode time should be positive"
+        # TBT 应该是 decode 平均时间
+        assert final_metrics.tbt_ms > 0, "TBT should be positive"
+    finally:
+        await engine.stop()
+        await runtime.shutdown()
+@pytest.mark.asyncio
+async def test_streaming_pd_event_content():
+    """测试流式事件内容：delta text 和 tokens"""
+    config = CPUEngineConfig(
+        engine_id="cpu-engine-stream-002",
+        model_path="sshleifer/tiny-gpt2",
+        torch_dtype="float32",
+        trust_remote_code=True,
+    )
+    engine = CPUEngine(config)
+    runtime = DistributedRuntime()
+    try:
+        await engine.start()
+        await runtime.initialize()
+        executor = PDSeparatedExecutor(engine=engine, runtime=runtime)
+        request = Request(
+            request_id="test-stream-002",
+            trace_id="trace-stream-002",
+            model="sshleifer/tiny-gpt2",
+            prompt="Hello world",
+            max_tokens=3,
+            stream=True,
+        )
+        events = []
+        async for event in executor.stream(request):
+            events.append(event)
+        # ═════════════════════════════════════════════════════════════════
+        # Verify Delta Content
+        # ═════════════════════════════════════════════════════════════════
+        delta_events = [e for e in events if e.event == "delta"]
+        for delta in delta_events:
+            # 每个 delta 应包含 chunk 和 chunk_tokens
+            assert hasattr(delta, "chunk"), "Delta should have chunk"
+            assert hasattr(delta, "chunk_tokens"), "Delta should have chunk_tokens"
+        # ═════════════════════════════════════════════════════════════════
+        # Verify End Content
+        # ═════════════════════════════════════════════════════════════════
+        end_event = events[-1]
+        assert end_event.output_text, "End event should contain full output text"
+        assert end_event.output_tokens, "End event should contain output tokens"
+    finally:
+        await engine.stop()
+        await runtime.shutdown()
+@pytest.mark.asyncio
+async def test_streaming_pd_metrics_consistency():
+    """测试流式 PD 指标一致性：首 delta 和 end 的 TTFT 应相同"""
+    config = CPUEngineConfig(
+        engine_id="cpu-engine-stream-003",
+        model_path="sshleifer/tiny-gpt2",
+        torch_dtype="float32",
+        trust_remote_code=True,
+    )
+    engine = CPUEngine(config)
+    runtime = DistributedRuntime()
+    try:
+        await engine.start()
+        await runtime.initialize()
+        executor = PDSeparatedExecutor(engine=engine, runtime=runtime)
+        request = Request(
+            request_id="test-stream-003",
+            trace_id="trace-stream-003",
+            model="sshleifer/tiny-gpt2",
+            prompt="Testing metrics",
+            max_tokens=4,
+            stream=True,
+        )
+        events = []
+        async for event in executor.stream(request):
+            events.append(event)
+        # ═════════════════════════════════════════════════════════════════
+        # Extract Metrics
+        # ═════════════════════════════════════════════════════════════════
+        end_metrics = events[-1].metrics
+        # Verify TTFT Consistency
+        # ═════════════════════════════════════════════════════════════════
+        assert end_metrics is not None
+        # TTFT 应相同（首 token 延迟不变）
+        assert end_metrics.ttft_ms > 0, "TTFT should be positive"
+        # Prefill 时间应相同
+        assert end_metrics.prefill_ms > 0, "Prefill time should be consistent"
+    finally:
+        await engine.stop()
+        await runtime.shutdown()

isagellm_core-0.2.2.8/src/isagellm_core.egg-info/requires.txt DELETED Viewed

@@ -1,13 +0,0 @@
-pydantic>=2.0.0
-pyyaml>=6.0.0
-isagellm-protocol<0.2.0,>=0.1.0
-isagellm-backend<0.3.0,>=0.2.0.0
-[dev]
-pytest>=7.0.0
-pytest-cov>=4.0.0
-pytest-timeout>=2.0.0
-ruff>=0.8.0
-mypy>=1.0.0
-types-PyYAML>=6.0.0
-pre-commit>=3.0.0