PyPI - llama-stack - Versions diffs - 0.4.3__py3-none-any.whl → 0.5.0__py3-none-any.whl - Mend

llama-stack 0.4.3py3-none-any.whl → 0.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (311) hide show

llama_stack/cli/stack/_list_deps.py +11 -7
llama_stack/cli/stack/run.py +3 -25
llama_stack/core/access_control/datatypes.py +78 -0
llama_stack/core/configure.py +2 -2
{llama_stack_api/internal → llama_stack/core/connectors}/__init__.py +2 -2
llama_stack/core/connectors/connectors.py +162 -0
llama_stack/core/conversations/conversations.py +61 -58
llama_stack/core/datatypes.py +54 -8
llama_stack/core/library_client.py +60 -13
llama_stack/core/prompts/prompts.py +43 -42
llama_stack/core/routers/datasets.py +20 -17
llama_stack/core/routers/eval_scoring.py +143 -53
llama_stack/core/routers/inference.py +20 -9
llama_stack/core/routers/safety.py +30 -42
llama_stack/core/routers/vector_io.py +15 -7
llama_stack/core/routing_tables/models.py +42 -3
llama_stack/core/routing_tables/scoring_functions.py +19 -19
llama_stack/core/routing_tables/shields.py +20 -17
llama_stack/core/routing_tables/vector_stores.py +8 -5
llama_stack/core/server/auth.py +192 -17
llama_stack/core/server/fastapi_router_registry.py +40 -5
llama_stack/core/server/server.py +24 -5
llama_stack/core/stack.py +54 -10
llama_stack/core/storage/datatypes.py +9 -0
llama_stack/core/store/registry.py +1 -1
llama_stack/core/utils/exec.py +2 -2
llama_stack/core/utils/type_inspection.py +16 -2
llama_stack/distributions/dell/config.yaml +4 -1
llama_stack/distributions/dell/doc_template.md +209 -0
llama_stack/distributions/dell/run-with-safety.yaml +4 -1
llama_stack/distributions/nvidia/config.yaml +4 -1
llama_stack/distributions/nvidia/doc_template.md +170 -0
llama_stack/distributions/nvidia/run-with-safety.yaml +4 -1
llama_stack/distributions/oci/config.yaml +4 -1
llama_stack/distributions/oci/doc_template.md +140 -0
llama_stack/distributions/open-benchmark/config.yaml +9 -1
llama_stack/distributions/postgres-demo/config.yaml +1 -1
llama_stack/distributions/starter/build.yaml +62 -0
llama_stack/distributions/starter/config.yaml +22 -3
llama_stack/distributions/starter/run-with-postgres-store.yaml +22 -3
llama_stack/distributions/starter/starter.py +13 -1
llama_stack/distributions/starter-gpu/build.yaml +62 -0
llama_stack/distributions/starter-gpu/config.yaml +22 -3
llama_stack/distributions/starter-gpu/run-with-postgres-store.yaml +22 -3
llama_stack/distributions/template.py +10 -2
llama_stack/distributions/watsonx/config.yaml +4 -1
llama_stack/log.py +1 -0
llama_stack/models/llama/resources/dog.jpg +0 -0
llama_stack/models/llama/resources/pasta.jpeg +0 -0
llama_stack/models/llama/resources/small_dog.jpg +0 -0
llama_stack/providers/inline/agents/meta_reference/__init__.py +1 -0
llama_stack/providers/inline/agents/meta_reference/agents.py +58 -61
llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py +187 -60
llama_stack/providers/inline/agents/meta_reference/responses/streaming.py +99 -22
llama_stack/providers/inline/agents/meta_reference/responses/types.py +2 -1
llama_stack/providers/inline/agents/meta_reference/responses/utils.py +4 -1
llama_stack/providers/inline/agents/meta_reference/safety.py +2 -2
llama_stack/providers/inline/batches/reference/batches.py +2 -1
llama_stack/providers/inline/eval/meta_reference/eval.py +40 -32
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.h +9 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.swift +189 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/Parsing.swift +238 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/PromptTemplate.swift +12 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/SystemPrompts.swift +89 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.pbxproj +550 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/contents.xcworkspacedata +7 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/xcshareddata/IDEWorkspaceChecks.plist +8 -0
llama_stack/providers/inline/post_training/huggingface/post_training.py +33 -38
llama_stack/providers/inline/post_training/huggingface/utils.py +2 -5
llama_stack/providers/inline/post_training/torchtune/common/utils.py +5 -9
llama_stack/providers/inline/post_training/torchtune/post_training.py +28 -33
llama_stack/providers/inline/post_training/torchtune/recipes/lora_finetuning_single_device.py +2 -4
llama_stack/providers/inline/safety/code_scanner/code_scanner.py +12 -15
llama_stack/providers/inline/safety/llama_guard/llama_guard.py +20 -24
llama_stack/providers/inline/safety/prompt_guard/prompt_guard.py +11 -17
llama_stack/providers/inline/scoring/basic/scoring.py +13 -17
llama_stack/providers/inline/scoring/braintrust/braintrust.py +15 -15
llama_stack/providers/inline/scoring/llm_as_judge/scoring.py +13 -17
llama_stack/providers/inline/vector_io/sqlite_vec/sqlite_vec.py +1 -1
llama_stack/providers/registry/agents.py +1 -0
llama_stack/providers/registry/inference.py +1 -9
llama_stack/providers/registry/vector_io.py +136 -16
llama_stack/providers/remote/datasetio/nvidia/README.md +74 -0
llama_stack/providers/remote/eval/nvidia/README.md +134 -0
llama_stack/providers/remote/eval/nvidia/eval.py +22 -21
llama_stack/providers/remote/files/s3/README.md +266 -0
llama_stack/providers/remote/files/s3/config.py +5 -3
llama_stack/providers/remote/files/s3/files.py +2 -2
llama_stack/providers/remote/inference/gemini/gemini.py +4 -0
llama_stack/providers/remote/inference/nvidia/NVIDIA.md +203 -0
llama_stack/providers/remote/inference/openai/openai.py +2 -0
llama_stack/providers/remote/inference/together/together.py +4 -0
llama_stack/providers/remote/inference/vertexai/config.py +3 -3
llama_stack/providers/remote/inference/vertexai/vertexai.py +5 -2
llama_stack/providers/remote/inference/vllm/config.py +37 -18
llama_stack/providers/remote/inference/vllm/vllm.py +0 -3
llama_stack/providers/remote/inference/watsonx/watsonx.py +4 -0
llama_stack/providers/remote/post_training/nvidia/README.md +151 -0
llama_stack/providers/remote/post_training/nvidia/models.py +3 -11
llama_stack/providers/remote/post_training/nvidia/post_training.py +31 -33
llama_stack/providers/remote/safety/bedrock/bedrock.py +10 -27
llama_stack/providers/remote/safety/nvidia/README.md +78 -0
llama_stack/providers/remote/safety/nvidia/nvidia.py +9 -25
llama_stack/providers/remote/safety/sambanova/sambanova.py +13 -11
llama_stack/providers/remote/vector_io/elasticsearch/__init__.py +17 -0
llama_stack/providers/remote/vector_io/elasticsearch/config.py +32 -0
llama_stack/providers/remote/vector_io/elasticsearch/elasticsearch.py +463 -0
llama_stack/providers/remote/vector_io/oci/__init__.py +22 -0
llama_stack/providers/remote/vector_io/oci/config.py +41 -0
llama_stack/providers/remote/vector_io/oci/oci26ai.py +595 -0
llama_stack/providers/remote/vector_io/pgvector/config.py +69 -2
llama_stack/providers/remote/vector_io/pgvector/pgvector.py +255 -6
llama_stack/providers/remote/vector_io/qdrant/qdrant.py +62 -38
llama_stack/providers/utils/bedrock/client.py +3 -3
llama_stack/providers/utils/bedrock/config.py +7 -7
llama_stack/providers/utils/inference/__init__.py +0 -25
llama_stack/providers/utils/inference/embedding_mixin.py +4 -0
llama_stack/providers/utils/inference/http_client.py +239 -0
llama_stack/providers/utils/inference/litellm_openai_mixin.py +6 -0
llama_stack/providers/utils/inference/model_registry.py +148 -2
llama_stack/providers/utils/inference/openai_compat.py +1 -158
llama_stack/providers/utils/inference/openai_mixin.py +42 -2
llama_stack/providers/utils/inference/prompt_adapter.py +0 -209
llama_stack/providers/utils/memory/openai_vector_store_mixin.py +92 -5
llama_stack/providers/utils/memory/vector_store.py +46 -19
llama_stack/providers/utils/responses/responses_store.py +40 -6
llama_stack/providers/utils/safety.py +114 -0
llama_stack/providers/utils/tools/mcp.py +44 -3
llama_stack/testing/api_recorder.py +9 -3
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0.dist-info}/METADATA +14 -2
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0.dist-info}/RECORD +135 -279
llama_stack-0.5.0.dist-info/top_level.txt +1 -0
llama_stack/distributions/meta-reference-gpu/__init__.py +0 -7
llama_stack/distributions/meta-reference-gpu/config.yaml +0 -140
llama_stack/distributions/meta-reference-gpu/meta_reference.py +0 -163
llama_stack/distributions/meta-reference-gpu/run-with-safety.yaml +0 -155
llama_stack/models/llama/hadamard_utils.py +0 -88
llama_stack/models/llama/llama3/args.py +0 -74
llama_stack/models/llama/llama3/generation.py +0 -378
llama_stack/models/llama/llama3/model.py +0 -304
llama_stack/models/llama/llama3/multimodal/__init__.py +0 -12
llama_stack/models/llama/llama3/multimodal/encoder_utils.py +0 -180
llama_stack/models/llama/llama3/multimodal/image_transform.py +0 -409
llama_stack/models/llama/llama3/multimodal/model.py +0 -1430
llama_stack/models/llama/llama3/multimodal/utils.py +0 -26
llama_stack/models/llama/llama3/quantization/__init__.py +0 -5
llama_stack/models/llama/llama3/quantization/loader.py +0 -316
llama_stack/models/llama/llama3_1/__init__.py +0 -12
llama_stack/models/llama/llama3_1/prompt_format.md +0 -358
llama_stack/models/llama/llama3_1/prompts.py +0 -258
llama_stack/models/llama/llama3_2/__init__.py +0 -5
llama_stack/models/llama/llama3_2/prompts_text.py +0 -229
llama_stack/models/llama/llama3_2/prompts_vision.py +0 -126
llama_stack/models/llama/llama3_2/text_prompt_format.md +0 -286
llama_stack/models/llama/llama3_2/vision_prompt_format.md +0 -141
llama_stack/models/llama/llama3_3/__init__.py +0 -5
llama_stack/models/llama/llama3_3/prompts.py +0 -259
llama_stack/models/llama/llama4/args.py +0 -107
llama_stack/models/llama/llama4/ffn.py +0 -58
llama_stack/models/llama/llama4/moe.py +0 -214
llama_stack/models/llama/llama4/preprocess.py +0 -435
llama_stack/models/llama/llama4/quantization/__init__.py +0 -5
llama_stack/models/llama/llama4/quantization/loader.py +0 -226
llama_stack/models/llama/llama4/vision/__init__.py +0 -5
llama_stack/models/llama/llama4/vision/embedding.py +0 -210
llama_stack/models/llama/llama4/vision/encoder.py +0 -412
llama_stack/models/llama/quantize_impls.py +0 -316
llama_stack/providers/inline/inference/meta_reference/__init__.py +0 -20
llama_stack/providers/inline/inference/meta_reference/common.py +0 -24
llama_stack/providers/inline/inference/meta_reference/config.py +0 -68
llama_stack/providers/inline/inference/meta_reference/generators.py +0 -201
llama_stack/providers/inline/inference/meta_reference/inference.py +0 -542
llama_stack/providers/inline/inference/meta_reference/model_parallel.py +0 -77
llama_stack/providers/inline/inference/meta_reference/parallel_utils.py +0 -353
llama_stack-0.4.3.dist-info/top_level.txt +0 -2
llama_stack_api/__init__.py +0 -945
llama_stack_api/admin/__init__.py +0 -45
llama_stack_api/admin/api.py +0 -72
llama_stack_api/admin/fastapi_routes.py +0 -117
llama_stack_api/admin/models.py +0 -113
llama_stack_api/agents.py +0 -173
llama_stack_api/batches/__init__.py +0 -40
llama_stack_api/batches/api.py +0 -53
llama_stack_api/batches/fastapi_routes.py +0 -113
llama_stack_api/batches/models.py +0 -78
llama_stack_api/benchmarks/__init__.py +0 -43
llama_stack_api/benchmarks/api.py +0 -39
llama_stack_api/benchmarks/fastapi_routes.py +0 -109
llama_stack_api/benchmarks/models.py +0 -109
llama_stack_api/common/__init__.py +0 -5
llama_stack_api/common/content_types.py +0 -101
llama_stack_api/common/errors.py +0 -95
llama_stack_api/common/job_types.py +0 -38
llama_stack_api/common/responses.py +0 -77
llama_stack_api/common/training_types.py +0 -47
llama_stack_api/common/type_system.py +0 -146
llama_stack_api/connectors.py +0 -146
llama_stack_api/conversations.py +0 -270
llama_stack_api/datasetio.py +0 -55
llama_stack_api/datasets/__init__.py +0 -61
llama_stack_api/datasets/api.py +0 -35
llama_stack_api/datasets/fastapi_routes.py +0 -104
llama_stack_api/datasets/models.py +0 -152
llama_stack_api/datatypes.py +0 -373
llama_stack_api/eval.py +0 -137
llama_stack_api/file_processors/__init__.py +0 -27
llama_stack_api/file_processors/api.py +0 -64
llama_stack_api/file_processors/fastapi_routes.py +0 -78
llama_stack_api/file_processors/models.py +0 -42
llama_stack_api/files/__init__.py +0 -35
llama_stack_api/files/api.py +0 -51
llama_stack_api/files/fastapi_routes.py +0 -124
llama_stack_api/files/models.py +0 -107
llama_stack_api/inference.py +0 -1169
llama_stack_api/inspect_api/__init__.py +0 -37
llama_stack_api/inspect_api/api.py +0 -25
llama_stack_api/inspect_api/fastapi_routes.py +0 -76
llama_stack_api/inspect_api/models.py +0 -28
llama_stack_api/internal/kvstore.py +0 -28
llama_stack_api/internal/sqlstore.py +0 -81
llama_stack_api/llama_stack_api/__init__.py +0 -945
llama_stack_api/llama_stack_api/admin/__init__.py +0 -45
llama_stack_api/llama_stack_api/admin/api.py +0 -72
llama_stack_api/llama_stack_api/admin/fastapi_routes.py +0 -117
llama_stack_api/llama_stack_api/admin/models.py +0 -113
llama_stack_api/llama_stack_api/agents.py +0 -173
llama_stack_api/llama_stack_api/batches/__init__.py +0 -40
llama_stack_api/llama_stack_api/batches/api.py +0 -53
llama_stack_api/llama_stack_api/batches/fastapi_routes.py +0 -113
llama_stack_api/llama_stack_api/batches/models.py +0 -78
llama_stack_api/llama_stack_api/benchmarks/__init__.py +0 -43
llama_stack_api/llama_stack_api/benchmarks/api.py +0 -39
llama_stack_api/llama_stack_api/benchmarks/fastapi_routes.py +0 -109
llama_stack_api/llama_stack_api/benchmarks/models.py +0 -109
llama_stack_api/llama_stack_api/common/__init__.py +0 -5
llama_stack_api/llama_stack_api/common/content_types.py +0 -101
llama_stack_api/llama_stack_api/common/errors.py +0 -95
llama_stack_api/llama_stack_api/common/job_types.py +0 -38
llama_stack_api/llama_stack_api/common/responses.py +0 -77
llama_stack_api/llama_stack_api/common/training_types.py +0 -47
llama_stack_api/llama_stack_api/common/type_system.py +0 -146
llama_stack_api/llama_stack_api/connectors.py +0 -146
llama_stack_api/llama_stack_api/conversations.py +0 -270
llama_stack_api/llama_stack_api/datasetio.py +0 -55
llama_stack_api/llama_stack_api/datasets/__init__.py +0 -61
llama_stack_api/llama_stack_api/datasets/api.py +0 -35
llama_stack_api/llama_stack_api/datasets/fastapi_routes.py +0 -104
llama_stack_api/llama_stack_api/datasets/models.py +0 -152
llama_stack_api/llama_stack_api/datatypes.py +0 -373
llama_stack_api/llama_stack_api/eval.py +0 -137
llama_stack_api/llama_stack_api/file_processors/__init__.py +0 -27
llama_stack_api/llama_stack_api/file_processors/api.py +0 -64
llama_stack_api/llama_stack_api/file_processors/fastapi_routes.py +0 -78
llama_stack_api/llama_stack_api/file_processors/models.py +0 -42
llama_stack_api/llama_stack_api/files/__init__.py +0 -35
llama_stack_api/llama_stack_api/files/api.py +0 -51
llama_stack_api/llama_stack_api/files/fastapi_routes.py +0 -124
llama_stack_api/llama_stack_api/files/models.py +0 -107
llama_stack_api/llama_stack_api/inference.py +0 -1169
llama_stack_api/llama_stack_api/inspect_api/__init__.py +0 -37
llama_stack_api/llama_stack_api/inspect_api/api.py +0 -25
llama_stack_api/llama_stack_api/inspect_api/fastapi_routes.py +0 -76
llama_stack_api/llama_stack_api/inspect_api/models.py +0 -28
llama_stack_api/llama_stack_api/internal/__init__.py +0 -9
llama_stack_api/llama_stack_api/internal/kvstore.py +0 -28
llama_stack_api/llama_stack_api/internal/sqlstore.py +0 -81
llama_stack_api/llama_stack_api/models.py +0 -171
llama_stack_api/llama_stack_api/openai_responses.py +0 -1468
llama_stack_api/llama_stack_api/post_training.py +0 -370
llama_stack_api/llama_stack_api/prompts.py +0 -203
llama_stack_api/llama_stack_api/providers/__init__.py +0 -33
llama_stack_api/llama_stack_api/providers/api.py +0 -16
llama_stack_api/llama_stack_api/providers/fastapi_routes.py +0 -57
llama_stack_api/llama_stack_api/providers/models.py +0 -24
llama_stack_api/llama_stack_api/py.typed +0 -0
llama_stack_api/llama_stack_api/rag_tool.py +0 -168
llama_stack_api/llama_stack_api/resource.py +0 -37
llama_stack_api/llama_stack_api/router_utils.py +0 -160
llama_stack_api/llama_stack_api/safety.py +0 -132
llama_stack_api/llama_stack_api/schema_utils.py +0 -208
llama_stack_api/llama_stack_api/scoring.py +0 -93
llama_stack_api/llama_stack_api/scoring_functions.py +0 -211
llama_stack_api/llama_stack_api/shields.py +0 -93
llama_stack_api/llama_stack_api/tools.py +0 -226
llama_stack_api/llama_stack_api/vector_io.py +0 -941
llama_stack_api/llama_stack_api/vector_stores.py +0 -53
llama_stack_api/llama_stack_api/version.py +0 -9
llama_stack_api/models.py +0 -171
llama_stack_api/openai_responses.py +0 -1468
llama_stack_api/post_training.py +0 -370
llama_stack_api/prompts.py +0 -203
llama_stack_api/providers/__init__.py +0 -33
llama_stack_api/providers/api.py +0 -16
llama_stack_api/providers/fastapi_routes.py +0 -57
llama_stack_api/providers/models.py +0 -24
llama_stack_api/py.typed +0 -0
llama_stack_api/rag_tool.py +0 -168
llama_stack_api/resource.py +0 -37
llama_stack_api/router_utils.py +0 -160
llama_stack_api/safety.py +0 -132
llama_stack_api/schema_utils.py +0 -208
llama_stack_api/scoring.py +0 -93
llama_stack_api/scoring_functions.py +0 -211
llama_stack_api/shields.py +0 -93
llama_stack_api/tools.py +0 -226
llama_stack_api/vector_io.py +0 -941
llama_stack_api/vector_stores.py +0 -53
llama_stack_api/version.py +0 -9
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0.dist-info}/WHEEL +0 -0
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0.dist-info}/entry_points.txt +0 -0
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0.dist-info}/licenses/LICENSE +0 -0

llama_stack/providers/inline/inference/meta_reference/parallel_utils.py DELETED Viewed

@@ -1,353 +0,0 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-# Copyright (c) Meta Platforms, IAny, nc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the terms described in the LICENSE file in
-# the root directory of this source tree.
-import copy
-import json
-import multiprocessing
-import os
-import tempfile
-import time
-import uuid
-from collections.abc import Callable, Generator
-from enum import Enum
-from typing import Annotated, Literal
-import torch
-import zmq
-from fairscale.nn.model_parallel.initialize import (
-    get_model_parallel_group,
-    get_model_parallel_rank,
-    get_model_parallel_src_rank,
-)
-from pydantic import BaseModel, Field
-from torch.distributed.launcher.api import LaunchConfig, elastic_launch
-from llama_stack.log import get_logger
-from llama_stack.models.llama.datatypes import GenerationResult
-log = get_logger(name=__name__, category="inference")
-class ProcessingMessageName(str, Enum):
-    ready_request = "ready_request"
-    ready_response = "ready_response"
-    end_sentinel = "end_sentinel"
-    cancel_sentinel = "cancel_sentinel"
-    task_request = "task_request"
-    task_response = "task_response"
-    exception_response = "exception_response"
-class ReadyRequest(BaseModel):
-    type: Literal[ProcessingMessageName.ready_request] = ProcessingMessageName.ready_request
-class ReadyResponse(BaseModel):
-    type: Literal[ProcessingMessageName.ready_response] = ProcessingMessageName.ready_response
-class EndSentinel(BaseModel):
-    type: Literal[ProcessingMessageName.end_sentinel] = ProcessingMessageName.end_sentinel
-class CancelSentinel(BaseModel):
-    type: Literal[ProcessingMessageName.cancel_sentinel] = ProcessingMessageName.cancel_sentinel
-class TaskRequest(BaseModel):
-    type: Literal[ProcessingMessageName.task_request] = ProcessingMessageName.task_request
-    task: tuple[str, list]
-class TaskResponse(BaseModel):
-    type: Literal[ProcessingMessageName.task_response] = ProcessingMessageName.task_response
-    result: list[GenerationResult]
-class ExceptionResponse(BaseModel):
-    type: Literal[ProcessingMessageName.exception_response] = ProcessingMessageName.exception_response
-    error: str
-ProcessingMessage = (
-    ReadyRequest | ReadyResponse | EndSentinel | CancelSentinel | TaskRequest | TaskResponse | ExceptionResponse
-)
-class ProcessingMessageWrapper(BaseModel):
-    payload: Annotated[
-        ProcessingMessage,
-        Field(discriminator="type"),
-    ]
-def mp_rank_0() -> bool:
-    return bool(get_model_parallel_rank() == 0)
-def encode_msg(msg: ProcessingMessage) -> bytes:
-    return ProcessingMessageWrapper(payload=msg).model_dump_json().encode("utf-8")
-def retrieve_requests(reply_socket_url: str):
-    if mp_rank_0():
-        context = zmq.Context()
-        reply_socket = context.socket(zmq.ROUTER)
-        reply_socket.connect(reply_socket_url)
-        while True:
-            client_id, obj = maybe_get_work(reply_socket)
-            if obj is None:
-                time.sleep(0.01)
-                continue
-            ready_response = ReadyResponse()
-            reply_socket.send_multipart([client_id, encode_msg(ready_response)])
-            break
-    def send_obj(obj: ProcessingMessage):
-        reply_socket.send_multipart([client_id, encode_msg(obj)])
-    while True:
-        tasks: list[ProcessingMessage | None] = [None]
-        if mp_rank_0():
-            client_id, maybe_task_json = maybe_get_work(reply_socket)
-            if maybe_task_json is not None:
-                task = maybe_parse_message(maybe_task_json)
-                # there is still an unknown unclean GeneratorExit happening resulting in a
-                # cancel sentinel getting queued _after_ we have finished sending everything :/
-                # kind of a hack this is :/
-                if task is not None and not isinstance(task, CancelSentinel):
-                    tasks = [task]
-        torch.distributed.broadcast_object_list(
-            tasks,
-            src=get_model_parallel_src_rank(),
-            group=get_model_parallel_group(),
-        )
-        task = tasks[0]
-        if task is None:
-            time.sleep(0.1)
-        else:
-            try:
-                out = yield task
-                if out is None:
-                    break
-                for obj in out:
-                    updates: list[ProcessingMessage | None] = [None]
-                    if mp_rank_0():
-                        _, update_json = maybe_get_work(reply_socket)
-                        update = maybe_parse_message(update_json)
-                        if isinstance(update, CancelSentinel):
-                            updates = [update]
-                        else:
-                            # only send the update if it's not cancelled otherwise the object sits in the socket
-                            # and gets pulled in the next request lol
-                            send_obj(TaskResponse(result=obj))
-                    torch.distributed.broadcast_object_list(
-                        updates,
-                        src=get_model_parallel_src_rank(),
-                        group=get_model_parallel_group(),
-                    )
-                    if isinstance(updates[0], CancelSentinel):
-                        log.info("quitting generation loop because request was cancelled")
-                        break
-                if mp_rank_0():
-                    send_obj(EndSentinel())
-            except Exception as e:
-                log.exception("exception in generation loop")
-                if mp_rank_0():
-                    send_obj(ExceptionResponse(error=str(e)))
-    if mp_rank_0():
-        send_obj(EndSentinel())
-def maybe_get_work(sock: zmq.Socket):
-    message = None
-    client_id = None
-    try:
-        client_id, obj = sock.recv_multipart(zmq.NOBLOCK)
-        message = obj.decode("utf-8")
-    except zmq.ZMQError as e:
-        if e.errno != zmq.EAGAIN:
-            raise e
-    return client_id, message
-def maybe_parse_message(maybe_json: str | None) -> ProcessingMessage | None:
-    if maybe_json is None:
-        return None
-    try:
-        return parse_message(maybe_json)
-    except json.JSONDecodeError:
-        return None
-    except ValueError:
-        return None
-def parse_message(json_str: str) -> ProcessingMessage:
-    data = json.loads(json_str)
-    return copy.deepcopy(ProcessingMessageWrapper(**data).payload)
-def worker_process_entrypoint(
-    reply_socket_url: str,
-    init_model_cb: Callable,
-) -> None:
-    model = init_model_cb()
-    torch.distributed.barrier()
-    time.sleep(1)
-    # run the requests co-routine which retrieves requests from the socket
-    # and sends responses (we provide) back to the caller
-    req_gen = retrieve_requests(reply_socket_url)
-    result = None
-    while True:
-        try:
-            task = req_gen.send(result)
-            if isinstance(task, EndSentinel):
-                break
-            assert isinstance(task, TaskRequest), task
-            result = model(task.task)
-        except StopIteration:
-            break
-    log.info("[debug] worker process done")
-def launch_dist_group(
-    reply_socket_url: str,
-    model_parallel_size: int,
-    init_model_cb: Callable,
-    **kwargs,
-) -> None:
-    with tempfile.TemporaryDirectory() as tmpdir:
-        # TODO: track workers and if they terminate, tell parent process about it so cleanup can happen
-        launch_config = LaunchConfig(
-            max_nodes=1,
-            min_nodes=1,
-            nproc_per_node=model_parallel_size,
-            start_method="fork",
-            rdzv_backend="c10d",
-            rdzv_endpoint=os.path.join(tmpdir, "rdzv"),
-            rdzv_configs={"store_type": "file", "timeout": 90},
-            max_restarts=0,
-            monitor_interval=1,
-            run_id=str(uuid.uuid4()),
-        )
-        elastic_launch(launch_config, entrypoint=worker_process_entrypoint)(
-            reply_socket_url,
-            init_model_cb,
-        )
-def start_model_parallel_process(
-    model_parallel_size: int,
-    init_model_cb: Callable,
-    **kwargs,
-):
-    context = zmq.Context()
-    request_socket = context.socket(zmq.DEALER)
-    # Binding the request socket to a random port
-    request_socket.bind("tcp://127.0.0.1:0")
-    main_process_url = request_socket.getsockopt_string(zmq.LAST_ENDPOINT)
-    ctx = multiprocessing.get_context("spawn")
-    process = ctx.Process(
-        target=launch_dist_group,
-        args=(
-            main_process_url,
-            model_parallel_size,
-            init_model_cb,
-        ),
-        kwargs=kwargs,
-    )
-    process.start()
-    # wait until the model is loaded; rank 0 will send a message to indicate it's ready
-    request_socket.send(encode_msg(ReadyRequest()))
-    _response = request_socket.recv()
-    log.info("Loaded model...")
-    return request_socket, process
-class ModelParallelProcessGroup:
-    def __init__(
-        self,
-        model_parallel_size: int,
-        init_model_cb: Callable,
-        **kwargs,
-    ):
-        self.model_parallel_size = model_parallel_size
-        self.init_model_cb = init_model_cb
-        self.started = False
-        self.running = False
-    def start(self):
-        assert not self.started, "process group already started"
-        self.request_socket, self.process = start_model_parallel_process(
-            self.model_parallel_size,
-            self.init_model_cb,
-        )
-        self.started = True
-    def stop(self):
-        assert self.started, "process group not started"
-        if self.process.is_alive():
-            self.request_socket.send(encode_msg(EndSentinel()), zmq.NOBLOCK)
-            self.process.join()
-        self.started = False
-    def run_inference(
-        self,
-        req: tuple[str, list],
-    ) -> Generator:
-        assert not self.running, "inference already running"
-        self.running = True
-        try:
-            self.request_socket.send(encode_msg(TaskRequest(task=req)))
-            while True:
-                obj_json = self.request_socket.recv()
-                obj = parse_message(obj_json)
-                if isinstance(obj, EndSentinel):
-                    break
-                if isinstance(obj, ExceptionResponse):
-                    log.error(f"[debug] got exception {obj.error}")
-                    raise Exception(obj.error)
-                if isinstance(obj, TaskResponse):
-                    yield obj.result
-        except GeneratorExit:
-            self.request_socket.send(encode_msg(CancelSentinel()))
-            while True:
-                obj_json = self.request_socket.send()
-                obj = parse_message(obj_json)
-                if isinstance(obj, EndSentinel):
-                    break
-        finally:
-            self.running = False

llama_stack-0.4.3.dist-info/top_level.txt DELETED Viewed

	@@ -1,2 +0,0 @@
1	- llama_stack
2	- llama_stack_api

llama-stack 0.4.3__py3-none-any.whl → 0.5.0__py3-none-any.whl

llama-stack 0.4.3py3-none-any.whl → 0.5.0py3-none-any.whl