PyPI - llama-stack - Versions diffs - 0.4.3__py3-none-any.whl → 0.5.0rc1__py3-none-any.whl - Mend

llama-stack 0.4.3py3-none-any.whl → 0.5.0rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (307) hide show

llama_stack/cli/stack/_list_deps.py +11 -7
llama_stack/cli/stack/run.py +3 -25
llama_stack/core/access_control/datatypes.py +78 -0
llama_stack/core/configure.py +2 -2
{llama_stack_api/internal → llama_stack/core/connectors}/__init__.py +2 -2
llama_stack/core/connectors/connectors.py +162 -0
llama_stack/core/conversations/conversations.py +61 -58
llama_stack/core/datatypes.py +54 -8
llama_stack/core/library_client.py +60 -13
llama_stack/core/prompts/prompts.py +43 -42
llama_stack/core/routers/datasets.py +20 -17
llama_stack/core/routers/eval_scoring.py +143 -53
llama_stack/core/routers/inference.py +20 -9
llama_stack/core/routers/safety.py +30 -42
llama_stack/core/routers/vector_io.py +15 -7
llama_stack/core/routing_tables/models.py +42 -3
llama_stack/core/routing_tables/scoring_functions.py +19 -19
llama_stack/core/routing_tables/shields.py +20 -17
llama_stack/core/routing_tables/vector_stores.py +8 -5
llama_stack/core/server/auth.py +192 -17
llama_stack/core/server/fastapi_router_registry.py +40 -5
llama_stack/core/server/server.py +24 -5
llama_stack/core/stack.py +54 -10
llama_stack/core/storage/datatypes.py +9 -0
llama_stack/core/store/registry.py +1 -1
llama_stack/core/utils/exec.py +2 -2
llama_stack/core/utils/type_inspection.py +16 -2
llama_stack/distributions/dell/config.yaml +4 -1
llama_stack/distributions/dell/doc_template.md +209 -0
llama_stack/distributions/dell/run-with-safety.yaml +4 -1
llama_stack/distributions/nvidia/config.yaml +4 -1
llama_stack/distributions/nvidia/doc_template.md +170 -0
llama_stack/distributions/nvidia/run-with-safety.yaml +4 -1
llama_stack/distributions/oci/config.yaml +4 -1
llama_stack/distributions/oci/doc_template.md +140 -0
llama_stack/distributions/open-benchmark/config.yaml +9 -1
llama_stack/distributions/postgres-demo/config.yaml +1 -1
llama_stack/distributions/starter/build.yaml +62 -0
llama_stack/distributions/starter/config.yaml +22 -3
llama_stack/distributions/starter/run-with-postgres-store.yaml +22 -3
llama_stack/distributions/starter/starter.py +13 -1
llama_stack/distributions/starter-gpu/build.yaml +62 -0
llama_stack/distributions/starter-gpu/config.yaml +22 -3
llama_stack/distributions/starter-gpu/run-with-postgres-store.yaml +22 -3
llama_stack/distributions/template.py +10 -2
llama_stack/distributions/watsonx/config.yaml +4 -1
llama_stack/log.py +1 -0
llama_stack/models/llama/resources/dog.jpg +0 -0
llama_stack/models/llama/resources/pasta.jpeg +0 -0
llama_stack/models/llama/resources/small_dog.jpg +0 -0
llama_stack/providers/inline/agents/meta_reference/__init__.py +1 -0
llama_stack/providers/inline/agents/meta_reference/agents.py +57 -61
llama_stack/providers/inline/agents/meta_reference/responses/openai_responses.py +183 -60
llama_stack/providers/inline/agents/meta_reference/responses/streaming.py +94 -22
llama_stack/providers/inline/agents/meta_reference/responses/types.py +2 -1
llama_stack/providers/inline/agents/meta_reference/responses/utils.py +4 -1
llama_stack/providers/inline/agents/meta_reference/safety.py +2 -2
llama_stack/providers/inline/batches/reference/batches.py +2 -1
llama_stack/providers/inline/eval/meta_reference/eval.py +40 -32
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.h +9 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/LocalInference.swift +189 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/Parsing.swift +238 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/PromptTemplate.swift +12 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl/SystemPrompts.swift +89 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.pbxproj +550 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/contents.xcworkspacedata +7 -0
llama_stack/providers/inline/ios/inference/LocalInferenceImpl.xcodeproj/project.xcworkspace/xcshareddata/IDEWorkspaceChecks.plist +8 -0
llama_stack/providers/inline/post_training/huggingface/post_training.py +33 -38
llama_stack/providers/inline/post_training/huggingface/utils.py +2 -5
llama_stack/providers/inline/post_training/torchtune/post_training.py +28 -33
llama_stack/providers/inline/post_training/torchtune/recipes/lora_finetuning_single_device.py +2 -4
llama_stack/providers/inline/safety/code_scanner/code_scanner.py +12 -15
llama_stack/providers/inline/safety/llama_guard/llama_guard.py +15 -18
llama_stack/providers/inline/safety/prompt_guard/prompt_guard.py +11 -17
llama_stack/providers/inline/scoring/basic/scoring.py +13 -17
llama_stack/providers/inline/scoring/braintrust/braintrust.py +15 -15
llama_stack/providers/inline/scoring/llm_as_judge/scoring.py +13 -17
llama_stack/providers/inline/vector_io/sqlite_vec/sqlite_vec.py +1 -1
llama_stack/providers/registry/agents.py +1 -0
llama_stack/providers/registry/inference.py +1 -9
llama_stack/providers/registry/vector_io.py +136 -16
llama_stack/providers/remote/datasetio/nvidia/README.md +74 -0
llama_stack/providers/remote/eval/nvidia/README.md +134 -0
llama_stack/providers/remote/eval/nvidia/eval.py +22 -21
llama_stack/providers/remote/files/s3/README.md +266 -0
llama_stack/providers/remote/files/s3/config.py +5 -3
llama_stack/providers/remote/files/s3/files.py +2 -2
llama_stack/providers/remote/inference/gemini/gemini.py +4 -0
llama_stack/providers/remote/inference/nvidia/NVIDIA.md +203 -0
llama_stack/providers/remote/inference/openai/openai.py +2 -0
llama_stack/providers/remote/inference/together/together.py +4 -0
llama_stack/providers/remote/inference/vertexai/config.py +3 -3
llama_stack/providers/remote/inference/vertexai/vertexai.py +5 -2
llama_stack/providers/remote/inference/vllm/config.py +37 -18
llama_stack/providers/remote/inference/vllm/vllm.py +0 -3
llama_stack/providers/remote/inference/watsonx/watsonx.py +4 -0
llama_stack/providers/remote/post_training/nvidia/README.md +151 -0
llama_stack/providers/remote/post_training/nvidia/post_training.py +31 -33
llama_stack/providers/remote/safety/bedrock/bedrock.py +10 -27
llama_stack/providers/remote/safety/nvidia/README.md +78 -0
llama_stack/providers/remote/safety/nvidia/nvidia.py +9 -25
llama_stack/providers/remote/safety/sambanova/sambanova.py +13 -11
llama_stack/providers/remote/vector_io/elasticsearch/__init__.py +17 -0
llama_stack/providers/remote/vector_io/elasticsearch/config.py +32 -0
llama_stack/providers/remote/vector_io/elasticsearch/elasticsearch.py +463 -0
llama_stack/providers/remote/vector_io/oci/__init__.py +22 -0
llama_stack/providers/remote/vector_io/oci/config.py +41 -0
llama_stack/providers/remote/vector_io/oci/oci26ai.py +595 -0
llama_stack/providers/remote/vector_io/pgvector/config.py +69 -2
llama_stack/providers/remote/vector_io/pgvector/pgvector.py +255 -6
llama_stack/providers/remote/vector_io/qdrant/qdrant.py +62 -38
llama_stack/providers/utils/bedrock/client.py +3 -3
llama_stack/providers/utils/bedrock/config.py +7 -7
llama_stack/providers/utils/inference/embedding_mixin.py +4 -0
llama_stack/providers/utils/inference/http_client.py +239 -0
llama_stack/providers/utils/inference/litellm_openai_mixin.py +5 -0
llama_stack/providers/utils/inference/model_registry.py +148 -2
llama_stack/providers/utils/inference/openai_compat.py +2 -1
llama_stack/providers/utils/inference/openai_mixin.py +41 -2
llama_stack/providers/utils/memory/openai_vector_store_mixin.py +92 -5
llama_stack/providers/utils/memory/vector_store.py +46 -19
llama_stack/providers/utils/responses/responses_store.py +40 -6
llama_stack/providers/utils/safety.py +114 -0
llama_stack/providers/utils/tools/mcp.py +44 -3
llama_stack/testing/api_recorder.py +9 -3
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0rc1.dist-info}/METADATA +14 -2
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0rc1.dist-info}/RECORD +131 -275
llama_stack-0.5.0rc1.dist-info/top_level.txt +1 -0
llama_stack/distributions/meta-reference-gpu/__init__.py +0 -7
llama_stack/distributions/meta-reference-gpu/config.yaml +0 -140
llama_stack/distributions/meta-reference-gpu/meta_reference.py +0 -163
llama_stack/distributions/meta-reference-gpu/run-with-safety.yaml +0 -155
llama_stack/models/llama/hadamard_utils.py +0 -88
llama_stack/models/llama/llama3/args.py +0 -74
llama_stack/models/llama/llama3/generation.py +0 -378
llama_stack/models/llama/llama3/model.py +0 -304
llama_stack/models/llama/llama3/multimodal/__init__.py +0 -12
llama_stack/models/llama/llama3/multimodal/encoder_utils.py +0 -180
llama_stack/models/llama/llama3/multimodal/image_transform.py +0 -409
llama_stack/models/llama/llama3/multimodal/model.py +0 -1430
llama_stack/models/llama/llama3/multimodal/utils.py +0 -26
llama_stack/models/llama/llama3/quantization/__init__.py +0 -5
llama_stack/models/llama/llama3/quantization/loader.py +0 -316
llama_stack/models/llama/llama3_1/__init__.py +0 -12
llama_stack/models/llama/llama3_1/prompt_format.md +0 -358
llama_stack/models/llama/llama3_1/prompts.py +0 -258
llama_stack/models/llama/llama3_2/__init__.py +0 -5
llama_stack/models/llama/llama3_2/prompts_text.py +0 -229
llama_stack/models/llama/llama3_2/prompts_vision.py +0 -126
llama_stack/models/llama/llama3_2/text_prompt_format.md +0 -286
llama_stack/models/llama/llama3_2/vision_prompt_format.md +0 -141
llama_stack/models/llama/llama3_3/__init__.py +0 -5
llama_stack/models/llama/llama3_3/prompts.py +0 -259
llama_stack/models/llama/llama4/args.py +0 -107
llama_stack/models/llama/llama4/ffn.py +0 -58
llama_stack/models/llama/llama4/moe.py +0 -214
llama_stack/models/llama/llama4/preprocess.py +0 -435
llama_stack/models/llama/llama4/quantization/__init__.py +0 -5
llama_stack/models/llama/llama4/quantization/loader.py +0 -226
llama_stack/models/llama/llama4/vision/__init__.py +0 -5
llama_stack/models/llama/llama4/vision/embedding.py +0 -210
llama_stack/models/llama/llama4/vision/encoder.py +0 -412
llama_stack/models/llama/quantize_impls.py +0 -316
llama_stack/providers/inline/inference/meta_reference/__init__.py +0 -20
llama_stack/providers/inline/inference/meta_reference/common.py +0 -24
llama_stack/providers/inline/inference/meta_reference/config.py +0 -68
llama_stack/providers/inline/inference/meta_reference/generators.py +0 -201
llama_stack/providers/inline/inference/meta_reference/inference.py +0 -542
llama_stack/providers/inline/inference/meta_reference/model_parallel.py +0 -77
llama_stack/providers/inline/inference/meta_reference/parallel_utils.py +0 -353
llama_stack-0.4.3.dist-info/top_level.txt +0 -2
llama_stack_api/__init__.py +0 -945
llama_stack_api/admin/__init__.py +0 -45
llama_stack_api/admin/api.py +0 -72
llama_stack_api/admin/fastapi_routes.py +0 -117
llama_stack_api/admin/models.py +0 -113
llama_stack_api/agents.py +0 -173
llama_stack_api/batches/__init__.py +0 -40
llama_stack_api/batches/api.py +0 -53
llama_stack_api/batches/fastapi_routes.py +0 -113
llama_stack_api/batches/models.py +0 -78
llama_stack_api/benchmarks/__init__.py +0 -43
llama_stack_api/benchmarks/api.py +0 -39
llama_stack_api/benchmarks/fastapi_routes.py +0 -109
llama_stack_api/benchmarks/models.py +0 -109
llama_stack_api/common/__init__.py +0 -5
llama_stack_api/common/content_types.py +0 -101
llama_stack_api/common/errors.py +0 -95
llama_stack_api/common/job_types.py +0 -38
llama_stack_api/common/responses.py +0 -77
llama_stack_api/common/training_types.py +0 -47
llama_stack_api/common/type_system.py +0 -146
llama_stack_api/connectors.py +0 -146
llama_stack_api/conversations.py +0 -270
llama_stack_api/datasetio.py +0 -55
llama_stack_api/datasets/__init__.py +0 -61
llama_stack_api/datasets/api.py +0 -35
llama_stack_api/datasets/fastapi_routes.py +0 -104
llama_stack_api/datasets/models.py +0 -152
llama_stack_api/datatypes.py +0 -373
llama_stack_api/eval.py +0 -137
llama_stack_api/file_processors/__init__.py +0 -27
llama_stack_api/file_processors/api.py +0 -64
llama_stack_api/file_processors/fastapi_routes.py +0 -78
llama_stack_api/file_processors/models.py +0 -42
llama_stack_api/files/__init__.py +0 -35
llama_stack_api/files/api.py +0 -51
llama_stack_api/files/fastapi_routes.py +0 -124
llama_stack_api/files/models.py +0 -107
llama_stack_api/inference.py +0 -1169
llama_stack_api/inspect_api/__init__.py +0 -37
llama_stack_api/inspect_api/api.py +0 -25
llama_stack_api/inspect_api/fastapi_routes.py +0 -76
llama_stack_api/inspect_api/models.py +0 -28
llama_stack_api/internal/kvstore.py +0 -28
llama_stack_api/internal/sqlstore.py +0 -81
llama_stack_api/llama_stack_api/__init__.py +0 -945
llama_stack_api/llama_stack_api/admin/__init__.py +0 -45
llama_stack_api/llama_stack_api/admin/api.py +0 -72
llama_stack_api/llama_stack_api/admin/fastapi_routes.py +0 -117
llama_stack_api/llama_stack_api/admin/models.py +0 -113
llama_stack_api/llama_stack_api/agents.py +0 -173
llama_stack_api/llama_stack_api/batches/__init__.py +0 -40
llama_stack_api/llama_stack_api/batches/api.py +0 -53
llama_stack_api/llama_stack_api/batches/fastapi_routes.py +0 -113
llama_stack_api/llama_stack_api/batches/models.py +0 -78
llama_stack_api/llama_stack_api/benchmarks/__init__.py +0 -43
llama_stack_api/llama_stack_api/benchmarks/api.py +0 -39
llama_stack_api/llama_stack_api/benchmarks/fastapi_routes.py +0 -109
llama_stack_api/llama_stack_api/benchmarks/models.py +0 -109
llama_stack_api/llama_stack_api/common/__init__.py +0 -5
llama_stack_api/llama_stack_api/common/content_types.py +0 -101
llama_stack_api/llama_stack_api/common/errors.py +0 -95
llama_stack_api/llama_stack_api/common/job_types.py +0 -38
llama_stack_api/llama_stack_api/common/responses.py +0 -77
llama_stack_api/llama_stack_api/common/training_types.py +0 -47
llama_stack_api/llama_stack_api/common/type_system.py +0 -146
llama_stack_api/llama_stack_api/connectors.py +0 -146
llama_stack_api/llama_stack_api/conversations.py +0 -270
llama_stack_api/llama_stack_api/datasetio.py +0 -55
llama_stack_api/llama_stack_api/datasets/__init__.py +0 -61
llama_stack_api/llama_stack_api/datasets/api.py +0 -35
llama_stack_api/llama_stack_api/datasets/fastapi_routes.py +0 -104
llama_stack_api/llama_stack_api/datasets/models.py +0 -152
llama_stack_api/llama_stack_api/datatypes.py +0 -373
llama_stack_api/llama_stack_api/eval.py +0 -137
llama_stack_api/llama_stack_api/file_processors/__init__.py +0 -27
llama_stack_api/llama_stack_api/file_processors/api.py +0 -64
llama_stack_api/llama_stack_api/file_processors/fastapi_routes.py +0 -78
llama_stack_api/llama_stack_api/file_processors/models.py +0 -42
llama_stack_api/llama_stack_api/files/__init__.py +0 -35
llama_stack_api/llama_stack_api/files/api.py +0 -51
llama_stack_api/llama_stack_api/files/fastapi_routes.py +0 -124
llama_stack_api/llama_stack_api/files/models.py +0 -107
llama_stack_api/llama_stack_api/inference.py +0 -1169
llama_stack_api/llama_stack_api/inspect_api/__init__.py +0 -37
llama_stack_api/llama_stack_api/inspect_api/api.py +0 -25
llama_stack_api/llama_stack_api/inspect_api/fastapi_routes.py +0 -76
llama_stack_api/llama_stack_api/inspect_api/models.py +0 -28
llama_stack_api/llama_stack_api/internal/__init__.py +0 -9
llama_stack_api/llama_stack_api/internal/kvstore.py +0 -28
llama_stack_api/llama_stack_api/internal/sqlstore.py +0 -81
llama_stack_api/llama_stack_api/models.py +0 -171
llama_stack_api/llama_stack_api/openai_responses.py +0 -1468
llama_stack_api/llama_stack_api/post_training.py +0 -370
llama_stack_api/llama_stack_api/prompts.py +0 -203
llama_stack_api/llama_stack_api/providers/__init__.py +0 -33
llama_stack_api/llama_stack_api/providers/api.py +0 -16
llama_stack_api/llama_stack_api/providers/fastapi_routes.py +0 -57
llama_stack_api/llama_stack_api/providers/models.py +0 -24
llama_stack_api/llama_stack_api/py.typed +0 -0
llama_stack_api/llama_stack_api/rag_tool.py +0 -168
llama_stack_api/llama_stack_api/resource.py +0 -37
llama_stack_api/llama_stack_api/router_utils.py +0 -160
llama_stack_api/llama_stack_api/safety.py +0 -132
llama_stack_api/llama_stack_api/schema_utils.py +0 -208
llama_stack_api/llama_stack_api/scoring.py +0 -93
llama_stack_api/llama_stack_api/scoring_functions.py +0 -211
llama_stack_api/llama_stack_api/shields.py +0 -93
llama_stack_api/llama_stack_api/tools.py +0 -226
llama_stack_api/llama_stack_api/vector_io.py +0 -941
llama_stack_api/llama_stack_api/vector_stores.py +0 -53
llama_stack_api/llama_stack_api/version.py +0 -9
llama_stack_api/models.py +0 -171
llama_stack_api/openai_responses.py +0 -1468
llama_stack_api/post_training.py +0 -370
llama_stack_api/prompts.py +0 -203
llama_stack_api/providers/__init__.py +0 -33
llama_stack_api/providers/api.py +0 -16
llama_stack_api/providers/fastapi_routes.py +0 -57
llama_stack_api/providers/models.py +0 -24
llama_stack_api/py.typed +0 -0
llama_stack_api/rag_tool.py +0 -168
llama_stack_api/resource.py +0 -37
llama_stack_api/router_utils.py +0 -160
llama_stack_api/safety.py +0 -132
llama_stack_api/schema_utils.py +0 -208
llama_stack_api/scoring.py +0 -93
llama_stack_api/scoring_functions.py +0 -211
llama_stack_api/shields.py +0 -93
llama_stack_api/tools.py +0 -226
llama_stack_api/vector_io.py +0 -941
llama_stack_api/vector_stores.py +0 -53
llama_stack_api/version.py +0 -9
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0rc1.dist-info}/WHEEL +0 -0
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0rc1.dist-info}/entry_points.txt +0 -0
{llama_stack-0.4.3.dist-info → llama_stack-0.5.0rc1.dist-info}/licenses/LICENSE +0 -0

llama_stack/providers/utils/memory/openai_vector_store_mixin.py CHANGED Viewed

@@ -671,6 +671,19 @@ class OpenAIVectorStoreMixin(ABC):
             search_query = query
         try:
+            # Validate neural ranker requires model parameter
+            if ranking_options is not None:
+                if getattr(ranking_options, "ranker", None) == "neural":
+                    model_value = getattr(ranking_options, "model", None)
+                    if model_value is None or (isinstance(model_value, str) and model_value.strip() == ""):
+                        # Return empty results when model is missing for neural ranker
+                        logger.warning("model parameter is required when ranker='neural', returning empty results")
+                        return VectorStoreSearchResponsePage(
+                            search_query=query if isinstance(query, list) else [query],
+                            data=[],
+                            has_more=False,
+                            next_page=None,
+                        )
             score_threshold = (
                 ranking_options.score_threshold
                 if ranking_options and ranking_options.score_threshold is not None
@@ -681,7 +694,10 @@ class OpenAIVectorStoreMixin(ABC):
                 "score_threshold": score_threshold,
                 "mode": search_mode,
             }
-            # TODO: Add support for ranking_options.ranker
+            # Use VectorStoresConfig defaults when ranking_options values are not provided
+            config = self.vector_stores_config or VectorStoresConfig()
+            params.update(self._build_reranker_params(ranking_options, config))
             response = await self.query_chunks(
                 vector_store_id=vector_store_id,
@@ -722,8 +738,8 @@ class OpenAIVectorStoreMixin(ABC):
             )
         except Exception as e:
+            # Log the error and return empty results
             logger.error(f"Error searching vector store {vector_store_id}: {e}")
-            # Return empty results on error
             return VectorStoreSearchResponsePage(
                 search_query=query if isinstance(query, list) else [query],
                 data=[],
@@ -731,6 +747,62 @@ class OpenAIVectorStoreMixin(ABC):
                 next_page=None,
             )
+    def _build_reranker_params(
+        self,
+        ranking_options: SearchRankingOptions | None,
+        config: VectorStoresConfig,
+    ) -> dict[str, Any]:
+        reranker_params: dict[str, Any] = {}
+        params: dict[str, Any] = {}
+        if ranking_options and ranking_options.ranker:
+            reranker_type = ranking_options.ranker
+            if ranking_options.ranker == "weighted":
+                alpha = ranking_options.alpha
+                if alpha is None:
+                    alpha = config.chunk_retrieval_params.weighted_search_alpha
+                reranker_params["alpha"] = alpha
+                if ranking_options.weights:
+                    reranker_params["weights"] = ranking_options.weights
+            elif ranking_options.ranker == "rrf":
+                # For RRF ranker, use impact_factor from request if provided, otherwise use VectorStoresConfig default
+                impact_factor = ranking_options.impact_factor
+                if impact_factor is None:
+                    impact_factor = config.chunk_retrieval_params.rrf_impact_factor
+                reranker_params["impact_factor"] = impact_factor
+                # If weights dict is provided (for neural combination), store it
+                if ranking_options.weights:
+                    reranker_params["weights"] = ranking_options.weights
+            elif ranking_options.ranker == "neural":
+                reranker_params["model"] = ranking_options.model
+            else:
+                logger.debug(f"Unknown ranker value: {ranking_options.ranker}, passing through")
+            params["reranker_type"] = reranker_type
+            params["reranker_params"] = reranker_params
+            # Store model and weights for neural reranking (TODO: implemented in Part II)
+            if ranking_options.model:
+                params["neural_model"] = ranking_options.model
+            if ranking_options.weights:
+                params["neural_weights"] = ranking_options.weights
+        elif ranking_options is None or ranking_options.ranker is None:
+            # No ranker specified in request - use VectorStoresConfig default
+            default_strategy = config.chunk_retrieval_params.default_reranker_strategy
+            if default_strategy in ("weighted", "rrf"):
+                params["reranker_type"] = default_strategy
+                reranker_params = {}
+                if default_strategy == "weighted":
+                    reranker_params["alpha"] = config.chunk_retrieval_params.weighted_search_alpha
+                elif default_strategy == "rrf":
+                    reranker_params["impact_factor"] = config.chunk_retrieval_params.rrf_impact_factor
+                params["reranker_params"] = reranker_params
+        return params
     def _matches_filters(self, metadata: dict[str, Any], filters: dict[str, Any]) -> bool:
         """Check if metadata matches the provided filters."""
         if not filters:
@@ -738,15 +810,29 @@ class OpenAIVectorStoreMixin(ABC):
         filter_type = filters.get("type")
+        if filter_type is None:
+            if "key" not in filters and "value" not in filters and "filters" not in filters:
+                for key, value in filters.items():
+                    if key not in metadata:
+                        return False
+                    if metadata[key] != value:
+                        return False
+                return True
+            else:
+                raise ValueError("Unsupported filter structure: missing 'type' field")
         if filter_type in ["eq", "ne", "gt", "gte", "lt", "lte"]:
             # Comparison filter
-            key = filters.get("key")
+            filter_key = filters.get("key")
             value = filters.get("value")
-            if key not in metadata:
+            if filter_key is None or not isinstance(filter_key, str):
+                return False
+            if filter_key not in metadata:
                 return False
-            metadata_value = metadata[key]
+            metadata_value = metadata[filter_key]
             if filter_type == "eq":
                 return bool(metadata_value == value)
@@ -901,6 +987,7 @@ class OpenAIVectorStoreMixin(ABC):
                 params = OpenAIEmbeddingsRequestWithExtraBody(
                     model=embedding_model,
                     input=[interleaved_content_as_str(c.content) for c in chunks],
+                    dimensions=embedding_dimension,
                 )
                 resp = await self.inference_api.openai_embeddings(params)

llama_stack/providers/utils/memory/vector_store.py CHANGED Viewed

@@ -297,37 +297,64 @@ class VectorStoreWithIndex:
         mode = params.get("mode")
         score_threshold = params.get("score_threshold", 0.0)
-        ranker = params.get("ranker")
-        if ranker is None:
+        # Get reranker configuration from params (set by openai_vector_store_mixin)
+        # NOTE: Breaking change - removed support for old nested "ranker" format.
+        #       Now uses flattened format: reranker_type and reranker_params.
+        reranker_type = params.get("reranker_type")
+        reranker_params = params.get("reranker_params", {})
+        # If no ranker specified, use VectorStoresConfig default
+        if reranker_type is None:
             reranker_type = (
                 RERANKER_TYPE_RRF
                 if config.chunk_retrieval_params.default_reranker_strategy == "rrf"
                 else config.chunk_retrieval_params.default_reranker_strategy
             )
             reranker_params = {"impact_factor": config.chunk_retrieval_params.rrf_impact_factor}
+        # Normalize reranker_type to use constants
+        if reranker_type == "weighted":
+            reranker_type = RERANKER_TYPE_WEIGHTED
+            # Ensure alpha is set (use default if not provided)
+            if "alpha" not in reranker_params:
+                reranker_params["alpha"] = config.chunk_retrieval_params.weighted_search_alpha
+        elif reranker_type == "rrf":
+            reranker_type = RERANKER_TYPE_RRF
+            # Ensure impact_factor is set (use default if not provided)
+            if "impact_factor" not in reranker_params:
+                reranker_params["impact_factor"] = config.chunk_retrieval_params.rrf_impact_factor
+        elif reranker_type == "neural":
+            # TODO: Implement neural reranking
+            log.warning(
+                "TODO: Neural reranking for vector stores is not implemented yet; "
+                "using configured reranker params without algorithm fallback."
+            )
+        elif reranker_type == "normalized":
+            reranker_type = RERANKER_TYPE_NORMALIZED
         else:
-            strategy = ranker.get("strategy", config.chunk_retrieval_params.default_reranker_strategy)
-            if strategy == "weighted":
-                weights = ranker.get("params", {}).get("weights", [0.5, 0.5])
-                reranker_type = RERANKER_TYPE_WEIGHTED
-                reranker_params = {
-                    "alpha": weights[0] if len(weights) > 0 else config.chunk_retrieval_params.weighted_search_alpha
-                }
-            elif strategy == "normalized":
-                reranker_type = RERANKER_TYPE_NORMALIZED
-            else:
-                reranker_type = RERANKER_TYPE_RRF
-                k_value = ranker.get("params", {}).get("k", config.chunk_retrieval_params.rrf_impact_factor)
-                reranker_params = {"impact_factor": k_value}
+            # Default to RRF for unknown strategies
+            reranker_type = RERANKER_TYPE_RRF
+            if "impact_factor" not in reranker_params:
+                reranker_params["impact_factor"] = config.chunk_retrieval_params.rrf_impact_factor
+        # Store neural model and weights from params if provided (for future neural reranking in Part II)
+        if "neural_model" in params:
+            reranker_params["neural_model"] = params["neural_model"]
+        if "neural_weights" in params:
+            reranker_params["neural_weights"] = params["neural_weights"]
         query_string = interleaved_content_as_str(query)
         if mode == "keyword":
             return await self.index.query_keyword(query_string, k, score_threshold)
-        params = OpenAIEmbeddingsRequestWithExtraBody(
-            model=self.vector_store.embedding_model,
-            input=[query_string],
-        )
+        if "embedding_dimensions" in params:
+            params = OpenAIEmbeddingsRequestWithExtraBody(
+                model=self.vector_store.embedding_model,
+                input=[query_string],
+                dimensions=params.get("embedding_dimensions"),
+            )
+        else:
+            params = OpenAIEmbeddingsRequestWithExtraBody(model=self.vector_store.embedding_model, input=[query_string])
         embeddings_response = await self.inference_api.openai_embeddings(params)
         query_vector = np.array(embeddings_response.data[0].embedding, dtype=np.float32)
         if mode == "hybrid":

llama_stack/providers/utils/responses/responses_store.py CHANGED Viewed

@@ -57,7 +57,7 @@ class ResponsesStore:
         self.sql_store = AuthorizedSqlStore(base_store, self.policy)
         await self.sql_store.create_table(
-            "openai_responses",
+            self.reference.table_name,
             {
                 "id": ColumnDefinition(type=ColumnType.STRING, primary_key=True),
                 "created_at": ColumnType.INTEGER,
@@ -89,6 +89,40 @@ class ResponsesStore:
     ) -> None:
         await self._write_response_object(response_object, input, messages)
+    async def upsert_response_object(
+        self,
+        response_object: OpenAIResponseObject,
+        input: list[OpenAIResponseInput],
+        messages: list[OpenAIMessageParam],
+    ) -> None:
+        """Upsert response object using INSERT on first call, UPDATE on subsequent calls.
+        This method enables incremental persistence during streaming, allowing clients
+        to poll GET /v1/responses/{response_id} and see in-progress turn state.
+        :param response_object: The response object to store/update.
+        :param input: The input items for the response.
+        :param messages: The chat completion messages (for conversation continuity).
+        """
+        if self.sql_store is None:
+            raise ValueError("Responses store is not initialized")
+        data = response_object.model_dump()
+        data["input"] = [input_item.model_dump() for input_item in input]
+        data["messages"] = [msg.model_dump() for msg in messages]
+        await self.sql_store.upsert(
+            table=self.reference.table_name,
+            data={
+                "id": data["id"],
+                "created_at": data["created_at"],
+                "model": data["model"],
+                "response_object": data,
+            },
+            conflict_columns=["id"],
+            update_columns=["response_object"],
+        )
     async def _write_response_object(
         self,
         response_object: OpenAIResponseObject,
@@ -103,7 +137,7 @@ class ResponsesStore:
         data["messages"] = [msg.model_dump() for msg in messages]
         await self.sql_store.insert(
-            "openai_responses",
+            self.reference.table_name,
             {
                 "id": data["id"],
                 "created_at": data["created_at"],
@@ -138,7 +172,7 @@ class ResponsesStore:
             where_conditions["model"] = model
         paginated_result = await self.sql_store.fetch_all(
-            table="openai_responses",
+            table=self.reference.table_name,
             where=where_conditions if where_conditions else None,
             order_by=[("created_at", order.value)],
             cursor=("id", after) if after else None,
@@ -161,7 +195,7 @@ class ResponsesStore:
             raise ValueError("Responses store is not initialized")
         row = await self.sql_store.fetch_one(
-            "openai_responses",
+            self.reference.table_name,
             where={"id": response_id},
         )
@@ -176,10 +210,10 @@ class ResponsesStore:
         if not self.sql_store:
             raise ValueError("Responses store is not initialized")
-        row = await self.sql_store.fetch_one("openai_responses", where={"id": response_id})
+        row = await self.sql_store.fetch_one(self.reference.table_name, where={"id": response_id})
         if not row:
             raise ValueError(f"Response with id {response_id} not found")
-        await self.sql_store.delete("openai_responses", where={"id": response_id})
+        await self.sql_store.delete(self.reference.table_name, where={"id": response_id})
         return OpenAIDeleteResponseObject(id=response_id)
     async def list_response_input_items(

llama_stack/providers/utils/safety.py ADDED Viewed

@@ -0,0 +1,114 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the terms described in the LICENSE file in
+# the root directory of this source tree.
+import uuid
+from typing import TYPE_CHECKING
+from llama_stack_api import (
+    ModerationObject,
+    ModerationObjectResults,
+    OpenAIUserMessageParam,
+    RunModerationRequest,
+    RunShieldRequest,
+    RunShieldResponse,
+)
+if TYPE_CHECKING:
+    # Type stub for mypy - actual implementation provided by provider class
+    class _RunShieldProtocol:
+        async def run_shield(self, request: RunShieldRequest) -> RunShieldResponse: ...
+class ShieldToModerationMixin:
+    """
+    Mixin that provides run_moderation implementation by delegating to run_shield.
+    Providers must implement run_shield(request: RunShieldRequest) for this mixin to work.
+    Providers with custom run_moderation implementations will override this automatically.
+    """
+    if TYPE_CHECKING:
+        # Type hint for mypy - run_shield is provided by the mixed-in class
+        async def run_shield(self, request: RunShieldRequest) -> RunShieldResponse: ...
+    async def run_moderation(self, request: RunModerationRequest) -> ModerationObject:
+        """
+        Run moderation by converting input to messages and delegating to run_shield.
+        Args:
+            request: RunModerationRequest with input and model
+        Returns:
+            ModerationObject with results for each input
+        Raises:
+            ValueError: If model is None
+        """
+        if request.model is None:
+            raise ValueError(f"{self.__class__.__name__} moderation requires a model identifier")
+        inputs = request.input if isinstance(request.input, list) else [request.input]
+        results = []
+        for text_input in inputs:
+            # Convert string to OpenAI message format
+            message = OpenAIUserMessageParam(content=text_input)
+            # Call run_shield (must be implemented by the provider)
+            shield_request = RunShieldRequest(
+                shield_id=request.model,
+                messages=[message],
+            )
+            shield_response = await self.run_shield(shield_request)
+            # Convert RunShieldResponse to ModerationObjectResults
+            results.append(self._shield_response_to_moderation_result(shield_response))
+        return ModerationObject(
+            id=f"modr-{uuid.uuid4()}",
+            model=request.model,
+            results=results,
+        )
+    def _shield_response_to_moderation_result(
+        self,
+        shield_response: RunShieldResponse,
+    ) -> ModerationObjectResults:
+        """Convert RunShieldResponse to ModerationObjectResults.
+        Args:
+            shield_response: The response from run_shield
+        Returns:
+            ModerationObjectResults with appropriate fields set
+        """
+        if shield_response.violation is None:
+            # Safe content
+            return ModerationObjectResults(
+                flagged=False,
+                categories={},
+                category_scores={},
+                category_applied_input_types={},
+                user_message=None,
+                metadata={},
+            )
+        # Unsafe content - extract violation details
+        v = shield_response.violation
+        violation_type = v.metadata.get("violation_type", "unsafe")
+        # Ensure violation_type is a string (metadata values can be Any)
+        if not isinstance(violation_type, str):
+            violation_type = "unsafe"
+        return ModerationObjectResults(
+            flagged=True,
+            categories={violation_type: True},
+            category_scores={violation_type: 1.0},
+            category_applied_input_types={violation_type: ["text"]},
+            user_message=v.user_message,
+            metadata=v.metadata,
+        )

llama_stack/providers/utils/tools/mcp.py CHANGED Viewed

@@ -8,6 +8,7 @@ import asyncio
 import hashlib
 from collections.abc import AsyncGenerator
 from contextlib import asynccontextmanager
+from dataclasses import dataclass
 from enum import Enum
 from typing import Any, cast
@@ -241,10 +242,12 @@ class MCPSessionManager:
             raise last_exception
         raise RuntimeError(f"Failed to create MCP session for {endpoint}")
-    async def close_all(self) -> None:
-        """Close all cached sessions.
+    async def __aenter__(self):
+        """Enter the async context manager."""
+        return self
-        Should be called at the end of a request to clean up resources.
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        """Exit the async context manager and cleanup all sessions.
         Note: We catch BaseException (not just Exception) because:
         1. CancelledError is a BaseException and can occur during cleanup
@@ -275,6 +278,8 @@ class MCPSessionManager:
         if errors:
             logger.debug(f"Encountered {len(errors)} errors while closing MCP sessions (expected in streaming)")
+        return False
 @asynccontextmanager
 async def client_wrapper(endpoint: str, headers: dict[str, str]) -> AsyncGenerator[ClientSession, Any]:
@@ -470,3 +475,39 @@ async def invoke_mcp_tool(
     async with client_wrapper(endpoint, final_headers) as session:
         result = await session.call_tool(tool_name, kwargs)
         return _parse_mcp_result(result)
+@dataclass
+class MCPServerInfo:
+    """Server information from an MCP server."""
+    name: str
+    version: str
+    title: str | None = None
+    description: str | None = None
+async def get_mcp_server_info(
+    endpoint: str,
+    headers: dict[str, str] | None = None,
+    authorization: str | None = None,
+) -> MCPServerInfo:
+    """Get server info from an MCP server.
+    Args:
+        endpoint: MCP server endpoint URL
+        headers: Optional base headers to include
+        authorization: Optional OAuth access token (just the token, not "Bearer <token>")
+    Returns:
+        MCPServerInfo containing name, version, title, and description
+    """
+    final_headers = prepare_mcp_headers(headers, authorization)
+    async with client_wrapper(endpoint, final_headers) as session:
+        init_result = await session.initialize()
+        return MCPServerInfo(
+            name=init_result.serverInfo.name,
+            version=init_result.serverInfo.version,
+            title=init_result.serverInfo.title,
+            description=init_result.instructions,
+        )

llama_stack/testing/api_recorder.py CHANGED Viewed

@@ -77,11 +77,14 @@ def _normalize_numeric_literal_strings(value: str) -> str:
     return _FLOAT_IN_STRING_PATTERN.sub(_replace, value)
-def _normalize_body_for_hash(value: Any) -> Any:
+def _normalize_body_for_hash(value: Any, exclude_stream_options: bool = False) -> Any:
     """Recursively normalize a JSON-like value to improve hash stability."""
     if isinstance(value, dict):
-        return {key: _normalize_body_for_hash(item) for key, item in value.items()}
+        normalized = {key: _normalize_body_for_hash(item) for key, item in value.items()}
+        if exclude_stream_options and "stream_options" in normalized:
+            del normalized["stream_options"]
+        return normalized
     if isinstance(value, list):
         return [_normalize_body_for_hash(item) for item in value]
     if isinstance(value, tuple):
@@ -146,7 +149,10 @@ def normalize_inference_request(method: str, url: str, headers: dict[str, Any],
     parsed = urlparse(url)
-    body_for_hash = _normalize_body_for_hash(body)
+    # Bedrock's OpenAI-compatible endpoint includes stream_options that vary between
+    # runs but don't affect the logical request. Exclude it for stable hashing.
+    is_bedrock = "bedrock" in parsed.netloc
+    body_for_hash = _normalize_body_for_hash(body, exclude_stream_options=is_bedrock)
     test_id = get_test_context()
     normalized: dict[str, Any] = {

{llama_stack-0.4.3.dist-info → llama_stack-0.5.0rc1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: llama_stack
-Version: 0.4.3
+Version: 0.5.0rc1
 Summary: Llama Stack
 Author-email: Meta Llama <llama-oss@meta.com>
 License: MIT
@@ -45,8 +45,12 @@ Requires-Dist: starlette>=0.49.1
 Requires-Dist: psycopg2-binary
 Requires-Dist: tornado>=6.5.3
 Requires-Dist: urllib3>=2.6.3
+Requires-Dist: oracledb>=3.4.1
+Requires-Dist: oci>=2.165.0
+Requires-Dist: numpy>=2.3.2
+Requires-Dist: mcp>=1.23.0
 Provides-Extra: client
-Requires-Dist: llama-stack-client==0.4.3; extra == "client"
+Requires-Dist: llama-stack-client>=0.4.0.dev0; extra == "client"
 Dynamic: license-file
 # Llama Stack
@@ -158,6 +162,7 @@ Please checkout our [Documentation](https://llamastack.github.io/docs) page for
     * A [Zero-to-Hero Guide](https://github.com/meta-llama/llama-stack/tree/main/docs/zero_to_hero_guide) that guide you through all the key components of llama stack with code samples.
 * [Contributing](CONTRIBUTING.md)
     * [Adding a new API Provider](https://llamastack.github.io/docs/contributing/new_api_provider) to walk-through how to add a new API provider.
+    * [Release Process](RELEASE_PROCESS.md) for information about release schedules and versioning.
 ### Llama Stack Client SDKs
@@ -172,6 +177,13 @@ Check out our client SDKs for connecting to a Llama Stack server in your preferr
 You can find more example scripts with client SDKs to talk with the Llama Stack server in our [llama-stack-apps](https://github.com/meta-llama/llama-stack-apps/tree/main/examples) repo.
+## Community
+We hold regular community calls to discuss the latest developments and get feedback from the community.
+- Date: every Thursday
+- Time: 09:00 AM PST (check the [Community Event on Discord](https://discord.com/events/1257833999603335178/1413266296748900513) for the latest details)
 ## 🌟 GitHub Star History
 ## Star History

llama-stack 0.4.3__py3-none-any.whl → 0.5.0rc1__py3-none-any.whl

llama-stack 0.4.3py3-none-any.whl → 0.5.0rc1py3-none-any.whl