PyPI - eval-protocol - Versions diffs - 0.0.3__py3-none-any.whl - Mend

eval-protocol 0.0.3__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (130) hide show

development/__init__.py +1 -0
development/normalize_sandbox_fusion.py +628 -0
development/utils/__init__.py +1 -0
development/utils/generate_api_key.py +31 -0
development/utils/subprocess_manager.py +481 -0
eval_protocol/__init__.py +86 -0
eval_protocol/__main__.py +10 -0
eval_protocol/_version.py +21 -0
eval_protocol/adapters/__init__.py +1 -0
eval_protocol/adapters/braintrust.py +8 -0
eval_protocol/adapters/trl.py +8 -0
eval_protocol/agent/__init__.py +29 -0
eval_protocol/agent/models.py +69 -0
eval_protocol/agent/orchestrator.py +893 -0
eval_protocol/agent/resource_abc.py +89 -0
eval_protocol/agent/resource_pool.py +184 -0
eval_protocol/agent/resources/__init__.py +44 -0
eval_protocol/agent/resources/bfcl_envs/__init__.py +1 -0
eval_protocol/agent/resources/bfcl_envs/gorilla_file_system.py +342 -0
eval_protocol/agent/resources/bfcl_envs/math_api.py +40 -0
eval_protocol/agent/resources/bfcl_envs/posting_api.py +157 -0
eval_protocol/agent/resources/bfcl_sim_api_resource.py +314 -0
eval_protocol/agent/resources/docker_resource.py +479 -0
eval_protocol/agent/resources/filesystem_resource.py +371 -0
eval_protocol/agent/resources/http_rollout_protocol.py +85 -0
eval_protocol/agent/resources/http_rollout_resource.py +325 -0
eval_protocol/agent/resources/python_state_resource.py +170 -0
eval_protocol/agent/resources/sql_resource.py +271 -0
eval_protocol/agent/task_manager.py +1064 -0
eval_protocol/agent/tool_registry.py +111 -0
eval_protocol/auth.py +156 -0
eval_protocol/cli.py +425 -0
eval_protocol/cli_commands/__init__.py +1 -0
eval_protocol/cli_commands/agent_eval_cmd.py +264 -0
eval_protocol/cli_commands/common.py +242 -0
eval_protocol/cli_commands/deploy.py +486 -0
eval_protocol/cli_commands/deploy_mcp.py +287 -0
eval_protocol/cli_commands/preview.py +186 -0
eval_protocol/cli_commands/run_eval_cmd.py +202 -0
eval_protocol/common_utils.py +36 -0
eval_protocol/config.py +180 -0
eval_protocol/datasets/__init__.py +1 -0
eval_protocol/datasets/loader.py +521 -0
eval_protocol/evaluation.py +1045 -0
eval_protocol/execution/__init__.py +1 -0
eval_protocol/execution/pipeline.py +920 -0
eval_protocol/gcp_tools.py +484 -0
eval_protocol/generation/cache.py +141 -0
eval_protocol/generation/clients/base.py +67 -0
eval_protocol/generation/clients.py +248 -0
eval_protocol/generic_server.py +165 -0
eval_protocol/integrations/__init__.py +12 -0
eval_protocol/integrations/braintrust.py +51 -0
eval_protocol/integrations/deepeval.py +106 -0
eval_protocol/integrations/openeval.py +40 -0
eval_protocol/integrations/trl.py +187 -0
eval_protocol/mcp/__init__.py +48 -0
eval_protocol/mcp/adapter.py +131 -0
eval_protocol/mcp/client/__init__.py +12 -0
eval_protocol/mcp/client/connection.py +499 -0
eval_protocol/mcp/clients.py +195 -0
eval_protocol/mcp/execution/__init__.py +23 -0
eval_protocol/mcp/execution/base_policy.py +227 -0
eval_protocol/mcp/execution/fireworks_policy.py +209 -0
eval_protocol/mcp/execution/manager.py +506 -0
eval_protocol/mcp/execution/policy.py +421 -0
eval_protocol/mcp/grid_renderer.py +54 -0
eval_protocol/mcp/mcpgym.py +637 -0
eval_protocol/mcp/process_manager.py +177 -0
eval_protocol/mcp/session/__init__.py +11 -0
eval_protocol/mcp/session/manager.py +228 -0
eval_protocol/mcp/simple_process_manager.py +291 -0
eval_protocol/mcp/simulation_server.py +458 -0
eval_protocol/mcp/types.py +80 -0
eval_protocol/mcp_agent/__init__.py +1 -0
eval_protocol/mcp_agent/config.py +147 -0
eval_protocol/mcp_agent/intermediary_server.py +542 -0
eval_protocol/mcp_agent/main.py +210 -0
eval_protocol/mcp_agent/orchestration/__init__.py +1 -0
eval_protocol/mcp_agent/orchestration/base_client.py +132 -0
eval_protocol/mcp_agent/orchestration/local_docker_client.py +702 -0
eval_protocol/mcp_agent/orchestration/remote_http_client.py +304 -0
eval_protocol/mcp_agent/orchestration/stdio_mcp_client_helper.py +3 -0
eval_protocol/mcp_agent/session.py +79 -0
eval_protocol/mcp_env.py +304 -0
eval_protocol/models.py +366 -0
eval_protocol/packaging.py +219 -0
eval_protocol/platform_api.py +360 -0
eval_protocol/playback_policy.py +396 -0
eval_protocol/resources.py +128 -0
eval_protocol/reward_function.py +410 -0
eval_protocol/rewards/__init__.py +94 -0
eval_protocol/rewards/accuracy.py +454 -0
eval_protocol/rewards/accuracy_length.py +173 -0
eval_protocol/rewards/apps_coding_reward.py +331 -0
eval_protocol/rewards/apps_execution_utils.py +149 -0
eval_protocol/rewards/apps_testing_util.py +559 -0
eval_protocol/rewards/bfcl_reward.py +313 -0
eval_protocol/rewards/code_execution.py +1620 -0
eval_protocol/rewards/code_execution_utils.py +72 -0
eval_protocol/rewards/cpp_code.py +861 -0
eval_protocol/rewards/deepcoder_reward.py +161 -0
eval_protocol/rewards/format.py +129 -0
eval_protocol/rewards/function_calling.py +541 -0
eval_protocol/rewards/json_schema.py +422 -0
eval_protocol/rewards/language_consistency.py +700 -0
eval_protocol/rewards/lean_prover.py +479 -0
eval_protocol/rewards/length.py +375 -0
eval_protocol/rewards/list_comparison_math_reward.py +221 -0
eval_protocol/rewards/math.py +762 -0
eval_protocol/rewards/multiple_choice_math_reward.py +232 -0
eval_protocol/rewards/reasoning_steps.py +249 -0
eval_protocol/rewards/repetition.py +342 -0
eval_protocol/rewards/tag_count.py +162 -0
eval_protocol/rl_processing.py +82 -0
eval_protocol/server.py +271 -0
eval_protocol/typed_interface.py +260 -0
eval_protocol/utils/__init__.py +8 -0
eval_protocol/utils/batch_evaluation.py +217 -0
eval_protocol/utils/batch_transformation.py +205 -0
eval_protocol/utils/dataset_helpers.py +112 -0
eval_protocol/utils/module_loader.py +56 -0
eval_protocol/utils/packaging_utils.py +108 -0
eval_protocol/utils/static_policy.py +305 -0
eval_protocol-0.0.3.dist-info/METADATA +635 -0
eval_protocol-0.0.3.dist-info/RECORD +130 -0
eval_protocol-0.0.3.dist-info/WHEEL +5 -0
eval_protocol-0.0.3.dist-info/entry_points.txt +4 -0
eval_protocol-0.0.3.dist-info/licenses/LICENSE +201 -0
eval_protocol-0.0.3.dist-info/top_level.txt +2 -0

eval_protocol/rewards/json_schema.py ADDED Viewed

@@ -0,0 +1,422 @@
+import json
+import re
+from typing import Any, Dict, List, Optional, Union
+from ..models import EvaluateResult, Message, MetricResult
+from ..typed_interface import reward_function
+from .function_calling import (
+    calculate_jaccard_similarity,
+    extract_schema_properties,
+    normalize_schema,
+)
+@reward_function
+def json_schema_reward(
+    messages: Union[List[Message], List[Dict[str, Any]]],
+    ground_truth: Optional[Union[List[Message], List[Dict[str, Any]]]] = None,
+    json_content: Optional[Union[Dict[str, Any], str]] = None,
+    expected_schema: Optional[Union[Dict[str, Any], str]] = None,
+    **kwargs,
+) -> EvaluateResult:
+    """
+    Evaluate JSON content against an expected schema using Jaccard similarity.
+    The model's response (containing JSON) is assumed to be the last message in the `messages` list.
+    This reward function compares the structure of JSON content against an
+    expected schema and calculates a similarity score using Jaccard similarity.
+    It repurposes the same approach used for function calling validation but for
+    general JSON schema validation.
+    Args:
+        messages: List of conversation messages, where `messages[-1]` is the model's response.
+        ground_truth: Optional. Expected assistant response trajectory. Not directly used by this reward.
+        json_content: The JSON content to evaluate (if not provided, extracts
+                      from the last message).
+        expected_schema: The expected schema for the JSON content.
+        **kwargs: Additional keyword arguments.
+    Returns:
+        EvaluateResult with score and metrics
+    """
+    metrics = {}
+    if json_content is None:
+        if not messages:
+            return EvaluateResult(
+                score=0.0,
+                reason="No messages provided to extract JSON content.",
+                metrics={"error": MetricResult(score=0.0, reason="No messages provided", is_score_valid=False)},
+            )
+        last_message = messages[-1]
+        content_text = ""
+        if isinstance(last_message, Message):
+            if last_message.role == "assistant" and last_message.content is not None:
+                content_text = last_message.content
+            else:
+                return EvaluateResult(
+                    score=0.0,
+                    reason="Last message is not a valid assistant response to extract JSON from.",
+                    metrics={
+                        "error": MetricResult(
+                            score=0.0,
+                            reason="Invalid assistant message for JSON extraction.",
+                            is_score_valid=False,
+                        )
+                    },
+                )
+        elif isinstance(last_message, dict):
+            if last_message.get("role") == "assistant" and last_message.get("content") is not None:
+                content_text = last_message.get("content", "")
+            else:
+                return EvaluateResult(
+                    score=0.0,
+                    reason="Last message is not a valid assistant response (dict) to extract JSON from.",
+                    metrics={
+                        "error": MetricResult(
+                            score=0.0,
+                            reason="Invalid assistant message (dict) for JSON extraction.",
+                            is_score_valid=False,
+                        )
+                    },
+                )
+        else:
+            return EvaluateResult(
+                score=0.0,
+                reason=f"Unexpected type for last message: {type(last_message)}.",
+                metrics={
+                    "error": MetricResult(
+                        score=0.0,
+                        reason="Invalid message type for JSON extraction.",
+                        is_score_valid=False,
+                    )
+                },
+            )
+        extracted_json_str = None
+        if content_text:
+            try:
+                pattern = r"```(?:json)?\s*([\s\S]*?)```"
+                code_blocks = re.findall(pattern, content_text)
+                if code_blocks:
+                    extracted_json_str = code_blocks[0]
+                else:
+                    json_match = re.search(r"(\{[\s\S]*\}|\[[\s\S]*\])", content_text, re.DOTALL)
+                    if json_match:
+                        try:
+                            json.loads(json_match.group(0))
+                            extracted_json_str = json_match.group(0)
+                        except json.JSONDecodeError:
+                            pass
+            except Exception:
+                pass
+        if extracted_json_str:
+            json_content = extracted_json_str
+        if not json_content:
+            return EvaluateResult(
+                score=0.0,
+                reason="No JSON content found in messages.",
+                metrics={
+                    "error": MetricResult(
+                        score=0.0,
+                        reason="No JSON content found in messages",
+                        is_score_valid=False,
+                    )
+                },
+            )
+    if expected_schema is None:
+        return EvaluateResult(
+            score=0.0,
+            reason="No expected schema provided for comparison.",
+            metrics={
+                "error": MetricResult(
+                    score=0.0,
+                    reason="No expected schema provided",
+                    is_score_valid=False,
+                )
+            },
+        )
+    expected_schema = normalize_schema(expected_schema)
+    try:
+        if isinstance(json_content, str):
+            parsed_content = json.loads(json_content)
+        else:
+            parsed_content = json_content
+    except json.JSONDecodeError:
+        return EvaluateResult(
+            score=0.0,
+            reason=f"Invalid JSON content: {json_content}",
+            metrics={
+                "error": MetricResult(
+                    score=0.0,
+                    reason=f"Invalid JSON content: {json_content}",
+                    is_score_valid=False,
+                )
+            },
+        )
+    # Function to recursively build a schema from content
+    def build_schema_from_content(content: Any) -> Dict[str, Any]:
+        if isinstance(content, dict):
+            schema: Dict[str, Any] = {"type": "object", "properties": {}}
+            for key, value in content.items():
+                if isinstance(schema["properties"], dict):  # Should always be true
+                    schema["properties"][key] = build_schema_from_content(value)
+            return schema
+        elif isinstance(content, list):
+            if content:
+                return {
+                    "type": "array",
+                    "items": build_schema_from_content(content[0]),
+                }
+            return {"type": "array"}
+        elif isinstance(content, str):
+            return {"type": "string"}
+        elif isinstance(content, bool):
+            return {"type": "boolean"}
+        elif isinstance(content, (int, float)):
+            return {"type": "number"}
+        elif content is None:
+            return {"type": "null"}
+        else:
+            return {"type": "any"}
+    content_schema = build_schema_from_content(parsed_content)
+    expected_properties = extract_schema_properties(expected_schema)
+    actual_properties = extract_schema_properties(content_schema)
+    schema_similarity = calculate_jaccard_similarity(expected_properties, actual_properties)
+    missing_props = expected_properties - actual_properties
+    extra_props = actual_properties - expected_properties
+    matching_props = expected_properties.intersection(actual_properties)
+    comparison_details = []
+    if matching_props:
+        comparison_details.append(f"Matching properties ({len(matching_props)}):")
+        for prop, prop_type in sorted(matching_props):
+            comparison_details.append(f"  - {prop}: {prop_type}")
+    if missing_props:
+        comparison_details.append(f"Missing properties ({len(missing_props)}):")
+        for prop, prop_type in sorted(missing_props):
+            comparison_details.append(f"  - {prop}: {prop_type}")
+    if extra_props:
+        comparison_details.append(f"Extra properties ({len(extra_props)}):")
+        for prop, prop_type in sorted(extra_props):
+            comparison_details.append(f"  - {prop}: {prop_type}")
+    schema_comparison_reason = "\n".join(comparison_details)
+    metrics["schema_similarity"] = MetricResult(
+        score=schema_similarity,
+        reason=f"Schema similarity: {schema_similarity:.2f}\n{schema_comparison_reason}",
+        is_score_valid=schema_similarity == 1.0,
+    )
+    final_score = schema_similarity
+    final_reason = f"Final score based on schema similarity: {final_score:.2f}."
+    return EvaluateResult(score=final_score, reason=final_reason, metrics=metrics)
+def json_schema_reward_with_llm_judge(
+    messages: Union[List[Message], List[Dict[str, Any]]],
+    ground_truth: Optional[Union[List[Message], List[Dict[str, Any]]]] = None,
+    json_content: Optional[Union[Dict[str, Any], str]] = None,
+    expected_schema: Optional[Union[Dict[str, Any], str]] = None,
+    expected_behavior: Optional[str] = None,
+    openai_api_key: Optional[str] = None,
+    model: str = "gpt-4o-mini",
+    temperature: float = 0.0,
+    weights: Optional[Dict[str, float]] = None,
+    **kwargs,
+) -> EvaluateResult:
+    """
+    Combined reward function that evaluates JSON content using both schema
+    validation and LLM judgment.
+    Args:
+        messages: The conversation messages, where `messages[-1]` is the model's response.
+        ground_truth: Optional. Expected assistant response trajectory. Not directly used by this reward.
+        json_content: The JSON content to evaluate (if not provided, extracts
+                      from the last message).
+        expected_schema: The expected schema for the JSON content.
+        expected_behavior: Description of the expected behavior/content
+        openai_api_key: OpenAI API key (if not provided, uses environment variable)
+        model: Model to use for LLM evaluation (default: gpt-4o-mini)
+        temperature: Temperature for the model generation (default: 0.0)
+        weights: Dictionary of weights for each component
+                (default: {"schema": 0.7, "llm": 0.3})
+        **kwargs: Additional keyword arguments
+    Returns:
+        EvaluateResult with score and metrics
+    """
+    # Import OpenAI at call time to make this optional
+    try:
+        from openai import OpenAI
+    except ImportError:
+        return EvaluateResult(
+            score=0.0,
+            reason="OpenAI package not installed.",
+            metrics={
+                "error": MetricResult(
+                    score=0.0,
+                    reason="OpenAI package not installed. Install it with: pip install openai",
+                    is_score_valid=False,
+                )
+            },
+        )
+    if weights is None:
+        weights = {"schema": 0.7, "llm": 0.3}
+    total_weight = sum(weights.values())
+    normalized_weights = {k: v / total_weight for k, v in weights.items()}
+    schema_result = json_schema_reward(
+        messages=messages,
+        ground_truth=ground_truth,
+        json_content=json_content,
+        expected_schema=expected_schema,
+        **kwargs,
+    )
+    llm_score = 0.0
+    llm_reason = "Skipped: No expected behavior provided"
+    if expected_behavior:
+        if json_content is None:
+            if "error" in schema_result.metrics:
+                return schema_result
+            last_message = messages[-1]
+            content = last_message.get("content", "")
+            json_str_from_msg = ""
+            try:
+                pattern = r"```(?:json)?\s*([\s\S]*?)```"
+                code_blocks = re.findall(pattern, content)
+                if code_blocks:
+                    json_str_from_msg = code_blocks[0]
+                else:
+                    json_matches = re.findall(r"\{.*\}", content, re.DOTALL)
+                    if json_matches:
+                        json_str_from_msg = json_matches[0]
+            except Exception:
+                pass
+            try:
+                if json_str_from_msg:
+                    json_content = json.loads(json_str_from_msg)
+            except json.JSONDecodeError:
+                json_content = json_str_from_msg
+        if isinstance(json_content, dict):
+            json_str_for_llm = json.dumps(json_content, indent=2)
+        else:
+            json_str_for_llm = str(json_content)
+        expected_schema_str = json.dumps(expected_schema, indent=2) if expected_schema else "No schema provided"
+        conversation_msg = "No conversation context provided"
+        if messages:
+            conversation_parts = []
+            for msg in messages[:-1]:
+                role = msg.get("role", "")
+                content_part = msg.get("content", "")
+                if role and content_part:
+                    conversation_parts.append(f"{role}: {content_part}")
+            if conversation_parts:
+                conversation_msg = "\n".join(conversation_parts)
+        prompt = f"""You are evaluating the quality of JSON content provided by an AI assistant.
+Your job is to assess whether the JSON structure and content is appropriate, correctly formatted,
+and follows the expected schema and behavior.
+CONVERSATION CONTEXT:
+{conversation_msg}
+JSON CONTENT:
+{json_str_for_llm}
+EXPECTED SCHEMA:
+{expected_schema_str}
+EXPECTED BEHAVIOR/CONTENT:
+{expected_behavior}
+Evaluate the JSON content and provide:
+1. A score from 0.0 to 1.0 (where 1.0 is perfect)
+2. A detailed explanation of your rating
+3. Specific issues or strengths of the JSON content
+Format your response as:
+SCORE: [number between 0.0 and 1.0]
+EXPLANATION: [your detailed explanation]
+"""
+        try:
+            import os
+            api_key = openai_api_key or os.environ.get("OPENAI_API_KEY")
+            if not api_key:
+                raise ValueError("OpenAI API key not provided")
+            client = OpenAI(api_key=api_key)
+            response = client.chat.completions.create(
+                model=model,
+                temperature=temperature,
+                messages=[{"role": "user", "content": prompt}],
+            )
+            llm_response = response.choices[0].message.content or ""
+            score_match = re.search(r"SCORE:\s*([\d.]+)", llm_response)
+            explanation_match = re.search(r"EXPLANATION:\s*(.*)", llm_response, re.DOTALL)
+            if score_match:
+                try:
+                    llm_score = float(score_match.group(1))
+                    llm_score = max(0.0, min(llm_score, 1.0))
+                except ValueError:
+                    llm_score = 0.5
+            else:
+                llm_score = 0.5
+            llm_reason = explanation_match.group(1).strip() if explanation_match else "No explanation provided"
+        except Exception as e:
+            llm_score = 0.0
+            llm_reason = f"Error calling OpenAI API: {str(e)}"
+    combined_metrics = {}
+    for key, metric_val in schema_result.metrics.items():
+        if key != "schema_similarity":
+            combined_metrics[f"schema_{key}"] = metric_val
+        else:
+            combined_metrics[key] = metric_val
+    combined_metrics["llm_judge"] = MetricResult(
+        score=llm_score,
+        reason=llm_reason,
+        is_score_valid=llm_score >= 0.8,
+    )
+    combined_metrics["schema_score"] = MetricResult(
+        score=schema_result.score,
+        reason=f"Schema validation score: {schema_result.score:.2f}",
+        is_score_valid=schema_result.score == 1.0,
+    )
+    combined_metrics["llm_score"] = MetricResult(
+        score=llm_score,
+        reason=f"LLM judge score: {llm_score:.2f}",
+        is_score_valid=llm_score >= 0.8,
+    )
+    schema_weight = normalized_weights.get("schema", 0.7)
+    llm_weight = normalized_weights.get("llm", 0.3)
+    final_score = (schema_result.score * schema_weight) + (llm_score * llm_weight)
+    final_reason = f"Composite score. Schema ({schema_result.score:.2f} * {schema_weight:.2f}) + LLM ({llm_score:.2f} * {llm_weight:.2f})."
+    combined_metrics["weights"] = MetricResult(
+        score=0.0,
+        reason=f"Weights used - Schema: {schema_weight:.2f}, LLM: {llm_weight:.2f}",
+        is_score_valid=True,
+    )
+    return EvaluateResult(score=final_score, reason=final_reason, metrics=combined_metrics)