PyPI - judgeval - Versions diffs - 0.0.11__py3-none-any.whl → 0.22.2__py3-none-any.whl - Mend

judgeval 0.0.11py3-none-any.whl → 0.22.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of judgeval might be problematic. Click here for more details.

Files changed (171) hide show

judgeval/__init__.py +177 -12
judgeval/api/__init__.py +519 -0
judgeval/api/api_types.py +407 -0
judgeval/cli.py +79 -0
judgeval/constants.py +76 -47
judgeval/data/__init__.py +3 -3
judgeval/data/evaluation_run.py +125 -0
judgeval/data/example.py +15 -56
judgeval/data/judgment_types.py +450 -0
judgeval/data/result.py +29 -73
judgeval/data/scorer_data.py +29 -62
judgeval/data/scripts/fix_default_factory.py +23 -0
judgeval/data/scripts/openapi_transform.py +123 -0
judgeval/data/trace.py +121 -0
judgeval/dataset/__init__.py +264 -0
judgeval/env.py +52 -0
judgeval/evaluation/__init__.py +344 -0
judgeval/exceptions.py +27 -0
judgeval/integrations/langgraph/__init__.py +13 -0
judgeval/integrations/openlit/__init__.py +50 -0
judgeval/judges/__init__.py +2 -3
judgeval/judges/base_judge.py +2 -3
judgeval/judges/litellm_judge.py +100 -20
judgeval/judges/together_judge.py +101 -20
judgeval/judges/utils.py +20 -24
judgeval/logger.py +62 -0
judgeval/prompt/__init__.py +330 -0
judgeval/scorers/__init__.py +18 -25
judgeval/scorers/agent_scorer.py +17 -0
judgeval/scorers/api_scorer.py +45 -41
judgeval/scorers/base_scorer.py +83 -38
judgeval/scorers/example_scorer.py +17 -0
judgeval/scorers/exceptions.py +1 -0
judgeval/scorers/judgeval_scorers/__init__.py +0 -148
judgeval/scorers/judgeval_scorers/api_scorers/__init__.py +19 -17
judgeval/scorers/judgeval_scorers/api_scorers/answer_correctness.py +13 -19
judgeval/scorers/judgeval_scorers/api_scorers/answer_relevancy.py +12 -19
judgeval/scorers/judgeval_scorers/api_scorers/faithfulness.py +13 -19
judgeval/scorers/judgeval_scorers/api_scorers/instruction_adherence.py +15 -0
judgeval/scorers/judgeval_scorers/api_scorers/prompt_scorer.py +327 -0
judgeval/scorers/score.py +77 -306
judgeval/scorers/utils.py +4 -199
judgeval/tracer/__init__.py +1122 -2
judgeval/tracer/constants.py +1 -0
judgeval/tracer/exporters/__init__.py +40 -0
judgeval/tracer/exporters/s3.py +119 -0
judgeval/tracer/exporters/store.py +59 -0
judgeval/tracer/exporters/utils.py +32 -0
judgeval/tracer/keys.py +63 -0
judgeval/tracer/llm/__init__.py +7 -0
judgeval/tracer/llm/config.py +78 -0
judgeval/tracer/llm/constants.py +9 -0
judgeval/tracer/llm/llm_anthropic/__init__.py +3 -0
judgeval/tracer/llm/llm_anthropic/config.py +6 -0
judgeval/tracer/llm/llm_anthropic/messages.py +452 -0
judgeval/tracer/llm/llm_anthropic/messages_stream.py +322 -0
judgeval/tracer/llm/llm_anthropic/wrapper.py +59 -0
judgeval/tracer/llm/llm_google/__init__.py +3 -0
judgeval/tracer/llm/llm_google/config.py +6 -0
judgeval/tracer/llm/llm_google/generate_content.py +127 -0
judgeval/tracer/llm/llm_google/wrapper.py +30 -0
judgeval/tracer/llm/llm_openai/__init__.py +3 -0
judgeval/tracer/llm/llm_openai/beta_chat_completions.py +216 -0
judgeval/tracer/llm/llm_openai/chat_completions.py +501 -0
judgeval/tracer/llm/llm_openai/config.py +6 -0
judgeval/tracer/llm/llm_openai/responses.py +506 -0
judgeval/tracer/llm/llm_openai/utils.py +42 -0
judgeval/tracer/llm/llm_openai/wrapper.py +63 -0
judgeval/tracer/llm/llm_together/__init__.py +3 -0
judgeval/tracer/llm/llm_together/chat_completions.py +406 -0
judgeval/tracer/llm/llm_together/config.py +6 -0
judgeval/tracer/llm/llm_together/wrapper.py +52 -0
judgeval/tracer/llm/providers.py +19 -0
judgeval/tracer/managers.py +167 -0
judgeval/tracer/processors/__init__.py +220 -0
judgeval/tracer/utils.py +19 -0
judgeval/trainer/__init__.py +14 -0
judgeval/trainer/base_trainer.py +122 -0
judgeval/trainer/config.py +128 -0
judgeval/trainer/console.py +144 -0
judgeval/trainer/fireworks_trainer.py +396 -0
judgeval/trainer/trainable_model.py +243 -0
judgeval/trainer/trainer.py +70 -0
judgeval/utils/async_utils.py +39 -0
judgeval/utils/decorators/__init__.py +0 -0
judgeval/utils/decorators/dont_throw.py +37 -0
judgeval/utils/decorators/use_once.py +13 -0
judgeval/utils/file_utils.py +97 -0
judgeval/utils/guards.py +36 -0
judgeval/utils/meta.py +27 -0
judgeval/utils/project.py +15 -0
judgeval/utils/serialize.py +253 -0
judgeval/utils/testing.py +70 -0
judgeval/utils/url.py +10 -0
judgeval/utils/version_check.py +28 -0
judgeval/utils/wrappers/README.md +3 -0
judgeval/utils/wrappers/__init__.py +15 -0
judgeval/utils/wrappers/immutable_wrap_async.py +74 -0
judgeval/utils/wrappers/immutable_wrap_async_iterator.py +84 -0
judgeval/utils/wrappers/immutable_wrap_sync.py +66 -0
judgeval/utils/wrappers/immutable_wrap_sync_iterator.py +84 -0
judgeval/utils/wrappers/mutable_wrap_async.py +67 -0
judgeval/utils/wrappers/mutable_wrap_sync.py +67 -0
judgeval/utils/wrappers/py.typed +0 -0
judgeval/utils/wrappers/utils.py +35 -0
judgeval/version.py +5 -0
judgeval/warnings.py +4 -0
judgeval-0.22.2.dist-info/METADATA +265 -0
judgeval-0.22.2.dist-info/RECORD +112 -0
judgeval-0.22.2.dist-info/entry_points.txt +2 -0
judgeval/clients.py +0 -39
judgeval/common/__init__.py +0 -8
judgeval/common/exceptions.py +0 -28
judgeval/common/logger.py +0 -189
judgeval/common/tracer.py +0 -798
judgeval/common/utils.py +0 -763
judgeval/data/api_example.py +0 -111
judgeval/data/datasets/__init__.py +0 -5
judgeval/data/datasets/dataset.py +0 -286
judgeval/data/datasets/eval_dataset_client.py +0 -193
judgeval/data/datasets/ground_truth.py +0 -54
judgeval/data/datasets/utils.py +0 -74
judgeval/evaluation_run.py +0 -132
judgeval/judges/mixture_of_judges.py +0 -248
judgeval/judgment_client.py +0 -354
judgeval/run_evaluation.py +0 -439
judgeval/scorers/judgeval_scorer.py +0 -140
judgeval/scorers/judgeval_scorers/api_scorers/contextual_precision.py +0 -19
judgeval/scorers/judgeval_scorers/api_scorers/contextual_recall.py +0 -19
judgeval/scorers/judgeval_scorers/api_scorers/contextual_relevancy.py +0 -22
judgeval/scorers/judgeval_scorers/api_scorers/hallucination.py +0 -19
judgeval/scorers/judgeval_scorers/api_scorers/json_correctness.py +0 -32
judgeval/scorers/judgeval_scorers/api_scorers/summarization.py +0 -20
judgeval/scorers/judgeval_scorers/api_scorers/tool_correctness.py +0 -19
judgeval/scorers/judgeval_scorers/classifiers/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/classifiers/text2sql/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/classifiers/text2sql/text2sql_scorer.py +0 -54
judgeval/scorers/judgeval_scorers/local_implementations/__init__.py +0 -24
judgeval/scorers/judgeval_scorers/local_implementations/answer_correctness/__init__.py +0 -4
judgeval/scorers/judgeval_scorers/local_implementations/answer_correctness/answer_correctness_scorer.py +0 -277
judgeval/scorers/judgeval_scorers/local_implementations/answer_correctness/prompts.py +0 -169
judgeval/scorers/judgeval_scorers/local_implementations/answer_relevancy/__init__.py +0 -4
judgeval/scorers/judgeval_scorers/local_implementations/answer_relevancy/answer_relevancy_scorer.py +0 -298
judgeval/scorers/judgeval_scorers/local_implementations/answer_relevancy/prompts.py +0 -174
judgeval/scorers/judgeval_scorers/local_implementations/contextual_precision/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/contextual_precision/contextual_precision_scorer.py +0 -264
judgeval/scorers/judgeval_scorers/local_implementations/contextual_precision/prompts.py +0 -106
judgeval/scorers/judgeval_scorers/local_implementations/contextual_recall/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/contextual_recall/contextual_recall_scorer.py +0 -254
judgeval/scorers/judgeval_scorers/local_implementations/contextual_recall/prompts.py +0 -142
judgeval/scorers/judgeval_scorers/local_implementations/contextual_relevancy/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/contextual_relevancy/contextual_relevancy_scorer.py +0 -245
judgeval/scorers/judgeval_scorers/local_implementations/contextual_relevancy/prompts.py +0 -121
judgeval/scorers/judgeval_scorers/local_implementations/faithfulness/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/faithfulness/faithfulness_scorer.py +0 -325
judgeval/scorers/judgeval_scorers/local_implementations/faithfulness/prompts.py +0 -268
judgeval/scorers/judgeval_scorers/local_implementations/hallucination/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/hallucination/hallucination_scorer.py +0 -263
judgeval/scorers/judgeval_scorers/local_implementations/hallucination/prompts.py +0 -104
judgeval/scorers/judgeval_scorers/local_implementations/json_correctness/__init__.py +0 -5
judgeval/scorers/judgeval_scorers/local_implementations/json_correctness/json_correctness_scorer.py +0 -134
judgeval/scorers/judgeval_scorers/local_implementations/summarization/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/summarization/prompts.py +0 -247
judgeval/scorers/judgeval_scorers/local_implementations/summarization/summarization_scorer.py +0 -550
judgeval/scorers/judgeval_scorers/local_implementations/tool_correctness/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/tool_correctness/tool_correctness_scorer.py +0 -157
judgeval/scorers/prompt_scorer.py +0 -439
judgeval-0.0.11.dist-info/METADATA +0 -36
judgeval-0.0.11.dist-info/RECORD +0 -84
{judgeval-0.0.11.dist-info → judgeval-0.22.2.dist-info}/WHEEL +0 -0
{judgeval-0.0.11.dist-info → judgeval-0.22.2.dist-info}/licenses/LICENSE.md +0 -0

judgeval/integrations/openlit/__init__.py ADDED Viewed

@@ -0,0 +1,50 @@
+from abc import ABC
+from judgeval.tracer import Tracer
+from judgeval.logger import judgeval_logger
+from judgeval.utils.url import url_for
+try:
+    import openlit  # type: ignore
+except ImportError:
+    raise ImportError(
+        "Openlit is not installed and required for the openlit integration. Please install it with `pip install openlit`."
+    )
+class Openlit(ABC):
+    @staticmethod
+    def initialize(
+        **kwargs,
+    ):
+        tracer = Tracer.get_instance()
+        if not tracer or not tracer._initialized:
+            raise ValueError(
+                "Openlit must be initialized after the tracer has been initialized. Please create the Tracer instance first before initializing Openlit."
+            )
+        api_key = tracer.api_key
+        organization_id = tracer.organization_id
+        project_name = tracer.project_name
+        project_id = Tracer._resolve_project_id(project_name, api_key, organization_id)
+        if not project_id:
+            judgeval_logger.warning(
+                f"Project {project_name} not found. Please create it first at https://app.judgmentlabs.ai/org/{organization_id}/projects."
+            )
+            return
+        openlit.init(
+            service_name=project_name,
+            otlp_endpoint=url_for("/otel"),
+            otlp_headers={
+                "Authorization": f"Bearer {api_key}",
+                "X-Organization-Id": organization_id,
+                "X-Project-Id": project_id,
+            },
+            tracer=tracer.get_tracer(),
+            **kwargs,
+        )
+__all__ = ["Openlit"]

judgeval/judges/__init__.py CHANGED Viewed

@@ -1,7 +1,6 @@
-from pydantic import BaseModel
 from judgeval.judges.base_judge import JudgevalJudge
 from judgeval.judges.litellm_judge import LiteLLMJudge
 from judgeval.judges.together_judge import TogetherJudge
-from judgeval.judges.mixture_of_judges import MixtureOfJudges
-__all__ = ["JudgevalJudge", "LiteLLMJudge", "TogetherJudge", "MixtureOfJudges"]
+__all__ = ["JudgevalJudge", "LiteLLMJudge", "TogetherJudge"]

judgeval/judges/base_judge.py CHANGED Viewed

@@ -3,7 +3,7 @@ Implements the base class for all Judgeval Judge models.
 """
 from abc import ABC, abstractmethod
-from typing import Optional, List
+from typing import Optional
 class JudgevalJudge(ABC):
@@ -37,8 +37,7 @@ class JudgevalJudge(ABC):
             A string.
         """
         pass
     @abstractmethod
     def get_model_name(self, *args, **kwargs) -> str:
         pass

judgeval/judges/litellm_judge.py CHANGED Viewed

@@ -1,47 +1,127 @@
 import pydantic
-from typing import List, Union, Mapping
+from typing import Dict, List, Union, Mapping, Any
-from judgeval import *
+from judgeval.constants import ACCEPTABLE_MODELS
 from judgeval.judges import JudgevalJudge
-from judgeval.common.utils import afetch_litellm_api_response, fetch_litellm_api_response
-from judgeval.common.logger import debug, error
+from judgeval.env import JUDGMENT_DEFAULT_GPT_MODEL
+try:
+    import litellm
+except ImportError:
+    raise ImportError(
+        "Litellm is not installed and required for the litellm judge. Please install it with `pip install litellm`."
+    )
+def fetch_litellm_api_response(
+    model: str,
+    messages: List[Dict[str, str]],
+    response_format: Union[Dict[str, Any], None] = None,
+) -> str:
+    if response_format is not None:
+        response = litellm.completion(
+            model=model,
+            messages=messages,
+            response_format=response_format,
+        )
+    else:
+        response = litellm.completion(
+            model=model,
+            messages=messages,
+        )
+    content = response.choices[0].message.content  # type: ignore[attr-defined]
+    if content is None:
+        raise ValueError("Received empty response from litellm")
+    return content
+async def afetch_litellm_api_response(
+    model: str,
+    messages: List[Dict[str, str]],
+    response_format: Union[Dict[str, Any], None] = None,
+) -> str:
+    if not messages:
+        raise ValueError("Messages cannot be empty")
+    if model not in ACCEPTABLE_MODELS:
+        raise ValueError(
+            f"Model {model} is not in the list of supported models: {ACCEPTABLE_MODELS}."
+        )
+    if response_format is not None:
+        response = await litellm.acompletion(
+            model=model, messages=messages, response_format=response_format
+        )
+    else:
+        response = await litellm.acompletion(
+            model=model,
+            messages=messages,
+        )
+    content = response.choices[0].message.content  # type: ignore[attr-defined]
+    if content is None:
+        raise ValueError("Received empty response from litellm")
+    return content
 BASE_CONVERSATION = [
     {"role": "system", "content": "You are a helpful assistant."},
-]  # for string inputs, we need to add the user query to a base conversation, since LiteLLM only accepts a list of dictionaries as a chat history
+]
 class LiteLLMJudge(JudgevalJudge):
-    def __init__(self, model: str = "gpt-4o-mini", **kwargs):
-        debug(f"Initializing LiteLLMJudge with model={model}")
+    def __init__(self, model: str = JUDGMENT_DEFAULT_GPT_MODEL, **kwargs):
         self.model = model
         self.kwargs = kwargs
         super().__init__(model_name=model)
-    def generate(self, input: Union[str, List[Mapping[str, str]]], schema: pydantic.BaseModel = None) -> str:
-        debug(f"Generating response for input type: {type(input)}")
+    def generate(
+        self,
+        input: Union[str, List[Mapping[str, str]]],
+        schema: Union[pydantic.BaseModel, None] = None,
+    ) -> str:
+        response_format = schema.model_json_schema() if schema else None
         if isinstance(input, str):
             convo = BASE_CONVERSATION + [{"role": "user", "content": input}]
-            return fetch_litellm_api_response(model=self.model, messages=convo, response_format=schema)
+            return fetch_litellm_api_response(
+                model=self.model, messages=convo, response_format=response_format
+            )
         elif isinstance(input, list):
-            return fetch_litellm_api_response(model=self.model, messages=input, response_format=schema)
+            messages = [dict(msg) for msg in input]
+            return fetch_litellm_api_response(
+                model=self.model, messages=messages, response_format=response_format
+            )
         else:
-            error(f"Invalid input type received: {type(input)}")
-            raise TypeError(f"Input must be a string or a list of dictionaries. Input type of: {type(input)}")
+            raise TypeError(
+                f"Input must be a string or a list of dictionaries. Input type of: {type(input)}"
+            )
+    async def a_generate(
+        self,
+        input: Union[str, List[Mapping[str, str]]],
+        schema: Union[pydantic.BaseModel, None] = None,
+    ) -> str:
+        response_format = schema.model_json_schema() if schema else None
-    async def a_generate(self, input: Union[str, List[Mapping[str, str]]], schema: pydantic.BaseModel = None) -> str:
-        debug(f"Async generating response for input type: {type(input)}")
         if isinstance(input, str):
             convo = BASE_CONVERSATION + [{"role": "user", "content": input}]
-            response = await afetch_litellm_api_response(model=self.model, messages=convo, response_format=schema)
+            response = await afetch_litellm_api_response(
+                model=self.model, messages=convo, response_format=response_format
+            )
             return response
         elif isinstance(input, list):
-            response = await afetch_litellm_api_response(model=self.model, messages=input, response_format=schema)
+            messages = [dict(msg) for msg in input]
+            response = await afetch_litellm_api_response(
+                model=self.model, messages=messages, response_format=response_format
+            )
             return response
         else:
-            error(f"Invalid input type received: {type(input)}")
-            raise TypeError(f"Input must be a string or a list of dictionaries. Input type of: {type(input)}")
+            raise TypeError(
+                f"Input must be a string or a list of dictionaries. Input type of: {type(input)}"
+            )
     def load_model(self):
         return self.model

judgeval/judges/together_judge.py CHANGED Viewed

@@ -3,48 +3,130 @@ Implementation of using TogetherAI inference for judges.
 """
 from pydantic import BaseModel
-from typing import List, Union, Mapping
-from judgeval.common.logger import debug, error
+from typing import Dict, List, Union, Any, cast
 from judgeval.judges import JudgevalJudge
-from judgeval.common.utils import fetch_together_api_response, afetch_together_api_response
+from judgeval.logger import judgeval_logger
+from judgeval.env import (
+    JUDGMENT_DEFAULT_TOGETHER_MODEL,
+    TOGETHERAI_API_KEY,
+    TOGETHER_API_KEY,
+)
+together_api_key = TOGETHERAI_API_KEY or TOGETHER_API_KEY
+if together_api_key:
+    try:
+        from together import Together, AsyncTogether  # type: ignore[import-untyped]
+        together_client = Together(api_key=together_api_key)
+        async_together_client = AsyncTogether(api_key=together_api_key)
+    except Exception:
+        pass
+def fetch_together_api_response(
+    model: str,
+    messages: List[Dict[str, str]],
+    response_format: Union[Dict[str, Any], None] = None,
+) -> str:
+    if not messages:
+        raise ValueError("Messages cannot be empty")
+    if response_format is not None:
+        response = together_client.chat.completions.create(
+            model=model,
+            messages=messages,
+            response_format=response_format,
+        )
+    else:
+        response = together_client.chat.completions.create(
+            model=model,
+            messages=messages,
+        )
+    content = response.choices[0].message.content  # type: ignore[attr-defined]
+    if content is None:
+        raise ValueError("Received empty response from TogetherAI")
+    return cast(str, content)
+async def afetch_together_api_response(
+    model: str,
+    messages: List[Dict[str, str]],
+    response_format: Union[Dict[str, Any], None] = None,
+) -> str:
+    if not messages:
+        raise ValueError("Messages cannot be empty")
+    if response_format is not None:
+        response = await async_together_client.chat.completions.create(
+            model=model,
+            messages=messages,
+            response_format=response_format,
+        )
+    else:
+        response = await async_together_client.chat.completions.create(
+            model=model,
+            messages=messages,
+        )
+    content = response.choices[0].message.content  # type: ignore[attr-defined]
+    if content is None:
+        raise ValueError("Received empty response from TogetherAI")
+    return cast(str, content)
 BASE_CONVERSATION = [
     {"role": "system", "content": "You are a helpful assistant."},
 ]
 class TogetherJudge(JudgevalJudge):
-    def __init__(self, model: str = "QWEN", **kwargs):
-        debug(f"Initializing TogetherJudge with model={model}")
+    def __init__(self, model: str = JUDGMENT_DEFAULT_TOGETHER_MODEL, **kwargs):
         self.model = model
         self.kwargs = kwargs
         super().__init__(model_name=model)
-    # TODO: Fix cost for generate and a_generate
-    def generate(self, input: Union[str, List[Mapping[str, str]]], schema: BaseModel = None) -> str:
-        debug(f"Generating response for input type: {type(input)}")
+    def generate(
+        self,
+        input: Union[str, List[Dict[str, str]]],
+        schema: Union[BaseModel, None] = None,
+    ) -> str:
+        response_format = schema.model_json_schema() if schema else None
         if isinstance(input, str):
             convo = BASE_CONVERSATION + [{"role": "user", "content": input}]
-            return fetch_together_api_response(self.model, convo, response_format=schema)
+            return fetch_together_api_response(
+                self.model, convo, response_format=response_format
+            )
         elif isinstance(input, list):
-            convo = input
-            return fetch_together_api_response(self.model, convo, response_format=schema)
+            messages = [dict(msg) for msg in input]
+            return fetch_together_api_response(
+                self.model, messages, response_format=response_format
+            )
         else:
-            error(f"Invalid input type received: {type(input)}")
+            judgeval_logger.error(f"Invalid input type received: {type(input)}")
             raise TypeError("Input must be a string or a list of dictionaries.")
-    async def a_generate(self, input: Union[str, List[dict]], schema: BaseModel = None) -> str:
-        debug(f"Async generating response for input type: {type(input)}")
+    async def a_generate(
+        self,
+        input: Union[str, List[Dict[str, str]]],
+        schema: Union[BaseModel, None] = None,
+    ) -> str:
+        response_format = schema.model_json_schema() if schema else None
         if isinstance(input, str):
             convo = BASE_CONVERSATION + [{"role": "user", "content": input}]
-            res = await afetch_together_api_response(self.model, convo, response_format=schema)
+            res = await afetch_together_api_response(
+                self.model, convo, response_format=response_format
+            )
             return res
         elif isinstance(input, list):
-            convo = input
-            res = await afetch_together_api_response(self.model, convo, response_format=schema)
+            messages = [dict(msg) for msg in input]
+            res = await afetch_together_api_response(
+                self.model, messages, response_format=response_format
+            )
             return res
         else:
-            error(f"Invalid input type received: {type(input)}")
             raise TypeError("Input must be a string or a list of dictionaries.")
     def load_model(self) -> str:
@@ -52,4 +134,3 @@ class TogetherJudge(JudgevalJudge):
     def get_model_name(self) -> str:
         return self.model

judgeval/judges/utils.py CHANGED Viewed

@@ -1,48 +1,44 @@
 """
 This module contains utility functions for judge models.
 """
 import litellm
-from typing import Optional, Union, Tuple, List
+from typing import Optional, Union, Tuple
-from judgeval.common.exceptions import InvalidJudgeModelError
-from judgeval.judges import JudgevalJudge, LiteLLMJudge, TogetherJudge, MixtureOfJudges
-from judgeval.constants import TOGETHER_SUPPORTED_MODELS, JUDGMENT_SUPPORTED_MODELS, ACCEPTABLE_MODELS
+from judgeval.exceptions import InvalidJudgeModelError
+from judgeval.judges import JudgevalJudge, LiteLLMJudge, TogetherJudge
+from judgeval.env import JUDGMENT_DEFAULT_GPT_MODEL
+from judgeval.constants import (
+    TOGETHER_SUPPORTED_MODELS,
+    JUDGMENT_SUPPORTED_MODELS,
+)
 LITELLM_SUPPORTED_MODELS = set(litellm.model_list)
 def create_judge(
-    model: Optional[Union[str, List[str], JudgevalJudge]] = None) -> Tuple[JudgevalJudge, bool]:
+    model: Optional[Union[str, JudgevalJudge]] = None,
+) -> Tuple[JudgevalJudge, bool]:
     """
     Creates a judge model from string(s) or a judgeval judge object.
     If `model` is a single string, it is assumed to be a judge model name.
     If `model` is a list of strings, it is assumed to be a list of judge model names (for MixtureOfJudges).
-    If `model` is a judgeval judge object, it is returned as is.
+    If `model` is a judgeval judge object, it is returned as is.
     Returns a tuple of (initialized judgevalBaseLLM, using_native_model boolean)
     If no model is provided, uses GPT4o as the default judge.
     """
     if model is None:  # default option
-        return LiteLLMJudge(model="gpt-4o"), True
+        return LiteLLMJudge(model=JUDGMENT_DEFAULT_GPT_MODEL), True
     if not isinstance(model, (str, list, JudgevalJudge)):
-        raise InvalidJudgeModelError(f"Model must be a string, list of strings, or a judgeval judge object. Got: {type(model)} instead.")
+        raise InvalidJudgeModelError(
+            f"Model must be a string, list of strings, or a judgeval judge object. Got: {type(model)} instead."
+        )
     # If model is already a valid judge type, return it and mark native
-    if isinstance(model, (JudgevalJudge, LiteLLMJudge, TogetherJudge, MixtureOfJudges)):
-        return model, True
-    # Either string or List[str]
-    if isinstance(model, list):
-        for m in model:
-            if m in JUDGMENT_SUPPORTED_MODELS:
-                raise NotImplementedError(
-                    """Judgment models are not yet supported for local scoring.
-                    Please either set the `use_judgment` flag to True or use
-                    non-Judgment models."""
-                )
-            if m not in LITELLM_SUPPORTED_MODELS and m not in TOGETHER_SUPPORTED_MODELS:
-                raise InvalidJudgeModelError(f"Invalid judge model chosen: {m}")
-        return MixtureOfJudges(models=model), True
-    # If model is a string, check that it corresponds to a valid model
+    if isinstance(model, (JudgevalJudge, LiteLLMJudge, TogetherJudge)):
+        return model, True
     if model in LITELLM_SUPPORTED_MODELS:
         return LiteLLMJudge(model=model), True
     if model in TOGETHER_SUPPORTED_MODELS:

judgeval/logger.py ADDED Viewed

@@ -0,0 +1,62 @@
+import logging
+import sys
+from judgeval.env import JUDGMENT_NO_COLOR
+from judgeval.utils.decorators.use_once import use_once
+RESET = "\033[0m"
+RED = "\033[31m"
+YELLOW = "\033[33m"
+BLUE = "\033[34m"
+GRAY = "\033[90m"
+class ColorFormatter(logging.Formatter):
+    """
+    Wrap the final formatted log record in ANSI color codes based on level.
+    """
+    COLORS = {
+        logging.DEBUG: GRAY,
+        logging.INFO: GRAY,
+        logging.WARNING: YELLOW,
+        logging.ERROR: RED,
+        logging.CRITICAL: RED,
+    }
+    def __init__(self, fmt=None, datefmt=None, use_color=True):
+        super().__init__(fmt=fmt, datefmt=datefmt)
+        self.use_color = use_color and sys.stdout.isatty()
+    def format(self, record):
+        message = super().format(record)
+        if self.use_color:
+            color = self.COLORS.get(record.levelno, "")
+            if color:
+                message = f"{color}{message}{RESET}"
+        return message
+@use_once
+def _setup_judgeval_logger():
+    use_color = sys.stdout.isatty() and JUDGMENT_NO_COLOR is None
+    handler = logging.StreamHandler(sys.stdout)
+    handler.setLevel(logging.DEBUG)
+    handler.setFormatter(
+        ColorFormatter(
+            fmt="%(asctime)s - %(name)s - %(levelname)s - %(message)s",
+            datefmt="%Y-%m-%d %H:%M:%S",
+            use_color=use_color,
+        )
+    )
+    logger = logging.getLogger("judgeval")
+    logger.setLevel(logging.DEBUG)
+    logger.addHandler(handler)
+    return logger
+judgeval_logger = _setup_judgeval_logger()
+__all__ = ("judgeval_logger",)

judgeval 0.0.11__py3-none-any.whl → 0.22.2__py3-none-any.whl

Potentially problematic release.

judgeval 0.0.11py3-none-any.whl → 0.22.2py3-none-any.whl