PyPI - judgeval - Versions diffs - 0.0.11__py3-none-any.whl → 0.22.2__py3-none-any.whl - Mend

judgeval 0.0.11py3-none-any.whl → 0.22.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of judgeval might be problematic. Click here for more details.

Files changed (171) hide show

judgeval/__init__.py +177 -12
judgeval/api/__init__.py +519 -0
judgeval/api/api_types.py +407 -0
judgeval/cli.py +79 -0
judgeval/constants.py +76 -47
judgeval/data/__init__.py +3 -3
judgeval/data/evaluation_run.py +125 -0
judgeval/data/example.py +15 -56
judgeval/data/judgment_types.py +450 -0
judgeval/data/result.py +29 -73
judgeval/data/scorer_data.py +29 -62
judgeval/data/scripts/fix_default_factory.py +23 -0
judgeval/data/scripts/openapi_transform.py +123 -0
judgeval/data/trace.py +121 -0
judgeval/dataset/__init__.py +264 -0
judgeval/env.py +52 -0
judgeval/evaluation/__init__.py +344 -0
judgeval/exceptions.py +27 -0
judgeval/integrations/langgraph/__init__.py +13 -0
judgeval/integrations/openlit/__init__.py +50 -0
judgeval/judges/__init__.py +2 -3
judgeval/judges/base_judge.py +2 -3
judgeval/judges/litellm_judge.py +100 -20
judgeval/judges/together_judge.py +101 -20
judgeval/judges/utils.py +20 -24
judgeval/logger.py +62 -0
judgeval/prompt/__init__.py +330 -0
judgeval/scorers/__init__.py +18 -25
judgeval/scorers/agent_scorer.py +17 -0
judgeval/scorers/api_scorer.py +45 -41
judgeval/scorers/base_scorer.py +83 -38
judgeval/scorers/example_scorer.py +17 -0
judgeval/scorers/exceptions.py +1 -0
judgeval/scorers/judgeval_scorers/__init__.py +0 -148
judgeval/scorers/judgeval_scorers/api_scorers/__init__.py +19 -17
judgeval/scorers/judgeval_scorers/api_scorers/answer_correctness.py +13 -19
judgeval/scorers/judgeval_scorers/api_scorers/answer_relevancy.py +12 -19
judgeval/scorers/judgeval_scorers/api_scorers/faithfulness.py +13 -19
judgeval/scorers/judgeval_scorers/api_scorers/instruction_adherence.py +15 -0
judgeval/scorers/judgeval_scorers/api_scorers/prompt_scorer.py +327 -0
judgeval/scorers/score.py +77 -306
judgeval/scorers/utils.py +4 -199
judgeval/tracer/__init__.py +1122 -2
judgeval/tracer/constants.py +1 -0
judgeval/tracer/exporters/__init__.py +40 -0
judgeval/tracer/exporters/s3.py +119 -0
judgeval/tracer/exporters/store.py +59 -0
judgeval/tracer/exporters/utils.py +32 -0
judgeval/tracer/keys.py +63 -0
judgeval/tracer/llm/__init__.py +7 -0
judgeval/tracer/llm/config.py +78 -0
judgeval/tracer/llm/constants.py +9 -0
judgeval/tracer/llm/llm_anthropic/__init__.py +3 -0
judgeval/tracer/llm/llm_anthropic/config.py +6 -0
judgeval/tracer/llm/llm_anthropic/messages.py +452 -0
judgeval/tracer/llm/llm_anthropic/messages_stream.py +322 -0
judgeval/tracer/llm/llm_anthropic/wrapper.py +59 -0
judgeval/tracer/llm/llm_google/__init__.py +3 -0
judgeval/tracer/llm/llm_google/config.py +6 -0
judgeval/tracer/llm/llm_google/generate_content.py +127 -0
judgeval/tracer/llm/llm_google/wrapper.py +30 -0
judgeval/tracer/llm/llm_openai/__init__.py +3 -0
judgeval/tracer/llm/llm_openai/beta_chat_completions.py +216 -0
judgeval/tracer/llm/llm_openai/chat_completions.py +501 -0
judgeval/tracer/llm/llm_openai/config.py +6 -0
judgeval/tracer/llm/llm_openai/responses.py +506 -0
judgeval/tracer/llm/llm_openai/utils.py +42 -0
judgeval/tracer/llm/llm_openai/wrapper.py +63 -0
judgeval/tracer/llm/llm_together/__init__.py +3 -0
judgeval/tracer/llm/llm_together/chat_completions.py +406 -0
judgeval/tracer/llm/llm_together/config.py +6 -0
judgeval/tracer/llm/llm_together/wrapper.py +52 -0
judgeval/tracer/llm/providers.py +19 -0
judgeval/tracer/managers.py +167 -0
judgeval/tracer/processors/__init__.py +220 -0
judgeval/tracer/utils.py +19 -0
judgeval/trainer/__init__.py +14 -0
judgeval/trainer/base_trainer.py +122 -0
judgeval/trainer/config.py +128 -0
judgeval/trainer/console.py +144 -0
judgeval/trainer/fireworks_trainer.py +396 -0
judgeval/trainer/trainable_model.py +243 -0
judgeval/trainer/trainer.py +70 -0
judgeval/utils/async_utils.py +39 -0
judgeval/utils/decorators/__init__.py +0 -0
judgeval/utils/decorators/dont_throw.py +37 -0
judgeval/utils/decorators/use_once.py +13 -0
judgeval/utils/file_utils.py +97 -0
judgeval/utils/guards.py +36 -0
judgeval/utils/meta.py +27 -0
judgeval/utils/project.py +15 -0
judgeval/utils/serialize.py +253 -0
judgeval/utils/testing.py +70 -0
judgeval/utils/url.py +10 -0
judgeval/utils/version_check.py +28 -0
judgeval/utils/wrappers/README.md +3 -0
judgeval/utils/wrappers/__init__.py +15 -0
judgeval/utils/wrappers/immutable_wrap_async.py +74 -0
judgeval/utils/wrappers/immutable_wrap_async_iterator.py +84 -0
judgeval/utils/wrappers/immutable_wrap_sync.py +66 -0
judgeval/utils/wrappers/immutable_wrap_sync_iterator.py +84 -0
judgeval/utils/wrappers/mutable_wrap_async.py +67 -0
judgeval/utils/wrappers/mutable_wrap_sync.py +67 -0
judgeval/utils/wrappers/py.typed +0 -0
judgeval/utils/wrappers/utils.py +35 -0
judgeval/version.py +5 -0
judgeval/warnings.py +4 -0
judgeval-0.22.2.dist-info/METADATA +265 -0
judgeval-0.22.2.dist-info/RECORD +112 -0
judgeval-0.22.2.dist-info/entry_points.txt +2 -0
judgeval/clients.py +0 -39
judgeval/common/__init__.py +0 -8
judgeval/common/exceptions.py +0 -28
judgeval/common/logger.py +0 -189
judgeval/common/tracer.py +0 -798
judgeval/common/utils.py +0 -763
judgeval/data/api_example.py +0 -111
judgeval/data/datasets/__init__.py +0 -5
judgeval/data/datasets/dataset.py +0 -286
judgeval/data/datasets/eval_dataset_client.py +0 -193
judgeval/data/datasets/ground_truth.py +0 -54
judgeval/data/datasets/utils.py +0 -74
judgeval/evaluation_run.py +0 -132
judgeval/judges/mixture_of_judges.py +0 -248
judgeval/judgment_client.py +0 -354
judgeval/run_evaluation.py +0 -439
judgeval/scorers/judgeval_scorer.py +0 -140
judgeval/scorers/judgeval_scorers/api_scorers/contextual_precision.py +0 -19
judgeval/scorers/judgeval_scorers/api_scorers/contextual_recall.py +0 -19
judgeval/scorers/judgeval_scorers/api_scorers/contextual_relevancy.py +0 -22
judgeval/scorers/judgeval_scorers/api_scorers/hallucination.py +0 -19
judgeval/scorers/judgeval_scorers/api_scorers/json_correctness.py +0 -32
judgeval/scorers/judgeval_scorers/api_scorers/summarization.py +0 -20
judgeval/scorers/judgeval_scorers/api_scorers/tool_correctness.py +0 -19
judgeval/scorers/judgeval_scorers/classifiers/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/classifiers/text2sql/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/classifiers/text2sql/text2sql_scorer.py +0 -54
judgeval/scorers/judgeval_scorers/local_implementations/__init__.py +0 -24
judgeval/scorers/judgeval_scorers/local_implementations/answer_correctness/__init__.py +0 -4
judgeval/scorers/judgeval_scorers/local_implementations/answer_correctness/answer_correctness_scorer.py +0 -277
judgeval/scorers/judgeval_scorers/local_implementations/answer_correctness/prompts.py +0 -169
judgeval/scorers/judgeval_scorers/local_implementations/answer_relevancy/__init__.py +0 -4
judgeval/scorers/judgeval_scorers/local_implementations/answer_relevancy/answer_relevancy_scorer.py +0 -298
judgeval/scorers/judgeval_scorers/local_implementations/answer_relevancy/prompts.py +0 -174
judgeval/scorers/judgeval_scorers/local_implementations/contextual_precision/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/contextual_precision/contextual_precision_scorer.py +0 -264
judgeval/scorers/judgeval_scorers/local_implementations/contextual_precision/prompts.py +0 -106
judgeval/scorers/judgeval_scorers/local_implementations/contextual_recall/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/contextual_recall/contextual_recall_scorer.py +0 -254
judgeval/scorers/judgeval_scorers/local_implementations/contextual_recall/prompts.py +0 -142
judgeval/scorers/judgeval_scorers/local_implementations/contextual_relevancy/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/contextual_relevancy/contextual_relevancy_scorer.py +0 -245
judgeval/scorers/judgeval_scorers/local_implementations/contextual_relevancy/prompts.py +0 -121
judgeval/scorers/judgeval_scorers/local_implementations/faithfulness/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/faithfulness/faithfulness_scorer.py +0 -325
judgeval/scorers/judgeval_scorers/local_implementations/faithfulness/prompts.py +0 -268
judgeval/scorers/judgeval_scorers/local_implementations/hallucination/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/hallucination/hallucination_scorer.py +0 -263
judgeval/scorers/judgeval_scorers/local_implementations/hallucination/prompts.py +0 -104
judgeval/scorers/judgeval_scorers/local_implementations/json_correctness/__init__.py +0 -5
judgeval/scorers/judgeval_scorers/local_implementations/json_correctness/json_correctness_scorer.py +0 -134
judgeval/scorers/judgeval_scorers/local_implementations/summarization/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/summarization/prompts.py +0 -247
judgeval/scorers/judgeval_scorers/local_implementations/summarization/summarization_scorer.py +0 -550
judgeval/scorers/judgeval_scorers/local_implementations/tool_correctness/__init__.py +0 -3
judgeval/scorers/judgeval_scorers/local_implementations/tool_correctness/tool_correctness_scorer.py +0 -157
judgeval/scorers/prompt_scorer.py +0 -439
judgeval-0.0.11.dist-info/METADATA +0 -36
judgeval-0.0.11.dist-info/RECORD +0 -84
{judgeval-0.0.11.dist-info → judgeval-0.22.2.dist-info}/WHEEL +0 -0
{judgeval-0.0.11.dist-info → judgeval-0.22.2.dist-info}/licenses/LICENSE.md +0 -0

judgeval/scorers/judgeval_scorers/local_implementations/summarization/summarization_scorer.py DELETED Viewed

@@ -1,550 +0,0 @@
-from typing import List, Optional, Union
-import asyncio
-from judgeval.constants import APIScorer
-from judgeval.scorers.utils import (get_or_create_event_loop,
-                                    scorer_progress_meter,
-                                    create_verbose_logs,
-                                    parse_response_json,
-                                    check_example_params
-                                    )
-from judgeval.scorers import JudgevalScorer
-from judgeval.judges import JudgevalJudge
-from judgeval.judges.utils import create_judge
-from judgeval.data import Example, ExampleParams
-from judgeval.scorers.judgeval_scorers.local_implementations.faithfulness.prompts import (
-    FaithfulnessTemplate,
-    Claims
-)
-from judgeval.scorers.judgeval_scorers.local_implementations.summarization.prompts import *
-required_params = [
-    ExampleParams.INPUT,
-    ExampleParams.ACTUAL_OUTPUT,
-]
-class SummarizationScorer(JudgevalScorer):
-    def __init__(
-        self,
-        threshold: float = 0.5,
-        n: int = 5,
-        model: Optional[Union[str, JudgevalJudge]] = None,
-        assessment_questions: Optional[List[str]] = None,
-        include_reason: bool = True,
-        async_mode=True,
-        strict_mode: bool = False,
-        verbose_mode: bool = False,
-    ):
-        super().__init__(
-            score_type=APIScorer.SUMMARIZATION,
-            threshold=1 if strict_mode else threshold,
-            evaluation_model=None,
-            include_reason=include_reason,
-            async_mode=async_mode,
-            strict_mode=strict_mode,
-            verbose_mode=verbose_mode
-        )
-        self.model, self.using_native_model = create_judge(model)
-        self.evaluation_model = self.model.get_model_name()
-        if assessment_questions is not None and len(assessment_questions) == 0:
-            self.assessment_questions = None
-        else:
-            self.assessment_questions = assessment_questions
-        self.include_reason = include_reason
-        self.n = n
-        self.async_mode = async_mode
-        self.strict_mode = strict_mode
-        self.verbose_mode = verbose_mode
-    def score_example(
-        self,
-        example: Example,
-        _show_indicator: bool = True,
-    ) -> float:
-        check_example_params(example, required_params, self)
-        try:
-            with scorer_progress_meter(self, display_meter=_show_indicator):
-                if self.async_mode:
-                    loop = get_or_create_event_loop()
-                    loop.run_until_complete(
-                        self.a_score_example(example, _show_indicator=False)
-                    )
-                else:
-                    self.claims: List[str] = self._generate_claims(
-                        example.actual_output
-                    )
-                    self.info_coverage_verdicts: List[InfoCoverageVerdict] = (
-                        self._generate_info_coverage_verdicts(example)
-                    )
-                    self.contradiction_verdicts: List[ContradictionVerdict] = (
-                        self._generate_contradiction_verdicts(example)
-                    )
-                    contradiction_score = self._calculate_score(ScoreType.CONTRADICTION)
-                    info_coverage_score = self._calculate_score(ScoreType.INFO_COVERAGE)
-                    self.score_breakdown = {
-                        ScoreType.CONTRADICTION.value: contradiction_score,
-                        ScoreType.INFO_COVERAGE.value: info_coverage_score,
-                    }
-                    self.score = min(contradiction_score, info_coverage_score)
-                    self.reason = self._generate_reason()
-                    self.success = self.score >= self.threshold
-                    self.verbose_logs = create_verbose_logs(
-                        self,
-                        steps=[
-                            f"Claims:\n{self.claims}",
-                            f"Assessment Questions:\n{self.assessment_questions}",
-                            f"Info Coverage Verdicts:\n{[v.model_dump() for v in self.info_coverage_verdicts]}",
-                            f"Contradiction Verdicts:\n{[v.model_dump() for v in self.contradiction_verdicts]}",
-                            f"Score: {self.score}\nReason: {self.reason}",
-                        ],
-                    )
-                    return self.score
-        except Exception as e:
-            print(f"Error in SummarizationScorer score_example: {e}")
-            raise
-    async def a_score_example(
-        self,
-        example: Example,
-        _show_indicator: bool = True,
-    ) -> float:
-        """
-        To score, we take the following steps:
-        1. Generate claims from the actual output
-            - Extract key factual claims from the summary text
-        2. Generate info coverage verdicts:
-            a. Generate assessment questions if not provided
-            b. Generate answers to the assessment questions for both summary and original text
-            c. Compare answers to determine if summary adequately covers key information
-            d. Calculate info coverage score based on matching answers
-        3. Generate contradiction verdicts:
-            a. Generate claims from the actual output
-            b. Verify each claim against the original text for factual accuracy
-            c. Calculate contradiction score based on verified claims
-        4. Calculate final score:
-            - Take minimum of info coverage and contradiction scores
-            - Generate reason explaining the scoring
-            - Check if score meets threshold for success
-        """
-        check_example_params(example, required_params, self)
-        try:
-            with scorer_progress_meter(
-                self,
-                async_mode=True,
-                display_meter=_show_indicator,
-            ):
-                self.claims = await self._a_generate_claims(example.actual_output),
-                self.info_coverage_verdicts, self.contradiction_verdicts = await asyncio.gather(
-                    self._a_generate_info_coverage_verdicts(example),
-                    self._a_generate_contradiction_verdicts(example),
-                )
-                contradiction_score = self._calculate_score(ScoreType.CONTRADICTION)
-                info_coverage_score = self._calculate_score(ScoreType.INFO_COVERAGE)
-                self.score_breakdown = {
-                    ScoreType.CONTRADICTION.value: contradiction_score,
-                    ScoreType.INFO_COVERAGE.value: info_coverage_score,
-                }
-                self.score = min(contradiction_score, info_coverage_score)
-                self.reason = await self._a_generate_reason()
-                self.success = self.score >= self.threshold
-                self.verbose_logs = create_verbose_logs(
-                    self,
-                    steps=[
-                        f"Claims:\n{self.claims}",
-                        f"Assessment Questions:\n{self.assessment_questions}",
-                        f"Info Coverage Verdicts:\n{[v.model_dump() for v in self.info_coverage_verdicts]}",
-                        f"Contradiction Verdicts:\n{[v.model_dump() for v in self.contradiction_verdicts]}",
-                        f"Score: {self.score}\nReason: {self.reason}",
-                    ],
-                )
-                return self.score
-        except Exception as e:
-            print(f"Error in SummarizationScorer a_score_example: {e}")
-            raise
-    async def _a_generate_reason(self) -> str:
-        if self.include_reason is False:
-            return None
-        contradictions = []
-        redundancies = []
-        for verdict in self.contradiction_verdicts:
-            if verdict.verdict.strip().lower() == "no":
-                contradictions.append(verdict.reason)
-            elif verdict.verdict.strip().lower() == "idk":
-                redundancies.append(verdict.reason)
-        questions = []
-        if self.info_coverage_verdicts:
-            for verdict in self.info_coverage_verdicts:
-                if (
-                    verdict.original_verdict.strip().lower() == "yes"
-                    and verdict.summary_verdict.strip().lower() == "no"
-                ):
-                    questions.append(verdict.question)
-        prompt: dict = SummarizationTemplate.generate_reason(
-            contradictions=contradictions,
-            redundancies=redundancies,
-            questions=questions,
-            score=format(self.score, ".2f"),
-        )
-        if len(questions) > 0:
-            prompt += f"""Questions the original text can answer but not the summary:
-{questions}
-"""
-        prompt += """JSON:
-"""
-        if self.using_native_model:
-            res = await self.model.a_generate(prompt)
-            data = parse_response_json(res, self)
-            return data["reason"]
-        else:
-            try:
-                res: Reason = await self.model.a_generate(prompt, schema=Reason)
-                return res.reason
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = parse_response_json(res, self)
-                return data["reason"]
-    def _generate_reason(self) -> str:
-        if self.include_reason is False:
-            return None
-        contradictions = []
-        redundancies = []
-        for verdict in self.contradiction_verdicts:
-            if verdict.verdict.strip().lower() == "no":
-                contradictions.append(verdict.reason)
-            elif verdict.verdict.strip().lower() == "idk":
-                redundancies.append(verdict.reason)
-        questions = []
-        if self.info_coverage_verdicts:
-            for verdict in self.info_coverage_verdicts:
-                if (
-                    verdict.original_verdict.strip().lower() == "yes"
-                    and verdict.summary_verdict.strip().lower() == "no"
-                ):
-                    questions.append(verdict.question)
-        prompt: dict = SummarizationTemplate.generate_reason(
-            contradictions=contradictions,
-            redundancies=redundancies,
-            questions=questions,
-            score=format(self.score, ".2f"),
-        )
-        if len(questions) > 0:
-            prompt += f"""Questions the original text can answer but not the summary:
-{questions}
-"""
-        prompt += """JSON:
-"""
-        if self.using_native_model:
-            res = self.model.generate(prompt)
-            data = parse_response_json(res, self)
-            return data["reason"]
-        else:
-            try:
-                res: Reason = self.model.generate(prompt, schema=Reason)
-                return res.reason
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = parse_response_json(res, self)
-                return data["reason"]
-    def _calculate_score(self, score_type: ScoreType) -> float:
-        if score_type == ScoreType.CONTRADICTION:
-            total = len(self.contradiction_verdicts)
-            if total == 0:
-                return 0
-            faithfulness_count = 0
-            for verdict in self.contradiction_verdicts:
-                # Different from the faithfulness score, this
-                # penalizes 'idk' (full of fluff) summaries
-                if verdict.verdict.strip().lower() == "yes":
-                    faithfulness_count += 1
-            score = faithfulness_count / total
-        else:
-            if self.assessment_questions is None:
-                return 1
-            total = 0
-            coverage_count = 0
-            for verdict in self.info_coverage_verdicts:
-                if verdict.original_verdict.strip().lower() == "yes":
-                    total += 1
-                    if verdict.summary_verdict.strip().lower() == "yes":
-                        coverage_count += 1
-            if total == 0:
-                return 0
-            score = coverage_count / total
-        return 0 if self.strict_mode and score < self.threshold else score
-    async def _a_generate_answers(self, text: str) -> List[str]:
-        prompt = SummarizationTemplate.generate_answers(
-            questions=self.assessment_questions, text=text
-        )
-        if self.using_native_model:
-            res = await self.model.a_generate(prompt)
-            data = parse_response_json(res, self)
-            return data["answers"]
-        else:
-            try:
-                res: Answers = await self.model.a_generate(
-                    prompt, schema=Answers
-                )
-                return res.answers
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = parse_response_json(res, self)
-                return data["answers"]
-    def _generate_answers(self, text: str) -> List[str]:
-        prompt = SummarizationTemplate.generate_answers(
-            questions=self.assessment_questions, text=text
-        )
-        if self.using_native_model:
-            res = self.model.generate(prompt)
-            data = parse_response_json(res, self)
-            return data["answers"]
-        else:
-            try:
-                res: Answers = self.model.generate(prompt, schema=Answers)
-                return res.answers
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = parse_response_json(res, self)
-                return data["answers"]
-    async def _a_generate_assessment_questions(self, text: str):
-        prompt = SummarizationTemplate.generate_questions(text=text, n=self.n)
-        if self.using_native_model:
-            res = await self.model.a_generate(prompt)
-            data = parse_response_json(res, self)
-            return data["questions"]
-        else:
-            try:
-                res: Questions = await self.model.a_generate(
-                    prompt, schema=Questions
-                )
-                return res.questions
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = parse_response_json(res, self)
-                return data["questions"]
-    def _generate_assessment_questions(self, text: str):
-        prompt = SummarizationTemplate.generate_questions(text=text, n=self.n)
-        if self.using_native_model:
-            res = self.model.generate(prompt)
-            data = parse_response_json(res, self)
-            return data["questions"]
-        else:
-            try:
-                res: Questions = self.model.generate(prompt, schema=Questions)
-                return res.questions
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = parse_response_json(res, self)
-                return data["questions"]
-    async def _a_generate_info_coverage_verdicts(
-        self, example: Example
-    ) -> List[InfoCoverageVerdict]:
-        if self.assessment_questions is None:
-            self.assessment_questions = (
-                await self._a_generate_assessment_questions(example.input)
-            )
-        tasks = [
-            self._a_generate_answers(example.input),
-            self._a_generate_answers(example.actual_output),
-        ]
-        results = await asyncio.gather(*tasks)
-        original_answers = results[0]
-        summary_answers = results[1]
-        if len(original_answers) != len(summary_answers):
-            raise ValueError("Number of verdicts generated does not equal.")
-        coverage_veridcts: List[InfoCoverageVerdict] = []
-        for i in range(len(original_answers)):
-            coverage_veridcts.append(
-                InfoCoverageVerdict(
-                    summary_verdict=summary_answers[i],
-                    original_verdict=original_answers[i],
-                    question=self.assessment_questions[i],
-                )
-            )
-        return coverage_veridcts
-    def _generate_info_coverage_verdicts(
-        self, example: Example
-    ) -> List[InfoCoverageVerdict]:
-        if self.assessment_questions is None:
-            self.assessment_questions = self._generate_assessment_questions(
-                example.input
-            )
-        original_answers = self._generate_answers(example.input)
-        summary_answers = self._generate_answers(example.actual_output)
-        if len(original_answers) != len(summary_answers):
-            raise ValueError("Number of verdicts generated does not equal.")
-        coverage_veridcts: List[InfoCoverageVerdict] = []
-        for i in range(len(original_answers)):
-            coverage_veridcts.append(
-                InfoCoverageVerdict(
-                    summary_verdict=summary_answers[i],
-                    original_verdict=original_answers[i],
-                    question=self.assessment_questions[i],
-                )
-            )
-        return coverage_veridcts
-    async def _a_generate_contradiction_verdicts(
-        self,
-        example: Example,
-    ) -> List[ContradictionVerdict]:
-        if len(self.claims) == 0:
-            return []
-        verdicts: List[ContradictionVerdict] = []
-        prompt = SummarizationTemplate.generate_contradiction_verdicts(
-            original_text=example.input,
-            summary_claims=self.claims
-        )
-        if self.using_native_model:
-            res = await self.model.a_generate(prompt)
-            data = parse_response_json(res, self)
-            verdicts = [
-                ContradictionVerdict(**item)
-                for item in data["verdicts"]
-            ]
-            return verdicts
-        else:
-            try:
-                res: Verdicts = await self.model.a_generate(
-                    prompt, schema=Verdicts
-                )
-                verdicts = [item for item in res.verdicts]
-                return verdicts
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = parse_response_json(res, self)
-                verdicts = [
-                    ContradictionVerdict(**item)
-                    for item in data["verdicts"]
-                ]
-                return verdicts
-    def _generate_contradiction_verdicts(
-        self,
-        example: Example,
-    ) -> List[ContradictionVerdict]:
-        if len(self.claims) == 0:
-            return []
-        verdicts: List[ContradictionVerdict] = []
-        prompt = SummarizationTemplate.generate_contradiction_verdicts(
-            original_text=example.input,
-            summary_claims=self.claims
-        )
-        if self.using_native_model:
-            res = self.model.generate(prompt)
-            data = parse_response_json(res, self)
-            verdicts = [
-                ContradictionVerdict(**item)
-                for item in data["verdicts"]
-            ]
-            return verdicts
-        else:
-            try:
-                res: Verdicts = self.model.generate(prompt, schema=Verdicts)
-                verdicts = [item for item in res.verdicts]
-                return verdicts
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = parse_response_json(res, self)
-                verdicts = [
-                    ContradictionVerdict(**item)
-                    for item in data["verdicts"]
-                ]
-                return verdicts
-    async def _a_generate_claims(self, text: str) -> List[str]:
-        # Borrow faithfulness template since it already works
-        prompt = FaithfulnessTemplate.find_claims(text=text)
-        if self.using_native_model:
-            res = await self.model.a_generate(prompt)
-            data = parse_response_json(res, self)
-            return data["claims"]
-        else:
-            try:
-                res: Claims = await self.model.a_generate(prompt, schema=Claims)
-                return res.claims
-            except TypeError:
-                res = await self.model.a_generate(prompt)
-                data = parse_response_json(res, self)
-                return data["claims"]
-    def _generate_claims(self, text: str) -> List[str]:
-        # Borrow faithfulness template
-        prompt = FaithfulnessTemplate.find_claims(text=text)
-        if self.using_native_model:
-            res = self.model.generate(prompt)
-            data = parse_response_json(res, self)
-            return data["claims"]
-        else:
-            try:
-                res: Claims = self.model.generate(prompt, schema=Claims)
-                return res.claims
-            except TypeError:
-                res = self.model.generate(prompt)
-                data = parse_response_json(res, self)
-                return data["claims"]
-    def _success_check(self) -> bool:
-        if self.error is not None:
-            self.success = False
-        else:
-            try:
-                self.success = self.score >= self.threshold
-            except:
-                self.success = False
-        return self.success
-    @property
-    def __name__(self):
-        return "Summarization"

judgeval/scorers/judgeval_scorers/local_implementations/tool_correctness/__init__.py DELETED Viewed

@@ -1,3 +0,0 @@
-from judgeval.scorers.judgeval_scorers.local_implementations.tool_correctness.tool_correctness_scorer import ToolCorrectnessScorer
-__all__ = ["ToolCorrectnessScorer"]

judgeval 0.0.11__py3-none-any.whl → 0.22.2__py3-none-any.whl

Potentially problematic release.

judgeval 0.0.11py3-none-any.whl → 0.22.2py3-none-any.whl