PyPI - bead - Versions diffs - 0.1.0__py3-none-any.whl - Mend

bead 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (231) hide show

bead/__init__.py +11 -0
bead/__main__.py +11 -0
bead/active_learning/__init__.py +15 -0
bead/active_learning/config.py +231 -0
bead/active_learning/loop.py +566 -0
bead/active_learning/models/__init__.py +24 -0
bead/active_learning/models/base.py +852 -0
bead/active_learning/models/binary.py +910 -0
bead/active_learning/models/categorical.py +943 -0
bead/active_learning/models/cloze.py +862 -0
bead/active_learning/models/forced_choice.py +956 -0
bead/active_learning/models/free_text.py +773 -0
bead/active_learning/models/lora.py +365 -0
bead/active_learning/models/magnitude.py +835 -0
bead/active_learning/models/multi_select.py +795 -0
bead/active_learning/models/ordinal_scale.py +811 -0
bead/active_learning/models/peft_adapter.py +155 -0
bead/active_learning/models/random_effects.py +639 -0
bead/active_learning/selection.py +354 -0
bead/active_learning/strategies.py +391 -0
bead/active_learning/trainers/__init__.py +26 -0
bead/active_learning/trainers/base.py +210 -0
bead/active_learning/trainers/data_collator.py +172 -0
bead/active_learning/trainers/dataset_utils.py +261 -0
bead/active_learning/trainers/huggingface.py +304 -0
bead/active_learning/trainers/lightning.py +324 -0
bead/active_learning/trainers/metrics.py +424 -0
bead/active_learning/trainers/mixed_effects.py +551 -0
bead/active_learning/trainers/model_wrapper.py +509 -0
bead/active_learning/trainers/registry.py +104 -0
bead/adapters/__init__.py +11 -0
bead/adapters/huggingface.py +61 -0
bead/behavioral/__init__.py +116 -0
bead/behavioral/analytics.py +646 -0
bead/behavioral/extraction.py +343 -0
bead/behavioral/merging.py +343 -0
bead/cli/__init__.py +11 -0
bead/cli/active_learning.py +513 -0
bead/cli/active_learning_commands.py +779 -0
bead/cli/completion.py +359 -0
bead/cli/config.py +624 -0
bead/cli/constraint_builders.py +286 -0
bead/cli/deployment.py +859 -0
bead/cli/deployment_trials.py +493 -0
bead/cli/deployment_ui.py +332 -0
bead/cli/display.py +378 -0
bead/cli/items.py +960 -0
bead/cli/items_factories.py +776 -0
bead/cli/list_constraints.py +714 -0
bead/cli/lists.py +490 -0
bead/cli/main.py +430 -0
bead/cli/models.py +877 -0
bead/cli/resource_loaders.py +621 -0
bead/cli/resources.py +1036 -0
bead/cli/shell.py +356 -0
bead/cli/simulate.py +840 -0
bead/cli/templates.py +1158 -0
bead/cli/training.py +1080 -0
bead/cli/utils.py +614 -0
bead/cli/workflow.py +1273 -0
bead/config/__init__.py +68 -0
bead/config/active_learning.py +1009 -0
bead/config/config.py +192 -0
bead/config/defaults.py +118 -0
bead/config/deployment.py +217 -0
bead/config/env.py +147 -0
bead/config/item.py +45 -0
bead/config/list.py +193 -0
bead/config/loader.py +149 -0
bead/config/logging.py +42 -0
bead/config/model.py +49 -0
bead/config/paths.py +46 -0
bead/config/profiles.py +320 -0
bead/config/resources.py +47 -0
bead/config/serialization.py +210 -0
bead/config/simulation.py +206 -0
bead/config/template.py +238 -0
bead/config/validation.py +267 -0
bead/data/__init__.py +65 -0
bead/data/base.py +87 -0
bead/data/identifiers.py +97 -0
bead/data/language_codes.py +61 -0
bead/data/metadata.py +270 -0
bead/data/range.py +123 -0
bead/data/repository.py +358 -0
bead/data/serialization.py +249 -0
bead/data/timestamps.py +89 -0
bead/data/validation.py +349 -0
bead/data_collection/__init__.py +11 -0
bead/data_collection/jatos.py +223 -0
bead/data_collection/merger.py +154 -0
bead/data_collection/prolific.py +198 -0
bead/deployment/__init__.py +5 -0
bead/deployment/distribution.py +402 -0
bead/deployment/jatos/__init__.py +1 -0
bead/deployment/jatos/api.py +200 -0
bead/deployment/jatos/exporter.py +210 -0
bead/deployment/jspsych/__init__.py +9 -0
bead/deployment/jspsych/biome.json +44 -0
bead/deployment/jspsych/config.py +411 -0
bead/deployment/jspsych/generator.py +598 -0
bead/deployment/jspsych/package.json +51 -0
bead/deployment/jspsych/pnpm-lock.yaml +2141 -0
bead/deployment/jspsych/randomizer.py +299 -0
bead/deployment/jspsych/src/lib/list-distributor.test.ts +327 -0
bead/deployment/jspsych/src/lib/list-distributor.ts +1282 -0
bead/deployment/jspsych/src/lib/randomizer.test.ts +232 -0
bead/deployment/jspsych/src/lib/randomizer.ts +367 -0
bead/deployment/jspsych/src/plugins/cloze-dropdown.ts +252 -0
bead/deployment/jspsych/src/plugins/forced-choice.ts +265 -0
bead/deployment/jspsych/src/plugins/plugins.test.ts +141 -0
bead/deployment/jspsych/src/plugins/rating.ts +248 -0
bead/deployment/jspsych/src/slopit/index.ts +9 -0
bead/deployment/jspsych/src/types/jatos.d.ts +256 -0
bead/deployment/jspsych/src/types/jspsych.d.ts +228 -0
bead/deployment/jspsych/templates/experiment.css +1 -0
bead/deployment/jspsych/templates/experiment.js.template +289 -0
bead/deployment/jspsych/templates/index.html +51 -0
bead/deployment/jspsych/templates/randomizer.js +241 -0
bead/deployment/jspsych/templates/randomizer.js.template +313 -0
bead/deployment/jspsych/trials.py +723 -0
bead/deployment/jspsych/tsconfig.json +23 -0
bead/deployment/jspsych/tsup.config.ts +30 -0
bead/deployment/jspsych/ui/__init__.py +1 -0
bead/deployment/jspsych/ui/components.py +383 -0
bead/deployment/jspsych/ui/styles.py +411 -0
bead/dsl/__init__.py +80 -0
bead/dsl/ast.py +168 -0
bead/dsl/context.py +178 -0
bead/dsl/errors.py +71 -0
bead/dsl/evaluator.py +570 -0
bead/dsl/grammar.lark +81 -0
bead/dsl/parser.py +231 -0
bead/dsl/stdlib.py +929 -0
bead/evaluation/__init__.py +13 -0
bead/evaluation/convergence.py +485 -0
bead/evaluation/interannotator.py +398 -0
bead/items/__init__.py +40 -0
bead/items/adapters/__init__.py +70 -0
bead/items/adapters/anthropic.py +224 -0
bead/items/adapters/api_utils.py +167 -0
bead/items/adapters/base.py +216 -0
bead/items/adapters/google.py +259 -0
bead/items/adapters/huggingface.py +1074 -0
bead/items/adapters/openai.py +323 -0
bead/items/adapters/registry.py +202 -0
bead/items/adapters/sentence_transformers.py +224 -0
bead/items/adapters/togetherai.py +309 -0
bead/items/binary.py +515 -0
bead/items/cache.py +558 -0
bead/items/categorical.py +593 -0
bead/items/cloze.py +757 -0
bead/items/constructor.py +784 -0
bead/items/forced_choice.py +413 -0
bead/items/free_text.py +681 -0
bead/items/generation.py +432 -0
bead/items/item.py +396 -0
bead/items/item_template.py +787 -0
bead/items/magnitude.py +573 -0
bead/items/multi_select.py +621 -0
bead/items/ordinal_scale.py +569 -0
bead/items/scoring.py +448 -0
bead/items/validation.py +723 -0
bead/lists/__init__.py +30 -0
bead/lists/balancer.py +263 -0
bead/lists/constraints.py +1067 -0
bead/lists/experiment_list.py +286 -0
bead/lists/list_collection.py +378 -0
bead/lists/partitioner.py +1141 -0
bead/lists/stratification.py +254 -0
bead/participants/__init__.py +73 -0
bead/participants/collection.py +699 -0
bead/participants/merging.py +312 -0
bead/participants/metadata_spec.py +491 -0
bead/participants/models.py +276 -0
bead/resources/__init__.py +29 -0
bead/resources/adapters/__init__.py +19 -0
bead/resources/adapters/base.py +104 -0
bead/resources/adapters/cache.py +128 -0
bead/resources/adapters/glazing.py +508 -0
bead/resources/adapters/registry.py +117 -0
bead/resources/adapters/unimorph.py +796 -0
bead/resources/classification.py +856 -0
bead/resources/constraint_builders.py +329 -0
bead/resources/constraints.py +165 -0
bead/resources/lexical_item.py +223 -0
bead/resources/lexicon.py +744 -0
bead/resources/loaders.py +209 -0
bead/resources/template.py +441 -0
bead/resources/template_collection.py +707 -0
bead/resources/template_generation.py +349 -0
bead/simulation/__init__.py +29 -0
bead/simulation/annotators/__init__.py +15 -0
bead/simulation/annotators/base.py +175 -0
bead/simulation/annotators/distance_based.py +135 -0
bead/simulation/annotators/lm_based.py +114 -0
bead/simulation/annotators/oracle.py +182 -0
bead/simulation/annotators/random.py +181 -0
bead/simulation/dsl_extension/__init__.py +3 -0
bead/simulation/noise_models/__init__.py +13 -0
bead/simulation/noise_models/base.py +42 -0
bead/simulation/noise_models/random_noise.py +82 -0
bead/simulation/noise_models/systematic.py +132 -0
bead/simulation/noise_models/temperature.py +86 -0
bead/simulation/runner.py +144 -0
bead/simulation/strategies/__init__.py +23 -0
bead/simulation/strategies/base.py +123 -0
bead/simulation/strategies/binary.py +103 -0
bead/simulation/strategies/categorical.py +123 -0
bead/simulation/strategies/cloze.py +224 -0
bead/simulation/strategies/forced_choice.py +127 -0
bead/simulation/strategies/free_text.py +105 -0
bead/simulation/strategies/magnitude.py +116 -0
bead/simulation/strategies/multi_select.py +129 -0
bead/simulation/strategies/ordinal_scale.py +131 -0
bead/templates/__init__.py +27 -0
bead/templates/adapters/__init__.py +17 -0
bead/templates/adapters/base.py +128 -0
bead/templates/adapters/cache.py +178 -0
bead/templates/adapters/huggingface.py +312 -0
bead/templates/combinatorics.py +103 -0
bead/templates/filler.py +605 -0
bead/templates/renderers.py +177 -0
bead/templates/resolver.py +178 -0
bead/templates/strategies.py +1806 -0
bead/templates/streaming.py +195 -0
bead-0.1.0.dist-info/METADATA +212 -0
bead-0.1.0.dist-info/RECORD +231 -0
bead-0.1.0.dist-info/WHEEL +4 -0
bead-0.1.0.dist-info/entry_points.txt +2 -0
bead-0.1.0.dist-info/licenses/LICENSE +21 -0

bead/items/adapters/sentence_transformers.py ADDED Viewed

@@ -0,0 +1,224 @@
+"""Sentence transformer adapter for semantic embeddings.
+This module provides an adapter for sentence-transformers models,
+which are optimized for generating sentence embeddings for semantic
+similarity tasks.
+"""
+from __future__ import annotations
+import logging
+from typing import TYPE_CHECKING
+import numpy as np
+from bead.items.adapters.base import ModelAdapter
+from bead.items.cache import ModelOutputCache
+if TYPE_CHECKING:
+    from sentence_transformers import SentenceTransformer
+logger = logging.getLogger(__name__)
+class HuggingFaceSentenceTransformer(ModelAdapter):
+    """Adapter for sentence-transformers models.
+    Supports sentence-transformers models like "all-MiniLM-L6-v2",
+    "all-mpnet-base-v2", etc. These models are optimized for generating
+    sentence embeddings for semantic similarity tasks.
+    Parameters
+    ----------
+    model_name : str
+        Sentence transformer model identifier.
+    cache : ModelOutputCache
+        Cache instance for storing model outputs.
+    device : str | None
+        Device to run model on. If None, uses sentence-transformers default.
+    model_version : str
+        Version string for cache tracking.
+    normalize_embeddings : bool
+        Whether to normalize embeddings to unit length.
+    Examples
+    --------
+    >>> from pathlib import Path
+    >>> from bead.items.cache import ModelOutputCache
+    >>> cache = ModelOutputCache(cache_dir=Path(".cache"))
+    >>> model = HuggingFaceSentenceTransformer("all-MiniLM-L6-v2", cache)
+    >>> embedding = model.get_embedding("The cat sat on the mat.")
+    >>> similarity = model.compute_similarity("The cat sat.", "The dog stood.")
+    """
+    def __init__(
+        self,
+        model_name: str,
+        cache: ModelOutputCache,
+        device: str | None = None,
+        model_version: str = "unknown",
+        normalize_embeddings: bool = True,
+    ) -> None:
+        super().__init__(model_name, cache, model_version)
+        self.device = device
+        self.normalize_embeddings = normalize_embeddings
+        self._model: SentenceTransformer | None = None
+    def _load_model(self) -> None:
+        """Load model lazily on first use."""
+        if self._model is None:
+            from sentence_transformers import SentenceTransformer  # noqa: PLC0415
+            logger.info(f"Loading sentence transformer: {self.model_name}")
+            self._model = SentenceTransformer(self.model_name, device=self.device)
+    @property
+    def model(self) -> SentenceTransformer:
+        """Get the model, loading if necessary."""
+        self._load_model()
+        assert self._model is not None
+        return self._model
+    def compute_log_probability(self, text: str) -> float:
+        """Compute log probability of text.
+        Not supported for sentence transformer models.
+        Raises
+        ------
+        NotImplementedError
+            Always raised, as sentence transformers don't provide log probabilities.
+        """
+        raise NotImplementedError(
+            f"Log probability is not supported for sentence transformer "
+            f"{self.model_name}. Use HuggingFaceLanguageModel or "
+            "HuggingFaceMaskedLanguageModel instead."
+        )
+    def compute_perplexity(self, text: str) -> float:
+        """Compute perplexity of text.
+        Not supported for sentence transformer models.
+        Raises
+        ------
+        NotImplementedError
+            Always raised, as sentence transformers don't provide perplexity.
+        """
+        raise NotImplementedError(
+            f"Perplexity is not supported for sentence transformer {self.model_name}. "
+            "Use HuggingFaceLanguageModel or HuggingFaceMaskedLanguageModel instead."
+        )
+    def get_embedding(self, text: str) -> np.ndarray:
+        """Get embedding vector for text.
+        Uses sentence-transformers encode() method to generate
+        optimized sentence embeddings.
+        Parameters
+        ----------
+        text : str
+            Text to embed.
+        Returns
+        -------
+        np.ndarray
+            Embedding vector for the text.
+        """
+        # Check cache
+        cached = self.cache.get(self.model_name, "embedding", text=text)
+        if cached is not None:
+            return cached
+        # Encode text
+        embedding = self.model.encode(
+            text,
+            convert_to_numpy=True,
+            normalize_embeddings=self.normalize_embeddings,
+        )
+        # Ensure it's a numpy array
+        if not isinstance(embedding, np.ndarray):
+            embedding = np.array(embedding)
+        # Cache result
+        self.cache.set(
+            self.model_name,
+            "embedding",
+            embedding,
+            model_version=self.model_version,
+            text=text,
+        )
+        return embedding
+    def compute_nli(self, premise: str, hypothesis: str) -> dict[str, float]:
+        """Compute natural language inference scores.
+        Not supported for sentence transformer models.
+        Raises
+        ------
+        NotImplementedError
+            Always raised, as sentence transformers don't support NLI directly.
+        """
+        raise NotImplementedError(
+            f"NLI is not supported for sentence transformer {self.model_name}. "
+            "Use HuggingFaceNLI adapter with an NLI-trained model instead."
+        )
+    def compute_similarity(self, text1: str, text2: str) -> float:
+        """Compute similarity between two texts.
+        Uses cosine similarity of embeddings. For sentence transformers,
+        this is optimized as embeddings are already normalized (if
+        normalize_embeddings=True).
+        Parameters
+        ----------
+        text1 : str
+            First text.
+        text2 : str
+            Second text.
+        Returns
+        -------
+        float
+            Similarity score in [-1, 1] (cosine similarity).
+        """
+        # Check cache
+        cached = self.cache.get(self.model_name, "similarity", text1=text1, text2=text2)
+        if cached is not None:
+            return cached
+        # Get embeddings
+        emb1 = self.get_embedding(text1)
+        emb2 = self.get_embedding(text2)
+        # Compute cosine similarity
+        if self.normalize_embeddings:
+            # Embeddings are already normalized, just dot product
+            similarity = float(np.dot(emb1, emb2))
+        else:
+            # Need to normalize
+            dot_product = np.dot(emb1, emb2)
+            norm1 = np.linalg.norm(emb1)
+            norm2 = np.linalg.norm(emb2)
+            if norm1 == 0 or norm2 == 0:
+                similarity = 0.0
+            else:
+                similarity = float(dot_product / (norm1 * norm2))
+        # Cache result
+        self.cache.set(
+            self.model_name,
+            "similarity",
+            similarity,
+            model_version=self.model_version,
+            text1=text1,
+            text2=text2,
+        )
+        return similarity

bead/items/adapters/togetherai.py ADDED Viewed

@@ -0,0 +1,309 @@
+"""Together AI adapter for item construction.
+This module provides a ModelAdapter implementation for Together AI's API,
+which provides access to various open-source models. Together AI uses an
+OpenAI-compatible API, so we use the OpenAI client with a custom base URL.
+"""
+from __future__ import annotations
+import os
+import numpy as np
+try:
+    import openai
+except ImportError as e:
+    raise ImportError(
+        "openai package is required for Together AI adapter. "
+        "Install it with: pip install openai"
+    ) from e
+from bead.items.adapters.api_utils import rate_limit, retry_with_backoff
+from bead.items.adapters.base import ModelAdapter
+from bead.items.cache import ModelOutputCache
+class TogetherAIAdapter(ModelAdapter):
+    """Adapter for Together AI models.
+    Together AI provides access to various open-source models through an
+    OpenAI-compatible API. This adapter uses the OpenAI client with a
+    custom base URL.
+    Parameters
+    ----------
+    model_name : str
+        Together AI model identifier
+        (default: "meta-llama/Llama-3-70b-chat-hf").
+    api_key : str | None
+        Together AI API key. If None, uses TOGETHER_API_KEY environment variable.
+    cache : ModelOutputCache | None
+        Cache for model outputs. If None, creates in-memory cache.
+    model_version : str
+        Model version for cache tracking (default: "latest").
+    Attributes
+    ----------
+    model_name : str
+        Together AI model identifier (e.g., "meta-llama/Llama-3-70b-chat-hf").
+    client : openai.OpenAI
+        OpenAI-compatible client configured for Together AI.
+    Raises
+    ------
+    ValueError
+        If no API key is provided and TOGETHER_API_KEY is not set.
+    """
+    def __init__(
+        self,
+        model_name: str = "meta-llama/Llama-3-70b-chat-hf",
+        api_key: str | None = None,
+        cache: ModelOutputCache | None = None,
+        model_version: str = "latest",
+    ) -> None:
+        if cache is None:
+            cache = ModelOutputCache(backend="memory")
+        super().__init__(
+            model_name=model_name, cache=cache, model_version=model_version
+        )
+        # Get API key from parameter or environment
+        if api_key is None:
+            api_key = os.environ.get("TOGETHER_API_KEY")
+            if api_key is None:
+                raise ValueError(
+                    "Together AI API key must be provided via api_key parameter "
+                    "or TOGETHER_API_KEY environment variable"
+                )
+        # Together AI uses OpenAI-compatible API
+        self.client = openai.OpenAI(
+            api_key=api_key, base_url="https://api.together.xyz/v1"
+        )
+    @retry_with_backoff(
+        max_retries=3,
+        initial_delay=1.0,
+        backoff_factor=2.0,
+        exceptions=(openai.APIError, openai.APIConnectionError, openai.RateLimitError),
+    )
+    @rate_limit(calls_per_minute=60)
+    def compute_log_probability(self, text: str) -> float:
+        """Compute log probability of text using Together AI API.
+        Uses the completions API with logprobs to get token-level log probabilities
+        and sums them to get the total log probability.
+        Parameters
+        ----------
+        text : str
+            Text to compute log probability for.
+        Returns
+        -------
+        float
+            Log probability of the text (sum of token log probabilities).
+        """
+        # Check cache
+        cached = self.cache.get(
+            model_name=self.model_name, operation="log_probability", text=text
+        )
+        if cached is not None:
+            return float(cached)
+        # Call API
+        try:
+            response = self.client.completions.create(
+                model=self.model_name,
+                prompt=text,
+                max_tokens=0,
+                echo=True,
+                logprobs=1,
+            )
+            # Sum token log probabilities
+            logprobs = response.choices[0].logprobs
+            if logprobs is None or logprobs.token_logprobs is None:
+                raise ValueError("API response did not include logprobs")
+            # Filter out None values (first token may have None)
+            token_logprobs = [lp for lp in logprobs.token_logprobs if lp is not None]
+            total_log_prob = sum(token_logprobs)
+        except (openai.BadRequestError, AttributeError) as e:
+            # Some models may not support completions API, fall back to chat
+            raise NotImplementedError(
+                f"Log probability computation is not supported for model "
+                f"{self.model_name}. This model may not support the "
+                "completions API with logprobs."
+            ) from e
+        # Cache result
+        self.cache.set(
+            model_name=self.model_name,
+            operation="log_probability",
+            result=total_log_prob,
+            model_version=self.model_version,
+            text=text,
+        )
+        return float(total_log_prob)
+    def compute_perplexity(self, text: str) -> float:
+        """Compute perplexity of text.
+        Perplexity is computed as exp(-log_prob / num_tokens).
+        Parameters
+        ----------
+        text : str
+            Text to compute perplexity for.
+        Returns
+        -------
+        float
+            Perplexity of the text (must be positive).
+        Raises
+        ------
+        NotImplementedError
+            If log probability computation is not supported.
+        """
+        # Check cache
+        cached = self.cache.get(
+            model_name=self.model_name, operation="perplexity", text=text
+        )
+        if cached is not None:
+            return float(cached)
+        # Get log probability
+        log_prob = self.compute_log_probability(text)
+        # Estimate number of tokens (rough approximation: 1 token ~ 4 chars)
+        num_tokens = max(1, len(text) // 4)
+        # Compute perplexity: exp(-log_prob / num_tokens)
+        perplexity = np.exp(-log_prob / num_tokens)
+        # Cache result
+        self.cache.set(
+            model_name=self.model_name,
+            operation="perplexity",
+            result=float(perplexity),
+            model_version=self.model_version,
+            text=text,
+        )
+        return float(perplexity)
+    def get_embedding(self, text: str) -> np.ndarray:
+        """Get embedding vector for text.
+        Not supported by Together AI (no embedding-specific models).
+        Raises
+        ------
+        NotImplementedError
+            Always raised - Together AI does not provide embeddings.
+        """
+        raise NotImplementedError(
+            "Embedding computation is not supported by Together AI. "
+            "Together AI focuses on text generation models. "
+            "Consider using OpenAI's text-embedding models or sentence transformers."
+        )
+    @retry_with_backoff(
+        max_retries=3,
+        initial_delay=1.0,
+        backoff_factor=2.0,
+        exceptions=(openai.APIError, openai.APIConnectionError, openai.RateLimitError),
+    )
+    @rate_limit(calls_per_minute=60)
+    def compute_nli(self, premise: str, hypothesis: str) -> dict[str, float]:
+        """Compute natural language inference scores via prompting.
+        Uses chat completions API with a prompt to classify the relationship
+        between premise and hypothesis.
+        Parameters
+        ----------
+        premise : str
+            Premise text.
+        hypothesis : str
+            Hypothesis text.
+        Returns
+        -------
+        dict[str, float]
+            Dictionary with keys "entailment", "neutral", "contradiction"
+            mapping to probability scores.
+        """
+        # Check cache
+        cached = self.cache.get(
+            model_name=self.model_name,
+            operation="nli",
+            premise=premise,
+            hypothesis=hypothesis,
+        )
+        if cached is not None:
+            return dict(cached)
+        # Construct prompt
+        prompt = (
+            "Given the following premise and hypothesis, "
+            "determine the relationship between them.\n\n"
+            f"Premise: {premise}\n"
+            f"Hypothesis: {hypothesis}\n\n"
+            "Choose one of the following:\n"
+            "- entailment: The hypothesis is definitely true given the premise\n"
+            "- neutral: The hypothesis might be true given the premise\n"
+            "- contradiction: The hypothesis is definitely false given the premise\n\n"
+            "Respond with only one word: entailment, neutral, or contradiction."
+        )
+        # Call API
+        response = self.client.chat.completions.create(
+            model=self.model_name,
+            messages=[{"role": "user", "content": prompt}],
+            temperature=0.0,
+            max_tokens=10,
+        )
+        # Parse response
+        answer = response.choices[0].message.content
+        if answer is None:
+            raise ValueError("API response did not include content")
+        answer = answer.strip().lower()
+        # Map to scores
+        scores: dict[str, float] = {
+            "entailment": 0.0,
+            "neutral": 0.0,
+            "contradiction": 0.0,
+        }
+        if "entailment" in answer:
+            scores["entailment"] = 1.0
+        elif "neutral" in answer:
+            scores["neutral"] = 1.0
+        elif "contradiction" in answer:
+            scores["contradiction"] = 1.0
+        else:
+            # Default to neutral if unclear
+            scores["neutral"] = 1.0
+        # Cache result
+        self.cache.set(
+            model_name=self.model_name,
+            operation="nli",
+            result=scores,
+            model_version=self.model_version,
+            premise=premise,
+            hypothesis=hypothesis,
+        )
+        return scores