PyPI - bead - Versions diffs - 0.1.0__py3-none-any.whl - Mend

bead 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (231) hide show

bead/__init__.py +11 -0
bead/__main__.py +11 -0
bead/active_learning/__init__.py +15 -0
bead/active_learning/config.py +231 -0
bead/active_learning/loop.py +566 -0
bead/active_learning/models/__init__.py +24 -0
bead/active_learning/models/base.py +852 -0
bead/active_learning/models/binary.py +910 -0
bead/active_learning/models/categorical.py +943 -0
bead/active_learning/models/cloze.py +862 -0
bead/active_learning/models/forced_choice.py +956 -0
bead/active_learning/models/free_text.py +773 -0
bead/active_learning/models/lora.py +365 -0
bead/active_learning/models/magnitude.py +835 -0
bead/active_learning/models/multi_select.py +795 -0
bead/active_learning/models/ordinal_scale.py +811 -0
bead/active_learning/models/peft_adapter.py +155 -0
bead/active_learning/models/random_effects.py +639 -0
bead/active_learning/selection.py +354 -0
bead/active_learning/strategies.py +391 -0
bead/active_learning/trainers/__init__.py +26 -0
bead/active_learning/trainers/base.py +210 -0
bead/active_learning/trainers/data_collator.py +172 -0
bead/active_learning/trainers/dataset_utils.py +261 -0
bead/active_learning/trainers/huggingface.py +304 -0
bead/active_learning/trainers/lightning.py +324 -0
bead/active_learning/trainers/metrics.py +424 -0
bead/active_learning/trainers/mixed_effects.py +551 -0
bead/active_learning/trainers/model_wrapper.py +509 -0
bead/active_learning/trainers/registry.py +104 -0
bead/adapters/__init__.py +11 -0
bead/adapters/huggingface.py +61 -0
bead/behavioral/__init__.py +116 -0
bead/behavioral/analytics.py +646 -0
bead/behavioral/extraction.py +343 -0
bead/behavioral/merging.py +343 -0
bead/cli/__init__.py +11 -0
bead/cli/active_learning.py +513 -0
bead/cli/active_learning_commands.py +779 -0
bead/cli/completion.py +359 -0
bead/cli/config.py +624 -0
bead/cli/constraint_builders.py +286 -0
bead/cli/deployment.py +859 -0
bead/cli/deployment_trials.py +493 -0
bead/cli/deployment_ui.py +332 -0
bead/cli/display.py +378 -0
bead/cli/items.py +960 -0
bead/cli/items_factories.py +776 -0
bead/cli/list_constraints.py +714 -0
bead/cli/lists.py +490 -0
bead/cli/main.py +430 -0
bead/cli/models.py +877 -0
bead/cli/resource_loaders.py +621 -0
bead/cli/resources.py +1036 -0
bead/cli/shell.py +356 -0
bead/cli/simulate.py +840 -0
bead/cli/templates.py +1158 -0
bead/cli/training.py +1080 -0
bead/cli/utils.py +614 -0
bead/cli/workflow.py +1273 -0
bead/config/__init__.py +68 -0
bead/config/active_learning.py +1009 -0
bead/config/config.py +192 -0
bead/config/defaults.py +118 -0
bead/config/deployment.py +217 -0
bead/config/env.py +147 -0
bead/config/item.py +45 -0
bead/config/list.py +193 -0
bead/config/loader.py +149 -0
bead/config/logging.py +42 -0
bead/config/model.py +49 -0
bead/config/paths.py +46 -0
bead/config/profiles.py +320 -0
bead/config/resources.py +47 -0
bead/config/serialization.py +210 -0
bead/config/simulation.py +206 -0
bead/config/template.py +238 -0
bead/config/validation.py +267 -0
bead/data/__init__.py +65 -0
bead/data/base.py +87 -0
bead/data/identifiers.py +97 -0
bead/data/language_codes.py +61 -0
bead/data/metadata.py +270 -0
bead/data/range.py +123 -0
bead/data/repository.py +358 -0
bead/data/serialization.py +249 -0
bead/data/timestamps.py +89 -0
bead/data/validation.py +349 -0
bead/data_collection/__init__.py +11 -0
bead/data_collection/jatos.py +223 -0
bead/data_collection/merger.py +154 -0
bead/data_collection/prolific.py +198 -0
bead/deployment/__init__.py +5 -0
bead/deployment/distribution.py +402 -0
bead/deployment/jatos/__init__.py +1 -0
bead/deployment/jatos/api.py +200 -0
bead/deployment/jatos/exporter.py +210 -0
bead/deployment/jspsych/__init__.py +9 -0
bead/deployment/jspsych/biome.json +44 -0
bead/deployment/jspsych/config.py +411 -0
bead/deployment/jspsych/generator.py +598 -0
bead/deployment/jspsych/package.json +51 -0
bead/deployment/jspsych/pnpm-lock.yaml +2141 -0
bead/deployment/jspsych/randomizer.py +299 -0
bead/deployment/jspsych/src/lib/list-distributor.test.ts +327 -0
bead/deployment/jspsych/src/lib/list-distributor.ts +1282 -0
bead/deployment/jspsych/src/lib/randomizer.test.ts +232 -0
bead/deployment/jspsych/src/lib/randomizer.ts +367 -0
bead/deployment/jspsych/src/plugins/cloze-dropdown.ts +252 -0
bead/deployment/jspsych/src/plugins/forced-choice.ts +265 -0
bead/deployment/jspsych/src/plugins/plugins.test.ts +141 -0
bead/deployment/jspsych/src/plugins/rating.ts +248 -0
bead/deployment/jspsych/src/slopit/index.ts +9 -0
bead/deployment/jspsych/src/types/jatos.d.ts +256 -0
bead/deployment/jspsych/src/types/jspsych.d.ts +228 -0
bead/deployment/jspsych/templates/experiment.css +1 -0
bead/deployment/jspsych/templates/experiment.js.template +289 -0
bead/deployment/jspsych/templates/index.html +51 -0
bead/deployment/jspsych/templates/randomizer.js +241 -0
bead/deployment/jspsych/templates/randomizer.js.template +313 -0
bead/deployment/jspsych/trials.py +723 -0
bead/deployment/jspsych/tsconfig.json +23 -0
bead/deployment/jspsych/tsup.config.ts +30 -0
bead/deployment/jspsych/ui/__init__.py +1 -0
bead/deployment/jspsych/ui/components.py +383 -0
bead/deployment/jspsych/ui/styles.py +411 -0
bead/dsl/__init__.py +80 -0
bead/dsl/ast.py +168 -0
bead/dsl/context.py +178 -0
bead/dsl/errors.py +71 -0
bead/dsl/evaluator.py +570 -0
bead/dsl/grammar.lark +81 -0
bead/dsl/parser.py +231 -0
bead/dsl/stdlib.py +929 -0
bead/evaluation/__init__.py +13 -0
bead/evaluation/convergence.py +485 -0
bead/evaluation/interannotator.py +398 -0
bead/items/__init__.py +40 -0
bead/items/adapters/__init__.py +70 -0
bead/items/adapters/anthropic.py +224 -0
bead/items/adapters/api_utils.py +167 -0
bead/items/adapters/base.py +216 -0
bead/items/adapters/google.py +259 -0
bead/items/adapters/huggingface.py +1074 -0
bead/items/adapters/openai.py +323 -0
bead/items/adapters/registry.py +202 -0
bead/items/adapters/sentence_transformers.py +224 -0
bead/items/adapters/togetherai.py +309 -0
bead/items/binary.py +515 -0
bead/items/cache.py +558 -0
bead/items/categorical.py +593 -0
bead/items/cloze.py +757 -0
bead/items/constructor.py +784 -0
bead/items/forced_choice.py +413 -0
bead/items/free_text.py +681 -0
bead/items/generation.py +432 -0
bead/items/item.py +396 -0
bead/items/item_template.py +787 -0
bead/items/magnitude.py +573 -0
bead/items/multi_select.py +621 -0
bead/items/ordinal_scale.py +569 -0
bead/items/scoring.py +448 -0
bead/items/validation.py +723 -0
bead/lists/__init__.py +30 -0
bead/lists/balancer.py +263 -0
bead/lists/constraints.py +1067 -0
bead/lists/experiment_list.py +286 -0
bead/lists/list_collection.py +378 -0
bead/lists/partitioner.py +1141 -0
bead/lists/stratification.py +254 -0
bead/participants/__init__.py +73 -0
bead/participants/collection.py +699 -0
bead/participants/merging.py +312 -0
bead/participants/metadata_spec.py +491 -0
bead/participants/models.py +276 -0
bead/resources/__init__.py +29 -0
bead/resources/adapters/__init__.py +19 -0
bead/resources/adapters/base.py +104 -0
bead/resources/adapters/cache.py +128 -0
bead/resources/adapters/glazing.py +508 -0
bead/resources/adapters/registry.py +117 -0
bead/resources/adapters/unimorph.py +796 -0
bead/resources/classification.py +856 -0
bead/resources/constraint_builders.py +329 -0
bead/resources/constraints.py +165 -0
bead/resources/lexical_item.py +223 -0
bead/resources/lexicon.py +744 -0
bead/resources/loaders.py +209 -0
bead/resources/template.py +441 -0
bead/resources/template_collection.py +707 -0
bead/resources/template_generation.py +349 -0
bead/simulation/__init__.py +29 -0
bead/simulation/annotators/__init__.py +15 -0
bead/simulation/annotators/base.py +175 -0
bead/simulation/annotators/distance_based.py +135 -0
bead/simulation/annotators/lm_based.py +114 -0
bead/simulation/annotators/oracle.py +182 -0
bead/simulation/annotators/random.py +181 -0
bead/simulation/dsl_extension/__init__.py +3 -0
bead/simulation/noise_models/__init__.py +13 -0
bead/simulation/noise_models/base.py +42 -0
bead/simulation/noise_models/random_noise.py +82 -0
bead/simulation/noise_models/systematic.py +132 -0
bead/simulation/noise_models/temperature.py +86 -0
bead/simulation/runner.py +144 -0
bead/simulation/strategies/__init__.py +23 -0
bead/simulation/strategies/base.py +123 -0
bead/simulation/strategies/binary.py +103 -0
bead/simulation/strategies/categorical.py +123 -0
bead/simulation/strategies/cloze.py +224 -0
bead/simulation/strategies/forced_choice.py +127 -0
bead/simulation/strategies/free_text.py +105 -0
bead/simulation/strategies/magnitude.py +116 -0
bead/simulation/strategies/multi_select.py +129 -0
bead/simulation/strategies/ordinal_scale.py +131 -0
bead/templates/__init__.py +27 -0
bead/templates/adapters/__init__.py +17 -0
bead/templates/adapters/base.py +128 -0
bead/templates/adapters/cache.py +178 -0
bead/templates/adapters/huggingface.py +312 -0
bead/templates/combinatorics.py +103 -0
bead/templates/filler.py +605 -0
bead/templates/renderers.py +177 -0
bead/templates/resolver.py +178 -0
bead/templates/strategies.py +1806 -0
bead/templates/streaming.py +195 -0
bead-0.1.0.dist-info/METADATA +212 -0
bead-0.1.0.dist-info/RECORD +231 -0
bead-0.1.0.dist-info/WHEEL +4 -0
bead-0.1.0.dist-info/entry_points.txt +2 -0
bead-0.1.0.dist-info/licenses/LICENSE +21 -0

bead/active_learning/selection.py ADDED Viewed

@@ -0,0 +1,354 @@
+"""Item selectors for active learning.
+This module implements sample selection algorithms that use uncertainty
+strategies to intelligently select the most informative items for labeling
+in the active learning loop.
+"""
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
+import numpy as np
+from bead.active_learning.strategies import create_strategy
+from bead.items.item import Item
+if TYPE_CHECKING:
+    from collections.abc import Callable
+    from bead.active_learning.models.base import ActiveLearningModel
+    from bead.config.active_learning import UncertaintySamplerConfig
+class ItemSelector:
+    """Base class for item selection algorithms.
+    Item selectors determine which unlabeled items should be selected
+    for annotation in each active learning iteration.
+    Examples
+    --------
+    >>> selector = ItemSelector()
+    >>> # Subclasses implement select() method
+    """
+    def select(
+        self,
+        items: list[Item],
+        model: ActiveLearningModel,
+        predict_fn: Callable[[ActiveLearningModel, Item], np.ndarray],
+        budget: int,
+    ) -> list[Item]:
+        """Select items for annotation.
+        Parameters
+        ----------
+        items : list[Item]
+            Unlabeled items to select from.
+        model : ActiveLearningModel
+            Trained model for making predictions.
+        predict_fn : Callable[[ActiveLearningModel, Item], np.ndarray]
+            Function to get prediction probabilities from model.
+            Should return array of shape (n_classes,) with probabilities.
+        budget : int
+            Number of items to select.
+        Returns
+        -------
+        list[Item]
+            Selected items for annotation.
+        Examples
+        --------
+        >>> selector = UncertaintySampler()  # doctest: +SKIP
+        >>> selected = selector.select(  # doctest: +SKIP
+        ...     items, model, predict_fn, budget=10
+        ... )
+        >>> len(selected) <= 10  # doctest: +SKIP
+        True
+        """
+        raise NotImplementedError("Subclasses must implement select()")
+class UncertaintySampler(ItemSelector):
+    """Uncertainty-based item selector.
+    Selects items using uncertainty sampling strategies (entropy, margin,
+    or least confidence). This is the main item selection algorithm for
+    active learning in bead.
+    Parameters
+    ----------
+    config : UncertaintySamplerConfig | None
+        Configuration for the uncertainty sampler.
+    Attributes
+    ----------
+    config : UncertaintySamplerConfig
+        Configuration for the sampler.
+    strategy : SamplingStrategy
+        The underlying sampling strategy.
+    Examples
+    --------
+    >>> import numpy as np
+    >>> from uuid import uuid4
+    >>> from bead.items.item import Item
+    >>> from bead.config.active_learning import UncertaintySamplerConfig
+    >>> # Create sampler
+    >>> config = UncertaintySamplerConfig(method="entropy")
+    >>> sampler = UncertaintySampler(config=config)
+    >>> # Mock items
+    >>> items = [Item(item_template_id=uuid4(), rendered_elements={}) for _ in range(5)]
+    >>> # Mock model and predict function
+    >>> def predict_fn(model, item):
+    ...     return np.array([0.5, 0.5])  # Mock probabilities
+    >>> # Select items
+    >>> selected = sampler.select(items, None, predict_fn, budget=2)
+    >>> len(selected)
+    2
+    """
+    def __init__(
+        self,
+        config: UncertaintySamplerConfig | None = None,
+    ) -> None:
+        """Initialize uncertainty sampler.
+        Parameters
+        ----------
+        config : UncertaintySamplerConfig | None
+            Configuration for the sampler. If None, uses defaults.
+        """
+        self.config = config or UncertaintySamplerConfig()
+        self.strategy = create_strategy(self.config.method)
+    def select(
+        self,
+        items: list[Item],
+        model: Any,
+        predict_fn: Callable[[Any, Item], np.ndarray],
+        budget: int,
+    ) -> list[Item]:
+        """Select items using uncertainty sampling.
+        Parameters
+        ----------
+        items : list[Item]
+            Unlabeled items to select from.
+        model : Any
+            Trained model for making predictions.
+        predict_fn : Callable[[Any, Item], np.ndarray]
+            Function to get prediction probabilities from model.
+            Should return array of shape (n_classes,) for each item.
+        budget : int
+            Number of items to select.
+        Returns
+        -------
+        list[Item]
+            Selected items for annotation, ordered by uncertainty (most to least).
+        Raises
+        ------
+        ValueError
+            If items list is empty or budget is invalid.
+        Examples
+        --------
+        >>> import numpy as np
+        >>> from uuid import uuid4
+        >>> from bead.items.item import Item
+        >>> from bead.config.active_learning import UncertaintySamplerConfig
+        >>> config = UncertaintySamplerConfig(method="entropy")
+        >>> sampler = UncertaintySampler(config=config)
+        >>> items = [
+        ...     Item(item_template_id=uuid4(), rendered_elements={"text": "item1"}),
+        ...     Item(item_template_id=uuid4(), rendered_elements={"text": "item2"}),
+        ... ]
+        >>> def predict_fn(model, item):
+        ...     # First item is uncertain, second is confident
+        ...     if "item1" in item.rendered_elements.get("text", ""):
+        ...         return np.array([0.5, 0.5])
+        ...     return np.array([0.9, 0.1])
+        >>> selected = sampler.select(items, None, predict_fn, budget=1)
+        >>> "item1" in selected[0].rendered_elements["text"]
+        True
+        """
+        # Validate inputs
+        if not items:
+            raise ValueError("Items list cannot be empty")
+        if budget <= 0:
+            raise ValueError(f"Budget must be positive, got {budget}")
+        # Handle case where budget >= number of items
+        if budget >= len(items):
+            return items.copy()
+        # Compute predictions for all items
+        probabilities = self._batch_predict(items, model, predict_fn)
+        # Compute uncertainty scores
+        scores = self.strategy.compute_scores(probabilities)
+        # Select top k items
+        selected_indices = self.strategy.select_top_k(scores, k=budget)
+        # Return selected items (convert numpy array to list of Python ints)
+        return [items[i] for i in selected_indices.tolist()]
+    def _batch_predict(
+        self,
+        items: list[Item],
+        model: Any,
+        predict_fn: Callable[[Any, Item], np.ndarray],
+    ) -> np.ndarray:
+        """Compute predictions in batches.
+        Parameters
+        ----------
+        items : list[Item]
+            Items to predict.
+        model : Any
+            Trained model.
+        predict_fn : Callable[[Any, Item], np.ndarray]
+            Prediction function.
+        Returns
+        -------
+        np.ndarray
+            Prediction probabilities with shape (n_items, n_classes).
+        Examples
+        --------
+        >>> import numpy as np
+        >>> from uuid import uuid4
+        >>> from bead.items.item import Item
+        >>> sampler = UncertaintySampler()
+        >>> items = [
+        ...     Item(item_template_id=uuid4(), rendered_elements={})
+        ...     for _ in range(3)
+        ... ]
+        >>> def predict_fn(model, item):
+        ...     return np.array([0.6, 0.4])
+        >>> probs = sampler._batch_predict(items, None, predict_fn)
+        >>> probs.shape
+        (3, 2)
+        """
+        all_probs = []
+        # Process in batches
+        batch_size = self.config.batch_size or 32
+        for i in range(0, len(items), batch_size):
+            batch_items = items[i : i + batch_size]
+            # Get predictions for batch
+            batch_probs = [predict_fn(model, item) for item in batch_items]
+            all_probs.extend(batch_probs)
+        # Stack into array
+        return np.array(all_probs)
+class RandomSelector(ItemSelector):
+    """Random item selector (baseline).
+    Selects items randomly without considering model predictions.
+    Useful as a baseline for comparison with uncertainty-based methods.
+    Parameters
+    ----------
+    seed : int | None
+        Random seed for reproducibility.
+    Attributes
+    ----------
+    rng : np.random.Generator
+        Random number generator.
+    Examples
+    --------
+    >>> from uuid import uuid4
+    >>> from bead.items.item import Item
+    >>> selector = RandomSelector(seed=42)
+    >>> items = [
+    ...     Item(item_template_id=uuid4(), rendered_elements={})
+    ...     for _ in range(10)
+    ... ]
+    >>> selected = selector.select(items, None, None, budget=3)
+    >>> len(selected)
+    3
+    """
+    def __init__(self, seed: int | None = None) -> None:
+        """Initialize random selector.
+        Parameters
+        ----------
+        seed : int | None
+            Random seed for reproducibility.
+        """
+        self.rng = np.random.default_rng(seed)
+    def select(
+        self,
+        items: list[Item],
+        model: Any,
+        predict_fn: Callable[[Any, Item], np.ndarray],
+        budget: int,
+    ) -> list[Item]:
+        """Select items randomly.
+        Parameters
+        ----------
+        items : list[Item]
+            Items to select from.
+        model : Any
+            Model (unused, kept for interface compatibility).
+        predict_fn : Callable[[Any, Item], np.ndarray]
+            Prediction function (unused, kept for interface compatibility).
+        budget : int
+            Number of items to select.
+        Returns
+        -------
+        list[Item]
+            Randomly selected items.
+        Raises
+        ------
+        ValueError
+            If items list is empty or budget is invalid.
+        Examples
+        --------
+        >>> from uuid import uuid4
+        >>> from bead.items.item import Item
+        >>> selector = RandomSelector(seed=123)
+        >>> items = [
+        ...     Item(item_template_id=uuid4(), rendered_elements={})
+        ...     for _ in range(5)
+        ... ]
+        >>> selected = selector.select(items, None, None, budget=2)
+        >>> len(selected)
+        2
+        """
+        # Validate inputs
+        if not items:
+            raise ValueError("Items list cannot be empty")
+        if budget <= 0:
+            raise ValueError(f"Budget must be positive, got {budget}")
+        # Handle case where budget >= number of items
+        if budget >= len(items):
+            return items.copy()
+        # Select random indices without replacement
+        selected_indices = self.rng.choice(len(items), size=budget, replace=False)
+        # Return selected items (convert numpy array to list of Python ints)
+        return [items[i] for i in selected_indices.tolist()]