PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/load.py CHANGED Viewed

@@ -4,12 +4,10 @@
 """Module for listing and loading tests."""
-import importlib
 import inspect
 import json
-import sys
-from pathlib import Path
 from pprint import pformat
+from typing import List
 from uuid import uuid4
 import pandas as pd
@@ -18,39 +16,148 @@ from ipywidgets import HTML, Accordion
 from ..errors import LoadTestError, MissingDependencyError
 from ..html_templates.content_blocks import test_content_block_html
 from ..logging import get_logger
-from ..unit_metrics.composite import load_composite_metric
-from ..utils import (
-    NumpyEncoder,
-    display,
-    format_dataframe,
-    fuzzy_match,
-    md_to_html,
-    test_id_to_name,
-)
+from ..utils import display, format_dataframe, fuzzy_match, md_to_html, test_id_to_name
+from ..vm_models import VMDataset, VMModel
 from .__types__ import TestID
 from ._store import test_provider_store, test_store
-from .decorator import test as test_decorator
-from .utils import test_description
 logger = get_logger(__name__)
-def __init__():
-    directories = [p.name for p in Path(__file__).parent.iterdir() if p.is_dir()]
+INPUT_TYPE_MAP = {
+    "dataset": VMDataset,
+    "datasets": List[VMDataset],
+    "model": VMModel,
+    "models": List[VMModel],
+}
-    for d in directories:
-        for path in Path(__file__).parent.joinpath(d).glob("**/**/*.py"):
-            if path.name.startswith("__") or not path.name[0].isupper():
-                continue  # skip __init__.py and other special files as well as non Test files
-            test_id = (
-                f"validmind.{d}.{path.parent.stem}.{path.stem}"
-                if path.parent.parent.stem == d
-                else f"validmind.{d}.{path.stem}"
-            )
-            test_store.register_test(test_id)
+def _inspect_signature(test_func: callable):
+    inputs = {}
+    params = {}
-__init__()
+    for name, arg in inspect.signature(test_func).parameters.items():
+        if name in INPUT_TYPE_MAP:
+            inputs[name] = {"type": INPUT_TYPE_MAP[name]}
+        elif name == "args" or name == "kwargs":
+            continue
+        else:
+            params[name] = {
+                "type": (
+                    arg.annotation.__name__
+                    if arg.annotation and hasattr(arg.annotation, "__name__")
+                    else None
+                ),
+                "default": (
+                    arg.default if arg.default is not inspect.Parameter.empty else None
+                ),
+            }
+    return inputs, params
+def load_test(test_id: str, test_func: callable = None, reload: bool = False):
+    """Load a test by test ID
+    Test IDs are in the format `namespace.path_to_module.TestClassOrFuncName[:tag]`.
+    The tag is optional and is used to distinguish between multiple results from the
+    same test.
+    Args:
+        test_id (str): The test ID in the format `namespace.path_to_module.TestName[:tag]`
+        test_func (callable, optional): The test function to load. If not provided, the
+            test will be loaded from the test provider. Defaults to None.
+    """
+    # remove tag if present
+    test_id = test_id.split(":", 1)[0]
+    namespace = test_id.split(".", 1)[0]
+    # if not already loaded, load it from appropriate provider
+    if test_id not in test_store.tests or reload:
+        if test_id.startswith("validmind.composite_metric"):
+            # TODO: add composite metric loading
+            pass
+        if not test_func:
+            if not test_provider_store.has_test_provider(namespace):
+                raise LoadTestError(
+                    f"No test provider found for namespace: {namespace}"
+                )
+            provider = test_provider_store.get_test_provider(namespace)
+            try:
+                test_func = provider.load_test(test_id.split(".", 1)[1])
+            except Exception as e:
+                raise LoadTestError(
+                    f"Unable to load test '{test_id}' from {namespace} test provider",
+                    original_error=e,
+                ) from e
+        # add test_id as an attribute to the test function
+        test_func.test_id = test_id
+        # fallback to using func name if no docstring is found
+        if not inspect.getdoc(test_func):
+            test_func.__doc__ = f"{test_func.__name__} ({test_id})"
+        # add inputs and params as attributes to the test function
+        test_func.inputs, test_func.params = _inspect_signature(test_func)
+        test_store.register_test(test_id, test_func)
+    return test_store.get_test(test_id)
+def _list_test_ids():
+    test_ids = []
+    for namespace, test_provider in test_provider_store.test_providers.items():
+        test_ids.extend(
+            [f"{namespace}.{test_id}" for test_id in sorted(test_provider.list_tests())]
+        )
+    return test_ids
+def _load_tests(test_ids):
+    """Load a set of tests, handling missing dependencies."""
+    tests = {}
+    for test_id in test_ids:
+        try:
+            tests[test_id] = load_test(test_id)
+        except LoadTestError as e:
+            if not e.original_error or not isinstance(
+                e.original_error, MissingDependencyError
+            ):
+                raise e
+            e = e.original_error
+            logger.debug(str(e))
+            if e.extra:
+                logger.info(
+                    f"Skipping `{test_id}` as it requires extra dependencies: {e.required_dependencies}."
+                    f" Please run `pip install validmind[{e.extra}]` to view and run this test."
+                )
+            else:
+                logger.info(
+                    f"Skipping `{test_id}` as it requires missing dependencies: {e.required_dependencies}."
+                    " Please install the missing dependencies to view and run this test."
+                )
+    return tests
+def _test_description(test_description: str, num_lines: int = 5):
+    description = test_description.strip("\n").strip()
+    if len(description.split("\n")) > num_lines:
+        return description.strip().split("\n")[0] + "..."
+    return description
 def _pretty_list_tests(tests, truncate=True):
@@ -58,9 +165,12 @@ def _pretty_list_tests(tests, truncate=True):
         {
             "ID": test_id,
             "Name": test_id_to_name(test_id),
-            "Description": test_description(test, truncate),
-            "Required Inputs": test.required_inputs,
-            "Params": test.default_params or {},
+            "Description": _test_description(
+                inspect.getdoc(test),
+                num_lines=(5 if truncate else 999999),
+            ),
+            "Required Inputs": test.inputs,
+            "Params": test.params,
         }
         for test_id, test in tests.items()
     ]
@@ -68,9 +178,57 @@ def _pretty_list_tests(tests, truncate=True):
     return format_dataframe(pd.DataFrame(table))
-def list_tests(
-    filter=None, task=None, tags=None, pretty=True, truncate=True, __as_class=False
-):
+def list_tags():
+    """
+    List unique tags from all test classes.
+    """
+    unique_tags = set()
+    for test in _load_tests(list_tests(pretty=False)):
+        unique_tags.update(test.__tags__)
+    return list(unique_tags)
+def list_tasks_and_tags():
+    """
+    List all task types and their associated tags, with one row per task type and
+    all tags for a task type in one row.
+    Returns:
+        pandas.DataFrame: A DataFrame with 'Task Type' and concatenated 'Tags'.
+    """
+    task_tags_dict = {}
+    for test in _load_tests(list_tests(pretty=False)):
+        for task in test.__tasks__:
+            task_tags_dict.setdefault(task, set()).update(test.__tags__)
+    return format_dataframe(
+        pd.DataFrame(
+            [
+                {"Task": task, "Tags": ", ".join(tags)}
+                for task, tags in task_tags_dict.items()
+            ]
+        )
+    )
+def list_tasks():
+    """
+    List unique tasks from all test classes.
+    """
+    unique_tasks = set()
+    for test in _load_tests(list_tests(pretty=False)):
+        unique_tasks.update(test.__tasks__)
+    return list(unique_tasks)
+def list_tests(filter=None, task=None, tags=None, pretty=True, truncate=True):
     """List all tests in the tests directory.
     Args:
@@ -88,30 +246,13 @@ def list_tests(
     Returns:
         list or pandas.DataFrame: A list of all tests or a formatted table.
     """
-    # tests = {
-    #     test_id: load_test(test_id, reload=True)
-    #     for test_id in test_store.get_test_ids()
-    # }
-    tests = {}
-    for test_id in test_store.get_test_ids():
-        try:
-            tests[test_id] = load_test(test_id, reload=True)
-        except MissingDependencyError as e:
-            # skip tests that have missing dependencies
-            logger.debug(str(e))
+    test_ids = _list_test_ids()
-            if e.extra:
-                logger.info(
-                    f"Skipping `{test_id}` as it requires extra dependencies: {e.required_dependencies}."
-                    f" Please run `pip install validmind[{e.extra}]` to view and run this test."
-                )
-            else:
-                logger.info(
-                    f"Skipping `{test_id}` as it requires missing dependencies: {e.required_dependencies}."
-                    " Please install the missing dependencies to view and run this test."
-                )
+    # no need to load test funcs (takes a while) if we're just returning the test ids
+    if not filter and not task and not tags and not pretty:
+        return test_ids
-            continue
+    tests = _load_tests(test_ids)
     # first search by the filter string since it's the most general search
     if filter is not None:
@@ -119,114 +260,29 @@ def list_tests(
             test_id: test
             for test_id, test in tests.items()
             if filter.lower() in test_id.lower()
-            or any(filter.lower() in task.lower() for task in test.tasks)
-            or any(fuzzy_match(tag, filter.lower()) for tag in test.tags)
+            or any(filter.lower() in task.lower() for task in test.__tasks__)
+            or any(fuzzy_match(tag, filter.lower()) for tag in test.__tags__)
         }
     # then filter by task type and tags since they are more specific
     if task is not None:
-        tests = {test_id: test for test_id, test in tests.items() if task in test.tasks}
+        tests = {
+            test_id: test for test_id, test in tests.items() if task in test.__tasks__
+        }
     if tags is not None:
         tests = {
             test_id: test
             for test_id, test in tests.items()
-            if all(tag in test.tags for tag in tags)
+            if all(tag in test.__tags__ for tag in tags)
         }
-    if __as_class:
-        return list(tests.values())
     if not pretty:
-        # only return test ids
         return list(tests.keys())
     return _pretty_list_tests(tests, truncate=truncate)
-def _load_validmind_test(test_id, reload=False):
-    parts = test_id.split(":")[0].split(".")
-    test_module = ".".join(parts[1:-1])
-    test_class = parts[-1]
-    error = None
-    test = None
-    try:
-        full_path = f"validmind.tests.{test_module}.{test_class}"
-        if reload and full_path in sys.modules:
-            module = importlib.reload(sys.modules[full_path])
-        else:
-            module = importlib.import_module(full_path)
-        test = getattr(module, test_class)
-    except ModuleNotFoundError as e:
-        error = f"Unable to load test {test_id}. {e}"
-    except AttributeError:
-        error = f"Unable to load test {test_id}. Test not in module: {test_class}"
-    return error, test
-def load_test(test_id: str, reload=False):
-    """Load a test by test ID
-    Test IDs are in the format `namespace.path_to_module.TestClassOrFuncName[:result_id]`.
-    The result ID is optional and is used to distinguish between multiple results from the
-    running the same test.
-    Args:
-        test_id (str): The test ID in the format `namespace.path_to_module.TestName[:result_id]`
-        reload (bool, optional): Whether to reload the test module. Defaults to False.
-    """
-    # TODO: we should use a dedicated class for test IDs to handle this consistently
-    test_id, result_id = test_id.split(":", 1) if ":" in test_id else (test_id, None)
-    error = None
-    namespace = test_id.split(".", 1)[0]
-    # TODO: lets implement an extensible loading system instead of this ugly if/else
-    if test_store.get_custom_test(test_id):
-        test = test_store.get_custom_test(test_id)
-    elif test_id.startswith("validmind.composite_metric"):
-        error, test = load_composite_metric(test_id)
-    elif namespace == "validmind":
-        error, test = _load_validmind_test(test_id, reload=reload)
-    elif test_provider_store.has_test_provider(namespace):
-        provider = test_provider_store.get_test_provider(namespace)
-        try:
-            test = provider.load_test(test_id.split(".", 1)[1])
-        except Exception as e:
-            error = (
-                f"Unable to load test {test_id} from test provider: "
-                f"{provider}\n Got Exception: {e}"
-            )
-    else:
-        error = f"Unable to load test {test_id}. No test provider found."
-    if error:
-        logger.error(error)
-        raise LoadTestError(error)
-    if inspect.isfunction(test):
-        # if its a function, we decorate it and then load the class
-        # TODO: simplify this as we move towards all functional metrics
-        # "_" is used here so it doesn't conflict with other test ids
-        test_decorator("_")(test)
-        test = test_store.get_custom_test("_")
-    test.test_id = f"{test_id}:{result_id}" if result_id else test_id
-    return test
 def describe_test(test_id: TestID = None, raw: bool = False, show: bool = True):
     """Get or show details about the test
@@ -239,13 +295,13 @@ def describe_test(test_id: TestID = None, raw: bool = False, show: bool = True):
         raw (bool, optional): If True, returns a dictionary with the test details.
             Defaults to False.
     """
-    test = load_test(test_id, reload=True)
+    test = load_test(test_id)
     details = {
         "ID": test_id,
         "Name": test_id_to_name(test_id),
-        "Required Inputs": test.required_inputs or [],
-        "Params": test.default_params or {},
+        "Required Inputs": test.inputs or [],
+        "Params": test.params or {},
         "Description": inspect.getdoc(test).strip() or "",
     }
@@ -260,8 +316,8 @@ def describe_test(test_id: TestID = None, raw: bool = False, show: bool = True):
         required_inputs=", ".join(details["Required Inputs"] or ["None"]),
         params_table="\n".join(
             [
-                f"<tr><td>{param}</td><td>{pformat(value, indent=4)}</td></tr>"
-                for param, value in details["Params"].items()
+                f"<tr><td>{param}</td><td>{pformat(param_spec['default'], indent=4)}</td></tr>"
+                for param, param_spec in details["Params"].items()
             ]
         ),
         table_display="table" if details["Params"] else "none",
@@ -269,7 +325,10 @@ def describe_test(test_id: TestID = None, raw: bool = False, show: bool = True):
             {name: f"my_vm_{name}" for name in (details["Required Inputs"] or [])},
             indent=4,
         ),
-        example_params=json.dumps(details["Params"] or {}, indent=4, cls=NumpyEncoder),
+        example_params=json.dumps(
+            {param: f"my_vm_{param}" for param in (details["Params"] or {}).keys()},
+            indent=4,
+        ),
         instructions_display="block" if show else "none",
     )
@@ -279,6 +338,6 @@ def describe_test(test_id: TestID = None, raw: bool = False, show: bool = True):
     display(
         Accordion(
             children=[HTML(html)],
-            titles=[f"Test Description: {details['Name']} ('{test_id}')"],
+            titles=[f"Test: {details['Name']} ('{test_id}')"],
         )
     )

validmind/tests/model_validation/BertScore.py CHANGED Viewed

@@ -7,11 +7,16 @@ import pandas as pd
 import plotly.graph_objects as go
 from validmind import tags, tasks
+from validmind.tests.utils import validate_prediction
 @tags("nlp", "text_data", "visualization")
 @tasks("text_classification", "text_summarization")
-def BertScore(dataset, model):
+def BertScore(
+    dataset,
+    model,
+    evaluation_model="distilbert-base-uncased",
+):
     """
     Assesses the quality of machine-generated text using BERTScore metrics and visualizes results through histograms
     and bar charts, alongside compiling a comprehensive table of descriptive statistics.
@@ -29,7 +34,10 @@ def BertScore(dataset, model):
     BERTScore metrics and compiles them into a dataframe. Histograms and bar charts are generated for each BERTScore
     metric (Precision, Recall, and F1 Score) to visualize their distribution. Additionally, a table of descriptive
     statistics (mean, median, standard deviation, minimum, and maximum) is compiled for each metric, providing a
-    comprehensive summary of the model's performance.
+    comprehensive summary of the model's performance. The test uses the `evaluation_model` param to specify the
+    huggingface model to use for evaluation. `microsoft/deberta-xlarge-mnli` is the best-performing model but is
+    very large and may be slow without a GPU. `microsoft/deberta-large-mnli` is a smaller model that is faster to
+    run and `distilbert-base-uncased` is much lighter and can run on a CPU but is less accurate.
     ### Signs of High Risk
@@ -61,11 +69,8 @@ def BertScore(dataset, model):
     y_true = dataset.y
     y_pred = dataset.y_pred(model)
-    # Ensure y_true and y_pred have the same length
-    if len(y_true) != len(y_pred):
-        min_length = min(len(y_true), len(y_pred))
-        y_true = y_true[:min_length]
-        y_pred = y_pred[:min_length]
+    # Ensure equal lengths and get truncated data if necessary
+    y_true, y_pred = validate_prediction(y_true, y_pred)
     # Load the BERT evaluation metric
     bert = evaluate.load("bertscore")
@@ -75,6 +80,7 @@ def BertScore(dataset, model):
         predictions=y_pred,
         references=y_true,
         lang="en",
+        model_type=evaluation_model,
     )
     # Convert scores to a dataframe

validmind/tests/model_validation/BleuScore.py CHANGED Viewed

@@ -7,6 +7,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from validmind import tags, tasks
+from validmind.tests.utils import validate_prediction
 @tags("nlp", "text_data", "visualization")
@@ -61,6 +62,9 @@ def BleuScore(dataset, model):
     y_true = dataset.y
     y_pred = dataset.y_pred(model)
+    # Ensure equal lengths and get truncated data if necessary
+    y_true, y_pred = validate_prediction(y_true, y_pred)
     # Load the BLEU evaluation metric
     bleu = evaluate.load("bleu")

validmind/tests/model_validation/ClusterSizeDistribution.py CHANGED Viewed

@@ -2,16 +2,16 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import pandas as pd
 import plotly.graph_objects as go
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset, VMModel
-@dataclass
-class ClusterSizeDistribution(Metric):
+@tags("sklearn", "model_performance")
+@tasks("clustering")
+def ClusterSizeDistribution(dataset: VMDataset, model: VMModel):
     """
     Assesses the performance of clustering models by comparing the distribution of cluster sizes in model predictions
     with the actual data.
@@ -52,47 +52,24 @@ class ClusterSizeDistribution(Metric):
     - May not fully capture other important aspects of clustering, such as cluster density, distances between clusters,
     and the shape of clusters.
     """
-    name = "cluster_size_distribution"
-    required_inputs = ["model", "dataset"]
-    tasks = ["clustering"]
-    tags = [
-        "sklearn",
-        "model_performance",
-    ]
-    def run(self):
-        y_true_train = self.inputs.dataset.y
-        y_pred_train = self.inputs.dataset.y_pred(self.inputs.model)
-        y_true_train = y_true_train.astype(y_pred_train.dtype)
-        df = pd.DataFrame(
-            {"Actual": y_true_train.ravel(), "Prediction": y_pred_train.ravel()}
-        )
-        df_counts = df.apply(pd.value_counts)
-        fig = go.Figure(
-            data=[
-                go.Bar(name="Actual", x=df_counts.index, y=df_counts["Actual"].values),
-                go.Bar(
-                    name="Prediction",
-                    x=df_counts.index,
-                    y=df_counts["Prediction"].values,
-                ),
-            ]
-        )
-        # Change the bar mode
-        fig.update_xaxes(title_text="Number of clusters", showgrid=False)
-        fig.update_yaxes(title_text="Counts", showgrid=False)
-        fig.update_layout(
-            title_text="Cluster distribution", title_x=0.5, barmode="group"
-        )
-        figures = [
-            Figure(
-                for_object=self,
-                key=self.key,
-                figure=fig,
-            )
+    y_pred = dataset.y_pred(model)
+    y_true = dataset.y.astype(y_pred.dtype)
+    df = pd.DataFrame({"Actual": y_true.ravel(), "Prediction": y_pred.ravel()})
+    df_counts = df.apply(pd.value_counts)
+    fig = go.Figure(
+        data=[
+            go.Bar(name="Actual", x=df_counts.index, y=df_counts["Actual"].values),
+            go.Bar(
+                name="Prediction",
+                x=df_counts.index,
+                y=df_counts["Prediction"].values,
+            ),
         ]
+    )
+    fig.update_xaxes(title_text="Number of clusters", showgrid=False)
+    fig.update_yaxes(title_text="Counts", showgrid=False)
+    fig.update_layout(title_text="Cluster distribution", title_x=0.5, barmode="group")
-        return self.cache_results(figures=figures)
+    return fig

validmind/tests/model_validation/ContextualRecall.py CHANGED Viewed

@@ -7,6 +7,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from validmind import tags, tasks
+from validmind.tests.utils import validate_prediction
 @tags("nlp", "text_data", "visualization")
@@ -64,6 +65,8 @@ def ContextualRecall(dataset, model):
     y_true = dataset.y
     y_pred = dataset.y_pred(model)
+    validate_prediction(y_true, y_pred)
     score_list = []
     for y_t, y_p in zip(y_true, y_pred):
         # Tokenize the reference and candidate texts

validmind 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl