PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.8.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/entry_points.txt +0 -0

validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py CHANGED Viewed

@@ -2,20 +2,33 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
+from typing import Union
 import plotly.graph_objects as go
 from sklearn.inspection import permutation_importance
+from validmind import tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
-from validmind.vm_models import Figure, Metric
+from validmind.vm_models import VMDataset, VMModel
 logger = get_logger(__name__)
-@dataclass
-class PermutationFeatureImportance(Metric):
+@tags(
+    "sklearn",
+    "binary_classification",
+    "multiclass_classification",
+    "feature_importance",
+    "visualization",
+)
+@tasks("classification", "text_classification")
+def PermutationFeatureImportance(
+    model: VMModel,
+    dataset: VMDataset,
+    fontsize: Union[int, None] = None,
+    figure_height: Union[int, None] = None,
+):
     """
     Assesses the significance of each feature in a model by evaluating the impact on model performance when feature
     values are randomly rearranged.
@@ -55,78 +68,47 @@ class PermutationFeatureImportance(Metric):
     allocate importance to one and not the other.
     - Cannot interact with certain libraries like statsmodels, pytorch, catboost, etc., thus limiting its applicability.
     """
-    name = "pfi"
-    required_inputs = ["model", "dataset"]
-    default_params = {
-        "fontsize": None,
-        "figure_height": 1000,
-    }
-    tasks = ["classification", "text_classification"]
-    tags = [
-        "sklearn",
-        "binary_classification",
-        "multiclass_classification",
-        "feature_importance",
-        "visualization",
-    ]
-    def run(self):
-        x = self.inputs.dataset.x_df()
-        y = self.inputs.dataset.y_df()
-        if self.inputs.model.library in [
-            "statsmodels",
-            "pytorch",
-            "catboost",
-            "transformers",
-            "R",
-        ]:
-            raise SkipTestError(f"Skipping PFI for {self.inputs.model.library} models")
-        pfi_values = permutation_importance(
-            self.inputs.model.model,
-            x,
-            y,
-            random_state=0,
-            n_jobs=-2,
-        )
-        pfi = {}
-        for i, column in enumerate(x.columns):
-            pfi[column] = [pfi_values["importances_mean"][i]], [
-                pfi_values["importances_std"][i]
-            ]
-        sorted_idx = pfi_values.importances_mean.argsort()
-        fig = go.Figure()
-        fig.add_trace(
-            go.Bar(
-                y=x.columns[sorted_idx],
-                x=pfi_values.importances[sorted_idx].mean(axis=1).T,
-                orientation="h",
-            )
-        )
-        fig.update_layout(
-            title_text="Permutation Importances",
-            yaxis=dict(
-                tickmode="linear",  # set tick mode to linear
-                dtick=1,  # set interval between ticks
-                tickfont=dict(
-                    size=self.params["fontsize"]
-                ),  # set the tick label font size
-            ),
-            height=self.params["figure_height"],  # use figure_height parameter here
-        )
-        return self.cache_results(
-            metric_value=pfi,
-            figures=[
-                Figure(
-                    for_object=self,
-                    key=f"pfi_{self.inputs.dataset.input_id}_{self.inputs.model.input_id}",
-                    figure=fig,
-                ),
-            ],
+    if model.library in [
+        "statsmodels",
+        "pytorch",
+        "catboost",
+        "transformers",
+        "R",
+    ]:
+        raise SkipTestError(f"Skipping PFI for {model.library} models")
+    pfi_values = permutation_importance(
+        estimator=model.model,
+        X=dataset.x_df(),
+        y=dataset.y_df(),
+        random_state=0,
+        n_jobs=-2,
+    )
+    pfi = {}
+    for i, column in enumerate(dataset.feature_columns):
+        pfi[column] = [pfi_values["importances_mean"][i]], [
+            pfi_values["importances_std"][i]
+        ]
+    sorted_idx = pfi_values.importances_mean.argsort()
+    fig = go.Figure()
+    fig.add_trace(
+        go.Bar(
+            y=[dataset.feature_columns[i] for i in sorted_idx],
+            x=pfi_values.importances[sorted_idx].mean(axis=1).T,
+            orientation="h",
         )
+    )
+    fig.update_layout(
+        title_text="Permutation Importances",
+        yaxis=dict(
+            tickmode="linear",
+            dtick=1,
+            tickfont=dict(size=fontsize),
+        ),
+        height=figure_height,
+    )
+    return fig

validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py CHANGED Viewed

@@ -2,26 +2,87 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
+from typing import List
 import numpy as np
 import pandas as pd
 import plotly.graph_objects as go
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
 from validmind.logging import get_logger
-from validmind.vm_models import (
-    Figure,
-    Metric,
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-)
+from validmind.vm_models import VMDataset, VMModel
 logger = get_logger(__name__)
-@dataclass
-class PopulationStabilityIndex(Metric):
+def calculate_psi(score_initial, score_new, num_bins=10, mode="fixed"):
+    """
+    Taken from:
+    https://towardsdatascience.com/checking-model-stability-and-population-shift-with-psi-and-csi-6d12af008783
+    """
+    eps = 1e-4
+    # Sort the data
+    score_initial.sort()
+    score_new.sort()
+    # Prepare the bins
+    min_val = min(min(score_initial), min(score_new))
+    max_val = max(max(score_initial), max(score_new))
+    if mode == "fixed":
+        bins = [
+            min_val + (max_val - min_val) * (i) / num_bins for i in range(num_bins + 1)
+        ]
+    elif mode == "quantile":
+        bins = pd.qcut(score_initial, q=num_bins, retbins=True)[
+            1
+        ]  # Create the quantiles based on the initial population
+    else:
+        raise ValueError(
+            f"Mode '{mode}' not recognized. Allowed options are 'fixed' and 'quantile'"
+        )
+    bins[0] = min_val - eps  # Correct the lower boundary
+    bins[-1] = max_val + eps  # Correct the higher boundary
+    # Bucketize the initial population and count the sample inside each bucket
+    bins_initial = pd.cut(score_initial, bins=bins, labels=range(1, num_bins + 1))
+    df_initial = pd.DataFrame({"initial": score_initial, "bin": bins_initial})
+    grp_initial = df_initial.groupby("bin").count()
+    grp_initial["percent_initial"] = grp_initial["initial"] / sum(
+        grp_initial["initial"]
+    )
+    # Bucketize the new population and count the sample inside each bucket
+    bins_new = pd.cut(score_new, bins=bins, labels=range(1, num_bins + 1))
+    df_new = pd.DataFrame({"new": score_new, "bin": bins_new})
+    grp_new = df_new.groupby("bin").count()
+    grp_new["percent_new"] = grp_new["new"] / sum(grp_new["new"])
+    # Compare the bins to calculate PSI
+    psi_df = grp_initial.join(grp_new, on="bin", how="inner")
+    # Add a small value for when the percent is zero
+    psi_df["percent_initial"] = psi_df["percent_initial"].apply(
+        lambda x: eps if x == 0 else x
+    )
+    psi_df["percent_new"] = psi_df["percent_new"].apply(lambda x: eps if x == 0 else x)
+    # Calculate the psi
+    psi_df["psi"] = (psi_df["percent_initial"] - psi_df["percent_new"]) * np.log(
+        psi_df["percent_initial"] / psi_df["percent_new"]
+    )
+    return psi_df.to_dict(orient="records")
+@tags(
+    "sklearn", "binary_classification", "multiclass_classification", "model_performance"
+)
+@tasks("classification", "text_classification")
+def PopulationStabilityIndex(
+    datasets: List[VMDataset], model: VMModel, num_bins: int = 10, mode: str = "fixed"
+):
     """
     Assesses the Population Stability Index (PSI) to quantify the stability of an ML model's predictions across
     different datasets.
@@ -72,150 +133,39 @@ class PopulationStabilityIndex(Metric):
     relationships between features and the target variable (concept drift), or both. However, distinguishing between
     these causes is non-trivial.
     """
-    name = "psi"
-    required_inputs = ["model", "datasets"]
-    tasks = ["classification", "text_classification"]
-    tags = [
-        "sklearn",
-        "binary_classification",
-        "multiclass_classification",
-        "model_performance",
-    ]
-    default_params = {
-        "num_bins": 10,
-        "mode": "fixed",
-    }
-    def summary(self, metric_value):
-        # Add a table with the PSI values for each feature
-        # The data looks like this: [{"initial": 2652, "percent_initial": 0.5525, "new": 830, "percent_new": 0.5188, "psi": 0.0021},...
-        psi_table = [
-            {
-                "Bin": (
-                    i if i < (len(metric_value) - 1) else "Total"
-                ),  # The last bin is the "Total" bin
-                "Count Initial": values["initial"],
-                "Percent Initial (%)": values["percent_initial"] * 100,
-                "Count New": values["new"],
-                "Percent New (%)": values["percent_new"] * 100,
-                "PSI": values["psi"],
-            }
-            for i, values in enumerate(metric_value)
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=psi_table,
-                    metadata=ResultTableMetadata(
-                        title="Population Stability Index for Training and Test Datasets"
-                    ),
-                ),
-            ]
-        )
-    def _get_psi(
-        self, score_initial, score_new, num_bins=10, mode="fixed", as_dict=False
-    ):
-        """
-        Taken from:
-        https://towardsdatascience.com/checking-model-stability-and-population-shift-with-psi-and-csi-6d12af008783
-        """
-        eps = 1e-4
-        # Sort the data
-        score_initial.sort()
-        score_new.sort()
-        # Prepare the bins
-        min_val = min(min(score_initial), min(score_new))
-        max_val = max(max(score_initial), max(score_new))
-        if mode == "fixed":
-            bins = [
-                min_val + (max_val - min_val) * (i) / num_bins
-                for i in range(num_bins + 1)
-            ]
-        elif mode == "quantile":
-            bins = pd.qcut(score_initial, q=num_bins, retbins=True)[
-                1
-            ]  # Create the quantiles based on the initial population
-        else:
-            raise ValueError(
-                f"Mode '{mode}' not recognized. Allowed options are 'fixed' and 'quantile'"
-            )
-        bins[0] = min_val - eps  # Correct the lower boundary
-        bins[-1] = max_val + eps  # Correct the higher boundary
-        # Bucketize the initial population and count the sample inside each bucket
-        bins_initial = pd.cut(score_initial, bins=bins, labels=range(1, num_bins + 1))
-        df_initial = pd.DataFrame({"initial": score_initial, "bin": bins_initial})
-        grp_initial = df_initial.groupby("bin").count()
-        grp_initial["percent_initial"] = grp_initial["initial"] / sum(
-            grp_initial["initial"]
-        )
-        # Bucketize the new population and count the sample inside each bucket
-        bins_new = pd.cut(score_new, bins=bins, labels=range(1, num_bins + 1))
-        df_new = pd.DataFrame({"new": score_new, "bin": bins_new})
-        grp_new = df_new.groupby("bin").count()
-        grp_new["percent_new"] = grp_new["new"] / sum(grp_new["new"])
-        # Compare the bins to calculate PSI
-        psi_df = grp_initial.join(grp_new, on="bin", how="inner")
-        # Add a small value for when the percent is zero
-        psi_df["percent_initial"] = psi_df["percent_initial"].apply(
-            lambda x: eps if x == 0 else x
-        )
-        psi_df["percent_new"] = psi_df["percent_new"].apply(
-            lambda x: eps if x == 0 else x
-        )
-        # Calculate the psi
-        psi_df["psi"] = (psi_df["percent_initial"] - psi_df["percent_new"]) * np.log(
-            psi_df["percent_initial"] / psi_df["percent_new"]
-        )
-        return psi_df.to_dict(orient="records")
-    def run(self):
-        if self.inputs.model.library in ["statsmodels", "pytorch", "catboost"]:
-            logger.info(f"Skiping PSI for {self.inputs.model.library} models")
-            return
-        num_bins = self.params["num_bins"]
-        mode = self.params["mode"]
-        psi_results = self._get_psi(
-            self.inputs.model.predict_proba(self.inputs.datasets[0].x).copy(),
-            self.inputs.model.predict_proba(self.inputs.datasets[1].x).copy(),
-            num_bins=num_bins,
-            mode=mode,
-        )
-        trace1 = go.Bar(
-            x=list(range(len(psi_results))),
-            y=[d["percent_initial"] for d in psi_results],
-            name="Initial",
-            marker=dict(color="#DE257E"),
-        )
-        trace2 = go.Bar(
-            x=list(range(len(psi_results))),
-            y=[d["percent_new"] for d in psi_results],
-            name="New",
-            marker=dict(color="#E8B1F8"),
-        )
-        trace3 = go.Scatter(
-            x=list(range(len(psi_results))),
-            y=[d["psi"] for d in psi_results],
-            name="PSI",
-            yaxis="y2",
-            line=dict(color="#257EDE"),
-        )
-        layout = go.Layout(
+    if model.library in ["statsmodels", "pytorch", "catboost"]:
+        raise SkipTestError(f"Skiping PSI for {model.library} models")
+    psi_results = calculate_psi(
+        datasets[0].y_prob(model).copy(),
+        datasets[1].y_prob(model).copy(),
+        num_bins=num_bins,
+        mode=mode,
+    )
+    fig = go.Figure(
+        data=[
+            go.Bar(
+                x=list(range(len(psi_results))),
+                y=[d["percent_initial"] for d in psi_results],
+                name="Initial",
+                marker=dict(color="#DE257E"),
+            ),
+            go.Bar(
+                x=list(range(len(psi_results))),
+                y=[d["percent_new"] for d in psi_results],
+                name="New",
+                marker=dict(color="#E8B1F8"),
+            ),
+            go.Scatter(
+                x=list(range(len(psi_results))),
+                y=[d["psi"] for d in psi_results],
+                name="PSI",
+                yaxis="y2",
+                line=dict(color="#257EDE"),
+            ),
+        ],
+        layout=go.Layout(
             title="Population Stability Index (PSI) Plot",
             xaxis=dict(title="Bin"),
             yaxis=dict(title="Population Ratio"),
@@ -229,23 +179,31 @@ class PopulationStabilityIndex(Metric):
                 ],  # Adjust as needed
             ),
             barmode="group",
-        )
-        fig = go.Figure(data=[trace1, trace2, trace3], layout=layout)
-        figure = Figure(
-            for_object=self,
-            key=self.key,
-            figure=fig,
-        )
-        # Calculate the sum of each numeric column
-        total_psi = {
-            key: sum(d.get(key, 0) for d in psi_results)
-            for key in psi_results[0].keys()
-            if isinstance(psi_results[0][key], (int, float))
-        }
+        ),
+    )
+    # sum up the PSI values to get the total values
+    total_psi = {
+        key: sum(d.get(key, 0) for d in psi_results)
+        for key in psi_results[0].keys()
+        if isinstance(psi_results[0][key], (int, float))
+    }
+    psi_results.append(total_psi)
-        # Add the total PSI dictionary to the list
-        psi_results.append(total_psi)
+    table_title = f"Population Stability Index for {datasets[0].input_id} and {datasets[1].input_id} Datasets"
-        return self.cache_results(metric_value=psi_results, figures=[figure])
+    return {
+        table_title: [
+            {
+                "Bin": (
+                    i if i < (len(psi_results) - 1) else "Total"
+                ),  # The last bin is the "Total" bin
+                "Count Initial": values["initial"],
+                "Percent Initial (%)": values["percent_initial"] * 100,
+                "Count New": values["new"],
+                "Percent New (%)": values["percent_new"] * 100,
+                "PSI": values["psi"],
+            }
+            for i, values in enumerate(psi_results)
+        ],
+    }, fig

validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py CHANGED Viewed

@@ -2,19 +2,19 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import numpy as np
 import plotly.graph_objects as go
 from sklearn.metrics import precision_recall_curve
+from validmind import tags, tasks
 from validmind.errors import SkipTestError
 from validmind.models import FoundationModel
-from validmind.vm_models import Figure, Metric
+from validmind.vm_models import VMDataset, VMModel
-@dataclass
-class PrecisionRecallCurve(Metric):
+@tags("sklearn", "binary_classification", "model_performance", "visualization")
+@tasks("classification", "text_classification")
+def PrecisionRecallCurve(model: VMModel, dataset: VMDataset):
     """
     Evaluates the precision-recall trade-off for binary classification models and visualizes the Precision-Recall curve.
@@ -55,59 +55,30 @@ class PrecisionRecallCurve(Metric):
     - It may not fully represent the overall accuracy of the model if the cost of false positives and false negatives
     are extremely different, or if the dataset is heavily imbalanced.
     """
+    if isinstance(model, FoundationModel):
+        raise SkipTestError("Skipping PrecisionRecallCurve for Foundation models")
-    name = "pr_curve"
-    required_inputs = ["model", "dataset"]
-    tasks = ["classification", "text_classification"]
-    tags = [
-        "sklearn",
-        "binary_classification",
-        "multiclass_classification",
-        "model_performance",
-        "visualization",
-    ]
-    def run(self):
-        if isinstance(self.inputs.model, FoundationModel):
-            raise SkipTestError("Skipping PrecisionRecallCurve for Foundation models")
-        y_true = self.inputs.dataset.y
-        y_pred = self.inputs.dataset.y_prob(self.inputs.model)
-        # PR curve is only supported for binary classification
-        if len(np.unique(y_true)) > 2:
-            raise SkipTestError(
-                "Precision Recall Curve is only supported for binary classification models"
-            )
+    y_true = dataset.y
+    if len(np.unique(y_true)) > 2:
+        raise SkipTestError(
+            "Precision Recall Curve is only supported for binary classification models"
+        )
-        precision, recall, pr_thresholds = precision_recall_curve(y_true, y_pred)
+    precision, recall, _ = precision_recall_curve(y_true, dataset.y_prob(model))
-        trace = go.Scatter(
-            x=recall,
-            y=precision,
-            mode="lines",
-            name="Precision-Recall Curve",
-            line=dict(color="#DE257E"),
-        )
-        layout = go.Layout(
+    return go.Figure(
+        data=[
+            go.Scatter(
+                x=recall,
+                y=precision,
+                mode="lines",
+                name="Precision-Recall Curve",
+                line=dict(color="#DE257E"),
+            )
+        ],
+        layout=go.Layout(
             title="Precision-Recall Curve",
             xaxis=dict(title="Recall"),
             yaxis=dict(title="Precision"),
-        )
-        fig = go.Figure(data=[trace], layout=layout)
-        return self.cache_results(
-            metric_value={
-                "precision": precision,
-                "recall": recall,
-                "thresholds": pr_thresholds,
-            },
-            figures=[
-                Figure(
-                    for_object=self,
-                    key="pr_curve",
-                    figure=fig,
-                )
-            ],
-        )
+        ),
+    )

validmind 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl