PyPI - validmind - Versions diffs - 2.5.24__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.24py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.24.dist-info/METADATA +0 -118
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py CHANGED Viewed

@@ -2,16 +2,16 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 from statsmodels.stats.diagnostic import kstest_normal
+from validmind import tags, tasks
 from validmind.errors import InvalidTestParametersError
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind.vm_models import VMDataset, VMModel
-@dataclass
-class KolmogorovSmirnov(Metric):
+@tags("tabular_data", "data_distribution", "statistical_test", "statsmodels")
+@tasks("classification", "regression")
+def KolmogorovSmirnov(model: VMModel, dataset: VMDataset, dist: str = "norm"):
     """
     Assesses whether each feature in the dataset aligns with a normal distribution using the Kolmogorov-Smirnov test.
@@ -47,48 +47,23 @@ class KolmogorovSmirnov(Metric):
     - Less effective for multivariate distributions, as it is designed for univariate distributions.
     - Does not identify specific types of non-normality, such as skewness or kurtosis, which could impact model fitting.
     """
+    if dist not in ["norm", "exp"]:
+        raise InvalidTestParametersError(
+            "'dist' parameter must be either 'norm' or 'exp'"
+        )
-    name = "kolmogorov_smirnov"
-    required_inputs = ["dataset"]
-    default_params = {"dist": "norm"}
-    tasks = ["classification", "regression"]
-    tags = [
-        "tabular_data",
-        "data_distribution",
-        "statistical_test",
-        "statsmodels",
-    ]
+    df = dataset.df[dataset.feature_columns_numeric]
-    def summary(self, metric_value):
-        results_table = metric_value["metrics_summary"]
-        results_table = [
-            {"Column": k, "stat": result["stat"], "pvalue": result["pvalue"]}
-            for k, result in results_table.items()
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(title="KS Test results"),
-                )
-            ]
-        )
+    ks_values = {}
+    for col in df.columns:
+        ks_stat, p_value = kstest_normal(df[col].values, dist)
+        ks_values[col] = {"stat": ks_stat, "pvalue": p_value}
-    def run(self):
-        """
-        Calculates KS for each of the dataset features
-        """
-        data_distribution = self.params["dist"]
-        if data_distribution not in ["norm" or "exp"]:
-            InvalidTestParametersError("Dist parameter must be either 'norm' or 'exp'")
-        x_train = self.inputs.dataset.df[self.inputs.dataset.feature_columns_numeric]
-        ks_values = {}
-        for col in x_train.columns:
-            ks_stat, p_value = kstest_normal(x_train[col].values, data_distribution)
-            ks_values[col] = {"stat": ks_stat, "pvalue": p_value}
-        print(ks_values)
-        return self.cache_results({"metrics_summary": ks_values})
+    return [
+        {
+            "Column": k,
+            "Statistic": result["stat"],
+            "P-Value": result["pvalue"],
+        }
+        for k, result in ks_values.items()
+    ]

validmind/tests/model_validation/statsmodels/Lilliefors.py CHANGED Viewed

@@ -2,15 +2,15 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 from statsmodels.stats.diagnostic import lilliefors
-from validmind.vm_models import Metric
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset, VMModel
-@dataclass
-class Lilliefors(Metric):
+@tags("tabular_data", "data_distribution", "statistical_test", "statsmodels")
+@tasks("classification", "regression")
+def Lilliefors(model: VMModel, dataset: VMDataset):
     """
     Assesses the normality of feature distributions in an ML model's training dataset using the Lilliefors test.
@@ -56,29 +56,18 @@ class Lilliefors(Metric):
     - Like any other statistical test, Lilliefors test may also produce false positives or negatives. Hence, banking
     solely on this test, without considering other characteristics of the data, may give rise to risks.
     """
+    df = dataset.df[dataset.feature_columns_numeric]
+    table = []
-    name = "lilliefors_test"
-    required_inputs = ["dataset"]
-    tasks = ["classification", "regression"]
-    tags = [
-        "tabular_data",
-        "data_distribution",
-        "statistical_test",
-        "statsmodels",
-    ]
-    def run(self):
-        """
-        Calculates Lilliefors test for each of the dataset features
-        """
-        x_train = self.inputs.dataset.df[self.inputs.dataset.feature_columns_numeric]
-        lilliefors_values = {}
-        for col in x_train.columns:
-            l_stat, p_value = lilliefors(x_train[col].values)
-            lilliefors_values[col] = {
-                "stat": l_stat,
-                "pvalue": p_value,
+    for col in df.columns:
+        l_stat, p_value = lilliefors(df[col].values)
+        table.append(
+            {
+                "Column": col,
+                "Statistic": l_stat,
+                "P-Value": p_value,
             }
+        )
-        return self.cache_results(lilliefors_values)
+    return table

validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py CHANGED Viewed

@@ -2,36 +2,37 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import matplotlib.pyplot as plt
 import seaborn as sns
+from validmind import tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
-from validmind.vm_models import Figure, Metric
+from validmind.vm_models import VMModel
 logger = get_logger(__name__)
-@dataclass
-class RegressionFeatureSignificance(Metric):
+@tags("statistical_test", "model_interpretation", "visualization", "feature_importance")
+@tasks("regression")
+def RegressionFeatureSignificance(
+    model: VMModel, fontsize: int = 10, p_threshold: float = 0.05
+):
     """
-    Assesses and visualizes the statistical significance of features in a set of regression models.
+    Assesses and visualizes the statistical significance of features in a regression model.
     ### Purpose
     The Regression Feature Significance metric assesses the significance of each feature in a given set of regression
-    models. It creates a visualization displaying p-values for every feature of each model, assisting model developers
-    in understanding which features are most influential in their models.
+    model. It creates a visualization displaying p-values for every feature of the model, assisting model developers
+    in understanding which features are most influential in their model.
     ### Test Mechanism
-    The test mechanism involves going through each fitted regression model in a given list, extracting the model
-    coefficients and p-values for each feature, and then plotting these values. The x-axis on the plot contains the
-    p-values while the y-axis denotes the coefficients of each feature. A vertical red line is drawn at the threshold
-    for p-value significance, which is 0.05 by default. Any features with p-values to the left of this line are
-    considered statistically significant at the chosen level.
+    The test mechanism involves extracting the model's coefficients and p-values for each feature, and then plotting these
+    values. The x-axis on the plot contains the p-values while the y-axis denotes the coefficients of each feature. A
+    vertical red line is drawn at the threshold for p-value significance, which is 0.05 by default. Any features with
+    p-values to the left of this line are considered statistically significant at the chosen level.
     ### Signs of High Risk
@@ -45,7 +46,6 @@ class RegressionFeatureSignificance(Metric):
     - Helps identify the features that significantly contribute to a model's prediction, providing insights into the
     feature importance.
     - Provides tangible, easy-to-understand visualizations to interpret the feature significance.
-    - Facilitates comparison of feature importance across multiple models.
     ### Limitations
@@ -57,81 +57,37 @@ class RegressionFeatureSignificance(Metric):
     - P-value thresholds are somewhat arbitrary and do not always indicate practical significance, only statistical
     significance.
     """
+    if model.library != "statsmodels":
+        raise SkipTestError("Only statsmodels are supported for this metric")
-    name = "regression_feature_significance"
-    required_inputs = ["model"]
-    default_params = {"fontsize": 10, "p_threshold": 0.05}
-    tasks = ["regression"]
-    tags = [
-        "statistical_test",
-        "model_interpretation",
-        "visualization",
-        "feature_importance",
-    ]
-    def run(self):
-        fontsize = self.params["fontsize"]
-        p_threshold = self.params["p_threshold"]
-        # Check models list is not empty
-        if not self.inputs.model:
-            raise ValueError("Model must be provided in the models parameter")
-        figures = self._plot_pvalues(self.inputs.model, fontsize, p_threshold)
-        return self.cache_results(figures=figures)
-    def _plot_pvalues(self, model_list, fontsize, p_threshold):
-        # Initialize a list to store figures
-        figures = []
-        for i, model in enumerate(model_list):
-            if model.library != "statsmodels":
-                raise SkipTestError("Only statsmodels are supported for this metric")
+    coefficients = model.model.params
+    pvalues = model.model.pvalues
-            # Get the coefficients and p-values from the model
-            coefficients = model.model.params
-            pvalues = model.model.pvalues
+    # Sort the variables by p-value in ascending order
+    sorted_idx = pvalues.argsort()
+    coefficients = coefficients.iloc[sorted_idx]
+    pvalues = pvalues.iloc[sorted_idx]
-            # Sort the variables by p-value in ascending order
-            sorted_idx = pvalues.argsort()
-            coefficients = coefficients.iloc[sorted_idx]
-            pvalues = pvalues.iloc[sorted_idx]
+    fig, ax = plt.subplots()
-            # Increase the height of the figure
-            fig, ax = plt.subplots()
+    sns.barplot(x=pvalues, y=coefficients.index, ax=ax, color="skyblue")
-            # Create a horizontal bar plot with wider bars using Seaborn
-            sns.barplot(x=pvalues, y=coefficients.index, ax=ax, color="skyblue")
+    # Add a threshold line at p-value = p_threshold
+    threshold_line = ax.axvline(x=p_threshold, color="red", linestyle="--")
-            # Add a threshold line at p-value = p_threshold
-            threshold_line = ax.axvline(x=p_threshold, color="red", linestyle="--")
+    # Set labels and title
+    ax.set_xlabel("P-value")
+    ax.set_ylabel(None)
+    ax.set_title(f"Feature Significance for {model.input_id}")
-            # Set labels and title
-            ax.set_xlabel("P-value")
-            ax.set_ylabel(None)
-            ax.set_title(f"Feature Significance for Model {i + 1}")
+    plt.tight_layout()
-            # Adjust the layout to prevent overlapping of variable names
-            plt.tight_layout()
+    ax.set_yticklabels(ax.get_yticklabels(), fontsize=fontsize)
-            # Set the fontsize of y-axis tick labels
-            ax.set_yticklabels(ax.get_yticklabels(), fontsize=fontsize)
+    # Add a legend for the threshold line
+    legend_label = f"p_threshold {p_threshold}"
+    ax.legend([threshold_line], [legend_label])
-            # Add a legend for the threshold line
-            legend_label = f"p_threshold {p_threshold}"
-            ax.legend([threshold_line], [legend_label])
+    plt.close()
-            # Add to the figures list
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.key}:{i}",
-                    figure=fig,
-                    metadata={"model": str(model.model)},
-                )
-            )
-            plt.close("all")
-        return figures
+    return fig

validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py CHANGED Viewed

@@ -2,38 +2,43 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
+from typing import Union
 import matplotlib.pyplot as plt
 import pandas as pd
+from validmind import tags, tasks
 from validmind.logging import get_logger
-from validmind.vm_models import Figure, Metric
+from validmind.vm_models import VMDataset, VMModel
 logger = get_logger(__name__)
-@dataclass
-class RegressionModelForecastPlot(Metric):
+@tags("time_series_data", "forecasting", "visualization")
+@tasks("regression")
+def RegressionModelForecastPlot(
+    model: VMModel,
+    dataset: VMDataset,
+    start_date: Union[str, None] = None,
+    end_date: Union[str, None] = None,
+):
     """
-    Generates plots to visually compare the forecasted outcomes of one or more regression models against actual
-    observed values over a specified date range.
+    Generates plots to visually compare the forecasted outcomes of a regression model against actual observed values over
+    a specified date range.
     ### Purpose
-    The "regression_forecast_plot" is intended to visually depict the performance of one or more regression models by
-    comparing the model's forecasted outcomes against actual observed values within a specified date range. This metric
-    is especially useful in time-series models or any model where the outcome changes over time, allowing direct
-    comparison of predicted vs actual values.
+    This metric is useful for time-series models or any model where the outcome changes over time, allowing direct
+    comparison of predicted vs actual values. It can help identify overfitting or underfitting situations as well as
+    general model performance.
     ### Test Mechanism
-    This test generates a plot for each fitted model in the list. The x-axis represents the date ranging from the
-    specified "start_date" to the "end_date", while the y-axis shows the value of the outcome variable. Two lines are
-    plotted: one representing the forecasted values and the other representing the observed values. The "start_date"
-    and "end_date" can be parameters of this test; if these parameters are not provided, they are set to the minimum
-    and maximum date available in the dataset. The test verifies that the provided date range is within the limits of
-    the available data.
+    This test generates a plot with the x-axis representing the date ranging from the specified "start_date" to the
+    "end_date", while the y-axis shows the value of the outcome variable. Two lines are plotted: one representing the
+    forecasted values and the other representing the observed values. The "start_date" and "end_date" can be parameters
+    of this test; if these parameters are not provided, they are set to the minimum and maximum date available in the
+    dataset.
     ### Signs of High Risk
@@ -58,101 +63,28 @@ class RegressionModelForecastPlot(Metric):
     - Inapplicability: Limited to cases where the order of data points (time-series) matters, it might not be of much
     use in problems that are not related to time series prediction.
     """
+    index = dataset.df.index
-    name = "regression_forecast_plot"
-    required_inputs = ["models", "datasets"]
-    default_params = {"start_date": None, "end_date": None}
-    tasks = ["regression"]
-    tags = ["forecasting", "visualization"]
-    def run(self):
-        start_date = self.params["start_date"]
-        end_date = self.params["end_date"]
-        # Check models list is not empty
-        if not self.inputs.models:
-            raise ValueError("List of models must be provided in the models parameter")
-        all_models = []
-        for model in self.inputs.models:
-            all_models.append(model)
-        figures = self._plot_forecast(
-            all_models, self.inputs.datasets, start_date, end_date
-        )
-        return self.cache_results(figures=figures)
-    def _plot_forecast(self, model_list, datasets, start_date=None, end_date=None):
-        # Convert start_date and end_date to pandas Timestamp for comparison
-        start_date = pd.Timestamp(start_date)
-        end_date = pd.Timestamp(end_date)
-        # Initialize a list to store figures
-        figures = []
-        for i, fitted_model in enumerate(model_list):
-            feature_columns = datasets[0].feature_columns
-            train_ds = datasets[0]
-            test_ds = datasets[1]
-            y_pred = train_ds.y_pred(fitted_model)
-            y_pred_test = test_ds.y_pred(fitted_model)
+    start_date = index.min() if start_date is None else pd.Timestamp(start_date)
+    end_date = index.max() if end_date is None else pd.Timestamp(end_date)
-            # Check that start_date and end_date are within the data range
-            all_dates = pd.concat([pd.Series(train_ds.index), pd.Series(test_ds.index)])
-            # If start_date or end_date are None, set them to the min/max of all_dates
-            if start_date is None:
-                start_date = all_dates.min()
-            else:
-                start_date = pd.Timestamp(start_date)
-            if end_date is None:
-                end_date = all_dates.max()
-            else:
-                end_date = pd.Timestamp(end_date)
-            # If start_date or end_date are None, set them to the min/max of all_dates
-            if start_date is None:
-                start_date = all_dates.min()
-            else:
-                start_date = pd.Timestamp(start_date)
-            if end_date is None:
-                end_date = all_dates.max()
-            else:
-                end_date = pd.Timestamp(end_date)
-            if start_date < all_dates.min() or end_date > all_dates.max():
-                raise ValueError(
-                    "start_date and end_date must be within the range of dates in the data"
-                )
+    if start_date < index.min() or end_date > index.max():
+        raise ValueError(
+            "start_date and end_date must be within the range of dates in the data"
+        )
-            fig, ax = plt.subplots()
-            ax.plot(train_ds.index, train_ds.y, label="Train Forecast")
-            ax.plot(test_ds.index, test_ds.y, label="Test Forecast")
-            ax.plot(train_ds.index, y_pred, label="Train Dataset", color="grey")
-            ax.plot(test_ds.index, y_pred_test, label="Test Dataset", color="black")
+    fig, ax = plt.subplots()
-            plt.title(f"Forecast vs Observed for features {feature_columns}")
+    ax.plot(index, dataset.y, label="Observed")
+    ax.plot(index, dataset.y_pred(model), label="Forecast", color="grey")
-            # Set the x-axis limits to zoom in/out
-            plt.xlim(start_date, end_date)
+    plt.title("Forecast vs Observed")
-            plt.legend()
-            # TODO: define a proper key for each plot
-            logger.info(f"Plotting forecast vs observed for model {fitted_model.model}")
+    # Set the x-axis limits to zoom in/out
+    plt.xlim(start_date, end_date)
-            plt.close("all")
+    plt.legend()
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.key}:{i}",
-                    figure=fig,
-                    metadata={"model": str(feature_columns)},
-                )
-            )
+    plt.close()
-        return figures
+    return fig

validmind 2.5.24__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.24py3-none-any.whl → 2.6.7py3-none-any.whl