PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/MissingValuesBarPlot.py CHANGED Viewed

@@ -2,15 +2,17 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import plotly.graph_objects as go
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-@dataclass
-class MissingValuesBarPlot(Metric):
+@tags("tabular_data", "data_quality", "visualization")
+@tasks("classification", "regression")
+def MissingValuesBarPlot(
+    dataset: VMDataset, threshold: int = 80, fig_height: int = 600
+):
     """
     Assesses the percentage and distribution of missing values in the dataset via a bar plot, with emphasis on
     identifying high-risk columns based on a user-defined threshold.
@@ -55,90 +57,62 @@ class MissingValuesBarPlot(Metric):
     - The metric does not consider possible impacts of the missing data on the model's accuracy or precision.
     - Interpretation of the findings and the next steps might require an expert understanding of the field.
     """
-    name = "missing_values_bar_plot"
-    required_inputs = ["dataset"]
-    default_params = {"threshold": 80, "fig_height": 600}
-    tasks = ["classification", "regression"]
-    tags = ["tabular_data", "data_quality", "visualization"]
-    def run(self):
-        threshold = self.params["threshold"]
-        fig_height = self.params["fig_height"]
-        figure = self.visualize_missing_values(threshold, fig_height)
-        return self.cache_results(figures=figure)
-    def visualize_missing_values(self, threshold, fig_height):
-        # Calculate the percentage of missing values in each column
-        missing_percentages = (
-            self.inputs.dataset.df.isnull().sum() / len(self.inputs.dataset.df)
-        ) * 100
-        # Only keep entries where missing_percentage > 0
-        missing_percentages = missing_percentages[missing_percentages > 0]
-        # Sort missing value percentages in ascending order
-        missing_percentages_sorted = missing_percentages.sort_values(ascending=True)
-        # Create lists to store the x and y values for each bar
-        y_below_threshold = []
-        x_below_threshold = []
-        y_above_threshold = []
-        x_above_threshold = []
-        # Iterate through the missing percentages and separate values based on the threshold
-        for index, value in missing_percentages_sorted.items():
-            if value < threshold:
-                y_below_threshold.append(index)
-                x_below_threshold.append(value)
-            else:
-                y_above_threshold.append(index)
-                x_above_threshold.append(value)
-        # Create bar traces for values below and above threshold
-        trace_below_threshold = go.Bar(
-            y=y_below_threshold,
-            x=x_below_threshold,
-            marker_color="grey",
-            name="Below Threshold",
-            orientation="h",
-            hovertemplate="Column: %{y}<br>Missing Value Percentage: %{x:.2f}%",
-        )
-        trace_above_threshold = go.Bar(
-            y=y_above_threshold,
-            x=x_above_threshold,
-            marker_color="lightcoral",
-            name="Above Threshold",
-            orientation="h",
-            hovertemplate="Column: %{y}<br>Missing Value Percentage: %{x:.2f}%",
-        )
-        # Draw a red line at the specified threshold
-        threshold_line = go.Scatter(
-            y=missing_percentages_sorted.index,
-            x=[threshold] * len(missing_percentages_sorted.index),
-            mode="lines",
-            name="Threshold: {}%".format(threshold),
-            line=dict(color="red", dash="dash"),
-        )
-        # Create a layout
-        layout = go.Layout(
+    # Calculate the percentage of missing values in each column
+    missing_percentages = (dataset.df.isnull().sum() / len(dataset.df)) * 100
+    # Only keep entries where missing_percentage > 0
+    missing_percentages = missing_percentages[missing_percentages > 0]
+    # Sort missing value percentages in ascending order
+    missing_percentages_sorted = missing_percentages.sort_values(ascending=True)
+    # Create lists to store the x and y values for each bar
+    y_below_threshold = []
+    x_below_threshold = []
+    y_above_threshold = []
+    x_above_threshold = []
+    # Iterate through the missing percentages and separate values based on the threshold
+    for index, value in missing_percentages_sorted.items():
+        if value < threshold:
+            y_below_threshold.append(index)
+            x_below_threshold.append(value)
+        else:
+            y_above_threshold.append(index)
+            x_above_threshold.append(value)
+    # Create bar traces for values below and above threshold
+    trace_below_threshold = go.Bar(
+        y=y_below_threshold,
+        x=x_below_threshold,
+        marker_color="grey",
+        name="Below Threshold",
+        orientation="h",
+        hovertemplate="Column: %{y}<br>Missing Value Percentage: %{x:.2f}%",
+    )
+    trace_above_threshold = go.Bar(
+        y=y_above_threshold,
+        x=x_above_threshold,
+        marker_color="lightcoral",
+        name="Above Threshold",
+        orientation="h",
+        hovertemplate="Column: %{y}<br>Missing Value Percentage: %{x:.2f}%",
+    )
+    # Draw a red line at the specified threshold
+    threshold_line = go.Scatter(
+        y=missing_percentages_sorted.index,
+        x=[threshold] * len(missing_percentages_sorted.index),
+        mode="lines",
+        name="Threshold: {}%".format(threshold),
+        line=dict(color="red", dash="dash"),
+    )
+    return go.Figure(
+        data=[trace_below_threshold, trace_above_threshold, threshold_line],
+        layout=go.Layout(
             title="Missing Values",
             yaxis=dict(title="Columns"),
             xaxis=dict(title="Missing Value Percentage (%)", range=[0, 100]),
             barmode="stack",
             height=fig_height,
-        )
-        # Create a Figure object
-        fig = go.Figure(
-            data=[trace_below_threshold, trace_above_threshold, threshold_line],
-            layout=layout,
-        )
-        figure = Figure(for_object=self, key=self.key, figure=fig)
-        return [figure]
+        ),
+    )

validmind/tests/data_validation/PhillipsPerronArch.py CHANGED Viewed

@@ -2,20 +2,22 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
+import numpy as np
 import pandas as pd
 from arch.unitroot import PhillipsPerron
 from numpy.linalg import LinAlgError
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
 from validmind.logging import get_logger
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind.vm_models import VMDataset
 logger = get_logger(__name__)
-@dataclass
-class PhillipsPerronArch(Metric):
+@tags("time_series_data", "forecasting", "statistical_test", "unit_root_test")
+@tasks("regression")
+def PhillipsPerronArch(dataset: VMDataset):
     """
     Assesses the stationarity of time series data in each feature of the ML model using the Phillips-Perron test.
@@ -55,80 +57,55 @@ class PhillipsPerronArch(Metric):
     - Non-stationary time series must be converted to stationary series through differencing, potentially leading to
     loss of important data points.
     """
+    df = dataset.df.dropna()
-    name = "phillips_perron"
-    required_inputs = ["dataset"]
-    tasks = ["regression"]
-    tags = [
-        "time_series_data",
-        "forecasting",
-        "statistical_test",
-        "unit_root_test",
-    ]
-    def run(self):
-        """
-        Calculates PP metric for each of the dataset features
-        """
-        dataset = self.inputs.dataset.df
-        # Check if the dataset is a time series
-        if not isinstance(dataset.index, (pd.DatetimeIndex, pd.PeriodIndex)):
-            raise ValueError(
-                "Dataset index must be a datetime or period index for time series analysis."
-            )
-        # Preprocessing: Drop rows with any NaN values
-        if dataset.isnull().values.any():
-            logger.warning(
-                "Dataset contains missing values. Rows with NaNs will be dropped."
-            )
-            dataset = dataset.dropna()
-        # Convert to numeric and handle non-numeric data
-        dataset = dataset.apply(pd.to_numeric, errors="coerce")
-        # Initialize a list to store Phillips-Perron results
-        pp_values = []
-        for col in dataset.columns:
-            try:
-                pp = PhillipsPerron(dataset[col].values)
-                pp_values.append(
-                    {
-                        "Variable": col,
-                        "stat": pp.stat,
-                        "pvalue": pp.pvalue,
-                        "usedlag": pp.lags,
-                        "nobs": pp.nobs,
-                    }
-                )
-            except LinAlgError as e:
-                logger.error(f"Error processing column '{col}': {e}")
-                pp_values.append(
-                    {
-                        "Variable": col,
-                        "stat": None,
-                        "pvalue": None,
-                        "usedlag": None,
-                        "nobs": None,
-                        "error": str(e),
-                    }
-                )
-        return self.cache_results({"phillips_perron_results": pp_values})
-    def summary(self, metric_value):
-        """
-        Build a table for summarizing the Phillips-Perron results
-        """
-        pp_results = metric_value["phillips_perron_results"]
+    if not isinstance(df.index, (pd.DatetimeIndex, pd.PeriodIndex)):
+        raise ValueError(
+            "Dataset index must be a datetime or period index for time series analysis."
+        )
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=pp_results,
-                    metadata=ResultTableMetadata(title="Phillips-Perron Test Results"),
+    # Filter numeric columns first
+    numeric_columns = df.select_dtypes(include=np.number).columns
+    if not any(col in numeric_columns for col in dataset.feature_columns):
+        raise SkipTestError("No numeric columns found for Phillips-Perron test.")
+    pp_table = []
+    for col in dataset.feature_columns:
+        # Skip non-numeric columns
+        if col not in numeric_columns:
+            logger.warning(f"Skipping non-numeric column: {col}")
+            continue
+        try:
+            # Drop any NaN values for this column
+            series = df[col].dropna()
+            if len(series) == 0:
+                logger.warning(
+                    f"Skipping column '{col}': No valid data after dropping NaN values"
                 )
-            ]
-        )
+                continue
+            pp = PhillipsPerron(series.values)
+            pp_table.append(
+                {
+                    "Variable": col,
+                    "stat": pp.stat,
+                    "pvalue": pp.pvalue,
+                    "usedlag": pp.lags,
+                    "nobs": pp.nobs,
+                }
+            )
+        except LinAlgError as e:
+            logger.error(f"Error processing column '{col}': {e}")
+            continue
+        except Exception as e:
+            logger.error(f"Unexpected error processing column '{col}': {e}")
+            continue
+    if not pp_table:
+        raise SkipTestError("No valid columns found for Phillips-Perron test.")
+    return {
+        "Phillips-Perron Test Results": pp_table,
+    }

validmind/tests/data_validation/RollingStatsPlot.py CHANGED Viewed

@@ -5,10 +5,44 @@
 import matplotlib.pyplot as plt
 import pandas as pd
-from validmind.vm_models import Figure, Metric
-class RollingStatsPlot(Metric):
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
+def plot_rolling_statistics(df, col, window_size):
+    rolling_mean = df[col].rolling(window=window_size).mean()
+    rolling_std = df[col].rolling(window=window_size).std()
+    fig, (ax1, ax2) = plt.subplots(2, 1, sharex=True)
+    ax1.plot(rolling_mean)
+    ax1.set_title(
+        f"Rolling Mean for {col}",
+        fontsize=20,
+        weight="bold",
+    )
+    ax1.set_ylabel("")
+    ax1.tick_params(axis="both", labelsize=18)
+    ax1.legend()
+    ax2.plot(rolling_std, label="Rolling Standard Deviation", color="orange")
+    ax2.set_title(
+        f"Rolling STD for {col}",
+        fontsize=20,
+        weight="bold",
+    )
+    ax2.set_xlabel("")
+    ax2.set_ylabel("")
+    ax2.tick_params(axis="both", labelsize=18)
+    ax2.legend()
+    return fig
+@tags("time_series_data", "visualization", "stationarity")
+@tasks("regression")
+def RollingStatsPlot(dataset: VMDataset, window_size: int = 12):
     """
     Evaluates the stationarity of time series data by plotting its rolling mean and standard deviation over a specified
     window.
@@ -58,81 +92,16 @@ class RollingStatsPlot(Metric):
     such as through statistical tests. Therefore, the interpretation is subjective and depends heavily on modeler
     discretion.
     """
-    name = "rolling_stats_plot"
-    required_inputs = ["dataset"]
-    default_params = {"window_size": 12}
-    tasks = ["regression"]
-    tags = ["time_series_data", "visualization", "stationarity"]
-    def plot_rolling_statistics(self, col, window_size=12):
-        """
-        Plot rolling mean and rolling standard deviation in different subplots for a given series.
-        :param series: Pandas Series with time-series data
-        :param window_size: Window size for the rolling calculations
-        :param ax1: Axis object for the rolling mean plot
-        :param ax2: Axis object for the rolling standard deviation plot
-        """
-        rolling_mean = (
-            self.inputs.dataset.df[col].rolling(window=int(window_size)).mean()
-        )
-        rolling_std = self.inputs.dataset.df[col].rolling(window=int(window_size)).std()
-        # Create a new figure and axis objects
-        fig, (ax1, ax2) = plt.subplots(2, 1, sharex=True)
-        ax1.plot(rolling_mean)
-        ax1.set_title(
-            f"Rolling Mean for {col}",
-            fontsize=20,
-            weight="bold",
-        )
-        ax1.set_ylabel("")
-        ax1.tick_params(axis="both", labelsize=18)
-        ax1.legend()
-        ax2.plot(rolling_std, label="Rolling Standard Deviation", color="orange")
-        ax2.set_title(
-            f"Rolling STD for {col}",
-            fontsize=20,
-            weight="bold",
-        )
-        ax2.set_xlabel("")
-        ax2.set_ylabel("")
-        ax2.tick_params(axis="both", labelsize=18)
-        ax2.legend()
-        return fig
-    def run(self):
-        if "window_size" not in self.params:
-            raise ValueError("Window size must be provided in params")
-        # Check if index is datetime
-        if not pd.api.types.is_datetime64_any_dtype(self.inputs.dataset.df.index):
-            raise ValueError("Index must be a datetime type")
-        window_size = self.params["window_size"]
-        df = self.inputs.dataset.df.dropna()
-        if not set(df.columns).issubset(set(df.columns)):
-            raise ValueError("Provided 'columns' must exist in the dataset")
-        figures = []
-        for col in df.columns:
-            fig = self.plot_rolling_statistics(col, window_size=window_size)
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.key}:{col}",
-                    figure=fig,
-                )
+    if not pd.api.types.is_datetime64_any_dtype(dataset.df.index):
+        raise SkipTestError("Index must be a datetime type")
+    return tuple(
+        [
+            plot_rolling_statistics(
+                df=dataset.df.dropna(),
+                col=col,
+                window_size=window_size,
             )
-            # Do this if you want to prevent the figure from being displayed
-            plt.close("all")
-        return self.cache_results(figures=figures)
+            for col in dataset.feature_columns
+        ]
+    )

validmind 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl