PyPI - validmind - Versions diffs - 2.5.24__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.24py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.24.dist-info/METADATA +0 -118
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/AutoAR.py CHANGED Viewed

@@ -6,13 +6,16 @@ import pandas as pd
 from statsmodels.tsa.ar_model import AutoReg
 from statsmodels.tsa.stattools import adfuller
+from validmind import tags, tasks
 from validmind.logging import get_logger
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind.vm_models import VMDataset
 logger = get_logger(__name__)
-class AutoAR(Metric):
+@tags("time_series_data", "statsmodels", "forecasting", "statistical_test")
+@tasks("regression")
+def AutoAR(dataset: VMDataset, max_ar_order: int = 3):
     """
     Automatically identifies the optimal Autoregressive (AR) order for a time series using BIC and AIC criteria.
@@ -56,98 +59,58 @@ class AutoAR(Metric):
     - AIC and BIC may not always agree on the selection of the best model. This potentially requires the user to juggle
     interpretational choices.
     """
-    type = "dataset"
-    name = "auto_ar"
-    required_inputs = ["dataset"]
-    default_params = {"max_ar_order": 3}
-    tasks = ["regression"]
-    tags = ["time_series_data", "statsmodels", "forecasting", "statistical_test"]
-    def run(self):
-        if "max_ar_order" not in self.params:
-            raise ValueError("max_ar_order must be provided in params")
-        max_ar_order = int(self.params["max_ar_order"])
-        df = self.inputs.dataset.df
-        # Create empty DataFrames to store the results
-        summary_ar_analysis = pd.DataFrame()
-        best_ar_order = pd.DataFrame()
-        for col in df.columns:
-            series = df[col].dropna()
-            # Check for stationarity using the Augmented Dickey-Fuller test
-            adf_test = adfuller(series)
-            if adf_test[1] > 0.05:
-                logger.warning(
-                    f"Warning: {col} is not stationary. Results may be inaccurate."
+    df = dataset.df
+    summary_ar_analysis = pd.DataFrame()
+    best_ar_order = pd.DataFrame()
+    for col in df.columns:
+        series = df[col].dropna()
+        # Check for stationarity using the Augmented Dickey-Fuller test
+        adf_test = adfuller(series)
+        if adf_test[1] > 0.05:
+            logger.warning(
+                f"Warning: {col} is not stationary. Results may be inaccurate."
+            )
+        for ar_order in range(0, max_ar_order + 1):
+            try:
+                model = AutoReg(series, lags=ar_order, old_names=False)
+                model_fit = model.fit()
+                # Append the result of each AR order directly into the DataFrame
+                summary_ar_analysis = pd.concat(
+                    [
+                        summary_ar_analysis,
+                        pd.DataFrame(
+                            [
+                                {
+                                    "Variable": col,
+                                    "AR Order": ar_order,
+                                    "BIC": model_fit.bic,
+                                    "AIC": model_fit.aic,
+                                }
+                            ]
+                        ),
+                    ],
+                    ignore_index=True,
                 )
-            for ar_order in range(0, max_ar_order + 1):
-                try:
-                    model = AutoReg(series, lags=ar_order, old_names=False)
-                    model_fit = model.fit()
-                    # Append the result of each AR order directly into the DataFrame
-                    summary_ar_analysis = pd.concat(
-                        [
-                            summary_ar_analysis,
-                            pd.DataFrame(
-                                [
-                                    {
-                                        "Variable": col,
-                                        "AR Order": ar_order,
-                                        "BIC": model_fit.bic,
-                                        "AIC": model_fit.aic,
-                                    }
-                                ]
-                            ),
-                        ],
-                        ignore_index=True,
-                    )
-                except Exception as e:
-                    logger.error(f"Error fitting AR({ar_order}) model for {col}: {e}")
-            # Find the best AR Order for this variable based on the minimum BIC
-            variable_summary = summary_ar_analysis[
-                summary_ar_analysis["Variable"] == col
-            ]
-            best_bic_row = variable_summary[
-                variable_summary["BIC"] == variable_summary["BIC"].min()
-            ]
-            best_ar_order = pd.concat([best_ar_order, best_bic_row])
-        # Convert the 'AR Order' column to integer
-        summary_ar_analysis["AR Order"] = summary_ar_analysis["AR Order"].astype(int)
-        best_ar_order["AR Order"] = best_ar_order["AR Order"].astype(int)
-        return self.cache_results(
-            {
-                "auto_ar_analysis": summary_ar_analysis.to_dict(orient="records"),
-                "best_ar_order": best_ar_order.to_dict(orient="records"),
-            }
-        )
-    def summary(self, metric_value):
-        """
-        Build one table for summarizing the auto AR results
-        and another for the best AR Order results
-        """
-        summary_ar_analysis = metric_value["auto_ar_analysis"]
-        best_ar_order = metric_value["best_ar_order"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=summary_ar_analysis,
-                    metadata=ResultTableMetadata(title="Auto AR Analysis Results"),
-                ),
-                ResultTable(
-                    data=best_ar_order,
-                    metadata=ResultTableMetadata(title="Best AR Order Results"),
-                ),
-            ]
-        )
+            except Exception as e:
+                logger.error(f"Error fitting AR({ar_order}) model for {col}: {e}")
+        # Find the best AR Order for this variable based on the minimum BIC
+        variable_summary = summary_ar_analysis[summary_ar_analysis["Variable"] == col]
+        best_bic_row = variable_summary[
+            variable_summary["BIC"] == variable_summary["BIC"].min()
+        ]
+        best_ar_order = pd.concat([best_ar_order, best_bic_row])
+    # Convert the 'AR Order' column to integer
+    summary_ar_analysis["AR Order"] = summary_ar_analysis["AR Order"].astype(int)
+    best_ar_order["AR Order"] = best_ar_order["AR Order"].astype(int)
+    return {
+        "Auto AR Analysis Results": summary_ar_analysis,
+        "Best AR Order Results": best_ar_order,
+    }

validmind/tests/data_validation/AutoMA.py CHANGED Viewed

@@ -6,13 +6,16 @@ import pandas as pd
 from statsmodels.tsa.arima.model import ARIMA
 from statsmodels.tsa.stattools import adfuller
+from validmind import tags, tasks
 from validmind.logging import get_logger
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind.vm_models import VMDataset
 logger = get_logger(__name__)
-class AutoMA(Metric):
+@tags("time_series_data", "statsmodels", "forecasting", "statistical_test")
+@tasks("regression")
+def AutoMA(dataset: VMDataset, max_ma_order: int = 3):
     """
     Automatically selects the optimal Moving Average (MA) order for each variable in a time series dataset based on
     minimal BIC and AIC values.
@@ -59,98 +62,58 @@ class AutoMA(Metric):
     - The computation time increases with the rise in `max_ma_order`, hence, the metric may become computationally
     costly for larger values.
     """
-    type = "dataset"
-    name = "auto_ma"
-    required_inputs = ["dataset"]
-    default_params = {"max_ma_order": 3}
-    tasks = ["regression"]
-    tags = ["time_series_data", "statsmodels", "forecasting", "statistical_test"]
-    def run(self):
-        if "max_ma_order" not in self.params:
-            raise ValueError("max_ma_order must be provided in params")
-        max_ma_order = int(self.params["max_ma_order"])
-        df = self.inputs.dataset.df
-        # Create empty DataFrames to store the results
-        summary_ma_analysis = pd.DataFrame()
-        best_ma_order = pd.DataFrame()
-        for col in df.columns:
-            series = df[col].dropna()
-            # Check for stationarity using the Augmented Dickey-Fuller test
-            adf_test = adfuller(series)
-            if adf_test[1] > 0.05:
-                logger.warning(
-                    f"Warning: {col} is not stationary. Results may be inaccurate."
+    df = dataset.df
+    summary_ma_analysis = pd.DataFrame()
+    best_ma_order = pd.DataFrame()
+    for col in df.columns:
+        series = df[col].dropna()
+        # Check for stationarity using the Augmented Dickey-Fuller test
+        adf_test = adfuller(series)
+        if adf_test[1] > 0.05:
+            logger.warning(
+                f"Warning: {col} is not stationary. Results may be inaccurate."
+            )
+        for ma_order in range(0, max_ma_order + 1):
+            try:
+                model = ARIMA(series, order=(0, 0, ma_order))
+                model_fit = model.fit()
+                # Append the result of each MA order directly into the DataFrame
+                summary_ma_analysis = pd.concat(
+                    [
+                        summary_ma_analysis,
+                        pd.DataFrame(
+                            [
+                                {
+                                    "Variable": col,
+                                    "MA Order": ma_order,
+                                    "BIC": model_fit.bic,
+                                    "AIC": model_fit.aic,
+                                }
+                            ]
+                        ),
+                    ],
+                    ignore_index=True,
                 )
-            for ma_order in range(0, max_ma_order + 1):
-                try:
-                    model = ARIMA(series, order=(0, 0, ma_order))
-                    model_fit = model.fit()
-                    # Append the result of each MA order directly into the DataFrame
-                    summary_ma_analysis = pd.concat(
-                        [
-                            summary_ma_analysis,
-                            pd.DataFrame(
-                                [
-                                    {
-                                        "Variable": col,
-                                        "MA Order": ma_order,
-                                        "BIC": model_fit.bic,
-                                        "AIC": model_fit.aic,
-                                    }
-                                ]
-                            ),
-                        ],
-                        ignore_index=True,
-                    )
-                except Exception as e:
-                    logger.error(f"Error fitting MA({ma_order}) model for {col}: {e}")
-            # Find the best MA Order for this variable based on the minimum BIC
-            variable_summary = summary_ma_analysis[
-                summary_ma_analysis["Variable"] == col
-            ]
-            best_bic_row = variable_summary[
-                variable_summary["BIC"] == variable_summary["BIC"].min()
-            ]
-            best_ma_order = pd.concat([best_ma_order, best_bic_row])
-        # Convert the 'MA Order' column to integer
-        summary_ma_analysis["MA Order"] = summary_ma_analysis["MA Order"].astype(int)
-        best_ma_order["MA Order"] = best_ma_order["MA Order"].astype(int)
-        return self.cache_results(
-            {
-                "auto_ma_analysis": summary_ma_analysis.to_dict(orient="records"),
-                "best_ma_order": best_ma_order.to_dict(orient="records"),
-            }
-        )
-    def summary(self, metric_value):
-        """
-        Build one table for summarizing the auto MA results
-        and another for the best MA Order results
-        """
-        summary_ma_analysis = metric_value["auto_ma_analysis"]
-        best_ma_order = metric_value["best_ma_order"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=summary_ma_analysis,
-                    metadata=ResultTableMetadata(title="Auto MA Analysis Results"),
-                ),
-                ResultTable(
-                    data=best_ma_order,
-                    metadata=ResultTableMetadata(title="Best MA Order Results"),
-                ),
-            ]
-        )
+            except Exception as e:
+                logger.error(f"Error fitting MA({ma_order}) model for {col}: {e}")
+        # Find the best MA Order for this variable based on the minimum BIC
+        variable_summary = summary_ma_analysis[summary_ma_analysis["Variable"] == col]
+        best_bic_row = variable_summary[
+            variable_summary["BIC"] == variable_summary["BIC"].min()
+        ]
+        best_ma_order = pd.concat([best_ma_order, best_bic_row])
+    # Convert the 'MA Order' column to integer
+    summary_ma_analysis["MA Order"] = summary_ma_analysis["MA Order"].astype(int)
+    best_ma_order["MA Order"] = best_ma_order["MA Order"].astype(int)
+    return {
+        "Auto MA Analysis Results": summary_ma_analysis,
+        "Best MA Order Results": best_ma_order,
+    }

validmind/tests/data_validation/AutoStationarity.py CHANGED Viewed

@@ -6,10 +6,13 @@ import numpy as np
 import pandas as pd
 from statsmodels.tsa.stattools import adfuller
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-class AutoStationarity(Metric):
+@tags("time_series_data", "statsmodels", "forecasting", "statistical_test")
+@tasks("regression")
+def AutoStationarity(dataset: VMDataset, max_order: int = 5, threshold: float = 0.05):
     """
     Automates Augmented Dickey-Fuller test to assess stationarity across multiple time series in a DataFrame.
@@ -54,65 +57,62 @@ class AutoStationarity(Metric):
     - There's also a risk of over-differencing if the maximum order is set too high, which could induce unnecessary
     cycles.
     """
+    df = dataset.df.dropna()
-    type = "dataset"
-    name = "auto_stationarity"
-    required_inputs = ["dataset"]
-    default_params = {"max_order": 5, "threshold": 0.05}
-    tasks = ["regression"]
-    tags = [
-        "time_series_data",
-        "statsmodels",
-        "forecasting",
-        "statistical_test",
-        "stationarity",
-    ]
-    def run(self):
-        if "max_order" not in self.params:
-            raise ValueError("max_order must be provided in params")
-        max_order = self.params["max_order"]
-        if "threshold" not in self.params:
-            raise ValueError("threshold must be provided in params")
-        threshold = self.params["threshold"]
-        df = self.inputs.dataset.df.dropna()
-        # Create an empty DataFrame to store the results
-        summary_stationarity = pd.DataFrame()
-        best_integration_order = pd.DataFrame()  # New DataFrame
-        # Loop over each column in the input DataFrame and perform stationarity tests
-        for col in df.columns:
-            is_stationary = False
-            order = 0
-            while not is_stationary and order <= max_order:
-                series = df[col]
-                if order == 0:
-                    adf_result = adfuller(series)
-                else:
-                    adf_result = adfuller(np.diff(series, n=order - 1))
-                adf_pvalue = adf_result[1]
-                adf_pass_fail = adf_pvalue < threshold
-                adf_decision = "Stationary" if adf_pass_fail else "Non-stationary"
-                # Append the result of each test directly into the DataFrame
-                summary_stationarity = pd.concat(
+    summary_stationarity = pd.DataFrame()
+    best_integration_order = pd.DataFrame()
+    # Loop over each column in the input DataFrame and perform stationarity tests
+    for col in df.columns:
+        is_stationary = False
+        order = 0
+        while not is_stationary and order <= max_order:
+            series = df[col]
+            if order == 0:
+                adf_result = adfuller(series)
+            else:
+                adf_result = adfuller(np.diff(series, n=order))
+            adf_pvalue = adf_result[1]
+            adf_pass_fail = adf_pvalue < threshold
+            adf_decision = "Stationary" if adf_pass_fail else "Non-stationary"
+            # Append the result of each test directly into the DataFrame
+            summary_stationarity = pd.concat(
+                [
+                    summary_stationarity,
+                    pd.DataFrame(
+                        [
+                            {
+                                "Variable": col,
+                                "Integration Order": order,
+                                "Test": "ADF",
+                                "p-value": adf_pvalue,
+                                "Threshold": threshold,
+                                "Pass/Fail": "Pass" if adf_pass_fail else "Fail",
+                                "Decision": adf_decision,
+                            }
+                        ]
+                    ),
+                ],
+                ignore_index=True,
+            )
+            if adf_pass_fail:
+                is_stationary = True
+                best_integration_order = pd.concat(
                     [
-                        summary_stationarity,
+                        best_integration_order,
                         pd.DataFrame(
                             [
                                 {
                                     "Variable": col,
-                                    "Integration Order": order,
+                                    "Best Integration Order": order,
                                     "Test": "ADF",
                                     "p-value": adf_pvalue,
                                     "Threshold": threshold,
-                                    "Pass/Fail": "Pass" if adf_pass_fail else "Fail",
                                     "Decision": adf_decision,
                                 }
                             ]
@@ -121,65 +121,17 @@ class AutoStationarity(Metric):
                     ignore_index=True,
                 )
-                if adf_pass_fail:
-                    is_stationary = True
-                    best_integration_order = pd.concat(
-                        [
-                            best_integration_order,
-                            pd.DataFrame(
-                                [
-                                    {
-                                        "Variable": col,
-                                        "Best Integration Order": order,
-                                        "Test": "ADF",
-                                        "p-value": adf_pvalue,
-                                        "Threshold": threshold,
-                                        "Decision": adf_decision,
-                                    }
-                                ]
-                            ),
-                        ],
-                        ignore_index=True,
-                    )
-                order += 1
-        # Convert the 'Integration Order' and 'Best Integration Order' column to integer
-        summary_stationarity["Integration Order"] = summary_stationarity[
-            "Integration Order"
-        ].astype(int)
-        best_integration_order["Best Integration Order"] = best_integration_order[
-            "Best Integration Order"
-        ].astype(int)
-        return self.cache_results(
-            {
-                "stationarity_analysis": summary_stationarity.to_dict(orient="records"),
-                "best_integration_order": best_integration_order.to_dict(
-                    orient="records"
-                ),
-            }
-        )
-    def summary(self, metric_value):
-        """
-        Build one table for summarizing the stationarity results
-        and another for the best integration order results
-        """
-        summary_stationarity = metric_value["stationarity_analysis"]
-        best_integration_order = metric_value["best_integration_order"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=summary_stationarity,
-                    metadata=ResultTableMetadata(title="Stationarity Analysis Results"),
-                ),
-                ResultTable(
-                    data=best_integration_order,
-                    metadata=ResultTableMetadata(
-                        title="Best Integration Order Results"
-                    ),
-                ),
-            ]
-        )
+            order += 1
+    # Convert the 'Integration Order' and 'Best Integration Order' column to integer
+    summary_stationarity["Integration Order"] = summary_stationarity[
+        "Integration Order"
+    ].astype(int)
+    best_integration_order["Best Integration Order"] = best_integration_order[
+        "Best Integration Order"
+    ].astype(int)
+    return {
+        "Stationarity Analysis Results": summary_stationarity,
+        "Best Integration Order Results": best_integration_order,
+    }

validmind 2.5.24__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.24py3-none-any.whl → 2.6.7py3-none-any.whl