PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.8.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/IQROutliersTable.py CHANGED Viewed

@@ -2,15 +2,23 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-import pandas as pd
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+def compute_outliers(series, threshold=1.5):
+    Q1 = series.quantile(0.25)
+    Q3 = series.quantile(0.75)
+    IQR = Q3 - Q1
+    lower_bound = Q1 - threshold * IQR
+    upper_bound = Q3 + threshold * IQR
+    return series[(series < lower_bound) | (series > upper_bound)]
-@dataclass
-class IQROutliersTable(Metric):
+@tags("tabular_data", "numerical_data")
+@tasks("classification", "regression")
+def IQROutliersTable(dataset: VMDataset, threshold: float = 1.5):
     """
     Determines and summarizes outliers in numerical features using the Interquartile Range method.
@@ -53,80 +61,32 @@ class IQROutliersTable(Metric):
     - Default thresholds may not be optimal for data with heavy pre-processing, manipulation, or inherently high
     kurtosis (heavy tails).
     """
-    name = "iqr_outliers_table"
-    required_inputs = ["dataset"]
-    default_params = {"threshold": 1.5}
-    tasks = ["classification", "regression"]
-    tags = ["tabular_data", "numerical_data"]
-    def run(self):
-        # Select numerical features
-        features = self.inputs.dataset.feature_columns_numeric
-        # Select non-binary features
-        features = [
-            feature
-            for feature in features
-            if len(self.inputs.dataset.df[feature].unique()) > 2
-        ]
-        threshold = self.params["threshold"]
-        df = self.inputs.dataset.df
-        outliers_summary_table = self.detect_and_analyze_outliers(
-            df, features, threshold
+    df = dataset.df
+    outliers_table = []
+    for col in dataset.feature_columns_numeric:
+        # Skip binary features
+        if len(df[col].unique()) <= 2:
+            continue
+        outliers = compute_outliers(df[col], threshold)
+        if outliers.empty:
+            continue
+        outliers_table.append(
+            {
+                "Variable": col,
+                "Total Count of Outliers": outliers.count(),
+                "Mean Value of Variable": df[col].mean(),
+                "Minimum Outlier Value": outliers.min(),
+                "Outlier Value at 25th Percentile": outliers.quantile(0.25),
+                "Outlier Value at 50th Percentile": outliers.median(),
+                "Outlier Value at 75th Percentile": outliers.quantile(0.75),
+                "Maximum Outlier Value": outliers.max(),
+            }
         )
-        return self.cache_results(
-            {"outliers_summary_table": outliers_summary_table.to_dict(orient="records")}
-        )
-    @staticmethod
-    def compute_outliers(series, threshold=1.5):
-        Q1 = series.quantile(0.25)
-        Q3 = series.quantile(0.75)
-        IQR = Q3 - Q1
-        lower_bound = Q1 - threshold * IQR
-        upper_bound = Q3 + threshold * IQR
-        return series[(series < lower_bound) | (series > upper_bound)]
-    def detect_and_analyze_outliers(self, df, features, threshold=1.5):
-        outliers_summary = []
-        for feature in features:
-            outliers_series = self.compute_outliers(df[feature], threshold)
-            if not outliers_series.empty:
-                outliers_summary.append(
-                    {
-                        "Variable": feature,
-                        "Total Count of Outliers": outliers_series.count(),
-                        "Mean Value of Variable": df[feature].mean(),
-                        "Minimum Outlier Value": outliers_series.min(),
-                        "Outlier Value at 25th Percentile": outliers_series.quantile(
-                            0.25
-                        ),
-                        "Outlier Value at 50th Percentile": outliers_series.median(),
-                        "Outlier Value at 75th Percentile": outliers_series.quantile(
-                            0.75
-                        ),
-                        "Maximum Outlier Value": outliers_series.max(),
-                    }
-                )
-        outliers_summary_table = pd.DataFrame(outliers_summary)
-        return outliers_summary_table
-    def summary(self, metric_value):
-        outliers_summary_table = pd.DataFrame(metric_value["outliers_summary_table"])
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=outliers_summary_table,
-                    metadata=ResultTableMetadata(
-                        title="Summary of Outliers Detected by IQR Method"
-                    ),
-                ),
-            ]
-        )
+    return {
+        "Summary of Outliers Detected by IQR Method": outliers_table,
+    }

validmind/tests/data_validation/IsolationForestOutliers.py CHANGED Viewed

@@ -3,17 +3,23 @@
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
 import itertools
-from dataclasses import dataclass
 import matplotlib.pyplot as plt
 import seaborn as sns
 from sklearn.ensemble import IsolationForest
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-@dataclass
-class IsolationForestOutliers(Metric):
+@tags("tabular_data", "anomaly_detection")
+@tasks("classification")
+def IsolationForestOutliers(
+    dataset: VMDataset,
+    random_state: int = 0,
+    contamination: float = 0.1,
+    feature_columns: list = None,
+):
     """
     Detects outliers in a dataset using the Isolation Forest algorithm and visualizes results through scatter plots.
@@ -55,64 +61,36 @@ class IsolationForestOutliers(Metric):
     - Potential failure in detecting collective anomalies if they behave similarly to normal data
     - Potential lack of precision in identifying which features contribute most to the anomalous behavior
     """
-    name = "isolation_forest"
-    default_params = {
-        "random_state": 0,
-        "contamination": 0.1,
-        "features_columns": None,
-    }
-    tasks = ["classification"]
-    tags = ["tabular_data", "anomaly_detection"]
-    required_inputs = ["dataset"]
-    def run(self):
-        if self.params["features_columns"] is None:
-            features_list = self.inputs.dataset.feature_columns_numeric
-        else:
-            features_list = self.params["features_columns"]
-        # Check if all elements from features_list are present in the feature columns
-        all_present = all(
-            elem in self.inputs.dataset.feature_columns for elem in features_list
+    if feature_columns and not all(elem in dataset.columns for elem in feature_columns):
+        raise ValueError(
+            "The list of feature columns provided do not match with training dataset feature columns"
         )
-        if not all_present:
-            raise ValueError(
-                "The list of feature columns provided do not match with "
-                + "training dataset feature columns"
-            )
-        dataset = self.inputs.dataset.df[features_list]
-        # Training with isolation forest algorithm
-        clf = IsolationForest(
-            random_state=self.params["random_state"],
-            contamination=self.params["contamination"],
+    feature_columns = feature_columns or dataset.feature_columns_numeric
+    df = dataset.df[feature_columns]
+    clf = IsolationForest(
+        random_state=random_state,
+        contamination=contamination,
+    )
+    clf.fit(df)
+    y_pred = clf.predict(df)
+    figures = []
+    for feature1, feature2 in itertools.combinations(feature_columns, 2):
+        fig = plt.figure()
+        ax = sns.scatterplot(
+            data=df, x=feature1, y=feature2, hue=y_pred, palette="bright"
         )
-        clf.fit(dataset)
-        y_pred = clf.predict(dataset)
-        test_figures = []
-        combination_pairs = list(itertools.combinations(features_list, 2))
-        for feature1, feature2 in combination_pairs:
-            fig = plt.figure()
-            ax = sns.scatterplot(
-                data=dataset, x=feature1, y=feature2, hue=y_pred, palette="bright"
-            )
-            handles, labels = ax.get_legend_handles_labels()
-            labels = list(map(lambda x: x.replace("-1", "Outliers"), labels))
-            labels = list(map(lambda x: x.replace("1", "Inliers"), labels))
-            ax.legend(handles, labels)
-            # Do this if you want to prevent the figure from being displayed
-            plt.close("all")
-            test_figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.name}:{feature1}_{feature2}",
-                    figure=fig,
-                )
-            )
-        return self.cache_results(figures=test_figures)
+        handles, labels = ax.get_legend_handles_labels()
+        labels = list(map(lambda x: x.replace("-1", "Outliers"), labels))
+        labels = list(map(lambda x: x.replace("1", "Inliers"), labels))
+        ax.legend(handles, labels)
+        figures.append(fig)
+        plt.close()
+    return tuple(figures)

validmind/tests/data_validation/KPSS.py CHANGED Viewed

@@ -2,19 +2,20 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import pandas as pd
 from statsmodels.tsa.stattools import kpss
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
 from validmind.logging import get_logger
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind.vm_models import VMDataset
 logger = get_logger(__name__)
-@dataclass
-class KPSS(Metric):
+@tags("time_series_data", "stationarity", "unit_root_test", "statsmodels")
+@tasks("data_validation")
+def KPSS(dataset: VMDataset):
     """
     Assesses the stationarity of time-series data in a machine learning model using the KPSS unit root test.
@@ -53,81 +54,32 @@ class KPSS(Metric):
     - The reliability of the test is contingent on the number of lags selected, which introduces potential bias in the
     measurement.
     """
+    df = dataset.df.dropna()
-    name = "kpss"
-    required_inputs = ["dataset"]
-    tasks = ["regression"]
-    tags = [
-        "time_series_data",
-        "forecasting",
-        "stationarity",
-        "unit_root_test",
-        "statsmodels",
-    ]
-    def run(self):
-        """
-        Calculates KPSS for each of the dataset features
-        """
-        dataset = self.inputs.dataset.df
-        # Check if the dataset is a time series
-        if not isinstance(dataset.index, (pd.DatetimeIndex, pd.PeriodIndex)):
-            raise ValueError(
-                "Dataset index must be a datetime or period index for time series analysis."
-            )
-        # Preprocessing: Drop rows with any NaN values
-        if dataset.isnull().values.any():
-            logger.warning(
-                "Dataset contains missing values. Rows with NaNs will be dropped."
-            )
-            dataset = dataset.dropna()
-        # Convert to numeric and handle non-numeric data
-        dataset = dataset.apply(pd.to_numeric, errors="coerce")
-        # Initialize a list to store KPSS results
-        kpss_values = []
-        for col in dataset.columns:
-            try:
-                kpss_stat, pvalue, usedlag, critical_values = kpss(dataset[col].values)
-                kpss_values.append(
-                    {
-                        "Variable": col,
-                        "stat": kpss_stat,
-                        "pvalue": pvalue,
-                        "usedlag": usedlag,
-                        "critical_values": critical_values,
-                    }
-                )
-            except Exception as e:
-                logger.error(f"Error processing column '{col}': {e}")
-                kpss_values.append(
-                    {
-                        "Variable": col,
-                        "stat": None,
-                        "pvalue": None,
-                        "usedlag": None,
-                        "critical_values": None,
-                        "error": str(e),
-                    }
-                )
-        return self.cache_results({"kpss_results": kpss_values})
-    def summary(self, metric_value):
-        """
-        Build a table for summarizing the KPSS results
-        """
-        kpss_results = metric_value["kpss_results"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=kpss_results,
-                    metadata=ResultTableMetadata(title="KPSS Test Results"),
-                )
-            ]
+    if not isinstance(df.index, (pd.DatetimeIndex, pd.PeriodIndex)):
+        raise SkipTestError(
+            "Dataset index must be a datetime or period index for time series analysis."
         )
+    df = df.apply(pd.to_numeric, errors="coerce")
+    kpss_table = []
+    for col in dataset.columns:
+        kpss_stat, pvalue, usedlag, critical_values = kpss(df[col].values)
+        kpss_table.append(
+            {
+                "Variable": col,
+                "stat": kpss_stat,
+                "pvalue": pvalue,
+                "usedlag": usedlag,
+                "critical_values": critical_values,
+            }
+        )
+    if not kpss_table:
+        raise SkipTestError(f"No KPSS results found for dataset: {dataset.input_id}")
+    return {
+        "KPSS Test Results": kpss_table,
+    }

validmind/tests/data_validation/LaggedCorrelationHeatmap.py CHANGED Viewed

@@ -6,13 +6,16 @@ import numpy as np
 import pandas as pd
 import plotly.figure_factory as ff
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
 # Define the 'coolwarm' color scale manually
 COOLWARM = [[0, "rgb(95,5,255)"], [0.5, "rgb(255,255,255)"], [1, "rgb(255,5,0)"]]
-class LaggedCorrelationHeatmap(Metric):
+@tags("time_series_data", "visualization")
+@tasks("regression")
+def LaggedCorrelationHeatmap(dataset: VMDataset, num_lags: int = 10):
     """
     Assesses and visualizes correlation between target variable and lagged independent variables in a time-series
     dataset.
@@ -55,98 +58,47 @@ class LaggedCorrelationHeatmap(Metric):
     to interpret, while too few might overlook delayed effects.
     - This metric does not take into account any causal relationships, but merely demonstrates correlation.
     """
-    name = "lagged_correlation_heatmap"
-    required_inputs = ["dataset"]
-    tasks = ["regression"]
-    tags = ["time_series_data", "visualization"]
-    def _compute_correlations(self, df, target_col, independent_vars, num_lags):
-        correlations = np.zeros((len(independent_vars), num_lags + 1))
-        for i, ind_var_col in enumerate(independent_vars):
-            for lag in range(num_lags + 1):
-                temp_df = pd.DataFrame(
-                    {
-                        target_col: df[target_col],
-                        f"{ind_var_col}_lag{lag}": df[ind_var_col].shift(lag),
-                    }
-                )
-                temp_df = temp_df.dropna()
-                corr = temp_df[target_col].corr(temp_df[f"{ind_var_col}_lag{lag}"])
-                correlations[i, lag] = corr
-        return correlations
-    def _plot_heatmap(self, correlations, independent_vars, target_col, num_lags):
-        correlation_df = pd.DataFrame(
-            correlations,
-            columns=[f"{i}" for i in range(num_lags + 1)],
-            index=independent_vars,
-        )
-        # Create heatmap using Plotly
-        fig = ff.create_annotated_heatmap(
-            z=correlation_df.values,
-            x=list(correlation_df.columns),
-            y=list(correlation_df.index),
-            colorscale=COOLWARM,
-            annotation_text=correlation_df.round(2).values,
-            showscale=True,
-        )
-        fig.update_layout(
-            title={
-                "text": f"Correlations between {target_col} and Lags of Features",
-                "y": 0.95,
-                "x": 0.5,
-                "xanchor": "center",
-                "yanchor": "top",
-            },
-            font=dict(size=14),
-            xaxis_title="Lags",
-        )
-        return fig
-    def run(self):
-        if isinstance(self.inputs.dataset.target_column, list):
-            target_col = self.inputs.dataset.target_column[
-                0
-            ]  # take the first item from the list
-        else:
-            target_col = self.inputs.dataset.target_column
-        independent_vars = list(self.inputs.dataset.feature_columns)
-        num_lags = self.params.get("num_lags", 10)
-        if isinstance(target_col, list) and len(target_col) == 1:
-            target_col = target_col[0]
-        if not isinstance(target_col, str):
-            raise ValueError(
-                "The 'target_col' must be a single string or a list containing a single string"
-            )
-        df = self.inputs.dataset.df
-        correlations = self._compute_correlations(
-            df, target_col, independent_vars, num_lags
-        )
-        fig = self._plot_heatmap(correlations, independent_vars, target_col, num_lags)
-        figures = []
-        figures.append(
-            Figure(
-                for_object=self,
-                key=self.key,
-                figure=fig,
+    correlations = np.zeros((len(dataset.feature_columns), num_lags + 1))
+    for i, ind_var_col in enumerate(dataset.feature_columns):
+        for lag in range(num_lags + 1):
+            temp_df = pd.DataFrame(
+                {
+                    dataset.target_column: dataset.df[dataset.target_column],
+                    f"{ind_var_col}_lag{lag}": dataset.df[ind_var_col].shift(lag),
+                }
+            ).dropna()
+            corr = temp_df[dataset.target_column].corr(
+                temp_df[f"{ind_var_col}_lag{lag}"]
             )
-        )
-        return self.cache_results(
-            figures=figures,
-        )
+            correlations[i, lag] = corr
+    correlation_df = pd.DataFrame(
+        correlations,
+        columns=[f"{i}" for i in range(num_lags + 1)],
+        index=dataset.feature_columns,
+    )
+    fig = ff.create_annotated_heatmap(
+        z=correlation_df.values,
+        x=list(correlation_df.columns),
+        y=list(correlation_df.index),
+        colorscale=COOLWARM,
+        annotation_text=correlation_df.round(2).values,
+        showscale=True,
+    )
+    fig.update_layout(
+        title={
+            "text": f"Correlations between {dataset.target_column} and Lags of Features",
+            "y": 0.95,
+            "x": 0.5,
+            "xanchor": "center",
+            "yanchor": "top",
+        },
+        font=dict(size=14),
+        xaxis_title="Lags",
+    )
+    return fig

validmind/tests/data_validation/MissingValues.py CHANGED Viewed

@@ -2,20 +2,13 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
-from typing import List
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-from validmind.vm_models import (
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
-@dataclass
-class MissingValues(ThresholdTest):
+@tags("tabular_data", "data_quality")
+@tasks("classification", "regression")
+def MissingValues(dataset: VMDataset, min_threshold: int = 1):
     """
     Evaluates dataset quality by ensuring missing value ratio across all features does not exceed a set threshold.
@@ -53,49 +46,15 @@ class MissingValues(ThresholdTest):
     - Does not account for data encoded as values like "-999" or "None," which might not technically classify as
     missing but could bear similar implications.
     """
-    name = "missing"
-    required_inputs = ["dataset"]
-    default_params = {"min_threshold": 1}
-    tasks = ["classification", "regression"]
-    tags = ["tabular_data", "data_quality"]
-    def summary(self, results: List[ThresholdTestResult], all_passed: bool):
-        """
-        The missing values test returns results like these:
-        [{"values": {"n_missing": 0, "p_missing": 0.0}, "column": "Exited", "passed": true}]
-        """
-        results_table = [
-            {
-                "Column": result.column,
-                "Number of Missing Values": result.values["n_missing"],
-                "Percentage of Missing Values (%)": result.values["p_missing"] * 100,
-                "Pass/Fail": "Pass" if result.passed else "Fail",
-            }
-            for result in results
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(
-                        title="Missing Values Results for Dataset"
-                    ),
-                )
-            ]
-        )
-    def run(self):
-        rows = self.inputs.dataset.df.shape[0]
-        missing = self.inputs.dataset.df.isna().sum()
-        results = [
-            ThresholdTestResult(
-                column=col,
-                passed=missing[col] < self.params["min_threshold"],
-                values={"n_missing": missing[col], "p_missing": missing[col] / rows},
-            )
-            for col in missing.index
-        ]
-        return self.cache_results(results, passed=all([r.passed for r in results]))
+    df = dataset.df
+    missing = df.isna().sum()
+    return [
+        {
+            "Column": col,
+            "Number of Missing Values": missing[col],
+            "Percentage of Missing Values (%)": missing[col] / df.shape[0] * 100,
+            "Pass/Fail": "Pass" if missing[col] < min_threshold else "Fail",
+        }
+        for col in missing.index
+    ], all(missing[col] < min_threshold for col in missing.index)

validmind 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl