PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.8.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/EngleGrangerCoint.py CHANGED Viewed

@@ -5,10 +5,14 @@
 import pandas as pd
 from statsmodels.tsa.stattools import coint
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-class EngleGrangerCoint(Metric):
+@tags("time_series_data", "statistical_test", "forecasting")
+@tasks("regression")
+def EngleGrangerCoint(dataset: VMDataset, threshold: float = 0.05):
     """
     Assesses the degree of co-movement between pairs of time series data using the Engle-Granger cointegration test.
@@ -48,80 +52,54 @@ class EngleGrangerCoint(Metric):
     - May not perform well for small sample sizes due to lack of statistical power and should be supplemented with
     other predictive indicators for a more robust model evaluation.
     """
+    df = dataset.df
-    type = "dataset"
-    name = "engle_granger_coint"
-    required_inputs = ["dataset"]
-    default_params = {"threshold": 0.05}
-    tasks = ["regression"]
-    tags = ["time_series_data", "statistical_test", "forecasting"]
-    def run(self):
-        threshold = self.params["threshold"]
-        df = self.inputs.dataset.df.dropna()
-        # Create an empty DataFrame to store the results
-        summary_cointegration = pd.DataFrame()
-        columns = df.columns
-        num_vars = len(columns)
-        for i in range(num_vars):
-            for j in range(i + 1, num_vars):
-                var1 = columns[i]
-                var2 = columns[j]
-                # Perform the Engle-Granger cointegration test
-                _, p_value, _ = coint(df[var1], df[var2])
-                # Determine the decision based on the p-value and the significance level
-                decision = (
-                    "Cointegrated" if p_value <= threshold else "Not cointegrated"
-                )
-                pass_fail = "Pass" if p_value <= threshold else "Fail"
-                # Append the result of each test directly into the DataFrame
-                summary_cointegration = pd.concat(
-                    [
-                        summary_cointegration,
-                        pd.DataFrame(
-                            [
-                                {
-                                    "Variable 1": var1,
-                                    "Variable 2": var2,
-                                    "Test": "Engle-Granger",
-                                    "p-value": p_value,
-                                    "Threshold": threshold,
-                                    "Pass/Fail": pass_fail,
-                                    "Decision": decision,
-                                }
-                            ]
-                        ),
-                    ],
-                    ignore_index=True,
-                )
-        return self.cache_results(
-            {
-                "cointegration_analysis": summary_cointegration.to_dict(
-                    orient="records"
-                ),
-            }
+    # Validate that the index is datetime
+    if not isinstance(df.index, (pd.DatetimeIndex, pd.PeriodIndex)):
+        raise SkipTestError(
+            "Dataset index must be a datetime or period index for cointegration analysis."
         )
-    def summary(self, metric_value):
-        """
-        Build one table for summarizing the cointegration results
-        """
-        summary_cointegration = metric_value["cointegration_analysis"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=summary_cointegration,
-                    metadata=ResultTableMetadata(
-                        title="Cointegration Analysis Results"
+    df = dataset.df.dropna()
+    summary_cointegration = pd.DataFrame()
+    columns = df.columns
+    num_vars = len(columns)
+    for i in range(num_vars):
+        for j in range(i + 1, num_vars):
+            var1 = columns[i]
+            var2 = columns[j]
+            # Perform the Engle-Granger cointegration test
+            _, p_value, _ = coint(df[var1], df[var2])
+            # Determine the decision based on the p-value and the significance level
+            decision = "Cointegrated" if p_value <= threshold else "Not cointegrated"
+            pass_fail = "Pass" if p_value <= threshold else "Fail"
+            # Append the result of each test directly into the DataFrame
+            summary_cointegration = pd.concat(
+                [
+                    summary_cointegration,
+                    pd.DataFrame(
+                        [
+                            {
+                                "Variable 1": var1,
+                                "Variable 2": var2,
+                                "Test": "Engle-Granger",
+                                "p-value": p_value,
+                                "Threshold": threshold,
+                                "Pass/Fail": pass_fail,
+                                "Decision": decision,
+                            }
+                        ]
                     ),
-                ),
-            ]
-        )
+                ],
+                ignore_index=True,
+            )
+    return {
+        "Cointegration Analysis Results": summary_cointegration,
+    }

validmind/tests/data_validation/HighCardinality.py CHANGED Viewed

@@ -2,23 +2,18 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
-from typing import List
-from ydata_profiling.config import Settings
-from ydata_profiling.model.typeset import ProfilingTypeSet
-from validmind.vm_models import (
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
-@dataclass
-class HighCardinality(ThresholdTest):
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
+@tags("tabular_data", "data_quality", "categorical_data")
+@tasks("classification", "regression")
+def HighCardinality(
+    dataset: VMDataset,
+    num_threshold: int = 100,
+    percent_threshold: float = 0.1,
+    threshold_type: str = "percent",
+):
     """
     Assesses the number of unique values in categorical columns to detect high cardinality and potential overfitting.
@@ -56,72 +51,29 @@ class HighCardinality(ThresholdTest):
     - The threshold (both number and percent) used for the test is static and may not be optimal for diverse datasets
     and varied applications. Further mechanisms to adjust and refine this threshold could enhance its effectiveness.
     """
+    df = dataset.df
-    name = "cardinality"
-    required_inputs = ["dataset"]
-    default_params = {
-        "num_threshold": 100,
-        "percent_threshold": 0.1,
-        "threshold_type": "percent",  # or "num"
-    }
-    tasks = ["classification", "regression"]
-    tags = ["tabular_data", "data_quality", "categorical_data"]
-    def summary(self, results: List[ThresholdTestResult], all_passed: bool):
-        """
-        The high cardinality test returns results like these:
-        [{"values": {"n_distinct": 0, "p_distinct": 0.0}, "column": "Exited", "passed": true}]
-        """
-        results_table = [
-            {
-                "Column": result.column,
-                "Number of Distinct Values": result.values["n_distinct"],
-                "Percentage of Distinct Values (%)": result.values["p_distinct"] * 100,
-                "Pass/Fail": "Pass" if result.passed else "Fail",
-            }
-            for result in results
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(
-                        title="High Cardinality Results for Dataset"
-                    ),
-                )
-            ]
-        )
+    if threshold_type == "percent":
+        num_threshold = int(percent_threshold * df.shape[0])
-    def run(self):
-        typeset = ProfilingTypeSet(Settings())
-        dataset_types = typeset.infer_type(self.inputs.dataset.df)
+    table = []
+    all_passed = True
-        results = []
-        rows = self.inputs.dataset.df.shape[0]
+    for col in dataset.feature_columns_categorical:
+        n_distinct = df[col].nunique()
+        p_distinct = n_distinct / df.shape[0]
+        passed = n_distinct < num_threshold
-        num_threshold = self.params["num_threshold"]
-        if self.params["threshold_type"] == "percent":
-            num_threshold = int(self.params["percent_threshold"] * rows)
-        for col in self.inputs.dataset.df.columns:
-            # Only calculate high cardinality for categorical columns
-            if str(dataset_types[col]) != "Categorical":
-                continue
-            n_distinct = self.inputs.dataset.df[col].nunique()
-            p_distinct = n_distinct / rows
-            passed = n_distinct < num_threshold
+        table.append(
+            {
+                "Column": col,
+                "Number of Distinct Values": n_distinct,
+                "Percentage of Distinct Values (%)": p_distinct * 100,
+                "Pass/Fail": "Pass" if passed else "Fail",
+            }
+        )
-            results.append(
-                ThresholdTestResult(
-                    column=col,
-                    passed=passed,
-                    values={
-                        "n_distinct": n_distinct,
-                        "p_distinct": p_distinct,
-                    },
-                )
-            )
+        if not passed:
+            all_passed = False
-        return self.cache_results(results, passed=all([r.passed for r in results]))
+    return table, all_passed

validmind/tests/data_validation/HighPearsonCorrelation.py CHANGED Viewed

@@ -2,23 +2,15 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
-from typing import List
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-import numpy as np
-import pandas as pd
-from validmind.vm_models import (
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
-@dataclass
-class HighPearsonCorrelation(ThresholdTest):
+@tags("tabular_data", "data_quality", "correlation")
+@tasks("classification", "regression")
+def HighPearsonCorrelation(
+    dataset: VMDataset, max_threshold: float = 0.3, top_n_correlations: int = 10
+):
     """
     Identifies highly correlated feature pairs in a dataset suggesting feature redundancy or multicollinearity.
@@ -33,8 +25,9 @@ class HighPearsonCorrelation(ThresholdTest):
     The test works by generating pairwise Pearson correlations for all features in the dataset, then sorting and
     eliminating duplicate and self-correlations. It assigns a Pass or Fail based on whether the absolute value of the
-    correlation coefficient surpasses a pre-set threshold (defaulted at 0.3). It lastly returns the top ten strongest
-    correlations regardless of passing or failing status.
+    correlation coefficient surpasses a pre-set threshold (defaulted at 0.3). It lastly returns the top n strongest
+    correlations regardless of passing or failing status (where n is 10 by default but can be configured by passing the
+    `top_n_correlations` parameter).
     ### Signs of High Risk
@@ -57,86 +50,25 @@ class HighPearsonCorrelation(ThresholdTest):
     - Sensitive to outliers where a few outliers could notably affect the correlation coefficient.
     - Limited to identifying redundancy only within feature pairs; may fail to spot more complex relationships among
     three or more variables.
-    - The top 10 result filter might not fully capture the richness of the data; an option to configure the number of
-    retained results could be helpful.
     """
-    name = "pearson_correlation"
-    required_inputs = ["dataset"]
-    default_params = {"max_threshold": 0.3}
-    tasks = ["classification", "regression"]
-    tags = ["tabular_data", "data_quality", "correlation"]
-    def summary(self, results: List[ThresholdTestResult], all_passed: bool):
-        """The high pearson correlation test returns results like these:
-        [
-            {
-                "values": {
-                    "correlations": [
-                        {"column": "NumOfProducts", "correlation": -0.3044645622389459}
-                    ]
-                },
-                "column": "Balance",
-                "passed": false,
-            }
-        ]
-        """
-        results_table = [
-            {
-                "Columns": f'({result.column}, {result.values["correlations"][0]["column"]})',
-                "Coefficient": result.values["correlations"][0]["correlation"],
-                "Pass/Fail": "Pass" if result.passed else "Fail",
-            }
-            for result in results
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(
-                        title="High Pearson Correlation Results for Dataset"
-                    ),
-                )
-            ]
-        )
-    def run(self):
-        corr = self.inputs.dataset.df.corr(numeric_only=True)
-        # Create a table of correlation coefficients and column pairs
-        corr_table = corr.unstack().sort_values(
-            kind="quicksort", key=abs, ascending=False
-        )
-        corr_df = pd.DataFrame(corr_table).reset_index()
-        corr_df.columns = ["Column1", "Column2", "Coefficient"]
-        # Remove duplicate correlations and self-correlations
-        corr_df = corr_df.loc[corr_df["Column1"] < corr_df["Column2"]]
-        # Assign Pass/Fail based on correlation coefficient
-        corr_df["Pass/Fail"] = np.where(
-            corr_df["Coefficient"].abs() <= self.params["max_threshold"], "Pass", "Fail"
-        )
-        # Only keep the top 10 correlations. TODO: configurable
-        corr_df = corr_df.head(10)
-        passed = corr_df["Pass/Fail"].eq("Pass").all()
-        results = [
-            ThresholdTestResult(
-                column=col1,
-                values={
-                    "correlations": [
-                        {
-                            "column": col2,
-                            "correlation": coeff,
-                        }
-                    ]
-                },
-                passed=pass_fail == "Pass",
+    # Get correlation matrix for numeric columns
+    corr = dataset.df.corr(numeric_only=True)
+    # Create table of correlation coefficients and column pairs
+    pairs = []
+    for i in range(len(corr.columns)):
+        for j in range(i + 1, len(corr.columns)):
+            coeff = corr.iloc[i, j]
+            pairs.append(
+                {
+                    "Columns": f"({corr.columns[i]}, {corr.columns[j]})",
+                    "Coefficient": coeff,
+                    "Pass/Fail": "Pass" if abs(coeff) <= max_threshold else "Fail",
+                }
             )
-            for _, (col1, col2, coeff, pass_fail) in corr_df.iterrows()
-        ]
-        return self.cache_results(results, passed=passed)
+    # Sort by absolute coefficient and get top N
+    pairs.sort(key=lambda x: abs(x["Coefficient"]), reverse=True)
+    pairs = pairs[:top_n_correlations]
+    return pairs, all(p["Pass/Fail"] == "Pass" for p in pairs)

validmind/tests/data_validation/IQROutliersBarPlot.py CHANGED Viewed

@@ -2,15 +2,27 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import plotly.graph_objects as go
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
+def compute_outliers(series, threshold):
+    Q1 = series.quantile(0.25)
+    Q3 = series.quantile(0.75)
+    IQR = Q3 - Q1
+    lower_bound = Q1 - threshold * IQR
+    upper_bound = Q3 + threshold * IQR
+    return series[(series < lower_bound) | (series > upper_bound)]
-@dataclass
-class IQROutliersBarPlot(Metric):
+@tags("tabular_data", "visualization", "numerical_data")
+@tasks("classification", "regression")
+def IQROutliersBarPlot(
+    dataset: VMDataset, threshold: float = 1.5, fig_width: int = 800
+):
     """
     Visualizes outlier distribution across percentiles in numerical data using the Interquartile Range (IQR) method.
@@ -54,99 +66,56 @@ class IQROutliersBarPlot(Metric):
     ### Limitations
     - Its application is limited to numerical variables and does not extend to categorical ones.
-    - Relies on a predefined threshold (default being 1.5) for outlier identification, which may not be suitable for
-    all cases.
     - Only reveals the presence and distribution of outliers and does not provide insights into how these outliers
     might affect the model's predictive performance.
     - The assumption that data is unimodal and symmetric may not always hold true. In cases with non-normal
     distributions, the results can be misleading.
     """
-    name = "iqr_outliers_bar_plot"
-    required_inputs = ["dataset"]
-    default_params = {"threshold": 1.5, "fig_width": 800}
-    tasks = ["classification", "regression"]
-    tags = ["tabular_data", "visualization", "numerical_data"]
-    def run(self):
-        df = self.inputs.dataset.df
-        # Select numerical features
-        features = self.inputs.dataset.feature_columns_numeric
-        # Select non-binary features
-        features = [
-            feature
-            for feature in features
-            if len(self.inputs.dataset.df[feature].unique()) > 2
+    df = dataset.df
+    figures = []
+    for col in dataset.feature_columns_numeric:
+        # Skip binary features
+        if len(df[col].unique()) <= 2:
+            continue
+        outliers = compute_outliers(df[col], threshold)
+        if outliers.empty:
+            continue
+        Q1_count = outliers[
+            (outliers >= 0) & (outliers < outliers.quantile(0.25))
+        ].count()
+        Q2_count = outliers[
+            (outliers >= outliers.quantile(0.25)) & (outliers < outliers.median())
+        ].count()
+        Q3_count = outliers[
+            (outliers >= outliers.median()) & (outliers < outliers.quantile(0.75))
+        ].count()
+        Q4_count = outliers[
+            (outliers >= outliers.quantile(0.75)) & (outliers <= outliers.max())
+        ].count()
+        bar_data = [Q1_count, Q2_count, Q3_count, Q4_count]
+        percentile_labels = [
+            "0-25",
+            "25-50",
+            "50-75",
+            "75-100",
         ]
-        threshold = self.params["threshold"]
-        fig_width = self.params["fig_width"]
-        df = df[features]
-        return self.detect_and_visualize_outliers(df, threshold, fig_width)
-    @staticmethod
-    def compute_outliers(series, threshold=1.5):
-        Q1 = series.quantile(0.25)
-        Q3 = series.quantile(0.75)
-        IQR = Q3 - Q1
-        lower_bound = Q1 - threshold * IQR
-        upper_bound = Q3 + threshold * IQR
-        return series[(series < lower_bound) | (series > upper_bound)]
-    def detect_and_visualize_outliers(self, df, threshold, fig_width):
-        num_cols = df.columns.tolist()
-        figures = []
-        for col in num_cols:
-            # Compute outliers
-            outliers = self.compute_outliers(df[col], threshold)
-            if outliers.empty:
-                continue  # Skip plotting if there are no outliers
-            Q1_count = outliers[
-                (outliers >= 0) & (outliers < outliers.quantile(0.25))
-            ].count()
-            Q2_count = outliers[
-                (outliers >= outliers.quantile(0.25)) & (outliers < outliers.median())
-            ].count()
-            Q3_count = outliers[
-                (outliers >= outliers.median()) & (outliers < outliers.quantile(0.75))
-            ].count()
-            Q4_count = outliers[
-                (outliers >= outliers.quantile(0.75)) & (outliers <= outliers.max())
-            ].count()
-            # Prepare data for bar plot
-            bar_data = [Q1_count, Q2_count, Q3_count, Q4_count]
-            percentile_labels = [
-                "0-25",
-                "25-50",
-                "50-75",
-                "75-100",
-            ]
-            # Create a bar plot
-            fig = go.Figure(
-                data=[go.Bar(x=percentile_labels, y=bar_data, marker_color="skyblue")]
-            )
-            # Set layout properties
-            fig.update_layout(
-                title_text=col,
-                width=fig_width,
-                height=400,
-                plot_bgcolor="white",
-                xaxis_title="Percentile",
-                yaxis_title="Outlier Count",
-            )
-            # Create a Figure object and append to figures list
-            figure = Figure(for_object=self, key=f"{self.key}:{col}", figure=fig)
-            figures.append(figure)
-        return self.cache_results(figures=figures)
+        fig = go.Figure(
+            data=[go.Bar(x=percentile_labels, y=bar_data, marker_color="skyblue")]
+        )
+        fig.update_layout(
+            title_text=col,
+            width=fig_width,
+            height=400,
+            plot_bgcolor="white",
+            xaxis_title="Percentile",
+            yaxis_title="Outlier Count",
+        )
+        figures.append(fig)
+    return tuple(figures)

validmind 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl