PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.8.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.8.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/TooManyZeroValues.py CHANGED Viewed

@@ -2,23 +2,13 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
-from typing import List
+from validmind.tests import tags, tasks
+from validmind.vm_models import VMDataset
-from ydata_profiling.config import Settings
-from ydata_profiling.model.typeset import ProfilingTypeSet
-from validmind.vm_models import (
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
-@dataclass
-class TooManyZeroValues(ThresholdTest):
+@tags("tabular_data")
+@tasks("regression", "classification")
+def TooManyZeroValues(dataset: VMDataset, max_percent_threshold: float = 0.03):
     """
     Identifies numerical columns in a dataset that contain an excessive number of zero values, defined by a threshold
     percentage.
@@ -70,65 +60,26 @@ class TooManyZeroValues(ThresholdTest):
     - Cannot evaluate non-numerical or categorical columns, which might bring with them different types of concerns or
     issues.
     """
+    df = dataset.df
+    table = []
+    for col in dataset.feature_columns_numeric:
+        value_counts = df[col].value_counts()
-    name = "zeros"
-    required_inputs = ["dataset"]
-    default_params = {"max_percent_threshold": 0.03}
+        if 0 not in value_counts.index:
+            continue
-    tasks = ["regression", "classification"]
-    tags = ["tabular_data"]
+        n_zeros = value_counts[0]
+        p_zeros = n_zeros / df.shape[0]
-    def summary(self, results: List[ThresholdTestResult], all_passed: bool):
-        """
-        The zeros test returns results like these:
-        [{"values": {"n_zeros": 10000, "p_zeros": 1.0}, "column": "Exited", "passed": true}]
-        """
-        results_table = [
+        table.append(
             {
-                "Column": result.column,
-                "Number of Zero Values": result.values["n_zeros"],
-                "Percentage of Zero Values (%)": result.values["p_zeros"] * 100,
-                "Pass/Fail": "Pass" if result.passed else "Fail",
+                "Column": col,
+                "Number of Zero Values": n_zeros,
+                "Percentage of Zero Values (%)": p_zeros * 100,
+                "Pass/Fail": "Pass" if p_zeros < max_percent_threshold else "Fail",
             }
-            for result in results
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(title="Zeros Results for Dataset"),
-                )
-            ]
         )
-    def run(self):
-        rows = self.inputs.dataset.df.shape[0]
-        typeset = ProfilingTypeSet(Settings())
-        dataset_types = typeset.infer_type(self.inputs.dataset.df)
-        results = []
-        for col in self.inputs.dataset.df.columns:
-            # Only calculate zeros for numerical columns
-            if str(dataset_types[col]) != "Numeric":
-                continue
-            value_counts = self.inputs.dataset.df[col].value_counts()
-            if 0 not in value_counts.index:
-                continue
-            n_zeros = value_counts[0]
-            p_zeros = n_zeros / rows
-            results.append(
-                ThresholdTestResult(
-                    column=col,
-                    passed=p_zeros < self.params["max_percent_threshold"],
-                    values={
-                        "n_zeros": n_zeros,
-                        "p_zeros": p_zeros,
-                    },
-                )
-            )
-        return self.cache_results(results, passed=all([r.passed for r in results]))
+    return table, all(row["Pass/Fail"] == "Pass" for row in table)

validmind/tests/data_validation/UniqueRows.py CHANGED Viewed

@@ -2,20 +2,13 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
-from typing import List
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-from validmind.vm_models import (
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
-@dataclass
-class UniqueRows(ThresholdTest):
+@tags("tabular_data")
+@tasks("regression", "classification")
+def UniqueRows(dataset: VMDataset, min_percent_threshold: float = 1):
     """
     Verifies the diversity of the dataset by ensuring that the count of unique rows exceeds a prescribed threshold.
@@ -57,53 +50,21 @@ class UniqueRows(ThresholdTest):
     - This test may not be suitable or useful for categorical variables, where the count of unique categories is
     inherently limited.
     """
-    name = "unique"
-    required_inputs = ["dataset"]
-    default_params = {"min_percent_threshold": 1}
-    tasks = ["regression", "classification"]
-    tags = ["tabular_data"]
-    def summary(self, results: List[ThresholdTestResult], all_passed: bool):
-        """
-        The unique rows test returns results like these:
-        [{"values": {"n_unique": 10000, "p_unique": 1.0}, "column": "Exited", "passed": true}]
-        """
-        results_table = [
-            {
-                "Column": result.column,
-                "Number of Unique Values": result.values["n_unique"],
-                "Percentage of Unique Values (%)": result.values["p_unique"] * 100,
-                "Pass/Fail": "Pass" if result.passed else "Fail",
-            }
-            for result in results
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(
-                        title="Unique Rows Results for Dataset"
-                    ),
-                )
-            ]
-        )
-    def run(self):
-        rows = self.inputs.dataset.df.shape[0]
-        unique_rows = self.inputs.dataset.df.nunique()
-        results = [
-            ThresholdTestResult(
-                column=col,
-                passed=(unique_rows[col] / rows) < self.params["min_percent_threshold"],
-                values={
-                    "n_unique": unique_rows[col],
-                    "p_unique": unique_rows[col] / rows,
-                },
-            )
-            for col in unique_rows.index
-        ]
-        return self.cache_results(results, passed=all([r.passed for r in results]))
+    df = dataset.df
+    rows = df.shape[0]
+    unique_rows = df.nunique()
+    table = [
+        {
+            "Column": col,
+            "Number of Unique Values": unique_rows[col],
+            "Percentage of Unique Values (%)": unique_rows[col] / rows * 100,
+            "Pass/Fail": (
+                "Pass" if unique_rows[col] / rows >= min_percent_threshold else "Fail"
+            ),
+        }
+        for col in unique_rows.index
+    ]
+    return table, all(row["Pass/Fail"] == "Pass" for row in table)

validmind/tests/data_validation/WOEBinPlots.py CHANGED Viewed

@@ -2,8 +2,6 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import numpy as np
 import pandas as pd
 import plotly.express as px
@@ -11,11 +9,22 @@ import plotly.graph_objects as go
 import scorecardpy as sc
 from plotly.subplots import make_subplots
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.logging import get_logger
+from validmind.vm_models import VMDataset
+logger = get_logger(__name__)
-@dataclass
-class WOEBinPlots(Metric):
+@tags("tabular_data", "visualization", "categorical_data")
+@tasks("classification")
+def WOEBinPlots(
+    dataset: VMDataset,
+    breaks_adj: list = None,
+    fig_height: int = 600,
+    fig_width: int = 500,
+):
     """
     Generates visualizations of Weight of Evidence (WoE) and Information Value (IV) for understanding predictive power
     of categorical variables in a data set.
@@ -63,107 +72,72 @@ class WOEBinPlots(Metric):
     - The method requires a sufficient number of events per bin to generate a reliable information value and weight of
     evidence.
     """
-    name = "woe_bin_plots"
-    required_inputs = ["dataset"]
-    default_params = {"breaks_adj": None, "fig_height": 600, "fig_width": 500}
-    tasks = ["classification"]
-    tags = ["tabular_data", "visualization", "categorical_data"]
-    def run(self):
-        df = self.inputs.dataset.df
-        target_column = self.inputs.dataset.target_column
-        fig_height = self.params["fig_height"]
-        fig_width = self.params["fig_width"]
-        breaks_adj = self.params["breaks_adj"]
-        woe_iv_df = self.binning_data(df, target_column, breaks_adj)
-        return self.plot_woe_iv_distribution(woe_iv_df, fig_height, fig_width)
-    def binning_data(self, df, y, breaks_adj=None):
-        """
-        This function performs automatic binning using WoE.
-        df: A pandas dataframe
-        y: The target variable in quotes, e.g. 'target'
-        """
-        non_numeric_cols = df.select_dtypes(exclude=["int64", "float64"]).columns
-        df[non_numeric_cols] = df[non_numeric_cols].astype(str)
-        try:
-            bins = sc.woebin(df, y, breaks_list=breaks_adj)
-        except Exception as e:
-            print("Error during binning: ")
-            print(e)
-        else:
-            bins_df = pd.concat(bins.values(), keys=bins.keys())
-            bins_df.reset_index(inplace=True)
-            bins_df.drop(columns=["variable"], inplace=True)
-            bins_df.rename(
-                columns={"level_0": "variable", "level_1": "bin_number"}, inplace=True
-            )
-            return bins_df
-    def plot_woe_iv_distribution(self, woe_iv_df, fig_height, fig_width):
-        variables = woe_iv_df["variable"].unique()
-        figures = []
-        for variable in variables:
-            variable_df = woe_iv_df[woe_iv_df["variable"] == variable]
-            fig = make_subplots(rows=1, cols=2)
-            fig.add_trace(
-                go.Bar(
-                    x=variable_df["bin"],
-                    y=variable_df["bin_iv"],
-                    marker_color=px.colors.qualitative.Plotly[
-                        : len(variable_df["bin"])
-                    ],
-                    hovertemplate="<b>%{x}</b><br>" + "IV: %{y}<extra></extra>",
-                ),
-                row=1,
-                col=1,
-            )
-            fig.update_xaxes(
-                ticktext=variable_df["bin"].tolist(),
-                tickvals=np.arange(len(variable_df["bin"])),
-                row=1,
-                col=1,
-            )
-            fig.add_trace(
-                go.Scatter(
-                    x=variable_df["bin"],
-                    y=variable_df["woe"],
-                    mode="lines+markers",
-                    marker=dict(symbol="circle", size=6),
-                    hovertemplate="<b>%{x}</b><br>" + "WoE: %{y}<extra></extra>",
-                ),
-                row=1,
-                col=2,
-            )
-            fig.update_xaxes(
-                ticktext=variable_df["bin"].tolist(),
-                tickvals=np.arange(len(variable_df["bin"])),
-                row=1,
-                col=2,
-            )
-            fig.update_layout(
-                title=f"IV and WoE for {variable}",
-                height=fig_height,
-                width=fig_width,
-                showlegend=False,
-            )
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.key}:{variable}",
-                    figure=fig,
-                )
-            )
-        return self.cache_results(figures=figures)
+    df = dataset.df
+    non_numeric_cols = df.select_dtypes(exclude=["int64", "float64"]).columns
+    df[non_numeric_cols] = df[non_numeric_cols].astype(str)
+    try:
+        bins = sc.woebin(df, dataset.target_column, breaks_list=breaks_adj)
+    except Exception as e:
+        raise SkipTestError(f"Error performing binning: {e}") from e
+    woe_iv_df = (
+        pd.concat(bins.values(), keys=bins.keys())
+        .reset_index()
+        .drop(columns=["variable"])
+        .rename(columns={"level_0": "variable", "level_1": "bin_number"})
+    )
+    figures = []
+    for variable in woe_iv_df["variable"].unique():
+        variable_df = woe_iv_df[woe_iv_df["variable"] == variable]
+        fig = make_subplots(rows=1, cols=2)
+        fig.add_trace(
+            go.Bar(
+                x=variable_df["bin"],
+                y=variable_df["bin_iv"],
+                marker_color=px.colors.qualitative.Plotly[: len(variable_df["bin"])],
+                hovertemplate="<b>%{x}</b><br>" + "IV: %{y}<extra></extra>",
+            ),
+            row=1,
+            col=1,
+        )
+        fig.update_xaxes(
+            ticktext=variable_df["bin"].tolist(),
+            tickvals=np.arange(len(variable_df["bin"])),
+            row=1,
+            col=1,
+        )
+        fig.add_trace(
+            go.Scatter(
+                x=variable_df["bin"],
+                y=variable_df["woe"],
+                mode="lines+markers",
+                marker=dict(symbol="circle", size=6),
+                hovertemplate="<b>%{x}</b><br>" + "WoE: %{y}<extra></extra>",
+            ),
+            row=1,
+            col=2,
+        )
+        fig.update_xaxes(
+            ticktext=variable_df["bin"].tolist(),
+            tickvals=np.arange(len(variable_df["bin"])),
+            row=1,
+            col=2,
+        )
+        fig.update_layout(
+            title=f"IV and WoE for {variable}",
+            height=fig_height,
+            width=fig_width,
+            showlegend=False,
+        )
+        figures.append(fig)
+    return tuple(figures)

validmind/tests/data_validation/WOEBinTable.py CHANGED Viewed

@@ -2,16 +2,17 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import pandas as pd
 import scorecardpy as sc
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-@dataclass
-class WOEBinTable(Metric):
+@tags("tabular_data", "categorical_data")
+@tasks("classification")
+def WOEBinTable(dataset: VMDataset, breaks_adj: list = None):
     """
     Assesses the Weight of Evidence (WoE) and Information Value (IV) of each feature to evaluate its predictive power
     in a binary classification model.
@@ -26,9 +27,10 @@ class WOEBinTable(Metric):
     ### Test Mechanism
     The test uses the `scorecardpy.woebin` method to perform automatic binning of the dataset based on WoE. The method
-    adjusts the cut-off points for binning numeric variables based on the parameter `breaks_adj`. The bins are then
-    used to calculate the WoE and IV values, effectively creating a dataframe that includes the bin boundaries, WoE,
-    and IV values for each feature. A target variable is required in the dataset to perform this analysis.
+    accepts a list of break points for binning numeric variables through the parameter `breaks_adj`. If no breaks are
+    provided, it uses default binning. The bins are then used to calculate the WoE and IV values, effectively creating
+    a dataframe that includes the bin boundaries, WoE, and IV values for each feature. A target variable is required
+    in the dataset to perform this analysis.
     ### Signs of High Risk
@@ -49,65 +51,22 @@ class WOEBinTable(Metric):
     - The metric does not help in distinguishing whether the observed predictive factor is due to data randomness or a
     true phenomenon.
     """
-    name = "woe_bin_table"
-    required_inputs = ["dataset"]
-    default_params = {"breaks_adj": None}
-    tasks = ["classification"]
-    tags = ["tabular_data", "categorical_data"]
-    def run(self):
-        target_column = self.inputs.dataset.target_column
-        breaks_adj = self.params["breaks_adj"]
-        df = self.inputs.dataset.df
-        print(
-            f"Running with breaks_adj: {breaks_adj}"
-        )  # print the breaks_adj being used
-        bins_df = self.binning_data(df, target_column, breaks_adj)
-        return self.cache_results(
-            {
-                "woe_iv": bins_df.to_dict(orient="records"),
-            }
-        )
-    def binning_data(self, df, y, breaks_adj=None):
-        """
-        This function performs automatic binning using WoE.
-        df: A pandas dataframe
-        y: The target variable in quotes, e.g. 'target'
-        """
-        non_numeric_cols = df.select_dtypes(exclude=["int64", "float64"]).columns
-        df[non_numeric_cols] = df[non_numeric_cols].astype(str)
-        try:
-            print(
-                f"Performing binning with breaks_adj: {breaks_adj}"
-            )  # print the breaks_adj being used
-            bins = sc.woebin(df, y, breaks_list=breaks_adj)
-        except Exception as e:
-            print("Error during binning: ")
-            print(e)
-        else:
-            bins_df = pd.concat(bins.values(), keys=bins.keys())
-            bins_df.reset_index(inplace=True)
-            bins_df.drop(columns=["variable"], inplace=True)
-            bins_df.rename(columns={"level_0": "variable"}, inplace=True)
-            bins_df["bin_number"] = bins_df.groupby("variable").cumcount()
-            return bins_df
-    def summary(self, metric_value):
-        summary_woe_iv_table = metric_value["woe_iv"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=summary_woe_iv_table,
-                    metadata=ResultTableMetadata(
-                        title="Weight of Evidence (WoE) and Information Value (IV)"
-                    ),
-                )
-            ]
+    df = dataset.df
+    non_numeric_cols = df.select_dtypes(exclude=["int64", "float64"]).columns
+    df[non_numeric_cols] = df[non_numeric_cols].astype(str)
+    try:
+        bins = sc.woebin(df, dataset.target_column, breaks_list=breaks_adj)
+    except Exception as e:
+        raise SkipTestError(f"Error during binning: {e}")
+    return {
+        "Weight of Evidence (WoE) and Information Value (IV)": (
+            pd.concat(bins.values(), keys=bins.keys())
+            .reset_index()
+            .drop(columns=["variable"])
+            .rename(columns={"level_0": "variable"})
+            .assign(bin_number=lambda x: x.groupby("variable").cumcount())
         )
+    }

validmind/tests/data_validation/ZivotAndrewsArch.py CHANGED Viewed

@@ -2,20 +2,21 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import pandas as pd
 from arch.unitroot import ZivotAndrews
 from numpy.linalg import LinAlgError
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
 from validmind.logging import get_logger
-from validmind.vm_models import Metric, ResultSummary, ResultTable, ResultTableMetadata
+from validmind.vm_models import VMDataset
 logger = get_logger(__name__)
-@dataclass
-class ZivotAndrewsArch(Metric):
+@tags("time_series_data", "stationarity", "unit_root_test")
+@tasks("regression")
+def ZivotAndrewsArch(dataset: VMDataset):
     """
     Evaluates the order of integration and stationarity of time series data using the Zivot-Andrews unit root test.
@@ -54,75 +55,32 @@ class ZivotAndrewsArch(Metric):
     - May not account for unexpected shocks or changes in the series trend, both of which can significantly impact data
     stationarity.
     """
+    df = dataset.df
+    if not isinstance(df.index, (pd.DatetimeIndex, pd.PeriodIndex)):
+        raise SkipTestError(
+            "Dataset index must be a datetime or period index for time series analysis."
+        )
-    name = "zivot_andrews"
-    required_inputs = ["dataset"]
-    tasks = ["regression"]
-    tags = ["time_series_data", "stationarity", "unit_root_test"]
-    def run(self):
-        """
-        Calculates Zivot-Andrews metric for each of the dataset features
-        """
-        dataset = self.inputs.dataset.df
-        # Check if the dataset is a time series
-        if not isinstance(dataset.index, (pd.DatetimeIndex, pd.PeriodIndex)):
-            raise ValueError(
-                "Dataset index must be a datetime or period index for time series analysis."
-            )
-        # Preprocessing: Drop rows with any NaN values
-        if dataset.isnull().values.any():
-            logger.warning(
-                "Dataset contains missing values. Rows with NaNs will be dropped."
-            )
-            dataset = dataset.dropna()
-        # Convert to numeric and handle non-numeric data
-        dataset = dataset.apply(pd.to_numeric, errors="coerce")
-        # Initialize a list to store Zivot-Andrews results
-        za_values = []
-        for col in dataset.columns:
-            try:
-                za = ZivotAndrews(dataset[col].values)
-                za_values.append(
-                    {
-                        "Variable": col,
-                        "stat": za.stat,
-                        "pvalue": za.pvalue,
-                        "usedlag": za.lags,
-                        "nobs": za.nobs,
-                    }
-                )
-            except (LinAlgError, ValueError) as e:
-                logger.error(f"Error while processing column '{col}'. Details: {e}")
-                za_values.append(
-                    {
-                        "Variable": col,
-                        "stat": None,
-                        "pvalue": None,
-                        "usedlag": None,
-                        "nobs": None,
-                        "error": str(e),
-                    }
-                )
-        return self.cache_results({"zivot_andrews_results": za_values})
-    def summary(self, metric_value):
-        """
-        Build a table for summarizing the Zivot-Andrews results
-        """
-        za_results = metric_value["zivot_andrews_results"]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=za_results,
-                    metadata=ResultTableMetadata(title="Zivot-Andrews Test Results"),
-                )
-            ]
+    df = df.dropna()
+    df = df.apply(pd.to_numeric, errors="coerce")
+    za_values = []
+    for col in df.columns:
+        try:
+            za = ZivotAndrews(df[col].values)
+        except (LinAlgError, ValueError) as e:
+            logger.error(f"Error while processing column '{col}': {e}")
+            continue
+        za_values.append(
+            {
+                "Variable": col,
+                "stat": za.stat,
+                "pvalue": za.pvalue,
+                "usedlag": za.lags,
+                "nobs": za.nobs,
+            }
         )
+    return {"Zivot-Andrews Test Results": za_values}

validmind 2.5.25__py3-none-any.whl → 2.6.8__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.8py3-none-any.whl