PyPI - validmind - Versions diffs - 2.7.5__py3-none-any.whl → 2.7.7__py3-none-any.whl - Mend

validmind 2.7.5py3-none-any.whl → 2.7.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (149) hide show

validmind/tests/__types__.py CHANGED Viewed

@@ -39,6 +39,7 @@ TestID = Union[
         "validmind.data_validation.LaggedCorrelationHeatmap",
         "validmind.data_validation.MissingValues",
         "validmind.data_validation.MissingValuesBarPlot",
+        "validmind.data_validation.MutualInformation",
         "validmind.data_validation.PearsonCorrelationMatrix",
         "validmind.data_validation.PhillipsPerronArch",
         "validmind.data_validation.ProtectedClassesCombination",
@@ -48,6 +49,7 @@ TestID = Union[
         "validmind.data_validation.RollingStatsPlot",
         "validmind.data_validation.RunsTest",
         "validmind.data_validation.ScatterPlot",
+        "validmind.data_validation.ScoreBandDefaultRates",
         "validmind.data_validation.SeasonalDecompose",
         "validmind.data_validation.ShapiroWilk",
         "validmind.data_validation.Skewness",
@@ -121,7 +123,9 @@ TestID = Union[
         "validmind.model_validation.ragas.SemanticSimilarity",
         "validmind.model_validation.sklearn.AdjustedMutualInformation",
         "validmind.model_validation.sklearn.AdjustedRandIndex",
+        "validmind.model_validation.sklearn.CalibrationCurve",
         "validmind.model_validation.sklearn.ClassifierPerformance",
+        "validmind.model_validation.sklearn.ClassifierThresholdOptimization",
         "validmind.model_validation.sklearn.ClusterCosineSimilarity",
         "validmind.model_validation.sklearn.ClusterPerformanceMetrics",
         "validmind.model_validation.sklearn.CompletenessScore",
@@ -134,6 +138,7 @@ TestID = Union[
         "validmind.model_validation.sklearn.MinimumAccuracy",
         "validmind.model_validation.sklearn.MinimumF1Score",
         "validmind.model_validation.sklearn.MinimumROCAUCScore",
+        "validmind.model_validation.sklearn.ModelParameters",
         "validmind.model_validation.sklearn.ModelsPerformanceComparison",
         "validmind.model_validation.sklearn.OverfitDiagnosis",
         "validmind.model_validation.sklearn.PermutationFeatureImportance",
@@ -147,6 +152,7 @@ TestID = Union[
         "validmind.model_validation.sklearn.RegressionR2SquareComparison",
         "validmind.model_validation.sklearn.RobustnessDiagnosis",
         "validmind.model_validation.sklearn.SHAPGlobalImportance",
+        "validmind.model_validation.sklearn.ScoreProbabilityAlignment",
         "validmind.model_validation.sklearn.SilhouettePlot",
         "validmind.model_validation.sklearn.TrainingTestDegradation",
         "validmind.model_validation.sklearn.VMeasure",
@@ -166,9 +172,20 @@ TestID = Union[
         "validmind.model_validation.statsmodels.RegressionModelSummary",
         "validmind.model_validation.statsmodels.RegressionPermutationFeatureImportance",
         "validmind.model_validation.statsmodels.ScorecardHistogram",
+        "validmind.ongoing_monitoring.CalibrationCurveDrift",
+        "validmind.ongoing_monitoring.ClassDiscriminationDrift",
+        "validmind.ongoing_monitoring.ClassImbalanceDrift",
+        "validmind.ongoing_monitoring.ClassificationAccuracyDrift",
+        "validmind.ongoing_monitoring.ConfusionMatrixDrift",
+        "validmind.ongoing_monitoring.CumulativePredictionProbabilitiesDrift",
         "validmind.ongoing_monitoring.FeatureDrift",
         "validmind.ongoing_monitoring.PredictionAcrossEachFeature",
         "validmind.ongoing_monitoring.PredictionCorrelation",
+        "validmind.ongoing_monitoring.PredictionProbabilitiesHistogramDrift",
+        "validmind.ongoing_monitoring.PredictionQuantilesAcrossFeatures",
+        "validmind.ongoing_monitoring.ROCCurveDrift",
+        "validmind.ongoing_monitoring.ScoreBandsDrift",
+        "validmind.ongoing_monitoring.ScorecardHistogramDrift",
         "validmind.ongoing_monitoring.TargetPredictionDistributionPlot",
         "validmind.prompt_validation.Bias",
         "validmind.prompt_validation.Clarity",

validmind/tests/data_validation/ACFandPACFPlot.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from statsmodels.tsa.stattools import acf, pacf
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -62,6 +62,8 @@ def ACFandPACFPlot(dataset: VMDataset):
         raise ValueError("Provided 'columns' must exist in the dataset")
     figures = []
+    acf_store = {}
+    pacf_store = {}
     for col in df.columns:
         series = df[col]
         max_lags = min(40, len(series) // 2 - 1)
@@ -77,6 +79,7 @@ def ACFandPACFPlot(dataset: VMDataset):
             font=dict(size=18),
         )
         figures.append(acf_fig)
+        acf_store[col] = acf_values
         # Create PACF plot using Plotly
         pacf_values = pacf(series, nlags=max_lags)
@@ -89,5 +92,6 @@ def ACFandPACFPlot(dataset: VMDataset):
             font=dict(size=18),
         )
         figures.append(pacf_fig)
+        pacf_store[col] = pacf_values
-    return tuple(figures)
+    return (*figures, RawData(acf_values=acf_store, pacf_values=pacf_store))

validmind/tests/data_validation/AutoMA.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 from statsmodels.tsa.arima.model import ARIMA
 from statsmodels.tsa.stattools import adfuller
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -116,4 +116,4 @@ def AutoMA(dataset: VMDataset, max_ma_order: int = 3):
     return {
         "Auto MA Analysis Results": summary_ma_analysis,
         "Best MA Order Results": best_ma_order,
-    }
+    }, RawData(raw_series_data=df)

validmind/tests/data_validation/BivariateScatterPlots.py CHANGED Viewed

@@ -6,7 +6,7 @@ import itertools
 import plotly.express as px
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("tabular_data", "numerical_data", "visualization")
@@ -79,4 +79,6 @@ def BivariateScatterPlots(dataset):
         figures.append(fig)
-    return tuple(figures)
+    return tuple(figures) + (
+        RawData(selected_numerical_df=df, feature_pairs=features_pairs),
+    )

validmind/tests/data_validation/BoxPierce.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import pandas as pd
 from statsmodels.stats.diagnostic import acorr_ljungbox
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tasks("regression")
@@ -68,4 +68,4 @@ def BoxPierce(dataset):
     box_pierce_df.reset_index(inplace=True)
     box_pierce_df.columns = ["column", "stat", "pvalue"]
-    return box_pierce_df
+    return box_pierce_df, RawData(box_pierce_values=box_pierce_values)

validmind/tests/data_validation/ClassImbalance.py CHANGED Viewed

@@ -9,7 +9,7 @@ from typing import Any, Dict, Tuple
 import plotly.graph_objs as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -104,4 +104,5 @@ def ClassImbalance(
         },
         go.Figure(data=[trace], layout=layout),
         all(row["Pass/Fail"] == "Pass" for row in imbalanced_classes),
+        RawData(imbalance_percentages=imbalance_percentages),
     )

validmind/tests/data_validation/DatasetDescription.py CHANGED Viewed

@@ -9,7 +9,7 @@ import numpy as np
 from ydata_profiling.config import Settings
 from ydata_profiling.model.typeset import ProfilingTypeSet
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import UnsupportedColumnTypeError
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -220,6 +220,15 @@ def DatasetDescription(dataset: VMDataset):
     for column in infer_datatypes(df):
         results.append(describe_column(df, column))
+    raw_data = {
+        column["id"]: {
+            "type": column["type"],
+            "statistics": column["statistics"],
+            "histograms": column["histograms"],
+        }
+        for column in results
+    }
     return {
         "Dataset Description": [
             {
@@ -233,4 +242,4 @@ def DatasetDescription(dataset: VMDataset):
             }
             for column in results
         ]
-    }
+    }, RawData(raw_data=raw_data)

validmind/tests/data_validation/DatasetSplit.py CHANGED Viewed

@@ -4,7 +4,7 @@
 from typing import List
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
 DATASET_LABELS = {
@@ -98,4 +98,4 @@ def DatasetSplit(datasets: List[VMDataset]):
                 }
             )
-    return table
+    return table, RawData(dataset_results=results)

validmind/tests/data_validation/DickeyFullerGLS.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 from arch.unitroot import DFGLS
 from numpy.linalg import LinAlgError
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -97,4 +97,4 @@ def DickeyFullerGLS(dataset: VMDataset):
     return {
         "DFGLS Test Results": dfgls_values,
-    }
+    }, RawData(df=df)

validmind/tests/data_validation/FeatureTargetCorrelationPlot.py CHANGED Viewed

@@ -6,7 +6,7 @@
 import numpy as np
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("tabular_data", "visualization", "correlation")
@@ -58,7 +58,13 @@ def FeatureTargetCorrelationPlot(dataset, fig_height=600):
     fig = _visualize_feature_target_correlation(df, dataset.target_column, fig_height)
-    return fig
+    correlations = (
+        df.corr(numeric_only=True)[dataset.target_column]
+        .drop(dataset.target_column)
+        .to_frame()
+    )
+    return fig, RawData(correlation_data=correlations)
 def _visualize_feature_target_correlation(df, target_column, fig_height):

validmind/tests/data_validation/HighCardinality.py CHANGED Viewed

@@ -2,7 +2,7 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -59,6 +59,8 @@ def HighCardinality(
     table = []
     all_passed = True
+    raw_data = {}
     for col in dataset.feature_columns_categorical:
         n_distinct = df[col].nunique()
         p_distinct = n_distinct / df.shape[0]
@@ -73,7 +75,12 @@ def HighCardinality(
             }
         )
+        raw_data[col] = {
+            "n_distinct": n_distinct,
+            "p_distinct": p_distinct,
+        }
         if not passed:
             all_passed = False
-    return table, all_passed
+    return table, all_passed, RawData(raw_cardinality_details=raw_data)

validmind/tests/data_validation/HighPearsonCorrelation.py CHANGED Viewed

@@ -2,14 +2,17 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
 @tags("tabular_data", "data_quality", "correlation")
 @tasks("classification", "regression")
 def HighPearsonCorrelation(
-    dataset: VMDataset, max_threshold: float = 0.3, top_n_correlations: int = 10
+    dataset: VMDataset,
+    max_threshold: float = 0.3,
+    top_n_correlations: int = 10,
+    feature_columns: list = None,
 ):
     """
     Identifies highly correlated feature pairs in a dataset suggesting feature redundancy or multicollinearity.
@@ -51,8 +54,15 @@ def HighPearsonCorrelation(
     - Limited to identifying redundancy only within feature pairs; may fail to spot more complex relationships among
     three or more variables.
     """
+    # Select features
+    if feature_columns is None:
+        df = dataset.df
+    else:
+        df = dataset.df[feature_columns]
     # Get correlation matrix for numeric columns
-    corr = dataset.df.corr(numeric_only=True)
+    corr = df.corr(numeric_only=True)
     # Create table of correlation coefficients and column pairs
     pairs = []
@@ -71,4 +81,8 @@ def HighPearsonCorrelation(
     pairs.sort(key=lambda x: abs(x["Coefficient"]), reverse=True)
     pairs = pairs[:top_n_correlations]
-    return pairs, all(p["Pass/Fail"] == "Pass" for p in pairs)
+    return (
+        pairs,
+        all(p["Pass/Fail"] == "Pass" for p in pairs),
+        RawData(correlation_matrix=corr),
+    )

validmind/tests/data_validation/IQROutliersBarPlot.py CHANGED Viewed

@@ -4,7 +4,7 @@
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -118,4 +118,11 @@ def IQROutliersBarPlot(
         )
         figures.append(fig)
-    return tuple(figures)
+    return (
+        *figures,
+        RawData(
+            outlier_counts_by_feature=df[dataset.feature_columns_numeric].apply(
+                lambda col: compute_outliers(col, threshold)
+            )
+        ),
+    )

validmind/tests/data_validation/LaggedCorrelationHeatmap.py CHANGED Viewed

@@ -6,7 +6,7 @@ import numpy as np
 import pandas as pd
 import plotly.figure_factory as ff
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
 # Define the 'coolwarm' color scale manually
@@ -101,4 +101,4 @@ def LaggedCorrelationHeatmap(dataset: VMDataset, num_lags: int = 10):
         xaxis_title="Lags",
     )
-    return fig
+    return fig, RawData(correlation_matrix=correlation_df)

validmind/tests/data_validation/MissingValuesBarPlot.py CHANGED Viewed

@@ -4,7 +4,7 @@
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -106,13 +106,16 @@ def MissingValuesBarPlot(
         line=dict(color="red", dash="dash"),
     )
-    return go.Figure(
-        data=[trace_below_threshold, trace_above_threshold, threshold_line],
-        layout=go.Layout(
-            title="Missing Values",
-            yaxis=dict(title="Columns"),
-            xaxis=dict(title="Missing Value Percentage (%)", range=[0, 100]),
-            barmode="stack",
-            height=fig_height,
+    return (
+        go.Figure(
+            data=[trace_below_threshold, trace_above_threshold, threshold_line],
+            layout=go.Layout(
+                title="Missing Values",
+                yaxis=dict(title="Columns"),
+                xaxis=dict(title="Missing Value Percentage (%)", range=[0, 100]),
+                barmode="stack",
+                height=fig_height,
+            ),
         ),
+        RawData(missing_percentages=missing_percentages_sorted),
     )

validmind/tests/data_validation/MutualInformation.py CHANGED Viewed

@@ -4,6 +4,7 @@
 import plotly.graph_objects as go
 from sklearn.feature_selection import mutual_info_classif, mutual_info_regression
 from validmind import tags, tasks
 from validmind.vm_models import VMDataset
 from validmind.vm_models.result import RawData
@@ -76,13 +77,6 @@ def MutualInformation(
     else:
         mi_scores = mutual_info_regression(X, y)
-    # Create DataFrame for raw data
-    raw_data = RawData(
-        feature=dataset.feature_columns,
-        mutual_information_score=mi_scores.tolist(),
-        pass_fail=["Pass" if score >= min_threshold else "Fail" for score in mi_scores],
-    )
     # Create Plotly figure
     fig = go.Figure()
@@ -126,4 +120,8 @@ def MutualInformation(
         template="plotly_white",
     )
-    return raw_data, fig
+    return fig, RawData(
+        mutual_information_scores={
+            feature: score for feature, score in zip(sorted_features, sorted_scores)
+        }
+    )

validmind/tests/data_validation/PearsonCorrelationMatrix.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("tabular_data", "numerical_data", "correlation")
@@ -88,4 +88,4 @@ def PearsonCorrelationMatrix(dataset):
     fig = go.Figure(data=[heatmap], layout=layout)
-    return fig
+    return fig, RawData(correlation_matrix=corr_matrix)

validmind/tests/data_validation/ProtectedClassesCombination.py CHANGED Viewed

@@ -8,7 +8,7 @@ import pandas as pd
 import plotly.graph_objects as go
 import plotly.subplots as sp
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import MissingDependencyError
 from validmind.logging import get_logger
@@ -202,4 +202,9 @@ def ProtectedClassesCombination(dataset, model, protected_classes=None):
         {"Class Combination Table": metrics_by_group},
         {"DPR and EOR table": dpr_eor_df},
         fig,
+        RawData(
+            metrics_frame=mf,
+            demographic_parity_ratios=m_dpr,
+            equalized_odds_ratios=m_eqo,
+        ),
     )

validmind/tests/data_validation/ProtectedClassesDescription.py CHANGED Viewed

@@ -127,4 +127,4 @@ def ProtectedClassesDescription(dataset, protected_classes=None):
         ["Protected Class", "Count"], ascending=[True, False]
     )
-    return (stats_df, *tuple(figures))
+    return (stats_df, *figures)

validmind/tests/data_validation/ProtectedClassesDisparity.py CHANGED Viewed

@@ -119,7 +119,7 @@ def ProtectedClassesDisparity(
         mask_significance=True,
     )
-    plots = []
+    figures = []
     for protected_class in protected_classes:
         plot = ap.disparity(
             bdf, metrics, protected_class, fairness_threshold=disparity_tolerance
@@ -129,13 +129,12 @@ def ProtectedClassesDisparity(
         plot.save(
             buf, format="png"
         )  # as long as the above library is installed, this will work
-        plots.append(buf.getvalue())
+        figures.append(buf.getvalue())
     string = "_disparity"
     metrics_adj = [x + string for x in metrics]
     table = bdf[["attribute_name", "attribute_value"] + b.list_disparities(bdf)]
-    plots.append(aqp.plot_disparity_all(bdf, metrics=metrics_adj))
-    plots_return = tuple(plots)
+    figures.append(aqp.plot_disparity_all(bdf, metrics=metrics_adj))
-    return (table, *plots_return)
+    return (table, *figures)

validmind/tests/data_validation/ProtectedClassesThresholdOptimizer.py CHANGED Viewed

@@ -103,10 +103,7 @@ def ProtectedClassesThresholdOptimizer(
         test_df, target, y_pred_opt, protected_classes
     )
-    return (
-        {"DPR and EOR Table": fairness_metrics.reset_index()},
-        fig,
-    )
+    return {"DPR and EOR Table": fairness_metrics.reset_index()}, fig
 def initialize_and_fit_optimizer(pipeline, X_train, y_train, protected_classes_df):

validmind/tests/data_validation/RollingStatsPlot.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import matplotlib.pyplot as plt
 import pandas as pd
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -95,13 +95,24 @@ def RollingStatsPlot(dataset: VMDataset, window_size: int = 12):
     if not pd.api.types.is_datetime64_any_dtype(dataset.df.index):
         raise SkipTestError("Index must be a datetime type")
-    return tuple(
-        [
-            plot_rolling_statistics(
-                df=dataset.df.dropna(),
-                col=col,
-                window_size=window_size,
-            )
-            for col in dataset.feature_columns
-        ]
+    figures = [
+        plot_rolling_statistics(
+            df=dataset.df.dropna(),
+            col=col,
+            window_size=window_size,
+        )
+        for col in dataset.feature_columns
+    ]
+    return (
+        *figures,
+        RawData(
+            rolling_means_stds={
+                col: {
+                    "rolling_mean": dataset.df[col].rolling(window=window_size).mean(),
+                    "rolling_std": dataset.df[col].rolling(window=window_size).std(),
+                }
+                for col in dataset.feature_columns
+            }
+        ),
     )

validmind/tests/data_validation/ScatterPlot.py CHANGED Viewed

@@ -55,8 +55,8 @@ def ScatterPlot(dataset):
     - Assumes that the dataset can fit into the computer's memory, which might not be valid for extremely large
     datasets.
     """
     g = sns.pairplot(data=dataset.df, diag_kind="kde")
     for ax in g.axes.flatten():
         # rotate x axis labels
         ax.set_xlabel(ax.get_xlabel(), rotation=45)
@@ -64,12 +64,10 @@ def ScatterPlot(dataset):
         ax.set_ylabel(ax.get_ylabel(), rotation=45)
         # set y labels alignment
         ax.yaxis.get_label().set_horizontalalignment("right")
     # Get the current figure
     fig = plt.gcf()
-    figures = []
-    figures.append(fig)
     plt.close("all")
-    return tuple(figures)
+    return fig

validmind/tests/data_validation/ScoreBandDefaultRates.py CHANGED Viewed

@@ -2,8 +2,9 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-import pandas as pd
 import numpy as np
+import pandas as pd
 from validmind import tags, tasks
 from validmind.vm_models import VMDataset, VMModel

validmind/tests/data_validation/SeasonalDecompose.py CHANGED Viewed

@@ -9,7 +9,7 @@ from plotly.subplots import make_subplots
 from scipy import stats
 from statsmodels.tsa.seasonal import seasonal_decompose
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -65,6 +65,8 @@ def SeasonalDecompose(dataset: VMDataset, seasonal_model: str = "additive"):
     figures = []
+    raw_data = {}
     for col in df.columns:
         series = df[col].dropna()
@@ -153,7 +155,15 @@ def SeasonalDecompose(dataset: VMDataset, seasonal_model: str = "additive"):
         figures.append(fig)
+        # Add the decomposed components to raw_data
+        raw_data[col] = {
+            "observed": sd.observed,
+            "trend": sd.trend,
+            "seasonal": sd.seasonal,
+            "residuals": sd.resid,
+        }
     if not figures:
         raise SkipTestError("No valid features found for seasonal decomposition")
-    return tuple(figures)
+    return (*figures, RawData(decomposed_components=raw_data))

validmind/tests/data_validation/Skewness.py CHANGED Viewed

@@ -73,6 +73,9 @@ def Skewness(dataset, max_threshold=1):
             }
         )
-    return {
-        "Skewness Results for Dataset": results_table,
-    }, passed
+    return (
+        {
+            "Skewness Results for Dataset": results_table,
+        },
+        passed,
+    )

validmind 2.7.5__py3-none-any.whl → 2.7.7__py3-none-any.whl

validmind 2.7.5py3-none-any.whl → 2.7.7py3-none-any.whl