PyPI - validmind - Versions diffs - 2.7.6__py3-none-any.whl → 2.7.7__py3-none-any.whl - Mend

validmind 2.7.6py3-none-any.whl → 2.7.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (147) hide show

validmind/tests/data_validation/SeasonalDecompose.py CHANGED Viewed

@@ -9,7 +9,7 @@ from plotly.subplots import make_subplots
 from scipy import stats
 from statsmodels.tsa.seasonal import seasonal_decompose
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -65,6 +65,8 @@ def SeasonalDecompose(dataset: VMDataset, seasonal_model: str = "additive"):
     figures = []
+    raw_data = {}
     for col in df.columns:
         series = df[col].dropna()
@@ -153,7 +155,15 @@ def SeasonalDecompose(dataset: VMDataset, seasonal_model: str = "additive"):
         figures.append(fig)
+        # Add the decomposed components to raw_data
+        raw_data[col] = {
+            "observed": sd.observed,
+            "trend": sd.trend,
+            "seasonal": sd.seasonal,
+            "residuals": sd.resid,
+        }
     if not figures:
         raise SkipTestError("No valid features found for seasonal decomposition")
-    return tuple(figures)
+    return (*figures, RawData(decomposed_components=raw_data))

validmind/tests/data_validation/Skewness.py CHANGED Viewed

@@ -73,6 +73,9 @@ def Skewness(dataset, max_threshold=1):
             }
         )
-    return {
-        "Skewness Results for Dataset": results_table,
-    }, passed
+    return (
+        {
+            "Skewness Results for Dataset": results_table,
+        },
+        passed,
+    )

validmind/tests/data_validation/SpreadPlot.py CHANGED Viewed

@@ -6,7 +6,7 @@ import matplotlib.pyplot as plt
 import pandas as pd
 import seaborn as sns
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -70,6 +70,7 @@ def SpreadPlot(dataset: VMDataset):
     ]
     figures = []
+    spread_data = {}
     for var1, var2 in feature_pairs:
         fig, ax = plt.subplots()
@@ -80,8 +81,9 @@ def SpreadPlot(dataset: VMDataset):
             y=0.95,
         )
+        spread_series = df[var1] - df[var2]
         sns.lineplot(
-            data=df[var1] - df[var2],
+            data=spread_series,
             ax=ax,
         )
@@ -89,5 +91,8 @@ def SpreadPlot(dataset: VMDataset):
         ax.tick_params(axis="both", labelsize=18)
         figures.append(fig)
+        spread_data[f"{var1}_{var2}_spread"] = spread_series.to_frame(
+            name=f"spread_{var1}_{var2}"
+        )
-    return tuple(figures)
+    return (*figures, RawData(spread_data=spread_data))

validmind/tests/data_validation/TabularCategoricalBarPlots.py CHANGED Viewed

@@ -4,7 +4,7 @@
 import plotly.graph_objs as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -66,9 +66,11 @@ def TabularCategoricalBarPlots(dataset: VMDataset):
     ]
     figures = []
+    counts_dict = {}
     for col in dataset.feature_columns_categorical:
         counts = dataset.df[col].value_counts()
+        counts_dict[col] = counts
         fig = go.Figure()
         fig.add_trace(
@@ -90,4 +92,4 @@ def TabularCategoricalBarPlots(dataset: VMDataset):
         )
         figures.append(fig)
-    return tuple(figures)
+    return (*figures, RawData(category_counts=counts_dict))

validmind/tests/data_validation/TabularDateTimeHistograms.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -72,4 +72,4 @@ def TabularDateTimeHistograms(dataset: VMDataset):
         font=dict(size=18),
     )
-    return fig
+    return fig, RawData(date_differences=date_diffs)

validmind/tests/data_validation/TargetRateBarPlots.py CHANGED Viewed

@@ -6,7 +6,7 @@ import numpy as np
 import plotly.graph_objs as go
 from plotly.subplots import make_subplots
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -62,12 +62,13 @@ def TargetRateBarPlots(dataset: VMDataset):
     df = dataset.df
     figures = []
+    raw_data = []
     for col in dataset.feature_columns_categorical:
         # Calculate counts and default rate for each category
         counts = df[col].value_counts()
         default_rate = df.groupby(col)[dataset.target_column].mean()
+        raw_data.append({"column": col, "counts": counts, "default_rate": default_rate})
         fig = make_subplots(
             rows=1,
@@ -107,4 +108,4 @@ def TargetRateBarPlots(dataset: VMDataset):
         figures.append(fig)
-    return tuple(figures)
+    return (*figures, RawData(target_rates_by_category=raw_data))

validmind/tests/data_validation/TimeSeriesFrequency.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -103,4 +103,9 @@ def TimeSeriesFrequency(dataset: VMDataset):
         ),
     )
-    return frequencies, fig, len(set(item["Frequency"] for item in frequencies)) == 1
+    return (
+        frequencies,
+        fig,
+        len(set(item["Frequency"] for item in frequencies)) == 1,
+        RawData(time_diff_days=time_diff_days),
+    )

validmind/tests/data_validation/TimeSeriesMissingValues.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 import plotly.express as px
 import plotly.figure_factory as ff
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -62,15 +62,18 @@ def TimeSeriesMissingValues(dataset: VMDataset, min_threshold: int = 1):
     if sum(missing.values) == 0:
         # if theres no missing values, no need to plot anything
-        return [
-            {
-                "Column": col,
-                "Number of Missing Values": missing[col],
-                "Percentage of Missing Values (%)": 0,
-                "Pass/Fail": "Pass",
-            }
-            for col in missing.index
-        ], True
+        return (
+            [
+                {
+                    "Column": col,
+                    "Number of Missing Values": missing[col],
+                    "Percentage of Missing Values (%)": 0,
+                    "Pass/Fail": "Pass",
+                }
+                for col in missing.index
+            ],
+            True,
+        )
     barplot = px.bar(
         missing,
@@ -110,4 +113,5 @@ def TimeSeriesMissingValues(dataset: VMDataset, min_threshold: int = 1):
         barplot,
         heatmap,
         all(missing[col] < min_threshold for col in missing.index),
+        RawData(missing_values_count=missing, missing_values_mask=missing_mask),
     )

validmind/tests/data_validation/TimeSeriesOutliers.py CHANGED Viewed

@@ -111,8 +111,4 @@ def TimeSeriesOutliers(dataset: VMDataset, zscore_threshold: int = 3):
         figures.append(fig)
-    return (
-        outlier_df.sort_values(["Column", "Date"]),
-        figures,
-        len(outlier_df) == 0,
-    )
+    return (outlier_df.sort_values(["Column", "Date"]), figures, len(outlier_df) == 0)

validmind/tests/data_validation/WOEBinPlots.py CHANGED Viewed

@@ -9,7 +9,7 @@ import plotly.graph_objects as go
 import scorecardpy as sc
 from plotly.subplots import make_subplots
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -140,4 +140,4 @@ def WOEBinPlots(
         figures.append(fig)
-    return tuple(figures)
+    return (*figures, RawData(woe_iv_data=woe_iv_df))

validmind/tests/data_validation/WOEBinTable.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import pandas as pd
 import scorecardpy as sc
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -61,12 +61,14 @@ def WOEBinTable(dataset: VMDataset, breaks_adj: list = None):
     except Exception as e:
         raise SkipTestError(f"Error during binning: {e}")
+    result_table = (
+        pd.concat(bins.values(), keys=bins.keys())
+        .reset_index()
+        .drop(columns=["variable"])
+        .rename(columns={"level_0": "variable"})
+        .assign(bin_number=lambda x: x.groupby("variable").cumcount())
+    )
     return {
-        "Weight of Evidence (WoE) and Information Value (IV)": (
-            pd.concat(bins.values(), keys=bins.keys())
-            .reset_index()
-            .drop(columns=["variable"])
-            .rename(columns={"level_0": "variable"})
-            .assign(bin_number=lambda x: x.groupby("variable").cumcount())
-        )
-    }
+        "Weight of Evidence (WoE) and Information Value (IV)": result_table
+    }, RawData(woe_bins=bins)

validmind/tests/data_validation/nlp/CommonWords.py CHANGED Viewed

@@ -8,7 +8,7 @@ import nltk
 import plotly.graph_objects as go
 from nltk.corpus import stopwords
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -94,4 +94,4 @@ def CommonWords(dataset: VMDataset):
         xaxis_tickangle=-45,
     )
-    return fig
+    return fig, RawData(words=x, frequencies=y)

validmind/tests/data_validation/nlp/Hashtags.py CHANGED Viewed

@@ -6,7 +6,7 @@ import re
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -76,4 +76,4 @@ def Hashtags(dataset: VMDataset, top_hashtags: int = 25):
         xaxis_tickangle=-45,
     )
-    return fig
+    return fig, RawData(top_hashtag_counts=top_hashtag_counts)

validmind/tests/data_validation/nlp/LanguageDetection.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import plotly.express as px
 from langdetect import LangDetectException, detect
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("nlp", "text_data", "visualization")
@@ -64,9 +64,12 @@ def LanguageDetection(dataset):
     languages = dataset.df[dataset.text_column].apply(detect_language)
-    return px.histogram(
-        languages,
-        x=languages,
-        title="Language Distribution",
-        labels={"x": "Language Codes"},
+    return (
+        px.histogram(
+            languages,
+            x=languages,
+            title="Language Distribution",
+            labels={"x": "Language Codes"},
+        ),
+        RawData(detected_languages=languages),
     )

validmind/tests/data_validation/nlp/Mentions.py CHANGED Viewed

@@ -7,7 +7,7 @@ import re
 import pandas as pd
 import plotly.express as px
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.vm_models import VMDataset
@@ -75,9 +75,12 @@ def Mentions(dataset: VMDataset, top_mentions: int = 25):
         }
     )
-    return px.treemap(
-        mention_frequencies_df,
-        path=["Scenario"],
-        values="Percentage",
-        title="Tree of Mentions",
+    return (
+        px.treemap(
+            mention_frequencies_df,
+            path=["Scenario"],
+            values="Percentage",
+            title="Tree of Mentions",
+        ),
+        RawData(mention_counts=mention_counts),
     )

validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py CHANGED Viewed

@@ -7,7 +7,7 @@ import pandas as pd
 import plotly.express as px
 from textblob import TextBlob
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("nlp", "text_data", "data_validation")
@@ -144,4 +144,4 @@ def PolarityAndSubjectivity(dataset, threshold_subjectivity=0.5, threshold_polar
     statistics_tables = {"Quadrant Distribution": quadrant_df, "Statistics": stats_df}
-    return fig, statistics_tables
+    return fig, statistics_tables, RawData(sentiment_data=data)

validmind/tests/data_validation/nlp/Punctuations.py CHANGED Viewed

@@ -11,7 +11,7 @@ from collections import defaultdict
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("nlp", "text_data", "visualization", "frequency_analysis")
@@ -63,7 +63,9 @@ def Punctuations(dataset, count_mode="token"):
     corpus = _create_corpus(dataset.df, dataset.text_column)
     punctuation_counts = _count_punctuations(corpus, count_mode)
-    return _create_punctuation_plot(punctuation_counts)
+    fig = _create_punctuation_plot(punctuation_counts)
+    return fig, RawData(punctuation_counts=punctuation_counts)
 def _create_punctuation_plot(punctuation_counts):

validmind/tests/data_validation/nlp/Sentiment.py CHANGED Viewed

@@ -8,7 +8,7 @@ import nltk
 import seaborn as sns
 from nltk.sentiment import SentimentIntensityAnalyzer
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("nlp", "text_data", "data_validation")
@@ -77,4 +77,4 @@ def Sentiment(dataset):
     plt.close("all")
-    return fig
+    return fig, RawData(sentiment_scores=vader_sentiment.tolist())

validmind/tests/data_validation/nlp/StopWords.py CHANGED Viewed

@@ -13,7 +13,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from nltk.corpus import stopwords
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -84,17 +84,17 @@ def StopWords(
     nltk.download("stopwords", quiet=True)
     stop = set(stopwords.words("english"))
-    dic = defaultdict(int)
+    stop_word_frequencies = defaultdict(int)
     for word in corpus:
         if word in stop:
-            dic[word] += 1
+            stop_word_frequencies[word] += 1
     # Calculate the total number of words in the corpus
     total_words = len(corpus)
     # Calculate the percentage of each word in the corpus
     word_percentages = {}
-    for word, count in dic.items():
+    for word, count in stop_word_frequencies.items():
         percentage = (count / total_words) * 100
         word_percentages[word] = percentage
@@ -124,4 +124,5 @@ def StopWords(
         },
         fig,
         passed,
+        RawData(stop_word_frequencies=stop_word_frequencies, total_words=total_words),
     )

validmind/tests/data_validation/nlp/TextDescription.py CHANGED Viewed

@@ -9,7 +9,7 @@ import pandas as pd
 import plotly.express as px
 from nltk.corpus import stopwords
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset
@@ -173,4 +173,4 @@ def TextDescription(
             )
         )
-    return tuple(figures)
+    return (*figures, RawData(metrics_dataframe=metrics_df))

validmind/tests/data_validation/nlp/Toxicity.py CHANGED Viewed

@@ -6,7 +6,7 @@ import evaluate
 import matplotlib.pyplot as plt
 import seaborn as sns
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("nlp", "text_data", "data_validation")
@@ -73,4 +73,4 @@ def Toxicity(dataset):
     plt.close()
-    return fig
+    return fig, RawData(toxicity_scores=toxicity_scores)

validmind/tests/model_validation/BertScore.py CHANGED Viewed

@@ -6,7 +6,7 @@ import evaluate
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.tests.utils import validate_prediction
@@ -131,4 +131,4 @@ def BertScore(
     # Create a DataFrame from all collected statistics
     result_df = pd.DataFrame(stats_df).reset_index().rename(columns={"index": "Metric"})
-    return (result_df, *tuple(figures))
+    return (result_df, *figures, RawData(bert_scores_df=metrics_df))

validmind/tests/model_validation/BleuScore.py CHANGED Viewed

@@ -6,7 +6,7 @@ import evaluate
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.tests.utils import validate_prediction
@@ -114,4 +114,4 @@ def BleuScore(dataset, model):
     # Create a DataFrame from all collected statistics
     result_df = pd.DataFrame(stats_df).reset_index().rename(columns={"index": "Metric"})
-    return (result_df, *tuple(figures))
+    return (result_df, *figures, RawData(bleu_scores_df=metrics_df))

validmind/tests/model_validation/ClusterSizeDistribution.py CHANGED Viewed

@@ -5,7 +5,7 @@
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset, VMModel
@@ -72,4 +72,4 @@ def ClusterSizeDistribution(dataset: VMDataset, model: VMModel):
     fig.update_yaxes(title_text="Counts", showgrid=False)
     fig.update_layout(title_text="Cluster distribution", title_x=0.5, barmode="group")
-    return fig
+    return fig, RawData(cluster_counts=df_counts)

validmind/tests/model_validation/ContextualRecall.py CHANGED Viewed

@@ -6,7 +6,7 @@ import nltk
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.tests.utils import validate_prediction
@@ -118,4 +118,4 @@ def ContextualRecall(dataset, model):
     # Create a DataFrame from all collected statistics
     result_df = pd.DataFrame(stats_df).reset_index().rename(columns={"index": "Metric"})
-    return (result_df, *tuple(figures))
+    return (result_df, *tuple(figures), RawData(contextual_recall_scores=metrics_df))

validmind/tests/model_validation/FeaturesAUC.py CHANGED Viewed

@@ -7,7 +7,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from sklearn.metrics import roc_auc_score
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.errors import SkipTestError
 from validmind.logging import get_logger
 from validmind.vm_models import VMDataset
@@ -95,4 +95,4 @@ def FeaturesAUC(dataset: VMDataset, fontsize: int = 12, figure_height: int = 500
         height=figure_height,
     )
-    return fig
+    return fig, RawData(feature_aucs=aucs)

validmind/tests/model_validation/MeteorScore.py CHANGED Viewed

@@ -6,7 +6,7 @@ import evaluate
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.tests.utils import validate_prediction
@@ -117,4 +117,4 @@ def MeteorScore(dataset, model):
     # Create a DataFrame from all collected statistics
     result_df = pd.DataFrame(stats_df).reset_index().rename(columns={"index": "Metric"})
-    return (result_df, *tuple(figures))
+    return (result_df, *tuple(figures), RawData(meteor_scores=metrics_df))

validmind/tests/model_validation/ModelPredictionResiduals.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from scipy.stats import kstest
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("regression")
@@ -102,4 +102,4 @@ def ModelPredictionResiduals(
     # Create a summary DataFrame for the KS normality test results
     summary_df = pd.DataFrame([summary])
-    return (summary_df, *figures)
+    return (summary_df, *figures, RawData(residuals=residuals))

validmind/tests/model_validation/RegardScore.py CHANGED Viewed

@@ -6,7 +6,7 @@ import evaluate
 import pandas as pd
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.tests.utils import validate_prediction
@@ -142,4 +142,8 @@ def RegardScore(dataset, model):
         ]
     ]
-    return (result_df, *tuple(figures))
+    return (
+        result_df,
+        *figures,
+        RawData(true_regard=true_df, pred_regard=pred_df),
+    )

validmind/tests/model_validation/RegressionResidualsPlot.py CHANGED Viewed

@@ -6,7 +6,7 @@ import numpy as np
 import plotly.figure_factory as ff
 import plotly.graph_objects as go
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 from validmind.vm_models import VMDataset, VMModel
@@ -60,8 +60,9 @@ def RegressionResidualsPlot(model: VMModel, dataset: VMDataset, bin_size: float
     figures = []
     # Residuals plot
+    residuals = y_true.flatten() - y_pred.flatten()
     fig = ff.create_distplot(
-        hist_data=[y_true.flatten() - y_pred.flatten()],
+        hist_data=[residuals],
         group_labels=["Residuals"],
         bin_size=[bin_size],
         show_hist=True,
@@ -104,4 +105,4 @@ def RegressionResidualsPlot(model: VMModel, dataset: VMDataset, bin_size: float
         )
     )
-    return tuple(figures)
+    return (*figures, RawData(residuals=residuals, y_true=y_true, y_pred=y_pred))

validmind/tests/model_validation/RougeScore.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 import plotly.graph_objects as go
 from rouge import Rouge
-from validmind import tags, tasks
+from validmind import RawData, tags, tasks
 @tags("nlp", "text_data", "visualization")
@@ -118,7 +118,8 @@ def RougeScore(dataset, model, metric="rouge-1"):
         {"p": "Precision", "r": "Recall", "f": "F1 Score"}
     )
-    # Create a DataFrame from all collected statistics
-    result_df = pd.DataFrame(stats_df).reset_index().rename(columns={"index": "Metric"})
-    return (result_df, *tuple(figures))
+    return (
+        pd.DataFrame(stats_df).reset_index().rename(columns={"index": "Metric"}),
+        *figures,
+        RawData(rouge_scores_df=df_scores),
+    )

validmind 2.7.6__py3-none-any.whl → 2.7.7__py3-none-any.whl

validmind 2.7.6py3-none-any.whl → 2.7.7py3-none-any.whl