PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/nlp/StopWords.py CHANGED Viewed

@@ -7,26 +7,21 @@ Threshold based tests
 """
 from collections import defaultdict
-from dataclasses import dataclass
-from typing import List
-import matplotlib.pyplot as plt
 import nltk
 import pandas as pd
+import plotly.graph_objects as go
 from nltk.corpus import stopwords
-from validmind.vm_models import (
-    Figure,
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-@dataclass
-class StopWords(ThresholdTest):
+@tags("nlp", "text_data", "frequency_analysis", "visualization")
+@tasks("text_classification", "text_summarization")
+def StopWords(
+    dataset: VMDataset, min_percent_threshold: float = 0.5, num_words: int = 25
+):
     """
     Evaluates and visualizes the frequency of English stop words in a text dataset against a defined threshold.
@@ -75,82 +70,58 @@ class StopWords(ThresholdTest):
     or predictive accuracy.
     """
-    name = "stop_words"
-    required_inputs = ["dataset"]
-    default_params = {"min_percent_threshold": 0.5, "num_words": 25}
-    tasks = ["text_classification", "text_summarization"]
-    tags = ["nlp", "text_data", "visualization", "frequency_analysis"]
-    def summary(self, results: List[ThresholdTestResult], all_passed: bool):
-        # Create a DataFrame from the data
-        df = pd.DataFrame(results[0].values, columns=["Word", "Percentage"])
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=df,
-                    metadata=ResultTableMetadata(
-                        title=f"Stop words results for column '{self.inputs.dataset.target_column}'"
-                    ),
-                )
-            ]
-        )
-    def run(self):
-        text_column = self.inputs.dataset.text_column
-        def create_corpus(df, text_column):
-            corpus = []
-            for x in df[text_column].str.split():
-                for i in x:
-                    corpus.append(i)
-            return corpus
-        corpus = create_corpus(self.inputs.dataset.df, text_column=text_column)
-        nltk.download("stopwords")
-        stop = set(stopwords.words("english"))
-        dic = defaultdict(int)
-        for word in corpus:
-            if word in stop:
-                dic[word] += 1
-        # Calculate the total number of words in the corpus
-        total_words = len(corpus)
-        # Calculate the percentage of each word in the corpus
-        word_percentages = {}
-        for word, count in dic.items():
-            percentage = (count / total_words) * 100
-            word_percentages[word] = percentage
-        passed = all(word_percentages.values()) < self.params["min_percent_threshold"]
-        top = sorted(word_percentages.items(), key=lambda x: x[1], reverse=True)[
-            : self.params["num_words"]
-        ]
-        test_results = [
-            ThresholdTestResult(
-                passed=passed,
-                values=top,
-            )
-        ]
-        figures = []
-        if top:
-            fig, _ = plt.subplots()
-            x, y = zip(*top)
-            plt.bar(x, y)
-            plt.xticks(rotation=90)
-            # Do this if you want to prevent the figure from being displayed
-            plt.close("all")
-            figures = []
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.name}",
-                    figure=fig,
-                )
-            )
+    text_column = dataset.text_column
+    def create_corpus(df, text_column):
+        corpus = []
+        for x in df[text_column].str.split():
+            for i in x:
+                corpus.append(i)
+        return corpus
+    corpus = create_corpus(dataset.df, text_column=text_column)
+    nltk.download("stopwords", quiet=True)
+    stop = set(stopwords.words("english"))
+    dic = defaultdict(int)
+    for word in corpus:
+        if word in stop:
+            dic[word] += 1
+    # Calculate the total number of words in the corpus
+    total_words = len(corpus)
-        return self.cache_results(test_results, passed=passed, figures=figures)
+    # Calculate the percentage of each word in the corpus
+    word_percentages = {}
+    for word, count in dic.items():
+        percentage = (count / total_words) * 100
+        word_percentages[word] = percentage
+    passed = all(word_percentages.values()) < min_percent_threshold
+    results = sorted(word_percentages.items(), key=lambda x: x[1], reverse=True)[
+        :num_words
+    ]
+    if not results:
+        return passed
+    x, y = zip(*results)
+    fig = go.Figure(data=[go.Bar(x=x, y=y)])
+    fig.update_layout(
+        title=f"Stop Words Frequency in '{text_column}'",
+        xaxis_title="Stop Words",
+        yaxis_title="Percentage (%)",
+        xaxis_tickangle=-45,
+    )
+    return (
+        {
+            f"Stop words results for column '{text_column}'": pd.DataFrame(
+                results, columns=["Word", "Percentage"]
+            )
+        },
+        fig,
+        passed,
+    )

validmind/tests/data_validation/nlp/TextDescription.py CHANGED Viewed

@@ -3,19 +3,98 @@
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
 import string
-from dataclasses import dataclass
-import matplotlib.pyplot as plt
 import nltk
 import pandas as pd
 import plotly.express as px
 from nltk.corpus import stopwords
-from ....vm_models import Figure, Metric, VMDataset
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-@dataclass
-class TextDescription(Metric):
+def create_metrics_df(df, text_column, unwanted_tokens, lang):
+    stop_words = set(word.lower() for word in stopwords.words(lang))
+    unwanted_tokens = set(token.lower() for token in unwanted_tokens)
+    results = []
+    for text in df[text_column]:
+        # pre-process text
+        words = nltk.word_tokenize(text)
+        filtered_words = [
+            word
+            for word in words
+            if word.lower() not in stop_words
+            and word.lower() not in unwanted_tokens
+            and word not in string.punctuation
+        ]
+        sentences = nltk.sent_tokenize(text)
+        # calculate metrics
+        total_words = len(filtered_words)
+        total_sentences = len(sentences)
+        avg_sentence_length = round(
+            (
+                sum(len(sentence.split()) for sentence in sentences) / total_sentences
+                if total_sentences
+                else 0
+            ),
+            1,
+        )
+        total_paragraphs = len(text.split("\n\n"))
+        total_unique_words = len(set(filtered_words))
+        total_punctuations = sum(1 for word in words if word in string.punctuation)
+        lexical_diversity = round(
+            total_unique_words / len(filtered_words) if filtered_words else 0, 1
+        )
+        results.append(
+            [
+                total_words,
+                total_sentences,
+                avg_sentence_length,
+                total_paragraphs,
+                total_unique_words,
+                total_punctuations,
+                lexical_diversity,
+            ]
+        )
+    return pd.DataFrame(
+        results,
+        columns=[
+            "Total Words",
+            "Total Sentences",
+            "Avg Sentence Length",
+            "Total Paragraphs",
+            "Total Unique Words",
+            "Total Punctuations",
+            "Lexical Diversity",
+        ],
+    )
+@tags("nlp", "text_data", "visualization")
+@tasks("text_classification", "text_summarization")
+def TextDescription(
+    dataset: VMDataset,
+    unwanted_tokens: set = {
+        "s",
+        "s'",
+        "mr",
+        "ms",
+        "mrs",
+        "dr",
+        "'s",
+        " ",
+        "''",
+        "dollar",
+        "us",
+        "``",
+    },
+    lang: str = "english",
+):
     """
     Conducts comprehensive textual analysis on a dataset using NLTK to evaluate various parameters and generate
     visualizations.
@@ -60,160 +139,38 @@ class TextDescription(Metric):
     - Assumes well-structured documents, which may result in inaccuracies with poorly formatted text.
     """
-    name = "text_description"
-    required_inputs = ["dataset"]
-    default_params = {
-        "unwanted_tokens": {
-            "s",
-            "s'",
-            "mr",
-            "ms",
-            "mrs",
-            "dr",
-            "'s",
-            " ",
-            "''",
-            "dollar",
-            "us",
-            "``",
-        },
-        "num_top_words": 3,
-        "lang": "english",
-    }
-    tasks = ["text_classification", "text_summarization"]
-    tags = ["nlp", "text_data", "visualization"]
-    def general_text_metrics(self, df, text_column):
-        results = []
-        for text in df[text_column]:
-            sentences = nltk.sent_tokenize(text)
-            words = nltk.word_tokenize(text)
-            paragraphs = text.split("\n\n")
-            total_words = len(words)
-            total_sentences = len(sentences)
-            avg_sentence_length = round(
-                (
-                    sum(len(sentence.split()) for sentence in sentences)
-                    / total_sentences
-                    if total_sentences
-                    else 0
-                ),
-                1,
+    if dataset.text_column is None:
+        raise ValueError("A 'text_column' must be provided to run this test.")
+    nltk.download("punkt_tab", quiet=True)
+    metrics_df = create_metrics_df(
+        dataset.df, dataset.text_column, unwanted_tokens, lang
+    )
+    combinations_to_plot = [
+        ("Total Words", "Total Sentences"),
+        ("Total Words", "Total Unique Words"),
+        ("Total Sentences", "Avg Sentence Length"),
+        ("Total Unique Words", "Lexical Diversity"),
+    ]
+    figures = []
+    # Create hist plots for each column
+    for column in metrics_df.columns:
+        fig = px.histogram(metrics_df, x=column)
+        fig.update_layout(bargap=0.2)
+        figures.append(fig)
+    for metric1, metric2 in combinations_to_plot:
+        figures.append(
+            px.scatter(
+                metrics_df,
+                x=metric1,
+                y=metric2,
+                title=f"Scatter Plot: {metric1} vs {metric2}",
             )
-            total_paragraphs = len(paragraphs)
-            results.append(
-                [total_words, total_sentences, avg_sentence_length, total_paragraphs]
-            )
-        return pd.DataFrame(
-            results,
-            columns=[
-                "Total Words",
-                "Total Sentences",
-                "Avg Sentence Length",
-                "Total Paragraphs",
-            ],
         )
-    def vocabulary_structure_metrics(
-        self, df, text_column, unwanted_tokens, num_top_words, lang
-    ):
-        stop_words = set(word.lower() for word in stopwords.words(lang))
-        unwanted_tokens = set(token.lower() for token in unwanted_tokens)
-        results = []
-        for text in df[text_column]:
-            words = nltk.word_tokenize(text)
-            filtered_words = [
-                word
-                for word in words
-                if word.lower() not in stop_words
-                and word.lower() not in unwanted_tokens
-                and word not in string.punctuation
-            ]
-            total_unique_words = len(set(filtered_words))
-            total_punctuations = sum(1 for word in words if word in string.punctuation)
-            lexical_diversity = round(
-                total_unique_words / len(filtered_words) if filtered_words else 0, 1
-            )
-            results.append([total_unique_words, total_punctuations, lexical_diversity])
-        return pd.DataFrame(
-            results,
-            columns=["Total Unique Words", "Total Punctuations", "Lexical Diversity"],
-        )
-    # Wrapper function that combines the outputs
-    def text_description_table(self, df, params):
-        text_column = self.inputs.dataset.text_column
-        unwanted_tokens = params["unwanted_tokens"]
-        num_top_words = params["num_top_words"]
-        lang = params["lang"]
-        gen_metrics_df = self.general_text_metrics(df, text_column)
-        vocab_metrics_df = self.vocabulary_structure_metrics(
-            df, text_column, unwanted_tokens, num_top_words, lang
-        )
-        combined_df = pd.concat([gen_metrics_df, vocab_metrics_df], axis=1)
-        return combined_df
-    def run(self):
-        # Enforce that text_column must be provided as part of the params
-        if self.inputs.dataset.text_column is None:
-            raise ValueError("A 'text_column' must be provided to run this test.")
-        # Can only run this test if we have a Dataset object
-        if not isinstance(self.inputs.dataset, VMDataset):
-            raise ValueError("TextDescription requires a validmind Dataset object")
-        # download nltk data
-        nltk.download("punkt_tab", quiet=True)
-        df_text_description = self.text_description_table(
-            self.inputs.dataset.df, self.params
-        )
-        # Define the combinations you want to plot
-        combinations_to_plot = [
-            ("Total Words", "Total Sentences"),
-            ("Total Words", "Total Unique Words"),
-            ("Total Sentences", "Avg Sentence Length"),
-            ("Total Unique Words", "Lexical Diversity"),
-        ]
-        params = {"combinations_to_plot": combinations_to_plot}
-        figures = self.text_description_plots(df_text_description, params)
-        return self.cache_results(
-            figures=figures,
-        )
-    # Function to plot scatter plots for specified combinations using Plotly
-    def text_description_plots(self, df, params):
-        combinations_to_plot = params["combinations_to_plot"]
-        figures = []
-        # Create hist plots for each column
-        for i, column in enumerate(df.columns):
-            fig = px.histogram(df, x=column)
-            fig.update_layout(bargap=0.2)
-            # Generate a unique key for each histogram using the column name and index
-            histogram_key = f"{self.name}_histogram_{column}_{i}"
-            figures.append(Figure(for_object=self, key=histogram_key, figure=fig))
-        for j, (metric1, metric2) in enumerate(combinations_to_plot):
-            fig = px.scatter(
-                df, x=metric1, y=metric2, title=f"Scatter Plot: {metric1} vs {metric2}"
-            )
-            # Generate a unique key for each scatter plot using the metric names and index
-            scatter_key = f"{self.name}_scatter_{metric1}_vs_{metric2}_{j}"
-            figures.append(Figure(for_object=self, key=scatter_key, figure=fig))
-        plt.close("all")
-        return figures
+    return tuple(figures)

validmind/tests/data_validation/nlp/Toxicity.py CHANGED Viewed

@@ -49,9 +49,15 @@ def Toxicity(dataset):
     - Does not provide context-specific insights, which may be necessary for nuanced understanding.
     - May not capture all forms of subtle or indirect toxic language.
     """
+    # Check text column
+    if not dataset.text_column:
+        raise ValueError("Please set text_column name in the Validmind Dataset object")
+    text_inputs = dataset.df[dataset.text_column].tolist()
     toxicity = evaluate.load("toxicity")
-    input_text = dataset.df[dataset.text_column]
-    toxicity_scores = toxicity.compute(predictions=list(input_text.values))["toxicity"]
+    toxicity_scores = toxicity.compute(predictions=text_inputs)["toxicity"]
     fig = plt.figure()
     ax = sns.kdeplot(
@@ -62,7 +68,9 @@ def Toxicity(dataset):
         alpha=0.5,
         linewidth=0,
     )
-    ax.set_title(f"Toxicity score of {dataset.text_column} ")
+    ax.set_title(f"Toxicity score of {dataset.text_column}")
     ax.set_xlabel("Toxicity score")
-    plt.close("all")
+    plt.close()
     return fig

validmind 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl