PyPI - validmind - Versions diffs - 2.5.24__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.24py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.24.dist-info/METADATA +0 -118
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.24.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/nlp/CommonWords.py CHANGED Viewed

@@ -2,22 +2,19 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-"""
-Metrics functions for any Pandas-compatible datasets
-"""
 from collections import Counter
-from dataclasses import dataclass
-import matplotlib.pyplot as plt
 import nltk
+import plotly.graph_objects as go
 from nltk.corpus import stopwords
-from ....vm_models import Figure, Metric, VMDataset
+from validmind import tags, tasks
+from validmind.vm_models import VMDataset
-@dataclass
-class CommonWords(Metric):
+@tags("nlp", "text_data", "visualization", "frequency_analysis")
+@tasks("text_classification", "text_summarization")
+def CommonWords(dataset: VMDataset):
     """
     Assesses the most frequent non-stopwords in a text column for identifying prevalent language patterns.
@@ -31,8 +28,8 @@ class CommonWords(Metric):
     The test methodology involves splitting the specified text column's entries into words, collating them into a
     corpus, and then counting the frequency of each word using the Counter. The forty most frequently occurring
-    non-stopwords are then visualized in a bar chart, where the x-axis represents the words, and the y-axis indicates
-    their frequency of occurrence.
+    non-stopwords are then visualized in an interactive bar chart using Plotly, where the x-axis represents the words,
+    and the y-axis indicates their frequency of occurrence.
     ### Signs of High Risk
@@ -46,7 +43,7 @@ class CommonWords(Metric):
     - The metric provides clear insights into the language features – specifically word frequency – of unstructured
     text data.
     - It can reveal prominent vocabulary and language patterns, which prove vital for feature extraction in NLP tasks.
-    - The visualization helps in quickly capturing the patterns and understanding the data intuitively.
+    - The interactive visualization helps in quickly capturing the patterns and understanding the data intuitively.
     ### Limitations
@@ -58,48 +55,43 @@ class CommonWords(Metric):
     applicability.
     """
-    name = "common_words"
-    required_inputs = ["dataset"]
-    tasks = ["text_classification", "text_summarization"]
-    tags = ["nlp", "text_data", "visualization", "frequency_analysis"]
-    def run(self):
-        # Can only run this test if we have a Dataset object
-        if not isinstance(self.inputs.dataset, VMDataset):
-            raise ValueError("CommonWords requires a validmind Dataset object")
-        def create_corpus(df, text_column):
-            corpus = []
-            for x in df[text_column].str.split():
-                for i in x:
-                    corpus.append(i)
-            return corpus
-        text_column = self.inputs.dataset.text_column
-        corpus = create_corpus(self.inputs.dataset.df, text_column=text_column)
-        counter = Counter(corpus)
-        most = counter.most_common()
-        x = []
-        y = []
-        nltk.download("stopwords")
-        stop = set(stopwords.words("english"))
-        for word, count in most[:40]:
-            if word not in stop:
-                x.append(word)
-                y.append(count)
-        fig = plt.figure()
-        plt.bar(x, y, color="#17C37B")
-        plt.xticks(rotation=90)
-        # Do this if you want to prevent the figure from being displayed
-        plt.close("all")
-        return self.cache_results(
-            figures=[
-                Figure(
-                    for_object=self,
-                    key=self.key,
-                    figure=fig,
-                )
-            ]
-        )
+    # Check text column
+    if not dataset.text_column:
+        raise ValueError("Please set text_column name in the Validmind Dataset object")
+    nltk.download("stopwords", quiet=True)
+    counter = Counter(
+        [word for x in dataset.df[dataset.text_column].str.split() for word in x]
+    )
+    most = counter.most_common()
+    def create_corpus(df, text_column):
+        corpus = []
+        for x in df[text_column].str.split():
+            for i in x:
+                corpus.append(i)
+        return corpus
+    corpus = create_corpus(dataset.df, text_column=dataset.text_column)
+    counter = Counter(corpus)
+    most = counter.most_common()
+    x = []
+    y = []
+    stop = set(stopwords.words("english"))
+    for word, count in most[:40]:
+        if word not in stop:
+            x.append(word)
+            y.append(count)
+    fig = go.Figure(data=[go.Bar(x=x, y=y, marker_color="#17C37B")])
+    fig.update_layout(
+        title="Most Common Words",
+        xaxis_title="Words",
+        yaxis_title="Frequency",
+        xaxis_tickangle=-45,
+    )
+    return fig

validmind/tests/data_validation/nlp/Hashtags.py CHANGED Viewed

@@ -2,20 +2,18 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-"""
-Threshold based tests
-"""
 import re
-from dataclasses import dataclass
 import plotly.graph_objects as go
-from validmind.vm_models import Figure, ThresholdTest, VMDataset
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-@dataclass
-class Hashtags(ThresholdTest):
+@tags("nlp", "text_data", "visualization", "frequency_analysis")
+@tasks("text_classification", "text_summarization")
+def Hashtags(dataset: VMDataset, top_hashtags: int = 25):
     """
     Assesses hashtag frequency in a text column, highlighting usage trends and potential dataset bias or spam.
@@ -58,44 +56,24 @@ class Hashtags(ThresholdTest):
     - Does not provide context or sentiment associated with the hashtags, so the information provided may have limited
     utility on its own.
     """
-    name = "hashtags"
-    required_inputs = ["dataset"]
-    default_params = {"top_hashtags": 25}
-    tasks = ["text_classification", "text_summarization"]
-    tags = ["nlp", "text_data", "visualization", "frequency_analysis"]
-    def run(self):
-        # Can only run this test if we have a Dataset object
-        if not isinstance(self.inputs.dataset, VMDataset):
-            raise ValueError("Hashtags requires a validmind Dataset object")
-        text_column = self.inputs.dataset.text_column
-        def find_hash(text):
-            return re.findall(r"(?<=#)\w+", str(text))
-        # Extract hashtags from the text column and count occurrences
-        hashtags = self.inputs.dataset.df[text_column].apply(find_hash).explode()
-        temp = hashtags.value_counts().head(self.params["top_hashtags"])
-        print(f"temp: {temp}")
-        figures = []
-        if not temp.empty:
-            fig = go.Figure(data=[go.Bar(x=temp.index, y=temp.values)])
-            fig.update_layout(
-                title="Top Hashtags",
-                xaxis_title="Hashtag",
-                yaxis_title="Count",
-                xaxis_tickangle=-45,
-            )
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=self.name,
-                    figure=fig,
-                )
-            )
-        return self.cache_results([], passed=True, figures=figures)
+    hashtags = (
+        dataset.df[dataset.text_column]
+        .apply(lambda x: re.findall(r"(?<=#)\w+", str(x)))
+        .explode()
+    )
+    top_hashtag_counts = hashtags.value_counts().head(top_hashtags)
+    if top_hashtag_counts.empty:
+        raise SkipTestError("No hashtags found in the dataset")
+    fig = go.Figure(
+        data=[go.Bar(x=top_hashtag_counts.index, y=top_hashtag_counts.values)]
+    )
+    fig.update_layout(
+        title="Top Hashtags",
+        xaxis_title="Hashtag",
+        yaxis_title="Count",
+        xaxis_tickangle=-45,
+    )
+    return fig

validmind/tests/data_validation/nlp/LanguageDetection.py CHANGED Viewed

@@ -2,11 +2,6 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-"""
-Metrics functions for any Pandas-compatible datasets
-"""
 import plotly.express as px
 from langdetect import LangDetectException, detect
@@ -55,24 +50,23 @@ def LanguageDetection(dataset):
     - The test returns "Unknown" for entries where language detection fails, which might mask underlying issues with
     certain languages or text formats.
     """
-    # check text column
     if not dataset.text_column:
-        raise ValueError("Please set text_column name in the Validmind Dataset object")
+        raise ValueError(
+            "Please set the `text_column` option when "
+            "initializing your Dataset object to use this test"
+        )
-    # Function to detect language
     def detect_language(text):
         try:
             return detect(text)
         except LangDetectException:
-            return "Unknown"  # Return 'Unknown' if language detection fails
+            return "Unknown"
-    # Applying the language detection function to each text entry
     languages = dataset.df[dataset.text_column].apply(detect_language)
-    fig = px.histogram(
+    return px.histogram(
         languages,
         x=languages,
         title="Language Distribution",
         labels={"x": "Language Codes"},
     )
-    return fig

validmind/tests/data_validation/nlp/Mentions.py CHANGED Viewed

@@ -2,21 +2,19 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-"""
-Threshold based tests
-"""
 import re
-from dataclasses import dataclass
-import matplotlib.pyplot as plt
 import pandas as pd
 import plotly.express as px
-from validmind.vm_models import Figure, ThresholdTest, VMDataset
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-@dataclass
-class Mentions(ThresholdTest):
+@tags("nlp", "text_data", "visualization", "frequency_analysis")
+@tasks("text_classification", "text_summarization")
+def Mentions(dataset: VMDataset, top_mentions: int = 25):
     """
     Calculates and visualizes frequencies of '@' prefixed mentions in a text-based dataset for NLP model analysis.
@@ -57,58 +55,29 @@ class Mentions(ThresholdTest):
     - It does not provide insights on less frequently occurring data or outliers, which means potentially significant
     patterns could be overlooked.
     """
-    name = "mentions"
-    required_inputs = ["dataset"]
-    default_params = {"top_mentions": 25}
-    tasks = ["text_classification", "text_summarization"]
-    tags = ["nlp", "text_data", "visualization", "frequency_analysis"]
-    def run(self):
-        # Can only run this test if we have a Dataset object
-        if not isinstance(self.inputs.dataset, VMDataset):
-            raise ValueError("Mentions requires a validmind Dataset object")
-        text_column = self.inputs.dataset.text_column
-        def mentions(text):
-            line = re.findall(r"(?<=@)\w+", text)
-            return " ".join(line)
-        b = (
-            self.inputs.dataset.df[text_column]
-            .apply(lambda x: mentions(x))
-            .value_counts()[:][1 : self.params["top_mentions"]]
-            .index.tolist()
-        )
-        a = (
-            self.inputs.dataset.df[text_column]
-            .apply(lambda x: mentions(x))
-            .value_counts()[:][1 : self.params["top_mentions"]]
-            .tolist()
-        )
-        row = pd.DataFrame({"scenario": []})
-        row["scenario"] = b
-        row["Percentage"] = a
-        figures = []
-        if not row.empty:
-            fig = px.treemap(
-                row, path=["scenario"], values="Percentage", title="Tree of Mentions"
-            )
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=self.name,
-                    figure=fig,
-                )
-            )
-        # Do this if you want to prevent the figure from being displayed
-        plt.close("all")
-        return self.cache_results(
-            [],
-            passed=True,
-            figures=figures,
-        )
+    mention_counts = (
+        dataset.df[dataset.text_column]
+        .apply(lambda x: " ".join(re.findall(r"(?<=@)\w+", x)))
+        .value_counts()
+    )
+    if mention_counts.empty:
+        raise SkipTestError("No mentions found in the dataset")
+    start_index = 1 if mention_counts.iloc[0] == "" else 0
+    end_index = top_mentions + start_index
+    mention_counts = mention_counts[start_index:end_index]
+    mention_frequencies_df = pd.DataFrame(
+        {
+            "Scenario": mention_counts.index.tolist(),
+            "Percentage": mention_counts.tolist(),
+        }
+    )
+    return px.treemap(
+        mention_frequencies_df,
+        path=["Scenario"],
+        values="Percentage",
+        title="Tree of Mentions",
+    )

validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py CHANGED Viewed

@@ -12,7 +12,7 @@ from validmind import tags, tasks
 @tags("nlp", "text_data", "data_validation")
 @tasks("nlp")
-def PolarityAndSubjectivity(dataset):
+def PolarityAndSubjectivity(dataset, threshold_subjectivity=0.5, threshold_polarity=0):
     """
     Analyzes the polarity and subjectivity of text data within a given dataset to visualize the sentiment distribution.
@@ -50,23 +50,98 @@ def PolarityAndSubjectivity(dataset):
     - Reliance on TextBlob which may not be accurate for all domains or contexts.
     - Visualization could become cluttered with very large datasets, making interpretation difficult.
     """
-    # Function to calculate sentiment and subjectivity
-    def analyze_sentiment(text):
-        analysis = TextBlob(text)
-        return analysis.sentiment.polarity, analysis.sentiment.subjectivity
-    data = pd.DataFrame()
-    # Apply the function to each row
-    data[["polarity", "subjectivity"]] = dataset.df[dataset.text_column].apply(
-        lambda x: pd.Series(analyze_sentiment(x))
+    # Check text column
+    if not dataset.text_column:
+        raise ValueError("Please set text_column name in the Validmind Dataset object")
+    sentiments = dataset.df[dataset.text_column].apply(lambda x: TextBlob(x).sentiment)
+    data = pd.DataFrame(
+        {
+            "polarity": [s.polarity for s in sentiments],
+            "subjectivity": [s.subjectivity for s in sentiments],
+        }
     )
     # Create a Plotly scatter plot
     fig = px.scatter(
-        data, x="polarity", y="subjectivity", title="Polarity vs Subjectivity"
+        data_frame=data,
+        x="polarity",
+        y="subjectivity",
+        title="Polarity vs Subjectivity",
     )
     fig.update_traces(textposition="top center")
-    fig.update_layout(xaxis_title="Polarity", yaxis_title="Subjectivity")
-    return fig
+    # Add threshold lines with names for legend
+    fig.add_hline(
+        y=threshold_subjectivity,
+        line_dash="dash",
+        line_color="gray",
+        opacity=0.5,
+        name=f"Subjectivity Threshold ({threshold_subjectivity})",
+    )
+    fig.add_vline(
+        x=threshold_polarity,
+        line_dash="dash",
+        line_color="gray",
+        opacity=0.5,
+        name=f"Polarity Threshold ({threshold_polarity})",
+    )
+    fig.update_layout(
+        xaxis_title="Polarity",
+        yaxis_title="Subjectivity",
+        xaxis=dict(range=[-1, 1]),
+        yaxis=dict(range=[0, 1]),
+        showlegend=True,
+    )
+    # Create Quadrant Distribution table
+    quadrant_df = pd.DataFrame(
+        {
+            "Quadrant": [
+                "Subjective - Positive Sentiment",
+                "Subjective - Negative Sentiment",
+                "Objective - Positive Sentiment",
+                "Objective - Negative Sentiment",
+            ],
+            "Ratio (%)": [
+                (
+                    (data["polarity"] >= threshold_polarity)
+                    & (data["subjectivity"] >= threshold_subjectivity)
+                ).mean()
+                * 100,
+                (
+                    (data["polarity"] < threshold_polarity)
+                    & (data["subjectivity"] >= threshold_subjectivity)
+                ).mean()
+                * 100,
+                (
+                    (data["polarity"] >= threshold_polarity)
+                    & (data["subjectivity"] < threshold_subjectivity)
+                ).mean()
+                * 100,
+                (
+                    (data["polarity"] < threshold_polarity)
+                    & (data["subjectivity"] < threshold_subjectivity)
+                ).mean()
+                * 100,
+            ],
+        }
+    )
+    # Create Statistics table
+    stats_df = pd.DataFrame(
+        {
+            "Metric": ["Polarity", "Subjectivity"],
+            "Range": ["[-1, 1]", "[0, 1]"],
+            "Mean": [data["polarity"].mean(), data["subjectivity"].mean()],
+            "Median": [data["polarity"].median(), data["subjectivity"].median()],
+            "Std": [data["polarity"].std(), data["subjectivity"].std()],
+            "Min": [data["polarity"].min(), data["subjectivity"].min()],
+            "Max": [data["polarity"].max(), data["subjectivity"].max()],
+        }
+    )
+    statistics_tables = {"Quadrant Distribution": quadrant_df, "Statistics": stats_df}
+    return fig, statistics_tables

validmind/tests/data_validation/nlp/Punctuations.py CHANGED Viewed

@@ -8,15 +8,15 @@ Metrics functions for any Pandas-compatible datasets
 import string
 from collections import defaultdict
-from dataclasses import dataclass
-import matplotlib.pyplot as plt
+import plotly.graph_objects as go
-from validmind.vm_models import Figure, Metric, VMDataset
+from validmind import tags, tasks
-@dataclass
-class Punctuations(Metric):
+@tags("nlp", "text_data", "visualization", "frequency_analysis")
+@tasks("text_classification", "text_summarization", "nlp")
+def Punctuations(dataset, count_mode="token"):
     """
     Analyzes and visualizes the frequency distribution of punctuation usage in a given text dataset.
@@ -28,10 +28,11 @@ class Punctuations(Metric):
     ### Test Mechanism
-    The test begins by verifying that the input "dataset" is of the type VMDataset. Following that, a corpus is created
-    from the dataset by splitting its text on spaces. Each unique punctuation character in the text corpus is then
-    tallied. The frequency distribution of each punctuation symbol is visualized as a bar graph, with these results
-    being stored as Figures and associated with the main Punctuations object.
+    The test begins by verifying that the input "dataset" is of the type VMDataset. The count_mode parameter must be
+    either "token" (counts punctuation marks as individual tokens) or "word" (counts punctuation marks within words).
+    Following that, a corpus is created from the dataset by splitting its text on spaces. Each unique punctuation
+    character in the text corpus is then tallied. The frequency distribution of each punctuation symbol is visualized
+    as a bar graph, with these results being stored as Figures and associated with the main Punctuations object.
     ### Signs of High Risk
@@ -53,45 +54,60 @@ class Punctuations(Metric):
     - Less effective with languages that use non-standard or different punctuation.
     - Visualization may lack interpretability when there are many unique punctuation marks in the dataset.
     """
-    name = "punctuations"
-    required_inputs = ["dataset"]
-    tasks = ["text_classification", "text_summarization"]
-    tags = ["nlp", "text_data", "visualization", "frequency_analysis"]
-    def run(self):
-        # Can only run this test if we have a Dataset object
-        if not isinstance(self.inputs.dataset, VMDataset):
-            raise ValueError("Punctuations requires a validmind Dataset object")
-        def create_corpus(df, text_column):
-            corpus = []
-            for x in df[text_column].str.split():
-                for i in x:
-                    corpus.append(i)
-            return corpus
-        text_column = self.inputs.dataset.text_column
-        corpus = create_corpus(self.inputs.dataset.df, text_column=text_column)
-        special = string.punctuation
-        dic = defaultdict(int, {key: 0 for key in special})
+    # Check text column
+    if not dataset.text_column:
+        raise ValueError("Please set text_column name in the Validmind Dataset object")
+    if count_mode not in ["token", "word"]:
+        raise ValueError("count_mode parameter must be either 'token' or 'word'")
+    corpus = _create_corpus(dataset.df, dataset.text_column)
+    punctuation_counts = _count_punctuations(corpus, count_mode)
+    return _create_punctuation_plot(punctuation_counts)
+def _create_punctuation_plot(punctuation_counts):
+    """Create a bar plot visualization of punctuation frequencies."""
+    fig = go.Figure(
+        data=[
+            go.Bar(
+                x=list(punctuation_counts.keys()),
+                y=list(punctuation_counts.values()),
+                marker_color="#17C37B",
+            )
+        ]
+    )
+    fig.update_layout(
+        title="Punctuation Distribution",
+        xaxis_title="Punctuation Marks",
+        yaxis_title="Frequency",
+        showlegend=False,
+    )
+    return fig
+def _create_corpus(df, text_column):
+    """Create a corpus from the dataset's text column."""
+    corpus = []
+    for x in df[text_column].str.split():
+        for i in x:
+            corpus.append(i)
+    return corpus
+def _count_punctuations(corpus, count_mode="token"):
+    """Count punctuation marks in the corpus based on the specified mode."""
+    special = string.punctuation
+    dic = defaultdict(int, {key: 0 for key in special})
+    if count_mode == "token":
         for i in corpus:
             if i in special:
                 dic[i] += 1
-        figures = []
-        # if dic:
-        fig = plt.figure()
-        x, y = zip(*dic.items())
-        plt.bar(x, y, color="#17C37B")
-        figures.append(
-            Figure(
-                for_object=self,
-                key=self.key,
-                figure=fig,
-            )
-        )
-        # Do this if you want to prevent the figure from being displayed
-        plt.close("all")
+    else:  # count_mode == "word"
+        for word in corpus:
+            for char in word:
+                if char in special:
+                    dic[char] += 1
-        return self.cache_results(figures=figures)
+    return dic

validmind/tests/data_validation/nlp/Sentiment.py CHANGED Viewed

@@ -47,6 +47,10 @@ def Sentiment(dataset):
     - Relies heavily on the accuracy of the VADER sentiment analysis tool.
     - Visualization alone may not provide comprehensive insights into underlying causes of sentiment distribution.
     """
+    # Check text column
+    if not dataset.text_column:
+        raise ValueError("Please set text_column name in the Validmind Dataset object")
     nltk.download("vader_lexicon", quiet=True)
     # Initialize VADER
     sia = SentimentIntensityAnalyzer()

validmind 2.5.24__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.24py3-none-any.whl → 2.6.7py3-none-any.whl