PyPI - validmind - Versions diffs - 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl - Mend

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (198) hide show

validmind/__init__.py +8 -17
validmind/__version__.py +1 -1
validmind/ai/test_descriptions.py +66 -85
validmind/ai/test_result_description/context.py +2 -2
validmind/ai/utils.py +26 -1
validmind/api_client.py +43 -79
validmind/client.py +5 -7
validmind/client_config.py +1 -1
validmind/datasets/__init__.py +1 -1
validmind/datasets/classification/customer_churn.py +7 -5
validmind/datasets/nlp/__init__.py +2 -2
validmind/errors.py +6 -10
validmind/html_templates/content_blocks.py +18 -16
validmind/logging.py +21 -16
validmind/tests/__init__.py +28 -5
validmind/tests/__types__.py +186 -170
validmind/tests/_store.py +7 -21
validmind/tests/comparison.py +362 -0
validmind/tests/data_validation/ACFandPACFPlot.py +44 -73
validmind/tests/data_validation/ADF.py +49 -83
validmind/tests/data_validation/AutoAR.py +59 -96
validmind/tests/data_validation/AutoMA.py +59 -96
validmind/tests/data_validation/AutoStationarity.py +66 -114
validmind/tests/data_validation/ClassImbalance.py +48 -117
validmind/tests/data_validation/DatasetDescription.py +180 -209
validmind/tests/data_validation/DatasetSplit.py +50 -75
validmind/tests/data_validation/DescriptiveStatistics.py +59 -85
validmind/tests/data_validation/{DFGLSArch.py → DickeyFullerGLS.py} +44 -76
validmind/tests/data_validation/Duplicates.py +21 -90
validmind/tests/data_validation/EngleGrangerCoint.py +53 -75
validmind/tests/data_validation/HighCardinality.py +32 -80
validmind/tests/data_validation/HighPearsonCorrelation.py +29 -97
validmind/tests/data_validation/IQROutliersBarPlot.py +63 -94
validmind/tests/data_validation/IQROutliersTable.py +40 -80
validmind/tests/data_validation/IsolationForestOutliers.py +41 -63
validmind/tests/data_validation/KPSS.py +33 -81
validmind/tests/data_validation/LaggedCorrelationHeatmap.py +47 -95
validmind/tests/data_validation/MissingValues.py +17 -58
validmind/tests/data_validation/MissingValuesBarPlot.py +61 -87
validmind/tests/data_validation/PhillipsPerronArch.py +56 -79
validmind/tests/data_validation/RollingStatsPlot.py +50 -81
validmind/tests/data_validation/SeasonalDecompose.py +102 -184
validmind/tests/data_validation/Skewness.py +27 -64
validmind/tests/data_validation/SpreadPlot.py +34 -57
validmind/tests/data_validation/TabularCategoricalBarPlots.py +46 -65
validmind/tests/data_validation/TabularDateTimeHistograms.py +23 -45
validmind/tests/data_validation/TabularNumericalHistograms.py +27 -46
validmind/tests/data_validation/TargetRateBarPlots.py +54 -93
validmind/tests/data_validation/TimeSeriesFrequency.py +48 -133
validmind/tests/data_validation/TimeSeriesHistogram.py +24 -3
validmind/tests/data_validation/TimeSeriesLinePlot.py +29 -47
validmind/tests/data_validation/TimeSeriesMissingValues.py +59 -135
validmind/tests/data_validation/TimeSeriesOutliers.py +54 -171
validmind/tests/data_validation/TooManyZeroValues.py +21 -70
validmind/tests/data_validation/UniqueRows.py +23 -62
validmind/tests/data_validation/WOEBinPlots.py +83 -109
validmind/tests/data_validation/WOEBinTable.py +28 -69
validmind/tests/data_validation/ZivotAndrewsArch.py +33 -75
validmind/tests/data_validation/nlp/CommonWords.py +49 -57
validmind/tests/data_validation/nlp/Hashtags.py +27 -49
validmind/tests/data_validation/nlp/LanguageDetection.py +7 -13
validmind/tests/data_validation/nlp/Mentions.py +32 -63
validmind/tests/data_validation/nlp/PolarityAndSubjectivity.py +89 -14
validmind/tests/data_validation/nlp/Punctuations.py +63 -47
validmind/tests/data_validation/nlp/Sentiment.py +4 -0
validmind/tests/data_validation/nlp/StopWords.py +62 -91
validmind/tests/data_validation/nlp/TextDescription.py +116 -159
validmind/tests/data_validation/nlp/Toxicity.py +12 -4
validmind/tests/decorator.py +33 -242
validmind/tests/load.py +212 -153
validmind/tests/model_validation/BertScore.py +13 -7
validmind/tests/model_validation/BleuScore.py +4 -0
validmind/tests/model_validation/ClusterSizeDistribution.py +24 -47
validmind/tests/model_validation/ContextualRecall.py +3 -0
validmind/tests/model_validation/FeaturesAUC.py +43 -74
validmind/tests/model_validation/MeteorScore.py +3 -0
validmind/tests/model_validation/RegardScore.py +5 -1
validmind/tests/model_validation/RegressionResidualsPlot.py +54 -75
validmind/tests/model_validation/embeddings/ClusterDistribution.py +10 -33
validmind/tests/model_validation/embeddings/CosineSimilarityDistribution.py +11 -29
validmind/tests/model_validation/embeddings/DescriptiveAnalytics.py +19 -31
validmind/tests/model_validation/embeddings/EmbeddingsVisualization2D.py +40 -49
validmind/tests/model_validation/embeddings/StabilityAnalysisKeyword.py +29 -15
validmind/tests/model_validation/embeddings/StabilityAnalysisRandomNoise.py +25 -11
validmind/tests/model_validation/embeddings/StabilityAnalysisSynonyms.py +28 -13
validmind/tests/model_validation/embeddings/StabilityAnalysisTranslation.py +67 -38
validmind/tests/model_validation/embeddings/utils.py +53 -0
validmind/tests/model_validation/ragas/AnswerCorrectness.py +37 -32
validmind/tests/model_validation/ragas/{AspectCritique.py → AspectCritic.py} +33 -27
validmind/tests/model_validation/ragas/ContextEntityRecall.py +44 -41
validmind/tests/model_validation/ragas/ContextPrecision.py +40 -35
validmind/tests/model_validation/ragas/ContextPrecisionWithoutReference.py +133 -0
validmind/tests/model_validation/ragas/ContextRecall.py +40 -35
validmind/tests/model_validation/ragas/Faithfulness.py +42 -30
validmind/tests/model_validation/ragas/NoiseSensitivity.py +59 -35
validmind/tests/model_validation/ragas/{AnswerRelevance.py → ResponseRelevancy.py} +52 -41
validmind/tests/model_validation/ragas/{AnswerSimilarity.py → SemanticSimilarity.py} +39 -34
validmind/tests/model_validation/sklearn/AdjustedMutualInformation.py +13 -16
validmind/tests/model_validation/sklearn/AdjustedRandIndex.py +13 -16
validmind/tests/model_validation/sklearn/ClassifierPerformance.py +51 -89
validmind/tests/model_validation/sklearn/ClusterCosineSimilarity.py +31 -61
validmind/tests/model_validation/sklearn/ClusterPerformanceMetrics.py +118 -83
validmind/tests/model_validation/sklearn/CompletenessScore.py +13 -16
validmind/tests/model_validation/sklearn/ConfusionMatrix.py +62 -94
validmind/tests/model_validation/sklearn/FeatureImportance.py +7 -8
validmind/tests/model_validation/sklearn/FowlkesMallowsScore.py +12 -15
validmind/tests/model_validation/sklearn/HomogeneityScore.py +12 -15
validmind/tests/model_validation/sklearn/HyperParametersTuning.py +23 -53
validmind/tests/model_validation/sklearn/KMeansClustersOptimization.py +60 -74
validmind/tests/model_validation/sklearn/MinimumAccuracy.py +16 -84
validmind/tests/model_validation/sklearn/MinimumF1Score.py +22 -72
validmind/tests/model_validation/sklearn/MinimumROCAUCScore.py +29 -78
validmind/tests/model_validation/sklearn/ModelsPerformanceComparison.py +52 -82
validmind/tests/model_validation/sklearn/OverfitDiagnosis.py +51 -145
validmind/tests/model_validation/sklearn/PermutationFeatureImportance.py +60 -78
validmind/tests/model_validation/sklearn/PopulationStabilityIndex.py +130 -172
validmind/tests/model_validation/sklearn/PrecisionRecallCurve.py +26 -55
validmind/tests/model_validation/sklearn/ROCCurve.py +43 -77
validmind/tests/model_validation/sklearn/RegressionPerformance.py +41 -94
validmind/tests/model_validation/sklearn/RobustnessDiagnosis.py +47 -136
validmind/tests/model_validation/sklearn/SHAPGlobalImportance.py +164 -208
validmind/tests/model_validation/sklearn/SilhouettePlot.py +54 -99
validmind/tests/model_validation/sklearn/TrainingTestDegradation.py +50 -124
validmind/tests/model_validation/sklearn/VMeasure.py +12 -15
validmind/tests/model_validation/sklearn/WeakspotsDiagnosis.py +225 -281
validmind/tests/model_validation/statsmodels/AutoARIMA.py +40 -45
validmind/tests/model_validation/statsmodels/KolmogorovSmirnov.py +22 -47
validmind/tests/model_validation/statsmodels/Lilliefors.py +17 -28
validmind/tests/model_validation/statsmodels/RegressionFeatureSignificance.py +37 -81
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlot.py +37 -105
validmind/tests/model_validation/statsmodels/RegressionModelForecastPlotLevels.py +62 -166
validmind/tests/model_validation/statsmodels/RegressionModelSensitivityPlot.py +57 -119
validmind/tests/model_validation/statsmodels/RegressionModelSummary.py +20 -57
validmind/tests/model_validation/statsmodels/RegressionPermutationFeatureImportance.py +47 -80
validmind/tests/ongoing_monitoring/PredictionCorrelation.py +2 -0
validmind/tests/ongoing_monitoring/TargetPredictionDistributionPlot.py +4 -2
validmind/tests/output.py +120 -0
validmind/tests/prompt_validation/Bias.py +55 -98
validmind/tests/prompt_validation/Clarity.py +56 -99
validmind/tests/prompt_validation/Conciseness.py +63 -101
validmind/tests/prompt_validation/Delimitation.py +48 -89
validmind/tests/prompt_validation/NegativeInstruction.py +62 -96
validmind/tests/prompt_validation/Robustness.py +80 -121
validmind/tests/prompt_validation/Specificity.py +61 -95
validmind/tests/prompt_validation/ai_powered_test.py +2 -2
validmind/tests/run.py +314 -496
validmind/tests/test_providers.py +109 -79
validmind/tests/utils.py +91 -0
validmind/unit_metrics/__init__.py +16 -155
validmind/unit_metrics/classification/F1.py +1 -0
validmind/unit_metrics/classification/Precision.py +1 -0
validmind/unit_metrics/classification/ROC_AUC.py +1 -0
validmind/unit_metrics/classification/Recall.py +1 -0
validmind/unit_metrics/regression/AdjustedRSquaredScore.py +1 -0
validmind/unit_metrics/regression/GiniCoefficient.py +1 -0
validmind/unit_metrics/regression/HuberLoss.py +1 -0
validmind/unit_metrics/regression/KolmogorovSmirnovStatistic.py +1 -0
validmind/unit_metrics/regression/MeanAbsoluteError.py +1 -0
validmind/unit_metrics/regression/MeanAbsolutePercentageError.py +1 -0
validmind/unit_metrics/regression/MeanBiasDeviation.py +1 -0
validmind/unit_metrics/regression/MeanSquaredError.py +1 -0
validmind/unit_metrics/regression/QuantileLoss.py +1 -0
validmind/unit_metrics/regression/RSquaredScore.py +2 -1
validmind/unit_metrics/regression/RootMeanSquaredError.py +1 -0
validmind/utils.py +66 -17
validmind/vm_models/__init__.py +2 -17
validmind/vm_models/dataset/dataset.py +31 -4
validmind/vm_models/figure.py +7 -37
validmind/vm_models/model.py +3 -0
validmind/vm_models/result/__init__.py +7 -0
validmind/vm_models/result/result.jinja +21 -0
validmind/vm_models/result/result.py +337 -0
validmind/vm_models/result/utils.py +160 -0
validmind/vm_models/test_suite/runner.py +16 -54
validmind/vm_models/test_suite/summary.py +3 -3
validmind/vm_models/test_suite/test.py +43 -77
validmind/vm_models/test_suite/test_suite.py +8 -40
validmind-2.6.7.dist-info/METADATA +137 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/RECORD +182 -189
validmind/tests/data_validation/AutoSeasonality.py +0 -190
validmind/tests/metadata.py +0 -59
validmind/tests/model_validation/embeddings/StabilityAnalysis.py +0 -176
validmind/tests/model_validation/ragas/ContextUtilization.py +0 -161
validmind/tests/model_validation/sklearn/ClusterPerformance.py +0 -80
validmind/unit_metrics/composite.py +0 -238
validmind/vm_models/test/metric.py +0 -98
validmind/vm_models/test/metric_result.py +0 -61
validmind/vm_models/test/output_template.py +0 -55
validmind/vm_models/test/result_summary.py +0 -76
validmind/vm_models/test/result_wrapper.py +0 -488
validmind/vm_models/test/test.py +0 -103
validmind/vm_models/test/threshold_test.py +0 -106
validmind/vm_models/test/threshold_test_result.py +0 -75
validmind/vm_models/test_context.py +0 -259
validmind-2.5.25.dist-info/METADATA +0 -118
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/LICENSE +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/WHEEL +0 -0
{validmind-2.5.25.dist-info → validmind-2.6.7.dist-info}/entry_points.txt +0 -0

validmind/tests/data_validation/TimeSeriesLinePlot.py CHANGED Viewed

@@ -5,10 +5,14 @@
 import pandas as pd
 import plotly.graph_objects as go
-from validmind.vm_models import Figure, Metric
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-class TimeSeriesLinePlot(Metric):
+@tags("time_series_data", "visualization")
+@tasks("regression")
+def TimeSeriesLinePlot(dataset: VMDataset):
     """
     Generates and analyses time-series data through line plots revealing trends, patterns, anomalies over time.
@@ -51,49 +55,27 @@ class TimeSeriesLinePlot(Metric):
     - The metric has an inherent limitation in that it cannot extract deeper statistical insights from the time series
     data, which can limit its efficacy with complex data structures and phenomena.
     """
-    name = "time_series_line_plot"
-    required_inputs = ["dataset"]
-    tasks = ["regression"]
-    tags = ["time_series_data", "visualization"]
-    def run(self):
-        # Check if index is datetime
-        if not pd.api.types.is_datetime64_any_dtype(self.inputs.dataset.df.index):
-            raise ValueError("Index must be a datetime type")
-        columns = list(self.inputs.dataset.df.columns)
-        df = self.inputs.dataset.df
-        if not set(columns).issubset(set(df.columns)):
-            raise ValueError("Provided 'columns' must exist in the dataset")
-        figures = []
-        for col in columns:
-            # Creating the figure using Plotly
-            fig = go.Figure()
-            fig.add_trace(go.Scatter(x=df.index, y=df[col], mode="lines", name=col))
-            fig.update_layout(
-                title={
-                    "text": f"{col}",
-                    "y": 0.95,
-                    "x": 0.5,
-                    "xanchor": "center",
-                    "yanchor": "top",
-                },
-                font=dict(size=16),
-            )
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.key}:{col}",
-                    figure=fig,
-                )
-            )
-        return self.cache_results(
-            figures=figures,
+    df = dataset.df
+    if not pd.api.types.is_datetime64_any_dtype(df.index):
+        raise SkipTestError("Index must be a datetime type")
+    figures = []
+    for col in dataset.feature_columns_numeric:
+        fig = go.Figure()
+        fig.add_trace(go.Scatter(x=df.index, y=df[col], mode="lines", name=col))
+        fig.update_layout(
+            title={
+                "text": col,
+                "y": 0.95,
+                "x": 0.5,
+                "xanchor": "center",
+                "yanchor": "top",
+            },
+            font=dict(size=16),
         )
+        figures.append(fig)
+    return tuple(figures)

validmind/tests/data_validation/TimeSeriesMissingValues.py CHANGED Viewed

@@ -2,24 +2,18 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import pandas as pd
 import plotly.express as px
 import plotly.figure_factory as ff
-from validmind.vm_models import (
-    Figure,
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-@dataclass
-class TimeSeriesMissingValues(ThresholdTest):
+@tags("time_series_data")
+@tasks("regression")
+def TimeSeriesMissingValues(dataset: VMDataset, min_threshold: int = 1):
     """
     Validates time-series data quality by confirming the count of missing values is below a certain threshold.
@@ -37,17 +31,11 @@ class TimeSeriesMissingValues(ThresholdTest):
     dataset. An object for the test result is created stating whether the number of missing values is within the
     specified threshold. Additionally, the test calculates the percentage of missing values alongside the raw count.
-    To aid in data visualization, the test generates two plots - a bar plot and a heatmap - to better illustrate the
-    distribution and quantity of missing values per variable. The test results, including a count of missing values,
-    the percentage of missing values, and a pass/fail status, are returned in a results table.
     ### Signs of High Risk
     - The number of missing values in any column of the dataset surpasses the threshold, marking a failure and a
     high-risk scenario. The reasons could range from incomplete data collection, faulty sensors to data preprocessing
     errors.
-    - A continuous visual 'streak' in the heatmap may indicate a systematic error during data collection, pointing
-    towards another potential risk source.
     ### Strengths
@@ -55,7 +43,6 @@ class TimeSeriesMissingValues(ThresholdTest):
     - Applicable and customizable through the threshold parameter across different data sets.
     - Goes beyond raw numbers by calculating the percentage of missing values, offering a more relative understanding
     of data scarcity.
-    - Includes a robust visualization mechanism for easy and fast understanding of data quality.
     ### Limitations
@@ -66,124 +53,61 @@ class TimeSeriesMissingValues(ThresholdTest):
     overlook problematic data if set too loosely.
     - Solely focuses on the 'missingness' of the data and might fall short in addressing other aspects of data quality.
     """
+    df = dataset.df
+    if not pd.api.types.is_datetime64_any_dtype(df.index):
+        raise SkipTestError("Dataset must be provided with datetime index")
-    name = "time_series_missing_values"
-    required_inputs = ["dataset"]
-    default_params = {"min_threshold": 1}
-    tasks = ["regression"]
-    tags = ["time_series_data"]
+    missing = df.isna().sum()
-    def summary(self, results, all_passed):
-        results_table = [
+    if sum(missing.values) == 0:
+        # if theres no missing values, no need to plot anything
+        return [
+            {
+                "Column": col,
+                "Number of Missing Values": missing[col],
+                "Percentage of Missing Values (%)": 0,
+                "Pass/Fail": "Pass",
+            }
+            for col in missing.index
+        ], True
+    barplot = px.bar(
+        missing,
+        x=missing.index,
+        y=missing.values,
+        labels={"x": "", "y": "Missing Values"},
+        title="Total Number of Missing Values per Variable",
+        color=missing.values,
+        color_continuous_scale="Reds",
+    )
+    missing_mask = df.isnull()
+    z = missing_mask.T.astype(int).values
+    x = missing_mask.index.tolist()
+    y = missing_mask.columns.tolist()
+    heatmap = ff.create_annotated_heatmap(
+        z=z,
+        x=x,
+        y=y,
+        colorscale="Reds",
+        showscale=False,
+    )
+    # Update the layout after creation
+    heatmap.update_layout(title="Missing Values Heatmap")
+    return (
+        [
             {
-                "Column": result.column,
-                "Number of Missing Values": result.values["n_missing"],
-                "Percentage of Missing Values (%)": result.values["p_missing"] * 100,
-                "Pass/Fail": "Pass" if result.passed else "Fail",
+                "Column": col,
+                "Number of Missing Values": missing[col],
+                "Percentage of Missing Values (%)": missing[col] / df.shape[0] * 100,
+                "Pass/Fail": "Pass" if missing[col] < min_threshold else "Fail",
             }
-            for result in results
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    data=results_table,
-                    metadata=ResultTableMetadata(
-                        title="Missing Values Results for Dataset"
-                    ),
-                )
-            ]
-        )
-    def run(self):
-        df = self.inputs.dataset.df
-        # Check if the index of dataframe is datetime
-        is_datetime = pd.api.types.is_datetime64_any_dtype(df.index)
-        if not is_datetime:
-            raise ValueError("Dataset must be provided with datetime index")
-        # Validate threshold parameter
-        if "min_threshold" not in self.params:
-            raise ValueError("min_threshold must be provided in params")
-        min_threshold = self.params["min_threshold"]
-        rows = df.shape[0]
-        missing = df.isna().sum()
-        test_results = [
-            ThresholdTestResult(
-                column=col,
-                passed=missing[col] < min_threshold,
-                values={"n_missing": missing[col], "p_missing": missing[col] / rows},
-            )
             for col in missing.index
-        ]
-        fig_barplot = self._barplot(df)
-        fig_heatmap = self._heatmap(df)
-        test_figures = []
-        if fig_barplot is not None:
-            test_figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.name}:barplot",
-                    figure=fig_barplot,
-                    metadata={"type": "barplot"},
-                )
-            )
-            test_figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.name}:heatmap",
-                    figure=fig_heatmap,
-                    metadata={"type": "heatmap"},
-                )
-            )
-        return self.cache_results(
-            test_results,
-            passed=all([r.passed for r in test_results]),
-            # Don't pass figures until we figure out how to group metric-figures for multiple
-            # executions inside a single test run
-            # figures=test_figures,
-        )
-    def _barplot(self, df):
-        """
-        Generate a bar plot of missing values using Plotly.
-        """
-        missing_values = df.isnull().sum()
-        if sum(missing_values.values) != 0:
-            fig = px.bar(
-                missing_values,
-                x=missing_values.index,
-                y=missing_values.values,
-                labels={"x": "", "y": "Missing Values"},
-                title="Total Number of Missing Values per Variable",
-                color=missing_values.values,
-                color_continuous_scale="Reds",
-            )
-        else:
-            fig = None
-        return fig
-    def _heatmap(self, df):
-        """
-        Plots a heatmap to visualize missing values using Plotly.
-        """
-        # Create a boolean mask for missing values
-        missing_mask = df.isnull()
-        z = missing_mask.T.astype(int).values  # Convert boolean to int for heatmap
-        x = missing_mask.index.tolist()
-        y = missing_mask.columns.tolist()
-        if not x:
-            fig = ff.create_annotated_heatmap(
-                z=z, x=x, y=y, colorscale="Reds", showscale=False
-            )
-            fig.update_layout(title="Missing Values Heatmap")
-        else:
-            fig = None
-        return fig
+        ],
+        barplot,
+        heatmap,
+        all(missing[col] < min_threshold for col in missing.index),
+    )

validmind/tests/data_validation/TimeSeriesOutliers.py CHANGED Viewed

@@ -2,23 +2,17 @@
 # See the LICENSE file in the root of this repository for details.
 # SPDX-License-Identifier: AGPL-3.0 AND ValidMind Commercial
-from dataclasses import dataclass
 import pandas as pd
 import plotly.graph_objects as go
-from validmind.vm_models import (
-    Figure,
-    ResultSummary,
-    ResultTable,
-    ResultTableMetadata,
-    ThresholdTest,
-    ThresholdTestResult,
-)
+from validmind import tags, tasks
+from validmind.errors import SkipTestError
+from validmind.vm_models import VMDataset
-@dataclass
-class TimeSeriesOutliers(ThresholdTest):
+@tags("time_series_data")
+@tasks("regression")
+def TimeSeriesOutliers(dataset: VMDataset, zscore_threshold: int = 3):
     """
     Identifies and visualizes outliers in time-series data using the z-score method.
@@ -62,174 +56,63 @@ class TimeSeriesOutliers(ThresholdTest):
     - It does not address possible ways to handle identified outliers in the data.
     - The requirement for a datetime index could limit its application.
     """
-    name = "time_series_outliers"
-    required_inputs = ["dataset"]
-    default_params = {"zscore_threshold": 3}
-    tasks = ["regression"]
-    tags = ["time_series_data"]
-    def summary(self, results, all_passed: bool):
-        """
-        Example output:
-        [
-            {
-                "values": {
-                    "Variable": [...],
-                    "z-score": [...],
-                    "Threshold": [3, 3, 3, 3, 3, 3],
-                    "Date": [...]
-                },
-                "test_name": "outliers",
-                "passed": false
-            }
-        ]
-        """
-        first_result = results[0]
-        variables = first_result.values["Variable"]
-        zScores = first_result.values["z-score"]
-        dates = first_result.values["Date"]
-        passFail = [
-            "Pass" if abs(z) < self.params["zscore_threshold"] else "Fail"
-            for z in zScores
-        ]
-        return ResultSummary(
-            results=[
-                ResultTable(
-                    # Sort by variable and then by date
-                    data=pd.DataFrame(
-                        {
-                            "Variable": variables,
-                            "Date": dates,
-                            "z-Score": zScores,
-                            "Pass/Fail": passFail,
-                        }
-                    ).sort_values(["Variable", "Date"]),
-                    metadata=ResultTableMetadata(
-                        title="Outliers Results with z-Score Test"
-                    ),
+    df = dataset.df
+    if not pd.api.types.is_datetime64_any_dtype(df.index):
+        raise SkipTestError("Dataset must be provided with datetime index")
+    df_numeric = df[dataset.feature_columns_numeric]
+    z_scores = pd.DataFrame(
+        data=df_numeric.apply(lambda x: (x - x.mean()) / x.std()),
+        index=df.index,
+        columns=dataset.feature_columns_numeric,
+    )
+    outlier_table = []
+    outliers = z_scores[(z_scores.abs() > zscore_threshold).any(axis=1)]
+    for idx, row in outliers.iterrows():
+        for col in dataset.feature_columns_numeric:
+            if abs(row[col]) > zscore_threshold:
+                outlier_table.append(
+                    {
+                        "Column": col,
+                        "Z-Score": row[col],
+                        "Threshold": zscore_threshold,
+                        "Date": idx.strftime("%Y-%m-%d"),
+                        "Pass/Fail": "Fail",
+                    }
                 )
-            ]
-        )
-    def run(self):
-        # Initialize the test_results list
-        test_results = []
-        # Check if the index of dataframe is datetime
-        is_datetime = pd.api.types.is_datetime64_any_dtype(self.inputs.dataset.df.index)
-        if not is_datetime:
-            raise ValueError("Dataset must be provided with datetime index")
-        # Validate threshold parameter
-        if "zscore_threshold" not in self.params:
-            raise ValueError("zscore_threshold must be provided in params")
-        zscore_threshold = self.params["zscore_threshold"]
+    outlier_df = pd.DataFrame(outlier_table)
+    figures = []
-        temp_df = self.inputs.dataset.df.copy()
-        # temp_df = temp_df.dropna()
+    for column in outlier_df["Column"].unique():
+        fig = go.Figure()
-        # Infer numeric columns
-        num_features_columns = temp_df.select_dtypes(
-            include=["number"]
-        ).columns.tolist()
-        outliers_table = self.identify_outliers(
-            temp_df[num_features_columns], zscore_threshold
+        fig.add_trace(
+            go.Scatter(x=df.index, y=df[column], mode="lines", name="Time Series")
         )
-        test_figures = self._plot_outliers(temp_df, outliers_table)
-        passed = outliers_table.empty
-        if not outliers_table.empty:
-            outliers_table["Date"] = outliers_table["Date"].astype(str)
-        test_results.append(
-            ThresholdTestResult(
-                test_name="outliers",
-                passed=passed,
-                values=outliers_table.to_dict(orient="list"),
+        column_outliers = outlier_df[outlier_df["Column"] == column]
+        fig.add_trace(
+            go.Scatter(
+                x=pd.to_datetime(column_outliers["Date"]),
+                y=df.loc[pd.to_datetime(column_outliers["Date"]), column],
+                mode="markers",
+                marker=dict(color="red", size=10),
+                name="Outliers",
             )
         )
-        return self.cache_results(test_results, passed=passed, figures=test_figures)
-    def z_score_with_na(self, df):
-        return df.apply(
-            lambda x: (x - x.mean()) / x.std() if x.dtype.kind in "biufc" else x
+        fig.update_layout(
+            title=f"Outliers for {column}", xaxis_title="Date", yaxis_title=column
         )
-    def identify_outliers(self, df, threshold):
-        """
-        Identifies and returns outliers in a pandas DataFrame using the z-score method.
-        Args:
-        df (pandas.DataFrame): A pandas DataFrame containing the data to be analyzed.
-        threshold (float): The absolute value of the z-score above which a value is considered an outlier.
-        Returns:
-        pandas.DataFrame: A DataFrame containing the variables, z-scores, threshold, and dates of the identified outliers.
-        """
-        z_scores = pd.DataFrame(
-            self.z_score_with_na(df), index=df.index, columns=df.columns
-        )
-        outliers = z_scores[(z_scores.abs() > threshold).any(axis=1)]
-        outlier_table = []
-        for idx, row in outliers.iterrows():
-            for col in df.columns:
-                if abs(row[col]) > threshold:
-                    outlier_table.append(
-                        {
-                            "Variable": col,
-                            "z-score": row[col],
-                            "Threshold": threshold,
-                            "Date": idx,
-                        }
-                    )
-        return pd.DataFrame(outlier_table)
-    def _plot_outliers(self, df, outliers_table):
-        """
-        Plots time series with identified outliers.
-        Args:
-            df (pandas.DataFrame): Input data with time series.
-            outliers_table (pandas.DataFrame): DataFrame with identified outliers.
-        Returns:
-            list: A list of Figure objects with subplots for each variable.
-        """
-        figures = []
-        for col in df.columns:
-            fig = go.Figure()
-            fig.add_trace(go.Scatter(x=df.index, y=df[col], mode="lines", name=col))
-            if not outliers_table.empty:
-                variable_outliers = outliers_table[outliers_table["Variable"] == col]
-                fig.add_trace(
-                    go.Scatter(
-                        x=variable_outliers["Date"],
-                        y=df.loc[variable_outliers["Date"], col],
-                        mode="markers",
-                        marker=dict(color="red", size=10),
-                        name="Outlier",
-                    )
-                )
-            fig.update_layout(
-                title=f"Outliers for {col}",
-                xaxis_title="Date",
-                yaxis_title=col,
-            )
-            figures.append(
-                Figure(
-                    for_object=self,
-                    key=f"{self.name}:{col}_{self.inputs.dataset.input_id}",
-                    figure=fig,
-                )
-            )
+        figures.append(fig)
-        return figures
+    return (
+        outlier_df.sort_values(["Column", "Date"]),
+        figures,
+        len(outlier_df) == 0,
+    )

validmind 2.5.25__py3-none-any.whl → 2.6.7__py3-none-any.whl

validmind 2.5.25py3-none-any.whl → 2.6.7py3-none-any.whl