PyPI - copulas - Versions diffs - 0.11.1__tar.gz → 0.12.0__tar.gz - Mend

copulas 0.11.1tar.gz → 0.12.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of copulas might be problematic. Click here for more details.

Files changed (40) hide show

{copulas-0.11.1 → copulas-0.12.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: copulas
-Version: 0.11.1
+Version: 0.12.0
 Summary: Create tabular synthetic data using copulas-based modeling.
 Author-email: "DataCebo, Inc." <info@sdv.dev>
 License: BSL-1.1

copulas-0.12.0/copulas/__init__.py ADDED Viewed

@@ -0,0 +1,91 @@
+"""Top-level package for Copulas."""
+__author__ = 'DataCebo, Inc.'
+__email__ = 'info@sdv.dev'
+__version__ = '0.12.0'
+import sys
+import warnings
+from copy import deepcopy
+from importlib.metadata import entry_points
+from operator import attrgetter
+from types import ModuleType
+def _get_addon_target(addon_path_name):
+    """Find the target object for the add-on.
+    Args:
+        addon_path_name (str):
+            The add-on's name. The add-on's name should be the full path of valid Python
+            identifiers (i.e. importable.module:object.attr).
+    Returns:
+        tuple:
+            * object:
+                The base module or object the add-on should be added to.
+            * str:
+                The name the add-on should be added to under the module or object.
+    """
+    module_path, _, object_path = addon_path_name.partition(':')
+    module_path = module_path.split('.')
+    if module_path[0] != __name__:
+        msg = f"expected base module to be '{__name__}', found '{module_path[0]}'"
+        raise AttributeError(msg)
+    target_base = sys.modules[__name__]
+    for submodule in module_path[1:-1]:
+        target_base = getattr(target_base, submodule)
+    addon_name = module_path[-1]
+    if object_path:
+        if len(module_path) > 1 and not hasattr(target_base, module_path[-1]):
+            msg = f"cannot add '{object_path}' to unknown submodule '{'.'.join(module_path)}'"
+            raise AttributeError(msg)
+        if len(module_path) > 1:
+            target_base = getattr(target_base, module_path[-1])
+        split_object = object_path.split('.')
+        addon_name = split_object[-1]
+        if len(split_object) > 1:
+            target_base = attrgetter('.'.join(split_object[:-1]))(target_base)
+    return target_base, addon_name
+def _find_addons():
+    """Find and load all copulas add-ons."""
+    group = 'copulas_modules'
+    try:
+        eps = entry_points(group=group)
+    except TypeError:
+        # Load-time selection requires Python >= 3.10 or importlib_metadata >= 3.6
+        eps = entry_points().get(group, [])
+    for entry_point in eps:
+        try:
+            addon = entry_point.load()
+        except Exception as e:  # pylint: disable=broad-exception-caught
+            msg = f'Failed to load "{entry_point.name}" from "{entry_point.value}" with error:\n{e}'
+            warnings.warn(msg)
+            continue
+        try:
+            addon_target, addon_name = _get_addon_target(entry_point.name)
+        except AttributeError as error:
+            msg = f"Failed to set '{entry_point.name}': {error}."
+            warnings.warn(msg)
+            continue
+        if isinstance(addon, ModuleType):
+            addon_module_name = f'{addon_target.__name__}.{addon_name}'
+            if addon_module_name not in sys.modules:
+                sys.modules[addon_module_name] = addon
+        setattr(addon_target, addon_name, addon)
+_find_addons()

{copulas-0.11.1 → copulas-0.12.0}/copulas/bivariate/__init__.py RENAMED Viewed

@@ -3,7 +3,7 @@
 import numpy as np
 import pandas as pd
-from copulas import EPSILON
+from copulas.utils import EPSILON
 from copulas.bivariate.base import Bivariate, CopulaTypes
 from copulas.bivariate.clayton import Clayton
 from copulas.bivariate.frank import Frank

{copulas-0.11.1 → copulas-0.12.0}/copulas/bivariate/base.py RENAMED Viewed

@@ -8,8 +8,9 @@ import numpy as np
 from scipy import stats
 from scipy.optimize import brentq
-from copulas import EPSILON, NotFittedError, random_state, validate_random_state
 from copulas.bivariate.utils import split_matrix
+from copulas.errors import NotFittedError
+from copulas.utils import EPSILON, random_state, validate_random_state
 class CopulaTypes(Enum):

{copulas-0.11.1 → copulas-0.12.0}/copulas/bivariate/frank.py RENAMED Viewed

@@ -6,9 +6,9 @@ import numpy as np
 import scipy.integrate as integrate
 from scipy.optimize import least_squares
-from copulas import EPSILON
 from copulas.bivariate.base import Bivariate, CopulaTypes
 from copulas.bivariate.utils import split_matrix
+from copulas.utils import EPSILON
 MIN_FLOAT_LOG = np.log(sys.float_info.min)
 MAX_FLOAT_LOG = np.log(sys.float_info.max)

{copulas-0.11.1 → copulas-0.12.0}/copulas/datasets.py RENAMED Viewed

@@ -4,7 +4,7 @@ import numpy as np
 import pandas as pd
 from scipy import stats
-from copulas import set_random_state, validate_random_state
+from copulas.utils import set_random_state, validate_random_state
 def _dummy_fn(state):

copulas-0.12.0/copulas/errors.py ADDED Viewed

@@ -0,0 +1,5 @@
+"""Copulas Exceptions."""
+class NotFittedError(Exception):
+    """NotFittedError class."""

{copulas-0.11.1 → copulas-0.12.0}/copulas/multivariate/base.py RENAMED Viewed

@@ -4,7 +4,8 @@ import pickle
 import numpy as np
-from copulas import NotFittedError, get_instance, validate_random_state
+from copulas.errors import NotFittedError
+from copulas.utils import get_instance, validate_random_state
 class Multivariate(object):

{copulas-0.11.1 → copulas-0.12.0}/copulas/multivariate/gaussian.py RENAMED Viewed

@@ -7,7 +7,9 @@ import numpy as np
 import pandas as pd
 from scipy import stats
-from copulas import (
+from copulas.multivariate.base import Multivariate
+from copulas.univariate import GaussianUnivariate, Univariate
+from copulas.utils import (
     EPSILON,
     check_valid_values,
     get_instance,
@@ -16,8 +18,6 @@ from copulas import (
     store_args,
     validate_random_state,
 )
-from copulas.multivariate.base import Multivariate
-from copulas.univariate import GaussianUnivariate, Univariate
 LOGGER = logging.getLogger(__name__)
 DEFAULT_DISTRIBUTION = Univariate
@@ -70,26 +70,6 @@ class GaussianMultivariate(Multivariate):
         return stats.norm.ppf(np.column_stack(U))
-    def _get_correlation(self, X):
-        """Compute correlation matrix with transformed data.
-        Args:
-            X (numpy.ndarray):
-                Data for which the correlation needs to be computed.
-        Returns:
-            numpy.ndarray:
-                computed correlation matrix.
-        """
-        result = self._transform_to_normal(X)
-        correlation = pd.DataFrame(data=result).corr().to_numpy()
-        correlation = np.nan_to_num(correlation, nan=0.0)
-        # If singular, add some noise to the diagonal
-        if np.linalg.cond(correlation) > 1.0 / sys.float_info.epsilon:
-            correlation = correlation + np.identity(correlation.shape[0]) * EPSILON
-        return pd.DataFrame(correlation, index=self.columns, columns=self.columns)
     @check_valid_values
     def fit(self, X):
         """Compute the distribution for each variable and then its correlation matrix.
@@ -100,42 +80,88 @@ class GaussianMultivariate(Multivariate):
         """
         LOGGER.info('Fitting %s', self)
+        # Validate the input data
+        X = self._validate_input(X)
+        columns, univariates = self._fit_columns(X)
+        self.columns = columns
+        self.univariates = univariates
+        LOGGER.debug('Computing correlation.')
+        self.correlation = self._get_correlation(X)
+        self.fitted = True
+        LOGGER.debug('GaussianMultivariate fitted successfully')
+    def _validate_input(self, X):
+        """Validate the input data."""
         if not isinstance(X, pd.DataFrame):
             X = pd.DataFrame(X)
+        return X
+    def _fit_columns(self, X):
+        """Fit each column to its distribution."""
         columns = []
         univariates = []
         for column_name, column in X.items():
-            if isinstance(self.distribution, dict):
-                distribution = self.distribution.get(column_name, DEFAULT_DISTRIBUTION)
-            else:
-                distribution = self.distribution
+            distribution = self._get_distribution_for_column(column_name)
             LOGGER.debug('Fitting column %s to %s', column_name, distribution)
-            univariate = get_instance(distribution)
-            try:
-                univariate.fit(column)
-            except BaseException:
-                log_message = (
-                    f'Unable to fit to a {distribution} distribution for column {column_name}. '
-                    'Using a Gaussian distribution instead.'
-                )
-                LOGGER.info(log_message)
-                univariate = GaussianUnivariate()
-                univariate.fit(column)
+            univariate = self._fit_column(column, distribution, column_name)
             columns.append(column_name)
             univariates.append(univariate)
-        self.columns = columns
-        self.univariates = univariates
+        return columns, univariates
+    def _get_distribution_for_column(self, column_name):
+        """Retrieve the distribution for a given column name."""
+        if isinstance(self.distribution, dict):
+            return self.distribution.get(column_name, DEFAULT_DISTRIBUTION)
+        return self.distribution
+    def _fit_column(self, column, distribution, column_name):
+        """Fit a single column to its distribution with exception handling."""
+        univariate = get_instance(distribution)
+        try:
+            univariate.fit(column)
+        except Exception as error:
+            univariate = self._fit_with_fallback_distribution(
+                column, distribution, column_name, error
+            )
+        return univariate
+    def _fit_with_fallback_distribution(self, column, distribution, column_name, error):
+        """Fall back to fitting a Gaussian distribution and log the error."""
+        log_message = (
+            f'Unable to fit to a {distribution} distribution for column {column_name}. '
+            'Using a Gaussian distribution instead.'
+        )
+        LOGGER.info(log_message)
+        univariate = GaussianUnivariate()
+        univariate.fit(column)
+        return univariate
-        LOGGER.debug('Computing correlation')
-        self.correlation = self._get_correlation(X)
-        self.fitted = True
+    def _get_correlation(self, X):
+        """Compute correlation matrix with transformed data.
-        LOGGER.debug('GaussianMultivariate fitted successfully')
+        Args:
+            X (numpy.ndarray):
+                Data for which the correlation needs to be computed.
+        Returns:
+            numpy.ndarray:
+                computed correlation matrix.
+        """
+        result = self._transform_to_normal(X)
+        correlation = pd.DataFrame(data=result).corr().to_numpy()
+        correlation = np.nan_to_num(correlation, nan=0.0)
+        # If singular, add some noise to the diagonal
+        if np.linalg.cond(correlation) > 1.0 / sys.float_info.epsilon:
+            correlation = correlation + np.identity(correlation.shape[0]) * EPSILON
+        return pd.DataFrame(correlation, index=self.columns, columns=self.columns)
     def probability_density(self, X):
         """Compute the probability density for each point in X.

{copulas-0.11.1 → copulas-0.12.0}/copulas/multivariate/tree.py RENAMED Viewed

@@ -6,9 +6,9 @@ from enum import Enum
 import numpy as np
 import scipy
-from copulas import EPSILON, get_qualified_name
 from copulas.bivariate.base import Bivariate
 from copulas.multivariate.base import Multivariate
+from copulas.utils import EPSILON, get_qualified_name
 LOGGER = logging.getLogger(__name__)

{copulas-0.11.1 → copulas-0.12.0}/copulas/multivariate/vine.py RENAMED Viewed

@@ -7,7 +7,11 @@ import warnings
 import numpy as np
 import pandas as pd
-from copulas import (
+from copulas.bivariate.base import Bivariate, CopulaTypes
+from copulas.multivariate.base import Multivariate
+from copulas.multivariate.tree import Tree, get_tree
+from copulas.univariate.gaussian_kde import GaussianKDE
+from copulas.utils import (
     EPSILON,
     check_valid_values,
     get_qualified_name,
@@ -15,10 +19,6 @@ from copulas import (
     store_args,
     validate_random_state,
 )
-from copulas.bivariate.base import Bivariate, CopulaTypes
-from copulas.multivariate.base import Multivariate
-from copulas.multivariate.tree import Tree, get_tree
-from copulas.univariate.gaussian_kde import GaussianKDE
 LOGGER = logging.getLogger(__name__)
@@ -76,8 +76,7 @@ class VineCopula(Multivariate):
     def __init__(self, vine_type, random_state=None):
         if sys.version_info > (3, 8):
             warnings.warn(
-                'Vines have not been fully tested on Python >= 3.8 and might '
-                'produce wrong results.'
+                'Vines have not been fully tested on Python >= 3.8 and might produce wrong results.'
             )
         self.random_state = validate_random_state(random_state)

{copulas-0.11.1 → copulas-0.12.0}/copulas/univariate/base.py RENAMED Viewed

@@ -6,15 +6,15 @@ from enum import Enum
 import numpy as np
-from copulas import (
-    NotFittedError,
+from copulas.errors import NotFittedError
+from copulas.univariate.selection import select_univariate
+from copulas.utils import (
     get_instance,
     get_qualified_name,
     random_state,
     store_args,
     validate_random_state,
 )
-from copulas.univariate.selection import select_univariate
 class ParametricType(Enum):

{copulas-0.11.1 → copulas-0.12.0}/copulas/univariate/gaussian_kde.py RENAMED Viewed

@@ -4,9 +4,9 @@ import numpy as np
 from scipy.special import ndtr
 from scipy.stats import gaussian_kde
-from copulas import EPSILON, random_state, store_args, validate_random_state
 from copulas.optimize import bisect, chandrupatla
 from copulas.univariate.base import BoundedType, ParametricType, ScipyModel
+from copulas.utils import EPSILON, random_state, store_args, validate_random_state
 class GaussianKDE(ScipyModel):

{copulas-0.11.1 → copulas-0.12.0}/copulas/univariate/selection.py RENAMED Viewed

@@ -3,7 +3,7 @@
 import numpy as np
 from scipy.stats import kstest
-from copulas import get_instance
+from copulas.utils import get_instance
 def select_univariate(X, candidates):

{copulas-0.11.1 → copulas-0.12.0}/copulas/univariate/truncated_gaussian.py RENAMED Viewed

@@ -6,8 +6,8 @@ import numpy as np
 from scipy.optimize import fmin_slsqp
 from scipy.stats import truncnorm
-from copulas import EPSILON, store_args, validate_random_state
 from copulas.univariate.base import BoundedType, ParametricType, ScipyModel
+from copulas.utils import EPSILON, store_args, validate_random_state
 class TruncatedGaussian(ScipyModel):

copulas-0.11.1/copulas/__init__.py → copulas-0.12.0/copulas/utils.py RENAMED Viewed

@@ -1,18 +1,9 @@
-# -*- coding: utf-8 -*-
-"""Top-level package for Copulas."""
-__author__ = 'DataCebo, Inc.'
-__email__ = 'info@sdv.dev'
-__version__ = '0.11.1'
+"""Utils module."""
 import contextlib
 import importlib
-import sys
-import warnings
 from copy import deepcopy
-from importlib.metadata import entry_points
-from operator import attrgetter
+from functools import wraps
 import numpy as np
 import pandas as pd
@@ -20,10 +11,6 @@ import pandas as pd
 EPSILON = np.finfo(np.float32).eps
-class NotFittedError(Exception):
-    """NotFittedError class."""
 @contextlib.contextmanager
 def set_random_state(random_state, set_model_random_state):
     """Context manager for managing the random state.
@@ -35,7 +22,6 @@ def set_random_state(random_state, set_model_random_state):
             Function to set the random state on the model.
     """
     original_state = np.random.get_state()
     np.random.set_state(random_state.get_state())
     try:
@@ -55,10 +41,10 @@ def random_state(function):
             The function to wrap around.
     """
+    @wraps(function)
     def wrapper(self, *args, **kwargs):
         if self.random_state is None:
             return function(self, *args, **kwargs)
         else:
             with set_random_state(self.random_state, self.set_random_state):
                 return function(self, *args, **kwargs)
@@ -123,6 +109,7 @@ def store_args(__init__):
         callable: Decorated ``__init__`` function.
     """
+    @wraps(__init__)
     def new__init__(self, *args, **kwargs):
         args_copy = deepcopy(args)
         kwargs_copy = deepcopy(kwargs)
@@ -138,7 +125,6 @@ def get_qualified_name(_object):
     module = _object.__module__
     if hasattr(_object, '__name__'):
         _class = _object.__name__
     else:
         _class = _object.__class__.__name__
@@ -184,6 +170,7 @@ def vectorize(function):
     """
+    @wraps(function)
     def decorated(self, X, *args, **kwargs):
         if not isinstance(X, np.ndarray):
             return function(self, X, *args, **kwargs)
@@ -195,11 +182,9 @@ def vectorize(function):
             return np.fromiter(
                 (function(self, *x, *args, **kwargs) for x in X), np.dtype('float64')
             )
         else:
             raise ValueError('Arrays of dimensionality higher than 2 are not supported.')
-    decorated.__doc__ = function.__doc__
     return decorated
@@ -213,6 +198,7 @@ def scalarize(function):
         callable: Decorated function that accepts and returns scalars.
     """
+    @wraps(function)
     def decorated(self, X, *args, **kwargs):
         scalar = not isinstance(X, np.ndarray)
@@ -225,7 +211,6 @@ def scalarize(function):
         return result
-    decorated.__doc__ = function.__doc__
     return decorated
@@ -242,10 +227,10 @@ def check_valid_values(function):
         ValueError: If there are missing or invalid values or if the dataset is empty.
     """
+    @wraps(function)
     def decorated(self, X, *args, **kwargs):
         if isinstance(X, pd.DataFrame):
             W = X.to_numpy()
         else:
             W = X
@@ -261,77 +246,3 @@ def check_valid_values(function):
         return function(self, X, *args, **kwargs)
     return decorated
-def _get_addon_target(addon_path_name):
-    """Find the target object for the add-on.
-    Args:
-        addon_path_name (str):
-            The add-on's name. The add-on's name should be the full path of valid Python
-            identifiers (i.e. importable.module:object.attr).
-    Returns:
-        tuple:
-            * object:
-                The base module or object the add-on should be added to.
-            * str:
-                The name the add-on should be added to under the module or object.
-    """
-    module_path, _, object_path = addon_path_name.partition(':')
-    module_path = module_path.split('.')
-    if module_path[0] != __name__:
-        msg = f"expected base module to be '{__name__}', found '{module_path[0]}'"
-        raise AttributeError(msg)
-    target_base = sys.modules[__name__]
-    for submodule in module_path[1:-1]:
-        target_base = getattr(target_base, submodule)
-    addon_name = module_path[-1]
-    if object_path:
-        if len(module_path) > 1 and not hasattr(target_base, module_path[-1]):
-            msg = f"cannot add '{object_path}' to unknown submodule '{'.'.join(module_path)}'"
-            raise AttributeError(msg)
-        if len(module_path) > 1:
-            target_base = getattr(target_base, module_path[-1])
-        split_object = object_path.split('.')
-        addon_name = split_object[-1]
-        if len(split_object) > 1:
-            target_base = attrgetter('.'.join(split_object[:-1]))(target_base)
-    return target_base, addon_name
-def _find_addons():
-    """Find and load all copulas add-ons."""
-    group = 'copulas_modules'
-    try:
-        eps = entry_points(group=group)
-    except TypeError:
-        # Load-time selection requires Python >= 3.10 or importlib_metadata >= 3.6
-        eps = entry_points().get(group, [])
-    for entry_point in eps:
-        try:
-            addon = entry_point.load()
-        except Exception:  # pylint: disable=broad-exception-caught
-            msg = f'Failed to load "{entry_point.name}" from "{entry_point.value}".'
-            warnings.warn(msg)
-            continue
-        try:
-            addon_target, addon_name = _get_addon_target(entry_point.name)
-        except AttributeError as error:
-            msg = f"Failed to set '{entry_point.name}': {error}."
-            warnings.warn(msg)
-            continue
-        setattr(addon_target, addon_name, addon)
-_find_addons()

{copulas-0.11.1 → copulas-0.12.0}/copulas.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: copulas
-Version: 0.11.1
+Version: 0.12.0
 Summary: Create tabular synthetic data using copulas-based modeling.
 Author-email: "DataCebo, Inc." <info@sdv.dev>
 License: BSL-1.1

{copulas-0.11.1 → copulas-0.12.0}/copulas.egg-info/SOURCES.txt RENAMED Viewed

@@ -3,6 +3,8 @@ README.md
 pyproject.toml
 copulas/__init__.py
 copulas/datasets.py
+copulas/errors.py
+copulas/utils.py
 copulas/visualization.py
 copulas.egg-info/PKG-INFO
 copulas.egg-info/SOURCES.txt

{copulas-0.11.1 → copulas-0.12.0}/pyproject.toml RENAMED Viewed

@@ -149,7 +149,7 @@ namespaces = false
 ]
 [tool.bumpversion]
-current_version = "0.11.1"
+current_version = "0.12.0"
 commit = true
 tag = true
 parse = '(?P<major>\d+)\.(?P<minor>\d+)\.(?P<patch>\d+)(\.(?P<release>[a-z]+)(?P<candidate>\d+))?'
@@ -182,7 +182,8 @@ exclude = [
     ".git",
     "__pycache__",
     ".ipynb_checkpoints",
-    "*.ipynb"
+    "*.ipynb",
+    "tasks.py",
 ]
 [tool.ruff.lint]
@@ -192,14 +193,23 @@ select = [
     # Pycodestyle
     "E",
     "W",
-    "D200",
+    # pydocstyle
+    "D",
     # isort
     "I001",
+    # print statements
+    "T201",
+    # pandas-vet
+    "PD",
+    # numpy 2.0
+    "NPY201"
 ]
 ignore = [
-    "E501",
+    # pydocstyle
     "D107",  # Missing docstring in __init__
     "D417",   # Missing argument descriptions in the docstring, this is a bug from pydocstyle: https://github.com/PyCQA/pydocstyle/issues/449
+    "PD901",
+    "PD101",
 ]
 [tool.ruff.format]
@@ -209,14 +219,18 @@ preview = true
 docstring-code-format = true
 docstring-code-line-length = "dynamic"
-[tool.ruff.lint.pep8-naming]
-extend-ignore-names = ["X", "C", "X_padded", "Y", "Y_padded"]
 [tool.ruff.lint.isort]
 known-first-party = ["copulas"]
+lines-between-types = 0
 [tool.ruff.lint.per-file-ignores]
 "__init__.py" = ["F401", "E402", "F403", "F405", "E501", "I001"]
+"errors.py" = ["D105"]
+"tests/**.py" = ["D"]
 [tool.ruff.lint.pydocstyle]
 convention = "google"
+[tool.ruff.lint.pycodestyle]
+max-doc-length = 100
+max-line-length = 100