PyPI - scikit-learn-intelex - Versions diffs - 2024.3.0__py38-none-win_amd64.whl → 2024.5.0__py38-none-win_amd64.whl - Mend

scikit-learn-intelex 2024.3.0__py38-none-win_amd64.whl → 2024.5.0__py38-none-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of scikit-learn-intelex might be problematic. Click here for more details.

Files changed (107) hide show

{scikit_learn_intelex-2024.3.0.data → scikit_learn_intelex-2024.5.0.data}/data/Lib/site-packages/sklearnex/covariance/tests/test_incremental_covariance.py RENAMED Viewed

@@ -17,6 +17,10 @@
 import numpy as np
 import pytest
 from numpy.testing import assert_allclose
+from sklearn.covariance.tests.test_covariance import (
+    test_covariance,
+    test_EmpiricalCovariance_validates_mahalanobis,
+)
 from onedal.tests.utils._dataframes_support import (
     _convert_to_dataframe,
@@ -26,13 +30,14 @@ from onedal.tests.utils._dataframes_support import (
 @pytest.mark.parametrize("dataframe,queue", get_dataframes_and_queues())
 @pytest.mark.parametrize("dtype", [np.float32, np.float64])
-def test_sklearnex_partial_fit_on_gold_data(dataframe, queue, dtype):
+@pytest.mark.parametrize("assume_centered", [True, False])
+def test_sklearnex_partial_fit_on_gold_data(dataframe, queue, dtype, assume_centered):
     from sklearnex.covariance import IncrementalEmpiricalCovariance
     X = np.array([[0, 1], [0, 1]])
     X = X.astype(dtype)
     X_split = np.array_split(X, 2)
-    inccov = IncrementalEmpiricalCovariance()
+    inccov = IncrementalEmpiricalCovariance(assume_centered=assume_centered)
     for i in range(2):
         X_split_df = _convert_to_dataframe(
@@ -40,8 +45,12 @@ def test_sklearnex_partial_fit_on_gold_data(dataframe, queue, dtype):
         )
         result = inccov.partial_fit(X_split_df)
-    expected_covariance = np.array([[0, 0], [0, 0]])
-    expected_means = np.array([0, 1])
+    if assume_centered:
+        expected_covariance = np.array([[0, 0], [0, 1]])
+        expected_means = np.array([0, 0])
+    else:
+        expected_covariance = np.array([[0, 0], [0, 0]])
+        expected_means = np.array([0, 1])
     assert_allclose(expected_covariance, result.covariance_)
     assert_allclose(expected_means, result.location_)
@@ -49,7 +58,7 @@ def test_sklearnex_partial_fit_on_gold_data(dataframe, queue, dtype):
     X = np.array([[1, 2], [3, 6]])
     X = X.astype(dtype)
     X_split = np.array_split(X, 2)
-    inccov = IncrementalEmpiricalCovariance()
+    inccov = IncrementalEmpiricalCovariance(assume_centered=assume_centered)
     for i in range(2):
         X_split_df = _convert_to_dataframe(
@@ -57,8 +66,12 @@ def test_sklearnex_partial_fit_on_gold_data(dataframe, queue, dtype):
         )
         result = inccov.partial_fit(X_split_df)
-    expected_covariance = np.array([[1, 2], [2, 4]])
-    expected_means = np.array([2, 4])
+    if assume_centered:
+        expected_covariance = np.array([[5, 10], [10, 20]])
+        expected_means = np.array([0, 0])
+    else:
+        expected_covariance = np.array([[1, 2], [2, 4]])
+        expected_means = np.array([2, 4])
     assert_allclose(expected_covariance, result.covariance_)
     assert_allclose(expected_means, result.location_)
@@ -87,9 +100,9 @@ def test_sklearnex_fit_on_gold_data(dataframe, queue, batch_size, dtype):
 @pytest.mark.parametrize("dataframe,queue", get_dataframes_and_queues())
-@pytest.mark.parametrize("num_batches", [2, 4, 6, 8, 10])
-@pytest.mark.parametrize("row_count", [100, 1000, 2000])
-@pytest.mark.parametrize("column_count", [10, 100, 200])
+@pytest.mark.parametrize("num_batches", [2, 10])
+@pytest.mark.parametrize("row_count", [100, 1000])
+@pytest.mark.parametrize("column_count", [10, 100])
 @pytest.mark.parametrize("dtype", [np.float32, np.float64])
 def test_sklearnex_partial_fit_on_random_data(
     dataframe, queue, num_batches, row_count, column_count, dtype
@@ -117,12 +130,13 @@ def test_sklearnex_partial_fit_on_random_data(
 @pytest.mark.parametrize("dataframe,queue", get_dataframes_and_queues())
-@pytest.mark.parametrize("num_batches", [2, 4, 6, 8, 10])
-@pytest.mark.parametrize("row_count", [100, 1000, 2000])
-@pytest.mark.parametrize("column_count", [10, 100, 200])
+@pytest.mark.parametrize("num_batches", [2, 10])
+@pytest.mark.parametrize("row_count", [100, 1000])
+@pytest.mark.parametrize("column_count", [10, 100])
 @pytest.mark.parametrize("dtype", [np.float32, np.float64])
+@pytest.mark.parametrize("assume_centered", [True, False])
 def test_sklearnex_fit_on_random_data(
-    dataframe, queue, num_batches, row_count, column_count, dtype
+    dataframe, queue, num_batches, row_count, column_count, dtype, assume_centered
 ):
     from sklearnex.covariance import IncrementalEmpiricalCovariance
@@ -132,12 +146,35 @@ def test_sklearnex_fit_on_random_data(
     X = X.astype(dtype)
     X_df = _convert_to_dataframe(X, sycl_queue=queue, target_df=dataframe)
     batch_size = row_count // num_batches
-    inccov = IncrementalEmpiricalCovariance(batch_size=batch_size)
+    inccov = IncrementalEmpiricalCovariance(
+        batch_size=batch_size, assume_centered=assume_centered
+    )
     result = inccov.fit(X_df)
-    expected_covariance = np.cov(X.T, bias=1)
-    expected_means = np.mean(X, axis=0)
+    if assume_centered:
+        expected_covariance = np.dot(X.T, X) / X.shape[0]
+        expected_means = np.zeros_like(X[0])
+    else:
+        expected_covariance = np.cov(X.T, bias=1)
+        expected_means = np.mean(X, axis=0)
     assert_allclose(expected_covariance, result.covariance_, atol=1e-6)
     assert_allclose(expected_means, result.location_, atol=1e-6)
+# Monkeypatch IncrementalEmpiricalCovariance into relevant sklearn.covariance tests
+@pytest.mark.allow_sklearn_fallback
+@pytest.mark.parametrize(
+    "sklearn_test",
+    [
+        test_covariance,
+        test_EmpiricalCovariance_validates_mahalanobis,
+    ],
+)
+def test_IncrementalEmpiricalCovariance_against_sklearn(monkeypatch, sklearn_test):
+    from sklearnex.covariance import IncrementalEmpiricalCovariance
+    class_name = ".".join([sklearn_test.__module__, "EmpiricalCovariance"])
+    monkeypatch.setattr(class_name, IncrementalEmpiricalCovariance)
+    sklearn_test()

{scikit_learn_intelex-2024.3.0.data → scikit_learn_intelex-2024.5.0.data}/data/Lib/site-packages/sklearnex/decomposition/pca.py RENAMED Viewed

@@ -21,6 +21,7 @@ from daal4py.sklearn._utils import daal_check_version
 if daal_check_version((2024, "P", 100)):
     import numbers
     from math import sqrt
+    from warnings import warn
     import numpy as np
     from scipy.sparse import issparse
@@ -35,9 +36,13 @@ if daal_check_version((2024, "P", 100)):
     if sklearn_check_version("1.1") and not sklearn_check_version("1.2"):
         from sklearn.utils import check_scalar
+    if sklearn_check_version("1.2"):
+        from sklearn.utils._param_validation import StrOptions
     from sklearn.decomposition import PCA as sklearn_PCA
     from onedal.decomposition import PCA as onedal_PCA
+    from sklearnex.utils import get_namespace
     @control_n_jobs(decorated_methods=["fit", "transform", "fit_transform"])
     class PCA(sklearn_PCA):
@@ -45,6 +50,16 @@ if daal_check_version((2024, "P", 100)):
         if sklearn_check_version("1.2"):
             _parameter_constraints: dict = {**sklearn_PCA._parameter_constraints}
+            # "onedal_svd" solver uses oneDAL's PCA-SVD algorithm
+            # and required for testing purposes to fully enable it in future.
+            # "covariance_eigh" solver is added for ability to explicitly request
+            # oneDAL's PCA-Covariance algorithm using any sklearn version < 1.5.
+            _parameter_constraints["svd_solver"] = [
+                StrOptions(
+                    _parameter_constraints["svd_solver"][0].options
+                    | {"onedal_svd", "covariance_eigh"}
+                )
+            ]
         if sklearn_check_version("1.1"):
@@ -95,6 +110,7 @@ if daal_check_version((2024, "P", 100)):
             self._fit(X)
             return self
+        @wrap_output_data
         def _fit(self, X):
             if sklearn_check_version("1.2"):
                 self._validate_params()
@@ -106,7 +122,7 @@ if daal_check_version((2024, "P", 100)):
                     target_type=numbers.Integral,
                 )
-            U, S, Vt = dispatch(
+            return dispatch(
                 self,
                 "fit",
                 {
@@ -115,7 +131,6 @@ if daal_check_version((2024, "P", 100)):
                 },
                 X,
             )
-            return U, S, Vt
         def _onedal_fit(self, X, queue=None):
             X = self._validate_data(
@@ -128,7 +143,7 @@ if daal_check_version((2024, "P", 100)):
             onedal_params = {
                 "n_components": self.n_components,
                 "is_deterministic": True,
-                "method": "cov",
+                "method": "svd" if self._fit_svd_solver == "onedal_svd" else "cov",
                 "whiten": self.whiten,
             }
             self._onedal_estimator = onedal_PCA(**onedal_params)
@@ -139,7 +154,13 @@ if daal_check_version((2024, "P", 100)):
             S = self.singular_values_
             Vt = self.components_
-            return U, S, Vt
+            if sklearn_check_version("1.5"):
+                xp, _ = get_namespace(X)
+                x_is_centered = not self.copy
+                return U, S, Vt, X, x_is_centered, xp
+            else:
+                return U, S, Vt
         @wrap_output_data
         def transform(self, X):
@@ -155,34 +176,39 @@ if daal_check_version((2024, "P", 100)):
         def _onedal_transform(self, X, queue=None):
             check_is_fitted(self)
+            if sklearn_check_version("1.0"):
+                self._check_feature_names(X, reset=False)
             X = self._validate_data(
                 X,
                 dtype=[np.float64, np.float32],
                 reset=False,
             )
             self._validate_n_features_in_after_fitting(X)
-            if sklearn_check_version("1.0"):
-                self._check_feature_names(X, reset=False)
             return self._onedal_estimator.predict(X, queue=queue)
-        @wrap_output_data
         def fit_transform(self, X, y=None):
-            U, S, Vt = self._fit(X)
-            if U is None:
-                # oneDAL PCA was fit
-                X_transformed = self._onedal_transform(X)
-                return X_transformed
+            if sklearn_check_version("1.5"):
+                U, S, Vt, X_fit, x_is_centered, xp = self._fit(X)
             else:
+                U, S, Vt = self._fit(X)
+                X_fit = X
+            if hasattr(self, "_onedal_estimator"):
+                # oneDAL PCA was fit
+                return self.transform(X)
+            elif U is not None:
                 # Scikit-learn PCA was fit
                 U = U[:, : self.n_components_]
                 if self.whiten:
-                    U *= sqrt(X.shape[0] - 1)
+                    U *= sqrt(X_fit.shape[0] - 1)
                 else:
                     U *= S[: self.n_components_]
                 return U
+            else:
+                # Scikit-learn PCA["covariance_eigh"] was fit
+                return self._transform(X_fit, xp, x_is_centered=x_is_centered)
         def _onedal_supported(self, method_name, X):
             class_name = self.__class__.__name__
@@ -200,7 +226,13 @@ if daal_check_version((2024, "P", 100)):
                         ),
                         (
                             self._is_solver_compatible_with_onedal(shape_tuple),
-                            f"Only 'full' svd solver is supported.",
+                            (
+                                "Only 'covariance_eigh' and 'onedal_svd' "
+                                "solvers are supported."
+                                if sklearn_check_version("1.5")
+                                else "Only 'full', 'covariance_eigh' and 'onedal_svd' "
+                                "solvers are supported."
+                            ),
                         ),
                         (not issparse(X), "oneDAL PCA does not support sparse data"),
                     ]
@@ -255,7 +287,13 @@ if daal_check_version((2024, "P", 100)):
             if self._fit_svd_solver == "auto":
                 if sklearn_check_version("1.1"):
-                    if max(shape_tuple) <= 500 or n_components == "mle":
+                    if (
+                        sklearn_check_version("1.5")
+                        and shape_tuple[1] <= 1_000
+                        and shape_tuple[0] >= 10 * shape_tuple[1]
+                    ):
+                        self._fit_svd_solver = "covariance_eigh"
+                    elif max(shape_tuple) <= 500 or n_components == "mle":
                         self._fit_svd_solver = "full"
                     elif 1 <= n_components < 0.8 * n_sf_min:
                         self._fit_svd_solver = "randomized"
@@ -289,7 +327,23 @@ if daal_check_version((2024, "P", 100)):
                         else:
                             self._fit_svd_solver = "full"
-            if self._fit_svd_solver == "full":
+            # Use oneDAL in next cases:
+            # 1. oneDAL SVD solver is explicitly set
+            # 2. solver is set or dispatched to "covariance_eigh"
+            # 3. solver is set or dispatched to "full" and sklearn version < 1.5
+            # 4. solver is set to "auto" and dispatched to "full"
+            if self._fit_svd_solver in ["onedal_svd", "covariance_eigh"]:
+                return True
+            elif not sklearn_check_version("1.5") and self._fit_svd_solver == "full":
+                self._fit_svd_solver = "covariance_eigh"
+                return True
+            elif self.svd_solver == "auto" and self._fit_svd_solver == "full":
+                warn(
+                    "Sklearnex always uses `covariance_eigh` solver instead of `full` "
+                    "when `svd_solver` parameter is set to `auto` "
+                    "for performance purposes."
+                )
+                self._fit_svd_solver = "covariance_eigh"
                 return True
             else:
                 return False
@@ -298,11 +352,9 @@ if daal_check_version((2024, "P", 100)):
             self.n_samples_ = self._onedal_estimator.n_samples_
             if sklearn_check_version("1.2"):
                 self.n_features_in_ = self._onedal_estimator.n_features_
-            elif sklearn_check_version("0.24"):
-                self.n_features_ = self._onedal_estimator.n_features_
-                self.n_features_in_ = self._onedal_estimator.n_features_
             else:
                 self.n_features_ = self._onedal_estimator.n_features_
+                self.n_features_in_ = self._onedal_estimator.n_features_
             self.n_components_ = self._onedal_estimator.n_components_
             self.components_ = self._onedal_estimator.components_
             self.mean_ = self._onedal_estimator.mean_

{scikit_learn_intelex-2024.3.0.data → scikit_learn_intelex-2024.5.0.data}/data/Lib/site-packages/sklearnex/decomposition/tests/test_pca.py RENAMED Viewed

@@ -41,10 +41,10 @@ def test_sklearnex_import(dataframe, queue):
         [3.6053038, 0.04224385],
     ]
-    pca = PCA(n_components=2, svd_solver="full")
+    pca = PCA(n_components=2, svd_solver="covariance_eigh")
     pca.fit(X)
     X_transformed = pca.transform(X)
-    X_fit_transformed = PCA(n_components=2, svd_solver="full").fit_transform(X)
+    X_fit_transformed = PCA(n_components=2, svd_solver="covariance_eigh").fit_transform(X)
     if daal_check_version((2024, "P", 100)):
         assert "sklearnex" in pca.__module__

{scikit_learn_intelex-2024.3.0.data → scikit_learn_intelex-2024.5.0.data}/data/Lib/site-packages/sklearnex/dispatcher.py RENAMED Viewed

@@ -93,6 +93,7 @@ def get_patch_map_core(preview=False):
         # Scikit-learn* modules
         import sklearn as base_module
         import sklearn.cluster as cluster_module
+        import sklearn.covariance as covariance_module
         import sklearn.decomposition as decomposition_module
         import sklearn.ensemble as ensemble_module
         import sklearn.linear_model as linear_model_module
@@ -115,11 +116,17 @@ def get_patch_map_core(preview=False):
             from .utils.parallel import _FuncWrapperOld as _FuncWrapper_sklearnex
         from .cluster import DBSCAN as DBSCAN_sklearnex
+        from .covariance import (
+            IncrementalEmpiricalCovariance as IncrementalEmpiricalCovariance_sklearnex,
+        )
         from .decomposition import PCA as PCA_sklearnex
         from .ensemble import ExtraTreesClassifier as ExtraTreesClassifier_sklearnex
         from .ensemble import ExtraTreesRegressor as ExtraTreesRegressor_sklearnex
         from .ensemble import RandomForestClassifier as RandomForestClassifier_sklearnex
         from .ensemble import RandomForestRegressor as RandomForestRegressor_sklearnex
+        from .linear_model import (
+            IncrementalLinearRegression as IncrementalLinearRegression_sklearnex,
+        )
         from .linear_model import LinearRegression as LinearRegression_sklearnex
         from .linear_model import LogisticRegression as LogisticRegression_sklearnex
         from .neighbors import KNeighborsClassifier as KNeighborsClassifier_sklearnex
@@ -273,6 +280,30 @@ def get_patch_map_core(preview=False):
         ]
         mapping["localoutlierfactor"] = mapping["lof"]
+        # IncrementalEmpiricalCovariance
+        mapping["incrementalempiricalcovariance"] = [
+            [
+                (
+                    covariance_module,
+                    "IncrementalEmpiricalCovariance",
+                    IncrementalEmpiricalCovariance_sklearnex,
+                ),
+                None,
+            ]
+        ]
+        # IncrementalLinearRegression
+        mapping["incrementallinearregression"] = [
+            [
+                (
+                    linear_model_module,
+                    "IncrementalLinearRegression",
+                    IncrementalLinearRegression_sklearnex,
+                ),
+                None,
+            ]
+        ]
         # Configs
         mapping["set_config"] = [
             [(base_module, "set_config", set_config_sklearnex), None]
@@ -314,10 +345,10 @@ def get_patch_names():
 def patch_sklearn(name=None, verbose=True, global_patch=False, preview=False):
     if preview:
         os.environ["SKLEARNEX_PREVIEW"] = "enabled_via_patch_sklearn"
-    if not sklearn_check_version("0.22"):
+    if not sklearn_check_version("0.24"):
         raise NotImplementedError(
             "Intel(R) Extension for Scikit-learn* patches apply "
-            "for scikit-learn >= 0.22 only ..."
+            "for scikit-learn >= 0.24 only ..."
         )
     if global_patch: