PyPI - upgini - Versions diffs - 1.1.131a4__tar.gz → 1.1.132__tar.gz - Mend

upgini 1.1.131a4tar.gz → 1.1.132tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (64) hide show

{upgini-1.1.131a4/src/upgini.egg-info → upgini-1.1.132}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.131a4
+Version: 1.1.132
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.131a4 → upgini-1.1.132}/setup.py RENAMED Viewed

@@ -35,7 +35,7 @@ def send_log(msg: str):
 here = Path(__file__).parent.resolve()
-version = "1.1.131a4"
+version = "1.1.132"
 try:
     send_log(f"Start setup PyLib version {version}")
     setup(
@@ -77,7 +77,7 @@ try:
             "numpy>=1.19.0",
             "scikit-learn>=1.0.1",
             "pydantic>=1.8.2",
-            "fastparquet>=0.7.1",
+            "fastparquet>=0.8.1",
             "python-json-logger>=2.0.2",
             "catboost>=1.0.3",
             "lightgbm>=3.3.2",

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/features_enricher.py RENAMED Viewed

@@ -139,15 +139,16 @@ class FeaturesEnricher(TransformerMixin):
         raise_validation_error: bool = False,
         **kwargs,
     ):
-        self.api_key = api_key or os.environ.get(UPGINI_API_KEY)
+        self._api_key = api_key or os.environ.get(UPGINI_API_KEY)
         try:
-            self.rest_client = get_rest_client(endpoint, self.api_key)
+            self.rest_client = get_rest_client(endpoint, self._api_key)
         except UpginiConnectionError as e:
             print(e)
             return
+        self.logs_enabled = logs_enabled
         if logs_enabled:
-            self.logger = LoggerFactory().get_logger(endpoint, self.api_key)
+            self.logger = LoggerFactory().get_logger(endpoint, self._api_key)
         else:
             self.logger = logging.getLogger()
             self.logger.setLevel("FATAL")
@@ -174,7 +175,7 @@ class FeaturesEnricher(TransformerMixin):
             search_task = SearchTask(
                 search_id,
                 endpoint=self.endpoint,
-                api_key=self.api_key,
+                api_key=self._api_key,
             )
             print(bundle.get("search_by_task_id_start"))
@@ -235,6 +236,16 @@ class FeaturesEnricher(TransformerMixin):
         self.__cached_sampled_datasets: Optional[Tuple[pd.DataFrame, pd.DataFrame, pd.Series, Dict, Dict]] = None
         self.raise_validation_error = raise_validation_error
+    def _get_api_key(self):
+        return self._api_key
+    def _set_api_key(self, api_key: str):
+        self._api_key = api_key
+        if self.logs_enabled:
+            self.logger = LoggerFactory().get_logger(self.endpoint, self._api_key)
+    api_key = property(_get_api_key, _set_api_key)
     def fit(
         self,
         X: Union[pd.DataFrame, pd.Series, np.ndarray],
@@ -579,13 +590,14 @@ class FeaturesEnricher(TransformerMixin):
             finally:
                 self.logger.info(f"Transform elapsed time: {time.time() - start_time}")
-            if self.country_added:
-                result = drop_existing_columns(result, COUNTRY)
+            if result is not None:
+                if self.country_added:
+                    result = drop_existing_columns(result, COUNTRY)
-            if keep_input:
-                return result
-            else:
-                return drop_existing_columns(result, X.columns)
+                if keep_input:
+                    return result
+                else:
+                    return drop_existing_columns(result, X.columns)
     def calculate_metrics(
         self,
@@ -912,13 +924,21 @@ class FeaturesEnricher(TransformerMixin):
     def _has_features_with_commercial_schema(
         self, commercial_schema: str, exclude_features_sources: Optional[List[str]]
     ) -> bool:
+        return len(self._get_features_with_commercial_schema(commercial_schema, exclude_features_sources)) > 0
+    def _get_features_with_commercial_schema(
+        self, commercial_schema: str, exclude_features_sources: Optional[List[str]]
+    ) -> List[str]:
         if exclude_features_sources:
             filtered_features_info = self.features_info[
                 ~self.features_info[bundle.get("features_info_name")].isin(exclude_features_sources)
             ]
         else:
             filtered_features_info = self.features_info
-        return (filtered_features_info[bundle.get("features_info_commercial_schema")] == commercial_schema).any()
+        return list(filtered_features_info.loc[
+            filtered_features_info[bundle.get("features_info_commercial_schema")] == commercial_schema,
+            bundle.get("features_info_name"),
+        ].values)
     def _has_trial_features(self, exclude_features_sources: Optional[List[str]]) -> bool:
         return self._has_features_with_commercial_schema(CommercialSchema.TRIAL.value, exclude_features_sources)
@@ -1248,7 +1268,6 @@ class FeaturesEnricher(TransformerMixin):
                 msg = bundle.get("transform_with_trial_features")
                 self.logger.warn(msg)
                 print(msg)
-                return None
             columns_to_drop = [c for c in validated_X.columns if c in self.feature_names_]
             if len(columns_to_drop) > 0:
@@ -1493,7 +1512,8 @@ class FeaturesEnricher(TransformerMixin):
         if is_demo_dataset:
             msg = bundle.get("demo_dataset_info")
             self.logger.info(msg)
-            print(msg)
+            if not self.__is_registered:
+                print(msg)
         if self.generate_features is not None and len(self.generate_features) > 0:
             x_columns = list(validated_X.columns)

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/http.py RENAMED Viewed

@@ -11,8 +11,8 @@ from http.client import HTTPConnection
 from json import dumps
 from typing import Dict, List, Optional
 from urllib.parse import urljoin
-import pandas as pd
+import pandas as pd
 import requests
 from pydantic import BaseModel
 from pythonjsonlogger import jsonlogger
@@ -32,7 +32,7 @@ from upgini.metadata import (
     SearchCustomization,
 )
 from upgini.resource_bundle import bundle
-from upgini.utils.track_info import get_track_metrics
+from upgini.utils.track_info import get_track_metrics_with_timeout
 try:
     from importlib_metadata import version
@@ -49,6 +49,7 @@ except ImportError:
 UPGINI_URL: str = "UPGINI_URL"
 UPGINI_API_KEY: str = "UPGINI_API_KEY"
 DEMO_API_KEY: str = "Aa4BPwGFbn1zNEXIkZ-NbhsRk0ricN6puKuga1-O5lM"
+TRACK_METRICS_TIMEOUT_SECONDS: int = 10
 refresh_token_lock = threading.Lock()
@@ -374,7 +375,11 @@ class _RestClient:
                         search_customization.json(exclude_none=True).encode(),
                         "application/json",
                     )
-                files["tracking"] = ("tracking.json", dumps(get_track_metrics()).encode(), "application/json")
+                files["tracking"] = (
+                    "tracking.json",
+                    dumps(get_track_metrics_with_timeout(TRACK_METRICS_TIMEOUT_SECONDS)).encode(),
+                    "application/json",
+                )
                 additional_headers = {self.SEARCH_KEYS_HEADER_NAME: ",".join(self.search_keys_meaning_types(metadata))}
                 return self._send_post_file_req_v2(
@@ -433,7 +438,6 @@ class _RestClient:
                 digest = md5_hash.hexdigest()
                 metadata_with_md5 = metadata.copy(update={"checksumMD5": digest})
-            import pandas as pd
             digest_sha256 = hashlib.sha256(pd.util.hash_pandas_object(pd.read_parquet(file_path)).values).hexdigest()
             metadata_with_md5 = metadata_with_md5.copy(update={"digest": digest_sha256})
@@ -453,7 +457,11 @@ class _RestClient:
                         search_customization.json(exclude_none=True).encode(),
                         "application/json",
                     )
-                files["tracking"] = ("ide", dumps(get_track_metrics()).encode(), "application/json")
+                files["tracking"] = (
+                    "ide",
+                    dumps(get_track_metrics_with_timeout(TRACK_METRICS_TIMEOUT_SECONDS)).encode(),
+                    "application/json",
+                )
                 additional_headers = {self.SEARCH_KEYS_HEADER_NAME: ",".join(self.search_keys_meaning_types(metadata))}
@@ -787,17 +795,18 @@ class BackendLogHandler(logging.Handler):
     def __init__(self, rest_client: _RestClient, *args, **kwargs) -> None:
         super().__init__(*args, **kwargs)
         self.rest_client = rest_client
-        print("Before track metrics")
-        self.track_metrics = get_track_metrics()
-        print("After track metrics")
-        if "ip" in self.track_metrics.keys():
-            self.hostname = self.track_metrics["ip"]
-        else:
-            self.hostname = "0.0.0.0"
+        self.track_metrics = None
+        self.hostname = None
     def emit(self, record: logging.LogRecord) -> None:
         def task():
             try:
+                if self.track_metrics is None:
+                    self.track_metrics = get_track_metrics_with_timeout(TRACK_METRICS_TIMEOUT_SECONDS)
+                    if "ip" in self.track_metrics.keys():
+                        self.hostname = self.track_metrics["ip"]
+                    else:
+                        self.hostname = "0.0.0.0"
                 text = self.format(record)
                 tags = self.track_metrics
                 tags["version"] = __version__
@@ -848,11 +857,8 @@ class LoggerFactory:
         upgini_logger = logging.getLogger(f"upgini.{hash(key)}")
         upgini_logger.handlers.clear()
-        print("Before rest client")
         rest_client = get_rest_client(backend_url, api_token)
-        print("Before backend log handler")
         datadog_handler = BackendLogHandler(rest_client)
-        print("After backend log handler")
         json_formatter = jsonlogger.JsonFormatter(
             "%(asctime)s %(threadName)s %(name)s %(levelname)s %(message)s",
             timestamp=True,

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

@@ -25,7 +25,8 @@ metrics_no_important_free_features=WARNING: No important free features to calcul
 metrics_no_important_features=WARNING: No important features to calculate metrics
 metrics_negative_uplift_without_cv=Please re-check that your task is not a time series prediction. If so, restart search with cv=CVType.time_series param for correct search results. See docs https://github.com/upgini/upgini#-time-series-prediction-support
 metrics_with_trial_features=The calculation of final accuracy metrics using Trial data is not available for unauthorized users.\nGet a free API key on https://upgini.com and repeat your request.
-transform_with_trial_features=Enriching with Trial data is not available for unauthorized users.\nGet a free API key on https://upgini.com and repeat your request.
+transform_with_trial_features=WARNING: Your search results contain Trial data sources. To enrich your dataframe using transform or fit_transform with features from these Trial data sources, please register for a Free API key at https://upgini.com and resubmit your request.
+# Enriching with Trial data is not available for unauthorized users.\nGet a free API key on https://upgini.com and repeat your request.
 metrics_with_paid_features=The calculation of final accuracy metrics using Paid data is not available.\nContact Upgini support for the data access
 transform_with_paid_features=Enriching with Paid data is not available.\nContact Upgini support for the data access
 trial_quota_limit_riched=WARNING: You have reached the quota limit of trial data usage. Please contact Upgini support to remove restriction

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/search_task.py RENAMED Viewed

@@ -59,8 +59,8 @@ class SearchTask:
         submitted_statuses = {"SUBMITTED", "VALIDATION_SUBMITTED"}
         if not quiet:
             print(bundle.get("polling_search_task").format(self.search_task_id))
-        if is_demo_api_key(self.api_key):
-            print(bundle.get("polling_unregister_information"))
+            if is_demo_api_key(self.api_key):
+                print(bundle.get("polling_unregister_information"))
         search_task_id = self.initial_search_task_id if self.initial_search_task_id is not None else self.search_task_id
         try:

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/track_info.py RENAMED Viewed

@@ -6,6 +6,7 @@ from functools import lru_cache
 from getpass import getuser
 from hashlib import sha256
 from uuid import getnode
+from concurrent import futures
 from requests import get, post
@@ -45,6 +46,17 @@ def _get_execution_ide() -> str:
         return "other"
+def get_track_metrics_with_timeout(timeout_seconds: int = 10) -> dict:
+    with futures.ThreadPoolExecutor() as executor:
+        future = executor.submit(get_track_metrics)
+        try:
+            result = future.result(timeout_seconds)
+            return result
+        except futures.TimeoutError:
+            future.cancel()
+            return dict()
 @lru_cache()
 def get_track_metrics() -> dict:
     # default values

{upgini-1.1.131a4 → upgini-1.1.132/src/upgini.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.131a4
+Version: 1.1.132
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini.egg-info/requires.txt RENAMED Viewed

@@ -4,7 +4,7 @@ pandas<2.0.0,>=1.1.0
 numpy>=1.19.0
 scikit-learn>=1.0.1
 pydantic>=1.8.2
-fastparquet>=0.7.1
+fastparquet>=0.8.1
 python-json-logger>=2.0.2
 catboost>=1.0.3
 lightgbm>=3.3.2

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_features_enricher.py RENAMED Viewed

@@ -397,7 +397,7 @@ def test_saved_features_enricher(requests_mock: Mocker):
             {
                 "segment": [train_segment, eval_1_segment, eval_2_segment],
                 rows_header: [10000, 1000, 1000],
-                enriched_rocauc: [0.507052, 0.485257, 0.491804],
+                enriched_rocauc: [0.500276, 0.499805, 0.497979],
             }
         )
         .set_index("segment")
@@ -1774,7 +1774,7 @@ def test_correct_order_of_enriched_X(requests_mock: Mocker):
     df_with_eval_set_index_with_date = converter.convert(df_with_eval_set_index)
     mock_features["system_record_id"] = pd.util.hash_pandas_object(
         df_with_eval_set_index_with_date[sorted(search_keys.keys())].reset_index(drop=True), index=False
-    )
+    ).astype("Float64")
     mock_validation_raw_features(requests_mock, url, validation_search_task_id, mock_features)
     enriched_df_with_eval_set = enricher.transform(df_with_eval_set_index)
@@ -2415,12 +2415,12 @@ def test_diff_target_dups(requests_mock: Mocker):
         self.validate()
         assert len(self.data) == 2
         print(self.data)
-        assert self.data.loc[2, "date_fake_a"] == 1672531200000
-        assert self.data.loc[2, "feature_fake_a"] == 12
-        assert self.data.loc[2, "target"] == 0
-        assert self.data.loc[3, "date_fake_a"] == 1672531200000
-        assert self.data.loc[3, "feature_fake_a"] == 13
-        assert self.data.loc[3, "target"] == 1
+        assert self.data.loc[0, "date_fake_a"] == 1672531200000
+        assert self.data.loc[0, "feature_fake_a"] == 12
+        assert self.data.loc[0, "target"] == 0
+        assert self.data.loc[1, "date_fake_a"] == 1672531200000
+        assert self.data.loc[1, "feature_fake_a"] == 13
+        assert self.data.loc[1, "target"] == 1
         return SearchTask("123", self, endpoint=url, api_key="fake_api_key")
     Dataset.search = mock_search

{upgini-1.1.131a4 → upgini-1.1.132}/LICENSE RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/README.md RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/setup.cfg RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/ads.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/dataset.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/metrics.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/normalizer/phone_normalizer.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/display_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/features_validator.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/target_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini/version_validator.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/src/upgini.egg-info/top_level.txt RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_binary_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_categorical_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_continuous_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_etalon_validation.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_metrics.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.131a4 → upgini-1.1.132}/tests/test_postal_code_utils.py RENAMED Viewed

File without changes

upgini 1.1.131a4__tar.gz → 1.1.132__tar.gz

Potentially problematic release.

upgini 1.1.131a4tar.gz → 1.1.132tar.gz