PyPI - upgini - Versions diffs - 1.1.275a99__tar.gz → 1.1.277__tar.gz - Mend

upgini 1.1.275a99tar.gz → 1.1.277tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of upgini might be problematic. Click here for more details.

Files changed (85) hide show

{upgini-1.1.275a99/src/upgini.egg-info → upgini-1.1.277}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.275a99
+Version: 1.1.277
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.275a99 → upgini-1.1.277}/setup.py RENAMED Viewed

@@ -40,7 +40,7 @@ def send_log(msg: str):
 here = Path(__file__).parent.resolve()
-version = "1.1.275a99"
+version = "1.1.277"
 try:
     send_log(f"Start setup PyLib version {version}")
     setup(

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/ads.py RENAMED Viewed

@@ -5,7 +5,7 @@ from typing import Dict, Optional
 import numpy as np
 import pandas as pd
-from pandas.api.types import is_string_dtype
+from pandas.api.types import is_object_dtype, is_string_dtype
 from upgini import SearchKey
 from upgini.http import get_rest_client
@@ -34,7 +34,11 @@ def upload_user_ads(name: str, df: pd.DataFrame, search_keys: Dict[str, SearchKe
             if df[column_name].notnull().sum() < min_valid_rows_count:
                 raise ValueError(bundle.get("ads_upload_to_many_empty_rows"))
             meaning_type = search_keys[column_name].value
-            if meaning_type == FileColumnMeaningType.MSISDN and not is_string_dtype(df[column_name]):
+            if (
+                meaning_type == FileColumnMeaningType.MSISDN
+                and not is_string_dtype(df[column_name])
+                and not is_object_dtype(df[column_name])
+            ):
                 df[column_name] = df[column_name].values.astype(np.int64).astype("string")  # type: ignore
         else:
             meaning_type = FileColumnMeaningType.FEATURE

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/dataset.py RENAMED Viewed

@@ -17,6 +17,7 @@ from pandas.api.types import (
     is_numeric_dtype,
     is_period_dtype,
     is_string_dtype,
+    is_object_dtype,
 )
 from upgini.errors import ValidationError
@@ -219,7 +220,7 @@ class Dataset:  # (pd.DataFrame):
         """Check that string values less than maximum characters for LLM"""
         # self.logger.info("Validate too long string values")
         for col in self.data.columns:
-            if is_string_dtype(self.data[col]):
+            if is_string_dtype(self.data[col]) or is_object_dtype(self.data[col]):
                 max_length: int = self.data[col].astype("str").str.len().max()
                 if max_length > self.MAX_STRING_FEATURE_LENGTH:
                     self.data[col] = self.data[col].astype("str").str.slice(stop=self.MAX_STRING_FEATURE_LENGTH)
@@ -350,7 +351,7 @@ class Dataset:  # (pd.DataFrame):
         if postal_code is not None and postal_code in self.data.columns:
             # self.logger.info("Normalize postal code")
-            if is_string_dtype(self.data[postal_code]):
+            if is_string_dtype(self.data[postal_code]) or is_object_dtype(self.data[postal_code]):
                 try:
                     self.data[postal_code] = self.data[postal_code].astype("float64").astype("Int64").astype("string")
                 except Exception:
@@ -821,7 +822,7 @@ class Dataset:  # (pd.DataFrame):
             return DataType.INT
         elif is_float_dtype(pandas_data_type):
             return DataType.DECIMAL
-        elif is_string_dtype(pandas_data_type):
+        elif is_string_dtype(pandas_data_type) or is_object_dtype(pandas_data_type):
             return DataType.STRING
         else:
             msg = self.bundle.get("dataset_invalid_column_type").format(column_name, pandas_data_type)

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/features_enricher.py RENAMED Viewed

@@ -21,6 +21,7 @@ from pandas.api.types import (
     is_bool,
     is_datetime64_any_dtype,
     is_numeric_dtype,
+    is_object_dtype,
     is_period_dtype,
     is_string_dtype,
 )
@@ -2982,7 +2983,7 @@ class FeaturesEnricher(TransformerMixin):
     def __correct_target(self, df: pd.DataFrame) -> pd.DataFrame:
         target = df[self.TARGET_NAME]
-        if is_string_dtype(target):
+        if is_string_dtype(target) or is_object_dtype(target):
             maybe_numeric_target = pd.to_numeric(target, errors="coerce")
             # If less than 5% is non numeric then leave this rows with NaN target and later it will be dropped
             if maybe_numeric_target.isna().sum() <= _num_samples(df) * 0.05:
@@ -3255,6 +3256,8 @@ class FeaturesEnricher(TransformerMixin):
             descriptions = []
             for m in autofe_meta:
                 autofe_feature = Feature.from_formula(m.formula)
+                orig_to_hashed = {base_column.original_name: base_column.hashed_name for base_column in m.base_columns}
+                autofe_feature.rename_columns(orig_to_hashed)
                 autofe_feature.set_display_index(m.display_index)
                 if autofe_feature.op.is_vector:
                     continue
@@ -3382,7 +3385,8 @@ class FeaturesEnricher(TransformerMixin):
                 valid_search_keys[column_name] = SearchKey.CUSTOM_KEY
             else:
                 if x[column_name].isnull().all() or (
-                    is_string_dtype(x[column_name]) and (x[column_name].astype("string").str.strip() == "").all()
+                    (is_string_dtype(x[column_name]) or is_object_dtype(x[column_name]))
+                    and (x[column_name].astype("string").str.strip() == "").all()
                 ):
                     raise ValidationError(self.bundle.get("empty_search_key").format(column_name))

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/__init__.py RENAMED Viewed

@@ -2,7 +2,7 @@ import itertools
 from typing import List, Tuple
 import pandas as pd
-from pandas.api.types import is_string_dtype
+from pandas.api.types import is_string_dtype, is_object_dtype
 def combine_search_keys(search_keys: List[str]) -> List[Tuple[str]]:
@@ -20,5 +20,6 @@ def find_numbers_with_decimal_comma(df: pd.DataFrame) -> pd.DataFrame:
     return [
         col
         for col in tmp.columns
-        if is_string_dtype(tmp[col]) and tmp[col].astype("string").str.match("^[0-9]+,[0-9]*$").any()
+        if (is_string_dtype(tmp[col]) or is_object_dtype(tmp[col]))
+        and tmp[col].astype("string").str.match("^[0-9]+,[0-9]*$").any()
     ]

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/country_utils.py RENAMED Viewed

@@ -1,5 +1,5 @@
 import pandas as pd
-from pandas.api.types import is_string_dtype
+from pandas.api.types import is_string_dtype, is_object_dtype
 from upgini.utils.base_search_key_detector import BaseSearchKeyDetector
@@ -9,7 +9,7 @@ class CountrySearchKeyDetector(BaseSearchKeyDetector):
         return "country" in str(column_name).lower()
     def _is_search_key_by_values(self, column: pd.Series) -> bool:
-        if not is_string_dtype(column):
+        if not is_string_dtype(column) and not is_object_dtype(column):
             return False
         all_count = len(column)

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/datetime_utils.py RENAMED Viewed

@@ -6,7 +6,10 @@ from typing import Dict, List, Optional
 import numpy as np
 import pandas as pd
 from dateutil.relativedelta import relativedelta
-from pandas.api.types import is_numeric_dtype, is_period_dtype, is_string_dtype
+from pandas.api.types import (
+    is_numeric_dtype,
+    is_period_dtype,
+)
 from upgini.errors import ValidationError
 from upgini.metadata import SearchKey
@@ -78,9 +81,6 @@ class DateTimeSearchKeyConverter:
             df[self.date_column] = df[self.date_column].apply(lambda x: x.replace(tzinfo=None))
         elif isinstance(df[self.date_column].values[0], datetime.date):
             df[self.date_column] = pd.to_datetime(df[self.date_column], errors="coerce")
-        elif is_string_dtype(df[self.date_column]):
-            df[self.date_column] = df[self.date_column].apply(self.clean_date)
-            df[self.date_column] = self.parse_date(df)
         elif is_period_dtype(df[self.date_column]):
             df[self.date_column] = pd.to_datetime(df[self.date_column].astype("string"))
         elif is_numeric_dtype(df[self.date_column]):
@@ -249,7 +249,8 @@ def validate_dates_distribution(
             if col in search_keys:
                 continue
             try:
-                pd.to_datetime(X[col])
+                # Format mixed to avoid massive warnings
+                pd.to_datetime(X[col], format="mixed")
                 maybe_date_col = col
                 break
             except Exception:

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/email_utils.py RENAMED Viewed

@@ -4,7 +4,7 @@ from hashlib import sha256
 from typing import Dict, List, Optional
 import pandas as pd
-from pandas.api.types import is_string_dtype
+from pandas.api.types import is_string_dtype, is_object_dtype
 from upgini.resource_bundle import bundle
 from upgini.metadata import SearchKey
@@ -18,7 +18,7 @@ class EmailSearchKeyDetector(BaseSearchKeyDetector):
         return str(column_name).lower() in ["email", "e_mail", "e-mail"]
     def _is_search_key_by_values(self, column: pd.Series) -> bool:
-        if not is_string_dtype(column):
+        if not is_string_dtype(column) and not is_object_dtype:
             return False
         if not column.astype("string").str.contains("@").any():
             return False

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/target_utils.py RENAMED Viewed

@@ -107,7 +107,7 @@ def balance_undersample(
     min_class_count = vc[min_class_value]
     min_class_percent = imbalance_threshold / target_classes_count
-    min_class_threshold = min_class_percent * count
+    min_class_threshold = int(min_class_percent * count)
     resampled_data = df
     df = df.copy().sort_values(by=SYSTEM_RECORD_ID)

{upgini-1.1.275a99 → upgini-1.1.277/src/upgini.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: upgini
-Version: 1.1.275a99
+Version: 1.1.277
 Summary: Intelligent data search & enrichment for Machine Learning
 Home-page: https://upgini.com/
 Author: Upgini Developers

{upgini-1.1.275a99 → upgini-1.1.277}/LICENSE RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/README.md RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/pyproject.toml RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/setup.cfg RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/ads_management/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/ads_management/ads_manager.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/all_operands.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/binary.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/date.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/feature.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/groupby.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/operand.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/unary.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/autofe/vector.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/data_source/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/data_source/data_source_publisher.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/errors.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/fingerprint.js RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/http.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/mdc/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/mdc/context.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/metadata.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/metrics.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/normalizer/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/normalizer/phone_normalizer.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/resource_bundle/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/resource_bundle/exceptions.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/resource_bundle/strings.properties RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/resource_bundle/strings_widget.properties RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/sampler/__init__.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/sampler/base.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/sampler/random_under_sampler.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/sampler/utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/search_task.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/spinner.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/base_search_key_detector.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/cv_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/deduplicate_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/display_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/fallback_progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/features_validator.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/format.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/ip_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/progress_bar.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/sklearn_ext.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/track_info.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/utils/warning_counter.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini/version_validator.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini.egg-info/requires.txt RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/src/upgini.egg-info/top_level.txt RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_autofe_operands.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_binary_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_blocked_time_series.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_categorical_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_continuous_dataset.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_country_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_custom_loss_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_datetime_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_email_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_etalon_validation.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_features_enricher.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_metrics.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_phone_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_postal_code_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_target_utils.py RENAMED Viewed

File without changes

{upgini-1.1.275a99 → upgini-1.1.277}/tests/test_widget.py RENAMED Viewed

File without changes

upgini 1.1.275a99__tar.gz → 1.1.277__tar.gz

Potentially problematic release.

upgini 1.1.275a99tar.gz → 1.1.277tar.gz