PyPI - mlgear - Versions diffs - 0.4__py3-none-any.whl → 0.5__py3-none-any.whl - Mend

mlgear 0.4py3-none-any.whl → 0.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

mlgear/cv.py +4 -1
mlgear/models.py +32 -13
mlgear/utils.py +5 -1
{mlgear-0.4.dist-info → mlgear-0.5.dist-info}/METADATA +36 -7
mlgear-0.5.dist-info/RECORD +13 -0
{mlgear-0.4.dist-info → mlgear-0.5.dist-info}/WHEEL +1 -2
mlgear-0.4.dist-info/RECORD +0 -14
mlgear-0.4.dist-info/top_level.txt +0 -1
{mlgear-0.4.dist-info → mlgear-0.5.dist-info}/LICENSE.txt +0 -0

mlgear/cv.py CHANGED Viewed

@@ -51,7 +51,10 @@ def run_cv_model(train, test=None, target=None, model_fn=None, params={}, eval_f
         models[i] = model
         if importances is not None and isinstance(train, pd.DataFrame):
             fold_importance_df = pd.DataFrame()
-            fold_importance_df['feature'] = train.columns.values
+            if params.get('group') is None:
+                fold_importance_df['feature'] = train.columns.values
+            else:
+                fold_importance_df['feature'] = [c for c in train.columns.values if c != params['group']]
             fold_importance_df['importance'] = importances
             fold_importance_df['fold'] = i
             feature_importance_df = pd.concat([feature_importance_df, fold_importance_df], axis=0)

mlgear/models.py CHANGED Viewed

@@ -11,16 +11,13 @@ from mlgear.utils import print_step
 def runLGB(train_X, train_y, test_X=None, test_y=None, test_X2=None, params={}, meta=None, verbose=True):
     if verbose:
         print_step('Prep LGB')
-    d_train = lgb.Dataset(train_X, label=train_y)
-    if test_X is not None:
-        d_valid = lgb.Dataset(test_X, label=test_y)
-        watchlist = [d_train, d_valid]
+    if params.get('group'):
+        group = params.pop('group')
     else:
-        watchlist = [d_train]
-    if verbose:
-        print_step('Train LGB')
+        group = None
     num_rounds = params.pop('num_rounds')
-    verbose_eval = params.pop('verbose_eval')
     early_stop = None
     if params.get('early_stop'):
         early_stop = params.pop('early_stop')
@@ -37,6 +34,31 @@ def runLGB(train_X, train_y, test_X=None, test_y=None, test_X2=None, params={},
     else:
         feval = None
+    if group is None:
+        d_train = lgb.Dataset(train_X, label=train_y)
+    else:
+        d_train = lgb.Dataset(train_X.drop(group, axis=1),
+                              label=train_y,
+                              group=train_X.groupby(group).size().to_numpy())
+    if test_X is not None:
+        if group is None:
+            d_valid = lgb.Dataset(test_X, label=test_y)
+        else:
+            d_valid = lgb.Dataset(test_X.drop(group, axis=1),
+                                  label=test_y,
+                                  group=test_X.groupby(group).size().to_numpy())
+            test_X = test_X.drop(group, axis=1)
+        watchlist = [d_train, d_valid]
+    else:
+        watchlist = [d_train]
+    if test_X2 is not None and group is not None:
+        test_X2 = test_X2.drop(group, axis=1)
+    if verbose:
+        print_step('Train LGB')
     preds_test_y = []
     preds_test_y2 = []
     for b in range(nbag):
@@ -45,9 +67,7 @@ def runLGB(train_X, train_y, test_X=None, test_y=None, test_X2=None, params={},
                           train_set=d_train,
                           num_boost_round=num_rounds,
                           valid_sets=watchlist,
-                          verbose_eval=verbose_eval,
-                          early_stopping_rounds=early_stop,
-                          categorical_feature=cat_cols,
+                          callbacks=[lgb.early_stopping(stopping_rounds=early_stop)] if early_stop else [],
                           feval=feval)
         if test_X is not None:
             if verbose:
@@ -75,8 +95,7 @@ def get_lgb_feature_importance(train, target, params):
     train_d = lgb.Dataset(train, label=target)
     lgb_params2 = params.copy()
     rounds = lgb_params2.pop('num_rounds', 400)
-    verbose_eval = lgb_params2.pop('verbose_eval', 100)
-    model = lgb.train(lgb_params2, train_d, rounds, valid_sets = [train_d], verbose_eval=verbose_eval)
+    model = lgb.train(lgb_params2, train_d, rounds, valid_sets = [train_d])
     feature_df = pd.DataFrame(sorted(zip(model.feature_importance(), train.columns)),
                                columns=['Value', 'Feature']).sort_values('Value', ascending=False)
     return feature_df

mlgear/utils.py CHANGED Viewed

@@ -14,7 +14,7 @@ def show(df, max_rows=10, max_cols=None, digits=6):
 def display_column(df, var):
-	if df[var].nunique() > 9 and (df[var].dtype == int or df[var].dtype == float):
+	if df[var].astype(str).nunique() > 9 and (df[var].dtype == int or df[var].dtype == float):
 		print('Mean: {} Median: {} SD: {}'.format(df[var].mean(), df[var].median(), df[var].std()))
 	else:
 		print(df[var].value_counts(normalize=True) * 100)
@@ -36,3 +36,7 @@ def chunk(l, n):
     for i in range(0, len(l), n):
         out.append(l[i:i + n])
     return out
+def min_max(dat):
+    return (min(dat), max(dat))

{mlgear-0.4.dist-info → mlgear-0.5.dist-info}/METADATA RENAMED Viewed

@@ -1,16 +1,28 @@
-Metadata-Version: 2.1
+Metadata-Version: 2.3
 Name: mlgear
-Version: 0.4
+Version: 0.5
 Summary: Utility scripts for machine learning
-Home-page: https://github.com/peterhurford/mlgear
+License: MIT
 Author: Peter Hurford
 Author-email: peter@peterhurford.com
-License: UNKNOWN
-Platform: UNKNOWN
+Requires-Python: >=3.7,<4.0
 Classifier: Development Status :: 3 - Alpha
-Classifier: Programming Language :: Python :: 3
 Classifier: License :: OSI Approved :: MIT License
 Classifier: Operating System :: OS Independent
+Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3.7
+Classifier: Programming Language :: Python :: 3.8
+Classifier: Programming Language :: Python :: 3.9
+Classifier: Programming Language :: Python :: 3.10
+Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Classifier: Programming Language :: Python :: 3.13
+Requires-Dist: keras
+Requires-Dist: lightgbm
+Requires-Dist: numpy
+Requires-Dist: pandas
+Requires-Dist: scikit-learn
+Project-URL: Repository, https://github.com/peterhurford/mlgear
 Description-Content-Type: text/markdown
 ## MLGear
@@ -45,6 +57,23 @@ results = run_cv_model(train, test, target, runLGB, lgb_params, rmse)
 ### Installation
-`pip3 install mlgear`
+```
+pip install mlgear
+```
+For development:
+```
+# Install poetry if you don't have it
+pip install poetry
+# Install dependencies
+poetry install
+# Build the package
+poetry build
+# Publish to PyPI
+poetry publish
+```

mlgear-0.5.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,13 @@
+mlgear/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+mlgear/aggregators.py,sha256=k_GGL8zuBqpBKPYR_v14SqPcJyAUalHcQN2o7gjApiw,373
+mlgear/cv.py,sha256=Dk1ajLFITWgu5nQP-R1rpT-KQ9oYaQRhgSYqQi0IwX0,4009
+mlgear/encoders.py,sha256=_NRqTNSdCNhT04Odxa9xRQq7nrr9bTFRwskARx1rgnU,5044
+mlgear/lr_scheduler.py,sha256=S7DlTAWTzAUAQbmzm-yWIWI5r49Htz1jRBQ98IQHdgg,5272
+mlgear/metrics.py,sha256=_zQwjz4X3-vUQEqu2yIfq2w2XnuH8YUSD_M_u6szToo,1188
+mlgear/models.py,sha256=RtvmsjMFoecdce_ikj3fa9cukGdvQEj3Y72hz5Qw-fY,6249
+mlgear/tracker.py,sha256=U2OXm9tjAWSc5B5_-oTvj_YAJdpkU4nsmPE7tH8BSN4,447
+mlgear/utils.py,sha256=I72-qBgiisV1hcoUT5almb8GXwfmhTQgwvP6gl8kJEY,1096
+mlgear-0.5.dist-info/LICENSE.txt,sha256=qkKmWAzXQC3lYVyoucB3x4iW2xnGEmaORCB4ADTAik4,1081
+mlgear-0.5.dist-info/METADATA,sha256=sRhbP8yNadrRqDX3mY1wOKpjbWD2DPnLbwmibEFYvYc,1994
+mlgear-0.5.dist-info/WHEEL,sha256=fGIA9gx4Qxk2KDKeNJCbOEwSrmLtjWCwzBz351GyrPQ,88
+mlgear-0.5.dist-info/RECORD,,

{mlgear-0.4.dist-info → mlgear-0.5.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,4 @@
 Wheel-Version: 1.0
-Generator: bdist_wheel (0.35.1)
+Generator: poetry-core 2.1.2
 Root-Is-Purelib: true
 Tag: py3-none-any

mlgear-0.4.dist-info/RECORD DELETED Viewed

@@ -1,14 +0,0 @@
-mlgear/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-mlgear/aggregators.py,sha256=k_GGL8zuBqpBKPYR_v14SqPcJyAUalHcQN2o7gjApiw,373
-mlgear/cv.py,sha256=6gHFOVHcisu6qs0mYUcHKmCvP4ygWBUnLmUOWBtBQ08,3837
-mlgear/encoders.py,sha256=_NRqTNSdCNhT04Odxa9xRQq7nrr9bTFRwskARx1rgnU,5044
-mlgear/lr_scheduler.py,sha256=S7DlTAWTzAUAQbmzm-yWIWI5r49Htz1jRBQ98IQHdgg,5272
-mlgear/metrics.py,sha256=_zQwjz4X3-vUQEqu2yIfq2w2XnuH8YUSD_M_u6szToo,1188
-mlgear/models.py,sha256=6X2VA7On6ioPFHDbB9YTbO3pXlI71GGJb-PhVK8nddY,5740
-mlgear/tracker.py,sha256=U2OXm9tjAWSc5B5_-oTvj_YAJdpkU4nsmPE7tH8BSN4,447
-mlgear/utils.py,sha256=E8lb0gsTf4tun7PHUQ5GFxwwxY3ZRxwIMzNCTZCb1rM,1032
-mlgear-0.4.dist-info/LICENSE.txt,sha256=qkKmWAzXQC3lYVyoucB3x4iW2xnGEmaORCB4ADTAik4,1081
-mlgear-0.4.dist-info/METADATA,sha256=mQSNZAZRZBNO1IU7EiifAN0w4u9ECVVkvKgl2TejG8o,1309
-mlgear-0.4.dist-info/WHEEL,sha256=EVRjI69F5qVjm_YgqcTXPnTAv3BfSUr0WVAHuSP3Xoo,92
-mlgear-0.4.dist-info/top_level.txt,sha256=TM51_lbw1nIKS5TvY-qVQEBGw1tMrgBKGUcB5BISu-Y,7
-mlgear-0.4.dist-info/RECORD,,

mlgear-0.4.dist-info/top_level.txt DELETED Viewed

	@@ -1 +0,0 @@
1	- mlgear

{mlgear-0.4.dist-info → mlgear-0.5.dist-info}/LICENSE.txt RENAMED Viewed

File without changes

mlgear 0.4__py3-none-any.whl → 0.5__py3-none-any.whl

mlgear 0.4py3-none-any.whl → 0.5py3-none-any.whl