PyPI - lecrapaud - Versions diffs - 0.18.7__py3-none-any.whl → 0.22.6__py3-none-any.whl - Mend

lecrapaud 0.18.7py3-none-any.whl → 0.22.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

lecrapaud/__init__.py +22 -1
lecrapaud/{api.py → base.py} +331 -241
lecrapaud/config.py +15 -3
lecrapaud/db/alembic/versions/2025_08_25_1434-7ed9963e732f_add_best_score_to_model_selection.py +9 -4
lecrapaud/db/alembic/versions/2025_08_28_1516-c36e9fee22b9_add_avg_precision_to_score.py +34 -0
lecrapaud/db/alembic/versions/2025_08_28_1622-8b11c1ba982e_change_name_column.py +44 -0
lecrapaud/db/alembic/versions/2025_10_25_0635-07e303521594_add_unique_constraint_to_score.py +39 -0
lecrapaud/db/alembic/versions/2025_10_26_1727-033e0f7eca4f_merge_score_and_model_trainings_into_.py +264 -0
lecrapaud/db/alembic/versions/2025_10_28_2006-0a8fb7826e9b_add_number_of_targets_and_remove_other_.py +75 -0
lecrapaud/db/models/__init__.py +2 -4
lecrapaud/db/models/base.py +122 -67
lecrapaud/db/models/experiment.py +196 -183
lecrapaud/db/models/feature_selection.py +0 -3
lecrapaud/db/models/feature_selection_rank.py +0 -18
lecrapaud/db/models/model_selection.py +2 -2
lecrapaud/db/models/{score.py → model_selection_score.py} +30 -12
lecrapaud/db/session.py +33 -4
lecrapaud/experiment.py +44 -17
lecrapaud/feature_engineering.py +45 -674
lecrapaud/feature_preprocessing.py +1202 -0
lecrapaud/feature_selection.py +145 -332
lecrapaud/integrations/sentry_integration.py +46 -0
lecrapaud/misc/tabpfn_tests.ipynb +2 -2
lecrapaud/mixins.py +247 -0
lecrapaud/model_preprocessing.py +295 -0
lecrapaud/model_selection.py +725 -249
lecrapaud/pipeline.py +548 -0
lecrapaud/search_space.py +38 -1
lecrapaud/utils.py +36 -3
lecrapaud-0.22.6.dist-info/METADATA +423 -0
lecrapaud-0.22.6.dist-info/RECORD +51 -0
{lecrapaud-0.18.7.dist-info → lecrapaud-0.22.6.dist-info}/WHEEL +1 -1
{lecrapaud-0.18.7.dist-info → lecrapaud-0.22.6.dist-info/licenses}/LICENSE +1 -1
lecrapaud/db/models/model_training.py +0 -64
lecrapaud/jobs/__init__.py +0 -13
lecrapaud/jobs/config.py +0 -17
lecrapaud/jobs/scheduler.py +0 -30
lecrapaud/jobs/tasks.py +0 -17
lecrapaud-0.18.7.dist-info/METADATA +0 -248
lecrapaud-0.18.7.dist-info/RECORD +0 -46

lecrapaud/experiment.py CHANGED Viewed

@@ -3,6 +3,7 @@ from pathlib import Path
 import pandas as pd
 import joblib
+from datetime import datetime
 # Set up coverage file path
 os.environ["COVERAGE_FILE"] = str(Path(".coverage").resolve())
@@ -15,17 +16,44 @@ from lecrapaud.db.session import get_db
 def create_experiment(
     data: pd.DataFrame | str,
-    corr_threshold,
-    percentile,
-    max_features,
-    date_column,
-    group_column,
     experiment_name,
+    date_column=None,
+    group_column=None,
     **kwargs,
 ):
+    if "target_numbers" not in kwargs or "target_clf" not in kwargs:
+        raise ValueError(
+            "You should specify context in kwargs to create experiment from folder. Especially, target_clf and target_numbers must be present"
+        )
+    # if data is a path, load from path
+    # only works locally as we do not save full.pkl outside development env
     if isinstance(data, str):
         path = f"{data}/data/full.pkl"
         data = joblib.load(path)
+        keys = kwargs.keys()
+        date_column = kwargs["date_column"] if "date_column" in keys else None
+        group_column = keys["group_column"] if "group_column" in keys else None
+        targets = []
+        for target_number in kwargs["target_numbers"]:
+            target_name = f"TARGET_{target_number}"
+            target_type = (
+                "classification"
+                if target_number in kwargs["target_clf"]
+                else "regression"
+            )
+            targets.append({"name": target_name, "type": target_type})
+        Target.bulk_upsert(targets)
+    else:
+        experiment_name = (
+            f"{experiment_name}_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
+        )
+    if kwargs.get("time_series") and not date_column:
+        raise ValueError("date_column must be provided for time series experiments")
+    if experiment_name is None:
+        raise ValueError("experiment_name must be provided")
     dates = {}
     if date_column:
@@ -35,14 +63,16 @@ def create_experiment(
     groups = {}
     if group_column:
         groups["number_of_groups"] = data[group_column].nunique()
-        groups["list_of_groups"] = data[group_column].unique().tolist().sort()
+        groups["list_of_groups"] = sorted(data[group_column].unique().tolist())
     with get_db() as db:
         all_targets = Target.get_all(db=db)
         targets = [
-            target for target in all_targets if target.name in data.columns.str.upper()
+            target
+            for target in all_targets
+            if int(target.name.split("_")[-1]) in kwargs["target_numbers"]
         ]
-        experiment_name = f"{experiment_name}_{groups["number_of_groups"] if group_column else 'ng'}_{corr_threshold}_{percentile}_{max_features}_{dates['start_date'].date() if date_column else 'nd'}_{dates['end_date'].date() if date_column else 'nd'}"
+        number_of_targets = len(targets)
         experiment_dir = f"{tmp_dir}/{experiment_name}"
         preprocessing_dir = f"{experiment_dir}/preprocessing"
@@ -50,23 +80,16 @@ def create_experiment(
         os.makedirs(preprocessing_dir, exist_ok=True)
         os.makedirs(data_dir, exist_ok=True)
+        # Create or update experiment (without targets relation)
         experiment = Experiment.upsert(
-            match_fields=["name"],
             db=db,
             name=experiment_name,
             path=Path(experiment_dir).resolve(),
-            type="training",
             size=data.shape[0],
-            corr_threshold=corr_threshold,
-            percentile=percentile,
-            max_features=max_features,
+            number_of_targets=number_of_targets,
             **groups,
             **dates,
-            targets=targets,
             context={
-                "corr_threshold": corr_threshold,
-                "percentile": percentile,
-                "max_features": max_features,
                 "date_column": date_column,
                 "group_column": group_column,
                 "experiment_name": experiment_name,
@@ -74,4 +97,8 @@ def create_experiment(
             },
         )
+        # Set targets relationship after creation/update
+        experiment.targets = targets
+        experiment.save(db=db)
         return experiment

lecrapaud 0.18.7__py3-none-any.whl → 0.22.6__py3-none-any.whl

lecrapaud 0.18.7py3-none-any.whl → 0.22.6py3-none-any.whl