PyPI - lecrapaud - Versions diffs - 0.18.7__py3-none-any.whl → 0.22.6__py3-none-any.whl - Mend

lecrapaud 0.18.7py3-none-any.whl → 0.22.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

lecrapaud/__init__.py +22 -1
lecrapaud/{api.py → base.py} +331 -241
lecrapaud/config.py +15 -3
lecrapaud/db/alembic/versions/2025_08_25_1434-7ed9963e732f_add_best_score_to_model_selection.py +9 -4
lecrapaud/db/alembic/versions/2025_08_28_1516-c36e9fee22b9_add_avg_precision_to_score.py +34 -0
lecrapaud/db/alembic/versions/2025_08_28_1622-8b11c1ba982e_change_name_column.py +44 -0
lecrapaud/db/alembic/versions/2025_10_25_0635-07e303521594_add_unique_constraint_to_score.py +39 -0
lecrapaud/db/alembic/versions/2025_10_26_1727-033e0f7eca4f_merge_score_and_model_trainings_into_.py +264 -0
lecrapaud/db/alembic/versions/2025_10_28_2006-0a8fb7826e9b_add_number_of_targets_and_remove_other_.py +75 -0
lecrapaud/db/models/__init__.py +2 -4
lecrapaud/db/models/base.py +122 -67
lecrapaud/db/models/experiment.py +196 -183
lecrapaud/db/models/feature_selection.py +0 -3
lecrapaud/db/models/feature_selection_rank.py +0 -18
lecrapaud/db/models/model_selection.py +2 -2
lecrapaud/db/models/{score.py → model_selection_score.py} +30 -12
lecrapaud/db/session.py +33 -4
lecrapaud/experiment.py +44 -17
lecrapaud/feature_engineering.py +45 -674
lecrapaud/feature_preprocessing.py +1202 -0
lecrapaud/feature_selection.py +145 -332
lecrapaud/integrations/sentry_integration.py +46 -0
lecrapaud/misc/tabpfn_tests.ipynb +2 -2
lecrapaud/mixins.py +247 -0
lecrapaud/model_preprocessing.py +295 -0
lecrapaud/model_selection.py +725 -249
lecrapaud/pipeline.py +548 -0
lecrapaud/search_space.py +38 -1
lecrapaud/utils.py +36 -3
lecrapaud-0.22.6.dist-info/METADATA +423 -0
lecrapaud-0.22.6.dist-info/RECORD +51 -0
{lecrapaud-0.18.7.dist-info → lecrapaud-0.22.6.dist-info}/WHEEL +1 -1
{lecrapaud-0.18.7.dist-info → lecrapaud-0.22.6.dist-info/licenses}/LICENSE +1 -1
lecrapaud/db/models/model_training.py +0 -64
lecrapaud/jobs/__init__.py +0 -13
lecrapaud/jobs/config.py +0 -17
lecrapaud/jobs/scheduler.py +0 -30
lecrapaud/jobs/tasks.py +0 -17
lecrapaud-0.18.7.dist-info/METADATA +0 -248
lecrapaud-0.18.7.dist-info/RECORD +0 -46

lecrapaud/db/models/base.py CHANGED Viewed

@@ -10,19 +10,26 @@ from sqlalchemy.orm.attributes import InstrumentedAttribute
 from lecrapaud.db.session import get_db
 from sqlalchemy.ext.declarative import declared_attr
 from sqlalchemy.dialects.mysql import insert as mysql_insert
+from sqlalchemy import UniqueConstraint
+from sqlalchemy.inspection import inspect as sqlalchemy_inspect
 from lecrapaud.config import LECRAPAUD_TABLE_PREFIX
 def with_db(func):
-    """Decorator to allow passing an optional db session"""
+    """Decorator to provide a database session to the wrapped function.
+    If a db parameter is already provided, it will be used. Otherwise,
+    a new session will be created and automatically managed.
+    """
     @wraps(func)
     def wrapper(*args, **kwargs):
-        db = kwargs.pop("db", None)
-        if db:
-            return func(*args, db=db, **kwargs)
+        if "db" in kwargs and kwargs["db"] is not None:
+            return func(*args, **kwargs)
         with get_db() as db:
-            return func(*args, db=db, **kwargs)
+            kwargs["db"] = db
+            return func(*args, **kwargs)
     return wrapper
@@ -102,51 +109,6 @@ class Base(DeclarativeBase):
             ]
         return results
-    @classmethod
-    @with_db
-    def upsert_bulk(cls, db=None, match_fields: list[str] = None, **kwargs):
-        """
-        Performs a bulk upsert into the database using ON DUPLICATE KEY UPDATE.
-        Args:
-            db (Session): SQLAlchemy DB session
-            match_fields (list[str]): Fields to match on for deduplication
-            **kwargs: Column-wise keyword arguments (field_name=[...])
-        """
-        # Ensure all provided fields have values of equal length
-        value_lengths = [len(v) for v in kwargs.values()]
-        if not value_lengths or len(set(value_lengths)) != 1:
-            raise ValueError(
-                "All field values must be non-empty lists of the same length."
-            )
-        # Convert column-wise kwargs to row-wise list of dicts
-        items = [dict(zip(kwargs.keys(), row)) for row in zip(*kwargs.values())]
-        if not items:
-            return
-        stmt = mysql_insert(cls.__table__).values(items)
-        # Default to primary keys if match_fields not provided
-        if not match_fields:
-            match_fields = [col.name for col in cls.__table__.primary_key.columns]
-        # Ensure all columns to be updated are in the insert
-        update_dict = {
-            c.name: stmt.inserted[c.name]
-            for c in cls.__table__.columns
-            if c.name not in match_fields and c.name in items[0]
-        }
-        if not update_dict:
-            # Avoid triggering ON DUPLICATE KEY UPDATE with empty dict
-            db.execute(stmt.prefix_with("IGNORE"))
-        else:
-            upsert_stmt = stmt.on_duplicate_key_update(**update_dict)
-            db.execute(upsert_stmt)
-        db.commit()
     @classmethod
     @with_db
     def filter(cls, db=None, **kwargs):
@@ -194,33 +156,126 @@ class Base(DeclarativeBase):
     @classmethod
     @with_db
-    def upsert(cls, match_fields: list[str], db=None, **kwargs):
+    def upsert(cls, db=None, **kwargs):
         """
-        Upsert an instance of the model: update if found, else create.
+        Upsert an instance of the model using MySQL's ON DUPLICATE KEY UPDATE.
-        :param match_fields: list of field names to use for matching
         :param kwargs: all fields for creation or update
         """
-        filters = [
-            getattr(cls, field) == kwargs[field]
-            for field in match_fields
-            if field in kwargs
-        ]
+        # If an ID is provided and row exists, fall back to a standard update
+        instance_id = kwargs.get("id")
+        if instance_id is not None:
+            instance = db.get(cls, instance_id)
+            if instance:
+                for key, value in kwargs.items():
+                    if key == "id":
+                        continue
+                    setattr(instance, key, value)
+                db.commit()
+                db.refresh(instance)
+                return instance
+        # Use INSERT ... ON DUPLICATE KEY UPDATE
+        stmt = mysql_insert(cls.__table__).values(**kwargs)
+        stmt = stmt.on_duplicate_key_update(
+            **{k: v for k, v in kwargs.items() if k != "id"}
+        )
-        instance = db.query(cls).filter(*filters).first()
+        result = db.execute(stmt)
+        db.commit()
-        if instance:
-            for key, value in kwargs.items():
-                if key != "id":
-                    setattr(instance, key, value)
+        # Get the instance - either the newly inserted or updated one
+        # If updated, lastrowid is 0, so we need to query
+        if result.lastrowid and result.lastrowid > 0:
+            # New insert
+            instance = db.get(cls, result.lastrowid)
         else:
-            instance = cls(**kwargs)
-            db.add(instance)
+            # Updated - need to find it using unique constraint fields
+            mapper = sqlalchemy_inspect(cls)
+            instance = None
+            for constraint in mapper.mapped_table.constraints:
+                if isinstance(constraint, UniqueConstraint):
+                    col_names = [col.name for col in constraint.columns]
+                    if all(name in kwargs for name in col_names):
+                        filters = [
+                            getattr(cls, col_name) == kwargs[col_name]
+                            for col_name in col_names
+                        ]
+                        instance = db.query(cls).filter(*filters).first()
+                        if instance:
+                            break
+            # Check for single column unique constraints
+            if not instance:
+                for col in mapper.mapped_table.columns:
+                    if col.unique and col.name in kwargs:
+                        instance = (
+                            db.query(cls)
+                            .filter(getattr(cls, col.name) == kwargs[col.name])
+                            .first()
+                        )
+                        if instance:
+                            break
+            # If still not found, try to find by all kwargs (excluding None values)
+            if not instance:
+                instance = (
+                    db.query(cls)
+                    .filter_by(
+                        **{
+                            k: v
+                            for k, v in kwargs.items()
+                            if v is not None and k != "id"
+                        }
+                    )
+                    .first()
+                )
+        if instance:
+            db.refresh(instance)
-        db.commit()
-        db.refresh(instance)
         return instance
+    @classmethod
+    @with_db
+    def bulk_upsert(cls, rows: list[dict] = None, db=None, **kwargs):
+        """
+        Performs a bulk upsert into the database using ON DUPLICATE KEY UPDATE.
+        Args:
+            rows (list[dict]): List of dictionaries representing rows to upsert
+            db (Session): SQLAlchemy DB session
+            **kwargs: Column-wise keyword arguments (field_name=[...]) for backwards compatibility
+        """
+        # Handle both new format (rows) and legacy format (kwargs)
+        if rows is None and kwargs:
+            # Legacy format: convert column-wise kwargs to row-wise list of dicts
+            value_lengths = [len(v) for v in kwargs.values()]
+            if not value_lengths or len(set(value_lengths)) != 1:
+                raise ValueError(
+                    "All field values must be non-empty lists of the same length."
+                )
+            rows = [dict(zip(kwargs.keys(), row)) for row in zip(*kwargs.values())]
+        if not rows:
+            return 0
+        BATCH_SIZE = 200
+        total_affected = 0
+        for i in range(0, len(rows), BATCH_SIZE):
+            batch = rows[i : i + BATCH_SIZE]
+            stmt = mysql_insert(cls.__table__).values(batch)
+            stmt = stmt.on_duplicate_key_update(
+                **{key: stmt.inserted[key] for key in batch[0] if key != "id"}
+            )
+            result = db.execute(stmt)
+            total_affected += result.rowcount
+        db.commit()
+        return total_affected
     @classmethod
     @with_db
     def delete(cls, id: int, db=None):

lecrapaud 0.18.7__py3-none-any.whl → 0.22.6__py3-none-any.whl

lecrapaud 0.18.7py3-none-any.whl → 0.22.6py3-none-any.whl