PyPI - validmind - Versions diffs - 2.8.20__py3-none-any.whl → 2.8.22__py3-none-any.whl - Mend

validmind 2.8.20py3-none-any.whl → 2.8.22py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

validmind/__version__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "2.8.20"
1	+ __version__ = "2.8.22"

validmind/client.py CHANGED Viewed

@@ -61,6 +61,7 @@ def init_dataset(
     class_labels: Optional[Dict[str, Any]] = None,
     type: Optional[str] = None,
     input_id: Optional[str] = None,
+    copy_data: bool = True,
     __log: bool = True,
 ) -> VMDataset:
     """
@@ -92,6 +93,7 @@ def init_dataset(
             this will be set to `dataset` but if you are passing this dataset as a
             test input using some other key than `dataset`, then you should set
             this to the same key.
+        copy_data (bool, optional): Whether to copy the data. Defaults to True.
         __log (bool): Whether to log the input. Defaults to True.
     Raises:
@@ -121,6 +123,7 @@ def init_dataset(
             extra_columns=extra_columns,
             target_class_labels=class_labels,
             date_time_index=date_time_index,
+            copy_data=copy_data,
         )
     elif isinstance(dataset, pl.DataFrame):
         vm_dataset = PolarsDataset(

validmind/template.py CHANGED Viewed

@@ -53,8 +53,9 @@ def _convert_sections_to_section_tree(
     if start_section_id and not section_tree:
         raise ValueError(f"Section {start_section_id} not found in template")
-    return sorted(section_tree, key=lambda x: x.get("order", 0))
+    # sort the section tree by the order of the sections in the template (if provided)
+    # set the order to 9999 for the sections that do not have an order
+    return sorted(section_tree, key=lambda x: x.get("order", 9999))
 def _create_content_widget(content: Dict[str, Any]) -> Widget:

validmind/vm_models/dataset/dataset.py CHANGED Viewed

@@ -47,6 +47,7 @@ class VMDataset(VMInput):
         target_class_labels (Dict): The class labels for the target columns.
         df (pd.DataFrame): The dataset as a pandas DataFrame.
         extra_columns (Dict): Extra columns to include in the dataset.
+        copy_data (bool): Whether to copy the data. Defaults to True.
     """
     def __repr__(self):
@@ -66,6 +67,7 @@ class VMDataset(VMInput):
         text_column: str = None,
         extra_columns: dict = None,
         target_class_labels: dict = None,
+        copy_data: bool = True,
     ):
         """
         Initializes a VMDataset instance.
@@ -82,6 +84,7 @@ class VMDataset(VMInput):
             feature_columns (str, optional): The feature column names of the dataset. Defaults to None.
             text_column (str, optional): The text column name of the dataset for nlp tasks. Defaults to None.
             target_class_labels (Dict, optional): The class labels for the target columns. Defaults to None.
+            copy_data (bool, optional): Whether to copy the data. Defaults to True.
         """
         # initialize input_id
         self.input_id = input_id
@@ -112,6 +115,7 @@ class VMDataset(VMInput):
         self.target_class_labels = target_class_labels
         self.extra_columns = ExtraColumns.from_dict(extra_columns)
         self._set_feature_columns(feature_columns)
+        self._copy_data = copy_data
         if model:
             self.assign_predictions(model)
@@ -129,16 +133,19 @@ class VMDataset(VMInput):
             excluded = [self.target_column, *self.extra_columns.flatten()]
             self.feature_columns = [col for col in self.columns if col not in excluded]
-        self.feature_columns_numeric = (
-            self._df[self.feature_columns]
-            .select_dtypes(include=[np.number])
-            .columns.tolist()
-        )
-        self.feature_columns_categorical = (
-            self._df[self.feature_columns]
-            .select_dtypes(include=[object, pd.Categorical])
-            .columns.tolist()
-        )
+        # Get dtypes without loading data into memory
+        feature_dtypes = self._df[self.feature_columns].dtypes
+        self.feature_columns_numeric = feature_dtypes[
+            feature_dtypes.apply(lambda x: pd.api.types.is_numeric_dtype(x))
+        ].index.tolist()
+        self.feature_columns_categorical = feature_dtypes[
+            feature_dtypes.apply(
+                lambda x: pd.api.types.is_categorical_dtype(x)
+                or pd.api.types.is_object_dtype(x)
+            )
+        ].index.tolist()
     def _add_column(self, column_name, column_values):
         column_values = np.array(column_values)
@@ -397,8 +404,18 @@ class VMDataset(VMInput):
             assert self.target_column not in columns
             columns.append(self.target_column)
-        # return a copy to prevent accidental modification
-        return as_df(self._df[columns]).copy()
+        # Check if all columns in self._df are requested
+        all_columns = set(columns) == set(self._df.columns)
+        # For copy_data=False and all columns: return exact same DataFrame object
+        if not self._copy_data and all_columns:
+            return self._df
+        # For copy_data=False and subset of columns: return view with shared data
+        elif not self._copy_data:
+            return as_df(self._df[columns])
+        # For copy_data=True: return independent copy with duplicated data
+        else:
+            return as_df(self._df[columns]).copy()
     @property
     def x(self) -> np.ndarray:
@@ -522,9 +539,10 @@ class DataFrameDataset(VMDataset):
         text_column: str = None,
         target_class_labels: dict = None,
         date_time_index: bool = False,
+        copy_data: bool = True,
     ):
         """
-        Initializes a DataFrameDataset instance.
+        Initializes a DataFrameDataset instance, preserving original pandas dtypes.
         Args:
             raw_dataset (pd.DataFrame): The raw dataset as a pandas DataFrame.
@@ -536,25 +554,44 @@ class DataFrameDataset(VMDataset):
             text_column (str, optional): The text column name of the dataset for NLP tasks. Defaults to None.
             target_class_labels (dict, optional): The class labels for the target columns. Defaults to None.
             date_time_index (bool, optional): Whether to use date-time index. Defaults to False.
+            copy_data (bool, optional): Whether to create a copy of the input data. Defaults to True.
         """
+        VMInput.__init__(self)
+        self.input_id = input_id
         index = None
         if isinstance(raw_dataset.index, pd.Index):
             index = raw_dataset.index.values
+        self.index = index
-        super().__init__(
-            raw_dataset=raw_dataset.values,
-            input_id=input_id,
-            model=model,
-            index_name=raw_dataset.index.name,
-            index=index,
-            columns=raw_dataset.columns.to_list(),
-            target_column=target_column,
-            extra_columns=extra_columns,
-            feature_columns=feature_columns,
-            text_column=text_column,
-            target_class_labels=target_class_labels,
-            date_time_index=date_time_index,
-        )
+        # Store the DataFrame directly
+        self._df = raw_dataset
+        if date_time_index:
+            self._df = convert_index_to_datetime(self._df)
+        self.columns = raw_dataset.columns.tolist()
+        self.column_aliases = {}
+        self.target_column = target_column
+        self.text_column = text_column
+        self.target_class_labels = target_class_labels
+        self.extra_columns = ExtraColumns.from_dict(extra_columns)
+        self._copy_data = copy_data
+        # Add warning when copy_data is False
+        if not copy_data:
+            logger.warning(
+                "Dataset initialized with copy_data=False. Changes to the original DataFrame "
+                "may affect this dataset. Use this option only when memory efficiency is critical "
+                "and you won't modify the source data."
+            )
+        self._set_feature_columns(feature_columns)
+        if model:
+            self.assign_predictions(model)
 class PolarsDataset(VMDataset):

{validmind-2.8.20.dist-info → validmind-2.8.22.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: validmind
-Version: 2.8.20
+Version: 2.8.22
 Summary: ValidMind Library
 License: Commercial License
 Author: Andres Rodriguez

{validmind-2.8.20.dist-info → validmind-2.8.22.dist-info}/RECORD RENAMED Viewed

@@ -1,9 +1,9 @@
 validmind/__init__.py,sha256=qmC6WY6ifIQpCU38V91EN91UlIEcOG7a9jWK3smZJoY,4220
-validmind/__version__.py,sha256=iRm89S5RopcoKz6axcNfUiasj1Y2r4BwSP5aughGqlE,23
+validmind/__version__.py,sha256=KYh5XihUKlbKxUpWkhRlJg_POPRyBFW9RUgXYfdQc0s,23
 validmind/ai/test_descriptions.py,sha256=eBF09MAyqAAD-Ah7vxXVRbHxOmGx5_10ZkoJmMvEaEA,7123
 validmind/ai/utils.py,sha256=O5gTkvGsPCCdKCdBGvpDaJM1oL_msdm2xKkf9fFpIy8,4172
 validmind/api_client.py,sha256=slvf0FJ8olYsK1-EPetMVYV7UvhjMAIFBxwBWSVT9BI,16807
-validmind/client.py,sha256=mVctTYyoDFDKnCA_eT99ZmOmOznOStx_C1vBJhET9sM,18908
+validmind/client.py,sha256=XKb4uc7yXVV_3NH9-zTrS9jCbLPX2zZZU12vKKlSpIc,19049
 validmind/client_config.py,sha256=O1gopTaNADM4ZVPj383AJTjcpjdxyEvUQY5cFt7nbIs,1366
 validmind/datasets/__init__.py,sha256=c0hQZN_6GrUEJxdFHdQaEsQrSYNABG84ZCY0H-PzOZk,260
 validmind/datasets/classification/__init__.py,sha256=p2p9r3SE4FIm4WNNJb4-axnkD5EexVW9VxIRYTbA6dI,1941
@@ -73,7 +73,7 @@ validmind/models/pipeline.py,sha256=nSskKWxaS4SGmx_B0IAvS5ogDZyh6tdx_aUkyxSXt88,
 validmind/models/pytorch.py,sha256=aAEUWtISwLh-PMvHkcLwBEbBStAByt4J-NpK-Ndv38E,1826
 validmind/models/r_model.py,sha256=TPUwPmxz3cNzJ1bAA5vz6P9xS6deVcLTuIO1e7rD1vY,7306
 validmind/models/sklearn.py,sha256=lOCJlP2wvd5IJHtBS1XG9FXrtIvO_f8xm2Qp1UdsiBw,2406
-validmind/template.py,sha256=e_5PvX-CotA7gz45gQ5zoHgIUECMyVYxlJK56Oc1cnA,7742
+validmind/template.py,sha256=ezmHLee5QkccBf4n8iBFcXw7EMljSceGgGJb3O0c4cE,7902
 validmind/test_suites/__init__.py,sha256=ofNaXD2SdkHko_Fy_RTr29YBHPGWiXVzHd1nENwi2ms,6973
 validmind/test_suites/classifier.py,sha256=0ZE3z5X_ZewTvmwQ3cVGJQh7dPgg0IlqcQshJJxCFWQ,4003
 validmind/test_suites/cluster.py,sha256=Wc2NViwivjiuiJMwrnGbOJYeZ3ApN8usWlOPYZYWAgE,2276
@@ -309,7 +309,7 @@ validmind/unit_metrics/regression/RootMeanSquaredError.py,sha256=uIDsSpy75Z7W3zu
 validmind/utils.py,sha256=59WWVV_JhvxzPr8Y625qw_wsyu_ZVRoLJyi0Pw3MTMU,28613
 validmind/vm_models/__init__.py,sha256=lcqf9q2aRzrVrNN6R--81IkrnSa6BXPbhJ8SnkT_hcI,702
 validmind/vm_models/dataset/__init__.py,sha256=U4CxZjdoc0dd9u2AqBl5PJh1UVbzXWNrmundmjLF-qE,346
-validmind/vm_models/dataset/dataset.py,sha256=4RCKyWIHd-RCIpleMIlfURGEQlmCRQkFZ5CRsJRC-g4,26479
+validmind/vm_models/dataset/dataset.py,sha256=lP0XLncHV6V5P-DG-Zs__wgirlUrEHokST-dQpb81Ro,28038
 validmind/vm_models/dataset/utils.py,sha256=g6mBPrBmVYf8wJAlTxeg9DTiNvts4ZaaT5mbnQAPWaU,5638
 validmind/vm_models/figure.py,sha256=ZMO_nIIleNhkBV1vJeF_UUsVDCzrXNOYwV1Lbg9E0XY,6303
 validmind/vm_models/input.py,sha256=nTBQB6aqirhF-0Gmg5mYc4_vNyypvbYUfahMovcK02M,1095
@@ -323,8 +323,8 @@ validmind/vm_models/test_suite/runner.py,sha256=JqW8LW4X1Ri2C6wSsAGSki-JxGUGV8zm
 validmind/vm_models/test_suite/summary.py,sha256=7P4zhfeU7a3I1MMBn8f7s-2lzdAz7U4y6LblpR89_vE,5401
 validmind/vm_models/test_suite/test.py,sha256=C8xPGKSyYF9oMJ3VegwFJDF7cwYlIgtQoQ7nzXIS1uc,3914
 validmind/vm_models/test_suite/test_suite.py,sha256=CciC6IhrLEeWwcpY3Np8EmQCB8XEF2ljwEXcvmNYgZc,5090
-validmind-2.8.20.dist-info/LICENSE,sha256=XonPUfwjvrC5Ombl3y-ko0Wubb1xdG_7nzvIbkZRKHw,35772
-validmind-2.8.20.dist-info/METADATA,sha256=iy0RjnDMshRPOKnzwT4N4fEh8cR1YKakh5IrYn2-jyM,6032
-validmind-2.8.20.dist-info/WHEEL,sha256=fGIA9gx4Qxk2KDKeNJCbOEwSrmLtjWCwzBz351GyrPQ,88
-validmind-2.8.20.dist-info/entry_points.txt,sha256=HuW7YyOv9u_OEWpViQXtv0nfoI67uieJHawKWA4Hv9A,76
-validmind-2.8.20.dist-info/RECORD,,
+validmind-2.8.22.dist-info/LICENSE,sha256=XonPUfwjvrC5Ombl3y-ko0Wubb1xdG_7nzvIbkZRKHw,35772
+validmind-2.8.22.dist-info/METADATA,sha256=cLg53_Ec1ZxQQ1eiIsBugTOh8e2_wjgCnPfWBWAEuZc,6032
+validmind-2.8.22.dist-info/WHEEL,sha256=fGIA9gx4Qxk2KDKeNJCbOEwSrmLtjWCwzBz351GyrPQ,88
+validmind-2.8.22.dist-info/entry_points.txt,sha256=HuW7YyOv9u_OEWpViQXtv0nfoI67uieJHawKWA4Hv9A,76
+validmind-2.8.22.dist-info/RECORD,,

{validmind-2.8.20.dist-info → validmind-2.8.22.dist-info}/LICENSE RENAMED Viewed

File without changes

{validmind-2.8.20.dist-info → validmind-2.8.22.dist-info}/WHEEL RENAMED Viewed

File without changes

{validmind-2.8.20.dist-info → validmind-2.8.22.dist-info}/entry_points.txt RENAMED Viewed

File without changes

validmind 2.8.20__py3-none-any.whl → 2.8.22__py3-none-any.whl

validmind 2.8.20py3-none-any.whl → 2.8.22py3-none-any.whl