PyPI - masster - Versions diffs - 0.2.5__py3-none-any.whl → 0.3.0__py3-none-any.whl - Mend

masster 0.2.5py3-none-any.whl → 0.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of masster might be problematic. Click here for more details.

Files changed (55) hide show

masster/__init__.py +27 -27
masster/_version.py +17 -17
masster/chromatogram.py +497 -503
masster/data/examples/2025_01_14_VW_7600_LpMx_DBS_CID_2min_TOP15_030msecMS1_005msecReac_CE35_DBS-ON_3.featureXML +199787 -0
masster/data/examples/2025_01_14_VW_7600_LpMx_DBS_CID_2min_TOP15_030msecMS1_005msecReac_CE35_DBS-ON_3.sample5 +0 -0
masster/logger.py +318 -244
masster/sample/__init__.py +9 -9
masster/sample/defaults/__init__.py +15 -15
masster/sample/defaults/find_adducts_def.py +325 -325
masster/sample/defaults/find_features_def.py +366 -366
masster/sample/defaults/find_ms2_def.py +285 -285
masster/sample/defaults/get_spectrum_def.py +314 -318
masster/sample/defaults/sample_def.py +374 -378
masster/sample/h5.py +1321 -1297
masster/sample/helpers.py +833 -364
masster/sample/lib.py +762 -0
masster/sample/load.py +1220 -1187
masster/sample/parameters.py +131 -131
masster/sample/plot.py +1610 -1622
masster/sample/processing.py +1402 -1416
masster/sample/quant.py +209 -0
masster/sample/sample.py +391 -387
masster/sample/sample5_schema.json +181 -181
masster/sample/save.py +737 -736
masster/sample/sciex.py +1213 -0
masster/spectrum.py +1287 -1319
masster/study/__init__.py +9 -9
masster/study/defaults/__init__.py +21 -19
masster/study/defaults/align_def.py +267 -267
masster/study/defaults/export_def.py +41 -40
masster/study/defaults/fill_chrom_def.py +264 -264
masster/study/defaults/fill_def.py +260 -0
masster/study/defaults/find_consensus_def.py +256 -256
masster/study/defaults/find_ms2_def.py +163 -163
masster/study/defaults/integrate_chrom_def.py +225 -225
masster/study/defaults/integrate_def.py +221 -0
masster/study/defaults/merge_def.py +256 -0
masster/study/defaults/study_def.py +272 -269
masster/study/export.py +674 -287
masster/study/h5.py +1398 -886
masster/study/helpers.py +1650 -433
masster/study/helpers_optimized.py +317 -0
masster/study/load.py +1201 -1078
masster/study/parameters.py +99 -99
masster/study/plot.py +632 -645
masster/study/processing.py +1057 -1046
masster/study/save.py +149 -134
masster/study/study.py +606 -522
masster/study/study5_schema.json +247 -241
{masster-0.2.5.dist-info → masster-0.3.0.dist-info}/METADATA +15 -10
masster-0.3.0.dist-info/RECORD +59 -0
{masster-0.2.5.dist-info → masster-0.3.0.dist-info}/licenses/LICENSE +661 -661
masster-0.2.5.dist-info/RECORD +0 -50
{masster-0.2.5.dist-info → masster-0.3.0.dist-info}/WHEEL +0 -0
{masster-0.2.5.dist-info → masster-0.3.0.dist-info}/entry_points.txt +0 -0

masster/study/save.py CHANGED Viewed

@@ -1,134 +1,149 @@
-from __future__ import annotations
-import os
-from datetime import datetime
-import polars as pl
-import pyopenms as oms
-from tqdm import tqdm
-from masster.sample.sample import Sample
-def save(self, filename=None):
-    """
-    Save the study to an HDF5 file with proper serialization of complex objects.
-    Args:
-        study: The study object to save
-        filename (str, optional): Target file name. If None, uses default.
-    """
-    if filename is None:
-        # save to default file name in default_folder
-        if self.default_folder is not None:
-            filename = os.path.join(self.default_folder, "data.study5")
-        else:
-            self.logger.error("either filename or default_folder must be provided")
-            return
-    else:
-        # check if filename includes any path
-        if not os.path.isabs(filename):
-            if self.default_folder is not None:
-                filename = os.path.join(self.default_folder, filename)
-            else:
-                filename = os.path.join(os.getcwd(), filename)
-    # if filename exists, append a timestamp to avoid overwriting
-    #if os.path.exists(filename):
-    timestamp = datetime.now().strftime("%Y%m%d-%H%M%S")
-    filename = f"{filename.replace('.study5', '')}_{timestamp}.study5"
-    self._save_study5(filename)
-    if self.consensus_map is not None:
-        # save the features as a separate file
-        self._save_consensusXML(filename=filename.replace(".study5", ".consensusXML"))
-def save_samples(self, samples=None):
-    if samples is None:
-        # get all sample_uids from samples_df
-        samples = self.samples_df["sample_uid"].to_list()
-    self.logger.info(f"Saving features for {len(samples)} samples...")
-    tdqm_disable = self.log_level not in ["TRACE", "DEBUG", "INFO"]
-    for sample_uid in tqdm(
-        samples,
-        total=len(samples),
-        desc=f"{datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]} | INFO     | {self.log_label}Save samples",
-        disable=tdqm_disable,
-    ):
-        # check if sample_uid is in samples_df
-        if sample_uid not in self.samples_df.get_column("sample_uid").to_list():
-            self.logger.warning(
-                f"Sample with uid {sample_uid} not found in samples_df.",
-            )
-            continue
-        # load the mzpkl file
-        sample_row = self.samples_df.filter(pl.col("sample_uid") == sample_uid)
-        if sample_row.is_empty():
-            continue
-        ddaobj = Sample(filename=sample_row.row(0, named=True)["sample_path"])
-        if "rt_original" not in ddaobj.features_df.columns:
-            # add column 'rt_original' with rt values
-            ddaobj.features_df = ddaobj.features_df.with_columns(
-                pl.col("rt").alias("rt_original"),
-            )
-        # find the rows in features_df that match the sample_uid
-        matching_rows = self.features_df.filter(pl.col("sample_uid") == sample_uid)
-        if not matching_rows.is_empty():
-            # Update rt values in ddaobj.features_df based on matching_rows
-            rt_values = matching_rows["rt"].to_list()
-            if len(rt_values) == len(ddaobj.features_df):
-                ddaobj.features_df = ddaobj.features_df.with_columns(
-                    pl.lit(rt_values).alias("rt"),
-                )
-        # save ddaobj
-        ddaobj.save()
-        sample_name = sample_row.row(0, named=True)["sample_name"]
-        # Find the index of this sample in the original order for features_maps
-        sample_index = next(
-            (
-                i
-                for i, row_dict in enumerate(self.samples_df.iter_rows(named=True))
-                if row_dict["sample_uid"] == sample_uid
-            ),
-            None,
-        )
-        if self.default_folder is not None:
-            filename = os.path.join(
-                self.default_folder,
-                sample_name + ".featureXML",
-            )
-        else:
-            filename = os.path.join(
-                os.getcwd(),
-                sample_name + ".featureXML",
-            )
-        fh = oms.FeatureXMLFile()
-        if sample_index is not None and sample_index < len(self.features_maps):
-            fh.store(filename, self.features_maps[sample_index])
-    self.logger.debug("All samples saved successfully.")
-def _save_consensusXML(self, filename:str):
-    if self.consensus_map is None:
-        self.logger.error("No consensus map found.")
-        return
-    fh = oms.ConsensusXMLFile()
-    fh.store(filename, self.consensus_map)
-    self.logger.info(f"Saved consensus map to {filename}")
-def save_consensus(self, **kwargs):
-    """Save the consensus map to a file."""
-    if self.consensus_map is None:
-        self.logger.error("No consensus map found.")
-        return
-    self._save_consensusXML(**kwargs)
+from __future__ import annotations
+import os
+from datetime import datetime
+import polars as pl
+import pyopenms as oms
+from tqdm import tqdm
+from masster.sample.sample import Sample
+def save(self, filename=None, add_timestamp=True, compress=False):
+    """
+    Save the study to an HDF5 file with proper serialization of complex objects.
+    Args:
+        study: The study object to save
+        filename (str, optional): Target file name. If None, uses default.
+        add_timestamp (bool, optional): If True, appends timestamp to avoid overwriting.
+                                      Default True for safety (original behavior).
+        compress (bool, optional): If True, uses compressed mode and skips
+                                   some heavy columns for maximum speed. Default False.
+    """
+    if filename is None:
+        # save to default file name in folder
+        if self.folder is not None:
+            filename = os.path.join(self.folder, "data.study5")
+        else:
+            self.logger.error("either filename or folder must be provided")
+            return
+    else:
+        # check if filename includes any path
+        if not os.path.isabs(filename):
+            if self.folder is not None:
+                filename = os.path.join(self.folder, filename)
+            else:
+                filename = os.path.join(os.getcwd(), filename)
+    # Add timestamp by default to avoid overwriting (original behavior restored)
+    if add_timestamp:
+        timestamp = datetime.now().strftime("%Y%m%d-%H%M%S")
+        filename = f"{filename.replace('.study5', '')}_{timestamp}.study5"
+    # Log file size information for performance monitoring
+    if hasattr(self, 'features_df') and not self.features_df.is_empty():
+        feature_count = len(self.features_df)
+        sample_count = len(self.samples_df) if hasattr(self, 'samples_df') and not self.samples_df.is_empty() else 0
+        self.logger.info(f"Saving study with {sample_count} samples and {feature_count} features to {filename}")
+    # Use compressed mode for large datasets
+    if compress:
+        self._save_study5_compressed(filename)
+    else:
+        self._save_study5(filename)
+    if self.consensus_map is not None:
+        # save the features as a separate file
+        self._save_consensusXML(filename=filename.replace(".study5", ".consensusXML"))
+    self.filename = filename
+def save_samples(self, samples=None):
+    if samples is None:
+        # get all sample_uids from samples_df
+        samples = self.samples_df["sample_uid"].to_list()
+    self.logger.info(f"Saving features for {len(samples)} samples...")
+    tdqm_disable = self.log_level not in ["TRACE", "DEBUG", "INFO"]
+    for sample_uid in tqdm(
+        samples,
+        total=len(samples),
+        desc=f"{datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]} | INFO     | {self.log_label}Save samples",
+        disable=tdqm_disable,
+    ):
+        # check if sample_uid is in samples_df
+        if sample_uid not in self.samples_df.get_column("sample_uid").to_list():
+            self.logger.warning(
+                f"Sample with uid {sample_uid} not found in samples_df.",
+            )
+            continue
+        # load the mzpkl file
+        sample_row = self.samples_df.filter(pl.col("sample_uid") == sample_uid)
+        if sample_row.is_empty():
+            continue
+        ddaobj = Sample(filename=sample_row.row(0, named=True)["sample_path"])
+        if "rt_original" not in ddaobj.features_df.columns:
+            # add column 'rt_original' with rt values
+            ddaobj.features_df = ddaobj.features_df.with_columns(
+                pl.col("rt").alias("rt_original"),
+            )
+        # find the rows in features_df that match the sample_uid
+        matching_rows = self.features_df.filter(pl.col("sample_uid") == sample_uid)
+        if not matching_rows.is_empty():
+            # Update rt values in ddaobj.features_df based on matching_rows
+            rt_values = matching_rows["rt"].to_list()
+            if len(rt_values) == len(ddaobj.features_df):
+                ddaobj.features_df = ddaobj.features_df.with_columns(
+                    pl.lit(rt_values).alias("rt"),
+                )
+        # save ddaobj
+        ddaobj.save()
+        sample_name = sample_row.row(0, named=True)["sample_name"]
+        # Find the index of this sample in the original order for features_maps
+        sample_index = next(
+            (
+                i
+                for i, row_dict in enumerate(self.samples_df.iter_rows(named=True))
+                if row_dict["sample_uid"] == sample_uid
+            ),
+            None,
+        )
+        if self.folder is not None:
+            filename = os.path.join(
+                self.folder,
+                sample_name + ".featureXML",
+            )
+        else:
+            filename = os.path.join(
+                os.getcwd(),
+                sample_name + ".featureXML",
+            )
+        fh = oms.FeatureXMLFile()
+        if sample_index is not None and sample_index < len(self.features_maps):
+            fh.store(filename, self.features_maps[sample_index])
+    self.logger.debug("All samples saved successfully.")
+def _save_consensusXML(self, filename: str):
+    if self.consensus_map is None:
+        self.logger.error("No consensus map found.")
+        return
+    fh = oms.ConsensusXMLFile()
+    fh.store(filename, self.consensus_map)
+    self.logger.info(f"Saved consensus map to {filename}")
+def save_consensus(self, **kwargs):
+    """Save the consensus map to a file."""
+    if self.consensus_map is None:
+        self.logger.error("No consensus map found.")
+        return
+    self._save_consensusXML(**kwargs)

masster 0.2.5__py3-none-any.whl → 0.3.0__py3-none-any.whl

Potentially problematic release.

masster 0.2.5py3-none-any.whl → 0.3.0py3-none-any.whl