PyPI - masster - Versions diffs - 0.4.6__py3-none-any.whl → 0.4.9__py3-none-any.whl - Mend

masster 0.4.6py3-none-any.whl → 0.4.9py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of masster might be problematic. Click here for more details.

Files changed (23) hide show

masster/_version.py +1 -1
masster/logger.py +8 -8
masster/sample/h5.py +3 -3
masster/sample/load.py +2 -2
masster/sample/sample.py +2 -2
masster/study/export.py +1 -1
masster/study/h5.py +3 -3
masster/study/helpers.py +330 -137
masster/study/load.py +1 -1
masster/study/processing.py +2 -2
masster/study/study.py +2 -2
masster-0.4.9.dist-info/METADATA +788 -0
{masster-0.4.6.dist-info → masster-0.4.9.dist-info}/RECORD +16 -22
{masster-0.4.6.dist-info → masster-0.4.9.dist-info}/WHEEL +1 -2
masster/data/libs/__pycache__/ccm.cpython-312.pyc +0 -0
masster/data/libs/__pycache__/urine.cpython-312.pyc +0 -0
masster/lib/__init__.py +0 -9
masster/lib/lib.py +0 -598
masster/study/helpers_optimized.py +0 -359
masster-0.4.6.dist-info/METADATA +0 -131
masster-0.4.6.dist-info/top_level.txt +0 -1
{masster-0.4.6.dist-info → masster-0.4.9.dist-info}/entry_points.txt +0 -0
{masster-0.4.6.dist-info → masster-0.4.9.dist-info}/licenses/LICENSE +0 -0

masster/study/helpers_optimized.py DELETED Viewed

@@ -1,359 +0,0 @@
-"""
-Optimized features_select method for improved performance.
-This module contains the optimized version of features_select that:
-1. Combines all filters into a single expression
-2. Uses lazy evaluation
-3. Reduces logging overhead
-4. Pre-checks column existence
-5. Implements early returns
-"""
-import polars as pl
-def features_select_optimized(
-    self,
-    mz=None,
-    rt=None,
-    inty=None,
-    sample_uid=None,
-    sample_name=None,
-    consensus_uid=None,
-    feature_uid=None,
-    filled=None,
-    quality=None,
-    chrom_coherence=None,
-    chrom_prominence=None,
-    chrom_prominence_scaled=None,
-    chrom_height_scaled=None,
-):
-    """
-    Optimized version of features_select with improved performance.
-    Key optimizations:
-    - Combines all filters into a single expression
-    - Uses lazy evaluation for better performance
-    - Reduces logging overhead
-    - Pre-checks column existence once
-    - Early return for no filters
-    Args:
-        mz: mass-to-charge ratio filter (tuple for range, single value for minimum)
-        rt: retention time filter (tuple for range, single value for minimum)
-        inty: intensity filter (tuple for range, single value for minimum)
-        sample_uid: sample UID filter (list, single value, or tuple for range)
-        sample_name: sample name filter (list or single value)
-        consensus_uid: consensus UID filter (list, single value, or tuple for range)
-        feature_uid: feature UID filter (list, single value, or tuple for range)
-        filled: filter for filled/not filled features (bool)
-        quality: quality score filter (tuple for range, single value for minimum)
-        chrom_coherence: chromatogram coherence filter (tuple for range, single value for minimum)
-        chrom_prominence: chromatogram prominence filter (tuple for range, single value for minimum)
-        chrom_prominence_scaled: scaled chromatogram prominence filter (tuple for range, single value for minimum)
-        chrom_height_scaled: scaled chromatogram height filter (tuple for range, single value for minimum)
-    Returns:
-        polars.DataFrame: Filtered features DataFrame
-    """
-    if self.features_df is None or self.features_df.is_empty():
-        self.logger.warning("No features found in study.")
-        return pl.DataFrame()
-    # Early return if no filters provided
-    filter_params = [
-        mz,
-        rt,
-        inty,
-        sample_uid,
-        sample_name,
-        consensus_uid,
-        feature_uid,
-        filled,
-        quality,
-        chrom_coherence,
-        chrom_prominence,
-        chrom_prominence_scaled,
-        chrom_height_scaled,
-    ]
-    if all(param is None for param in filter_params):
-        return self.features_df.clone()
-    initial_count = len(self.features_df)
-    # Pre-check available columns once
-    available_columns = set(self.features_df.columns)
-    # Build all filter conditions
-    filter_conditions = []
-    warnings = []
-    # Filter by m/z
-    if mz is not None:
-        if isinstance(mz, tuple) and len(mz) == 2:
-            min_mz, max_mz = mz
-            filter_conditions.append((pl.col("mz") >= min_mz) & (pl.col("mz") <= max_mz))
-        else:
-            filter_conditions.append(pl.col("mz") >= mz)
-    # Filter by retention time
-    if rt is not None:
-        if isinstance(rt, tuple) and len(rt) == 2:
-            min_rt, max_rt = rt
-            filter_conditions.append((pl.col("rt") >= min_rt) & (pl.col("rt") <= max_rt))
-        else:
-            filter_conditions.append(pl.col("rt") >= rt)
-    # Filter by intensity
-    if inty is not None:
-        if isinstance(inty, tuple) and len(inty) == 2:
-            min_inty, max_inty = inty
-            filter_conditions.append((pl.col("inty") >= min_inty) & (pl.col("inty") <= max_inty))
-        else:
-            filter_conditions.append(pl.col("inty") >= inty)
-    # Filter by sample_uid
-    if sample_uid is not None:
-        if isinstance(sample_uid, (list, tuple)):
-            if len(sample_uid) == 2 and not isinstance(sample_uid, list):
-                # Treat as range
-                min_uid, max_uid = sample_uid
-                filter_conditions.append((pl.col("sample_uid") >= min_uid) & (pl.col("sample_uid") <= max_uid))
-            else:
-                # Treat as list
-                filter_conditions.append(pl.col("sample_uid").is_in(sample_uid))
-        else:
-            filter_conditions.append(pl.col("sample_uid") == sample_uid)
-    # Filter by sample_name (requires pre-processing)
-    if sample_name is not None:
-        # Get sample_uids for the given sample names
-        if isinstance(sample_name, list):
-            sample_uids_for_names = self.samples_df.filter(
-                pl.col("sample_name").is_in(sample_name),
-            )["sample_uid"].to_list()
-        else:
-            sample_uids_for_names = self.samples_df.filter(
-                pl.col("sample_name") == sample_name,
-            )["sample_uid"].to_list()
-        if sample_uids_for_names:
-            filter_conditions.append(pl.col("sample_uid").is_in(sample_uids_for_names))
-        else:
-            filter_conditions.append(pl.lit(False))  # No matching samples
-    # Filter by consensus_uid
-    if consensus_uid is not None:
-        if isinstance(consensus_uid, (list, tuple)):
-            if len(consensus_uid) == 2 and not isinstance(consensus_uid, list):
-                # Treat as range
-                min_uid, max_uid = consensus_uid
-                filter_conditions.append((pl.col("consensus_uid") >= min_uid) & (pl.col("consensus_uid") <= max_uid))
-            else:
-                # Treat as list
-                filter_conditions.append(pl.col("consensus_uid").is_in(consensus_uid))
-        else:
-            filter_conditions.append(pl.col("consensus_uid") == consensus_uid)
-    # Filter by feature_uid
-    if feature_uid is not None:
-        if isinstance(feature_uid, (list, tuple)):
-            if len(feature_uid) == 2 and not isinstance(feature_uid, list):
-                # Treat as range
-                min_uid, max_uid = feature_uid
-                filter_conditions.append((pl.col("feature_uid") >= min_uid) & (pl.col("feature_uid") <= max_uid))
-            else:
-                # Treat as list
-                filter_conditions.append(pl.col("feature_uid").is_in(feature_uid))
-        else:
-            filter_conditions.append(pl.col("feature_uid") == feature_uid)
-    # Filter by filled status
-    if filled is not None:
-        if "filled" in available_columns:
-            if filled:
-                filter_conditions.append(pl.col("filled"))
-            else:
-                filter_conditions.append(~pl.col("filled") | pl.col("filled").is_null())
-        else:
-            warnings.append("'filled' column not found in features_df")
-    # Filter by quality
-    if quality is not None:
-        if "quality" in available_columns:
-            if isinstance(quality, tuple) and len(quality) == 2:
-                min_quality, max_quality = quality
-                filter_conditions.append((pl.col("quality") >= min_quality) & (pl.col("quality") <= max_quality))
-            else:
-                filter_conditions.append(pl.col("quality") >= quality)
-        else:
-            warnings.append("'quality' column not found in features_df")
-    # Filter by chromatogram coherence
-    if chrom_coherence is not None:
-        if "chrom_coherence" in available_columns:
-            if isinstance(chrom_coherence, tuple) and len(chrom_coherence) == 2:
-                min_coherence, max_coherence = chrom_coherence
-                filter_conditions.append(
-                    (pl.col("chrom_coherence") >= min_coherence) & (pl.col("chrom_coherence") <= max_coherence),
-                )
-            else:
-                filter_conditions.append(pl.col("chrom_coherence") >= chrom_coherence)
-        else:
-            warnings.append("'chrom_coherence' column not found in features_df")
-    # Filter by chromatogram prominence
-    if chrom_prominence is not None:
-        if "chrom_prominence" in available_columns:
-            if isinstance(chrom_prominence, tuple) and len(chrom_prominence) == 2:
-                min_prominence, max_prominence = chrom_prominence
-                filter_conditions.append(
-                    (pl.col("chrom_prominence") >= min_prominence) & (pl.col("chrom_prominence") <= max_prominence),
-                )
-            else:
-                filter_conditions.append(pl.col("chrom_prominence") >= chrom_prominence)
-        else:
-            warnings.append("'chrom_prominence' column not found in features_df")
-    # Filter by scaled chromatogram prominence
-    if chrom_prominence_scaled is not None:
-        if "chrom_prominence_scaled" in available_columns:
-            if isinstance(chrom_prominence_scaled, tuple) and len(chrom_prominence_scaled) == 2:
-                min_prominence_scaled, max_prominence_scaled = chrom_prominence_scaled
-                filter_conditions.append(
-                    (pl.col("chrom_prominence_scaled") >= min_prominence_scaled)
-                    & (pl.col("chrom_prominence_scaled") <= max_prominence_scaled),
-                )
-            else:
-                filter_conditions.append(pl.col("chrom_prominence_scaled") >= chrom_prominence_scaled)
-        else:
-            warnings.append("'chrom_prominence_scaled' column not found in features_df")
-    # Filter by scaled chromatogram height
-    if chrom_height_scaled is not None:
-        if "chrom_height_scaled" in available_columns:
-            if isinstance(chrom_height_scaled, tuple) and len(chrom_height_scaled) == 2:
-                min_height_scaled, max_height_scaled = chrom_height_scaled
-                filter_conditions.append(
-                    (pl.col("chrom_height_scaled") >= min_height_scaled)
-                    & (pl.col("chrom_height_scaled") <= max_height_scaled),
-                )
-            else:
-                filter_conditions.append(pl.col("chrom_height_scaled") >= chrom_height_scaled)
-        else:
-            warnings.append("'chrom_height_scaled' column not found in features_df")
-    # Log warnings once at the end
-    for warning in warnings:
-        self.logger.warning(warning)
-    # Apply all filters at once if any exist
-    if filter_conditions:
-        # Combine all conditions with AND
-        combined_filter = filter_conditions[0]
-        for condition in filter_conditions[1:]:
-            combined_filter = combined_filter & condition
-        # Apply the combined filter using lazy evaluation for better performance
-        feats = self.features_df.lazy().filter(combined_filter).collect()
-    else:
-        feats = self.features_df.clone()
-    final_count = len(feats)
-    if final_count == 0:
-        self.logger.warning("No features remaining after applying selection criteria.")
-    else:
-        removed_count = initial_count - final_count
-        self.logger.info(f"Features selected: {final_count} (removed: {removed_count})")
-    return feats
-def features_select_benchmarked(
-    self,
-    mz=None,
-    rt=None,
-    inty=None,
-    sample_uid=None,
-    sample_name=None,
-    consensus_uid=None,
-    feature_uid=None,
-    filled=None,
-    quality=None,
-    chrom_coherence=None,
-    chrom_prominence=None,
-    chrom_prominence_scaled=None,
-    chrom_height_scaled=None,
-):
-    """
-    Benchmarked version that compares old vs new implementation performance.
-    """
-    import time
-    # Call the original method for comparison
-    start_time = time.perf_counter()
-    _ = self.features_select_original(
-        mz=mz,
-        rt=rt,
-        inty=inty,
-        sample_uid=sample_uid,
-        sample_name=sample_name,
-        consensus_uid=consensus_uid,
-        feature_uid=feature_uid,
-        filled=filled,
-        quality=quality,
-        chrom_coherence=chrom_coherence,
-        chrom_prominence=chrom_prominence,
-        chrom_prominence_scaled=chrom_prominence_scaled,
-        chrom_height_scaled=chrom_height_scaled,
-    )
-    original_time = time.perf_counter() - start_time
-    # Call the optimized method
-    start_time = time.perf_counter()
-    result_optimized = features_select_optimized(
-        self,
-        mz=mz,
-        rt=rt,
-        inty=inty,
-        sample_uid=sample_uid,
-        sample_name=sample_name,
-        consensus_uid=consensus_uid,
-        feature_uid=feature_uid,
-        filled=filled,
-        quality=quality,
-        chrom_coherence=chrom_coherence,
-        chrom_prominence=chrom_prominence,
-        chrom_prominence_scaled=chrom_prominence_scaled,
-        chrom_height_scaled=chrom_height_scaled,
-    )
-    optimized_time = time.perf_counter() - start_time
-    # Log performance comparison
-    speedup = original_time / optimized_time if optimized_time > 0 else float("inf")
-    self.logger.info(
-        f"Performance comparison - Original: {original_time:.4f}s, Optimized: {optimized_time:.4f}s, Speedup: {speedup:.2f}x",
-    )
-    return result_optimized
-def monkey_patch_study():
-    """
-    Apply the optimized features_select method to the Study class.
-    Call this function to replace the original features_select with the optimized version.
-    """
-    from masster.study.study import Study
-    # Store original method for benchmarking
-    Study.features_select_original = Study.features_select
-    # Replace with optimized version
-    Study.features_select = features_select_optimized
-    # Add benchmarked version as an option
-    Study.features_select_benchmarked = features_select_benchmarked
-    print("Successfully patched Study.features_select with optimized version")

masster-0.4.6.dist-info/METADATA DELETED Viewed

@@ -1,131 +0,0 @@
-Metadata-Version: 2.4
-Name: masster
-Version: 0.4.6
-Summary: Mass spectrometry data analysis package
-Author: Zamboni Lab
-License-Expression: AGPL-3.0-only
-Project-URL: homepage, https://github.com/zamboni-lab/masster
-Project-URL: repository, https://github.com/zamboni-lab/masster
-Project-URL: documentation, https://github.com/zamboni-lab/masster#readme
-Keywords: mass spectrometry,metabolomics,lc-ms,chromatography
-Classifier: Development Status :: 3 - Alpha
-Classifier: Intended Audience :: Science/Research
-Classifier: Operating System :: OS Independent
-Classifier: Programming Language :: Python :: 3
-Classifier: Programming Language :: Python :: 3.11
-Classifier: Programming Language :: Python :: 3.12
-Classifier: Programming Language :: Python :: 3.13
-Classifier: Topic :: Scientific/Engineering :: Bio-Informatics
-Classifier: Topic :: Scientific/Engineering :: Chemistry
-Requires-Python: >=3.11
-Description-Content-Type: text/markdown
-License-File: LICENSE
-Requires-Dist: alpharaw>=0.4.8
-Requires-Dist: bokeh>=3.7.3
-Requires-Dist: datashader>=0.18.1
-Requires-Dist: holoviews>=1.21.0
-Requires-Dist: h5py>=3.14.0
-Requires-Dist: hvplot>=0.11.3
-Requires-Dist: loguru>=0.7.3
-Requires-Dist: numpy>=2.0.0
-Requires-Dist: marimo>=0.14.16
-Requires-Dist: matplotlib>=3.8.0
-Requires-Dist: pandas>=2.2.0
-Requires-Dist: panel>=1.7.0
-Requires-Dist: pyopenms>=3.3.0
-Requires-Dist: pyteomics>=4.7.0
-Requires-Dist: pythonnet>=3.0.0
-Requires-Dist: tqdm>=4.65.0
-Requires-Dist: openpyxl>=3.1.5
-Requires-Dist: cmap>=0.6.2
-Requires-Dist: altair>=5.5.0
-Requires-Dist: scikit-learn>=1.7.1
-Requires-Dist: ipython>=9.4.0
-Requires-Dist: scipy>=1.14.1
-Requires-Dist: polars>=1.32.3
-Provides-Extra: dev
-Requires-Dist: pytest>=7.0.0; extra == "dev"
-Requires-Dist: pytest-cov>=4.0.0; extra == "dev"
-Requires-Dist: pytest-mock>=3.10.0; extra == "dev"
-Requires-Dist: black>=23.0.0; extra == "dev"
-Requires-Dist: flake8>=5.0.0; extra == "dev"
-Requires-Dist: mypy>=1.0.0; extra == "dev"
-Requires-Dist: pre-commit>=3.0.0; extra == "dev"
-Requires-Dist: twine>=4.0.0; extra == "dev"
-Requires-Dist: build>=0.10.0; extra == "dev"
-Requires-Dist: safety>=2.0.0; extra == "dev"
-Requires-Dist: bandit>=1.7.0; extra == "dev"
-Requires-Dist: pyyaml>=6.0; extra == "dev"
-Provides-Extra: docs
-Requires-Dist: sphinx>=5.0.0; extra == "docs"
-Requires-Dist: sphinx-rtd-theme>=1.2.0; extra == "docs"
-Requires-Dist: sphinxcontrib-napoleon>=0.7; extra == "docs"
-Provides-Extra: test
-Requires-Dist: pytest>=7.0.0; extra == "test"
-Requires-Dist: pytest-cov>=4.0.0; extra == "test"
-Requires-Dist: pytest-mock>=3.10.0; extra == "test"
-Requires-Dist: coverage>=7.0.0; extra == "test"
-Dynamic: license-file
-# MASSter
-**MASSter** is a comprehensive Python package for mass spectrometry data analysis, designed for metabolomics and LC-MS data processing. It provides tools for feature detection, alignment, consensus building, and interactive visualization of mass spectrometry datasets. It is designed to deal with DDA, and hides functionalities for DIA and ZTScan DIA data.
-This is a poorly documented, stable branch of the development codebase in use in the Zamboni lab.
-Some of the core processing functions are derived from OpenMS. We use the same nomenclature and refer to their documentation for an explanation of the parameters. To a large extent, however, you should be able to use the defaults (=no parameters) when calling processing steps.
-## Installation
-```bash
-pip install master
-```
-### Basic Workflow for analyzing LC-MS study with 2-... samples
-```python
-import master
-# Initialize the Study object with the default folder
-study = master.Study(default_folder=r'D:\...\mylcms')
-# Load data from folder with raw data, here: WIFF
-study.add(r'D:\...\...\...\*.wiff')
-# Perform retention time correction
-study.align(rt_max_diff=2.0)
-study.plot_alignment()
-# Find consensus features
-study.merge(min_samples=3)
-study.plot_consensus_2d()
-# Retrieve missing data for quantification
-study.fill()
-# Integrate according to consensus metadata
-study.integrate()
-# export results
-study.export_mgf()
-study.export_mztab()
-study.export_consensus()
-# Save the study to .study5
-study.save()
-```
-## Requirements
-- Python ≥ 3.11
-- Key dependencies: pandas, polars, numpy, scipy, matplotlib, bokeh, holoviews, panel
-- See `pyproject.toml` for complete dependency list
-## License
-GNU Affero General Public License v3
-## Citation
-If you use Master in your research, please cite this repository.

masster-0.4.6.dist-info/top_level.txt DELETED Viewed

	@@ -1 +0,0 @@
1	- masster

{masster-0.4.6.dist-info → masster-0.4.9.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{masster-0.4.6.dist-info → masster-0.4.9.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

masster 0.4.6__py3-none-any.whl → 0.4.9__py3-none-any.whl

Potentially problematic release.

masster 0.4.6py3-none-any.whl → 0.4.9py3-none-any.whl