PyPI - masster - Versions diffs - 0.5.4__py3-none-any.whl → 0.5.5__py3-none-any.whl - Mend

masster 0.5.4py3-none-any.whl → 0.5.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of masster might be problematic. Click here for more details.

Files changed (10) hide show

masster/sample/save.py +5 -0
masster/study/helpers.py +2 -2
masster/study/plot.py +144 -47
masster/study/processing.py +0 -3
masster/wizard/wizard.py +13 -24
{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/METADATA +1 -1
{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/RECORD +10 -10
{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/WHEEL +0 -0
{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/entry_points.txt +0 -0
{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/licenses/LICENSE +0 -0

masster/sample/save.py CHANGED Viewed

@@ -411,6 +411,11 @@ def export_mgf(
             rt_str = f"{rt:.2f}"
             mz_str = f"{mz:.4f}"
+            # Initialize charge for this feature
+            charge = preferred_charge
+            if row["charge"] is not None and row["charge"] != 0:
+                charge = row["charge"]
             # Skip features without MS2 data (unless include_all_ms1 is True, but we already handled MS1 above)
             if row["ms2_scans"] is None:
                 skip = skip + 1

masster/study/helpers.py CHANGED Viewed

@@ -500,7 +500,7 @@ def align_reset(self):
 # TODO I don't get this param
 def get_consensus(self, quant="chrom_area"):
     if self.consensus_df is None:
-        self.logger.error("No consensus map found.")
+        self.logger.error("No consensus found.")
         return None
     # Convert Polars DataFrame to pandas for this operation since the result is used for export
@@ -613,7 +613,7 @@ def get_gaps_matrix(self, uids=None, samples=None):
     import polars as pl
     if self.consensus_df is None or self.consensus_df.is_empty():
-        self.logger.error("No consensus map found.")
+        self.logger.error("No consensus found.")
         return None
     if self.consensus_mapping_df is None or self.consensus_mapping_df.is_empty():

masster/study/plot.py CHANGED Viewed

@@ -564,6 +564,10 @@ def plot_consensus_2d(
     Parameters:
         filename (str, optional): Path to save the plot
         colorby (str): Column name to use for color mapping (default: "number_samples")
+                      Automatically detects if column contains categorical (string) or
+                      numeric data and applies appropriate color mapping:
+                      - Categorical: Uses factor_cmap with distinct colors and legend
+                      - Numeric: Uses LinearColorMapper with continuous colorbar
         sizeby (str): Column name to use for size mapping (default: "inty_mean")
         markersize (int): Base marker size (default: 6)
         scaling (str): Controls whether points scale with zoom. Options:
@@ -645,12 +649,13 @@ def plot_consensus_2d(
     from bokeh.models import HoverTool
     from bokeh.models import LinearColorMapper
     from bokeh.io.export import export_png
+    from bokeh.transform import factor_cmap
     try:
         from bokeh.models import ColorBar  # type: ignore[attr-defined]
     except ImportError:
         from bokeh.models.annotations import ColorBar
-    from bokeh.palettes import viridis
+    from bokeh.palettes import viridis, Category20
     # Import cmap for colormap handling
     from cmap import Colormap
@@ -695,61 +700,144 @@ def plot_consensus_2d(
         self.logger.warning(f"Could not interpret colormap '{cmap}': {e}, falling back to viridis")
         palette = viridis(256)
-    color_mapper = LinearColorMapper(
-        palette=palette,
-        low=data[colorby].min(),
-        high=data[colorby].max(),
+    # Check if colorby column contains categorical data (string/object)
+    colorby_values = data[colorby].to_list()
+    is_categorical = (
+        data_pd[colorby].dtype in ["object", "string", "category"] or
+        isinstance(colorby_values[0], str) if colorby_values else False
     )
+    if is_categorical:
+        # Handle categorical coloring
+        # Use natural order of unique values - don't sort to preserve correct legend mapping
+        # Sorting would break the correspondence between legend labels and point colors
+        unique_values = [v for v in data_pd[colorby].unique() if v is not None]
+        if len(unique_values) <= 20:
+            palette = Category20[min(20, max(3, len(unique_values)))]
+        else:
+            # For many categories, use a subset of the viridis palette
+            palette = viridis(min(256, len(unique_values)))
+        color_mapper = factor_cmap(colorby, palette, unique_values)
+    else:
+        # Handle numeric coloring with LinearColorMapper
+        color_mapper = LinearColorMapper(
+            palette=palette,
+            low=data[colorby].min(),
+            high=data[colorby].max(),
+        )
     # scatter plot rt vs mz
     p = bp.figure(
         width=width,
         height=height,
-        title="Consensus map",
+        title=f"Consensus features, colored by {colorby}",
     )
-    p.xaxis.axis_label = "Retention Time (min)"
-    p.yaxis.axis_label = "m/z"
+    p.xaxis.axis_label = "RT [s]"
+    p.yaxis.axis_label = "m/z [Th]"
     scatter_renderer: Any = None
-    if scaling.lower() in ["dyn", "dynamic"]:
-        # Calculate appropriate radius for dynamic scaling based on data range
-        rt_range = data["rt"].max() - data["rt"].min()
-        mz_range = data["mz"].max() - data["mz"].min()
-        # Use a fraction of the smaller dimension for radius, similar to sample plotting
-        dynamic_radius = min(rt_range, mz_range) * 0.0005 * markersize
+    if is_categorical:
+        # For categorical data, create separate renderers for each category
+        # This enables proper legend interactivity where each category can be toggled independently
+        unique_values = [v for v in data_pd[colorby].unique() if v is not None]
+        if len(unique_values) <= 20:
+            palette = Category20[min(20, max(3, len(unique_values)))]
+        else:
+            palette = viridis(min(256, len(unique_values)))
+        # Create a separate renderer for each category
+        for i, category in enumerate(unique_values):
+            # Filter data for this category
+            category_data = data.filter(pl.col(colorby) == category)
+            category_data_pd = category_data.to_pandas()
+            category_source = bp.ColumnDataSource(category_data_pd)
+            color = palette[i % len(palette)]
+            if scaling.lower() in ["dyn", "dynamic"]:
+                # Calculate appropriate radius for dynamic scaling
+                rt_range = data["rt"].max() - data["rt"].min()
+                mz_range = data["mz"].max() - data["mz"].min()
+                dynamic_radius = min(rt_range, mz_range) * 0.0005 * markersize
+                renderer = p.circle(
+                    x="rt",
+                    y="mz",
+                    radius=dynamic_radius,
+                    fill_color=color,
+                    line_color=None,
+                    alpha=alpha,
+                    source=category_source,
+                    legend_label=str(category),
+                )
+            else:
+                renderer = p.scatter(
+                    x="rt",
+                    y="mz",
+                    size="markersize",
+                    fill_color=color,
+                    line_color=None,
+                    alpha=alpha,
+                    source=category_source,
+                    legend_label=str(category),
+                )
+        # No single scatter_renderer for categorical data
+        scatter_renderer = None
-        scatter_renderer = p.circle(
-            x="rt",
-            y="mz",
-            radius=dynamic_radius,
-            fill_color={"field": colorby, "transform": color_mapper},
-            line_color=None,
-            alpha=alpha,
-            source=source,
-        )
     else:
-        scatter_renderer = p.scatter(
-            x="rt",
-            y="mz",
-            size="markersize",
-            fill_color={"field": colorby, "transform": color_mapper},
-            line_color=None,
-            alpha=alpha,
-            source=source,
-        )
+        # Handle numeric coloring - single renderer with color mapping
+        if scaling.lower() in ["dyn", "dynamic"]:
+            # Calculate appropriate radius for dynamic scaling
+            rt_range = data["rt"].max() - data["rt"].min()
+            mz_range = data["mz"].max() - data["mz"].min()
+            dynamic_radius = min(rt_range, mz_range) * 0.0005 * markersize
+            scatter_renderer = p.circle(
+                x="rt",
+                y="mz",
+                radius=dynamic_radius,
+                fill_color={"field": colorby, "transform": color_mapper},
+                line_color=None,
+                alpha=alpha,
+                source=source,
+            )
+        else:
+            scatter_renderer = p.scatter(
+                x="rt",
+                y="mz",
+                size="markersize",
+                fill_color={"field": colorby, "transform": color_mapper},
+                line_color=None,
+                alpha=alpha,
+                source=source,
+            )
     # add hover tool
-    # Start with base tooltips
+    # Start with base tooltips - rt and mz moved to top, removed consensus_id and iso_mean
     tooltips = [
+        ("rt", "@rt"),
+        ("mz", "@mz"),
         ("consensus_uid", "@consensus_uid"),
-        ("consensus_id", "@consensus_id"),
         ("number_samples", "@number_samples"),
         ("number_ms2", "@number_ms2"),
-        ("rt", "@rt"),
-        ("mz", "@mz"),
         ("inty_mean", "@inty_mean"),
-        ("iso_mean", "@iso_mean"),
         ("coherence_mean", "@chrom_coherence_mean"),
         ("prominence_scaled_mean", "@chrom_prominence_scaled_mean"),
     ]
+    # Add adduct_top if it exists in data
+    if "adduct_top" in data.columns:
+        tooltips.append(("adduct_top", "@adduct_top"))
+    # Add id_top_name if it exists in data
+    if "id_top_name" in data.columns:
+        tooltips.append(("id_top_name", "@id_top_name"))
+    # Add id_top_adduct if it exists in data
+    if "id_top_adduct" in data.columns:
+        tooltips.append(("id_top_adduct", "@id_top_adduct"))
     # Add id_top_* columns if they exist and have non-null values
     id_top_columns = ["id_top_name", "id_top_class", "id_top_adduct", "id_top_score"]
     for col in id_top_columns:
@@ -764,19 +852,28 @@ def plot_consensus_2d(
     hover = HoverTool(
         tooltips=tooltips,
-        renderers=[scatter_renderer],
     )
+    # For categorical data, hover will work on all renderers automatically
+    # For numeric data, specify the single renderer
+    if not is_categorical and scatter_renderer:
+        hover.renderers = [scatter_renderer]
     p.add_tools(hover)
-    # add colorbar
-    color_bar = ColorBar(
-        color_mapper=color_mapper,
-        label_standoff=12,
-        location=(0, 0),
-        title=colorby,
-        ticker=BasicTicker(desired_num_ticks=8),
-    )
-    p.add_layout(color_bar, "right")
+    # add colorbar only for numeric data (LinearColorMapper)
+    if not is_categorical:
+        color_bar = ColorBar(
+            color_mapper=color_mapper,
+            label_standoff=12,
+            location=(0, 0),
+            title=colorby,
+            ticker=BasicTicker(desired_num_ticks=8),
+        )
+        p.add_layout(color_bar, "right")
+    else:
+        # For categorical data, configure the legend that was automatically created
+        p.legend.location = "top_right"
+        p.legend.click_policy = "hide"
     if filename is not None:
         # Convert relative paths to absolute paths using study folder as base

masster/study/processing.py CHANGED Viewed

@@ -341,9 +341,6 @@ def _integrate_chrom_impl(self, **kwargs):
     uids = params.get("uids")
     rt_tol = params.get("rt_tol")
-    if self.consensus_map is None:
-        self.logger.error("No consensus map found.")
-        return
     if uids is None:
         # get all consensus_id from consensus_df
         ids = self.consensus_df["consensus_uid"].to_list()

masster/wizard/wizard.py CHANGED Viewed

@@ -455,6 +455,9 @@ class Wizard:
         params_lines.append('    # === Processing Parameters ===')
         params_lines.append(f'    "adducts": {params_dict.get("adducts", [])!r},  # Adduct specifications for feature detection and annotation')
         params_lines.append(f'    "detector_type": {params_dict.get("detector_type", "unknown")!r},  # MS detector type ("orbitrap", "tof", "unknown")')
+        params_lines.append(f'    "noise": {params_dict.get("noise", 50.0)},  # Noise threshold for feature detection')
+        params_lines.append(f'    "chrom_fwhm": {params_dict.get("chrom_fwhm", 0.5)},  # Chromatographic peak full width at half maximum (seconds)')
+        params_lines.append(f'    "chrom_peak_snr": {params_dict.get("chrom_peak_snr", 5.0)},  # Minimum signal-to-noise ratio for chromatographic peaks')
         params_lines.append('')
         # Alignment & Merging
@@ -643,6 +646,7 @@ class Wizard:
             '        # Step 4: Add sample5 files to study',
             '        print("\\nStep 4/7: Adding samples to study...")',
             '        study.add(str(Path(PARAMS[\'folder\']) / "*.sample5"))',
+            '        study.features_filter(study.features_select(chrom_coherence=0.1, chrom_prominence_scaled=1))',
             '        ',
             '        # Step 5: Core processing',
             '        print("\\nStep 5/7: Processing...")',
@@ -651,29 +655,14 @@ class Wizard:
             '            rt_tol=PARAMS[\'rt_tol\']',
             '        )',
             '        ',
-            '        # Merge and create consensus features',
-            '        # Use optimized method for large datasets (>500 samples)',
-            '        num_samples = len(study.samples)',
-            '        if num_samples > 500:',
-            '            print(f"  Large dataset detected ({num_samples} samples), using optimized qt_chunked + hierarchical method")',
-            '            study.merge(',
-            '                method="qt_chunked",',
-            '                dechunking="hierarchical",',
-            '                min_samples=PARAMS[\'min_samples_per_feature\'],',
-            '                threads=PARAMS[\'num_cores\'],',
-            '                rt_tol=PARAMS[\'rt_tol\'],',
-            '                mz_tol=PARAMS[\'mz_tol\']',
-            '            )',
-            '        else:',
-            '            print(f"  Using standard merge method for {num_samples} samples")',
-            '            study.merge(',
-            '                min_samples=PARAMS[\'min_samples_per_feature\'],',
-            '                threads=PARAMS[\'num_cores\'],',
-            '                rt_tol=PARAMS[\'rt_tol\'],',
-            '                mz_tol=PARAMS[\'mz_tol\']',
-            '            )',
+            '        study.merge(',
+            '            method="qt",',
+            '            min_samples=PARAMS[\'min_samples_per_feature\'],',
+            '            threads=PARAMS[\'num_cores\'],',
+            '            rt_tol=PARAMS[\'rt_tol\'],'
+            '        )',
             '        study.find_iso()',
-            '        study.fill(min_samples_rel=0.0)',
+            '        study.fill()',
             '        study.integrate()',
             '        ',
             '        # Step 6/7: Saving results',
@@ -689,8 +678,8 @@ class Wizard:
             '        study.plot_consensus_2d(filename="consensus.png")',
             '        study.plot_alignment(filename="alignment.html")',
             '        study.plot_alignment(filename="alignment.png")',
-            '        study.plot_pca(filename="pca.html")',
-            '        study.plot_pca(filename="pca.png")',
+            '        study.plot_samples_pca(filename="pca.html")',
+            '        study.plot_samples_pca(filename="pca.png")',
             '        study.plot_bpc(filename="bpc.html")',
             '        study.plot_bpc(filename="bpc.png")',
             '        study.plot_rt_correction(filename="rt_correction.html")',

{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: masster
-Version: 0.5.4
+Version: 0.5.5
 Summary: Mass spectrometry data analysis package
 Project-URL: homepage, https://github.com/zamboni-lab/masster
 Project-URL: repository, https://github.com/zamboni-lab/masster

{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/RECORD RENAMED Viewed

@@ -29,7 +29,7 @@ masster/sample/processing.py,sha256=CjaLCElDKECeCvYWqzT5EH_-rPQ0Y4A30zKjZfqmS5s,
 masster/sample/quant.py,sha256=tHNjvUFTdehKR31BXBZnVsBxMD9XJHgaltITOjr71uE,7562
 masster/sample/sample.py,sha256=O2PY7DnRx7VkASBU4qKQcTqND1aRfd0OCjKK9Rjn5uw,20574
 masster/sample/sample5_schema.json,sha256=H5e2T6rHIDzul2kp_yP-ILUUWUpW08wP2pEQjMR0nSk,3977
-masster/sample/save.py,sha256=2yQtcQcRJjgAKPImTydj7LpyyMop_Q9JKRlNEK4yU6k,36339
+masster/sample/save.py,sha256=q1DjzVCB2FsTi9Sk-szd2-Nr7kPbqqFhJpjAWNfSCno,36536
 masster/sample/sciex.py,sha256=vnbxsq_qnAQVuzcpziP1o3IC4kM5amGBcPmC2TAuDLw,46319
 masster/sample/defaults/__init__.py,sha256=A09AOP44cxD_oYohyt7XFUho0zndRcrzVD4DUaGnKH4,447
 masster/sample/defaults/find_adducts_def.py,sha256=Bu2KiBJRxD0SAnOPNMm_Nk-6fx6QYoRXjFNGzz-0_o0,13570
@@ -41,13 +41,13 @@ masster/study/__init__.py,sha256=55axdFuqRX4aXtJ8ocnhcLB32fNtmmJpCi58moO0r4g,237
 masster/study/analysis.py,sha256=L-wXBnGZCLB5UUDrjIdOiMG9zdej3Tw_SftcEmmTukM,84264
 masster/study/export.py,sha256=joFK9jip2UM4lVAvhkdKVeUdNdM4D8uP2WE49IaVJgw,60172
 masster/study/h5.py,sha256=84plxM7gYFdn_mNbcg8XxE_NRZmiIBqs_XhfHMiXshk,95364
-masster/study/helpers.py,sha256=s5jLUmxDAs_Qn6dVwpkwlwuwliMDEBjmeikS6OrxdSE,183137
+masster/study/helpers.py,sha256=ZhvLetoEROHMSrMKZo8jXQMJhTochITgAG_vwjs_8Mg,183129
 masster/study/id.py,sha256=r_vZQYNxqNXf_pjgk_CLkl1doLnLa956mTuVmlHN52o,80075
 masster/study/load.py,sha256=7d11294YYEGrSKox3cwvetv2vqcstYT1SnyAhHH5V_Q,107706
 masster/study/merge.py,sha256=D9xNRlEaMPTPZQAZhiBBSzQ-27lD60fCDmKb0cYST-M,149764
 masster/study/parameters.py,sha256=bTvmcwX9INxzcrEAmTiFH8qeWVhwkvMTZjuP394pz5o,3279
-masster/study/plot.py,sha256=wg2X3P-0J6mW0N0dJS0dX6KLGtt9mXj6w1j3E9nvlvo,103086
-masster/study/processing.py,sha256=O6X7wgeq0kXSyMO12g23cqB8cYO60gLRMxuJC2uhSMY,58644
+masster/study/plot.py,sha256=LEIzoYiUyq1aswh-sw8S-ESvN2DaQKN5l22yLW8gZe8,107647
+masster/study/processing.py,sha256=n5208v-JQGq3bBP-ncgl2__hHWSQQYHx2fl4Mm0THdI,58538
 masster/study/save.py,sha256=47AP518epJJ9TjaGGyrLKsMsyjIk8_J4ka7bmsnRtFQ,9268
 masster/study/study.py,sha256=TnZkTLB8Z5R-AVqoHfUNvmkTthfUI4OPmBo_LYR_e8g,38654
 masster/study/study5_schema.json,sha256=0IZxM9VVI0TUlx74BPzJDT44kySi6NZZ6iLR0j8bU_s,7736
@@ -65,9 +65,9 @@ masster/study/defaults/study_def.py,sha256=h8dYbi9xv0sesCSQik49Z53IkskMmNtW6ixl7
 masster/wizard/README.md,sha256=mL1A3YWJZOefpJ6D0-HqGLkVRmUlOpwyVFdvJBeeoZM,14149
 masster/wizard/__init__.py,sha256=a2hcZnHASjfuw1lqZhZnvTR58rc33rRnoGAY_JfvGhI,683
 masster/wizard/example.py,sha256=xEZFTH9UZ8HKOm6s3JL8Js0Uw5ChnISWBHSZCL32vsM,7983
-masster/wizard/wizard.py,sha256=6VqeOyKJ-9n0376CVbNuQo4vKLFjE0Sl2KexWZclQew,38580
-masster-0.5.4.dist-info/METADATA,sha256=wjgydggoAm3JBUOi0PrJ1oPUgUTvB3qKZ1MorC8NBOE,45113
-masster-0.5.4.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-masster-0.5.4.dist-info/entry_points.txt,sha256=ZHguQ_vPmdbpqq2uGtmEOLJfgP-DQ1T0c07Lxh30wc8,58
-masster-0.5.4.dist-info/licenses/LICENSE,sha256=bx5iLIKjgAdYQ7sISn7DsfHRKkoCUm1154sJJKhgqnU,35184
-masster-0.5.4.dist-info/RECORD,,
+masster/wizard/wizard.py,sha256=UobIGFZtp1s_9WJlpl6DQ2-pp7flPQ6dlYZJqYE92OM,38131
+masster-0.5.5.dist-info/METADATA,sha256=ALpQYEYxgqYZ0XGZjcdXvgkEE_AKC0-KqepR1fwQ3hc,45113
+masster-0.5.5.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+masster-0.5.5.dist-info/entry_points.txt,sha256=ZHguQ_vPmdbpqq2uGtmEOLJfgP-DQ1T0c07Lxh30wc8,58
+masster-0.5.5.dist-info/licenses/LICENSE,sha256=bx5iLIKjgAdYQ7sISn7DsfHRKkoCUm1154sJJKhgqnU,35184
+masster-0.5.5.dist-info/RECORD,,

{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{masster-0.5.4.dist-info → masster-0.5.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

masster 0.5.4__py3-none-any.whl → 0.5.5__py3-none-any.whl

Potentially problematic release.

masster 0.5.4py3-none-any.whl → 0.5.5py3-none-any.whl