PyPI - spacr - Versions diffs - 0.3.50__py3-none-any.whl → 0.3.55__py3-none-any.whl - Mend

spacr 0.3.50py3-none-any.whl → 0.3.55py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

spacr/gui_elements.py +1 -1
spacr/gui_utils.py +4 -116
spacr/io.py +114 -140
spacr/measure.py +14 -12
spacr/ml.py +41 -32
spacr/plot.py +167 -307
spacr/sequencing.py +13 -9
spacr/settings.py +29 -39
spacr/submodules.py +19 -19
spacr/timelapse.py +16 -16
spacr/toxo.py +180 -1
spacr/utils.py +95 -164
{spacr-0.3.50.dist-info → spacr-0.3.55.dist-info}/METADATA +2 -1
{spacr-0.3.50.dist-info → spacr-0.3.55.dist-info}/RECORD +18 -18
{spacr-0.3.50.dist-info → spacr-0.3.55.dist-info}/LICENSE +0 -0
{spacr-0.3.50.dist-info → spacr-0.3.55.dist-info}/WHEEL +0 -0
{spacr-0.3.50.dist-info → spacr-0.3.55.dist-info}/entry_points.txt +0 -0
{spacr-0.3.50.dist-info → spacr-0.3.55.dist-info}/top_level.txt +0 -0

spacr/ml.py CHANGED Viewed

@@ -155,10 +155,6 @@ def process_model_coefficients(model, regression_type, X, y, nc, pc, controls):
     coef_df['condition'] = coef_df.apply(lambda row: 'nc' if nc in row['feature'] else 'pc' if pc in row['feature'] else ('control' if row['grna'] in controls else 'other'),axis=1)
     return coef_df[~coef_df['feature'].str.contains('row|column')]
 def check_distribution(y):
     """Check the type of distribution to recommend a model."""
     if np.all((y == 0) | (y == 1)):
@@ -288,7 +284,7 @@ def check_and_clean_data(df, dependent_variable):
     df = handle_missing_values(df, ['fraction', dependent_variable])
     # Step 2: Ensure grna, gene, plate, row, column, and prc are categorical types
-    df = ensure_valid_types(df, ['grna', 'gene', 'plate', 'row', 'column', 'prc'])
+    df = ensure_valid_types(df, ['grna', 'gene', 'plate', 'row_name', 'column', 'prc'])
     # Step 3: Check for multicollinearity in fraction and the dependent variable
     df_cleaned = check_collinearity(df, ['fraction', dependent_variable])
@@ -298,7 +294,7 @@ def check_and_clean_data(df, dependent_variable):
     df_cleaned['grna'] = df['grna']
     df_cleaned['prc'] = df['prc']
     df_cleaned['plate'] = df['plate']
-    df_cleaned['row'] = df['row']
+    df_cleaned['row_name'] = df['row_name']
     df_cleaned['column'] = df['column']
     # Create a new column 'gene_fraction' that sums the fractions by gene within the same well
@@ -337,7 +333,7 @@ def minimum_cell_simulation(settings, num_repeats=10, sample_size=100, tolerance
         df = pd.read_csv(score_data)
         df = correct_metadata_column_names(df)
         df['plate'] = f'plate{i + 1}'
-        df['prc'] = df['plate'] + '_' + df['row'].astype(str) + '_' + df['column'].astype(str)
+        df['prc'] = df['plate'] + '_' + df['row_name'].astype(str) + '_' + df['column'].astype(str)
         dfs.append(df)
     df = pd.concat(dfs, axis=0)
@@ -706,18 +702,16 @@ def perform_regression(settings):
     def _perform_regression_read_data(settings):
         if isinstance(settings['score_data'], list) and isinstance(settings['count_data'], list):
-            settings['plate'] = None
             if len(settings['score_data']) == 1:
-                settings['score_data'] = settings['score_data'][0]
-            if len(settings['count_data']) == 1:
-                settings['count_data'] = settings['count_data'][0]
+                count_data_df = pd.read_csv(settings['count_data'][0])
+                score_data_df = pd.read_csv(settings['score_data'][0])
             else:
                 count_data_df = pd.DataFrame()
                 for i, count_data in enumerate(settings['count_data']):
                     df = pd.read_csv(count_data)
                     df['plate_name'] = f'plate{i+1}'
                     if 'column' in df.columns:
-                        df['col'] = df['column']
+                        df['column_name'] = df['column']
                     count_data_df = pd.concat([count_data_df, df])
                     print('Count data:', len(count_data_df))
@@ -726,7 +720,7 @@ def perform_regression(settings):
                     df = pd.read_csv(score_data)
                     df['plate_name'] = f'plate{i+1}'
                     if 'column' in df.columns:
-                        df['col'] = df['column']
+                        df['column_name'] = df['column']
                     score_data_df = pd.concat([score_data_df, df])
                     print('Score data:', len(score_data_df))
         else:
@@ -806,9 +800,23 @@ def perform_regression(settings):
             return df, n_gene
         else:
             return df
     settings = get_perform_regression_default_settings(settings)
     count_data_df, score_data_df = _perform_regression_read_data(settings)
+    if "row_name" in count_data_df.columns:
+        num_parts = len(count_data_df['row_name'].iloc[0].split('_'))
+        if num_parts == 2:
+            split = count_data_df['row_name'].str.split('_', expand=True)
+            count_data_df['row_name'] = split[1]
+    if "prc" in score_data_df.columns:
+        num_parts = len(score_data_df['prc'].iloc[0].split('_'))
+        if num_parts == 3:
+            split = score_data_df['prc'].str.split('_', expand=True)
+            score_data_df['plate'] = settings['plate']
+            score_data_df['prc'] = score_data_df['plate'] + '_' + split[1] + '_' + split[2]
     results_path, results_path_gene, results_path_grna, hits_path, res_folder, csv_path = _perform_regression_set_paths(settings)
     save_settings(settings, name='regression', show=True)
@@ -849,7 +857,7 @@ def perform_regression(settings):
     merged_df.to_csv(data_path, index=False)
     print(f"Saved regression data to {data_path}")
-    merged_df[['plate', 'row', 'column']] = merged_df['prc'].str.split('_', expand=True)
+    merged_df[['plate', 'row_name', 'column']] = merged_df['prc'].str.split('_', expand=True)
     _ = plot_plates(merged_df, variable=orig_dv, grouping='mean', min_max='allq', cmap='viridis', min_count=None, dst=res_folder)
@@ -857,6 +865,7 @@ def perform_regression(settings):
     coef_df['grna'] = coef_df['feature'].apply(lambda x: re.search(r'grna\[(.*?)\]', x).group(1) if 'grna' in x else None)
     coef_df['gene'] = coef_df['feature'].apply(lambda x: re.search(r'gene\[(.*?)\]', x).group(1) if 'gene' in x else None)
     coef_df = coef_df.merge(n_grna, how='left', on='grna')
     coef_df = coef_df.merge(n_gene, how='left', on='gene')
@@ -903,7 +912,6 @@ def perform_regression(settings):
         save_summary_to_file(model, file_path=f'{res_folder}/mode_summary.csv')
     significant.to_csv(hits_path, index=False)
     significant_grna_filtered = significant[significant['n_grna'] > settings['min_n']]
     significant_gene_filtered = significant[significant['n_gene'] > settings['min_n']]
     significant_filtered = pd.concat([significant_grna_filtered, significant_gene_filtered])
@@ -928,8 +936,6 @@ def perform_regression(settings):
         base_dir = os.path.dirname(os.path.abspath(__file__))
         metadata_path = os.path.join(base_dir, 'resources', 'data', 'lopit.csv')
-        display(data_path)
         if settings['volcano'] == 'all':
             print('all')
             gene_list = custom_volcano_plot(data_path, metadata_path, metadata_column='tagm_location', point_size=600, figsize=20, threshold=reg_threshold, save_path=volcano_path, x_lim=settings['x_lim'],y_lims=settings['y_lims'])
@@ -982,14 +988,14 @@ def process_reads(csv_path, fraction_threshold, plate, filter_column=None, filte
         csv_df = csv_df.rename(columns={'plate_name': 'plate'})
     if 'column_name' in csv_df.columns:
         csv_df = csv_df.rename(columns={'column_name': 'column'})
-    if 'col' in csv_df.columns:
-        csv_df = csv_df.rename(columns={'col': 'column'})
+    if 'column_name' in csv_df.columns:
+        csv_df = csv_df.rename(columns={'column_name': 'column'})
     if 'row_name' in csv_df.columns:
-        csv_df = csv_df.rename(columns={'row_name': 'row'})
+        csv_df = csv_df.rename(columns={'row_name': 'row_name'})
     if 'grna_name' in csv_df.columns:
         csv_df = csv_df.rename(columns={'grna_name': 'grna'})
     if 'plate_row' in csv_df.columns:
-        csv_df[['plate', 'row']] = csv_df['plate_row'].str.split('_', expand=True)
+        csv_df[['plate', 'row_name']] = csv_df['plate_row'].str.split('_', expand=True)
     if not 'plate' in csv_df.columns:
         if not plate is None:
@@ -1009,11 +1015,11 @@ def process_reads(csv_path, fraction_threshold, plate, filter_column=None, filte
                 csv_df = csv_df[csv_df[filter_col] != value]
     # Ensure the necessary columns are present
-    if not all(col in csv_df.columns for col in ['row','column','grna','count']):
-        raise ValueError("The CSV file must contain 'grna', 'count', 'row', and 'column' columns.")
+    if not all(col in csv_df.columns for col in ['row_name','column','grna','count']):
+        raise ValueError("The CSV file must contain 'grna', 'count', 'row_name', and 'column' columns.")
     # Create the prc column
-    csv_df['prc'] = csv_df['plate'] + '_' + csv_df['row'] + '_' + csv_df['column']
+    csv_df['prc'] = csv_df['plate'] + '_' + csv_df['row_name'] + '_' + csv_df['column']
     # Group by prc and calculate the sum of counts
     grouped_df = csv_df.groupby('prc')['count'].sum().reset_index()
@@ -1075,7 +1081,7 @@ def clean_controls(df,values, column):
     return df
 def process_scores(df, dependent_variable, plate, min_cell_count=25, agg_type='mean', transform=None, regression_type='ols'):
     if 'plate_name' in df.columns:
         df.drop(columns=['plate'], inplace=True)
         df = df.rename(columns={'plate_name': 'plate'})
@@ -1083,11 +1089,14 @@ def process_scores(df, dependent_variable, plate, min_cell_count=25, agg_type='m
     if plate is not None:
         df['plate'] = plate
-    if 'col' not in df.columns:
-        df['col'] = df['column']
+    if 'column_name' not in df.columns:
+        df['column_name'] = df['column']
-    df['prc'] = df['plate'].astype(str) + '_' + df['row'].astype(str) + '_' + df['col'].astype(str)
+    df['prc'] = df['plate'].astype(str) + '_' + df['row_name'].astype(str) + '_' + df['column_name'].astype(str)
+    display(df)
     df = df[['prc', dependent_variable]]
     # Group by prc and calculate the mean and count of the dependent_variable
@@ -1257,7 +1266,7 @@ def generate_ml_scores(settings):
     return [output, plate_heatmap]
-def ml_analysis(df, channel_of_interest=3, location_column='col', positive_control='c2', negative_control='c1', exclude=None, n_repeats=10, top_features=30, n_estimators=100, test_size=0.2, model_type='xgboost', n_jobs=-1, remove_low_variance_features=True, remove_highly_correlated_features=True, verbose=False):
+def ml_analysis(df, channel_of_interest=3, location_column='column_name', positive_control='c2', negative_control='c1', exclude=None, n_repeats=10, top_features=30, n_estimators=100, test_size=0.2, model_type='xgboost', n_jobs=-1, remove_low_variance_features=True, remove_highly_correlated_features=True, verbose=False):
     """
     Calculates permutation importance for numerical features in the dataframe,
@@ -1403,8 +1412,8 @@ def ml_analysis(df, channel_of_interest=3, location_column='col', positive_contr
     df = _calculate_similarity(df, features, location_column, positive_control, negative_control)
     df['prcfo'] = df.index.astype(str)
-    df[['plate', 'row', 'col', 'field', 'object']] = df['prcfo'].str.split('_', expand=True)
-    df['prc'] = df['plate'] + '_' + df['row'] + '_' + df['col']
+    df[['plate', 'row_name', 'column_name', 'field', 'object']] = df['prcfo'].str.split('_', expand=True)
+    df['prc'] = df['plate'] + '_' + df['row_name'] + '_' + df['column_name']
     return [df, permutation_df, feature_importance_df, model, X_train, X_test, y_train, y_test, metrics_df], [permutation_fig, feature_importance_fig]

spacr 0.3.50__py3-none-any.whl → 0.3.55__py3-none-any.whl

spacr 0.3.50py3-none-any.whl → 0.3.55py3-none-any.whl