PyPI - offtracker - Versions diffs - 2.11.5__zip → 2.12.0__zip - Mend

offtracker 2.11.5zip → 2.12.0zip

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (31) hide show

{offtracker-2.11.5/offtracker.egg-info → offtracker-2.12.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: offtracker
-Version: 2.11.5
+Version: 2.12.0
 Summary: Tracking-seq data analysis
 Home-page: https://github.com/Lan-lab/offtracker
 Author: Runda Xu

{offtracker-2.11.5 → offtracker-2.12.0}/offtracker/X_offtracker.py RENAMED Viewed

@@ -1,5 +1,6 @@
 import pandas as pd
+import polars as pl
 import numpy as np
 import os, sys
 sys.path.append( os.path.abspath(os.path.dirname(__file__)) )
@@ -8,26 +9,65 @@ def fdr(p_vals):
     # Benjamini-Hochberg
     from scipy.stats import rankdata
     ranked_p_values = rankdata(p_vals)
-    fdr = p_vals * len(p_vals) / ranked_p_values
-    fdr[fdr > 1] = 1
-    return fdr
+    fdr_value = p_vals * len(p_vals) / ranked_p_values
+    fdr_value[fdr_value > 1] = 1
+    return fdr_value
-def dedup_two( df_loc, col_ID_1='ID_1', col_ID_2='ID_2'):
-    # 会根据 df_loc 的排序保留第一个 location
-    # dedup 结束后，剩下的 ID_1 + ID_2 并集可能会小于 dedup 前的并集
-    list_nondup = []
-    set_IDs = set()
-    df_IDs = df_loc[[col_ID_1,col_ID_2]]
-    for a_row in df_IDs.iterrows():
-        temp = a_row[1]
-        if (temp[col_ID_1] in set_IDs) or (temp[col_ID_2] in set_IDs):
-            # 只要有一ID出现过，即便另一ID没出现过，也不更新 set_IDs
-            list_nondup.append(False)
+def mark_regions_single_chr(dp, min_distance=1000):
+    unique_chr = dp['chr'].unique()
+    assert len(unique_chr) == 1
+    unique_chr = unique_chr[0]
+    # Initialize variables for marking regions
+    region_id = 1
+    current_start = None
+    current_end = None
+    marked_regions = []
+    for row in dp.iter_rows(named=True):
+        start, end = row['st'], row['ed']
+        if current_start is None:
+            # First region
+            current_start = start
+            current_end = end
+            marked_regions.append(f'{unique_chr}_region_{region_id}')
         else:
-            set_IDs.add(temp[col_ID_1])
-            set_IDs.add(temp[col_ID_2])
-            list_nondup.append(True)
-    return list_nondup
+            if start <= current_end + min_distance:
+                # Mark as the same region
+                marked_regions.append(f'{unique_chr}_region_{region_id}')
+            else:
+                # New region
+                region_id += 1
+                marked_regions.append(f'{unique_chr}_region_{region_id}')
+                current_start = start
+                current_end = end
+        current_end = max(current_end, end)
+    return dp.with_columns(region_index=pl.Series(marked_regions))
+# def dedup_two( df_loc, col_ID_1='ID_1', col_ID_2='ID_2'):
+#     # 会根据 df_loc 的排序保留第一个 location
+#     # dedup 结束后，剩下的 ID_1 + ID_2 并集可能会小于 dedup 前的并集
+#     list_nondup = []
+#     set_IDs = set()
+#     df_IDs = df_loc[[col_ID_1,col_ID_2]]
+#     for a_row in df_IDs.iterrows():
+#         temp = a_row[1]
+#         if (temp[col_ID_1] in set_IDs) or (temp[col_ID_2] in set_IDs):
+#             # 只要有一ID出现过，即便另一ID没出现过，也不更新 set_IDs
+#             list_nondup.append(False)
+#         else:
+#             set_IDs.add(temp[col_ID_1])
+#             set_IDs.add(temp[col_ID_2])
+#             list_nondup.append(True)
+#     return list_nondup
 def window_smooth(sr_smooth, window_size=3, times=1):
     window  = np.ones(window_size) / window_size

{offtracker-2.11.5 → offtracker-2.12.0}/offtracker/_version.py RENAMED Viewed

@@ -1,4 +1,4 @@
-__version__ = "2.11.5"
+__version__ = "2.12.0"
 # 2023.08.11. v1.1.0	adding a option for not normalizing the bw file
 # 2023.10.26. v1.9.0	prerelease for v2.0
 # 2023.10.27. v2.0.0	大更新，还没微调
@@ -40,3 +40,4 @@ __version__ = "2.11.5"
 # 2025.06.28. v2.10.11  回滚到2.10.9外加修正
 # 2025.07.02. v2.11.4   基于 blast 的缺陷更新 candidates，去除 quick mode
 # 2025.07.04. v2.11.5   offtracker_analysis 提前 skip 已有结果的样本
+# 2025.07.04. v2.12.0   新增 region_index 标记区域，用于更好的去重

{offtracker-2.11.5 → offtracker-2.12.0/offtracker.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: offtracker
-Version: 2.11.5
+Version: 2.12.0
 Summary: Tracking-seq data analysis
 Home-page: https://github.com/Lan-lab/offtracker
 Author: Runda Xu

{offtracker-2.11.5 → offtracker-2.12.0}/scripts/offtracker_analysis.py RENAMED Viewed

@@ -82,7 +82,7 @@ def main():
         df_candidate.index = df_candidate['target_location']
         df_candidate_brief = df_candidate[['chr','st','ed','best_strand','best_target','best_seq_score',
                                  'deletion', 'insertion','mismatch', 'GG',
-                                 'target_location', 'cleavage_site', 'ID_1','ID_2']]
+                                 'target_location', 'cleavage_site', 'ID_1','ID_2', 'region_index']] # 2025.07.06 添加 region_index
         df_candidate_sub = df_candidate[['chr','cleavage_site']]
     except FileNotFoundError:
         return 'Please run offtracker_candidates.py first and provide the correct directory with --seqfolder'
@@ -300,9 +300,12 @@ def main():
         df_score['raw_score'] = df_score['final_score_1'] + df_score['final_score_2']
         df_score = df_score.sort_values('raw_score', ascending=False)
-        # local dedup
-        list_nondup = offtracker.dedup_two(df_score,'ID_1','ID_2')
-        df_result = df_score[list_nondup].copy()
+        # # local dedup
+        # list_nondup = offtracker.dedup_two(df_score,'ID_1','ID_2')
+        # df_result = df_score[list_nondup].copy()
+        # 2025.07.06 更新去重方式
+        df_result = df_score.drop_duplicates(subset=['region_index'], keep='first')
         # 标准化分布
         target_std=0.15

{offtracker-2.11.5 → offtracker-2.12.0}/scripts/offtracker_candidates.py RENAMED Viewed

@@ -310,7 +310,18 @@ def main():
     df_candidate['mis_all'] = df_candidate[['mismatch','deletion','insertion']].sum(axis=1)
     df_candidate = df_candidate[df_candidate['mis_all']<8]
-    df_candidate.to_csv(dir_df_candidate)
+    # 2025.07.06 增加 region 标记用于去重
+    # 将 df_candidate 按照染色体分组
+    candidate_groups = df_candidate.groupby('chr')
+    # 定义一个空的列表，用于存储每个染色体的数据
+    list_dp = []
+    for chr_name, chr_candidate in candidate_groups:
+        dp_marked = offtracker.mark_regions_single_chr(pl.DataFrame(chr_candidate))
+        list_dp.append(dp_marked)
+    df_candidate = pl.concat(list_dp)
+    # 改成 pl 输出
+    df_candidate.write_csv(dir_df_candidate)
     print(f'Output df_candidate_{sgRNA_name}.csv')
     os.remove(temp_bed)