PyPI - geney - Versions diffs - 1.3.79__py2.py3-none-any.whl → 1.4.0__py2.py3-none-any.whl - Mend

geney 1.3.79py2.py3-none-any.whl → 1.4.0py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of geney might be problematic. Click here for more details.

Files changed (31) hide show

geney/Gene.py +9 -10
geney/Oncosplice.py +400 -0
geney/SpliceSimulator.py +407 -0
geney/Transcript.py +54 -56
geney/__init__.py +47 -19
geney/_config_setup.py +16 -0
geney/_graphic_utils.py +269 -0
geney/_gtex_utils.py +68 -0
geney/_immune_utils.py +125 -0
geney/{oncosplice.py → _oncosplice.py} +199 -156
geney/_splicing_utils.py +693 -0
geney/_survival_utils.py +143 -0
geney/_tcga_utils.py +405 -0
geney/_tis_utils.py +172 -0
geney/immune_utils.py +1 -1
geney/pipelines.py +66 -0
geney/power_utils.py +1 -1
geney/utils/Fasta_segment.py +260 -0
geney/utils/SeqMats.py +423 -0
geney/utils/TranscriptLibrary.py +55 -0
geney/utils/__init__.py +20 -0
geney/utils/mutation_utils.py +104 -0
geney/utils/pangolin_utils.py +173 -0
geney/utils/spliceai_utils.py +123 -0
geney/utils/splicing_utils.py +525 -0
geney/utils/utils.py +89 -0
{geney-1.3.79.dist-info → geney-1.4.0.dist-info}/METADATA +1 -1
geney-1.4.0.dist-info/RECORD +51 -0
{geney-1.3.79.dist-info → geney-1.4.0.dist-info}/WHEEL +1 -1
geney-1.3.79.dist-info/RECORD +0 -31
{geney-1.3.79.dist-info → geney-1.4.0.dist-info}/top_level.txt +0 -0

geney/{oncosplice.py → _oncosplice.py} RENAMED Viewed

@@ -1,22 +1,17 @@
 from Bio import pairwise2
 import re
-import hashlib
 from datetime import datetime
 from tqdm import tqdm
 import pandas as pd
 import numpy as np
-from .SeqMats import SeqMat, MutSeqMat
-from .splicing_utils import find_transcript_missplicing_seqs, develop_aberrant_splicing, Missplicing
+from geney.utils.SeqMats import MutSeqMat
+from ._splicing_utils import find_transcript_missplicing_seqs, develop_aberrant_splicing, Missplicing
 from .Gene import Gene
-import copy
-from . import config
-from .tis_utils import find_tis
-def short_hash_of_list(numbers, length=5):
-    encoded = repr(numbers).encode('utf-8')
-    full_hash = hashlib.sha256(encoded).hexdigest()
-    return full_hash[:length]
+##############################################################################################################################
+######################################## ONCOSPLICE CALCULATIONS #############################################################
+##############################################################################################################################
 def find_continuous_gaps(sequence):
     """Find continuous gap sequences in an alignment."""
@@ -221,6 +216,23 @@ def moving_average_conv(vector, window_size, factor=1):
     return np.convolve(vector, np.ones(window_size), mode='same') / window_size
+def oncosplice_score(reference_protein, variant_protein, conservation_vector, window_length=13):
+    alignment = get_logical_alignment(reference_protein, variant_protein)
+    deleted, inserted = find_indels_with_mismatches_as_deletions(alignment.seqA, alignment.seqB)
+    modified_positions = find_modified_positions(len(reference_protein), deleted, inserted)
+    temp_cons = np.convolve(conservation_vector * modified_positions,
+                            np.ones(window_length)) / window_length
+    percentile = (
+            sorted(conservation_vector).index(
+                next(x for x in sorted(conservation_vector) if x >= max(temp_cons))) / len(
+        conservation_vector))
+    return max(temp_cons), percentile
+##############################################################################################################################
+#################################### ANNOTATION FUNCTIONS ####################################################################
+##############################################################################################################################
 def find_splice_site_proximity(pos, transcript):
     for i, (ex_start, ex_end) in enumerate(transcript.exons):
         if min(ex_start, ex_end) <= pos <= max(ex_start, ex_end):
@@ -231,7 +243,6 @@ def find_splice_site_proximity(pos, transcript):
             return None, i + 1, abs(pos - in_end), abs(pos - in_start)
     return None, None, np.inf, np.inf
 def define_missplicing_events(ref, var):
     ref_introns, ref_exons = ref.introns, ref.exons
     var_introns, var_exons = var.introns, var.exons
@@ -300,149 +311,166 @@ def missense_effect(r, v):
                 nt_changes += f'{r.orf.seq[p:p+3]}{p}{v.orf.seq[p:p+3]},'
     return aa_changes, nt_changes
-# Annotating
-def OncospliceAnnotator(reference_transcript, variant_transcript, mut, ref_attributes=[], var_attributes=[]):
-    affected_exon, affected_intron, distance_from_5, distance_from_3 = find_splice_site_proximity(np.floor(mut.indices[0]),
-                                                                                                  reference_transcript)
-    report = {}
-    report['primary_transcript'] = reference_transcript.primary_transcript
-    report['transcript_id'] = reference_transcript.transcript_id
-    report['reference_protein'] = reference_transcript.protein
-    report['variant_protein'] = variant_transcript.protein
-    report['variant_protein_length'] = len(variant_transcript.protein)
-    descriptions = define_missplicing_events(reference_transcript, variant_transcript)
-    report['exon_changes'] = '|'.join([v for v in descriptions if v])
-    report['splicing_codes'] = summarize_missplicing_event(*descriptions)
-    report['affected_exon'] = affected_exon
-    report['affected_intron'] = affected_intron
-    report['mutation_distance_from_5'] = distance_from_5
-    report['mutation_distance_from_3'] = distance_from_3
-    aa_c, c_c = missense_effect(reference_transcript, variant_transcript)
-    report['missense_effect'] = aa_c
-    report['codon_change'] = c_c
-    return report
+def oncosplice_score(reference_protein, variant_protein, conservation_vector, window_length=13):
+    alignment = get_logical_alignment(reference_protein, variant_protein)
+    deleted, inserted = find_indels_with_mismatches_as_deletions(alignment.seqA, alignment.seqB)
+    modified_positions = find_modified_positions(len(reference_protein), deleted, inserted)
+    temp_cons = np.convolve(conservation_vector * modified_positions,
+                            np.ones(window_length)) / window_length
+    percentile = (
+            sorted(conservation_vector).index(
+                next(x for x in sorted(conservation_vector) if x >= max(temp_cons))) / len(
+        conservation_vector))
+    return max(temp_cons), percentile
-def oncosplice(mut_id, splicing_threshold=0.5, protein_coding=True, primary_transcript=False,
-               window_length=13, organism='hg38', splicing_engine=None, splicing_db=None, verbose=False,
-               tis_engine=None, target_transcripts=None):
-    gene = Gene.from_file(mut_id.split(':')[0], organism=organism)
-    reference_gene_proteins = {
-        transcript.generate_pre_mrna().generate_mature_mrna().generate_protein().protein: transcript.transcript_id for
-        transcript in gene if transcript.transcript_biotype == 'protein_coding'}
-    mutations = [MutSeqMat.from_mutid(m) for m in mut_id.split('|')]
-    if gene.rev:
-        mutations = [m.reverse_complement() for m in mutations[::-1]]
-    results = []
-    for reference_transcript in tqdm(gene, desc=f'Processing {mut_id}...'):
-        if target_transcripts is not None and reference_transcript.transcript_id not in target_transcripts:
-            continue
-        # if (cons_required and not reference_transcript.cons_available) or (
-        #         protein_coding and not reference_transcript.transcript_biotype == 'protein_coding'):
-        if protein_coding and not reference_transcript.transcript_biotype == 'protein_coding':
-            print("Not protein coding...")
-            continue
-        current_mutations = [m for m in mutations if m in reference_transcript]
-        if len(current_mutations) == 0:
-            print(f"No mutations within transcript ({reference_transcript.transcript_start} > {reference_transcript.transcript_end})...")
-            continue
-        center = np.mean([m.indices[0] for m in current_mutations]) // 1
-        mutated_transcript = reference_transcript.clone()
-        for mutation in current_mutations:
-            mutated_transcript.mutate(mutation, inplace=True)
-        reference_transcript.generate_mature_mrna().generate_protein()
-        if len(reference_transcript.protein) < window_length:
-            print(f"> Window length issue {reference_transcript.transcript_id}")
-            continue
-        reference_transcript.cons_vector = transform_conservation_vector(reference_transcript.cons_vector,
-                                                                         window=window_length)
-        assert len(reference_transcript.protein) == len(
-            reference_transcript.cons_vector), f"Protein ({len(reference_transcript.protein)}) and conservation vector ({len(reference_transcript.cons_vector)}) must be same length."
-        if splicing_engine is None:
-            missplicing = Missplicing()
-        else:
-            missplicing, no_splicing_record = None, True
-            if splicing_db is not None:
-                missplicing = Missplicing(splicing_db.get_mutation_data(engine=splicing_engine, mut_id=mut_id, gene=gene.gene_name, transcript_id=reference_transcript.transcript_id))
-                no_splicing_record = missplicing is None
-            if missplicing is None:
-                missplicing = find_transcript_missplicing_seqs(
-                    reference_transcript.pre_mrna.get_context(center, context=7500, padding='N'),
-                    mutated_transcript.pre_mrna.get_context(center, context=7500, padding='N'), reference_transcript.donors,
-                    reference_transcript.acceptors, threshold=splicing_threshold, engine=splicing_engine)
-                if no_splicing_record and splicing_db is not None:
-                    splicing_db.store_mutation_data(engine=splicing_engine, mut_id=mut_id, gene=gene.gene_name, transcript_id=reference_transcript.transcript_id, data=missplicing.missplicing)
-        alternative_splicing_paths = develop_aberrant_splicing(reference_transcript, missplicing) #.missplicing)
-        for i, new_boundaries in enumerate(alternative_splicing_paths):
-            print("iterating through new boundaries...")
-            mutated_transcript.acceptors = new_boundaries['acceptors']
-            mutated_transcript.donors = new_boundaries['donors']
-            mutated_transcript.generate_mature_mrna().generate_protein()
-            ### Experimental
-            # mutated_transcript.generate_mature_mrna()
-            # if tis_engine is None:
-            #     tis_candidates = [(mutated_transcript.tis, 1)]
-            # else:
-            #     from tis_utils import tis_predictor
-            #     tis_candidates = tis_predictor(mutated_transcript.mature_mrna)
-            #
-            # for tis_candidate, tis_score in tis_candidates:
-            #     mutated_transcript.generate_protein(tis_candidate)
-            ######
-            alignment = get_logical_alignment(reference_transcript.protein, mutated_transcript.protein)
-            deleted, inserted = find_indels_with_mismatches_as_deletions(alignment.seqA, alignment.seqB)
-            modified_positions = find_modified_positions(len(reference_transcript.protein), deleted, inserted)
-            temp_cons = np.convolve(reference_transcript.cons_vector * modified_positions,
-                                    np.ones(window_length)) / window_length
-            affected_cons_scores = max(temp_cons)
-            percentile = (
-                    sorted(reference_transcript.cons_vector).index(
-                        next(x for x in sorted(reference_transcript.cons_vector) if x >= affected_cons_scores)) / len(
-                reference_transcript.cons_vector))
-            report = OncospliceAnnotator(reference_transcript, mutated_transcript, current_mutations[0])
-            report['mut_id'] = mut_id
-            report['splicing_engine'] = splicing_engine if splicing_engine is not None else 'None'
-            # report['tis_engine'] = tis_engine if tis_engine is not None else 'None'
-            # report['tis_pos'] = tis_candidate
-            # report['tis_score'] = tis_score
-            report['oncosplice_score'] = affected_cons_scores
-            report['percentile'] = percentile
-            report['isoform_id'] = short_hash_of_list(mutated_transcript.exons)
-            report['isoform_prevalence'] = new_boundaries['path_weight']
-            report['full_missplicing'] = missplicing.aberrant_splicing
-            report['missplicing'] = missplicing.max_delta
-            report['reference_resemblance'] = reference_gene_proteins.get(mutated_transcript.protein, None)
-            results.append(report)
-    if len(results) == 0:
-        # print("Nothing...")
-        return pd.DataFrame()
-    return pd.DataFrame(results)[
-        ['mut_id', 'transcript_id', 'isoform_id', 'primary_transcript', 'missplicing', 'full_missplicing',
-         'exon_changes', 'splicing_codes', 'affected_exon', 'affected_intron', 'mutation_distance_from_5',
-         'mutation_distance_from_3', 'missense_effect', 'codon_change', 'missense_position', 'reference_resemblance',
-         'oncosplice_score', 'percentile', 'isoform_prevalence', 'reference_protein', 'variant_protein', 'splicing_engine']]
+# # Annotating
+# def OncospliceAnnotator(reference_transcript, variant_transcript, mut, ref_attributes=[], var_attributes=[]):
+#     affected_exon, affected_intron, distance_from_5, distance_from_3 = find_splice_site_proximity(np.floor(mut.indices[0]),
+#                                                                                                   reference_transcript)
+#
+#     report = {}
+#     report['primary_transcript'] = reference_transcript.primary_transcript
+#     report['transcript_id'] = reference_transcript.transcript_id
+#     report['reference_protein'] = reference_transcript.protein
+#     report['variant_protein'] = variant_transcript.protein
+#     report['variant_protein_length'] = len(variant_transcript.protein)
+#     descriptions = define_missplicing_events(reference_transcript, variant_transcript)
+#     report['exon_changes'] = '|'.join([v for v in descriptions if v])
+#     report['splicing_codes'] = summarize_missplicing_event(*descriptions)
+#     report['affected_exon'] = affected_exon
+#     report['affected_intron'] = affected_intron
+#     report['mutation_distance_from_5'] = distance_from_5
+#     report['mutation_distance_from_3'] = distance_from_3
+#     aa_c, c_c = missense_effect(reference_transcript, variant_transcript)
+#     report['missense_effect'] = aa_c
+#     report['codon_change'] = c_c
+#     return report
+#
+# ##############################################################################################################################
+# ######################################## ONCOSPLICE PIPELINES ################################################################
+# ##############################################################################################################################
+#
+# def oncosplice(mut_id, splicing_threshold=0.5, protein_coding=True, primary_transcript=False,
+#                window_length=13, organism='hg38', splicing_engine=None, splicing_db=None, verbose=False,
+#                tis_engine=None, target_transcripts=None):
+#
+#     gene = Gene.from_file(mut_id.split(':')[0], organism=organism)
+#     reference_gene_proteins = {
+#         transcript.generate_pre_mrna().generate_mature_mrna().generate_protein().protein: transcript.transcript_id for
+#         transcript in gene if transcript.transcript_biotype == 'protein_coding'}
+#
+#     mutations = [MutSeqMat.from_mutid(m) for m in mut_id.split('|')]
+#     if gene.rev:
+#         mutations = [m.reverse_complement() for m in mutations[::-1]]
+#
+#     results = []
+#     for reference_transcript in tqdm(gene, desc=f'Processing {mut_id}...'):
+#         if target_transcripts is not None and reference_transcript.transcript_id not in target_transcripts:
+#             continue
+#
+#         # if (cons_required and not reference_transcript.cons_available) or (
+#         #         protein_coding and not reference_transcript.transcript_biotype == 'protein_coding'):
+#         if protein_coding and not reference_transcript.transcript_biotype == 'protein_coding':
+#             print("Not protein coding...")
+#             continue
+#
+#         current_mutations = [m for m in mutations if m in reference_transcript]
+#         if len(current_mutations) == 0:
+#             print(f"No mutations within transcript ({reference_transcript.transcript_start} > {reference_transcript.transcript_end})...")
+#             continue
+#
+#         center = np.mean([m.indices[0] for m in current_mutations]) // 1
+#
+#         mutated_transcript = reference_transcript.clone()
+#
+#         for mutation in current_mutations:
+#             mutated_transcript.mutate(mutation, inplace=True)
+#
+#         reference_transcript.generate_mature_mrna().generate_protein()
+#
+#         if len(reference_transcript.protein) < window_length:
+#             print(f"> Window length issue {reference_transcript.transcript_id}")
+#             continue
+#
+#         reference_transcript.cons_vector = transform_conservation_vector(reference_transcript.cons_vector,
+#                                                                          window=window_length)
+#
+#         assert len(reference_transcript.protein) == len(
+#             reference_transcript.cons_vector), f"Protein ({len(reference_transcript.protein)}) and conservation vector ({len(reference_transcript.cons_vector)}) must be same length."
+#
+#         if splicing_engine is None:
+#             missplicing = Missplicing()
+#         else:
+#             missplicing, no_splicing_record = None, True
+#             if splicing_db is not None:
+#                 missplicing = Missplicing(splicing_db.get_mutation_data(engine=splicing_engine, mut_id=mut_id, gene=gene.gene_name, transcript_id=reference_transcript.transcript_id))
+#                 no_splicing_record = missplicing is None
+#
+#             if missplicing is None:
+#                 missplicing = find_transcript_missplicing_seqs(
+#                     reference_transcript.pre_mrna.get_context(center, context=7500, padding='N'),
+#                     mutated_transcript.pre_mrna.get_context(center, context=7500, padding='N'), reference_transcript.donors,
+#                     reference_transcript.acceptors, threshold=splicing_threshold, engine=splicing_engine)
+#                 if no_splicing_record and splicing_db is not None:
+#                     splicing_db.store_mutation_data(engine=splicing_engine, mut_id=mut_id, gene=gene.gene_name, transcript_id=reference_transcript.transcript_id, data=missplicing.missplicing)
+#
+#         alternative_splicing_paths = develop_aberrant_splicing(reference_transcript, missplicing) #.missplicing)
+#         for i, new_boundaries in enumerate(alternative_splicing_paths):
+#             print("iterating through new boundaries...")
+#
+#             mutated_transcript.acceptors = new_boundaries['acceptors']
+#             mutated_transcript.donors = new_boundaries['donors']
+#             mutated_transcript.generate_mature_mrna().generate_protein()
+#
+#             ### Experimental
+#             # mutated_transcript.generate_mature_mrna()
+#             # if tis_engine is None:
+#             #     tis_candidates = [(mutated_transcript.tis, 1)]
+#             # else:
+#             #     from tis_utils import tis_predictor
+#             #     tis_candidates = tis_predictor(mutated_transcript.mature_mrna)
+#             #
+#             # for tis_candidate, tis_score in tis_candidates:
+#             #     mutated_transcript.generate_protein(tis_candidate)
+#             ######
+#
+#             alignment = get_logical_alignment(reference_transcript.protein, mutated_transcript.protein)
+#             deleted, inserted = find_indels_with_mismatches_as_deletions(alignment.seqA, alignment.seqB)
+#             modified_positions = find_modified_positions(len(reference_transcript.protein), deleted, inserted)
+#             temp_cons = np.convolve(reference_transcript.cons_vector * modified_positions,
+#                                     np.ones(window_length)) / window_length
+#             affected_cons_scores = max(temp_cons)
+#             percentile = (
+#                     sorted(reference_transcript.cons_vector).index(
+#                         next(x for x in sorted(reference_transcript.cons_vector) if x >= affected_cons_scores)) / len(
+#                 reference_transcript.cons_vector))
+#
+#             report = OncospliceAnnotator(reference_transcript, mutated_transcript, current_mutations[0])
+#             report['mut_id'] = mut_id
+#             report['splicing_engine'] = splicing_engine if splicing_engine is not None else 'None'
+#             # report['tis_engine'] = tis_engine if tis_engine is not None else 'None'
+#             # report['tis_pos'] = tis_candidate
+#             # report['tis_score'] = tis_score
+#             report['oncosplice_score'] = affected_cons_scores
+#             report['percentile'] = percentile
+#             report['isoform_id'] = short_hash_of_list(mutated_transcript.exons)
+#             report['isoform_prevalence'] = new_boundaries['path_weight']
+#             report['full_missplicing'] = missplicing.aberrant_splicing
+#             report['missplicing'] = missplicing.max_delta
+#             report['reference_resemblance'] = reference_gene_proteins.get(mutated_transcript.protein, None)
+#             results.append(report)
+#
+#     if len(results) == 0:
+#         # print("Nothing...")
+#         return pd.DataFrame()
+#
+#     return pd.DataFrame(results)[
+#         ['mut_id', 'transcript_id', 'isoform_id', 'primary_transcript', 'missplicing', 'full_missplicing',
+#          'exon_changes', 'splicing_codes', 'affected_exon', 'affected_intron', 'mutation_distance_from_5',
+#          'mutation_distance_from_3', 'missense_effect', 'codon_change', 'missense_position', 'reference_resemblance',
+#          'oncosplice_score', 'percentile', 'isoform_prevalence', 'reference_protein', 'variant_protein', 'splicing_engine']]
 def process_splicing_path(new_boundaries, reference_transcript, mutated_transcript,
@@ -451,11 +479,23 @@ def process_splicing_path(new_boundaries, reference_transcript, mutated_transcri
     """
     Processes a single alternative splicing path and returns an annotation report.
     """
+    base_results = {'mut_id': mut_id,
+                    'transcript_id': transcript_id,
+                    'execution_time': start_time,
+                    'status': '',
+                    'splicing_engine': splicing_engine if splicing_engine is not None else 'None',
+                    'isoform_id': short_hash_of_list(mutated_transcript.exons),
+                    }
     # Update acceptors and donors
     mutated_transcript.acceptors = new_boundaries['acceptors']
     mutated_transcript.donors = new_boundaries['donors']
     mutated_transcript.generate_mature_mrna().generate_protein()
+    if len(mutated_transcript.protein) <= 1:
+        base_results['status'] = 'Variant protein not viable.'
+        return base_results
     # Align reference and mutated proteins
     alignment = get_logical_alignment(reference_transcript.protein, mutated_transcript.protein)
     deleted, inserted = find_indels_with_mismatches_as_deletions(alignment.seqA, alignment.seqB)
@@ -490,7 +530,7 @@ def process_splicing_path(new_boundaries, reference_transcript, mutated_transcri
     return report
-def oncosplice_df(row, splicing_threshold=0.5, window_length=13,
+def oncosplice(row, splicing_threshold=0.5, window_length=13,
                   organism='hg38', splicing_engine='spliceai'):
     """
     Process a given mutation-transcript pair to analyze alternative splicing events
@@ -512,7 +552,11 @@ def oncosplice_df(row, splicing_threshold=0.5, window_length=13,
     """
     start_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")  # Log function start time
-    mut_id, transcript_id = row.mut_id, row.transcript_id
+    mut_id = row.mut_id
+    if 'transcript_id' not in row:
+        transcript_id = None
+    else:
+        transcript_id = row.transcript_id
     # Default response template (to ensure all IDs are included)
     base_result = {
@@ -528,7 +572,7 @@ def oncosplice_df(row, splicing_threshold=0.5, window_length=13,
         base_result['status'] = 'Gene not found'
         return pd.DataFrame([base_result])
-    mutations = [MutSeqMat.from_mutid(m) for m in mut_id.split('|')]
+    # mutations = [MutSeqMat.from_mutid(m) for m in mut_id.split('|')]
     reference_transcript = gene.transcript(transcript_id)
     if reference_transcript is None:
@@ -548,7 +592,7 @@ def oncosplice_df(row, splicing_threshold=0.5, window_length=13,
         return pd.DataFrame([base_result])
     # Filter mutations relevant to this transcript
-    current_mutations = [m for m in mutations if m in reference_transcript]
+    current_mutations = [m for m in mut_id.split('|') if m in reference_transcript]
     if not current_mutations:
         base_result['status'] = 'No relevant mutations'
         return pd.DataFrame([base_result])
@@ -602,7 +646,6 @@ def oncosplice_df(row, splicing_threshold=0.5, window_length=13,
     ]
-#
 # import asyncio
 # async def oncosplice_prototype(mut_id, splicing_threshold=0.5, protein_coding=True, primary_transcript=False,
 #                                window_length=13, organism='hg38', engine='spliceai', use_cons=True, require_cons=False):

geney 1.3.79__py2.py3-none-any.whl → 1.4.0__py2.py3-none-any.whl

Potentially problematic release.

geney 1.3.79py2.py3-none-any.whl → 1.4.0py2.py3-none-any.whl