PyPI - treesak - Versions diffs - 1.51.2__py3-none-any.whl - Mend

treesak 1.51.2__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of treesak might be problematic. Click here for more details.

Files changed (125) hide show

TreeSAK/ALE.py +63 -0
TreeSAK/ALE1.py +268 -0
TreeSAK/ALE2.py +168 -0
TreeSAK/ALE2RTC.py +30 -0
TreeSAK/ALE3.py +205 -0
TreeSAK/ALE4.py +636 -0
TreeSAK/ALE5.py +210 -0
TreeSAK/ALE6.py +401 -0
TreeSAK/ALE7.py +126 -0
TreeSAK/ALE_backup.py +1081 -0
TreeSAK/AssessCVG.py +128 -0
TreeSAK/AssessMarker.py +306 -0
TreeSAK/AssessMarkerDeltaLL.py +257 -0
TreeSAK/AssessMarkerPA.py +317 -0
TreeSAK/AssessPB.py +130 -0
TreeSAK/BMGE.jar +0 -0
TreeSAK/BMGE.py +49 -0
TreeSAK/CompareMCMC.py +138 -0
TreeSAK/ConcateMSA.py +111 -0
TreeSAK/ConvertMSA.py +135 -0
TreeSAK/Dir.rb +82 -0
TreeSAK/ExtractMarkerSeq.py +263 -0
TreeSAK/FastRoot.py +1175 -0
TreeSAK/FastRoot_backup.py +1122 -0
TreeSAK/FigTree.py +34 -0
TreeSAK/GTDB_tree.py +76 -0
TreeSAK/GeneTree.py +142 -0
TreeSAK/KEGG_Luo17.py +807 -0
TreeSAK/LcaToLeaves.py +66 -0
TreeSAK/MarkerRef2Tree.py +616 -0
TreeSAK/MarkerRef2Tree_backup.py +628 -0
TreeSAK/MarkerSeq2Tree.py +290 -0
TreeSAK/MarkerSeq2Tree_backup.py +259 -0
TreeSAK/ModifyTopo.py +116 -0
TreeSAK/Newick_tree_plotter.py +79 -0
TreeSAK/OMA.py +170 -0
TreeSAK/OMA2.py +212 -0
TreeSAK/OneLineAln.py +50 -0
TreeSAK/PB.py +155 -0
TreeSAK/PMSF.py +106 -0
TreeSAK/PhyloBiAssoc.R +84 -0
TreeSAK/PhyloBiAssoc.py +167 -0
TreeSAK/PlotMCMC.py +41 -0
TreeSAK/PlotMcmcNode.py +152 -0
TreeSAK/PlotMcmcNode_old.py +252 -0
TreeSAK/RootTree.py +101 -0
TreeSAK/RootTreeGTDB214.py +288 -0
TreeSAK/RootTreeGTDB220.py +300 -0
TreeSAK/RootTreeGTDB226.py +300 -0
TreeSAK/SequentialDating.py +16 -0
TreeSAK/SingleAleHGT.py +157 -0
TreeSAK/SingleLinePhy.py +50 -0
TreeSAK/SliceMSA.py +142 -0
TreeSAK/SplitScore.py +19 -0
TreeSAK/SplitScore1.py +178 -0
TreeSAK/SplitScore1OMA.py +148 -0
TreeSAK/SplitScore2.py +597 -0
TreeSAK/TaxaCountStats.R +256 -0
TreeSAK/TaxonTree.py +47 -0
TreeSAK/TreeSAK_config.py +32 -0
TreeSAK/VERSION +158 -0
TreeSAK/VisHPD95.R +45 -0
TreeSAK/VisHPD95.py +200 -0
TreeSAK/__init__.py +0 -0
TreeSAK/ale_parser.py +74 -0
TreeSAK/ale_splitter.py +63 -0
TreeSAK/alignment_pruner.pl +1471 -0
TreeSAK/assessOG.py +45 -0
TreeSAK/catfasta2phy.py +140 -0
TreeSAK/cogTree.py +185 -0
TreeSAK/compare_trees.R +30 -0
TreeSAK/compare_trees.py +255 -0
TreeSAK/dating.py +264 -0
TreeSAK/dating_ss.py +361 -0
TreeSAK/deltall.py +82 -0
TreeSAK/do_rrtc.rb +464 -0
TreeSAK/fa2phy.py +42 -0
TreeSAK/format_leaf_name.py +70 -0
TreeSAK/gap_stats.py +38 -0
TreeSAK/get_SCG_tree.py +742 -0
TreeSAK/get_arCOG_seq.py +97 -0
TreeSAK/global_functions.py +222 -0
TreeSAK/gnm_leaves.py +43 -0
TreeSAK/iTOL.py +791 -0
TreeSAK/iTOL_gene_tree.py +80 -0
TreeSAK/itol_msa_stats.py +56 -0
TreeSAK/keep_highest_rrtc.py +37 -0
TreeSAK/koTree.py +194 -0
TreeSAK/label_tree.R +75 -0
TreeSAK/label_tree.py +121 -0
TreeSAK/mad.py +708 -0
TreeSAK/mcmc2tree.py +58 -0
TreeSAK/mcmcTC copy.py +92 -0
TreeSAK/mcmcTC.py +104 -0
TreeSAK/mcmctree_vs_reltime.R +44 -0
TreeSAK/mcmctree_vs_reltime.py +252 -0
TreeSAK/merge_pdf.py +32 -0
TreeSAK/pRTC.py +56 -0
TreeSAK/parse_mcmctree.py +198 -0
TreeSAK/parse_reltime.py +141 -0
TreeSAK/phy2fa.py +37 -0
TreeSAK/plot_distruibution_th.py +165 -0
TreeSAK/prep_mcmctree_ctl.py +92 -0
TreeSAK/print_leaves.py +32 -0
TreeSAK/pruneMSA.py +63 -0
TreeSAK/recode.py +73 -0
TreeSAK/remove_bias.R +112 -0
TreeSAK/rename_leaves.py +77 -0
TreeSAK/replace_clade.py +55 -0
TreeSAK/root_with_out_group.py +84 -0
TreeSAK/run_TaxaCountStats_R_s1.py +455 -0
TreeSAK/subsample_drep_gnms.py +74 -0
TreeSAK/subset.py +69 -0
TreeSAK/subset_tree_stupid_old_way.py +193 -0
TreeSAK/supertree.py +330 -0
TreeSAK/tmp_1.py +19 -0
TreeSAK/tmp_2.py +19 -0
TreeSAK/tmp_3.py +120 -0
TreeSAK/weighted_rand.rb +23 -0
treesak-1.51.2.data/scripts/TreeSAK +950 -0
treesak-1.51.2.dist-info/LICENSE +674 -0
treesak-1.51.2.dist-info/METADATA +27 -0
treesak-1.51.2.dist-info/RECORD +125 -0
treesak-1.51.2.dist-info/WHEEL +5 -0
treesak-1.51.2.dist-info/top_level.txt +1 -0

TreeSAK/MarkerSeq2Tree.py ADDED Viewed

@@ -0,0 +1,290 @@
+import os
+import glob
+import argparse
+from Bio import SeqIO
+from Bio import AlignIO
+from distutils.spawn import find_executable
+MarkerSeq2Tree_usage = '''
+======================== MarkerSeq2Tree example commands ========================
+Dependencies: mafft, trimal, bmge, perl and iqtree2
+TreeSAK MarkerSeq2Tree -i best_25 -x fa -o op_dir -t 12 -f -bmge -prune 10,20,30
+=================================================================================
+'''
+def sep_path_basename_ext(file_in):
+    f_path, file_name = os.path.split(file_in)
+    if f_path == '':
+        f_path = '.'
+    f_base, f_ext = os.path.splitext(file_name)
+    return f_path, f_base, f_ext
+def catfasta2phy(msa_dir, msa_ext, concatenated_msa_phy, partition_file):
+    concatenated_msa_fasta = '%s.fasta' % concatenated_msa_phy
+    msa_file_re            = '%s/*.%s'  % (msa_dir, msa_ext)
+    msa_file_list          = [os.path.basename(file_name) for file_name in glob.glob(msa_file_re)]
+    msa_file_list_sorted   = sorted(msa_file_list)
+    complete_gnm_set = set()
+    for each_msa_file in msa_file_list:
+        pwd_msa = '%s/%s' % (msa_dir, each_msa_file)
+        for each_seq in SeqIO.parse(pwd_msa, 'fasta'):
+            complete_gnm_set.add(each_seq.id)
+    complete_gnm_list_sorted = sorted([i for i in complete_gnm_set])
+    # initialize concatenated msa dict
+    gnm_to_seq_dict = {i: '' for i in complete_gnm_list_sorted}
+    msa_len_dict = dict()
+    for each_msa_file in msa_file_list_sorted:
+        gene_id = each_msa_file.split('.' + msa_ext)[0]
+        # read in msa
+        current_msa_len = 0
+        current_msa_len_set = set()
+        pwd_current_msa = '%s/%s' % (msa_dir, each_msa_file)
+        current_msa_seq_dict = dict()
+        for each_seq in SeqIO.parse(pwd_current_msa, 'fasta'):
+            complete_gnm_set.add(each_seq.id)
+            current_msa_seq_dict[each_seq.id] = str(each_seq.seq)
+            current_msa_len_set.add(len(each_seq.seq))
+            current_msa_len = len(each_seq.seq)
+        if len(current_msa_len_set) != 1:
+            print('Sequences with different length were found in %s, program exited!' % each_msa_file)
+            exit()
+        msa_len_dict[gene_id] = current_msa_len
+        # add sequence to concatenated msa dict
+        for each_gnm in complete_gnm_list_sorted:
+            msa_seq = current_msa_seq_dict.get(each_gnm, current_msa_len*'-')
+            gnm_to_seq_dict[each_gnm] += msa_seq
+    # write out concatenated msa
+    concatenated_msa_handle = open(concatenated_msa_fasta, 'w')
+    for each_gnm in complete_gnm_list_sorted:
+        concatenated_msa_handle.write('>%s\n' % each_gnm)
+        concatenated_msa_handle.write('%s\n' % gnm_to_seq_dict[each_gnm])
+    concatenated_msa_handle.close()
+    # write out partition file
+    end_pos = 0
+    partition_file_handle = open(partition_file, 'w')
+    for each_m in msa_file_list_sorted:
+        gene_id = each_m.split('.' + msa_ext)[0]
+        current_m_len = msa_len_dict[gene_id]
+        partition_file_handle.write('%s = %s-%s\n' % (each_m, (end_pos + 1), (end_pos + current_m_len)))
+        end_pos += current_m_len
+    partition_file_handle.close()
+    # convert msa in fasta to phy
+    AlignIO.convert(concatenated_msa_fasta, 'fasta', concatenated_msa_phy, 'phylip-relaxed')
+def get_gap_stats(msa_in_fa, stats_txt):
+    gap_pct_dict = dict()
+    for each_seq in SeqIO.parse(msa_in_fa, 'fasta'):
+        seq_id = each_seq.id
+        seq_str = str(each_seq.seq)
+        gap_pct = seq_str.count('-')*100/len(seq_str)
+        gap_pct = float("{0:.2f}".format(gap_pct))
+        gap_pct_dict[seq_id] = gap_pct
+    gap_pct_sorted = sorted(gap_pct_dict.items(), key=lambda x:x[1])
+    stats_txt_handle = open(stats_txt, 'w')
+    stats_txt_handle.write('Sequence\tGap\n')
+    for each_seq in gap_pct_sorted:
+        stats_txt_handle.write('%s\t%s\n' % (each_seq[0], each_seq[1]))
+    stats_txt_handle.close()
+def BMGE(msa_in, op_prefix, trim_model, entropy_score_cutoff):
+    # define file name
+    msa_out_phylip = '%s.BMGE.phylip' % op_prefix
+    msa_out_fasta  = '%s.BMGE.fasta'  % op_prefix
+    msa_out_nexus  = '%s.BMGE.nexus'  % op_prefix
+    msa_out_html   = '%s.BMGE.html'   % op_prefix
+    # specify path to BMGE.jar
+    current_file_path   = '/'.join(os.path.realpath(__file__).split('/')[:-1])
+    pwd_bmge_jar        = '%s/BMGE.jar' % current_file_path
+    # run BMGE
+    bmge_cmd = 'java -jar %s -i %s -m %s -t AA -h %s -op %s -of %s -on %s -oh %s' % (pwd_bmge_jar, msa_in, trim_model, entropy_score_cutoff, msa_out_phylip, msa_out_fasta, msa_out_nexus, msa_out_html)
+    print('Running %s' % bmge_cmd)
+    os.system(bmge_cmd)
+def pruneMSA(msa_in, conserved_cutoffs):
+    msa_path, msa_base, msa_ext = sep_path_basename_ext(msa_in)
+    current_file_path   = '/'.join(os.path.realpath(__file__).split('/')[:-1])
+    alignment_pruner_pl = '%s/alignment_pruner.pl'  % current_file_path
+    cutoff_list         = conserved_cutoffs.split(',')
+    op_file_list = []
+    for each_cutoff in cutoff_list:
+        cutoff_formatted = str(float(each_cutoff)/100).replace('0.', '.')
+        current_msa_out = '%s/%s.pruner%s%s' % (msa_path, msa_base, each_cutoff, msa_ext)
+        perl_cmd            = 'perl %s --file %s --conserved_threshold %s > %s' % (alignment_pruner_pl,   msa_in, cutoff_formatted, current_msa_out)
+        perl_cmd_for_report = 'perl %s --file %s --conserved_threshold %s > %s' % ('alignment_pruner.pl', msa_in, cutoff_formatted, current_msa_out)
+        op_file_list.append(current_msa_out)
+        print(perl_cmd_for_report)
+        os.system(perl_cmd)
+    # report
+    print('Pruned MSA exported to:')
+    print('\n'.join(op_file_list))
+def MarkerSeq2Tree(args):
+    marker_seq_dir              = args['i']
+    marker_seq_ext              = args['x']
+    op_dir                      = args['o']
+    num_of_threads              = args['t']
+    run_bmge                    = args['bmge']
+    trim_with_bmge              = args['bmge']
+    bmge_trim_model             = args['bmge_m']
+    bmge_entropy_score_cutoff   = args['bmge_esc']
+    force_overwrite             = args['f']
+    alignment_pruner_cutoffs    = args['prune']
+    # specify path to BMGE.jar
+    current_file_path = '/'.join(os.path.realpath(__file__).split('/')[:-1])
+    pwd_bmge_jar      = '%s/BMGE.jar' % current_file_path
+    # check dependencies
+    not_detected_programs = []
+    for needed_program in ['mafft-einsi', 'trimal', 'iqtree2']:
+        if find_executable(needed_program) is None:
+            not_detected_programs.append(needed_program)
+    if not_detected_programs != []:
+        print('%s not detected, program exited!' % ', '.join(not_detected_programs))
+        exit()
+    # get marker id set
+    marker_seq_re   = '%s/*.%s' % (marker_seq_dir, marker_seq_ext)
+    marker_seq_list = sorted(glob.glob(marker_seq_re))
+    # define output dir
+    renamed_marker_seq_dir              = '%s/renamed_markers'                      % op_dir
+    renamed_marker_aln_dir              = '%s/renamed_markers_aln'                  % op_dir
+    if trim_with_bmge is False:
+        cmds_2_trim_txt                 = '%s/cmds_2_trimal.txt'                    % op_dir
+        renamed_marker_aln_dir_trimmed  = '%s/renamed_markers_aln_trimal'           % op_dir
+    else:
+        cmds_2_trim_txt                 = '%s/cmds_2_BMGE.txt'                      % op_dir
+        renamed_marker_aln_dir_trimmed  = '%s/renamed_markers_aln_BMGE'             % op_dir
+    concatenated_phy                    = '%s/concatenated.phy'                     % op_dir
+    concatenated_phy_fasta              = '%s/concatenated.phy.fasta'               % op_dir
+    concatenated_phy_partition          = '%s/concatenated_partition.txt'           % op_dir
+    iqtree_dir                          = '%s/iqtree_wd'                            % op_dir
+    cmds_1_mafft_txt                    = '%s/cmds_1_mafft.txt'                     % op_dir
+    cmds_3_iqtree_txt                   = '%s/cmds_3_iqtree2.txt'                   % op_dir
+    pwd_guide_tree                      = '%s/iqtree_wd/guide_tree.treefile'        % op_dir
+    # create output folder
+    if os.path.isdir(op_dir) is True:
+        if force_overwrite is True:
+            os.system('rm -r %s' % op_dir)
+        else:
+            print('%s exist, program exited!' % op_dir)
+            exit()
+    os.mkdir(op_dir)
+    os.mkdir(renamed_marker_seq_dir)
+    os.mkdir(renamed_marker_aln_dir)
+    os.mkdir(renamed_marker_aln_dir_trimmed)
+    # write out best hits and extract sequences
+    for marker_seq_file in marker_seq_list:
+        f_path, f_base, f_ext = sep_path_basename_ext(marker_seq_file)
+        pwd_renamed_marker_seq          = '%s/%s.%s'  % (renamed_marker_seq_dir, f_base, marker_seq_ext)
+        pwd_renamed_marker_aln          = '%s/%s.aln' % (renamed_marker_aln_dir, f_base)
+        pwd_renamed_marker_aln_trimmed  = '%s/%s.aln' % (renamed_marker_aln_dir_trimmed, f_base)
+        # rename sequences
+        marker_hits_seq_renamed_handle = open(pwd_renamed_marker_seq, 'w')
+        for each_seq in SeqIO.parse(marker_seq_file, 'fasta'):
+            seq_id = each_seq.id
+            seq_gnm = '_'.join(seq_id.split('_')[:-1])
+            marker_hits_seq_renamed_handle.write('>%s\n' % seq_gnm)
+            marker_hits_seq_renamed_handle.write('%s\n' % str(each_seq.seq))
+        marker_hits_seq_renamed_handle.close()
+        # align
+        mafft_cmd  = 'mafft-einsi --thread %s --quiet %s > %s'          % (num_of_threads, pwd_renamed_marker_seq, pwd_renamed_marker_aln)
+        # trim
+        trim_cmd = 'trimal -in %s -out %s -automated1'                  % (pwd_renamed_marker_aln, pwd_renamed_marker_aln_trimmed)
+        if trim_with_bmge is True:
+            trim_cmd = 'java -jar %s -i %s -m %s -t AA -h %s -of %s'    % (pwd_bmge_jar, pwd_renamed_marker_aln, bmge_trim_model, bmge_entropy_score_cutoff, pwd_renamed_marker_aln_trimmed)
+        # write out mafft cmds
+        with open(cmds_1_mafft_txt, 'a') as cmds_1_mafft_txt_handle:
+            cmds_1_mafft_txt_handle.write(mafft_cmd + '\n')
+        # write out trimal cmds
+        with open(cmds_2_trim_txt, 'a') as cmds_2_trim_txt_handle:
+            cmds_2_trim_txt_handle.write(trim_cmd + '\n')
+        # run cmds
+        os.system(mafft_cmd)
+        os.system(trim_cmd)
+    # concatenate alignments
+    catfasta2phy(renamed_marker_aln_dir_trimmed, 'aln', concatenated_phy, concatenated_phy_partition)
+    # run iqtree2
+    os.mkdir(iqtree_dir)
+    get_guide_tree_cmd  = 'iqtree2 --seqtype AA -T %s -B 1000 --alrt 1000 --quiet -s %s --prefix %s/guide_tree -m LG '                  % (num_of_threads, concatenated_phy, iqtree_dir, )
+    get_c60_tree_cmd    = 'iqtree2 --seqtype AA -T %s -B 1000 --alrt 1000 --quiet -s %s --prefix %s/concatenated -m LG+C60+G+F -ft %s'  % (num_of_threads, concatenated_phy, iqtree_dir, pwd_guide_tree)
+    # write out iqtree2 cmds
+    with open(cmds_3_iqtree_txt, 'a') as cmds_3_iqtree_txt_handle:
+        cmds_3_iqtree_txt_handle.write(get_guide_tree_cmd + '\n')
+        cmds_3_iqtree_txt_handle.write(get_c60_tree_cmd + '\n')
+    # run alignment_pruner.pl
+    if alignment_pruner_cutoffs is not None:
+        pruneMSA(concatenated_phy_fasta, alignment_pruner_cutoffs)
+    # run cmds
+    print('Running iqtree')
+    # os.system(get_guide_tree_cmd)
+    # os.system(get_c60_tree_cmd)
+    print('You may want to submit the following commands to infer tree')
+    print('To be added...')
+    print('Done!')
+if __name__ == '__main__':
+    MarkerSeq2Tree_parser = argparse.ArgumentParser()
+    MarkerSeq2Tree_parser.add_argument('-i',           required=True,                          help='marker seq dir')
+    MarkerSeq2Tree_parser.add_argument('-x',           required=True,                          help='marker seq ext')
+    MarkerSeq2Tree_parser.add_argument('-o',           required=True,                          help='output dir')
+    MarkerSeq2Tree_parser.add_argument('-t',           required=False, type=int, default=1,    help='num of threads')
+    MarkerSeq2Tree_parser.add_argument('-bmge',        required=False, action="store_true",    help='perform BMGE trimming on concatenated MSA')
+    MarkerSeq2Tree_parser.add_argument('-bmge_m',      required=False, default='BLOSUM30',     help='BMGE trim model, default: BLOSUM30')
+    MarkerSeq2Tree_parser.add_argument('-bmge_esc',    required=False, default='0.55',         help='BMGE entropy score cutoff, default: 0.55')
+    MarkerSeq2Tree_parser.add_argument('-prune',       required=False, default=None,           help='conservation cutoffs for alignment_pruner.pl')
+    MarkerSeq2Tree_parser.add_argument('-f',           required=False, action="store_true",    help='force overwrite')
+    args = vars(MarkerSeq2Tree_parser.parse_args())
+    MarkerSeq2Tree(args)

TreeSAK/MarkerSeq2Tree_backup.py ADDED Viewed

@@ -0,0 +1,259 @@
+import os
+import glob
+import argparse
+from Bio import SeqIO
+from Bio import AlignIO
+from distutils.spawn import find_executable
+MarkerSeq2Tree_usage = '''
+================= MarkerSeq2Tree example commands =================
+Dependencies: mafft, trimal, bmge and iqtree2
+TreeSAK MarkerSeq2Tree -i best_25 -x fa -o op_dir -t 12 -f -bmge
+===================================================================
+'''
+def sep_path_basename_ext(file_in):
+    # separate path and file name
+    f_path, file_name = os.path.split(file_in)
+    if f_path == '':
+        f_path = '.'
+    # separate file basename and extension
+    f_base, f_ext = os.path.splitext(file_name)
+    return f_path, f_base, f_ext
+def catfasta2phy(msa_dir, msa_ext, concatenated_msa_phy, partition_file):
+    concatenated_msa_fasta = '%s.fasta' % concatenated_msa_phy
+    msa_file_re            = '%s/*.%s'  % (msa_dir, msa_ext)
+    msa_file_list          = [os.path.basename(file_name) for file_name in glob.glob(msa_file_re)]
+    msa_file_list_sorted   = sorted(msa_file_list)
+    complete_gnm_set = set()
+    for each_msa_file in msa_file_list:
+        pwd_msa = '%s/%s' % (msa_dir, each_msa_file)
+        for each_seq in SeqIO.parse(pwd_msa, 'fasta'):
+            complete_gnm_set.add(each_seq.id)
+    complete_gnm_list_sorted = sorted([i for i in complete_gnm_set])
+    # initialize concatenated msa dict
+    gnm_to_seq_dict = {i: '' for i in complete_gnm_list_sorted}
+    msa_len_dict = dict()
+    for each_msa_file in msa_file_list_sorted:
+        gene_id = each_msa_file.split('.' + msa_ext)[0]
+        # read in msa
+        current_msa_len = 0
+        current_msa_len_set = set()
+        pwd_current_msa = '%s/%s' % (msa_dir, each_msa_file)
+        current_msa_seq_dict = dict()
+        for each_seq in SeqIO.parse(pwd_current_msa, 'fasta'):
+            complete_gnm_set.add(each_seq.id)
+            current_msa_seq_dict[each_seq.id] = str(each_seq.seq)
+            current_msa_len_set.add(len(each_seq.seq))
+            current_msa_len = len(each_seq.seq)
+        if len(current_msa_len_set) != 1:
+            print('Sequences with different length were found in %s, program exited!' % each_msa_file)
+            exit()
+        msa_len_dict[gene_id] = current_msa_len
+        # add sequence to concatenated msa dict
+        for each_gnm in complete_gnm_list_sorted:
+            msa_seq = current_msa_seq_dict.get(each_gnm, current_msa_len*'-')
+            gnm_to_seq_dict[each_gnm] += msa_seq
+    # write out concatenated msa
+    concatenated_msa_handle = open(concatenated_msa_fasta, 'w')
+    for each_gnm in complete_gnm_list_sorted:
+        concatenated_msa_handle.write('>%s\n' % each_gnm)
+        concatenated_msa_handle.write('%s\n' % gnm_to_seq_dict[each_gnm])
+    concatenated_msa_handle.close()
+    # write out partition file
+    end_pos = 0
+    partition_file_handle = open(partition_file, 'w')
+    for each_m in msa_file_list_sorted:
+        gene_id = each_m.split('.' + msa_ext)[0]
+        current_m_len = msa_len_dict[gene_id]
+        partition_file_handle.write('%s = %s-%s\n' % (each_m, (end_pos + 1), (end_pos + current_m_len)))
+        end_pos += current_m_len
+    partition_file_handle.close()
+    # convert msa in fasta to phy
+    AlignIO.convert(concatenated_msa_fasta, 'fasta', concatenated_msa_phy, 'phylip-relaxed')
+def get_gap_stats(msa_in_fa, stats_txt):
+    gap_pct_dict = dict()
+    for each_seq in SeqIO.parse(msa_in_fa, 'fasta'):
+        seq_id = each_seq.id
+        seq_str = str(each_seq.seq)
+        gap_pct = seq_str.count('-')*100/len(seq_str)
+        gap_pct = float("{0:.2f}".format(gap_pct))
+        gap_pct_dict[seq_id] = gap_pct
+    gap_pct_sorted = sorted(gap_pct_dict.items(), key=lambda x:x[1])
+    stats_txt_handle = open(stats_txt, 'w')
+    stats_txt_handle.write('Sequence\tGap\n')
+    for each_seq in gap_pct_sorted:
+        stats_txt_handle.write('%s\t%s\n' % (each_seq[0], each_seq[1]))
+    stats_txt_handle.close()
+def BMGE(msa_in, op_prefix, trim_model, entropy_score_cutoff):
+    # define file name
+    msa_out_phylip = '%s.BMGE.phylip' % op_prefix
+    msa_out_fasta  = '%s.BMGE.fasta'  % op_prefix
+    msa_out_nexus  = '%s.BMGE.nexus'  % op_prefix
+    msa_out_html   = '%s.BMGE.html'   % op_prefix
+    # specify path to BMGE.jar
+    current_file_path   = '/'.join(os.path.realpath(__file__).split('/')[:-1])
+    pwd_bmge_jar        = '%s/BMGE.jar' % current_file_path
+    # run BMGE
+    bmge_cmd = 'java -jar %s -i %s -m %s -t AA -h %s -op %s -of %s -on %s -oh %s' % (pwd_bmge_jar, msa_in, trim_model, entropy_score_cutoff, msa_out_phylip, msa_out_fasta, msa_out_nexus, msa_out_html)
+    print('Running %s' % bmge_cmd)
+    os.system(bmge_cmd)
+def MarkerSeq2Tree(args):
+    marker_seq_dir              = args['i']
+    marker_seq_ext              = args['x']
+    op_dir                      = args['o']
+    num_of_threads              = args['t']
+    run_bmge                    = args['bmge']
+    bmge_trim_model             = args['bmge_m']
+    bmge_entropy_score_cutoff   = args['bmge_esc']
+    force_overwrite             = args['f']
+    # check dependencies
+    not_detected_programs = []
+    for needed_program in ['mafft-einsi', 'trimal', 'iqtree2']:
+        if find_executable(needed_program) is None:
+            not_detected_programs.append(needed_program)
+    if not_detected_programs != []:
+        print('%s not detected, program exited!' % ', '.join(not_detected_programs))
+        exit()
+    # get marker id set
+    marker_seq_re   = '%s/*.%s' % (marker_seq_dir, marker_seq_ext)
+    marker_seq_list = sorted(glob.glob(marker_seq_re))
+    # define output dir
+    renamed_marker_seq_dir              = '%s/renamed_markers'                      % op_dir
+    renamed_marker_aln_dir              = '%s/renamed_markers_aln'                  % op_dir
+    renamed_marker_aln_dir_trimmed      = '%s/renamed_markers_aln_trimmed'          % op_dir
+    concatenated_phy                    = '%s/concatenated.phy'                     % op_dir
+    concatenated_phy_fasta              = '%s/concatenated.phy.fasta'               % op_dir
+    concatenated_phy_fasta_bmge         = '%s/concatenated.BMGE.fasta'              % op_dir
+    concatenated_phy_partition          = '%s/concatenated_partition.txt'           % op_dir
+    bmge_op_prefix                      = '%s/concatenated'                         % op_dir
+    iqtree_dir                          = '%s/iqtree_wd'                            % op_dir
+    cmds_1_mafft_txt                    = '%s/cmds_1_mafft.txt'                     % op_dir
+    cmds_2_trimal_txt                   = '%s/cmds_2_trimal.txt'                    % op_dir
+    cmds_3_iqtree_txt                   = '%s/cmds_3_iqtree2.txt'                   % op_dir
+    pwd_guide_tree                      = '%s/iqtree_wd/guide_tree.treefile'        % op_dir
+    # create output folder
+    if os.path.isdir(op_dir) is True:
+        if force_overwrite is True:
+            os.system('rm -r %s' % op_dir)
+        else:
+            print('%s exist, program exited!' % op_dir)
+            exit()
+    os.mkdir(op_dir)
+    os.mkdir(renamed_marker_seq_dir)
+    os.mkdir(renamed_marker_aln_dir)
+    os.mkdir(renamed_marker_aln_dir_trimmed)
+    # write out best hits and extract sequences
+    for marker_seq_file in marker_seq_list:
+        f_path, f_base, f_ext = sep_path_basename_ext(marker_seq_file)
+        pwd_renamed_marker_seq          = '%s/%s.%s'  % (renamed_marker_seq_dir, f_base, marker_seq_ext)
+        pwd_renamed_marker_aln          = '%s/%s.aln' % (renamed_marker_aln_dir, f_base)
+        pwd_renamed_marker_aln_trimmed  = '%s/%s.aln' % (renamed_marker_aln_dir_trimmed, f_base)
+        # rename sequences
+        marker_hits_seq_renamed_handle = open(pwd_renamed_marker_seq, 'w')
+        for each_seq in SeqIO.parse(marker_seq_file, 'fasta'):
+            seq_id = each_seq.id
+            seq_gnm = '_'.join(seq_id.split('_')[:-1])
+            marker_hits_seq_renamed_handle.write('>%s\n' % seq_gnm)
+            marker_hits_seq_renamed_handle.write('%s\n' % str(each_seq.seq))
+        marker_hits_seq_renamed_handle.close()
+        # align and trim
+        mafft_cmd  = 'mafft-einsi --thread %s --quiet %s > %s' % (num_of_threads, pwd_renamed_marker_seq, pwd_renamed_marker_aln)
+        trimal_cmd = 'trimal -in %s -out %s -automated1'       % (pwd_renamed_marker_aln, pwd_renamed_marker_aln_trimmed)
+        # write out mafft cmds
+        with open(cmds_1_mafft_txt, 'a') as cmds_1_mafft_txt_handle:
+            cmds_1_mafft_txt_handle.write(mafft_cmd + '\n')
+        # write out trimal cmds
+        with open(cmds_2_trimal_txt, 'a') as cmds_2_trimal_txt_handle:
+            cmds_2_trimal_txt_handle.write(trimal_cmd + '\n')
+        # run cmds
+        os.system(mafft_cmd)
+        os.system(trimal_cmd)
+    # concatenate alignments
+    catfasta2phy(renamed_marker_aln_dir_trimmed, 'aln', concatenated_phy, concatenated_phy_partition)
+    # run BMGE
+    if run_bmge is True:
+        BMGE(concatenated_phy_fasta, bmge_op_prefix, bmge_trim_model, bmge_entropy_score_cutoff)
+    msa_to_use = concatenated_phy
+    if run_bmge is True:
+        msa_to_use = concatenated_phy_fasta_bmge
+    # run iqtree2
+    os.mkdir(iqtree_dir)
+    get_guide_tree_cmd  = 'iqtree2 --seqtype AA -T %s -B 1000 --alrt 1000 --quiet -s %s --prefix %s/guide_tree -m LG '                  % (num_of_threads, msa_to_use, iqtree_dir, )
+    get_c60_tree_cmd    = 'iqtree2 --seqtype AA -T %s -B 1000 --alrt 1000 --quiet -s %s --prefix %s/concatenated -m LG+C60+G+F -ft %s'  % (num_of_threads, msa_to_use, iqtree_dir, pwd_guide_tree)
+    # write out iqtree2 cmds
+    with open(cmds_3_iqtree_txt, 'a') as cmds_3_iqtree_txt_handle:
+        cmds_3_iqtree_txt_handle.write(get_guide_tree_cmd + '\n')
+        cmds_3_iqtree_txt_handle.write(get_c60_tree_cmd + '\n')
+    # run cmds
+    print('Running iqtree')
+    os.system(get_guide_tree_cmd)
+    os.system(get_c60_tree_cmd)
+    print('Done!')
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('-i',           required=True,                          help='marker seq dir')
+    parser.add_argument('-x',           required=True,                          help='marker seq ext')
+    parser.add_argument('-o',           required=True,                          help='output dir')
+    parser.add_argument('-t',           required=False, type=int, default=1,    help='num of threads')
+    parser.add_argument('-bmge',        required=False, action="store_true",    help='perform BMGE trimming on concatenated MSA')
+    parser.add_argument('-bmge_m',      required=False, default='BLOSUM30',     help='BMGE trim model, default: BLOSUM30')
+    parser.add_argument('-bmge_esc',    required=False, default='0.55',         help='BMGE entropy score cutoff, default: 0.55')
+    parser.add_argument('-f',           required=False, action="store_true",    help='force overwrite')
+    args = vars(parser.parse_args())
+    MarkerSeq2Tree(args)

TreeSAK/ModifyTopo.py ADDED Viewed

@@ -0,0 +1,116 @@
+from ete3 import Tree
+from os.path import join, dirname, exists
+def get_topology_without_alpha(st, two_nodes_1, two_nodes_2):
+    _st = st.copy()
+    n_replaced = _st.get_common_ancestor(two_nodes_1)
+    if len(n_replaced.get_leaf_names()) == 10:
+        n_p = n_replaced.up
+        n_p_p = n_p.up   # All proteobacteria
+        n_p.remove_child(n_replaced)
+        return _st, n_p_p, n_p
+    else:
+        beta_gamma = _st.get_common_ancestor(two_nodes_2)
+        for _ in n_replaced.children[::]:
+            n_replaced.remove_child(_)
+        n_replaced.add_child(beta_gamma)
+        return _st, all_pro, n_replaced
+def read_tree(in_tree, format=None):
+    if isinstance(in_tree, str) and exists(in_tree):
+        if format=='auto':
+            for f in [0,1,2,3,4,5]:
+                try:
+                    t = Tree(in_tree, format=f)
+                    return t
+                except:
+                    pass
+        else:
+            t = Tree(open(in_tree).read(), format=format)
+    elif isinstance(in_tree, Tree):
+        t = in_tree
+    else:
+        raise IOError('unknown input')
+    return t
+def erase_name(in_tree_file, format=0):
+    t = read_tree(in_tree_file, format=format)
+    for n in t.traverse():
+        if not n.is_leaf():
+            n.name = ''
+    return t
+def get_mito(dataset):
+    euk_tree = Tree(euk_reference_tree, 8)
+    euk_tree.prune(dataset)
+    et = erase_name(euk_tree)
+    return {"Mito": et}
+########################################################################################################################
+topo_in_txt = ''
+intree                  = f'./dating/topology/mixture_models/deno100/phy/deno100.final_TP1.newick'
+euk_reference_tree      = '/mnt/home-backup/thliao/AOB/analysis/update_calibrations/mito_dating/phylo/manual_topology/euk.tre'
+euk_list_txt            = '/mnt/home-backup/thliao/AOB/analysis/update_calibrations/mito_dating/euk.list'
+base_odir               = "./dating/topology"
+Rickettsiales_lineage   = ['GCA_008189685.1', 'GCA_003015145.1']
+Magneto_lineage         = ["GCA_000014865.1", "GCA_002109495.1"]
+remaining_alpha         = ['GCA_000264455.2', 'GCA_002924445.1']
+Holo                    = "GCA_000469665.2"
+two_nodes_1             = ['GCA_000014865.1', 'GCA_000264455.2']
+two_nodes_2             = ['GCA_018655245.1', 'GCA_002356115.1']
+TP_dict                 = {"TP1": "((((Holo,other_alpha),Rick),Mito),Magneto);",
+                           "TP2": "(((Holo,other_alpha),(Rick,Mito)),Magneto);",
+                           "TP3": "((((Holo,Rick),other_alpha),Mito),Magneto);",
+                           "TP4": "((((Mito,Rick),Holo),other_alpha),Magneto);"}
+# copy from '/home-user/sswang/project/Mito/results/euk_tree/euk.tre'. The Fig S2A in wang 2021 NC
+# rephrase Porphyra purpurea into Porphyra umbilicalis
+# add Polysphondylium pallidum manually
+'''
+1. provide a input tree
+2. provide a set of tree skeleton
+3. use two leaves to determine a clade.
+'''
+########################################################################################################################
+for tp_name, TP in TP_dict.items():
+    print('%s\t%s' % (tp_name, TP))
+    # get internal node to tree string dict
+    st = Tree(intree, 8)
+    _st, all_pro, n_replaced = get_topology_without_alpha(st.copy(), two_nodes_1, two_nodes_2)
+    mito_usage = [_ for _ in open(euk_list_txt).read().split('\n')]
+    m_dict = get_mito(mito_usage)
+    nodes_dict = {"Rick"        : st.get_common_ancestor(Rickettsiales_lineage),
+                  "other_alpha" : st.get_common_ancestor(remaining_alpha),
+                  "Magneto"     : st.get_common_ancestor(Magneto_lineage),
+                  "Holo"        : [_ for _ in st.traverse() if _.name == Holo][0],
+                  "Mito"        : m_dict['Mito']}
+    for k, n in nodes_dict.items():
+        TP = TP.replace(k, n.write(format=3).strip(';'))
+    n_replaced.add_child(Tree(TP, format=3))