PyPI - treesak - Versions diffs - 1.53.3__py3-none-any.whl - Mend

treesak 1.53.3__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (131) hide show

TreeSAK/ALE.py +63 -0
TreeSAK/ALE1.py +268 -0
TreeSAK/ALE2.py +168 -0
TreeSAK/ALE2RTC.py +30 -0
TreeSAK/ALE3.py +205 -0
TreeSAK/ALE4.py +636 -0
TreeSAK/ALE5.py +210 -0
TreeSAK/ALE6.py +401 -0
TreeSAK/ALE7.py +126 -0
TreeSAK/ALE_backup.py +1081 -0
TreeSAK/AssessCVG.py +128 -0
TreeSAK/AssessMarker.py +306 -0
TreeSAK/AssessMarkerDeltaLL.py +257 -0
TreeSAK/AssessMarkerPA.py +317 -0
TreeSAK/AssessPB.py +113 -0
TreeSAK/BMGE.jar +0 -0
TreeSAK/BMGE.py +49 -0
TreeSAK/C60SR4.nex +127 -0
TreeSAK/CompareMCMC.py +138 -0
TreeSAK/ConcateMSA.py +111 -0
TreeSAK/ConvertMSA.py +135 -0
TreeSAK/Dir.rb +82 -0
TreeSAK/ExtractMarkerSeq.py +263 -0
TreeSAK/FastRoot.py +1175 -0
TreeSAK/FastRoot_backup.py +1122 -0
TreeSAK/FigTree.py +34 -0
TreeSAK/GTDB_tree.py +76 -0
TreeSAK/GeneTree.py +142 -0
TreeSAK/KEGG_Luo17.py +807 -0
TreeSAK/LcaToLeaves.py +66 -0
TreeSAK/MarkerRef2Tree.py +616 -0
TreeSAK/MarkerRef2Tree_backup.py +628 -0
TreeSAK/MarkerSeq2Tree.py +299 -0
TreeSAK/MarkerSeq2Tree_backup.py +259 -0
TreeSAK/ModifyTopo.py +116 -0
TreeSAK/Newick_tree_plotter.py +79 -0
TreeSAK/OMA.py +170 -0
TreeSAK/OMA2.py +212 -0
TreeSAK/OneLineAln.py +50 -0
TreeSAK/PB.py +155 -0
TreeSAK/PMSF.py +115 -0
TreeSAK/PhyloBiAssoc.R +84 -0
TreeSAK/PhyloBiAssoc.py +167 -0
TreeSAK/PlotMCMC.py +41 -0
TreeSAK/PlotMcmcNode.py +152 -0
TreeSAK/PlotMcmcNode_old.py +252 -0
TreeSAK/RootTree.py +101 -0
TreeSAK/RootTreeGTDB.py +371 -0
TreeSAK/RootTreeGTDB214.py +288 -0
TreeSAK/RootTreeGTDB220.py +300 -0
TreeSAK/SequentialDating.py +16 -0
TreeSAK/SingleAleHGT.py +157 -0
TreeSAK/SingleLinePhy.py +50 -0
TreeSAK/SliceMSA.py +142 -0
TreeSAK/SplitScore.py +21 -0
TreeSAK/SplitScore1.py +177 -0
TreeSAK/SplitScore1OMA.py +148 -0
TreeSAK/SplitScore2.py +608 -0
TreeSAK/TaxaCountStats.R +256 -0
TreeSAK/TaxonTree.py +47 -0
TreeSAK/TreeSAK_config.py +32 -0
TreeSAK/VERSION +164 -0
TreeSAK/VisHPD95.R +45 -0
TreeSAK/VisHPD95.py +200 -0
TreeSAK/__init__.py +0 -0
TreeSAK/ale_parser.py +74 -0
TreeSAK/ale_splitter.py +63 -0
TreeSAK/alignment_pruner.pl +1471 -0
TreeSAK/assessOG.py +45 -0
TreeSAK/batch_itol.py +171 -0
TreeSAK/catfasta2phy.py +140 -0
TreeSAK/cogTree.py +185 -0
TreeSAK/compare_trees.R +30 -0
TreeSAK/compare_trees.py +255 -0
TreeSAK/dating.py +264 -0
TreeSAK/dating_ss.py +361 -0
TreeSAK/deltall.py +82 -0
TreeSAK/do_rrtc.rb +464 -0
TreeSAK/fa2phy.py +42 -0
TreeSAK/filter_rename_ar53.py +118 -0
TreeSAK/format_leaf_name.py +70 -0
TreeSAK/gap_stats.py +38 -0
TreeSAK/get_SCG_tree.py +742 -0
TreeSAK/get_arCOG_seq.py +97 -0
TreeSAK/global_functions.py +222 -0
TreeSAK/gnm_leaves.py +43 -0
TreeSAK/iTOL.py +791 -0
TreeSAK/iTOL_gene_tree.py +80 -0
TreeSAK/itol_msa_stats.py +56 -0
TreeSAK/keep_highest_rrtc.py +37 -0
TreeSAK/koTree.py +194 -0
TreeSAK/label_gene_tree_by_gnm.py +34 -0
TreeSAK/label_tree.R +75 -0
TreeSAK/label_tree.py +121 -0
TreeSAK/mad.py +708 -0
TreeSAK/mcmc2tree.py +58 -0
TreeSAK/mcmcTC copy.py +92 -0
TreeSAK/mcmcTC.py +104 -0
TreeSAK/mcmctree_vs_reltime.R +44 -0
TreeSAK/mcmctree_vs_reltime.py +252 -0
TreeSAK/merge_pdf.py +32 -0
TreeSAK/pRTC.py +56 -0
TreeSAK/parse_mcmctree.py +198 -0
TreeSAK/parse_reltime.py +141 -0
TreeSAK/phy2fa.py +37 -0
TreeSAK/plot_distruibution_th.py +165 -0
TreeSAK/prep_mcmctree_ctl.py +92 -0
TreeSAK/print_leaves.py +32 -0
TreeSAK/pruneMSA.py +63 -0
TreeSAK/recode.py +73 -0
TreeSAK/remove_bias.R +112 -0
TreeSAK/rename_leaves.py +78 -0
TreeSAK/replace_clade.py +55 -0
TreeSAK/root_with_out_group.py +84 -0
TreeSAK/run_TaxaCountStats_R_s1.py +455 -0
TreeSAK/subsample_drep_gnms.py +74 -0
TreeSAK/subset.py +69 -0
TreeSAK/subset_tree_stupid_old_way.py +193 -0
TreeSAK/supertree.py +330 -0
TreeSAK/tmp_1.py +19 -0
TreeSAK/tmp_2.py +19 -0
TreeSAK/tmp_3.py +120 -0
TreeSAK/tmp_4.py +43 -0
TreeSAK/tmp_5.py +12 -0
TreeSAK/weighted_rand.rb +23 -0
treesak-1.53.3.data/scripts/TreeSAK +955 -0
treesak-1.53.3.dist-info/LICENSE +674 -0
treesak-1.53.3.dist-info/METADATA +27 -0
treesak-1.53.3.dist-info/RECORD +131 -0
treesak-1.53.3.dist-info/WHEEL +5 -0
treesak-1.53.3.dist-info/top_level.txt +1 -0

TreeSAK/Newick_tree_plotter.py ADDED Viewed

@@ -0,0 +1,79 @@
+import os
+from ete3 import Tree
+from ete3 import TreeStyle
+from ete3 import NodeStyle
+from ete3 import TextFace
+def plot_tree(tree, tree_title, tree_output):
+    # set tree parameters
+    ts = TreeStyle()
+    ts.mode = "r"  # tree model: 'r' for rectangular, 'c' for circular
+    ts.show_leaf_name = 0
+    # set tree title text parameters
+    ts.title.add_face(TextFace(tree_title,
+                               fsize = 8,
+                               fgcolor = 'black',
+                               ftype = 'Arial',
+                               tight_text = False),
+                      column = 0)  # tree title text setting
+    # set layout parameters
+    ts.rotation = 0  # from 0 to 360
+    ts.show_scale = False
+    ts.margin_top = 10  # top tree image margin
+    ts.margin_bottom = 10  # bottom tree image margin
+    ts.margin_left = 10  # left tree image margin
+    ts.margin_right = 10  # right tree image margin
+    ts.show_border = False  # set tree image border
+    ts.branch_vertical_margin = 3  # 3 pixels between adjancent branches
+    # set tree node style
+    for each_node in tree.traverse():
+        # leaf node parameters
+        if each_node.is_leaf():
+            ns = NodeStyle()
+            ns["shape"] = "circle"  # dot shape: circle, square or sphere
+            ns["size"] = 0  # dot size
+            ns['hz_line_width'] = 0.5  # branch line width
+            ns['vt_line_width'] = 0.5  # branch line width
+            ns['hz_line_type'] = 0  # branch line type: 0 for solid, 1 for dashed, 2 for dotted
+            ns['vt_line_type'] = 0  # branch line type
+            ns["fgcolor"] = "blue"  # the dot setting
+            each_node.add_face(TextFace(each_node.name,
+                                        fsize = 5,
+                                        fgcolor = 'black',
+                                        tight_text = False,
+                                        bold = False),
+                               column = 0,
+                               position = 'branch-right')  # leaf node the node name text setting
+            each_node.set_style(ns)
+        # non-leaf node parameters
+        else:
+            nlns = NodeStyle()
+            nlns["size"] = 0  # dot size
+            #nlns["rotation"] = 45
+            each_node.add_face(TextFace(each_node.name,
+                                        fsize = 3,
+                                        fgcolor = 'black',
+                                        tight_text = False,
+                                        bold = False),
+                               column = 5,
+                               position = 'branch-top')  # non-leaf node name text setting)
+            each_node.set_style(nlns)
+    tree.render(tree_output, w=900, units="px", tree_style=ts)  # set figures size
+#os.chdir('/Users/songweizhi/Desktop')
+tree_2 = '(CF_Refined_71:0.21847,CF_Refined_170:0.41504,(((CF_Refined_7:0.63495,CF_Refined_96:0.68718)0.984:0.33915,CF_Refined_82:0.16074)0.980:0.12012,((CF_Refined_25:0.20437,CF_Refined_95:1.40476)0.367:0.60450,(((CF_Refined_86:0.37933,(CF_Refined_74:0.61406,CF_Refined_43:0.10850)1.000:0.34468)0.999:0.19175,((CF_Refined_57:0.19003,(CF_Refined_99:0.18534,CF_Refined_160:0.33153)0.861:0.04660)1.000:0.18553,(CF_Refined_78:0.64747,(CF_Refined_129:0.26317,(CF_Refined_64:0.25293,CF_Refined_100:0.10449)0.993:0.14949)0.577:0.13006)1.000:0.19231)0.998:0.16057)0.961:0.08413,((CF_Refined_155:0.18262,CF_Refined_180:0.02711)1.000:0.42318,(CF_Refined_162:0.64092,CF_Refined_131:0.36385)1.000:0.48656)0.992:0.23471)0.853:0.05581)0.955:0.08666)1.000:0.14706);'
+tree = Tree(tree_2, format=1)
+plot_tree(tree, 'Species_Tree', '/Users/songweizhi/Desktop/Species_Tree.png')

TreeSAK/OMA.py ADDED Viewed

@@ -0,0 +1,170 @@
+import os
+import glob
+import argparse
+OMA_usage = '''
+======================= OMA example commands =======================
+TreeSAK OMA -i faa_files -x faa -og og_gnm.txt -o OMA_wd -f -t 32
+====================================================================
+'''
+def sep_path_basename_ext(file_in):
+    f_path, file_name = os.path.split(file_in)
+    if f_path == '':
+        f_path = '.'
+    f_base, f_ext = os.path.splitext(file_name)
+    return f_path, f_base, f_ext
+def get_default_para_dict():
+    default_para_str = '''
+    OutputFolder := 'Output';
+    ReuseCachedResults := true;
+    AlignBatchSize := 1e6;
+    MinScore := 181;
+    LengthTol := 0.61;
+    StablePairTol := 1.81;
+    InparalogTol := 3.00;
+    ParalogTol := -2.5*StablePairTol;
+    VerifiedPairTol := 1.53;
+    MinSeqLen := 50;
+    UseOnlyOneSplicingVariant := true;
+    UseExperimentalHomologousClusters := false;
+    QuasiCliquesCutoff := 1.0:
+    StableIdsForGroups := false;
+    GuessIdType := false;
+    DoHierarchicalGroups := 'bottom-up';
+    SpeciesTree := 'estimate';
+    MinEdgeCompletenessFraction := 0.65;
+    ReachabilityCutoff := 0.65;
+    MaxTimePerLevel := 1200;  # 20min
+    DoGroupFunctionPrediction := true;
+    GroupFunctionCutoff := 0.5;
+    CladeDefinition := 'default';
+    UseEsprit := false;
+    DistConfLevel := 2;
+    MinProbContig := 0.4;
+    MaxContigOverlap := 5;
+    MinSeqLenContig := 20;
+    MinBestScore := 250;
+    '''
+    default_para_dict = dict()
+    for each_line in default_para_str.split('    '):
+        para_line = each_line.replace(' ', '').replace('\n', '').split(';')[0]
+        if para_line != '':
+            para_line_split = para_line.split(':=')
+            default_para_dict[para_line_split[0]] = para_line_split[1]
+    return default_para_dict
+def OMA(args):
+    gnm_dir         = args['i']
+    file_ext        = args['x']
+    seq_type        = args['st']
+    og_gnm_txt      = args['og']
+    op_dir          = args['o']
+    force_overwrite = args['f']
+    num_threads     = args['t']
+    # define file name
+    pwd_gnm_rename_txt = '%s/rename.txt'     % op_dir
+    pwd_parameter_file = '%s/parameters.drw' % op_dir
+    oma_input_dir      = '%s/DB'             % op_dir
+    # create dir
+    if os.path.isdir(op_dir) is True:
+        if force_overwrite is True:
+            os.system('rm -r %s' % op_dir)
+        else:
+            print('output folder detected, program exited!')
+            exit()
+    os.system('mkdir %s' % op_dir)
+    os.system('mkdir %s' % oma_input_dir)
+    # check genome files
+    gnm_file_re   = '%s/*.%s' % (gnm_dir, file_ext)
+    gnm_file_list = glob.glob(gnm_file_re)
+    if len(gnm_file_list) == 0:
+        print('No genome detected, program exited!')
+        exit()
+    # check og_gnm_txt
+    if os.path.isfile(og_gnm_txt) is False:
+        print('Out group genome id file not detected, program exited!')
+        exit()
+    # copy genome files into DB folder
+    gnm_id_rename_dict = dict()
+    rename_list = []
+    for each_gnm in gnm_file_list:
+        gnm_path, gnm_base, gnm_ext = sep_path_basename_ext(each_gnm)
+        gnm_base_renamed = gnm_base.replace('.', '_')
+        pwd_gnm_db = '%s/%s.fa' % (oma_input_dir, gnm_base_renamed)
+        if gnm_base != gnm_base_renamed:
+            rename_list.append('%s\t%s' % (gnm_base, gnm_base_renamed))
+        gnm_id_rename_dict[gnm_base] = gnm_base_renamed
+        os.system('cp %s %s' % (each_gnm, pwd_gnm_db))
+    # write out rename file
+    if len(rename_list) > 0:
+        pwd_gnm_rename_txt_handle = open(pwd_gnm_rename_txt, 'w')
+        for each_e in sorted(rename_list):
+            pwd_gnm_rename_txt_handle.write(each_e + '\n')
+        pwd_gnm_rename_txt_handle.close()
+    else:
+        print('Format of file names passed checking')
+    # get default_para_dict
+    default_para_dict = get_default_para_dict()
+    # read in og_gnm_txt
+    renamed_og_gnm_list = []
+    for each_og_gnm in open(og_gnm_txt):
+        og_gnm_renamed = gnm_id_rename_dict[each_og_gnm.strip()]
+        renamed_og_gnm_list.append(og_gnm_renamed)
+    # write out parameter file
+    with open(pwd_parameter_file, 'w') as pwd_parameter_file_handle:
+        # write InputDataType line
+        if seq_type in ['AA', 'aa', 'Aa']:
+            pwd_parameter_file_handle.write("InputDataType := 'AA';\n")
+        if seq_type in ['DNA', 'dna', 'Dna']:
+            pwd_parameter_file_handle.write("InputDataType := 'DNA';\n")
+        # write OutgroupSpecies line
+        OutgroupSpecies_value_str = "['%s']" % "', '".join(renamed_og_gnm_list)
+        pwd_parameter_file_handle.write("OutgroupSpecies := %s;\n" % OutgroupSpecies_value_str)
+        # write out the rest lines
+        for each_para in default_para_dict:
+            para_value = default_para_dict[each_para]
+            pwd_parameter_file_handle.write("%s := %s;\n" % (each_para, para_value))
+    # final report
+    print('You can run OMA with:')
+    print('cd %s' % op_dir)
+    print('oma -n %s' % num_threads)
+    print('# You may want to customize parameters specified in %s ' % pwd_parameter_file)
+if __name__ == '__main__':
+    OMA_parser = argparse.ArgumentParser()
+    OMA_parser.add_argument('-i',   required=True,                       help='genome folder')
+    OMA_parser.add_argument('-x',   required=True,                       help='genome file extension')
+    OMA_parser.add_argument('-st',  required=False, default='AA',        help='sequence type, AA or DNA, default: AA')
+    OMA_parser.add_argument('-og',  required=True,                       help='outgroup genomes, without file extension')
+    OMA_parser.add_argument('-o',   required=True,  default=None,        help='output dir, i.e., OMA working directory')
+    OMA_parser.add_argument('-f',   required=False, action="store_true", help='force overwrite')
+    OMA_parser.add_argument('-t',   required=False, type=int, default=6, help='number of threads for running OMA, default: 6')
+    args = vars(OMA_parser.parse_args())
+    OMA(args)

TreeSAK/OMA2.py ADDED Viewed

@@ -0,0 +1,212 @@
+import os
+import glob
+import argparse
+from Bio import SeqIO
+OMA2_usage = '''
+============================== OMA2 example commands ==============================
+TreeSAK OMA2 -i OrthologousGroups.txt -s OrthologousGroupsFasta -o op_dir -f -n 3
+TreeSAK OMA2 -i OrthologousGroups.txt -s OrthologousGroupsFasta -o op_dir -f -c 85
+===================================================================================
+'''
+def sep_path_basename_ext(file_in):
+    f_path, f_name = os.path.split(file_in)
+    if f_path == '':
+        f_path = '.'
+    f_base, f_ext = os.path.splitext(f_name)
+    return f_name, f_path, f_base, f_ext[1:]
+def get_gnm_og_cov(og_dir, og_ext, og_cov_txt):
+    og_file_re   = '%s/*.%s' % (og_dir, og_ext)
+    og_file_list = glob.glob(og_file_re)
+    gnm_to_og_dict = dict()
+    for og_file in og_file_list:
+        _, _, og_id, _ = sep_path_basename_ext(og_file)
+        for each_seq in SeqIO.parse(og_file, 'fasta'):
+            seq_id = each_seq.id
+            gnm_id = '_'.join(seq_id.split('_')[:-1])
+            if gnm_id not in gnm_to_og_dict:
+                gnm_to_og_dict[gnm_id] = set()
+            gnm_to_og_dict[gnm_id].add(og_id)
+    og_cov_txt_handle = open(og_cov_txt, 'w')
+    for each_gnm in sorted(list(gnm_to_og_dict.keys())):
+        gnm_og_set = gnm_to_og_dict[each_gnm]
+        og_cov = len(gnm_og_set)*100/len(og_file_list)
+        og_cov = float("{0:.2f}".format(og_cov))
+        og_cov_txt_handle.write('%s\t%s\n' % (each_gnm, og_cov))
+    og_cov_txt_handle.close()
+def get_ortho_to_gene_dict(ortho_groups_txt, og_program):
+    ortho_to_gene_dict = dict()
+    for each_og in open(ortho_groups_txt):
+        if not each_og.startswith('#'):
+            og_id = ''
+            gene_list = []
+            if og_program == 'orthofinder':
+                each_og_split = each_og.strip().split(' ')
+                og_id = each_og_split[0][:-1]
+                gene_list = each_og_split[1:]
+            elif og_program == 'oma':
+                each_og_split = each_og.strip().split('\t')
+                og_id = each_og_split[0]
+                group_member_list = each_og_split[1:]
+                for each_protein in group_member_list:
+                    protein_id = each_protein.split(' ')[0].split(':')[1]
+                    gene_list.append(protein_id)
+            ortho_to_gene_dict[og_id] = gene_list
+    return ortho_to_gene_dict
+def select_seq(seq_in, seq_id_list, seq_out):
+    output_file_handle = open(seq_out, 'w')
+    for seq_record in SeqIO.parse(seq_in, 'fasta'):
+        if seq_record.id in seq_id_list:
+            output_file_handle.write('>%s\n' % seq_record.id)
+            output_file_handle.write('%s\n' % seq_record.seq)
+    output_file_handle.close()
+def OMA2(args):
+    og_txt              = args['i']
+    og_seq_dir          = args['s']
+    gnm_txt             = args['g']
+    op_dir              = args['o']
+    force_overwrite     = args['f']
+    min_gene_num        = args['n']
+    min_gene_cov        = args['c']
+    if (min_gene_num is None) and (min_gene_cov is None):
+        print('Please specify either -c or -n, program exited!')
+        exit()
+    elif (min_gene_num is not None) and (min_gene_cov is not None):
+        print('-c and -n are not compatible, program exited!')
+        exit()
+    og_txt_out = ''
+    gnm_og_num_txt = ''
+    filtered_seq_dir = ''
+    if min_gene_num is not None:
+        og_txt_out       = '%s/OrthologousGroups_num%s.txt'             % (op_dir, min_gene_num)
+        gnm_og_num_txt   = '%s/OrthologousGroups_num%s_per_genome.txt'  % (op_dir, min_gene_num)
+        filtered_seq_dir = '%s/OrthologousGroupsFasta_num%s'            % (op_dir, min_gene_num)
+    if min_gene_cov is not None:
+        og_txt_out       = '%s/OrthologousGroups_cov%s.txt'             % (op_dir, min_gene_cov)
+        gnm_og_num_txt   = '%s/OrthologousGroups_cov%s_per_genome.txt'  % (op_dir, min_gene_cov)
+        filtered_seq_dir = '%s/OrthologousGroupsFasta_cov%s'            % (op_dir, min_gene_cov)
+    # check genome files
+    interested_gnm_set = set()
+    if gnm_txt is not None:
+        if os.path.isfile(gnm_txt) is True:
+            for each_gnm in open(gnm_txt):
+                gnm_id = each_gnm.strip().split()[0]
+                interested_gnm_set.add(gnm_id)
+        else:
+            print('%s not found, program exited!' % gnm_txt)
+            exit()
+    # create dir
+    if os.path.isdir(op_dir) is True:
+        if force_overwrite is True:
+            os.system('rm -r %s' % op_dir)
+        else:
+            print('output folder detected, program exited!')
+            exit()
+    os.system('mkdir %s' % op_dir)
+    os.system('mkdir %s' % filtered_seq_dir)
+    # get overall genome set
+    overall_gnm_set = set()
+    for each_line in open(og_txt):
+        if not each_line.startswith('#'):
+            each_line_split = each_line.strip().split('\t')
+            gene_list = each_line_split[1:]
+            for each_gene in gene_list:
+                gene_gnm = each_gene.split(':')[0]
+                overall_gnm_set.add(gene_gnm)
+    qualified_og_set = set()
+    id_to_name_dict = dict()
+    gene_to_extract_dict = dict()
+    og_txt_out_handle = open(og_txt_out, 'w')
+    for each_line in open(og_txt):
+        if not each_line.startswith('#'):
+            each_line_split = each_line.strip().split('\t')
+            og_id = each_line_split[0]
+            filename = 'OG%s' % int(og_id[3:])
+            id_to_name_dict[og_id] = filename
+            gene_list = each_line_split[1:]
+            filtered_gene_set = set()
+            for each_gene in gene_list:
+                gene_gnm = each_gene.split(':')[0]
+                gene_id = each_gene.split(':')[1].split(' ')[0]
+                if len(interested_gnm_set) == 0:
+                    filtered_gene_set.add(gene_id)
+                else:
+                    if gene_gnm in interested_gnm_set:
+                        filtered_gene_set.add(gene_id)
+            qualified_og = False
+            if min_gene_num is not None:
+                if len(filtered_gene_set) >= float(min_gene_num):
+                    qualified_og = True
+            if min_gene_cov is not None:
+                if len(interested_gnm_set) == 0:
+                    gnm_cov = len(filtered_gene_set)*100/len(overall_gnm_set)
+                else:
+                    gnm_cov = len(filtered_gene_set)*100/len(interested_gnm_set)
+                if gnm_cov >= float(min_gene_cov):
+                    qualified_og = True
+            if qualified_og is True:
+                qualified_og_set.add(og_id)
+                og_txt_out_handle.write('%s\t%s\n' % (filename, ','.join(sorted(list(filtered_gene_set)))))
+                gene_to_extract_dict[og_id] = filtered_gene_set
+    og_txt_out_handle.close()
+    for each_og in gene_to_extract_dict:
+        seq_file_name = id_to_name_dict[each_og]
+        source_file   = '%s/%s.fa' % (og_seq_dir, seq_file_name)
+        filtered_file = '%s/%s.fa' % (filtered_seq_dir, seq_file_name)
+        select_seq(source_file, gene_to_extract_dict[each_og], filtered_file)
+    # get_gnm_og_cov
+    get_gnm_og_cov(filtered_seq_dir, 'fa', gnm_og_num_txt)
+    # report
+    if min_gene_num is not None:
+        print('The number of OG with genes >= %s is %s' % (min_gene_num, len(qualified_og_set)))
+    if min_gene_cov is not None:
+        print('The number of OG with coverage >= %s is %s' % (min_gene_cov, len(qualified_og_set)))
+    print('Done!')
+if __name__ == '__main__':
+    OMA2_parser = argparse.ArgumentParser()
+    OMA2_parser.add_argument('-i',   required=True,                         help='OrthologousGroups.txt')
+    OMA2_parser.add_argument('-s',   required=True,                         help='sequence dir, OrthologousGroupsFasta')
+    OMA2_parser.add_argument('-g',   required=False, default=None,          help='interested genomes')
+    OMA2_parser.add_argument('-o',   required=True,  default=None,          help='output directory')
+    OMA2_parser.add_argument('-n',   required=False, default=None,          help='minimal number of gene in a OG, not compatible with -c')
+    OMA2_parser.add_argument('-c',   required=False, default=None,          help='minimal genome coverage cutoff, not compatible with -n')
+    OMA2_parser.add_argument('-f',   required=False, action="store_true",   help='force overwrite')
+    args = vars(OMA2_parser.parse_args())
+    OMA2(args)

TreeSAK/OneLineAln.py ADDED Viewed

@@ -0,0 +1,50 @@
+import argparse
+from Bio import SeqIO
+OneLineAln_usage = '''
+========================= OneLineAln example commands =========================
+BioSAK OneLineAln -in MarkerGenes.aln -out MarkerGenes_OneLine.aln
+BioSAK OneLineAln -in MarkerGenes.aln -out MarkerGenes_OneLine.aln -upper
+===============================================================================
+'''
+def OneLineAln(args):
+    aln_in_fasta     = args['in']
+    aln_out_one_line = args['out']
+    to_uppercase     = args['upper']
+    # get longest_seq_id
+    longest_seq_id = 0
+    for seq in SeqIO.parse(aln_in_fasta, 'fasta'):
+        if len(seq.id) > longest_seq_id:
+            longest_seq_id = len(seq.id)
+    # write out in new format
+    aln_in_one_line_handle = open(aln_out_one_line, 'w')
+    for seq in SeqIO.parse(aln_in_fasta, 'fasta'):
+        seq_id_polished = seq.id + (longest_seq_id - len(seq.id))*' '
+        if to_uppercase is True:
+            aln_in_one_line_handle.write('%s\t%s\n' % (seq_id_polished, str(seq.seq).upper()))
+        else:
+            aln_in_one_line_handle.write('%s\t%s\n' % (seq_id_polished, str(seq.seq)))
+    aln_in_one_line_handle.close()
+if __name__ == '__main__':
+    OneLineAln_parser = argparse.ArgumentParser()
+    # arguments for rename_seq_parser
+    OneLineAln_parser.add_argument('-in',     required=True,                        help='input MSA in fasta format')
+    OneLineAln_parser.add_argument('-out',    required=False, default=None,         help='output file')
+    OneLineAln_parser.add_argument('-upper',  required=False, action='store_true',  help='turn to uppercase')
+    args = vars(OneLineAln_parser.parse_args())
+    OneLineAln(args)

TreeSAK/PB.py ADDED Viewed

@@ -0,0 +1,155 @@
+import os
+import argparse
+from Bio import AlignIO
+PB_usage = '''
+========================================== PB example commands ==========================================
+# Dependency: mpirun, pb_mpi and readpb_mpi (from PhyloBayes-MPI)
+export OMPI_MCA_btl=^openib
+TreeSAK PB -i in.phylip -p best20pb -o best20pb -t 52
+TreeSAK PB -i in.phylip -p best20pb -o best20pb -t 52 -n 1
+TreeSAK PB -i in.phylip -p worst20pb -o worst20pb -t 52
+# Notes:
+1. This is a wrapper for: mpirun -np 12 pb_mpi -d in.phylip -cat -gtr -x 10 -1 -dgam 4 -s chain_name
+2. Input MSA need to be in phylip format.
+3. To stop a chain, just open the <chain_name>.run ﬁle and replace the 1 by a 0 (echo 0 > <chain_name>.run).
+4. Be careful not to restart an already running chain.
+5. You can stop a chain and restart it under a diﬀerent degree of parallelization.
+6. Generally, PhyloBayes provides good results for a total number of points of 10000-30000.
+7. Results can be assessed with bpcomp and tracecomp
+*  Settings used by Nina Dombrowski: -cat -gtr -x 10 -1 -dgam 4
+   For each marker protein family, four parallel chains were run until convergence was reached, unless stated
+   otherwise (maxdiff < 0.3; settings: bpcomp -x 25_burnin chain1 chain2 chain3 chain4). Additionally, we
+   checked for the minimum effective size using tracecomp (minimum effective size > 50; settings: -x 25_burnin
+   chain1 chain2 chain3 chain4).
+*  Settings used by Fan Lu:
+   Four chains were run for each consensus tree, and for each chain over 15,000 cycles (5,000 burn-in)
+   were conducted, until a maxdiff value lower than 0.3 was reached. Otherwise, non-converged chains were
+   continually run to over 20,000 cycles. Posterior predictive tests were conducted using PhyloBayes MPI
+   with the ‘readpb_mpi -x 5000 50 -allppred’ command.
+=========================================================================================================
+'''
+def sep_path_basename_ext(file_in):
+    f_path, f_name = os.path.split(file_in)
+    if f_path == '':
+        f_path = '.'
+    f_base, f_ext = os.path.splitext(f_name)
+    return f_name, f_path, f_base, f_ext[1:]
+def fa2phy(fasta_in, phy_out):
+    alignment = AlignIO.read(fasta_in, 'fasta')
+    max_seq_id_len = 0
+    for each_seq in alignment:
+        seq_id_len = len(each_seq.id)
+        if seq_id_len > max_seq_id_len:
+            max_seq_id_len = seq_id_len
+    with open(phy_out, 'w') as msa_out_handle:
+        msa_out_handle.write('%s %s\n' % (len(alignment), alignment.get_alignment_length()))
+        for each_seq in alignment:
+            seq_id = each_seq.id
+            seq_id_with_space = '%s%s' % (seq_id, ' ' * (max_seq_id_len + 2 - len(seq_id)))
+            msa_out_handle.write('%s%s\n' % (seq_id_with_space, str(each_seq.seq)))
+def PB(args):
+    msa_in          = args['i']
+    op_dir          = args['o']
+    op_prefix       = args['p']
+    fa_to_plp       = args['fa2plp']
+    num_of_threads  = args['t']
+    num_of_chains   = args['n']
+    force_overwrite = args['f']
+    ####################################################################################################################
+    msa_in_name, msa_in_path, msa_in_base, msa_in_ext = sep_path_basename_ext(msa_in)
+    settings_dombrowski = '-cat -gtr -x 10 -1 -dgam 4'
+    setting_to_use  = settings_dombrowski
+    msa_in_plp      = '%s/%s.phylip'        % (op_dir, msa_in_base)
+    cmd_txt         = '%s/%s_cmds.txt'      % (op_dir, msa_in_base)
+    ####################################################################################################################
+    # create output dir
+    if os.path.isdir(op_dir) is True:
+        if force_overwrite is True:
+            os.system('rm -r %s' % op_dir)
+        else:
+            print('output folder already exist, program exited!')
+            exit()
+    os.system('mkdir %s' % op_dir)
+    # fa_to_phylip
+    msa_to_use = msa_in
+    if fa_to_plp is True:
+        fa2phy(msa_in, msa_in_plp)
+        msa_to_use = msa_in_plp
+    chain_name_list = []
+    pb_mpi_cmd_list = []
+    if num_of_chains == 1:
+        pb_mpi_cmd = 'export OMPI_MCA_btl=^openib; mpirun -np %s pb_mpi -d %s %s -s %s/%s' % (num_of_threads, msa_to_use, setting_to_use, op_dir, op_prefix)
+        chain_name_list.append('%s/%s' % (op_dir, op_prefix))
+        pb_mpi_cmd_list.append(pb_mpi_cmd)
+    else:
+        for chain_index in range(1, (num_of_chains + 1)):
+            current_wd = '%s/%s_chain%s' % (op_dir, op_prefix, chain_index)
+            os.mkdir(current_wd)
+            pb_mpi_cmd = 'export OMPI_MCA_btl=^openib; mpirun -np %s pb_mpi -d %s %s -s %s/%s_chain%s' % (num_of_threads, msa_to_use, setting_to_use, current_wd, op_prefix, chain_index)
+            chain_name_list.append('%s/%s_chain%s' % (current_wd, op_prefix, chain_index))
+            pb_mpi_cmd_list.append(pb_mpi_cmd)
+    # write out commands
+    cmd_txt_handle = open(cmd_txt, 'w')
+    cmd_txt_handle.write('# To run pb_mpi\n')
+    for cmd in pb_mpi_cmd_list:
+        cmd_txt_handle.write(cmd + '\n')
+    cmd_txt_handle.write('\n# To restart a terminated run (e.g., due to walltime limitation)\n')
+    for each_chain in chain_name_list:
+        cmd_txt_handle.write('export OMPI_MCA_btl=^openib; mpirun -np %s pb_mpi %s\n' % (num_of_threads, each_chain))
+    cmd_txt_handle.close()
+    # assess the results
+    if num_of_chains > 1:
+        readpb_cmd = 'export OMPI_MCA_btl=^openib; bpcomp -x 1000 10 %s' % (' '.join(chain_name_list))
+        bpcomp_cmd = 'export OMPI_MCA_btl=^openib; tracecomp -x 1000 %s' % (' '.join(chain_name_list))
+        cmd_txt_handle = open(cmd_txt, 'a')
+        cmd_txt_handle.write('\n# You may want to use the following commands to assess the results:\n')
+        cmd_txt_handle.write(readpb_cmd + '\n')
+        cmd_txt_handle.write(bpcomp_cmd + '\n')
+        cmd_txt_handle.close()
+    print('Commands exported to %s' % cmd_txt)
+    print('Done!')
+if __name__ == '__main__':
+    PB_parser = argparse.ArgumentParser()
+    PB_parser.add_argument('-i',       required=True,                          help='input MSA file')
+    PB_parser.add_argument('-o',       required=True,                          help='output directory')
+    PB_parser.add_argument('-p',       required=True,                          help='output prefix')
+    PB_parser.add_argument('-fa2plp',  required=False, action="store_true",    help='convert MSA format from fasta to phylip')
+    PB_parser.add_argument('-n',       required=False, type=int, default=4,    help='number of chains, default: 4')
+    PB_parser.add_argument('-t',       required=False, type=int, default=48,   help='num of cores per mpirun, default: 48')
+    PB_parser.add_argument('-f',       required=False, action="store_true",    help='force overwrite')
+    args = vars(PB_parser.parse_args())
+    PB(args)