PyPI - mgnify-pipelines-toolkit - Versions diffs - 1.2.3__tar.gz → 1.2.5__tar.gz - Mend

mgnify-pipelines-toolkit 1.2.3tar.gz → 1.2.5tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mgnify-pipelines-toolkit might be problematic. Click here for more details.

Files changed (56) hide show

{mgnify_pipelines_toolkit-1.2.3 → mgnify_pipelines_toolkit-1.2.5}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mgnify_pipelines_toolkit
-Version: 1.2.3
+Version: 1.2.5
 Summary: Collection of scripts and tools for MGnify pipelines
 Author-email: MGnify team <metagenomics-help@ebi.ac.uk>
 License: Apache Software License 2.0

mgnify_pipelines_toolkit-1.2.5/mgnify_pipelines_toolkit/analysis/amplicon/permute_primers.py ADDED Viewed

@@ -0,0 +1,87 @@
+import argparse
+from itertools import product
+from pathlib import Path
+from Bio import SeqIO
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "-i",
+        "--input_primers",
+        required=True,
+        type=str,
+        help="Input primers to generate permutations for due to IUPAC ambiguous codes",
+    )
+    parser.add_argument("-p", "--prefix", required=True, type=str, help="Output prefix")
+    args = parser.parse_args()
+    input_path = args.input_primers
+    prefix = args.prefix
+    return input_path, prefix
+def permute_seq(seq):
+    ambiguous_bases_dict = {
+        "R": ["A", "G"],
+        "Y": ["C", "T"],
+        "S": ["G", "C"],
+        "W": ["A", "T"],
+        "K": ["G", "T"],
+        "M": ["A", "C"],
+        "B": ["C", "G", "T"],
+        "D": ["A", "G", "T"],
+        "H": ["A", "C", "T"],
+        "V": ["A", "C", "G"],
+        "N": ["A", "C", "T", "G"],
+    }
+    seq_template = []
+    for base in seq:
+        if base in ["A", "C", "T", "G"]:
+            seq_template.append(base)
+        else:
+            seq_template.append(ambiguous_bases_dict[base])
+    seq_permutations = []
+    for combo in product(*seq_template):
+        seq_permutations.append("".join(combo))
+    return seq_permutations
+def make_primer_permutations(primers_dict, prefix):
+    with open(f"{prefix}_permuted_primers.fasta", "w") as fw:
+        for primer_name, seq in primers_dict.items():
+            primer_seq = seq.seq
+            fw.write(f">{primer_name}\n{primer_seq}\n")
+            if primer_name == "F_auto" or primer_name[-1] == "F":
+                strand = "F"
+            elif primer_name == "R_auto" or primer_name[-1] == "R":
+                strand = "R"
+            seq_permutations = permute_seq(primer_seq)
+            for counter, permuted_seq in enumerate(seq_permutations, 1):
+                variant_name = f"{primer_name}_variant_{counter}_{strand}"
+                fw.write(f">{variant_name}\n{permuted_seq}\n")
+def main():
+    input_path, prefix = parse_args()
+    primers_dict = SeqIO.to_dict(SeqIO.parse(Path(input_path), "fasta"))
+    make_primer_permutations(primers_dict, prefix)
+if __name__ == "__main__":
+    main()

{mgnify_pipelines_toolkit-1.2.3 → mgnify_pipelines_toolkit-1.2.5}/mgnify_pipelines_toolkit/analysis/amplicon/primer_val_classification.py RENAMED Viewed

@@ -97,6 +97,8 @@ def main():
     fwd_primers_fw = open("./fwd_primers.fasta", "w")
     rev_primers_fw = open("./rev_primers.fasta", "w")
+    matched_primers_list = []
     with open(input, "r") as fr:
         for line in fr:
             line = line.strip()
@@ -108,6 +110,13 @@ def main():
             beg = float(line_lst[5])
             end = float(line_lst[6])
+            if "variant" not in primer_name:
+                continue
+            cleaned_primer_name = "_".join(primer_name.split("_")[0:-3])
+            if cleaned_primer_name in matched_primers_list:
+                continue
             if rfam == "RF00177":
                 gene = "16S"
                 model = REGIONS_16S_BACTERIA
@@ -118,7 +127,7 @@ def main():
                 gene = "18S"
                 model = REGIONS_18S
             else:  # For cases when it's a std primer but for some reason hasn't matched the model
-                if primer_name == "F_auto" or primer_name == "R_auto":
+                if cleaned_primer_name == "F_auto" or cleaned_primer_name == "R_auto":
                     continue
                 gene = "Unknown"
                 amp_region = "Unknown"
@@ -130,27 +139,32 @@ def main():
             strand = ""
-            if primer_name == "F_auto" or primer_name[-1] == "F":
+            if primer_name[-1] == "F":
                 strand = STRAND_FWD
-            elif primer_name == "R_auto" or primer_name[-1] == "R":
+            elif primer_name[-1] == "R":
                 strand = STRAND_REV
+            else:
+                print(f"Not sure what strand this is, exiting: {primer_name}")
             if model:
                 amp_region = get_amp_region(beg, end, strand, model)
-            primer_seq = str(fasta_dict[primer_name].seq)
+            primer_seq = str(fasta_dict[cleaned_primer_name].seq)
             res_dict["Gene"].append(gene)
             res_dict["VariableRegion"].append(amp_region)
-            res_dict["PrimerName"].append(primer_name)
+            res_dict["PrimerName"].append(cleaned_primer_name)
             res_dict["PrimerStrand"].append(strand)
             res_dict["PrimerSeq"].append(primer_seq)
             if strand == STRAND_FWD:
-                fwd_primers_fw.write(f">{primer_name}\n{primer_seq}\n")
+                fwd_primers_fw.write(f">{cleaned_primer_name}\n{primer_seq}\n")
             elif strand == STRAND_REV:
                 if single_end:
                     primer_seq = Seq(primer_seq).reverse_complement()
-                rev_primers_fw.write(f">{primer_name}\n{primer_seq}\n")
+                rev_primers_fw.write(f">{cleaned_primer_name}\n{primer_seq}\n")
+            matched_primers_list.append(cleaned_primer_name)
     res_df = pd.DataFrame.from_dict(res_dict)
     res_df.to_csv(f"./{sample}_primer_validation.tsv", sep="\t", index=False)

{mgnify_pipelines_toolkit-1.2.3 → mgnify_pipelines_toolkit-1.2.5}/mgnify_pipelines_toolkit.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mgnify_pipelines_toolkit
-Version: 1.2.3
+Version: 1.2.5
 Summary: Collection of scripts and tools for MGnify pipelines
 Author-email: MGnify team <metagenomics-help@ebi.ac.uk>
 License: Apache Software License 2.0

{mgnify_pipelines_toolkit-1.2.3 → mgnify_pipelines_toolkit-1.2.5}/mgnify_pipelines_toolkit.egg-info/SOURCES.txt RENAMED Viewed

@@ -12,6 +12,7 @@ mgnify_pipelines_toolkit/analysis/__init__.py
 mgnify_pipelines_toolkit/analysis/amplicon/classify_var_regions.py
 mgnify_pipelines_toolkit/analysis/amplicon/make_asv_count_table.py
 mgnify_pipelines_toolkit/analysis/amplicon/mapseq_to_asv_table.py
+mgnify_pipelines_toolkit/analysis/amplicon/permute_primers.py
 mgnify_pipelines_toolkit/analysis/amplicon/primer_val_classification.py
 mgnify_pipelines_toolkit/analysis/amplicon/remove_ambiguous_reads.py
 mgnify_pipelines_toolkit/analysis/amplicon/rev_comp_se_primers.py

{mgnify_pipelines_toolkit-1.2.3 → mgnify_pipelines_toolkit-1.2.5}/mgnify_pipelines_toolkit.egg-info/entry_points.txt RENAMED Viewed

@@ -23,6 +23,7 @@ make_asv_count_table = mgnify_pipelines_toolkit.analysis.amplicon.make_asv_count
 mapseq2biom = mgnify_pipelines_toolkit.analysis.shared.mapseq2biom:main
 mapseq_to_asv_table = mgnify_pipelines_toolkit.analysis.amplicon.mapseq_to_asv_table:main
 markergene_study_summary = mgnify_pipelines_toolkit.analysis.shared.markergene_study_summary:main
+permute_primers = mgnify_pipelines_toolkit.analysis.amplicon.permute_primers:main
 primer_val_classification = mgnify_pipelines_toolkit.analysis.amplicon.primer_val_classification:main
 process_dbcan_cazys = mgnify_pipelines_toolkit.analysis.assembly.process_dbcan_result_cazys:main
 process_dbcan_clusters = mgnify_pipelines_toolkit.analysis.assembly.process_dbcan_result_clusters:main

{mgnify_pipelines_toolkit-1.2.3 → mgnify_pipelines_toolkit-1.2.5}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "mgnify_pipelines_toolkit"
-version = "1.2.3"
+version = "1.2.5"
 readme = "README.md"
 license = { text = "Apache Software License 2.0" }
 authors = [
@@ -58,6 +58,7 @@ make_asv_count_table = "mgnify_pipelines_toolkit.analysis.amplicon.make_asv_coun
 remove_ambiguous_reads = "mgnify_pipelines_toolkit.analysis.amplicon.remove_ambiguous_reads:main"
 rev_comp_se_primers = "mgnify_pipelines_toolkit.analysis.amplicon.rev_comp_se_primers:main"
 mapseq_to_asv_table = "mgnify_pipelines_toolkit.analysis.amplicon.mapseq_to_asv_table:main"
+permute_primers = "mgnify_pipelines_toolkit.analysis.amplicon.permute_primers:main"
 primer_val_classification = "mgnify_pipelines_toolkit.analysis.amplicon.primer_val_classification:main"
 amplicon_study_summary_generator = "mgnify_pipelines_toolkit.analysis.amplicon.study_summary_generator:cli"
 # analysis.assembly #