PyPI - mgnify-pipelines-toolkit - Versions diffs - 1.2.3__py3-none-any.whl → 1.2.4__py3-none-any.whl - Mend

mgnify-pipelines-toolkit 1.2.3py3-none-any.whl → 1.2.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mgnify-pipelines-toolkit might be problematic. Click here for more details.

Files changed (8) hide show

mgnify_pipelines_toolkit/analysis/amplicon/permute_primers.py ADDED Viewed

@@ -0,0 +1,87 @@
+import argparse
+from itertools import product
+from pathlib import Path
+from Bio import SeqIO
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "-i",
+        "--input_primers",
+        required=True,
+        type=str,
+        help="Input primers to generate permutations for due to IUPAC ambiguous codes",
+    )
+    parser.add_argument("-p", "--prefix", required=True, type=str, help="Output prefix")
+    args = parser.parse_args()
+    input_path = args.input_primers
+    prefix = args.prefix
+    return input_path, prefix
+def permute_seq(seq):
+    ambiguous_bases_dict = {
+        "R": ["A", "G"],
+        "Y": ["C", "T"],
+        "S": ["G", "C"],
+        "W": ["A", "T"],
+        "K": ["G", "T"],
+        "M": ["A", "C"],
+        "B": ["C", "G", "T"],
+        "D": ["A", "G", "T"],
+        "H": ["A", "C", "T"],
+        "V": ["A", "C", "G"],
+        "N": ["A", "C", "T", "G"],
+    }
+    seq_template = []
+    for base in seq:
+        if base in ["A", "C", "T", "G"]:
+            seq_template.append(base)
+        else:
+            seq_template.append(ambiguous_bases_dict[base])
+    seq_permutations = []
+    for combo in product(*seq_template):
+        seq_permutations.append("".join(combo))
+    return seq_permutations
+def make_primer_permutations(primers_dict, prefix):
+    with open(f"{prefix}_permuted_primers.fasta", "w") as fw:
+        for primer_name, seq in primers_dict.items():
+            primer_seq = seq.seq
+            fw.write(f">{primer_name}\n{primer_seq}\n")
+            if primer_name == "F_auto" or primer_name[-1] == "F":
+                strand = "F"
+            elif primer_name == "R_auto" or primer_name[-1] == "R":
+                strand = "R"
+            seq_permutations = permute_seq(primer_seq)
+            for counter, permuted_seq in enumerate(seq_permutations, 1):
+                variant_name = f"{primer_name}_variant_{counter}_{strand}"
+                fw.write(f">{variant_name}\n{permuted_seq}\n")
+def main():
+    input_path, prefix = parse_args()
+    primers_dict = SeqIO.to_dict(SeqIO.parse(Path(input_path), "fasta"))
+    make_primer_permutations(primers_dict, prefix)
+if __name__ == "__main__":
+    main()

mgnify_pipelines_toolkit/analysis/amplicon/primer_val_classification.py CHANGED Viewed

@@ -97,6 +97,8 @@ def main():
     fwd_primers_fw = open("./fwd_primers.fasta", "w")
     rev_primers_fw = open("./rev_primers.fasta", "w")
+    matched_primers_list = []
     with open(input, "r") as fr:
         for line in fr:
             line = line.strip()
@@ -108,6 +110,10 @@ def main():
             beg = float(line_lst[5])
             end = float(line_lst[6])
+            cleaned_primer_name = "_".join(primer_name.split("_")[0:-3])
+            if cleaned_primer_name in matched_primers_list:
+                continue
             if rfam == "RF00177":
                 gene = "16S"
                 model = REGIONS_16S_BACTERIA
@@ -118,7 +124,7 @@ def main():
                 gene = "18S"
                 model = REGIONS_18S
             else:  # For cases when it's a std primer but for some reason hasn't matched the model
-                if primer_name == "F_auto" or primer_name == "R_auto":
+                if cleaned_primer_name == "F_auto" or cleaned_primer_name == "R_auto":
                     continue
                 gene = "Unknown"
                 amp_region = "Unknown"
@@ -130,27 +136,32 @@ def main():
             strand = ""
-            if primer_name == "F_auto" or primer_name[-1] == "F":
+            if primer_name[-1] == "F":
                 strand = STRAND_FWD
-            elif primer_name == "R_auto" or primer_name[-1] == "R":
+            elif primer_name[-1] == "R":
                 strand = STRAND_REV
+            else:
+                print(f"Not sure what strand this is, exiting: {primer_name}")
             if model:
                 amp_region = get_amp_region(beg, end, strand, model)
-            primer_seq = str(fasta_dict[primer_name].seq)
+            primer_seq = str(fasta_dict[cleaned_primer_name].seq)
             res_dict["Gene"].append(gene)
             res_dict["VariableRegion"].append(amp_region)
-            res_dict["PrimerName"].append(primer_name)
+            res_dict["PrimerName"].append(cleaned_primer_name)
             res_dict["PrimerStrand"].append(strand)
             res_dict["PrimerSeq"].append(primer_seq)
             if strand == STRAND_FWD:
-                fwd_primers_fw.write(f">{primer_name}\n{primer_seq}\n")
+                fwd_primers_fw.write(f">{cleaned_primer_name}\n{primer_seq}\n")
             elif strand == STRAND_REV:
                 if single_end:
                     primer_seq = Seq(primer_seq).reverse_complement()
-                rev_primers_fw.write(f">{primer_name}\n{primer_seq}\n")
+                rev_primers_fw.write(f">{cleaned_primer_name}\n{primer_seq}\n")
+            matched_primers_list.append(cleaned_primer_name)
     res_df = pd.DataFrame.from_dict(res_dict)
     res_df.to_csv(f"./{sample}_primer_validation.tsv", sep="\t", index=False)

{mgnify_pipelines_toolkit-1.2.3.dist-info → mgnify_pipelines_toolkit-1.2.4.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mgnify_pipelines_toolkit
-Version: 1.2.3
+Version: 1.2.4
 Summary: Collection of scripts and tools for MGnify pipelines
 Author-email: MGnify team <metagenomics-help@ebi.ac.uk>
 License: Apache Software License 2.0

{mgnify_pipelines_toolkit-1.2.3.dist-info → mgnify_pipelines_toolkit-1.2.4.dist-info}/RECORD RENAMED Viewed

@@ -3,7 +3,8 @@ mgnify_pipelines_toolkit/analysis/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeR
 mgnify_pipelines_toolkit/analysis/amplicon/classify_var_regions.py,sha256=nUvboLz08RyqRE8Thfh8NRlmgJk0kVdXcSvgmAfKip0,20649
 mgnify_pipelines_toolkit/analysis/amplicon/make_asv_count_table.py,sha256=ohguvrMSg7GuiiZ5aHj1DvCnfThKFUG4s13LUSMM0mo,8892
 mgnify_pipelines_toolkit/analysis/amplicon/mapseq_to_asv_table.py,sha256=BLqhflblUegCvuQic16PrFXfIXlFWmGkmWJyl4wJoLQ,5040
-mgnify_pipelines_toolkit/analysis/amplicon/primer_val_classification.py,sha256=aJiKzp2uLdVeobCOF2ySkofXPN5NMaQ7esc4oGDx_h4,4841
+mgnify_pipelines_toolkit/analysis/amplicon/permute_primers.py,sha256=1aGOJX9tC7M1rnd0U2PeJ681sUo02wxk7_ycJqeVt6s,2216
+mgnify_pipelines_toolkit/analysis/amplicon/primer_val_classification.py,sha256=I9JfkM_o6Wp4VINOMO6ff9mHqghdJw1kDIfiF37JtLo,5185
 mgnify_pipelines_toolkit/analysis/amplicon/remove_ambiguous_reads.py,sha256=Wu4tRtuRkgd3hoeuwPl_E5ghxIW7e_1vrcvFGWv_U4A,3173
 mgnify_pipelines_toolkit/analysis/amplicon/rev_comp_se_primers.py,sha256=yLpzkRJXAeXRUNgz60zopEwHcdprM2UDjquE-GkrFys,1722
 mgnify_pipelines_toolkit/analysis/amplicon/study_summary_generator.py,sha256=epVClL10QcllL8yu7YGjx0rXNVHL2GxHi-Ek0MOjsjo,13859
@@ -42,9 +43,9 @@ mgnify_pipelines_toolkit/schemas/schemas.py,sha256=pyDZvCuWbwccQF0D7c5BN1vv36wQd
 mgnify_pipelines_toolkit/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 mgnify_pipelines_toolkit/utils/fasta_to_delimited.py,sha256=lgYIR1S4crURY7C7nFtgE6QMV4u4zCNsUrVkcRnsEEo,3996
 mgnify_pipelines_toolkit/utils/get_mpt_version.py,sha256=aS9bWrC9CP7tpxoEVg6eEYt18-pmjG7fJl5Mchz4YOU,798
-mgnify_pipelines_toolkit-1.2.3.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
-mgnify_pipelines_toolkit-1.2.3.dist-info/METADATA,sha256=CJCRbR2EbaS2qjpqqjRJHQ7jDjg7jZc9SLDbkZMjwcc,5775
-mgnify_pipelines_toolkit-1.2.3.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-mgnify_pipelines_toolkit-1.2.3.dist-info/entry_points.txt,sha256=d7r4_VUS1hWNMnTJOy8u2kTRSFcy-sDN5NLRUXz-IhU,3041
-mgnify_pipelines_toolkit-1.2.3.dist-info/top_level.txt,sha256=xA_wC7C01V3VwuDnqwRM2QYeJJ45WtvF6LVav4tYxuE,25
-mgnify_pipelines_toolkit-1.2.3.dist-info/RECORD,,
+mgnify_pipelines_toolkit-1.2.4.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
+mgnify_pipelines_toolkit-1.2.4.dist-info/METADATA,sha256=UXCHFcEcjuPMZvUgtzITSY_iIG-j_nfGVBMGCWjBjjA,5775
+mgnify_pipelines_toolkit-1.2.4.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+mgnify_pipelines_toolkit-1.2.4.dist-info/entry_points.txt,sha256=sHDxlHizt_iZPtkNp0EDuohDGvC4O12B57JtpUmHwYk,3123
+mgnify_pipelines_toolkit-1.2.4.dist-info/top_level.txt,sha256=xA_wC7C01V3VwuDnqwRM2QYeJJ45WtvF6LVav4tYxuE,25
+mgnify_pipelines_toolkit-1.2.4.dist-info/RECORD,,

{mgnify_pipelines_toolkit-1.2.3.dist-info → mgnify_pipelines_toolkit-1.2.4.dist-info}/entry_points.txt RENAMED Viewed

@@ -23,6 +23,7 @@ make_asv_count_table = mgnify_pipelines_toolkit.analysis.amplicon.make_asv_count
 mapseq2biom = mgnify_pipelines_toolkit.analysis.shared.mapseq2biom:main
 mapseq_to_asv_table = mgnify_pipelines_toolkit.analysis.amplicon.mapseq_to_asv_table:main
 markergene_study_summary = mgnify_pipelines_toolkit.analysis.shared.markergene_study_summary:main
+permute_primers = mgnify_pipelines_toolkit.analysis.amplicon.permute_primers:main
 primer_val_classification = mgnify_pipelines_toolkit.analysis.amplicon.primer_val_classification:main
 process_dbcan_cazys = mgnify_pipelines_toolkit.analysis.assembly.process_dbcan_result_cazys:main
 process_dbcan_clusters = mgnify_pipelines_toolkit.analysis.assembly.process_dbcan_result_clusters:main

{mgnify_pipelines_toolkit-1.2.3.dist-info → mgnify_pipelines_toolkit-1.2.4.dist-info}/WHEEL RENAMED Viewed

File without changes

{mgnify_pipelines_toolkit-1.2.3.dist-info → mgnify_pipelines_toolkit-1.2.4.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{mgnify_pipelines_toolkit-1.2.3.dist-info → mgnify_pipelines_toolkit-1.2.4.dist-info}/top_level.txt RENAMED Viewed

File without changes

mgnify-pipelines-toolkit 1.2.3__py3-none-any.whl → 1.2.4__py3-none-any.whl

Potentially problematic release.

mgnify-pipelines-toolkit 1.2.3py3-none-any.whl → 1.2.4py3-none-any.whl