PyPI - biofiles - Versions diffs - 0.0.7__tar.gz → 0.0.9__tar.gz - Mend

biofiles 0.0.7tar.gz → 0.0.9tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

{biofiles-0.0.7 → biofiles-0.0.9}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: biofiles
-Version: 0.0.7
+Version: 0.0.9
 Summary: Pure-Python, zero-dependency collection of bioinformatics-related file readers and writers
 Author-email: Tigran Saluev <tigran@saluev.com>
 Maintainer-email: Tigran Saluev <tigran@saluev.com>

{biofiles-0.0.7 → biofiles-0.0.9}/biofiles/feature.py RENAMED Viewed

@@ -1,10 +1,17 @@
 from collections import deque
 from dataclasses import dataclass, field
 from pathlib import Path
-from typing import Iterator, TextIO, Type
+from typing import Iterator, TextIO, Type, TypeVar, cast
 from biofiles.common import Reader, Strand
-from biofiles.types.feature import Feature, Gene, ThreePrimeUTR, Exon, UTR
+from biofiles.types.feature import (
+    Feature,
+    Gene,
+    ThreePrimeUTR,
+    Exon,
+    UTR,
+    Transcript,
+)
 @dataclass
@@ -60,6 +67,12 @@ class Features:
             self.by_id[id_] = feature
+FeatureT = TypeVar("FeatureT", bound=Feature)
+GeneT = TypeVar("GeneT", bound=Gene)
+TranscriptT = TypeVar("TranscriptT", bound=Transcript)
+UTRT = TypeVar("UTRT", bound=UTR)
 class FeatureReader(Reader):
     def __init__(
         self, input_: TextIO | Path | str, /, streaming_window: int | None = 1000
@@ -107,8 +120,10 @@ class FeatureReader(Reader):
     def _finalize_draft(self, draft: FeatureDraft, result: Features) -> Feature:
         match draft.type_.lower():
-            case "gene":
-                feature = self._finalize_gene(draft, result)
+            case "gene" | "ncrna_gene":
+                feature = self._finalize_gene(draft, result, Gene)
+            case "transcript" | "mrna" | "lnc_rna":
+                feature = self._finalize_transcript(draft, result, Transcript)
             case "exon":
                 feature = self._finalize_exon(draft, result)
             case "three_prime_utr":
@@ -122,39 +137,49 @@ class FeatureReader(Reader):
             object.__setattr__(feature.parent, "children", new_children)
         return feature
-    def _finalize_gene(self, draft: FeatureDraft, result: Features) -> Feature:
+    def _finalize_gene(
+        self, draft: FeatureDraft, result: Features, type_: Type[GeneT]
+    ) -> Feature:
         feature = self._finalize_other(draft, result)
         name = draft.pick_attribute("gene_name", "Name")
         biotype = draft.pick_attribute("gene_biotype", "biotype", "gene_type")
         if name is None or biotype is None:
             return feature
-        return Gene(**feature.__dict__, name=name, biotype=biotype, exons=())
+        return type_(**feature.__dict__, name=name, biotype=biotype, transcripts=())
-    def _finalize_exon(self, draft: FeatureDraft, result: Features) -> Feature:
+    def _finalize_transcript(
+        self, draft: FeatureDraft, result: Features, type_: Type[TranscriptT]
+    ) -> Feature:
         feature = self._finalize_other(draft, result)
+        if not (gene := self._find_ancestor_of_type(feature, Gene)):
+            return feature
+        transcript = type_(**feature.__dict__, gene=gene, exons=())
+        object.__setattr__(gene, "transcripts", gene.transcripts + (transcript,))
+        return transcript
-        gene = feature.parent
-        while gene and not isinstance(gene, Gene):
-            gene = gene.parent
-        if gene is None:
+    def _finalize_exon(self, draft: FeatureDraft, result: Features) -> Feature:
+        feature = self._finalize_other(draft, result)
+        if not (transcript := self._find_ancestor_of_type(feature, Transcript)):
             return feature
-        exon = Exon(**feature.__dict__, gene=gene)
-        object.__setattr__(gene, "exons", gene.exons + (exon,))
+        exon = Exon(**feature.__dict__, gene=transcript.gene, transcript=transcript)
+        object.__setattr__(transcript, "exons", transcript.exons + (exon,))
         return exon
     def _finalize_utr(
-        self, draft: FeatureDraft, result: Features, type_: Type[UTR]
+        self, draft: FeatureDraft, result: Features, type_: Type[UTRT]
     ) -> Feature:
         feature = self._finalize_other(draft, result)
-        gene = feature.parent
-        while gene and not isinstance(gene, Gene):
-            gene = gene.parent
-        if gene is None:
+        if not (transcript := self._find_ancestor_of_type(feature, Transcript)):
             return feature
-        return type_(**feature.__dict__, gene=gene)
+        return type_(**feature.__dict__, gene=transcript.gene, transcript=transcript)
+    def _find_ancestor_of_type(
+        self, feature: Feature, t: Type[FeatureT]
+    ) -> FeatureT | None:
+        ancestor = feature.parent
+        while ancestor and not isinstance(ancestor, t):
+            ancestor = ancestor.parent
+        return cast(FeatureT | None, ancestor)
     def _finalize_other(self, draft: FeatureDraft, result: Features) -> Feature:
         parent_id = self._extract_parent_id(draft)
@@ -193,6 +218,8 @@ class FeatureReader(Reader):
             return id_
         if draft.type_ == "transcript" and (id_ := draft.attributes.get("gene_id")):
             return id_
-        if draft.type_ == "exon" and (id_ := draft.attributes.get("transcript_id")):
+        if draft.type_ in ("exon", "UTR", "three_prime_UTR", "five_prime_UTR") and (
+            id_ := draft.attributes.get("transcript_id")
+        ):
             return id_
         return None

{biofiles-0.0.7 → biofiles-0.0.9}/biofiles/gff.py RENAMED Viewed

@@ -4,7 +4,7 @@ from typing import Iterator, cast, TextIO
 from biofiles.common import Strand, Writer
 from biofiles.feature import FeatureReader, FeatureDraft, FeatureDrafts
-from biofiles.types.feature import Feature, Gene, Exon
+from biofiles.types.feature import Feature, Gene, Exon, UTR
 __all__ = ["GFFReader", "GFF3Writer"]
@@ -142,14 +142,21 @@ if __name__ == "__main__":
             total_features = 0
             annotated_genes = 0
             annotated_exons = 0
+            annotated_utrs = 0
             parsed_genes = 0
             parsed_exons = 0
+            parsed_utrs = 0
             for feature in r:
                 total_features += 1
-                annotated_genes += feature.type_ == "gene"
+                annotated_genes += "gene" in feature.type_.lower()
                 annotated_exons += feature.type_ == "exon"
+                annotated_utrs += "utr" in feature.type_.lower()
                 parsed_genes += isinstance(feature, Gene)
                 parsed_exons += isinstance(feature, Exon)
+                parsed_utrs += isinstance(feature, UTR)
         print(
-            f"{path}: {total_features} features, {parsed_genes} genes parsed out of {annotated_genes}, {parsed_exons} exons parsed out of {annotated_exons}"
+            f"{path}: {total_features} features, "
+            f"{parsed_genes} genes parsed out of {annotated_genes}, "
+            f"{parsed_exons} exons parsed out of {annotated_exons}, "
+            f"{parsed_utrs} UTRs parsed out of {annotated_utrs}"
         )

{biofiles-0.0.7 → biofiles-0.0.9}/biofiles/gtf.py RENAMED Viewed

@@ -4,7 +4,7 @@ import sys
 from typing import Iterator
 from biofiles.gff import GFFReader
-from biofiles.types.feature import Gene, Exon, Feature
+from biofiles.types.feature import Gene, Exon, Feature, UTR
 class GTFReader(GFFReader):
@@ -25,14 +25,21 @@ if __name__ == "__main__":
             total_features = 0
             annotated_genes = 0
             annotated_exons = 0
+            annotated_utrs = 0
             parsed_genes = 0
             parsed_exons = 0
+            parsed_utrs = 0
             for feature in r:
                 total_features += 1
-                annotated_genes += feature.type_ == "gene"
+                annotated_genes += "gene" in feature.type_.lower()
                 annotated_exons += feature.type_ == "exon"
+                annotated_utrs += "utr" in feature.type_.lower()
                 parsed_genes += isinstance(feature, Gene)
                 parsed_exons += isinstance(feature, Exon)
+                parsed_utrs += isinstance(feature, UTR)
         print(
-            f"{path}: {total_features} features, {parsed_genes} genes parsed out of {annotated_genes}, {parsed_exons} exons parsed out of {annotated_exons}"
+            f"{path}: {total_features} features, "
+            f"{parsed_genes} genes parsed out of {annotated_genes}, "
+            f"{parsed_exons} exons parsed out of {annotated_exons}, "
+            f"{parsed_utrs} UTRs parsed out of {annotated_utrs}"
         )

{biofiles-0.0.7 → biofiles-0.0.9}/biofiles/repeatmasker.py RENAMED Viewed

@@ -1,6 +1,6 @@
 import sys
 from collections import Counter
-from typing import Iterator
+from typing import Iterator, cast, Literal
 from biofiles.common import Reader
 from biofiles.types.repeat import Repeat
@@ -42,7 +42,7 @@ class RepeatMaskerReader(Reader):
             seq_start = int(seq_start_str)
             seq_end = int(seq_end_str)
             seq_left = int(seq_left_str[1:-1])
-            strand = {"+": "+", "C": "-"}[strand_str]
+            strand = cast(Literal["+", "-"], {"+": "+", "C": "-"}[strand_str])
             if "/" in repeat_class_family:
                 repeat_class, repeat_family = repeat_class_family.split("/", 1)

{biofiles-0.0.7 → biofiles-0.0.9}/biofiles/types/feature.py RENAMED Viewed

@@ -3,7 +3,7 @@ from dataclasses import dataclass
 from biofiles.common import Strand
-__all__ = ["Feature", "Gene", "Exon"]
+__all__ = ["Feature", "Gene", "Transcript", "Exon", "UTR", "ThreePrimeUTR"]
 @dataclass(frozen=True)
@@ -26,7 +26,7 @@ class Feature:
     attributes: dict[str, str]
     id: str | None
-    parent: "GFFFeature | None"
+    parent: "Feature | None"
     children: tuple["Feature", ...]
@@ -37,19 +37,25 @@ class Feature:
 class Gene(Feature):
     name: str
     biotype: str
+    transcripts: tuple["Transcript", ...]
+@dataclass(frozen=True)
+class Transcript(Feature):
+    gene: Gene
     exons: tuple["Exon", ...]
 @dataclass(frozen=True)
 class Exon(Feature):
     gene: Gene
-    # TODO transcript, mRNA
+    transcript: Transcript
 @dataclass(frozen=True)
 class UTR(Feature):
     gene: Gene
-    # TODO transcript
+    transcript: Transcript
 @dataclass(frozen=True)

{biofiles-0.0.7 → biofiles-0.0.9}/biofiles.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: biofiles
-Version: 0.0.7
+Version: 0.0.9
 Summary: Pure-Python, zero-dependency collection of bioinformatics-related file readers and writers
 Author-email: Tigran Saluev <tigran@saluev.com>
 Maintainer-email: Tigran Saluev <tigran@saluev.com>

{biofiles-0.0.7 → biofiles-0.0.9}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "biofiles"
-version = "0.0.7"
+version = "0.0.9"
 authors = [
   { name="Tigran Saluev", email="tigran@saluev.com" },
 ]