PyPI - biofiles - Versions diffs - 0.0.7__tar.gz → 0.0.8__tar.gz - Mend

biofiles 0.0.7tar.gz → 0.0.8tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

{biofiles-0.0.7 → biofiles-0.0.8}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: biofiles
-Version: 0.0.7
+Version: 0.0.8
 Summary: Pure-Python, zero-dependency collection of bioinformatics-related file readers and writers
 Author-email: Tigran Saluev <tigran@saluev.com>
 Maintainer-email: Tigran Saluev <tigran@saluev.com>

{biofiles-0.0.7 → biofiles-0.0.8}/biofiles/feature.py RENAMED Viewed

@@ -1,10 +1,10 @@
 from collections import deque
 from dataclasses import dataclass, field
 from pathlib import Path
-from typing import Iterator, TextIO, Type
+from typing import Iterator, TextIO, Type, TypeVar
 from biofiles.common import Reader, Strand
-from biofiles.types.feature import Feature, Gene, ThreePrimeUTR, Exon, UTR
+from biofiles.types.feature import Feature, Gene, ThreePrimeUTR, Exon, UTR, Transcript
 @dataclass
@@ -109,6 +109,8 @@ class FeatureReader(Reader):
         match draft.type_.lower():
             case "gene":
                 feature = self._finalize_gene(draft, result)
+            case "transcript":
+                feature = self._finalize_transcript(draft, result)
             case "exon":
                 feature = self._finalize_exon(draft, result)
             case "three_prime_utr":
@@ -128,33 +130,43 @@ class FeatureReader(Reader):
         biotype = draft.pick_attribute("gene_biotype", "biotype", "gene_type")
         if name is None or biotype is None:
             return feature
-        return Gene(**feature.__dict__, name=name, biotype=biotype, exons=())
+        return Gene(**feature.__dict__, name=name, biotype=biotype, transcripts=())
-    def _finalize_exon(self, draft: FeatureDraft, result: Features) -> Feature:
+    def _finalize_transcript(self, draft: FeatureDraft, result: Features) -> Feature:
         feature = self._finalize_other(draft, result)
+        if not (gene := self._find_ancestor_of_type(feature, Gene)):
+            return feature
+        transcript = Transcript(**feature.__dict__, gene=gene, exons=())
+        object.__setattr__(gene, "transcripts", gene.transcripts + (transcript,))
+        return transcript
-        gene = feature.parent
-        while gene and not isinstance(gene, Gene):
-            gene = gene.parent
-        if gene is None:
+    def _finalize_exon(self, draft: FeatureDraft, result: Features) -> Feature:
+        feature = self._finalize_other(draft, result)
+        if not (transcript := self._find_ancestor_of_type(feature, Transcript)):
             return feature
-        exon = Exon(**feature.__dict__, gene=gene)
-        object.__setattr__(gene, "exons", gene.exons + (exon,))
+        exon = Exon(**feature.__dict__, gene=transcript.gene, transcript=transcript)
+        object.__setattr__(transcript, "exons", transcript.exons + (exon,))
         return exon
+    UTRT = TypeVar("UTRT", bound=UTR)
     def _finalize_utr(
-        self, draft: FeatureDraft, result: Features, type_: Type[UTR]
-    ) -> Feature:
+        self, draft: FeatureDraft, result: Features, type_: Type[UTRT]
+    ) -> Feature | UTRT:
         feature = self._finalize_other(draft, result)
+        if not (transcript := self._find_ancestor_of_type(feature, Transcript)):
+            return feature
+        return type_(**feature.__dict__, gene=transcript.gene, transcript=transcript)
-        gene = feature.parent
-        while gene and not isinstance(gene, Gene):
-            gene = gene.parent
+    FeatureT = TypeVar("FeatureT", bound=Feature)
-        if gene is None:
-            return feature
-        return type_(**feature.__dict__, gene=gene)
+    def _find_ancestor_of_type(
+        self, feature: Feature, t: Type[FeatureT]
+    ) -> FeatureT | None:
+        ancestor = feature.parent
+        while ancestor and not isinstance(ancestor, t):
+            ancestor = ancestor.parent
+        return ancestor
     def _finalize_other(self, draft: FeatureDraft, result: Features) -> Feature:
         parent_id = self._extract_parent_id(draft)
@@ -193,6 +205,8 @@ class FeatureReader(Reader):
             return id_
         if draft.type_ == "transcript" and (id_ := draft.attributes.get("gene_id")):
             return id_
-        if draft.type_ == "exon" and (id_ := draft.attributes.get("transcript_id")):
+        if draft.type_ in ("exon", "UTR", "three_prime_UTR", "five_prime_UTR") and (
+            id_ := draft.attributes.get("transcript_id")
+        ):
             return id_
         return None

{biofiles-0.0.7 → biofiles-0.0.8}/biofiles/gff.py RENAMED Viewed

@@ -4,7 +4,7 @@ from typing import Iterator, cast, TextIO
 from biofiles.common import Strand, Writer
 from biofiles.feature import FeatureReader, FeatureDraft, FeatureDrafts
-from biofiles.types.feature import Feature, Gene, Exon
+from biofiles.types.feature import Feature, Gene, Exon, UTR
 __all__ = ["GFFReader", "GFF3Writer"]
@@ -142,14 +142,21 @@ if __name__ == "__main__":
             total_features = 0
             annotated_genes = 0
             annotated_exons = 0
+            annotated_utrs = 0
             parsed_genes = 0
             parsed_exons = 0
+            parsed_utrs = 0
             for feature in r:
                 total_features += 1
                 annotated_genes += feature.type_ == "gene"
                 annotated_exons += feature.type_ == "exon"
+                annotated_utrs += "utr" in feature.type_.lower()
                 parsed_genes += isinstance(feature, Gene)
                 parsed_exons += isinstance(feature, Exon)
+                parsed_utrs += isinstance(feature, UTR)
         print(
-            f"{path}: {total_features} features, {parsed_genes} genes parsed out of {annotated_genes}, {parsed_exons} exons parsed out of {annotated_exons}"
+            f"{path}: {total_features} features, "
+            f"{parsed_genes} genes parsed out of {annotated_genes}, "
+            f"{parsed_exons} exons parsed out of {annotated_exons}, "
+            f"{parsed_utrs} UTRs parsed out of {annotated_utrs}"
         )

{biofiles-0.0.7 → biofiles-0.0.8}/biofiles/gtf.py RENAMED Viewed

@@ -4,7 +4,7 @@ import sys
 from typing import Iterator
 from biofiles.gff import GFFReader
-from biofiles.types.feature import Gene, Exon, Feature
+from biofiles.types.feature import Gene, Exon, Feature, UTR
 class GTFReader(GFFReader):
@@ -25,14 +25,21 @@ if __name__ == "__main__":
             total_features = 0
             annotated_genes = 0
             annotated_exons = 0
+            annotated_utrs = 0
             parsed_genes = 0
             parsed_exons = 0
+            parsed_utrs = 0
             for feature in r:
                 total_features += 1
                 annotated_genes += feature.type_ == "gene"
                 annotated_exons += feature.type_ == "exon"
+                annotated_utrs += "utr" in feature.type_.lower()
                 parsed_genes += isinstance(feature, Gene)
                 parsed_exons += isinstance(feature, Exon)
+                parsed_utrs += isinstance(feature, UTR)
         print(
-            f"{path}: {total_features} features, {parsed_genes} genes parsed out of {annotated_genes}, {parsed_exons} exons parsed out of {annotated_exons}"
+            f"{path}: {total_features} features, "
+            f"{parsed_genes} genes parsed out of {annotated_genes}, "
+            f"{parsed_exons} exons parsed out of {annotated_exons}, "
+            f"{parsed_utrs} UTRs parsed out of {annotated_utrs}"
         )

{biofiles-0.0.7 → biofiles-0.0.8}/biofiles/types/feature.py RENAMED Viewed

@@ -3,7 +3,7 @@ from dataclasses import dataclass
 from biofiles.common import Strand
-__all__ = ["Feature", "Gene", "Exon"]
+__all__ = ["Feature", "Gene", "Transcript", "Exon", "UTR", "ThreePrimeUTR"]
 @dataclass(frozen=True)
@@ -37,19 +37,26 @@ class Feature:
 class Gene(Feature):
     name: str
     biotype: str
+    transcripts: tuple["Transcript", ...]
+@dataclass(frozen=True)
+class Transcript(Feature):
+    gene: Gene
     exons: tuple["Exon", ...]
 @dataclass(frozen=True)
 class Exon(Feature):
     gene: Gene
-    # TODO transcript, mRNA
+    transcript: Transcript
+    # TODO mRNA
 @dataclass(frozen=True)
 class UTR(Feature):
     gene: Gene
-    # TODO transcript
+    transcript: Transcript
 @dataclass(frozen=True)

{biofiles-0.0.7 → biofiles-0.0.8}/biofiles.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: biofiles
-Version: 0.0.7
+Version: 0.0.8
 Summary: Pure-Python, zero-dependency collection of bioinformatics-related file readers and writers
 Author-email: Tigran Saluev <tigran@saluev.com>
 Maintainer-email: Tigran Saluev <tigran@saluev.com>

{biofiles-0.0.7 → biofiles-0.0.8}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "biofiles"
-version = "0.0.7"
+version = "0.0.8"
 authors = [
   { name="Tigran Saluev", email="tigran@saluev.com" },
 ]