PyPI - scdataloader - Versions diffs - 0.0.2__py3-none-any.whl → 0.0.4__py3-none-any.whl - Mend

scdataloader 0.0.2py3-none-any.whl → 0.0.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

scdataloader/VERSION +1 -1
scdataloader/__init__.py +4 -0
scdataloader/__main__.py +209 -0
scdataloader/collator.py +307 -0
scdataloader/config.py +106 -0
scdataloader/data.py +181 -218
scdataloader/datamodule.py +375 -0
scdataloader/mapped.py +46 -32
scdataloader/preprocess.py +524 -208
scdataloader/utils.py +189 -123
{scdataloader-0.0.2.dist-info → scdataloader-0.0.4.dist-info}/METADATA +77 -7
scdataloader-0.0.4.dist-info/RECORD +16 -0
{scdataloader-0.0.2.dist-info → scdataloader-0.0.4.dist-info}/WHEEL +1 -1
scdataloader-0.0.2.dist-info/RECORD +0 -12
{scdataloader-0.0.2.dist-info → scdataloader-0.0.4.dist-info}/LICENSE +0 -0
{scdataloader-0.0.2.dist-info → scdataloader-0.0.4.dist-info}/entry_points.txt +0 -0

scdataloader/data.py CHANGED Viewed

@@ -1,84 +1,53 @@
 from dataclasses import dataclass, field
 import lamindb as ln
-import lnschema_bionty as lb
+import bionty as bt
 import pandas as pd
 from torch.utils.data import Dataset as torchDataset
+from typing import Union, Optional, Literal
 from scdataloader import mapped
+import warnings
+from anndata import AnnData
+from scdataloader.utils import get_ancestry_mapping, load_genes
-# TODO: manage load gene embeddings to make
-# from scprint.dataloader.embedder import embed
-from scdataloader.utils import get_ancestry_mapping, pd_load_cached
-LABELS_TOADD = {
-    "assay_ontology_term_id": [
-        "10x transcription profiling",
-        "spatial transcriptomics",
-        "10x 3' transcription profiling",
-        "10x 5' transcription profiling",
-    ],
-    "disease_ontology_term_id": [
-        "metabolic disease",
-        "chronic kidney disease",
-        "chromosomal disorder",
-        "infectious disease",
-        "inflammatory disease",
-        # "immune system disease",
-        "disorder of development or morphogenesis",
-        "mitochondrial disease",
-        "psychiatric disorder",
-        "cancer or benign tumor",
-        "neoplasm",
-    ],
-    "cell_type_ontology_term_id": [
-        "progenitor cell",
-        "hematopoietic cell",
-        "myoblast",
-        "myeloid cell",
-        "neuron",
-        "electrically active cell",
-        "epithelial cell",
-        "secretory cell",
-        "stem cell",
-        "non-terminally differentiated cell",
-        "supporting cell",
-    ],
-}
+from .config import LABELS_TOADD
 @dataclass
 class Dataset(torchDataset):
     """
-    Dataset class to load a bunch of anndata from a lamin dataset in a memory efficient way.
+    Dataset class to load a bunch of anndata from a lamin dataset (Collection) in a memory efficient way.
-    For an example, see :meth:`~lamindb.Dataset.mapped`.
+    This serves as a wrapper around lamin's mappedCollection to provide more features,
+    mostly, the management of hierarchical labels, the encoding of labels, the management of multiple species
+    For an example of mappedDataset, see :meth:`~lamindb.Dataset.mapped`.
     .. note::
-        A similar data loader exists `here
+        A related data loader exists `here
         <https://github.com/Genentech/scimilarity>`__.
-    Attributes:
+    Args:
     ----
         lamin_dataset (lamindb.Dataset): lamin dataset to load
         genedf (pd.Dataframe): dataframe containing the genes to load
-        gene_embedding: dataframe containing the gene embeddings
         organisms (list[str]): list of organisms to load
-        obs (list[str]): list of observations to load
-        encode_obs (list[str]): list of observations to encode
-        map_hierarchy: list of observations to map to a hierarchy
+            (for now only validates the the genes map to this organism)
+        obs (list[str]): list of observations to load from the Collection
+        clss_to_pred (list[str]): list of observations to encode
+        join_vars (flag): join variables @see :meth:`~lamindb.Dataset.mapped`.
+        hierarchical_clss: list of observations to map to a hierarchy using lamin's bionty
     """
-    lamin_dataset: ln.Dataset
-    genedf: pd.DataFrame = None
-    gene_embedding: pd.DataFrame = (
-        None  # TODO: make it part of specialized dataset
-    )
-    organisms: list[str] = field(
+    lamin_dataset: ln.Collection
+    genedf: Optional[pd.DataFrame] = None
+    organisms: Optional[Union[list[str], str]] = field(
         default_factory=["NCBITaxon:9606", "NCBITaxon:10090"]
     )
-    obs: list[str] = field(
+    obs: Optional[list[str]] = field(
         default_factory=[
             "self_reported_ethnicity_ontology_term_id",
             "assay_ontology_term_id",
@@ -89,48 +58,75 @@ class Dataset(torchDataset):
             "sex_ontology_term_id",
             #'dataset_id',
             #'cell_culture',
-            "dpt_group",
-            "heat_diff",
-            "nnz",
+            #"dpt_group",
+            #"heat_diff",
+            #"nnz",
         ]
     )
-    encode_obs: list[str] = field(default_factory=list)
-    map_hierarchy: list[str] = field(default_factory=list)
+    # set of obs to prepare for prediction (encode)
+    clss_to_pred: Optional[list[str]] = field(default_factory=list)
+    # set of obs that need to be hierarchically prepared
+    hierarchical_clss: Optional[list[str]] = field(default_factory=list)
+    join_vars: Optional[Literal["auto", "inner", "None"]] = "None"
     def __post_init__(self):
         self.mapped_dataset = mapped.mapped(
             self.lamin_dataset,
             label_keys=self.obs,
-            encode_labels=self.encode_obs,
+            encode_labels=self.clss_to_pred,
             stream=True,
             parallel=True,
-            join_vars="None",
+            join_vars=self.join_vars,
         )
         print(
             "won't do any check but we recommend to have your dataset coming from local storage"
         )
+        self.class_groupings = {}
+        self.class_topred = {}
         # generate tree from ontologies
-        if len(self.map_hierarchy) > 0:
-            self.define_hierarchies(self.map_hierarchy)
+        if len(self.hierarchical_clss) > 0:
+            self.define_hierarchies(self.hierarchical_clss)
+        if len(self.clss_to_pred) > 0:
+            for clss in self.clss_to_pred:
+                if clss not in self.hierarchical_clss:
+                    # otherwise it's already been done
+                    self.class_topred[clss] = self.mapped_dataset.get_merged_categories(
+                        clss
+                    )
+                    update = {}
+                    c = 0
+                    for k, v in self.mapped_dataset.encoders[clss].items():
+                        if k == self.mapped_dataset.unknown_class:
+                            update.update({k: v})
+                            c += 1
+                            self.class_topred[clss] -= set([k])
+                        else:
+                            update.update({k: v - c})
+                    self.mapped_dataset.encoders[clss] = update
         if self.genedf is None:
-            self.genedf = self.load_genes(self.organisms)
-        if self.gene_embedding is None:
-            self.gene_embedding = self.load_embeddings(self.genedf)
-        else:
-            # self.genedf = pd.concat(
-            #    [self.genedf.set_index("ensembl_gene_id"), self.gene_embedding],
-            #    axis=1,
-            #    join="inner",
-            # )
-            self.genedf.columns = self.genedf.columns.astype(str)
+            self.genedf = load_genes(self.organisms)
+        self.genedf.columns = self.genedf.columns.astype(str)
+        for organism in self.organisms:
+            ogenedf = self.genedf[self.genedf.organism == organism]
+            self.mapped_dataset._check_aligned_vars(ogenedf.index.tolist())
     def __len__(self, **kwargs):
         return self.mapped_dataset.__len__(**kwargs)
+    @property
+    def encoder(self):
+        return self.mapped_dataset.encoders
     def __getitem__(self, *args, **kwargs):
         item = self.mapped_dataset.__getitem__(*args, **kwargs)
+        # import pdb
+        # pdb.set_trace()
+        # item.update(
+        #    {"unseen_genes": self.get_unseen_mapped_dataset_elements(*args, **kwargs)}
+        # )
         # ret = {}
         # ret["count"] = item[0]
         # for i, val in enumerate(self.obs):
@@ -141,149 +137,36 @@ class Dataset(torchDataset):
         return item
     def __repr__(self):
-        print(
-            "total dataset size is {} Gb".format(
-                sum([file.size for file in self.lamin_dataset.artifacts.all()])
-                / 1e9
+        return (
+            "total dataset size is {} Gb\n".format(
+                sum([file.size for file in self.lamin_dataset.artifacts.all()]) / 1e9
             )
-        )
-        print("---")
-        print("dataset contains:")
-        print("     {} cells".format(self.mapped_dataset.__len__()))
-        print("     {} genes".format(self.genedf.shape[0]))
-        print("     {} labels".format(len(self.obs)))
-        print("     {} organisms".format(len(self.organisms)))
-        print(
-            "dataset contains {} classes to predict".format(
-                sum([len(self.class_topred[i]) for i in self.class_topred])
+            + "---\n"
+            + "dataset contains:\n"
+            + "     {} cells\n".format(self.mapped_dataset.__len__())
+            + "     {} genes\n".format(self.genedf.shape[0])
+            + "     {} labels\n".format(len(self.obs))
+            + "     {} clss_to_pred\n".format(len(self.clss_to_pred))
+            + "     {} hierarchical_clss\n".format(len(self.hierarchical_clss))
+            + "     {} join_vars\n".format(len(self.join_vars))
+            + "     {} organisms\n".format(len(self.organisms))
+            + (
+                "dataset contains {} classes to predict\n".format(
+                    sum([len(self.class_topred[i]) for i in self.class_topred])
+                )
+                if len(self.class_topred) > 0
+                else ""
             )
         )
-        print("embedding size is {}".format(self.gene_embedding.shape[1]))
-        return ""
     def get_label_weights(self, *args, **kwargs):
         return self.mapped_dataset.get_label_weights(*args, **kwargs)
-    def get_unseen_mapped_dataset_elements(self, idx):
-        return [
-            str(i)[2:-1] for i in self.mapped_dataset.uns(idx, "unseen_genes")
-        ]
-    def use_prior_network(
-        self, name="collectri", organism="human", split_complexes=True
-    ):
-        """
-        use_prior_network loads a prior GRN from a list of available networks.
-        Args:
-            name (str, optional): name of the network to load. Defaults to "collectri".
-            organism (str, optional): organism to load the network for. Defaults to "human".
-            split_complexes (bool, optional): whether to split complexes into individual genes. Defaults to True.
-        Raises:
-            ValueError: if the provided name is not amongst the available names.
-        """
-        # TODO: use omnipath instead
-        if name == "tflink":
-            TFLINK = "https://cdn.netbiol.org/tflink/download_files/TFLink_Homo_sapiens_interactions_All_simpleFormat_v1.0.tsv.gz"
-            net = pd_load_cached(TFLINK)
-            net = net.rename(
-                columns={"Name.TF": "regulator", "Name.Target": "target"}
-            )
-        elif name == "htftarget":
-            HTFTARGET = "http://bioinfo.life.hust.edu.cn/static/hTFtarget/file_download/tf-target-infomation.txt"
-            net = pd_load_cached(HTFTARGET)
-            net = net.rename(columns={"TF": "regulator"})
-        elif name == "collectri":
-            import decoupler as dc
-            net = dc.get_collectri(
-                organism=organism, split_complexes=split_complexes
-            )
-            net = net.rename(columns={"source": "regulator"})
-        else:
-            raise ValueError(
-                f"provided name: '{name}' is not amongst the available names."
-            )
-        self.add_prior_network(net)
-    def add_prior_network(self, prior_network: pd.DataFrame, init_len):
-        # validate the network dataframe
-        required_columns: list[str] = ["target", "regulators"]
-        optional_columns: list[str] = ["type", "weight"]
-        for column in required_columns:
-            assert (
-                column in prior_network.columns
-            ), f"Column '{column}' is missing in the provided network dataframe."
-        for column in optional_columns:
-            if column not in prior_network.columns:
-                print(
-                    f"Optional column '{column}' is not present in the provided network dataframe."
-                )
-        assert (
-            prior_network["target"].dtype == "str"
-        ), "Column 'target' should be of dtype 'str'."
-        assert (
-            prior_network["regulators"].dtype == "str"
-        ), "Column 'regulators' should be of dtype 'str'."
+    def get_unseen_mapped_dataset_elements(self, idx: int):
+        return [str(i)[2:-1] for i in self.mapped_dataset.uns(idx, "unseen_genes")]
-        if "type" in prior_network.columns:
-            assert (
-                prior_network["type"].dtype == "str"
-            ), "Column 'type' should be of dtype 'str'."
-        if "weight" in prior_network.columns:
-            assert (
-                prior_network["weight"].dtype == "float"
-            ), "Column 'weight' should be of dtype 'float'."
-        # TODO: check that we match the genes in the network to the genes in the dataset
-        print(
-            "loaded {:.2f}% of the edges".format(
-                (len(prior_network) / init_len) * 100
-            )
-        )
-        # TODO: transform it into a sparse matrix
-        self.prior_network = prior_network
-        self.network_size = len(prior_network)
-        # self.overlap =
-        # self.edge_freq
-    def load_genes(self, organisms):
-        organismdf = []
-        for o in organisms:
-            organism = lb.Gene(
-                organism=lb.Organism.filter(ontology_id=o).one()
-            ).df()
-            organism["organism"] = o
-            organismdf.append(organism)
-        return pd.concat(organismdf)
-    # def load_embeddings(self, genedfs, embedding_size=128, cache=True):
-    #    embeddings = []
-    #    for o in self.organisms:
-    #        genedf = genedfs[genedfs.organism == o]
-    #        org_name = lb.Organism.filter(ontology_id=o).one().scientific_name
-    #        embedding = embed(
-    #            genedf=genedf,
-    #            organism=org_name,
-    #            cache=cache,
-    #            fasta_path="/tmp/data/fasta/",
-    #            embedding_size=embedding_size,
-    #        )
-    #        genedf = pd.concat(
-    #            [genedf.set_index("ensembl_gene_id"), embedding], axis=1, join="inner"
-    #        )
-    #        genedf.columns = genedf.columns.astype(str)
-    #        embeddings.append(genedf)
-    #    return pd.concat(embeddings)
-    def define_hierarchies(self, labels):
+    def define_hierarchies(self, labels: list[str]):
+        # TODO: use all possible hierarchies instead of just the ones for which we have a sample annotated with
         self.class_groupings = {}
         self.class_topred = {}
         for label in labels:
@@ -302,37 +185,37 @@ class Dataset(torchDataset):
                 )
             elif label == "cell_type_ontology_term_id":
                 parentdf = (
-                    lb.CellType.filter()
+                    bt.CellType.filter()
                     .df(include=["parents__ontology_id"])
                     .set_index("ontology_id")
                 )
             elif label == "tissue_ontology_term_id":
                 parentdf = (
-                    lb.Tissue.filter()
+                    bt.Tissue.filter()
                     .df(include=["parents__ontology_id"])
                     .set_index("ontology_id")
                 )
             elif label == "disease_ontology_term_id":
                 parentdf = (
-                    lb.Disease.filter()
+                    bt.Disease.filter()
                     .df(include=["parents__ontology_id"])
                     .set_index("ontology_id")
                 )
             elif label == "development_stage_ontology_term_id":
                 parentdf = (
-                    lb.DevelopmentalStage.filter()
+                    bt.DevelopmentalStage.filter()
                     .df(include=["parents__ontology_id"])
                     .set_index("ontology_id")
                 )
             elif label == "assay_ontology_term_id":
                 parentdf = (
-                    lb.ExperimentalFactor.filter()
+                    bt.ExperimentalFactor.filter()
                     .df(include=["parents__ontology_id"])
                     .set_index("ontology_id")
                 )
             elif label == "self_reported_ethnicity_ontology_term_id":
                 parentdf = (
-                    lb.Ethnicity.filter()
+                    bt.Ethnicity.filter()
                     .df(include=["parents__ontology_id"])
                     .set_index("ontology_id")
                 )
@@ -344,10 +227,90 @@ class Dataset(torchDataset):
                     )
                 )
             cats = self.mapped_dataset.get_merged_categories(label)
-            cats |= set(LABELS_TOADD.get(label, []))
+            addition = set(LABELS_TOADD.get(label, {}).values())
+            cats |= addition
+            # import pdb
+            # pdb.set_trace()
             groupings, _, lclass = get_ancestry_mapping(cats, parentdf)
             for i, j in groupings.items():
                 if len(j) == 0:
                     groupings.pop(i)
             self.class_groupings[label] = groupings
-            self.class_topred[label] = lclass
+            if label in self.clss_to_pred:
+                # if we have added new labels, we need to update the encoder with them too.
+                mlength = len(self.mapped_dataset.encoders[label])
+                mlength -= (
+                    1
+                    if self.mapped_dataset.unknown_class
+                    in self.mapped_dataset.encoders[label].keys()
+                    else 0
+                )
+                for i, v in enumerate(
+                    addition - set(self.mapped_dataset.encoders[label].keys())
+                ):
+                    self.mapped_dataset.encoders[label].update({v: mlength + i})
+                # we need to change the ordering so that the things that can't be predicted appear afterward
+                self.class_topred[label] = lclass
+                c = 0
+                d = 0
+                update = {}
+                mlength = len(lclass)
+                # import pdb
+                # pdb.set_trace()
+                mlength -= (
+                    1
+                    if self.mapped_dataset.unknown_class
+                    in self.mapped_dataset.encoders[label].keys()
+                    else 0
+                )
+                for k, v in self.mapped_dataset.encoders[label].items():
+                    if k in self.class_groupings[label].keys():
+                        update.update({k: mlength + c})
+                        c += 1
+                    elif k == self.mapped_dataset.unknown_class:
+                        update.update({k: v})
+                        d += 1
+                        self.class_topred[label] -= set([k])
+                    else:
+                        update.update({k: (v - c) - d})
+                self.mapped_dataset.encoders[label] = update
+class SimpleAnnDataset:
+    def __init__(
+        self,
+        adata: AnnData,
+        obs_to_output: Optional[list[str]] = [],
+        layer: Optional[str] = None,
+    ):
+        """
+        SimpleAnnDataset is a simple dataloader for an AnnData dataset. this is to interface nicely with the rest of
+        scDataloader and with your model during inference.
+        Args:
+        ----
+            adata (anndata.AnnData): anndata object to use
+            obs_to_output (list[str]): list of observations to output from anndata.obs
+            layer (str): layer of the anndata to use
+        """
+        self.adata = adata
+        self.obs_to_output = obs_to_output
+        self.layer = layer
+    def __len__(self):
+        return self.adata.shape[0]
+    def __getitem__(self, idx):
+        with warnings.catch_warnings():
+            warnings.filterwarnings("ignore", category=DeprecationWarning)
+            if self.layer is not None:
+                out = {"x": self.adata.layers[self.layer][idx].toarray().reshape(-1)}
+            else:
+                out = {"x": self.adata.X[idx].toarray().reshape(-1)}
+            for i in self.obs_to_output:
+                out.update({i: self.adata.obs.iloc[idx][i]})
+        return out

scdataloader 0.0.2__py3-none-any.whl → 0.0.4__py3-none-any.whl

scdataloader 0.0.2py3-none-any.whl → 0.0.4py3-none-any.whl