PyPI - scout-browser - Versions diffs - 4.84__py3-none-any.whl → 4.86__py3-none-any.whl - Mend

scout-browser 4.84py3-none-any.whl → 4.86py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (85) hide show

scout/__version__.py +1 -1
scout/adapter/mongo/base.py +17 -14
scout/adapter/mongo/case.py +20 -1
scout/adapter/mongo/cytoband.py +13 -0
scout/adapter/mongo/filter.py +36 -1
scout/adapter/mongo/hgnc.py +1 -1
scout/adapter/mongo/omics_variant.py +145 -0
scout/adapter/mongo/query.py +13 -3
scout/adapter/mongo/variant.py +10 -4
scout/build/case.py +5 -0
scout/build/variant/variant.py +1 -0
scout/commands/update/genes.py +9 -13
scout/constants/__init__.py +3 -1
scout/constants/case_tags.py +1 -0
scout/constants/clinvar.py +1 -1
scout/constants/file_types.py +31 -0
scout/constants/filters.py +4 -0
scout/constants/indexes.py +30 -13
scout/constants/variant_tags.py +3 -0
scout/demo/643594.clinical.mei.vcf.gz +0 -0
scout/demo/643594.clinical.mei.vcf.gz.tbi +0 -0
scout/demo/643594.config.yaml +4 -0
scout/demo/drop/fraser_top_hits_clinical.tsv +5 -0
scout/demo/drop/outrider_top_hits_clinical.tsv +10 -0
scout/load/hgnc_gene.py +39 -6
scout/load/setup.py +4 -4
scout/models/case/case_loading_models.py +25 -2
scout/models/omics_variant.py +227 -0
scout/parse/hgnc.py +1 -0
scout/parse/omics_variant/__init__.py +11 -0
scout/parse/omics_variant/drop.py +19 -0
scout/parse/variant/callers.py +6 -3
scout/parse/variant/frequency.py +10 -2
scout/parse/variant/transcript.py +1 -1
scout/parse/variant/variant.py +10 -4
scout/server/app.py +4 -1
scout/server/blueprints/alignviewers/controllers.py +35 -24
scout/server/blueprints/alignviewers/templates/alignviewers/igv_sashimi_viewer.html +19 -15
scout/server/blueprints/alignviewers/templates/alignviewers/igv_viewer.html +45 -5
scout/server/blueprints/alignviewers/templates/alignviewers/utils.html +1 -1
scout/server/blueprints/alignviewers/views.py +10 -2
scout/server/blueprints/cases/controllers.py +18 -1
scout/server/blueprints/cases/templates/cases/case.html +28 -10
scout/server/blueprints/cases/templates/cases/case_report.html +2 -17
scout/server/blueprints/cases/templates/cases/collapsible_actionbar.html +1 -1
scout/server/blueprints/cases/templates/cases/gene_panel.html +27 -41
scout/server/blueprints/cases/templates/cases/phenotype.html +8 -5
scout/server/blueprints/cases/templates/cases/utils.html +27 -4
scout/server/blueprints/clinvar/controllers.py +9 -3
scout/server/blueprints/dashboard/controllers.py +44 -13
scout/server/blueprints/dashboard/static/charts.js +46 -36
scout/server/blueprints/dashboard/templates/dashboard/dashboard_general.html +2 -2
scout/server/blueprints/institutes/forms.py +2 -0
scout/server/blueprints/institutes/templates/overview/cases.html +6 -4
scout/server/blueprints/institutes/templates/overview/gene_variants.html +40 -27
scout/server/blueprints/institutes/templates/overview/institute_sidebar.html +1 -1
scout/server/blueprints/institutes/views.py +5 -12
scout/server/blueprints/omics_variants/__init__.py +1 -0
scout/server/blueprints/omics_variants/controllers.py +122 -0
scout/server/blueprints/omics_variants/templates/omics_variants/outliers.html +262 -0
scout/server/blueprints/omics_variants/views.py +106 -0
scout/server/blueprints/panels/controllers.py +1 -7
scout/server/blueprints/panels/templates/panels/panels.html +12 -4
scout/server/blueprints/panels/views.py +9 -11
scout/server/blueprints/variant/templates/variant/buttons.html +7 -2
scout/server/blueprints/variant/templates/variant/str-variant-reviewer.html +1 -1
scout/server/blueprints/variant/templates/variant/utils.html +1 -1
scout/server/blueprints/variant/utils.py +54 -103
scout/server/blueprints/variant/views.py +1 -0
scout/server/blueprints/variants/controllers.py +1 -4
scout/server/blueprints/variants/forms.py +42 -0
scout/server/blueprints/variants/templates/variants/utils.html +8 -4
scout/server/blueprints/variants/views.py +28 -7
scout/server/config.py +4 -0
scout/server/extensions/clinvar_extension.py +7 -7
scout/server/links.py +2 -2
scout/server/templates/bootstrap_global.html +1 -4
scout/server/templates/utils.html +4 -4
scout/server/utils.py +4 -1
{scout_browser-4.84.dist-info → scout_browser-4.86.dist-info}/METADATA +11 -11
{scout_browser-4.84.dist-info → scout_browser-4.86.dist-info}/RECORD +85 -75
{scout_browser-4.84.dist-info → scout_browser-4.86.dist-info}/WHEEL +1 -1
{scout_browser-4.84.dist-info → scout_browser-4.86.dist-info}/LICENSE +0 -0
{scout_browser-4.84.dist-info → scout_browser-4.86.dist-info}/entry_points.txt +0 -0
{scout_browser-4.84.dist-info → scout_browser-4.86.dist-info}/top_level.txt +0 -0

scout/constants/indexes.py CHANGED Viewed

@@ -12,23 +12,48 @@ INDEXES = {
         IndexModel(
             [("build", ASCENDING), ("chromosome", ASCENDING)],
             name="build_chromosome",
-            background=True,
         ),
         IndexModel(
             [("build", ASCENDING), ("hgnc_id", ASCENDING)],
             name="build_hgncid",
-            background=True,
         ),
         IndexModel(
             [("build", ASCENDING), ("aliases", ASCENDING)],
             name="build_aliases",
-            background=True,
         ),
         IndexModel(
             [("build", ASCENDING), ("hgnc_symbol", ASCENDING)],
             name="build_hgnc_symbol",
         ),
     ],
+    "omics_variant": [
+        IndexModel(
+            # Clear text variant id index
+            [
+                ("omics_variant_id", ASCENDING),
+            ],
+            name="omics_variant_id",
+        ),
+        IndexModel(
+            # Index for searching across cases for a change in given genes
+            [
+                ("hgnc_ids", ASCENDING),
+                ("sub_category", ASCENDING),
+                ("variant_type", ASCENDING),
+            ],
+            name="hgnc_ids_sub_category_variant_type",
+        ),
+        IndexModel(
+            # Filterish index
+            [
+                ("case_id", ASCENDING),
+                ("variant_type", ASCENDING),
+                ("sub_category", ASCENDING),
+                ("hgnc_ids", ASCENDING),
+            ],
+            name="case_id_variant_type_sub_category_hgnc_ids",
+        ),
+    ],
     "variant": [
         IndexModel(
             [
@@ -39,7 +64,6 @@ INDEXES = {
                 ("hgnc_ids", ASCENDING),
             ],
             name="caseid_category_varianttype_variantrank_hgncids",
-            background=True,
         ),
         IndexModel(
             [
@@ -49,8 +73,7 @@ INDEXES = {
                 ("variant_type", ASCENDING),
             ],
             name="hgncsymbol_rankscore_category_varianttype",
-            background=True,
-            partialFilterExpression={"rank_score": {"$gt": 5}, "category": "snv"},
+            partialFilterExpression={"rank_score": {"$gte": 5}},
         ),
         IndexModel(
             [
@@ -59,7 +82,6 @@ INDEXES = {
                 ("category", ASCENDING),
             ],
             name="variantid_caseid_category",
-            background=True,
         ),
         IndexModel(
             [
@@ -69,7 +91,6 @@ INDEXES = {
                 ("rank_score", ASCENDING),
             ],
             name="category_caseid_varianttype_rankscore",
-            background=True,
         ),
         IndexModel(
             [
@@ -81,18 +102,16 @@ INDEXES = {
                 ("end", ASCENDING),
             ],
             name="caseid_category_chromosome_start_end",
-            background=True,
         ),
         IndexModel(
             [("variant_id", ASCENDING), ("institute", ASCENDING)],
             name="variant_id_institute",
-            background=True,
         ),
     ],
     "hpo_term": [
         IndexModel([("description", ASCENDING)], name="description"),
         IndexModel([("description", TEXT)], default_language="english", name="description_text"),
-        IndexModel([("hpo_number", ASCENDING)], name="number", background=True),
+        IndexModel([("hpo_number", ASCENDING)], name="number"),
     ],
     "event": [
         IndexModel(
@@ -115,14 +134,12 @@ INDEXES = {
         IndexModel(
             [("build", ASCENDING), ("hgnc_id", ASCENDING), ("length", DESCENDING)],
             name="hgncid_length",
-            background=True,
         )
     ],
     "exon": [
         IndexModel(
             [("build", ASCENDING), ("hgnc_id", ASCENDING)],
             name="build_hgncid",
-            background=True,
         )
     ],
     "case": [

scout/constants/variant_tags.py CHANGED Viewed

@@ -37,6 +37,8 @@ FEATURE_TYPES = (
 SV_TYPES = ("ins", "del", "dup", "cnv", "inv", "bnd")
+OUTLIER_TYPES = ("splicing", "expression")
 GENETIC_MODELS = (
     ("AR_hom", "Autosomal Recessive Homozygote"),
     ("AR_hom_dn", "Autosomal Recessive Homozygote De Novo"),
@@ -519,4 +521,5 @@ VARIANTS_TARGET_FROM_CATEGORY = {
     "snv": "variants.variants",
     "str": "variants.str_variants",
     "fusion": "variants.fusion_variants",
+    "outlier": "omics_variants.outliers",
 }

scout/demo/643594.clinical.mei.vcf.gz CHANGED Viewed

Binary file

scout/demo/643594.clinical.mei.vcf.gz.tbi CHANGED Viewed

Binary file

scout/demo/643594.config.yaml CHANGED Viewed

@@ -125,6 +125,10 @@ vcf_snv_research: scout/demo/643594.research.vcf.gz
 vcf_sv_research: scout/demo/643594.research.SV.vcf.gz
 vcf_mei_research: scout/demo/643594.research.mei.vcf.gz
+omics_files:
+    fraser: scout/demo/drop/fraser_top_hits_clinical.tsv
+    outrider: scout/demo/drop/outrider_top_hits_clinical.tsv
 smn_tsv: scout/demo/643594.solo.smn.tsv
 madeline: scout/demo/madeline.xml

scout/demo/drop/fraser_top_hits_clinical.tsv ADDED Viewed

@@ -0,0 +1,5 @@
+hgnc_id	geneID	hgncSymbol	gene_type	gene_name_orig	sampleID	seqnames	start	end	width	strand	type	pValue	psiValue	deltaPsi	counts	totalCounts	meanCounts	meanTotalCounts	nonsplitCounts	nonsplitProportion	nonsplitProportion_99quantile	annotatedJunction	pValueGene	padjustGene	PAIRED_END	DNA_ID	DROP_GROUP	SPLICE_COUNTS_DIR	HPO_TERMS	GENE_COUNTS_FILE	GENE_ANNOTATION	GENOME	isExternal	potentialImpact	causesFrameshift	UTR_overlap	blacklist
+2439	ENSG00000119535.18	CSF3R	protein_coding	CSF3R	ADM1059A2	chr1	36479517	Imp	1961	-	jaccard	1.6652e-06	0.49	-0.39	127	258	4237.77	4570.55	3	0.01	0.02	both	9.9912e-06	0.013423	True		outrider,fraser						False	annotatedIntron_reducedUsage	unlikely	5'-UTR	False
+4831	ENSG00000213934.9	HBG1	protein_coding	HBG1	ADM1059A2	chr11	5248488	5254291	5804	-	jaccard	1.918e-12	0.36	0.35	35	96	22.84	6902.91	0	0.0	0.0	end	5.7541e-12	1.2885e-08	True		outrider,fraser						False	exonSkipping	inconclusive	3'-UTR	False
+4832	ENSG00000196565.15	HBG2	protein_coding	HBG2	ADM1059A2	chr11	5248488	5254291	5804	-	jaccard	1.918e-12	0.36	0.35	35	96	22.84	6902.91	0	0.0	0.0	end	3.836e-12	1.2885e-08	True		outrider,fraser						False	exonSkipping	inconclusive	3'-UTR	False
+17284	ENSG00000213934.9	POT1	protein_coding	POT1	ADM1059A2	chr7	124532319	124532434	115	-	jaccard	1.918e-12	0.36	0.35	35	96	22.84	6902.91	0	0.0	0.0	end	5.7541e-12	1.2885e-08	True		outrider,fraser						False	exonSkipping	inconclusive	3'-UTR	False

scout/demo/drop/outrider_top_hits_clinical.tsv ADDED Viewed

@@ -0,0 +1,10 @@
+hgnc_id	seqnames	start	end	strand	geneID	hgncSymbol	gene_type	gene_name_orig	sampleID	pValue	padjust	zScore	l2fc	rawcounts	normcounts	meanCorrected	theta	aberrant	AberrantBySample	AberrantByGene	padj_rank	FDR_set	foldChange
+25415	chr4	88257620	88284769	-	ENSG00000163644.15	PPM1K	protein_coding	PPM1K	ADM1059A2	0.0016124374690447165	1.0	-5.92	-0.9	27	317.46	601.46	139.77	False	4.0	0.0	6110.0	transcriptome-wide	0.54
+10019	chr6	3063824	3115187	+	ENSG00000137275.16	RIPK1	protein_coding	RIPK1	ADM1059A2	0.0009997468998232232	1.0	6.33	0.53	104	1891.09	1308.4	547.35	False	4.0	0.0	6110.0	transcriptome-wide	1.44
+4827	chr11	5225464	5229395	-	ENSG00000244734.4	HBB	protein_coding	HBB	ADM1059A2	3.417496739472308e-25	4.169327890311004e-20	-12.61	-10.14	61	2625.42	3016434.64	9.21	True	4.0	1.0	1.0	transcriptome-wide	0.0
+4831	chr11	5248269	5249857	-	ENSG00000213934.9	HBG1	protein_coding	HBG1	ADM1059A3	0.0016205310428587193	1.0	2.23	2.86	73	151.01	19.19	0.91	False	4.0	0.0	6110.0	transcriptome-wide	7.26
+16860	chr12	108522214	108561400	-	ENSG00000075856.12	SART3	protein_coding	SART3	ADM1059A2	0.0014636643867152977	1.0	7.02	0.51	97	1412.71	989.2	1000.0	False	4.0	0.0	6110.0	transcriptome-wide	1.42
+4824	chr16	172876	173710	+	ENSG00000188536.13	HBA2	protein_coding	HBA2	ADM1059A2	2.15484140654196e-24	1.2729742965811128e-19	-12.53	-10.01	262	6781.29	7019330.9	8.97	True	4.0	1.0	2.5	transcriptome-wide	0.0
+4823	chr16	176680	177522	+	ENSG00000206172.8	HBA1	protein_coding	HBA1	ADM1059A2	3.1302782768232926e-24	1.2729742965811128e-19	-12.5	-9.97	246	6497.61	6540277.08	8.95	True	4.0	1.0	2.5	transcriptome-wide	0.0
+9543	chr17	4796144	4798502	+	ENSG00000142507.10	PSMB6	protein_coding	PSMB6	ADM1059A2	0.0010771639306525651	1.0	-10.54	-1.14	13	342.89	783.82	1000.0	False	4.0	0.0	6110.0	transcriptome-wide	0.45
+17284	chr7	124532319	124532434	-	ENSG00000213934.9	POT1	protein_coding	POT1	ADM1059A2	0.0016205310428587193	1.0	2.23	2.86	73	151.01	19.19	0.91	False	4.0	0.0	6110.0	transcriptome-wide	7.26

scout/load/hgnc_gene.py CHANGED Viewed

@@ -1,5 +1,6 @@
 # -*- coding: utf-8 -*-
 import logging
+from typing import Dict
 from click import progressbar
@@ -16,6 +17,22 @@ from scout.utils.scout_requests import (
 LOG = logging.getLogger(__name__)
+def set_missing_gene_coordinates(gene_data: dict, cytoband_coords: Dict[str, dict]):
+    """Attempt at collecting gene coordinates from cytoband for genes missing Ensembl ID."""
+    if gene_data.get("ensembl_gene_id") not in [
+        "",
+        None,
+    ]:  # Coordinates are present, since they're collected from the Ensembl file
+        return
+    gene_data["ensembl_gene_id"] = None
+    cytoband_coord: dict = cytoband_coords.get(gene_data["location"])
+    if cytoband_coord:
+        gene_data["chromosome"]: str = cytoband_coord["chromosome"]
+        gene_data["start"]: int = cytoband_coord["start"]
+        gene_data["end"]: int = cytoband_coord["stop"]
 def load_hgnc_genes(
     adapter,
     genes=None,
@@ -36,7 +53,7 @@ def load_hgnc_genes(
     Args:
         adapter(scout.adapter.MongoAdapter)
         genes(dict): If genes are already parsed
-        ensembl_lines(iterable(str)): Lines formated with ensembl gene information
+        ensembl_lines(iterable(str)): Lines formatted with ensembl gene information
         hgnc_lines(iterable(str)): Lines with gene information from genenames.org
         exac_lines(iterable(str)): Lines with information pLi-scores from ExAC
         mim2gene(iterable(str)): Lines with map from omim id to gene symbol
@@ -78,20 +95,36 @@ def load_hgnc_genes(
             genemap_lines=genemap_lines,
         )
-    non_existing = 0
+    without_coords = 0
     nr_genes = len(genes)
     LOG.info(f"Building info for {nr_genes} genes")
+    cytoband_coords: Dict[str, dict] = adapter.cytoband_to_coordinates(build=build)
     with progressbar(genes.values(), label="Building genes", length=nr_genes) as bar:
         for gene_data in bar:
+            set_missing_gene_coordinates(gene_data=gene_data, cytoband_coords=cytoband_coords)
             if not gene_data.get("chromosome"):
-                non_existing += 1
+                without_coords += 1
                 continue
+            gene_obj = build_hgnc_gene(
+                gene_data,
+                build=build,
+            )
-            gene_obj = build_hgnc_gene(gene_data, build=build)
-            gene_objects.append(gene_obj)
+            if gene_obj:
+                gene_objects.append(gene_obj)
+            else:
+                without_coords += 1
-    LOG.info("Nr of genes without coordinates in build %s: %s", build, non_existing)
+    LOG.info(
+        "Nr of genes without coordinates in build %s and therefore skipped: %s",
+        build,
+        without_coords,
+    )
     LOG.info(f"Loading {len(gene_objects)} genes into the database")
     adapter.load_hgnc_bulk(gene_objects)
     LOG.info("Loading done. %s genes loaded", len(gene_objects))

scout/load/setup.py CHANGED Viewed

@@ -51,12 +51,12 @@ def setup_scout(
     WARNING: If the instance is populated all collections will be deleted
-    Build insert a institute and an admin user.
-    There are multiple sources of information that is used by scout and that needs to exist for
-    scout to work proper.
+    Build and insert an institute and an admin user.
+    Multiple sources of information that are used by scout need to exist for
+    scout to work properly.
     Genes:
-         Scout uses HGNC as the source for gene identifiers en ensembl as source for coordinates.
+         Scout uses HGNC as the source for gene identifiers and ENSEMBL as source for coordinates.
          Additional information of disease connections for genes if fetched from OMIM.
          Link between hpo terms and genes is fetched from HPO
          For more details check the documentation.

scout/models/case/case_loading_models.py CHANGED Viewed

@@ -15,7 +15,7 @@ except ImportError:
 from pydantic import BaseModel, Field, field_validator, model_validator
-from scout.constants import ANALYSIS_TYPES, FILE_TYPE_MAP
+from scout.constants import ANALYSIS_TYPES, FILE_TYPE_MAP, OMICS_FILE_TYPE_MAP
 from scout.exceptions import PedigreeError
 from scout.utils.date import get_date
@@ -41,15 +41,17 @@ CASE_FILE_PATH_CHECKS = [
     "cnv_report",
     "coverage_qc_report",
     "delivery_report",
+    "exe_ver",
+    "fraser_tsv",
     "gene_fusion_report",
     "gene_fusion_report_research",
     "madeline_info",
     "multiqc",
     "multiqc_rna",
+    "outrider_tsv",
     "peddy_ped",
     "peddy_ped_check",
     "peddy_sex_check",
-    "exe_ver",
     "smn_tsv",
     "reference_info",
     "RNAfusion_inspector",
@@ -59,6 +61,7 @@ CASE_FILE_PATH_CHECKS = [
 ]
 VCF_FILE_PATH_CHECKS = FILE_TYPE_MAP.keys()
+OMICS_FILE_PATH_CHECKS = OMICS_FILE_TYPE_MAP.keys()
 GENOME_BUILDS = ["37", "38"]
 TRACKS = ["rare", "cancer"]
@@ -153,6 +156,25 @@ class Mitodel(BaseModel):
     ratioppk: Optional[float] = None
+class OmicsFiles(BaseModel):
+    """Represents multiple kinds of omics files, e.g. RNA expression outliers for aberrant splicing
+    and aberrant expression."""
+    fraser: Optional[str] = None
+    fraser_research: Optional[str] = None
+    outrider: Optional[str] = None
+    outrider_research: Optional[str] = None
+    @model_validator(mode="before")
+    def validate_file_path(cls, values: Dict) -> "OmicsFiles":
+        """Make sure that VCF file exists on disk."""
+        for item in OMICS_FILE_PATH_CHECKS:
+            item_path: str = values.get(item)
+            if item_path:
+                values[item] = _resource_abs_path(item_path)
+        return values
 class REViewer(BaseModel):
     alignment: Optional[str] = None
     alignment_index: Optional[str] = None
@@ -392,6 +414,7 @@ class CaseLoader(BaseModel):
     madeline_info: Optional[str] = Field(None, alias="madeline")
     multiqc: Optional[str] = None
     multiqc_rna: Optional[str] = None
+    omics_files: Optional[OmicsFiles] = None
     owner: Optional[str] = None
     peddy_ped: Optional[str] = None  # Soon to be deprecated
     peddy_ped_check: Optional[str] = Field(None, alias="peddy_check")  # Soon to be deprecated

scout/models/omics_variant.py ADDED Viewed

@@ -0,0 +1,227 @@
+""" OMICS variant
+    For potentially causative variants that are not yet in ClinVar
+    and have yet not been marked causative in any existing case.
+"""
+import logging
+from datetime import datetime
+from typing import List, Optional
+from pydantic import BaseModel, Field, field_validator, model_validator
+LOG = logging.getLogger(__name__)
+class OmicsVariantLoader(BaseModel):
+    """Omics variants loader
+    OmicsVariants are e.g. RNA expression outliers as identified by the DROP pipeline.
+    Variable names are as found in the original files, plus a set common to all mixed in after file parsing,
+    but before model validation by this class.
+    The serialisation names will be used when dumping the model for e.g. db storage.
+    """
+    case_id: str
+    institute: str
+    build: str = "38"
+    variant_type: str = "clinical"
+    category: str  # eg "outlier"
+    sub_category: str  # eg "splicing"
+    date: datetime = datetime.now()
+    display_name: str
+    omics_variant_id: str
+    # DROP Fraser and Outrider outlier TSVs
+    # sample id is mandatory: each row pertains to one outlier event in one individual as compared to others
+    # In the db object, this will be replaced with a "samples" array of individual dict.
+    sampleID: str
+    # outlier variants must identify the gene they pertain to, primarily with an hgnc_id
+    hgnc_ids: Optional[List[int]] = Field(alias="hgnc_id", serialization_alias="hgnc_ids")
+    geneID: Optional[str]
+    hgnc_symbols: Optional[List[str]] = Field(
+        alias="hgncSymbol", serialization_alias="hgnc_symbols"
+    )
+    gene_name_orig: Optional[str]
+    gene_type: Optional[str]
+    # coordinates if applicable
+    chromosome: Optional[str] = Field(alias="seqnames", serialization_alias="chromosome")
+    position: Optional[int] = Field(alias="start", serialization_alias="position")
+    end: Optional[int]
+    width: Optional[int] = None
+    strand: Optional[str] = None
+    p_value: Optional[float] = Field(alias="pValue", serialization_alias="p_value", default=None)
+    # Fraser specific
+    type: Optional[str] = None
+    psi_value: Optional[float] = Field(
+        alias="psiValue", serialization_alias="psi_value", default=None
+    )
+    delta_psi: Optional[float] = Field(
+        alias="deltaPsi", serialization_alias="delta_psi", default=None
+    )
+    counts: Optional[int] = None
+    total_counts: Optional[int] = Field(
+        alias="totalCounts", serialization_alias="total_counts", default=None
+    )
+    mean_counts: Optional[float] = Field(
+        alias="meanCounts", serialization_alias="mean_counts", default=None
+    )
+    mean_total_counts: Optional[float] = Field(
+        alias="meanTotalCounts", serialization_alias="mean_total_counts", default=None
+    )
+    nonsplit_counts: Optional[int] = Field(
+        alias="nonsplitCounts", serialization_alias="nonsplit_counts", default=None
+    )
+    nonsplit_proportion: Optional[float] = Field(
+        alias="nonsplitProportion", serialization_alias="nonsplit_proportion", default=None
+    )
+    nonsplit_proportion_99quantile: Optional[float] = Field(
+        alias="nonsplitProportion_99quantile",
+        serialization_alias="nonsplit_proportion_99quantile",
+        default=None,
+    )
+    annotated_junction: Optional[str] = Field(
+        alias="annotatedJunction", serialization_alias="annotated_junction", default=None
+    )
+    p_value_gene: Optional[float] = Field(
+        alias="pValueGene", serialization_alias="p_value_gene", default=None
+    )
+    p_adjust_gene: Optional[float] = Field(
+        alias="padjustGene", serialization_alias="p_adjust_gene", default=None
+    )
+    paired_end: Optional[str] = Field(
+        alias="PAIRED_END", serialization_alias="paired_end", default=None
+    )
+    is_external: Optional[bool] = Field(
+        alias="isExternal", serialization_alias="is_external", default=None
+    )
+    potential_impact: Optional[str] = Field(
+        alias="potentialImpact", serialization_alias="potential_impact", default=None
+    )
+    causes_frameshift: Optional[str] = Field(
+        alias="causesFrameshift", serialization_alias="causes_frameshift", default=None
+    )
+    utr_overlap: Optional[str] = Field(
+        alias="UTR_overlap", serialization_alias="utr_overlap", default=None
+    )
+    # Outrider specific
+    padjust: Optional[float] = None
+    zscore: Optional[float] = Field(alias="zScore", serialization_alias="zscore", default=None)
+    l2fc: Optional[float] = None
+    rawcounts: Optional[int] = None
+    normcounts: Optional[float] = None
+    meanCorrected: Optional[float] = None
+    theta: Optional[float] = None
+    aberrant: Optional[bool] = None
+    aberrant_by_sample: Optional[float] = Field(
+        alias="aberrantBySample", serialization_alias="aberrant_by_sample", default=None
+    )
+    aberrant_by_gene: Optional[float] = Field(
+        alias="aberrantByGene", serialization_alias="aberrant_by_gene", default=None
+    )
+    padj_rank: Optional[float] = None
+    fdr_set: Optional[str] = Field(alias="FDR_set", serialization_alias="fdr_set", default=None)
+    fold_change: Optional[float] = Field(
+        alias="foldChange", serialization_alias="fold_change", default=None
+    )
+    @field_validator("chromosome")
+    def strip_chr(cls, chrom: str) -> str:
+        """We store chromosome names without a chr prefix internally."""
+        return chrom.lstrip("chr")
+    @model_validator(mode="before")
+    def ensure_end(cls, values):
+        """End is not always set, but sometimes width is.
+        Sometimes Imp is given as end. Worst case we default to width 1."""
+        end_guess = int(values.get("start")) + int(values.get("width", 1))
+        if "end" not in values:
+            values["end"] = end_guess
+        if isinstance(values["end"], str):
+            if values["end"].isdigit():
+                values["end"] = int(values["end"])
+            if values["end"] == "Imp":
+                # imprecise?
+                values["end"] = end_guess
+        return values
+    @model_validator(mode="before")
+    def genes_become_lists(cls, values):
+        """HGNC ids and gene symbols are found one on each line in DROP tsvs.
+        Convert to a list with a single member in omics_variants for storage."""
+        if "hgnc_id" in values:
+            values["hgnc_id"] = [int(values.get("hgnc_id"))]
+        if "hgncSymbol" in values:
+            values["hgncSymbol"] = [str(values.get("hgncSymbol"))]
+        return values
+    @model_validator(mode="before")
+    def set_display_name(cls, values) -> "OmicsVariantLoader":
+        """Set a free text qualification, depending on the kind of variant."""
+        values["display_name"] = "_".join(
+            [
+                values.get("hgncSymbol"),
+                values.get("category"),
+                values.get("sub_category"),
+                get_qualification(values=values),
+                values.get("seqnames"),  # chrom, unserialised
+                str(values.get("start")),
+                str(values.get("end")),
+                values.get("variant_type"),
+            ]
+        )
+        return values
+    @model_validator(mode="before")
+    def set_omics_variant_id(cls, values) -> "OmicsVariantLoader":
+        """Set OMICS variant id based on the kind of variant."""
+        values["omics_variant_id"] = "_".join(
+            [
+                values.get("seqnames"),  # chrom, unserialised
+                str(values.get("start")),
+                str(values.get("end")),
+                values.get("build"),
+                values.get("hgncSymbol"),
+                values.get("sub_category"),
+                get_qualification(values=values),
+                values.get("variant_type"),
+            ]
+        )
+        return values
+    @model_validator(mode="before")
+    def set_sample_display_name(cls, values) -> "OmicsVariantLoader":
+        """Set a display name."""
+        values["display_name"] = values.get(
+            "display_name", values.get("sample_name", values.get("individual_id"))
+        )
+        return values
+def get_qualification(values: dict) -> str:
+    """Get qualification string for ID and display name.
+    This string further qualifies the kind of omics event,
+    e.g. for an expression outlier it could be 'up' or 'down'."""
+    qualification = "affected"
+    if values.get("sub_category") == "expression":
+        qualification = "up" if float(values.get("zScore", 0)) > 0 else "down"
+    if values.get("sub_category") == "splicing":
+        qualification = values.get("potentialImpact")
+    return qualification

scout/parse/hgnc.py CHANGED Viewed

@@ -24,6 +24,7 @@ def parse_hgnc_line(line, header):
     hgnc_gene["hgnc_symbol"] = hgnc_symbol
     hgnc_gene["hgnc_id"] = int(raw_info["hgnc_id"].split(":")[-1])
     hgnc_gene["description"] = raw_info["name"]
+    hgnc_gene["location"] = raw_info["location"]  # cytoband
     # We want to have the current symbol as an alias
     aliases = set([hgnc_symbol, hgnc_symbol.upper()])

scout/parse/omics_variant/__init__.py ADDED Viewed

@@ -0,0 +1,11 @@
+from typing import Dict, Iterable, List
+from .drop import parse_omics_tsv
+OMICS_CATEGORY_PARSER = {"tsv": parse_omics_tsv}
+def parse_omics_file(omics_lines: Iterable[str], omics_file_type: dict) -> List[Dict[str, str]]:
+    """Call appropriate parser for omics variants file, depending on the file format anticipated."""
+    parser = OMICS_CATEGORY_PARSER[omics_file_type.get("format")]
+    return parser(omics_lines)

scout/parse/omics_variant/drop.py ADDED Viewed

@@ -0,0 +1,19 @@
+from typing import Dict, Iterable, List
+def parse_omics_tsv(lines: Iterable[str]) -> List[Dict[str, str]]:
+    """Parse a DROP Outrider or Fraser TSV file."""
+    omics_infos = []
+    header = []
+    for i, line in enumerate(lines):
+        line = line.rstrip()
+        if i == 0:
+            # Header line
+            header = line.split("\t")
+            continue
+        info = dict(zip(header, line.split("\t")))
+        omics_infos.append(info)
+    return omics_infos

scout/parse/variant/callers.py CHANGED Viewed

@@ -22,6 +22,7 @@ def parse_callers(variant, category="snv"):
     """
     relevant_callers = CALLERS[category]
     callers = {caller["id"]: None for caller in relevant_callers}
+    callers_keys = set(callers.keys())
     other_info = variant.INFO.get("FOUND_IN")
     svdb_origin = variant.INFO.get("svdb_origin")
@@ -30,10 +31,12 @@ def parse_callers(variant, category="snv"):
     if other_info:
         for info in other_info.split(","):
             called_by = info.split("|")[0]
-            callers[called_by] = "Pass"
+            if called_by in callers_keys:
+                callers[called_by] = "Pass"
     elif svdb_origin:
         for called_by in svdb_origin.split("|"):
-            callers[called_by] = "Pass"
+            if called_by in callers_keys:
+                callers[called_by] = "Pass"
     elif raw_info:
         info = raw_info.split("-")
         for call in info:
@@ -47,7 +50,7 @@ def parse_callers(variant, category="snv"):
                 for caller in callers:
                     if caller in call:
                         callers[caller] = "Filtered"
-            elif call in set(callers.keys()):
+            elif call in callers_keys:
                 callers[call] = "Pass"
     if raw_info or svdb_origin or other_info:

scout/parse/variant/frequency.py CHANGED Viewed

@@ -11,8 +11,14 @@ EXAC_KEYS = ["EXACAF"]
 EXAC_MAX_KEYS = ["ExAC_MAX_AF", "EXAC_MAX_AF"]
 # gnomAD has both SNV and SV
-GNOMAD_INFO_KEYS = ["GNOMADAF", "GNOMAD_AF", "gnomADg_AF", "gnomad_svAF"]
-GNOMAD_INFO_MAX_KEYS = ["gnomADg_AF_POPMAX", "GNOMADAF_popmax", "GNOMADAF_POPMAX", "GNOMADAF_MAX"]
+GNOMAD_INFO_KEYS = ["GNOMADAF", "GNOMAD_AF", "gnomADg_AF", "gnomad_svAF", "gnomad_af"]
+GNOMAD_INFO_MAX_KEYS = [
+    "gnomADg_AF_POPMAX",
+    "GNOMADAF_popmax",
+    "GNOMADAF_POPMAX",
+    "GNOMADAF_MAX",
+    "gnomad_popmax_af",
+]
 # SV
 CLINGEN_BENIGN_KEYS = [
@@ -69,6 +75,7 @@ def parse_frequencies(variant, transcripts):
     # These are SV-specific frequencies
     update_frequency_from_vcf(frequencies, variant, ["left_1000GAF"], "thousand_g_left")
     update_frequency_from_vcf(frequencies, variant, ["right_1000GAF"], "thousand_g_right")
+    update_frequency_from_vcf(frequencies, variant, ["colorsdb_af"], "colorsdb_af")
     # Search transcripts CSQ if not found in VCF INFO
     if not frequencies:
@@ -117,6 +124,7 @@ def parse_sv_frequencies(variant: cyvcf2.Variant) -> Dict:
     update_sv_frequency_from_vcf(sv_frequencies, variant, SWEGEN_KEYS, "swegen")
     update_sv_frequency_from_vcf(sv_frequencies, variant, DECIPHER_KEYS, "decipher")
     update_sv_frequency_from_vcf(sv_frequencies, variant, CG_KEYS, "clingen_mip")
+    update_sv_frequency_from_vcf(sv_frequencies, variant, ["colorsdb_af"], "colorsdb_af")
     return sv_frequencies

scout-browser 4.84__py3-none-any.whl → 4.86__py3-none-any.whl

scout-browser 4.84py3-none-any.whl → 4.86py3-none-any.whl