PyPI - gsrap - Versions diffs - 0.8.2__py3-none-any.whl → 0.9.0__py3-none-any.whl - Mend

gsrap 0.8.2py3-none-any.whl → 0.9.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

gsrap/.ipynb_checkpoints/__init__-checkpoint.py +2 -0
gsrap/__init__.py +2 -0
gsrap/assets/kegg_compound_to_others.pickle +0 -0
gsrap/assets/kegg_reaction_to_others.pickle +0 -0
gsrap/commons/.ipynb_checkpoints/downloads-checkpoint.py +96 -4
gsrap/commons/.ipynb_checkpoints/escherutils-checkpoint.py +72 -1
gsrap/commons/.ipynb_checkpoints/excelhub-checkpoint.py +2 -2
gsrap/commons/downloads.py +96 -4
gsrap/commons/escherutils.py +72 -1
gsrap/commons/excelhub.py +2 -2
gsrap/getmaps/.ipynb_checkpoints/getmaps-checkpoint.py +14 -5
gsrap/getmaps/.ipynb_checkpoints/kdown-checkpoint.py +75 -4
gsrap/getmaps/getmaps.py +14 -5
gsrap/getmaps/kdown.py +75 -4
gsrap/parsedb/.ipynb_checkpoints/annotation-checkpoint.py +9 -0
gsrap/parsedb/.ipynb_checkpoints/completeness-checkpoint.py +45 -11
gsrap/parsedb/.ipynb_checkpoints/manual-checkpoint.py +10 -0
gsrap/parsedb/.ipynb_checkpoints/parsedb-checkpoint.py +40 -19
gsrap/parsedb/.ipynb_checkpoints/repeating-checkpoint.py +2 -2
gsrap/parsedb/annotation.py +9 -0
gsrap/parsedb/completeness.py +45 -11
gsrap/parsedb/manual.py +10 -0
gsrap/parsedb/parsedb.py +40 -19
gsrap/parsedb/repeating.py +2 -2
{gsrap-0.8.2.dist-info → gsrap-0.9.0.dist-info}/METADATA +1 -1
{gsrap-0.8.2.dist-info → gsrap-0.9.0.dist-info}/RECORD +29 -29
{gsrap-0.8.2.dist-info → gsrap-0.9.0.dist-info}/LICENSE.txt +0 -0
{gsrap-0.8.2.dist-info → gsrap-0.9.0.dist-info}/WHEEL +0 -0
{gsrap-0.8.2.dist-info → gsrap-0.9.0.dist-info}/entry_points.txt +0 -0

gsrap/getmaps/getmaps.py CHANGED Viewed

@@ -4,6 +4,7 @@ import pickle
 from .kdown import download_raw_txtfiles
+from .kdown import create_dict_keggorg
 from .kdown import create_dict_ko
 from .kdown import create_dict_c
 from .kdown import create_dict_r
@@ -20,13 +21,19 @@ def do_kdown(logger, outdir, usecache, keeptmp):
     logger.info(f"Respectfully retrieving metabolic information from KEGG. Raw data are being saved into '{outdir}/kdown/'. Be patient, could take a couple of days...")
     os.makedirs(f'{outdir}/kdown/', exist_ok=True)
     response = download_raw_txtfiles(logger, outdir, usecache)
     if type(response) == int: return 1
     else: RELEASE_kegg = response
     logger.info("Parsing downloaded KEGG information...")
+    response = create_dict_keggorg(logger, outdir)
+    if type(response) == int: return 1
+    else: dict_keggorg = response
     response = create_dict_ko(logger, outdir)
     if type(response) == int: return 1
     else: dict_ko = response
@@ -49,7 +56,7 @@ def do_kdown(logger, outdir, usecache, keeptmp):
     # create 'idcollection_dict' and 'summary_dict' dictionaries
-    idcollection_dict = create_idcollection_dict(dict_ko, dict_c, dict_r, dict_map, dict_md)
+    idcollection_dict = create_idcollection_dict(dict_keggorg, dict_ko, dict_c, dict_r, dict_map, dict_md)
     summary_dict = create_summary_dict(dict_c, dict_r, dict_map, dict_md)
@@ -57,7 +64,6 @@ def do_kdown(logger, outdir, usecache, keeptmp):
 def main(args, logger):
@@ -67,7 +73,7 @@ def main(args, logger):
     os.makedirs(f'{args.outdir}/', exist_ok=True)
-    # KEGG
+    # KEGG download
     response = do_kdown(logger, args.outdir, args.usecache, args.keeptmp)
     if type(response) == int: return 1
     else: RELEASE_kegg, idcollection_dict, summary_dict = response[0], response[1], response[2]
@@ -76,7 +82,9 @@ def main(args, logger):
     # create 'gsrap.maps':
     with open(f'{args.outdir}/gsrap.maps', 'wb') as wb_handler:
         pickle.dump({
-            'RELEASE_kegg': RELEASE_kegg, 'idcollection_dict': idcollection_dict, 'summary_dict': summary_dict,
+            'RELEASE_kegg': RELEASE_kegg,
+            'idcollection_dict': idcollection_dict,
+            'summary_dict': summary_dict,
         }, wb_handler)
     logger.info(f"'{args.outdir}/gsrap.maps' created!")
@@ -87,4 +95,5 @@ def main(args, logger):
         logger.info(f"Temporary raw files deleted!")
     return 0

gsrap/getmaps/kdown.py CHANGED Viewed

@@ -34,6 +34,7 @@ def download_raw_txtfiles(logger, outdir, usecache):
         'orthology',
         'module',
         'pathway',
+        'organism',
     ]
     for db in databases:
         time.sleep(0.5)
@@ -45,8 +46,9 @@ def download_raw_txtfiles(logger, outdir, usecache):
     # mix the items to download to be respectful/compliant
     items_to_download = []
     for db in databases:
+        if db == 'organism':
+            continue   # here we just need the list
         with open(f"{outdir}/kdown/{db}.txt", 'r') as file:
             res_string = file.read()
             rows = res_string.split('\n')
@@ -54,7 +56,6 @@ def download_raw_txtfiles(logger, outdir, usecache):
                 item_id = row.split('\t', 1)[0]
                 if item_id == '': continue
                 items_to_download.append({'db': db, 'id': item_id})
     random.shuffle(items_to_download)
@@ -79,6 +80,51 @@ def download_raw_txtfiles(logger, outdir, usecache):
+def create_dict_keggorg(logger, outdir):
+    organisms_raw = open(f'{outdir}/kdown/organism.txt', 'r').read()
+    # create a dataframe listing all organisms in KEGG;
+    # columns are [tnumber, name, domain, kingdom, phylum, classification]
+    df = []  # list fo dicts
+    for line in organisms_raw.strip().split("\n"):
+        fields = line.split("\t")
+        if len(fields) == 4:
+            tnumber, keggorg, name, classification = fields
+            levels = classification.split(";")
+            domain = levels[0]
+            kingdom = levels[1]
+            phylum = levels[2]
+            df.append({
+                'tnumber':tnumber,
+                'keggorg': keggorg,
+                'name': name,
+                'domain': domain,
+                'kingdom': kingdom,
+                'phylum': phylum,
+                'classification': classification
+            })
+        else:
+            # never verified during tests!
+            logger.warning(f'Strange number of fields found in this line of "organism.txt": """{line}""".')
+    df = pnd.DataFrame.from_records(df)
+    df = df.set_index('keggorg', drop=True, verify_integrity=True)
+    # convert dataframe to dict
+    dict_keggorg = {}
+    for keggorg, row in df.iterrows():
+        dict_keggorg[keggorg] = {
+            'kingdom': row['kingdom'],
+            'phylum': row['phylum'],
+            #'name': row['name'],   # not strictly needed. Commented to save disk space.
+        }
+    if logger != None: logger.info(f'Number of unique items (org): {len(dict_keggorg.keys())}.')
+    return dict_keggorg
 def create_dict_ko(logger, outdir):
     dict_ko = {}         # main output
@@ -98,6 +144,7 @@ def create_dict_ko(logger, outdir):
                 'ecs': set(),
                 'cogs': set(),
                 'gos': set(),
+                'keggorgs': set(),
             }
         else:
             logger.error(f"{ko_id} already included!")
@@ -175,7 +222,13 @@ def create_dict_ko(logger, outdir):
                         gos = content[len('GO: '):].strip().split(' ')
                         for go in gos:
                             dict_ko[ko_id]['gos'].add(go)
+                # parse the organism-specific genes
+                if curr_header == 'GENES       ':
+                    keggorg = content.split(': ',1)[0]
+                    dict_ko[ko_id]['keggorgs'].add(keggorg.lower()) # organism.txt has IDs in lowercase
                 # parse the reactions
                 if curr_header == 'REACTION    ':
@@ -547,7 +600,7 @@ def create_dict_md(logger, outdir):
-def create_idcollection_dict(dict_ko, dict_c, dict_r, dict_map, dict_md):
+def create_idcollection_dict(dict_keggorg, dict_ko, dict_c, dict_r, dict_map, dict_md):
     idcollection_dict = {}
@@ -620,6 +673,24 @@ def create_idcollection_dict(dict_ko, dict_c, dict_r, dict_map, dict_md):
         for go in dict_ko[ko_id]['gos']:
             idcollection_dict['ko_to_gos'][ko_id].add(go)
+    # creation of 'ko_to_keggorgs' skipped as it takes too much disk space. Replaced with 'ko_to_taxa'.
+    idcollection_dict['ko_to_taxa'] = {}
+    missing_keggorgs = set()
+    for ko_id in dict_ko.keys():
+        idcollection_dict['ko_to_taxa'][ko_id] = {'kingdom': set(), 'phylum': set()}
+        for keggorg in dict_ko[ko_id]['keggorgs']:
+            try:
+                kingdom = dict_keggorg[keggorg]['kingdom']
+                phylum = dict_keggorg[keggorg]['phylum']
+            except:
+                if keggorg not in missing_keggorgs:
+                    missing_keggorgs.add(keggorg)
+                    #print(f"Organism '{keggorg}' appears in 'orthology/' but not in 'organism.txt'.")
+                continue
+            idcollection_dict['ko_to_taxa'][ko_id]['kingdom'].add(kingdom)
+            idcollection_dict['ko_to_taxa'][ko_id]['phylum'].add(phylum)
     idcollection_dict['map_to_name'] = {}
     for map_id in dict_map.keys():

gsrap/parsedb/.ipynb_checkpoints/annotation-checkpoint.py CHANGED Viewed

@@ -138,6 +138,15 @@ def set_up_groups(logger, model, idcollection_dict):
     # insert custom groups:
     custom_groups = get_custom_groups()
+    #
+    # create a group for transporters on-the-fly
+    custom_groups['transport'] = []
+    for r in model.reactions:
+        if len(r.metabolites) == 1:  # exchanges / sinks/ demands
+            custom_groups['transport'].append(r.id)
+        if len(set([m.id.rsplit('_', 1)[-1] for m in r.metabolites])) > 1:  # transport reactions
+            custom_groups['transport'].append(r.id)
+    #
     for group_id in custom_groups.keys():
         actual_group = cobra.core.Group(
             group_id,

gsrap/parsedb/.ipynb_checkpoints/completeness-checkpoint.py CHANGED Viewed

@@ -6,6 +6,9 @@ import os
 import pandas as pnd
+from .manual import get_krs_to_exclude
 def parse_eggnog(model, eggnog, idcollection_dict):
@@ -27,9 +30,8 @@ def parse_eggnog(model, eggnog, idcollection_dict):
     # PART 2. get reactions in the organism (even the GPR is not complete)
-    kr_to_kos = idcollection_dict['kr_to_kos']
     krs_org = set()
-    for kr, kos in kr_to_kos.items():
+    for kr, kos in idcollection_dict['kr_to_kos'].items():
         if any([ko in kos_org for ko in kos]):
             krs_org.add(kr)
@@ -49,9 +51,34 @@ def parse_keggorg(keggorg, outdir, idcollection_dict):
     # PART 2. get reactions in the organism (even the GPR is not complete)
-    kr_to_kos = idcollection_dict['kr_to_kos']
     krs_org = set()
-    for kr, kos in kr_to_kos.items():
+    for kr, kos in idcollection_dict['kr_to_kos'].items():
+        if any([ko in kos_org for ko in kos]):
+            krs_org.add(kr)
+    return krs_org
+def parse_taxon(taxon, idcollection_dict):
+    # formatting of --taxon was already verified at startup.
+    # also the presence of 'ko_to_taxa' in idcollection_dict was veryfied at startup.
+    level, name = taxon.split(':')
+    # PART 1. get KO codes available
+    kos_org = set()
+    for ko in idcollection_dict['ko_to_taxa'].keys():
+        if name in idcollection_dict['ko_to_taxa'][ko][level]:
+            kos_org.add(ko)
+    # PART 2. get reactions in the organism (even the GPR is not complete)
+    krs_org = set()
+    for kr, kos in idcollection_dict['kr_to_kos'].items():
         if any([ko in kos_org for ko in kos]):
             krs_org.add(kr)
@@ -60,7 +87,7 @@ def parse_keggorg(keggorg, outdir, idcollection_dict):
-def check_completeness(logger, model, progress, module, focus, eggnog, keggorg, idcollection_dict, summary_dict, outdir):
+def check_completeness(logger, model, progress, module, focus, taxon, eggnog, keggorg, idcollection_dict, summary_dict, outdir):
     # check KEGG annotations in the universe model to get '%' of completeness per pathway/module.
@@ -69,6 +96,9 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
     if keggorg != '-':  # keggorg has precedence
         kr_uni = parse_keggorg(keggorg, outdir, idcollection_dict)
         kr_uni_label = f"organism code '{keggorg}'"
+    elif taxon != '-':
+        kr_uni = parse_taxon(taxon, idcollection_dict)
+        kr_uni_label = f"taxon '{taxon}'"
     elif eggnog != '-':
         for eggfile in eggnog:
             eggset = parse_eggnog(model, eggfile, idcollection_dict)
@@ -85,7 +115,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
         if 'kegg.reaction' in r.annotation.keys():
             for kr_id in r.annotation['kegg.reaction']:
                 kr_ids_modeled.add(kr_id)
-    kr_uni_missing = kr_uni - kr_ids_modeled
+    kr_uni_missing = (kr_uni - kr_ids_modeled) - get_krs_to_exclude()
     kr_uni_coverage = len(kr_ids_modeled.intersection(kr_uni)) / len(kr_uni) * 100
     logger.info(f"Coverage for {kr_uni_label}: {round(kr_uni_coverage, 0)}% ({len(kr_uni_missing)} missing).")
@@ -114,8 +144,12 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
     # check if 'focus' exist
     if focus != '-' and focus not in map_ids and focus not in md_ids:
-        logger.error(f"The ID provided with --focus does not exist: {focus}.")
-        return 1
+        if focus == 'transport':
+            df_coverage = None
+            return df_coverage  # just the jeneration of 'transport.json' for Escher drawing is needed here
+        else:
+            logger.error(f"The ID provided with --focus does not exist: {focus}.")
+            return 1
     if focus.startswith('map'):
         logger.debug(f"With --focus {focus}, --module will switch to False.")
         module = False
@@ -148,7 +182,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
         # check if this map was (at least partially) covered:
         map_krs = set([kr for kr in i['kr_ids'] if kr in kr_uni])
-        missing = map_krs - kr_ids_modeled
+        missing = (map_krs - kr_ids_modeled) - get_krs_to_exclude()
         present = kr_ids_modeled.intersection(map_krs)
         if focus == map_id:
             missing_logger = (map_id, missing)
@@ -260,7 +294,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
             # check if this module was (at least partially) covered:
             md_krs = set([kr for kr in z['kr_ids_md'] if kr in kr_uni])
-            missing = md_krs - kr_ids_modeled
+            missing = (md_krs - kr_ids_modeled) - get_krs_to_exclude()
             present = kr_ids_modeled.intersection(md_krs)
             if focus == md_id:
                 missing_logger = (md_id, missing)
@@ -309,7 +343,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
         if module and focus=='-':
             logger.info(f"{spacer}Modules of {right_item['map_id']}: completed {len(mds_completed)} - partial {len(mds_partial)} - missing {len(mds_missing)} - noreac {len(mds_noreac)}")
     if focus != '-':
-        logger.info(f"Missing reactions focusing on {missing_logger[0]}: {' '.join(list(missing_logger[1]))}.")
+        logger.info(f"Missing reactions focusing on '{missing_logger[0]}': {' '.join(list(missing_logger[1]))}.")
     if progress:
         logger.info(f"Maps: finished {len(maps_finished)} - partial {len(maps_partial)} - missing {len(maps_missing)} - noreac {len(maps_noreac)}")

gsrap/parsedb/.ipynb_checkpoints/manual-checkpoint.py CHANGED Viewed

@@ -5,11 +5,21 @@ def get_deprecated_kos():
     deprecated_kos = [
         'K11189',  # should be K02784
         'K07011',  # linked to lp_1215(cps3A) and lp_1216(cps3B) during 2018 and not replaced
+        #'K24301',   # to be introduced in GPRs
     ]
     return deprecated_kos
+def get_krs_to_exclude():
+    return set([
+        'R12328', 'R05190',  # general forms of fatty acid biosynthesis
+        'R01347', 'R04121',  # general forms of fatty acid degradation
+    ])
 def get_rids_with_mancheck_gpr():
     rids_mancheck_gpr = [  # reactions with manually checked GPRs
         'SUCD1', 'ALKP', 'PFK_3', 'TCMPTS', 'PPA', 'APSR',

gsrap/parsedb/.ipynb_checkpoints/parsedb-checkpoint.py CHANGED Viewed

@@ -16,7 +16,10 @@ from ..commons import write_excel_model
 from ..commons import show_contributions
 from ..commons import adjust_biomass_precursors
 from ..commons import count_undrawn_rids
+from ..commons import count_undrawn_rids_focus
 from ..commons import format_expansion
+from ..commons import check_taxon
 from ..commons import download_keggorg
 from ..commons import initialize_model
 from ..commons import get_memote_results_dict
@@ -46,6 +49,7 @@ from .cycles import verify_egc_all
 def main(args, logger):
+    ###### FORMAT ARGS NOT REQUIRING RESOURCES
     # adjust out folder path
     while args.outdir.endswith('/'):
         args.outdir = args.outdir[:-1]
@@ -77,17 +81,8 @@ def main(args, logger):
     if args.onlyauthor == '-': args.onlyauthor = None
-    # format the --eggnog param
-    args.eggnog = format_expansion(logger, args.eggnog)  # now 'args.eggnog' could still be '-'
-    # get the kegg organism if requested
-    if args.keggorg != '-':
-        response = download_keggorg(logger, args.keggorg, args.outdir)
-        if response == 1: return 1
+    ###### LOAD LOCAL RESOURCES
     # check and extract the required 'gsrap.maps' file
     if os.path.exists(f'{args.inmaps}') == False:
         logger.error(f"File 'gsrap.maps' not found at {args.inmaps}.")
@@ -108,9 +103,27 @@ def main(args, logger):
             kegg_compound_to_others = pickle.load(handle)
     with resources.path("gsrap.assets", f"kegg_reaction_to_others.pickle") as asset_path:
         with open(asset_path, 'rb') as handle:
-            kegg_reaction_to_others = pickle.load(handle)
+            kegg_reaction_to_others = pickle.load(handle)
+    ###### FORMAT/CHECK FOCUSING ARGS
+    # format the --eggnog param
+    args.eggnog = format_expansion(logger, args.eggnog)  # now 'args.eggnog' could still be '-'
+    # check the --taxon param
+    if args.taxon != '-':
+        response = check_taxon(logger, args.taxon, idcollection_dict)
+        if response == 1: return 1
+    # get the kegg organism if requested
+    if args.keggorg != '-':
+        response = download_keggorg(logger, args.keggorg, args.outdir)
+        if response == 1: return 1
+    # DOWNLOAD ONLINE RESOURCES
     # get dbuni and dbexp:
     logger.info("Downloading gsrap database...")
     response = get_databases(logger)
@@ -166,14 +179,15 @@ def main(args, logger):
     ###### CHECKS 1
     # check universe completness
-    df_C = check_completeness(logger, universe, args.progress, args.module, args.focus, args.eggnog, args.keggorg, idcollection_dict, summary_dict, args.outdir)
+    df_C = check_completeness(logger, universe, args.progress, args.module, args.focus, args.taxon, args.eggnog, args.keggorg, idcollection_dict, summary_dict, args.outdir)
     if type(df_C)==int: return 1
     ###### POLISHING 1
     # remove disconnected metabolites
-    universe = remove_disconnected(logger, universe)
+    if args.keepdisconn == False:
+        universe = remove_disconnected(logger, universe)   # can be commented when using booster.py
@@ -182,9 +196,9 @@ def main(args, logger):
     verify_egc_all(logger, universe, args.outdir)
     if not args.justparse:
         ###### CHECKS 3
         # check growth on minmal media
         df_G = grow_on_media(logger, universe, dbexp, args.media, '-', True)
@@ -217,10 +231,15 @@ def main(args, logger):
-        # output the universe
-        logger.info("Writing universal model...")
-        cobra.io.save_json_model(universe, f'{args.outdir}/universe.json')
-        logger.info(f"'{args.outdir}/universe.json' created!")
+    # output the universe (even when --justparse)
+    logger.info("Writing universal model...")
+    cobra.io.save_json_model(universe, f'{args.outdir}/universe.json')
+    logger.info(f"'{args.outdir}/universe.json' created!")
+    if not args.justparse:
+        # outptu in the remaining formats:
         cobra.io.write_sbml_model(universe, f'{args.outdir}/universe.xml')   # groups are saved only to SBML
         logger.info(f"'{args.outdir}/universe.xml' created!")
         force_id_on_sbml(f'{args.outdir}/universe.xml', 'universe')   # force introduction of the 'id=""' field
@@ -231,7 +250,9 @@ def main(args, logger):
     ###### CHECKS 4
     # check if universal escher map is updated:
-    count_undrawn_rids(logger, universe, lastmap)
+    count_undrawn_rids(logger, universe, lastmap, args.focus)
+    if args.focus != '-':
+        count_undrawn_rids_focus(logger, universe, lastmap, args.focus, args.outdir)
     return 0

gsrap/parsedb/.ipynb_checkpoints/repeating-checkpoint.py CHANGED Viewed

@@ -45,7 +45,7 @@ def check_gpr(logger, rid, row, kr_ids, idcollection_dict, addtype='R'):
             pass
         elif ko_id not in idcollection_dict['ko'] and ko_id != 'spontaneous' and ko_id != 'orphan':
             logger.error(f"{itemtype} '{rid}' has an invalid KEGG Ortholog: '{ko_id}'.")
-            return 1
+            return 1   # can be commented when migrating to new kegg release
         # check if these ko_ids are really assigned to this reaction:
@@ -61,7 +61,7 @@ def check_gpr(logger, rid, row, kr_ids, idcollection_dict, addtype='R'):
         missing_ko_ids = ko_for_rid - (set(ko_ids_parsed) - set(['spontaneous', 'orphan']))
         if len(missing_ko_ids) > 0:
             logger.error(f"Orthologs {missing_ko_ids} are missing from reaction '{rid}' ({kr_ids}).")
-            return 1
+            return 1   # can be commented when migrating to new kegg release
     return 0

gsrap/parsedb/annotation.py CHANGED Viewed

@@ -138,6 +138,15 @@ def set_up_groups(logger, model, idcollection_dict):
     # insert custom groups:
     custom_groups = get_custom_groups()
+    #
+    # create a group for transporters on-the-fly
+    custom_groups['transport'] = []
+    for r in model.reactions:
+        if len(r.metabolites) == 1:  # exchanges / sinks/ demands
+            custom_groups['transport'].append(r.id)
+        if len(set([m.id.rsplit('_', 1)[-1] for m in r.metabolites])) > 1:  # transport reactions
+            custom_groups['transport'].append(r.id)
+    #
     for group_id in custom_groups.keys():
         actual_group = cobra.core.Group(
             group_id,

gsrap/parsedb/completeness.py CHANGED Viewed

@@ -6,6 +6,9 @@ import os
 import pandas as pnd
+from .manual import get_krs_to_exclude
 def parse_eggnog(model, eggnog, idcollection_dict):
@@ -27,9 +30,8 @@ def parse_eggnog(model, eggnog, idcollection_dict):
     # PART 2. get reactions in the organism (even the GPR is not complete)
-    kr_to_kos = idcollection_dict['kr_to_kos']
     krs_org = set()
-    for kr, kos in kr_to_kos.items():
+    for kr, kos in idcollection_dict['kr_to_kos'].items():
         if any([ko in kos_org for ko in kos]):
             krs_org.add(kr)
@@ -49,9 +51,34 @@ def parse_keggorg(keggorg, outdir, idcollection_dict):
     # PART 2. get reactions in the organism (even the GPR is not complete)
-    kr_to_kos = idcollection_dict['kr_to_kos']
     krs_org = set()
-    for kr, kos in kr_to_kos.items():
+    for kr, kos in idcollection_dict['kr_to_kos'].items():
+        if any([ko in kos_org for ko in kos]):
+            krs_org.add(kr)
+    return krs_org
+def parse_taxon(taxon, idcollection_dict):
+    # formatting of --taxon was already verified at startup.
+    # also the presence of 'ko_to_taxa' in idcollection_dict was veryfied at startup.
+    level, name = taxon.split(':')
+    # PART 1. get KO codes available
+    kos_org = set()
+    for ko in idcollection_dict['ko_to_taxa'].keys():
+        if name in idcollection_dict['ko_to_taxa'][ko][level]:
+            kos_org.add(ko)
+    # PART 2. get reactions in the organism (even the GPR is not complete)
+    krs_org = set()
+    for kr, kos in idcollection_dict['kr_to_kos'].items():
         if any([ko in kos_org for ko in kos]):
             krs_org.add(kr)
@@ -60,7 +87,7 @@ def parse_keggorg(keggorg, outdir, idcollection_dict):
-def check_completeness(logger, model, progress, module, focus, eggnog, keggorg, idcollection_dict, summary_dict, outdir):
+def check_completeness(logger, model, progress, module, focus, taxon, eggnog, keggorg, idcollection_dict, summary_dict, outdir):
     # check KEGG annotations in the universe model to get '%' of completeness per pathway/module.
@@ -69,6 +96,9 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
     if keggorg != '-':  # keggorg has precedence
         kr_uni = parse_keggorg(keggorg, outdir, idcollection_dict)
         kr_uni_label = f"organism code '{keggorg}'"
+    elif taxon != '-':
+        kr_uni = parse_taxon(taxon, idcollection_dict)
+        kr_uni_label = f"taxon '{taxon}'"
     elif eggnog != '-':
         for eggfile in eggnog:
             eggset = parse_eggnog(model, eggfile, idcollection_dict)
@@ -85,7 +115,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
         if 'kegg.reaction' in r.annotation.keys():
             for kr_id in r.annotation['kegg.reaction']:
                 kr_ids_modeled.add(kr_id)
-    kr_uni_missing = kr_uni - kr_ids_modeled
+    kr_uni_missing = (kr_uni - kr_ids_modeled) - get_krs_to_exclude()
     kr_uni_coverage = len(kr_ids_modeled.intersection(kr_uni)) / len(kr_uni) * 100
     logger.info(f"Coverage for {kr_uni_label}: {round(kr_uni_coverage, 0)}% ({len(kr_uni_missing)} missing).")
@@ -114,8 +144,12 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
     # check if 'focus' exist
     if focus != '-' and focus not in map_ids and focus not in md_ids:
-        logger.error(f"The ID provided with --focus does not exist: {focus}.")
-        return 1
+        if focus == 'transport':
+            df_coverage = None
+            return df_coverage  # just the jeneration of 'transport.json' for Escher drawing is needed here
+        else:
+            logger.error(f"The ID provided with --focus does not exist: {focus}.")
+            return 1
     if focus.startswith('map'):
         logger.debug(f"With --focus {focus}, --module will switch to False.")
         module = False
@@ -148,7 +182,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
         # check if this map was (at least partially) covered:
         map_krs = set([kr for kr in i['kr_ids'] if kr in kr_uni])
-        missing = map_krs - kr_ids_modeled
+        missing = (map_krs - kr_ids_modeled) - get_krs_to_exclude()
         present = kr_ids_modeled.intersection(map_krs)
         if focus == map_id:
             missing_logger = (map_id, missing)
@@ -260,7 +294,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
             # check if this module was (at least partially) covered:
             md_krs = set([kr for kr in z['kr_ids_md'] if kr in kr_uni])
-            missing = md_krs - kr_ids_modeled
+            missing = (md_krs - kr_ids_modeled) - get_krs_to_exclude()
             present = kr_ids_modeled.intersection(md_krs)
             if focus == md_id:
                 missing_logger = (md_id, missing)
@@ -309,7 +343,7 @@ def check_completeness(logger, model, progress, module, focus, eggnog, keggorg,
         if module and focus=='-':
             logger.info(f"{spacer}Modules of {right_item['map_id']}: completed {len(mds_completed)} - partial {len(mds_partial)} - missing {len(mds_missing)} - noreac {len(mds_noreac)}")
     if focus != '-':
-        logger.info(f"Missing reactions focusing on {missing_logger[0]}: {' '.join(list(missing_logger[1]))}.")
+        logger.info(f"Missing reactions focusing on '{missing_logger[0]}': {' '.join(list(missing_logger[1]))}.")
     if progress:
         logger.info(f"Maps: finished {len(maps_finished)} - partial {len(maps_partial)} - missing {len(maps_missing)} - noreac {len(maps_noreac)}")

gsrap/parsedb/manual.py CHANGED Viewed

@@ -5,11 +5,21 @@ def get_deprecated_kos():
     deprecated_kos = [
         'K11189',  # should be K02784
         'K07011',  # linked to lp_1215(cps3A) and lp_1216(cps3B) during 2018 and not replaced
+        #'K24301',   # to be introduced in GPRs
     ]
     return deprecated_kos
+def get_krs_to_exclude():
+    return set([
+        'R12328', 'R05190',  # general forms of fatty acid biosynthesis
+        'R01347', 'R01348', 'R04121',  # general forms of fatty acid degradation
+    ])
 def get_rids_with_mancheck_gpr():
     rids_mancheck_gpr = [  # reactions with manually checked GPRs
         'SUCD1', 'ALKP', 'PFK_3', 'TCMPTS', 'PPA', 'APSR',

gsrap 0.8.2__py3-none-any.whl → 0.9.0__py3-none-any.whl

gsrap 0.8.2py3-none-any.whl → 0.9.0py3-none-any.whl