PyPI - mtbls-mhd-integration - Versions diffs - 0.0.11__tar.gz → 0.0.13__tar.gz - Mend

mtbls-mhd-integration 0.0.11tar.gz → 0.0.13tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

{mtbls_mhd_integration-0.0.11/mtbls_mhd_integration.egg-info → mtbls_mhd_integration-0.0.13}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mtbls-mhd-integration
-Version: 0.0.11
+Version: 0.0.13
 Summary: MetaboLights - MetabolomicsHub Integration
 Author-email: MetaboLights Team <metabolights-help@ebi.ac.uk>
 License-Expression: Apache-2.0
@@ -9,7 +9,7 @@ Description-Content-Type: text/markdown
 License-File: LICENSE
 Requires-Dist: asyncpg>=0.30.0
 Requires-Dist: metabolights-utils>=1.4.16
-Requires-Dist: mhd-model>=0.1.39
+Requires-Dist: mhd-model>=0.1.43
 Requires-Dist: psycopg[binary,pool]>=3.3.2
 Requires-Dist: pydantic>=2.12.4
 Requires-Dist: pydantic-settings>=2.10.1

{mtbls_mhd_integration-0.0.11 → mtbls_mhd_integration-0.0.13}/mtbls2mhd/__init__.py RENAMED Viewed

@@ -1,4 +1,4 @@
-__version__ = "v0.0.11"
+__version__ = "v0.0.13"
 import pathlib
 import sys

{mtbls_mhd_integration-0.0.11 → mtbls_mhd_integration-0.0.13}/mtbls2mhd/v0_1/legacy/builder.py RENAMED Viewed

@@ -53,11 +53,7 @@ logger = logging.getLogger(__name__)
 MTBLS_ASSAY_TYPES = {
     "LC-MS": COMMON_ASSAY_TYPES["OBI:0003097S"],
     "GC-MS": COMMON_ASSAY_TYPES["OBI:0003110"],
-    "CE-MS": CvTerm(
-        source="OBI",
-        accession="OBI:0003741",
-        name="capillary electrophoresis mass spectrometry assay",
-    ),
+    "CE-MS": COMMON_ASSAY_TYPES["OBI:0003741"],
     "GCxGC-MS": COMMON_ASSAY_TYPES["OBI:0003110"],
     "FIA-MS": COMMON_ASSAY_TYPES["OBI:0000470"],
     "MALDI-MS": COMMON_ASSAY_TYPES["OBI:0000470"],
@@ -594,7 +590,7 @@ class MhdLegacyDatasetBuilder:
         data: MetabolightsStudyModel,
         config: Mtbls2MhdConfiguration,
     ):
-        result_file_map = {}
+        result_file_map: dict[str, mhd_domain.ResultFile] = {}
         tsv_format = create_cv_term_object(
             type_="descriptor", accession="EDAM:3475", source="EDAM", name="TSV"
         )
@@ -1433,7 +1429,10 @@ class MhdLegacyDatasetBuilder:
         return protocols
     def add_keywords(
-        self, mhd_builder: MhDatasetBuilder, mhd_study: mhd_domain.Study, study: Study
+        self,
+        mhd_builder: MhDatasetBuilder,
+        mhd_study: mhd_domain.Study,
+        study: Study,
     ):
         for item in study.study_design_descriptors.design_types:
             keyword = create_cv_term_object(
@@ -1447,12 +1446,62 @@ class MhdLegacyDatasetBuilder:
                 name=item.term or "",
             )
             mhd_builder.add_node(keyword)
-            mhd_builder.link(
-                mhd_study,
-                "has-submitter-keyword",
-                keyword,
-                reverse_relationship_name="keyword-of",
-            )
+            if item.source and item.source.lower() in ("data-curation", "workflows"):
+                mhd_builder.link(
+                    mhd_study,
+                    "has-repository-keyword",
+                    keyword,
+                    reverse_relationship_name="keyword-of",
+                )
+            else:
+                mhd_builder.link(
+                    mhd_study,
+                    "has-submitter-keyword",
+                    keyword,
+                    reverse_relationship_name="keyword-of",
+                )
+    def add_assay_keywords(
+        self,
+        mhd_builder: MhDatasetBuilder,
+        assays: dict[str, mhd_domain.Assay],
+        study: Study,
+    ):
+        for assay in study.study_assays.assays:
+            mhd_assay = assays.get(assay.file_name)
+            if not mhd_assay:
+                continue
+            for item in assay.assay_descriptors:
+                keyword = create_cv_term_object(
+                    type_="descriptor",
+                    source=item.term_source_ref or "",
+                    accession=self.convert_to_curie(
+                        item.term_source_ref,
+                        item.term_accession_number,
+                    )
+                    or "",
+                    name=item.term or "",
+                )
+                mhd_builder.add_node(keyword)
+                if item.source and item.source.lower() in (
+                    "data-curation",
+                    "workflows",
+                ):
+                    mhd_builder.link(
+                        mhd_assay,
+                        "has-repository-keyword",
+                        keyword,
+                        reverse_relationship_name="keyword-of",
+                    )
+                else:
+                    mhd_builder.link(
+                        mhd_assay,
+                        "has-submitter-keyword",
+                        keyword,
+                        reverse_relationship_name="keyword-of",
+                    )
     def find_file_format(
         self,
@@ -1650,54 +1699,103 @@ class MhdLegacyDatasetBuilder:
         mhd_builder: MhDatasetBuilder,
         mhd_study: mhd_domain.Study,
         data: MetabolightsStudyModel,
+        result_files: dict[str, mhd_domain.ResultFile],
     ):
-        for file_name, maf_file in data.metabolite_assignments.items():
-            if maf_file.table.data.get("metabolite_identification"):
-                identifiers = maf_file.table.data.get("database_identifier")
-                for idx, name in enumerate(
-                    maf_file.table.data["metabolite_identification"]
-                ):
-                    if not name:
-                        continue
-                    met = mhd_domain.Metabolite(
-                        name=name,
-                    )
-                    if identifiers and identifiers[idx]:
-                        value = identifiers[idx]
-                        identifier = None
-                        if value.startswith("CHEBI"):
-                            identifier = create_cv_term_value_object(
-                                type_="metabolite-identifier",
-                                source="CHEMINF",
-                                accession="CHEMINF:000407",
-                                name="ChEBI identifier",
-                                value=value,
-                            )
-                        elif value.startswith("HMDB"):
-                            identifier = create_cv_term_value_object(
-                                type_="metabolite-identifier",
-                                source="CHEMINF",
-                                accession="CHEMINF:000408",
-                                name="HMDB identifier",
-                                value=value.replace(":", ""),
-                            )
+        for maf_filename, maf_file in data.metabolite_assignments.items():
+            if not maf_file.table.data.get("metabolite_identification"):
+                continue
+            result_file = result_files.get(maf_filename)
+            for idx, name in enumerate(
+                maf_file.table.data["metabolite_identification"]
+            ):
+                if not name or not name.strip():
+                    continue
+                met = mhd_domain.Metabolite(name=name)
+                assignments = {}
+                data: dict[str, str] = maf_file.table.data
+                submitted_identifiers = []
+                assigned_chebi_identifiers = []
+                assigned_refmet_identifiers = []
+                if maf_file.table.data.get("database_identifier"):
+                    submitted_identifiers = [
+                        x.strip()
+                        for x in data["database_identifier"][idx].split("|")
+                        if x
+                    ]
+                if maf_file.table.data.get("assigned_chebi_identifier"):
+                    assigned_chebi_identifiers = [
+                        x.strip()
+                        for x in data["assigned_chebi_identifier"][idx].split("|")
+                        if x
+                    ]
+                if maf_file.table.data.get("assigned_refmet_identifier"):
+                    assigned_refmet_identifiers = [
+                        x.strip()
+                        for x in data["assigned_refmet_identifier"][idx].split("|")
+                        if x
+                    ]
-                        if identifier:
-                            mhd_builder.add(identifier)
-                            # met.identifier_refs = [identifier.id_]
-                            mhd_builder.link(
-                                met,
-                                "identified-as",
-                                identifier,
-                                reverse_relationship_name="reported-identifier-of",
-                            )
-                    mhd_builder.add(met)
+                for identifiers in [
+                    (submitted_identifiers, ""),
+                    (assigned_chebi_identifiers, "CHEBI"),
+                    (assigned_refmet_identifiers, "REFMET"),
+                ]:
+                    for identifiers, compound_source in assignments:
+                        if not identifiers:
+                            continue
+                        for identifier_value in identifiers:
+                            identifier = None
+                            if (
+                                compound_source == "CHEBI"
+                                or identifier_value.upper().startswith("CHEBI")
+                            ):
+                                identifier = create_cv_term_value_object(
+                                    type_="metabolite-identifier",
+                                    source="CHEMINF",
+                                    accession="CHEMINF:000407",
+                                    name="ChEBI identifier",
+                                    value=identifier_value,
+                                )
+                            elif identifier_value.upper().startswith("HMDB"):
+                                identifier = create_cv_term_value_object(
+                                    type_="metabolite-identifier",
+                                    source="CHEMINF",
+                                    accession="CHEMINF:000408",
+                                    name="HMDB identifier",
+                                    value=identifier_value,
+                                )
+                            elif compound_source == "REFMET":
+                                identifier = create_cv_term_value_object(
+                                    type_="metabolite-identifier",
+                                    source="REFMET",
+                                    accession="",
+                                    name="RefMet identifier",
+                                    value=identifier_value,
+                                )
+                            if identifier:
+                                mhd_builder.add(identifier)
+                                mhd_builder.link(
+                                    met,
+                                    "identified-as",
+                                    identifier,
+                                    reverse_relationship_name="reported-identifier-of",
+                                )
+                mhd_builder.add(met)
+                if result_file:
                     mhd_builder.link(
-                        mhd_study,
+                        result_file,
                         "reports",
                         met,
                         reverse_relationship_name="reported-in",
                     )
+                result_file
+                mhd_builder.link(
+                    mhd_study,
+                    "reports",
+                    met,
+                    reverse_relationship_name="reported-in",
+                )
     def add_assays(
         self,
@@ -1708,9 +1806,9 @@ class MhdLegacyDatasetBuilder:
         metadata_files: dict[str, mhd_domain.CvTermObject],
         samples: dict[str, mhd_domain.Sample],
         files_map,
-    ) -> mhd_domain.Assay:
+    ) -> dict[str, mhd_domain.Assay]:
         protocol_summaries: OrderedDict[str, ProtocolRunSummary] = OrderedDict()
-        assays: list[mhd_domain.Assay] = []
+        assays = dict[str, mhd_domain.Assay] = OrderedDict()
         for assay in selected_assays:
             if assay.file_name not in data.assays:
                 continue
@@ -1724,7 +1822,7 @@ class MhdLegacyDatasetBuilder:
             )
             mhd_builder.add(mhd_assay)
-            assays.append(mhd_assay)
+            assays[assay.file_name] = mhd_assay
             mhd_builder.link(
                 mhd_study, "has-assay", mhd_assay, reverse_relationship_name="part-of"
             )
@@ -1833,8 +1931,7 @@ class MhdLegacyDatasetBuilder:
                 samples,
                 protocol_summaries,
             )
-        for mhd_assay in assays:
+        for _, mhd_assay in assays.items():
             self.add_assay_protocols(mhd_builder, mhd_study, data, mhd_assay)
         return assays
@@ -1971,20 +2068,28 @@ class MhdLegacyDatasetBuilder:
                 data.study_db_metadata.release_date,
             )
         # actual or estimated
-        public_release_date_str = (
-            db_metadata.first_public_date or db_metadata.release_date or None
-        )
+        submission_date_str = None
+        public_release_date_str = None
+        if db_metadata:
+            if db_metadata.first_private_date:
+                submission_date_str = db_metadata.first_private_date
+            elif db_metadata.submission_date:
+                submission_date_str = db_metadata.submission_date
+            if db_metadata.first_public_date:
+                public_release_date_str = db_metadata.first_public_date
+            elif db_metadata.release_date:
+                public_release_date_str = db_metadata.release_date
         public_release_date = (
             datetime.datetime.strptime(public_release_date_str, "%Y-%m-%d")
             if public_release_date_str
             else None
         )
         submission_date = (
-            datetime.datetime.strptime(db_metadata.first_private_date, "%Y-%m-%d")
-            if db_metadata and db_metadata.first_private_date
+            datetime.datetime.strptime(submission_date_str, "%Y-%m-%d")
+            if submission_date_str
             else None
         )
         mhd_study = mhd_domain.Study(
             repository_identifier=study.identifier,
             created_by_ref=dataset_provider.id_,
@@ -2029,12 +2134,11 @@ class MhdLegacyDatasetBuilder:
             self.add_publications(data, mhd_builder, mhd_study)
             self.add_protocols(mhd_builder, mhd_study, study)
-            self.add_keywords(mhd_builder, mhd_study, study)
-            self.add_reported_metabolites(mhd_builder, mhd_study, data)
             result_files = self.add_result_files(
                 mhd_builder, mhd_study, data, config=config
             )
+            self.add_reported_metabolites(mhd_builder, mhd_study, data, result_files)
             files_map = self.add_data_files(
                 mhd_builder,
                 mhd_study,
@@ -2043,7 +2147,7 @@ class MhdLegacyDatasetBuilder:
                 result_files,
                 config=config,
             )
-            self.add_assays(
+            mhd_assays = self.add_assays(
                 mhd_builder,
                 mhd_study,
                 data,
@@ -2052,6 +2156,8 @@ class MhdLegacyDatasetBuilder:
                 samples,
                 files_map,
             )
+            self.add_keywords(mhd_builder, mhd_study, study)
+            self.add_assay_keywords(mhd_builder, mhd_assays, study)
         mhd_dataset: MhDatasetBaseProfile = mhd_builder.create_dataset(
             start_item_refs=[mhd_study.id_], dataset_class=MhDatasetLegacyProfile

{mtbls_mhd_integration-0.0.11 → mtbls_mhd_integration-0.0.13}/mtbls2mhd/v0_1/legacy/convertor.py RENAMED Viewed

@@ -38,7 +38,7 @@ class LegacyProfileV01Convertor(BaseMhdConvertor):
         )
         try:
             success, message = mhd_dataset_builder.build(
-                mhd_id=mhd_identifier,
+                mhd_id=None,
                 mtbls_study_id=repository_identifier,
                 mtbls_study_path=mtbls_study_path,
                 mtbls_study_repository_url=mtbls_study_repository_url,

{mtbls_mhd_integration-0.0.11 → mtbls_mhd_integration-0.0.13/mtbls_mhd_integration.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mtbls-mhd-integration
-Version: 0.0.11
+Version: 0.0.13
 Summary: MetaboLights - MetabolomicsHub Integration
 Author-email: MetaboLights Team <metabolights-help@ebi.ac.uk>
 License-Expression: Apache-2.0
@@ -9,7 +9,7 @@ Description-Content-Type: text/markdown
 License-File: LICENSE
 Requires-Dist: asyncpg>=0.30.0
 Requires-Dist: metabolights-utils>=1.4.16
-Requires-Dist: mhd-model>=0.1.39
+Requires-Dist: mhd-model>=0.1.43
 Requires-Dist: psycopg[binary,pool]>=3.3.2
 Requires-Dist: pydantic>=2.12.4
 Requires-Dist: pydantic-settings>=2.10.1

{mtbls_mhd_integration-0.0.11 → mtbls_mhd_integration-0.0.13}/mtbls_mhd_integration.egg-info/requires.txt RENAMED Viewed

@@ -1,6 +1,6 @@
 asyncpg>=0.30.0
 metabolights-utils>=1.4.16
-mhd-model>=0.1.39
+mhd-model>=0.1.43
 psycopg[binary,pool]>=3.3.2
 pydantic>=2.12.4
 pydantic-settings>=2.10.1

{mtbls_mhd_integration-0.0.11 → mtbls_mhd_integration-0.0.13}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "mtbls-mhd-integration"
-version = "0.0.11"
+version = "0.0.13"
 description = "MetaboLights - MetabolomicsHub Integration"
 authors = [{"name" = "MetaboLights Team", "email" = "metabolights-help@ebi.ac.uk"}]
 license = "Apache-2.0"
@@ -9,7 +9,7 @@ requires-python = ">=3.12,<4.0"
 dependencies = [
     "asyncpg>=0.30.0",
     "metabolights-utils>=1.4.16",
-    "mhd-model>=0.1.39",
+    "mhd-model>=0.1.43",
     "psycopg[binary,pool]>=3.3.2",
     "pydantic>=2.12.4",
     "pydantic-settings>=2.10.1",
@@ -31,6 +31,10 @@ test = [
     "pytest-cov>=6.2.1",
 ]
+[tool.uv]
+default-groups = []
 [project.scripts]
 mtbls-mhd-cli = "mtbls2mhd.commands.cli:cli"
@@ -50,7 +54,7 @@ exclude = ["tests*", "docs*"]
 [tool.commitizen]
 name = "cz_conventional_commits"
 version_provider = "uv"
-version = "0.0.113"
+version = "0.0.133"
 tag_format = "v$major.$minor.$patch"
 version_files = [
     "pyproject.toml:version",