PyPI - commonmeta-py - Versions diffs - 0.62__py3-none-any.whl → 0.65__py3-none-any.whl - Mend

commonmeta-py 0.62py3-none-any.whl → 0.65py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

commonmeta/__init__.py CHANGED Viewed

@@ -10,7 +10,7 @@ commonmeta-py is a Python library to convert scholarly metadata
 """
 __title__ = "commonmeta-py"
-__version__ = "0.62"
+__version__ = "0.65"
 __author__ = "Martin Fenner"
 __license__ = "MIT"
@@ -94,4 +94,5 @@ from .doi_utils import (
     normalize_doi,
     validate_doi,
     validate_prefix,
+    is_rogue_scholar_doi,
 )

commonmeta/constants.py CHANGED Viewed

@@ -408,11 +408,32 @@ SO_TO_CM_TRANSLATIONS = {
     "DigitalDocument": "Document",
     "Dissertation": "Dissertation",
     "Instrument": "Instrument",
+    "MusicRecording": "Audiovisual",
+    "MusicAlbum": "Audiovisual",
     "NewsArticle": "Article",
     "Legislation": "LegalDocument",
+    "ProfilePage": "WebPage",
     "Report": "Report",
     "ScholarlyArticle": "JournalArticle",
     "SoftwareSourceCode": "Software",
+    "Video": "Audiovisual",
+    "WebSite": "WebPage",
+}
+# OpenGraph to schema.org mapping
+OG_TO_SO_TRANSLATIONS = {
+    "music.song": "MusicRecording",
+    "music.album": "MusicAlbum",
+    "music.playlist": "MusicPlaylist",
+    "music.radio_station": "RadioStation",
+    "video.movie": "Video",
+    "video.episode": "Video",
+    "video.tv_show": "Video",
+    "video.other": "Video",
+    "article": "Article",
+    "book": "Book",
+    "profile": "ProfilePage",
+    "website": "WebSite",
 }
 CM_TO_SO_TRANSLATIONS = {

commonmeta/readers/schema_org_reader.py CHANGED Viewed

@@ -36,6 +36,7 @@ from ..constants import (
     SO_TO_CM_TRANSLATIONS,
     SO_TO_DC_RELATION_TYPES,
     SO_TO_DC_REVERSE_RELATION_TYPES,
+    OG_TO_SO_TRANSLATIONS,
     Commonmeta,
 )
@@ -59,7 +60,6 @@ def get_schema_org(pid: str, **kwargs) -> dict:
             "via": "schema_org",
             "errors": [str(error)],
         }
     if response.status_code >= 400:
         if response.status_code in [404, 410]:
             state = "not_found"
@@ -105,7 +105,7 @@ def get_schema_org(pid: str, **kwargs) -> dict:
     # load html meta tags
     data = get_html_meta(soup)
+    print(data)
     # load site-specific metadata
     data |= web_translator(soup, url)
@@ -119,6 +119,7 @@ def get_schema_org(pid: str, **kwargs) -> dict:
         None,
     )
     if json_ld is not None:
+        print(json_ld)
         data |= json_ld
     # if @id is a DOI, get metadata from Crossref or DataCite
@@ -136,7 +137,7 @@ def get_schema_org(pid: str, **kwargs) -> dict:
     # author and creator are synonyms
     if data.get("author", None) is None and data.get("creator", None) is not None:
         data["author"] = data["creator"]
+    print(data)
     return data | {"via": "schema_org", "state": "findable"}
@@ -412,11 +413,13 @@ def get_html_meta(soup):
         data["@id"] = normalize_id(pid)
     _type = (
-        soup.select_one("meta[property='og:type']")
-        or soup.select_one("meta[name='dc.type']")
+        soup.select_one("meta[name='dc.type']")
         or soup.select_one("meta[name='DC.type']")
     )
     data["@type"] = _type["content"].capitalize() if _type else None
+    if _type is None:
+        _type = soup.select_one("meta[property='og:type']")
+        data["@type"] = OG_TO_SO_TRANSLATIONS.get(_type["content"]) if _type else None
     url = soup.select_one("meta[property='og:url']") or soup.select_one(
         "meta[name='twitter:url']"
@@ -431,6 +434,7 @@ def get_html_meta(soup):
         or soup.select_one("meta[name='DC.title']")
         or soup.select_one("meta[property='og:title']")
         or soup.select_one("meta[name='twitter:title']")
+        or soup.select_one("meta[name='title']")
     )
     data["name"] = title["content"] if title else None
@@ -441,6 +445,7 @@ def get_html_meta(soup):
         "meta[name='dc.description']"
         or soup.select_one("meta[property='og:description']")
         or soup.select_one("meta[name='twitter:description']")
+        or soup.select_one("meta[name='description']")
     )
     data["description"] = description["content"] if description else None

commonmeta/utils.py CHANGED Viewed

@@ -1096,22 +1096,48 @@ def from_curie(id: Optional[str]) -> Optional[str]:
     if id is None:
         return None
     _type = id.split(":")[0]
-    if _type == "DOI":
+    if _type.upper() == "DOI":
         return doi_as_url(id.split(":")[1])
-    elif _type == "ROR":
+    elif _type.upper() == "ROR":
         return "https://ror.org/" + id.split(":")[1]
-    elif _type == "ISNI":
+    elif _type.upper() == "ISNI":
         return "https://isni.org/isni/" + id.split(":")[1]
-    elif _type == "ORCID":
+    elif _type.upper() == "ORCID":
         return normalize_orcid(id.split(":")[1])
-    elif _type == "URL":
+    elif _type.upper() == "URL":
         return normalize_url(id.split(":")[1])
-    elif _type == "JDP":
+    elif _type.upper() == "JDP":
         return id.split(":")[1]
     # TODO: resolvable url for other identifier types
     return None
+def extract_curie(string: Optional[str]) -> Optional[str]:
+    """Extract CURIE"""
+    if string is None:
+        return None
+    match = re.search(r"((?:doi|DOI):\s?([\w.,@?^=%&:\/~+#-]*[\w@?^=%&\/~+#-]))", string)
+    if match is None:
+        return None
+    return doi_as_url(match.group(2))
+def extract_url(string: str) -> list:
+    """Extract urls from string, including markdown and html."""
+    match = re.search(r"((?:http|https):\/\/(?:[\w_-]+(?:(?:\.[\w_-]+)+))(?:[\w.,@?^=%&:\/~+#-]*[\w@?^=%&\/~+#-]))", string)
+    if match is None:
+        return None
+    return normalize_url(match.group(1))
+def extract_urls(string: str) -> list:
+    """Extract urls from string, including markdown and html."""
+    urls = re.findall(r"((?:http|https):\/\/(?:[\w_-]+(?:(?:\.[\w_-]+)+))(?:[\w.,@?^=%&:\/~+#-]*[\w@?^=%&\/~+#-]))", string)
+    return py_.uniq(urls)
 def issn_as_url(issn: str) -> Optional[str]:
     """ISSN as URL"""
     if normalize_issn(issn) is None:

commonmeta/writers/inveniordm_writer.py CHANGED Viewed

@@ -257,7 +257,8 @@ def to_inveniordm_reference(reference: dict) -> dict:
         identifier = reference.get("id", None)
         scheme = "url"
     else:
-        return None
+        identifier = None
+        scheme = None
     if reference.get("unstructured", None) is None:
         # use title as unstructured reference

{commonmeta_py-0.62.dist-info → commonmeta_py-0.65.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: commonmeta-py
-Version: 0.62
+Version: 0.65
 Summary: Library for conversions to/from the Commonmeta scholarly metadata format
 Home-page: https://python.commonmeta.org
 License: MIT

{commonmeta_py-0.62.dist-info → commonmeta_py-0.65.dist-info}/RECORD RENAMED Viewed

@@ -1,9 +1,9 @@
-commonmeta/__init__.py,sha256=t2QRGjR73eSP55rlkljDk1Rckce3LCX8TSKrmZzNbh4,1795
+commonmeta/__init__.py,sha256=LqrBGNgQuAGQiRF9HrhX5iHHu14t44M7nTTOYmg4Rmc,1821
 commonmeta/api_utils.py,sha256=-ZHGVZZhJqnjnsLtp4-PoeHYbDqL0cQme7W70BEjo4U,2677
 commonmeta/author_utils.py,sha256=zBIPTgP5n7Zx57xomJ2h7x0dvC0AV8gJ2gPoYeDy5Lo,8348
 commonmeta/base_utils.py,sha256=AsUElA5kT2fw_Osy7Uaj2F6MKeq9yB7d5f2V-h2lh7c,3750
 commonmeta/cli.py,sha256=sOI9BJTePnljVcXcZ95N7TKXDT283XpjUaak7bMnbr0,6076
-commonmeta/constants.py,sha256=VfjXLkwoV4A5uztH3vgDJ_qrt7PaWGO6QtHbAt4r03c,17501
+commonmeta/constants.py,sha256=AFm8gSo4WGnTdJOm1SOGLK602BctcQbaWU_tKCkgn_4,18087
 commonmeta/crossref_utils.py,sha256=qJlTZtfKR2shAXQDm8VBYUujKFkTtZTUz19GuMUANaI,22198
 commonmeta/date_utils.py,sha256=rJRV4YmWKQWU__iAV8www3cqwaefC0iRKyHwvxrr_XY,6316
 commonmeta/doi_utils.py,sha256=xlYQq-qkqhz07CLKpL_WfxZBT8maXgB9-TvQHlL2ZoY,9266
@@ -22,7 +22,7 @@ commonmeta/readers/inveniordm_reader.py,sha256=jzv0rXzT8OCdPD_MShBXTnlwD-F9tpTX7
 commonmeta/readers/json_feed_reader.py,sha256=ctlASyxByjXDVgREzdeYOCZezn9aFFv3yKogDFd8WNs,14174
 commonmeta/readers/kbase_reader.py,sha256=ehKXQsJyPCtaq2FmBxNb2Jb5Nktpx8pNscpmEM6N0A4,6763
 commonmeta/readers/ris_reader.py,sha256=v6qOd-i2OcMTEFy5RGd3MlYthJcYSU6yzmZ5yHDzmII,3677
-commonmeta/readers/schema_org_reader.py,sha256=xyWzO2XAWlI2pYVl2EbVRsUmfiWXEwP64CHRBQNRN-M,16835
+commonmeta/readers/schema_org_reader.py,sha256=udvRBeEnsyRmy5UOIk523f7x08RRLvxqTCMMS736oFs,17132
 commonmeta/resources/cff_v1.2.0.json,sha256=MpfjDYgX7fN9PLiG54ISZ2uu9WItNqfh-yaRuTf6Ptg,46691
 commonmeta/resources/commonmeta_v0.12.json,sha256=HUSNReXh2JN3Q6YWSt7CE69js8dh50OlpMYGTyU98oU,16762
 commonmeta/resources/commonmeta_v0.13.json,sha256=2-WSZGijR13zVu97S_YHXr-cyeLW7hzHXYMlr6nIjdw,15787
@@ -58,7 +58,7 @@ commonmeta/resources/styles/modern-language-association.csl,sha256=HI2iU4krze1aH
 commonmeta/resources/styles/vancouver.csl,sha256=lun3_i2oTilgsANk4LjFao2UDPQlGj_hgFgKAWC_DF8,12878
 commonmeta/schema_utils.py,sha256=gg3l1jd_lFtRkQlO1DYGMVbC10nEmVTN4AWacxC4AAE,915
 commonmeta/translators.py,sha256=RpGJtKNLjmz41VREZDY7KyyE2eXOi8j7m-da4jHmknI,1362
-commonmeta/utils.py,sha256=0ky8xyDQWVND5nJWApPgyVhbjXdPPzfpx4fJpX9ivyw,43674
+commonmeta/utils.py,sha256=lIH7VejIn_gReLsuXsAZxE-RiMCRGECA_6aPrhGsBFc,44596
 commonmeta/writers/__init__.py,sha256=47-snms6xBHkoEXKYV1DBtH1npAtlVtvY29Z4Zr45qI,45
 commonmeta/writers/bibtex_writer.py,sha256=s3hIJIgWvSG7TAriZMRQEAyuitw6ebwWSI1YcYFQ-do,4971
 commonmeta/writers/citation_writer.py,sha256=RjaNh9EALxq6gfODLRWVJxGxPArGd6ZiHUlkYnCT6MA,2355
@@ -66,11 +66,11 @@ commonmeta/writers/commonmeta_writer.py,sha256=2qlttCfYpGhfVjrYkjzbIra7AywssRLT3
 commonmeta/writers/crossref_xml_writer.py,sha256=0Ds494RnXfdfjWw5CLX1kwV2zP7gqffdVqO-X74Uc6c,492
 commonmeta/writers/csl_writer.py,sha256=6N-93R1emcOsZrUTIhPBVd_Fv1C8Z5EAFYI0mYjoYaY,2797
 commonmeta/writers/datacite_writer.py,sha256=G7Lr0aZ4sAEdbfXe3dG4Y6AyGUKA9UWr_iiaQRDnV24,6233
-commonmeta/writers/inveniordm_writer.py,sha256=oVcXdHYtuugbfDgKO8JwTRXmP7AK2U96uK4YF0eKXAY,11399
+commonmeta/writers/inveniordm_writer.py,sha256=YXLfiMkWDMMd7ZlOzhp0zNieQFfHKZ4m5FQLIl_XuWI,11427
 commonmeta/writers/ris_writer.py,sha256=AcnCszS3WY9lF594NbFBtLylsA8ownnYp_XLQJ84Ios,2093
 commonmeta/writers/schema_org_writer.py,sha256=5j002uCNLdlScZMNQmPjodcVWqaBh2z38zL1H4lo2hY,5741
-commonmeta_py-0.62.dist-info/LICENSE,sha256=746hEF2wZCKkcckk5-_DcBLtHewfaEMS4iXTlA1PVwk,1074
-commonmeta_py-0.62.dist-info/METADATA,sha256=3amCMEJUFi6F88HR4wPmrBww-8VL49HgBs0LamBOsqo,8279
-commonmeta_py-0.62.dist-info/WHEEL,sha256=Nq82e9rUAnEjt98J6MlVmMCZb-t9cYE2Ir1kpBmnWfs,88
-commonmeta_py-0.62.dist-info/entry_points.txt,sha256=vbcDw3_2lMTKdcAL2VUF4DRYRpKuzXVYLMCdgKVf88U,49
-commonmeta_py-0.62.dist-info/RECORD,,
+commonmeta_py-0.65.dist-info/LICENSE,sha256=746hEF2wZCKkcckk5-_DcBLtHewfaEMS4iXTlA1PVwk,1074
+commonmeta_py-0.65.dist-info/METADATA,sha256=th0VmBY3Kk5evcQrUOk55lTyqjeZ6CEuXnvumG_Duvc,8279
+commonmeta_py-0.65.dist-info/WHEEL,sha256=Nq82e9rUAnEjt98J6MlVmMCZb-t9cYE2Ir1kpBmnWfs,88
+commonmeta_py-0.65.dist-info/entry_points.txt,sha256=vbcDw3_2lMTKdcAL2VUF4DRYRpKuzXVYLMCdgKVf88U,49
+commonmeta_py-0.65.dist-info/RECORD,,

{commonmeta_py-0.62.dist-info → commonmeta_py-0.65.dist-info}/LICENSE RENAMED Viewed

File without changes

{commonmeta_py-0.62.dist-info → commonmeta_py-0.65.dist-info}/WHEEL RENAMED Viewed

File without changes

{commonmeta_py-0.62.dist-info → commonmeta_py-0.65.dist-info}/entry_points.txt RENAMED Viewed

File without changes

commonmeta-py 0.62__py3-none-any.whl → 0.65__py3-none-any.whl

commonmeta-py 0.62py3-none-any.whl → 0.65py3-none-any.whl