PyPI - eotdl - Versions diffs - 2024.10.7__py3-none-any.whl → 2025.3.25__py3-none-any.whl - Mend

eotdl 2024.10.7py3-none-any.whl → 2025.3.25py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

eotdl/__init__.py +1 -1
eotdl/access/search.py +0 -2
eotdl/access/sentinelhub/parameters.py +1 -1
eotdl/cli.py +2 -2
eotdl/commands/datasets.py +28 -31
eotdl/commands/models.py +27 -30
eotdl/commands/stac.py +57 -0
eotdl/curation/__init__.py +0 -8
eotdl/curation/stac/__init__.py +1 -8
eotdl/curation/stac/api.py +58 -0
eotdl/curation/stac/stac.py +31 -341
eotdl/datasets/__init__.py +1 -1
eotdl/datasets/ingest.py +28 -159
eotdl/datasets/retrieve.py +0 -9
eotdl/datasets/stage.py +64 -0
eotdl/files/__init__.py +0 -2
eotdl/files/ingest.bck +178 -0
eotdl/files/ingest.py +229 -164
eotdl/{datasets → files}/metadata.py +16 -17
eotdl/models/__init__.py +1 -1
eotdl/models/ingest.py +28 -159
eotdl/models/stage.py +60 -0
eotdl/repos/APIRepo.py +1 -1
eotdl/repos/DatasetsAPIRepo.py +56 -43
eotdl/repos/FilesAPIRepo.py +260 -167
eotdl/repos/STACAPIRepo.py +40 -0
eotdl/repos/__init__.py +1 -0
eotdl/tools/geo_utils.py +7 -2
{eotdl-2024.10.7.dist-info → eotdl-2025.3.25.dist-info}/METADATA +5 -4
eotdl-2025.3.25.dist-info/RECORD +65 -0
{eotdl-2024.10.7.dist-info → eotdl-2025.3.25.dist-info}/WHEEL +1 -1
eotdl/curation/stac/assets.py +0 -110
eotdl/curation/stac/dataframe.py +0 -172
eotdl/curation/stac/dataframe_bck.py +0 -253
eotdl/curation/stac/dataframe_labeling.py +0 -63
eotdl/curation/stac/extensions/__init__.py +0 -23
eotdl/curation/stac/extensions/base.py +0 -30
eotdl/curation/stac/extensions/dem.py +0 -18
eotdl/curation/stac/extensions/eo.py +0 -117
eotdl/curation/stac/extensions/label/__init__.py +0 -7
eotdl/curation/stac/extensions/label/base.py +0 -136
eotdl/curation/stac/extensions/label/image_name_labeler.py +0 -203
eotdl/curation/stac/extensions/label/scaneo.py +0 -219
eotdl/curation/stac/extensions/ml_dataset.py +0 -648
eotdl/curation/stac/extensions/projection.py +0 -44
eotdl/curation/stac/extensions/raster.py +0 -53
eotdl/curation/stac/extensions/sar.py +0 -55
eotdl/curation/stac/extent.py +0 -158
eotdl/curation/stac/parsers.py +0 -61
eotdl/datasets/download.py +0 -104
eotdl/files/list_files.py +0 -13
eotdl/models/download.py +0 -101
eotdl/models/metadata.py +0 -43
eotdl/wrappers/utils.py +0 -35
eotdl-2024.10.7.dist-info/RECORD +0 -82
{eotdl-2024.10.7.dist-info → eotdl-2025.3.25.dist-info}/entry_points.txt +0 -0

eotdl/models/ingest.py CHANGED Viewed

@@ -1,165 +1,34 @@
 from pathlib import Path
-import yaml
-import frontmatter
-from tqdm import tqdm
-import json
-from ..auth import with_auth
-from .metadata import Metadata, generate_metadata
-from ..repos import ModelsAPIRepo, FilesAPIRepo
-from ..shared import calculate_checksum
-from ..files import ingest_files, create_new_version
-from .update import update_model
-from ..curation.stac import STACDataFrame
-def ingest_model(
-    path, verbose=False, logger=print, force_metadata_update=False, sync_metadata=False
-):
-    path = Path(path)
-    if not path.is_dir():
-        raise Exception("Path must be a folder")
-    if "catalog.json" in [f.name for f in path.iterdir()]:
-        return ingest_stac(path / "catalog.json", logger)
-    return ingest_folder(path, verbose, logger, force_metadata_update, sync_metadata)
+from ..repos import ModelsAPIRepo
+from ..files.ingest import prep_ingest_stac, prep_ingest_folder, ingest
 def retrieve_model(metadata, user):
-    repo = ModelsAPIRepo()
-    data, error = repo.retrieve_model(metadata.name)
-    # print(data, error)
-    if data and data["uid"] != user["uid"]:
-        raise Exception("Model already exists.")
-    if error and error == "Model doesn't exist":
-        # create dataset
-        data, error = repo.create_model(metadata.dict(), user)
-        # print(data, error)
-        if error:
-            raise Exception(error)
-        data["id"] = data["model_id"]
-    return data
-@with_auth
-def ingest_folder(
-    folder,
-    verbose=False,
-    logger=print,
-    force_metadata_update=False,
-    sync_metadata=False,
-    user=None,
-):
-    repo = ModelsAPIRepo()
-    # load metadata
-    try:
-        readme = frontmatter.load(folder.joinpath("README.md"))
-        metadata, content = readme.metadata, readme.content
-        metadata = Metadata(**metadata)
-    except FileNotFoundError:
-        # load metadata (legacy)
-        metadata = (
-            yaml.safe_load(open(folder.joinpath("metadata.yml"), "r").read()) or {}
-        )
-        metadata = Metadata(**metadata)
-        content = None
-    except Exception as e:
-        raise Exception(f"Error loading metadata: {e}")
-    # retrieve model (create if doesn't exist)
-    model = retrieve_model(metadata, user)
+	repo = ModelsAPIRepo()
+	data, error = repo.retrieve_model(metadata.name)
+	# print(data, error)
+	if data and data["uid"] != user["uid"]:
+		raise Exception("Model already exists.")
+	if error and error == "Model doesn't exist":
+		# create model
+		data, error = repo.create_model(metadata.dict(), user)
+		# print(data, error)
+		if error:
+			raise Exception(error)
+	return data
-    update_metadata = True
-    if "description" in model:
-        # do not do this if the model is new, only if it already exists
-        update_metadata = check_metadata(
-            model, metadata, content, force_metadata_update, sync_metadata, folder
-        )
-    if update_metadata:
-        update_model(model["id"], metadata, content, user)
-    # ingest files
-    return ingest_files(
-        repo, model["id"], folder, verbose, logger, user, endpoint="models"
-    )
-def check_metadata(
-    dataset, metadata, content, force_metadata_update, sync_metadata, folder
+def ingest_model(
+	path,
+	verbose=False,
+	logger=print,
+	force_metadata_update=False,
+	sync_metadata=False,
 ):
-    if (
-        dataset["name"] != metadata.name
-        or dataset["description"] != content
-        or dataset["authors"] != metadata.authors
-        or dataset["source"] != metadata.source
-        or dataset["license"] != metadata.license
-        or dataset["thumbnail"] != metadata.thumbnail
-    ):
-        if not force_metadata_update and not sync_metadata:
-            raise Exception(
-                "The provided metadata is not consistent with the current metadata. Use -f to force metadata update or -s to sync your local metadata."
-            )
-        if force_metadata_update:
-            return True
-        if sync_metadata:
-            generate_metadata(str(folder), dataset)
-            return False
-    return False
-def retrieve_stac_model(model_name, user):
-    repo = ModelsAPIRepo()
-    data, error = repo.retrieve_model(model_name)
-    # print(data, error)
-    if data and data["uid"] != user["uid"]:
-        raise Exception("Model already exists.")
-    if error and error == "Model doesn't exist":
-        # create model
-        data, error = repo.create_stac_model(model_name, user)
-        # print(data, error)
-        if error:
-            raise Exception(error)
-        data["id"] = data["model_id"]
-    return data["id"]
-@with_auth
-def ingest_stac(stac_catalog, logger=None, user=None):
-    repo, files_repo = ModelsAPIRepo(), FilesAPIRepo()
-    # load catalog
-    logger("Loading STAC catalog...")
-    df = STACDataFrame.from_stac_file(stac_catalog)
-    catalog = df[df["type"] == "Catalog"]
-    assert len(catalog) == 1, "STAC catalog must have exactly one root catalog"
-    dataset_name = catalog.id.iloc[0]
-    # retrieve dataset (create if doesn't exist)
-    model_id = retrieve_stac_model(dataset_name, user)
-    # create new version
-    version = create_new_version(repo, model_id, user)
-    logger("New version created, version: " + str(version))
-    df2 = df.dropna(subset=["assets"])
-    for row in tqdm(df2.iterrows(), total=len(df2)):
-        try:
-            for k, v in row[1]["assets"].items():
-                data, error = files_repo.ingest_file(
-                    v["href"],
-                    model_id,
-                    user,
-                    calculate_checksum(v["href"]),  # is always absolute?
-                    "models",
-                    version,
-                )
-                if error:
-                    raise Exception(error)
-                file_url = (
-                    f"{repo.url}models/{data['model_id']}/download/{data['filename']}"
-                )
-                df.loc[row[0], "assets"][k]["href"] = file_url
-        except Exception as e:
-            logger(f"Error uploading asset {row[0]}: {e}")
-            break
-    # ingest the STAC catalog into geodb
-    logger("Ingesting STAC catalog...")
-    data, error = repo.ingest_stac(json.loads(df.to_json()), model_id, user)
-    if error:
-        # TODO: delete all assets that were uploaded
-        raise Exception(error)
-    logger("Done")
-    return
+	path = Path(path)
+	if not path.is_dir():
+		raise Exception("Path must be a folder")
+	if "catalog.json" in [f.name for f in path.iterdir()]:
+		prep_ingest_stac(path, logger)
+	else:
+		prep_ingest_folder(path, verbose, logger, force_metadata_update, sync_metadata)
+	return ingest(path, ModelsAPIRepo(), retrieve_model, 'models')

eotdl/models/stage.py ADDED Viewed

@@ -0,0 +1,60 @@
+import os
+from pathlib import Path
+from tqdm import tqdm
+import geopandas as gpd
+from ..auth import with_auth
+from .retrieve import retrieve_model
+from ..repos import FilesAPIRepo
+@with_auth
+def stage_model(
+    model_name,
+    version=None,
+    path=None,
+    logger=print,
+    assets=False,
+    force=False,
+    verbose=False,
+    user=None,
+    file=None,
+):
+    model = retrieve_model(model_name)
+    if version is None:
+        version = sorted([v['version_id'] for v in model["versions"]])[-1]
+    else:
+        assert version in [
+            v["version_id"] for v in model["versions"]
+        ], f"Version {version} not found"
+    download_base_path = os.getenv(
+        "EOTDL_DOWNLOAD_PATH", str(Path.home()) + "/.cache/eotdl/models"
+    )
+    if path is None:
+        download_path = download_base_path + "/" + model_name
+    else:
+        download_path = path + "/" + model_name
+    # check if model already exists
+    if os.path.exists(download_path) and not force:
+        os.makedirs(download_path, exist_ok=True)
+        # raise Exception(
+        #     f"model `{model['name']} v{str(version)}` already exists at {download_path}. To force download, use force=True or -f in the CLI."
+        # )
+    # stage metadata
+    repo = FilesAPIRepo()
+    catalog_path = repo.stage_file(model["id"], f"catalog.v{version}.parquet", user, download_path)
+    # TODO: stage README.md
+    if assets:
+        gdf = gpd.read_parquet(catalog_path)
+        for _, row in tqdm(gdf.iterrows(), total=len(gdf), desc="Staging assets"):
+            for k, v in row["assets"].items():
+                stage_model_file(v["href"], download_path)
+    return download_path
+@with_auth
+def stage_model_file(file_url, path, user):
+    repo = FilesAPIRepo()
+    return repo.stage_file_url(file_url, path, user)

eotdl/repos/APIRepo.py CHANGED Viewed

@@ -5,7 +5,7 @@ import requests
 class APIRepo:
     def __init__(self, url=None):
         default_url = "https://api.eotdl.com/"
-        # default_url = "http://localhost:8010/"
+        # default_url = "http://localhost:8000/"
         self.url = url if url else os.getenv("EOTDL_API_URL", default_url)
     def format_response(self, response):

eotdl/repos/DatasetsAPIRepo.py CHANGED Viewed

@@ -19,7 +19,15 @@ class DatasetsAPIRepo(APIRepo):
                 url += "&limit=" + str(limit)
         response = requests.get(url)
         return self.format_response(response)
+    def retrieve_dataset(self, name):
+        response = requests.get(self.url + "datasets?name=" + name)
+        return self.format_response(response)
+    def get_dataset_by_id(self, dataset_id):
+        response = requests.get(self.url + "datasets/" + dataset_id)
+        return self.format_response(response)
     def create_dataset(self, metadata, user):
         response = requests.post(
             self.url + "datasets",
@@ -28,53 +36,58 @@ class DatasetsAPIRepo(APIRepo):
         )
         return self.format_response(response)
-    def retrieve_dataset(self, name):
-        response = requests.get(self.url + "datasets?name=" + name)
-        return self.format_response(response)
-    def create_version(self, dataset_id, user):
+    def complete_ingestion(self, dataset_id, version, size, user):
         response = requests.post(
-            self.url + "datasets/version/" + dataset_id,
+            self.url + "datasets/complete/" + dataset_id,
+            json={"version": version, "size": size},
             headers=self.generate_headers(user),
         )
         return self.format_response(response)
-    def create_stac_dataset(self, name, user):
-        response = requests.post(
-            self.url + "datasets/stac",
-            json={"name": name},
-            headers=self.generate_headers(user),
-        )
-        return self.format_response(response)
-    def ingest_stac(self, stac_json, dataset_id, user):
-        response = requests.put(
-            self.url + f"datasets/stac/{dataset_id}",
-            json={"stac": stac_json},
-            headers=self.generate_headers(user),
-        )
-        return self.format_response(response)
+    # def create_version(self, dataset_id, user):
+    #     response = requests.post(
+    #         self.url + "datasets/version/" + dataset_id,
+    #         headers=self.generate_headers(user),
+    #     )
+    #     return self.format_response(response)
-    def download_stac(self, dataset_id, user):
-        url = self.url + "datasets/" + dataset_id + "/download"
-        headers = self.generate_headers(user)
-        response = requests.get(url, headers=headers)
-        if response.status_code != 200:
-            return None, response.json()["detail"]
-        return gpd.GeoDataFrame.from_features(response.json()["features"]), None
+    # def create_stac_dataset(self, name, user):
+    #     response = requests.post(
+    #         self.url + "datasets/stac",
+    #         json={"name": name},
+    #         headers=self.generate_headers(user),
+    #     )
+    #     return self.format_response(response)
-    def update_dataset(
-        self, dataset_id, authors, source, license, thumbnail, content, user
-    ):
-        response = requests.put(
-            self.url + f"datasets/{dataset_id}",
-            json={
-                "authors": authors,
-                "source": source,
-                "license": license,
-                "thumbnail": thumbnail,
-                "description": content,
-            },
-            headers=self.generate_headers(user),
-        )
-        return self.format_response(response)
+    # def ingest_stac(self, stac_json, dataset_id, user):
+    #     response = requests.put(
+    #         self.url + f"datasets/stac/{dataset_id}",
+    #         json={"stac": stac_json},
+    #         headers=self.generate_headers(user),
+    #     )
+    #     return self.format_response(response)
+    # def download_stac(self, dataset_id, user):
+    #     url = self.url + "datasets/" + dataset_id + "/download"
+    #     headers = self.generate_headers(user)
+    #     response = requests.get(url, headers=headers)
+    #     if response.status_code != 200:
+    #         return None, response.json()["detail"]
+    #     return gpd.GeoDataFrame.from_features(response.json()["features"]), None
+    # def update_dataset(
+    #     self, dataset_id, authors, source, license, thumbnail, content, user
+    # ):
+    #     response = requests.put(
+    #         self.url + f"datasets/{dataset_id}",
+    #         json={
+    #             "authors": authors,
+    #             "source": source,
+    #             "license": license,
+    #             "thumbnail": thumbnail,
+    #             "description": content,
+    #         },
+    #         headers=self.generate_headers(user),
+    #     )
+    #     return self.format_response(response)

eotdl 2024.10.7__py3-none-any.whl → 2025.3.25__py3-none-any.whl

eotdl 2024.10.7py3-none-any.whl → 2025.3.25py3-none-any.whl