PyPI - cognite-extractor-utils - Versions diffs - 7.3.0__py3-none-any.whl → 7.4.0__py3-none-any.whl - Mend

cognite-extractor-utils 7.3.0py3-none-any.whl → 7.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cognite-extractor-utils might be problematic. Click here for more details.

Files changed (7) hide show

cognite/extractorutils/unstable/__init__.py ADDED Viewed

@@ -0,0 +1,8 @@
+"""
+The unstable package contains experimental functions and classes currently
+deemed unstable. The contents of this package is subject to change without
+notice, even in minor or patch releases.
+Whenever you import anything from the unstable package, you should make sure to
+run a type checker such as mypy to help catch these changes.
+"""

cognite/extractorutils/uploader/files.py CHANGED Viewed

@@ -25,6 +25,9 @@ from requests.utils import super_len
 from cognite.client import CogniteClient
 from cognite.client.data_classes import FileMetadata
+from cognite.client.data_classes.data_modeling import NodeId
+from cognite.client.data_classes.data_modeling.extractor_extensions.v1 import CogniteExtractorFileApply
+from cognite.client.utils._identifier import IdentifierSequence
 from cognite.extractorutils.threading import CancellationToken
 from cognite.extractorutils.uploader._base import (
     RETRIES,
@@ -48,6 +51,10 @@ _MAX_SINGLE_CHUNK_FILE_SIZE = 5 * 1024 * 1024 * 1024
 # 4000 MiB
 _MAX_FILE_CHUNK_SIZE = 4 * 1024 * 1024 * 1000
+_CDF_ALPHA_VERSION_HEADER = {"cdf-version": "alpha"}
+FileMetadataOrCogniteExtractorFile = Union[FileMetadata, CogniteExtractorFileApply]
 class ChunkedStream(RawIOBase, BinaryIO):
     """
@@ -178,7 +185,7 @@ class IOFileUploadQueue(AbstractUploadQueue):
     def __init__(
         self,
         cdf_client: CogniteClient,
-        post_upload_function: Optional[Callable[[List[FileMetadata]], None]] = None,
+        post_upload_function: Optional[Callable[[List[FileMetadataOrCogniteExtractorFile]], None]] = None,
         max_queue_size: Optional[int] = None,
         trigger_log_level: str = "DEBUG",
         thread_name: Optional[str] = None,
@@ -238,9 +245,81 @@ class IOFileUploadQueue(AbstractUploadQueue):
             self.cancellation_token.wait(5)
+    def _apply_cognite_file(self, file_apply: CogniteExtractorFileApply) -> NodeId:
+        instance_result = self.cdf_client.data_modeling.instances.apply(file_apply)
+        node = instance_result.nodes[0]
+        return node.as_id()
+    def _upload_empty(
+        self, meta_or_apply: FileMetadataOrCogniteExtractorFile
+    ) -> tuple[FileMetadataOrCogniteExtractorFile, str]:
+        if isinstance(meta_or_apply, CogniteExtractorFileApply):
+            node_id = self._apply_cognite_file(meta_or_apply)
+            meta_or_apply, url = self._create_cdm(instance_id=node_id)
+        else:
+            meta_or_apply, url = self.cdf_client.files.create(
+                file_metadata=meta_or_apply, overwrite=self.overwrite_existing
+            )
+        return meta_or_apply, url
+    def _upload_bytes(self, size: int, file: BinaryIO, meta_or_apply: FileMetadataOrCogniteExtractorFile) -> None:
+        meta_or_apply, url = self._upload_empty(meta_or_apply)
+        resp = self._httpx_client.send(self._get_file_upload_request(url, file, size))
+        resp.raise_for_status()
+    def _upload_multipart(self, size: int, file: BinaryIO, meta_or_apply: FileMetadataOrCogniteExtractorFile) -> None:
+        chunks = ChunkedStream(file, self.max_file_chunk_size, size)
+        self.logger.debug(
+            f"File {meta_or_apply.external_id} is larger than 5GiB ({size})"
+            f", uploading in {chunks.chunk_count} chunks"
+        )
+        returned_file_metadata = self._create_multi_part(meta_or_apply, chunks)
+        upload_urls = returned_file_metadata["uploadUrls"]
+        upload_id = returned_file_metadata["uploadId"]
+        file_meta = FileMetadata.load(returned_file_metadata)
+        for url in upload_urls:
+            chunks.next_chunk()
+            resp = self._httpx_client.send(self._get_file_upload_request(url, chunks, len(chunks)))
+            resp.raise_for_status()
+        completed_headers = (
+            _CDF_ALPHA_VERSION_HEADER if isinstance(meta_or_apply, CogniteExtractorFileApply) is not None else None
+        )
+        res = self.cdf_client.files._post(
+            url_path="/files/completemultipartupload",
+            json={"id": file_meta.id, "uploadId": upload_id},
+            headers=completed_headers,
+        )
+        res.raise_for_status()
+    def _create_multi_part(self, meta_or_apply: FileMetadataOrCogniteExtractorFile, chunks: ChunkedStream) -> dict:
+        if isinstance(meta_or_apply, CogniteExtractorFileApply):
+            node_id = self._apply_cognite_file(meta_or_apply)
+            identifiers = IdentifierSequence.load(instance_ids=node_id).as_singleton()
+            self.cdf_client.files._warn_alpha()
+            res = self.cdf_client.files._post(
+                url_path="/files/multiuploadlink",
+                json={"items": identifiers.as_dicts()},
+                params={"parts": chunks.chunk_count},
+                headers=_CDF_ALPHA_VERSION_HEADER,
+            )
+            res.raise_for_status()
+            return res.json()["items"][0]
+        else:
+            res = self.cdf_client.files._post(
+                url_path="/files/initmultipartupload",
+                json=meta_or_apply.dump(camel_case=True),
+                params={"overwrite": self.overwrite_existing, "parts": chunks.chunk_count},
+            )
+            res.raise_for_status()
+            return res.json()
     def add_io_to_upload_queue(
         self,
-        file_meta: FileMetadata,
+        meta_or_apply: FileMetadataOrCogniteExtractorFile,
         read_file: Callable[[], BinaryIO],
         extra_retries: Optional[
             Union[Tuple[Type[Exception], ...], Dict[Type[Exception], Callable[[Any], bool]]]
@@ -248,7 +327,7 @@ class IOFileUploadQueue(AbstractUploadQueue):
     ) -> None:
         """
         Add file to upload queue. The file will start uploading immedeately. If the size of the queue is larger than
-        the specified max size, this call will block until it's
+        the specified max size, this call will block until it's completed the upload.
         Args:
             file_meta: File metadata-object
@@ -258,7 +337,7 @@ class IOFileUploadQueue(AbstractUploadQueue):
         """
         retries = cognite_exceptions()
         if isinstance(extra_retries, tuple):
-            retries.update({exc: lambda _e: True for exc in extra_retries or []})
+            retries.update({exc: lambda _: True for exc in extra_retries or []})
         elif isinstance(extra_retries, dict):
             retries.update(extra_retries)
@@ -270,60 +349,36 @@ class IOFileUploadQueue(AbstractUploadQueue):
             max_delay=RETRY_MAX_DELAY,
             backoff=RETRY_BACKOFF_FACTOR,
         )
-        def upload_file(read_file: Callable[[], BinaryIO], file_meta: FileMetadata) -> None:
+        def upload_file(read_file: Callable[[], BinaryIO], meta_or_apply: FileMetadataOrCogniteExtractorFile) -> None:
             with read_file() as file:
                 size = super_len(file)
                 if size == 0:
                     # upload just the file metadata witout data
-                    file_meta, _url = self.cdf_client.files.create(
-                        file_metadata=file_meta, overwrite=self.overwrite_existing
-                    )
+                    meta_or_apply, _ = self._upload_empty(meta_or_apply)
                 elif size >= self.max_single_chunk_file_size:
                     # The minimum chunk size is 4000MiB.
-                    chunks = ChunkedStream(file, self.max_file_chunk_size, size)
-                    self.logger.debug(
-                        f"File {file_meta.external_id} is larger than 5GiB ({size})"
-                        f", uploading in {chunks.chunk_count} chunks"
-                    )
-                    res = self.cdf_client.files._post(
-                        url_path="/files/initmultipartupload",
-                        json=file_meta.dump(camel_case=True),
-                        params={"overwrite": self.overwrite_existing, "parts": chunks.chunk_count},
-                    )
-                    returned_file_metadata = res.json()
-                    upload_urls = returned_file_metadata["uploadUrls"]
-                    upload_id = returned_file_metadata["uploadId"]
-                    file_meta = FileMetadata.load(returned_file_metadata)
-                    for url in upload_urls:
-                        chunks.next_chunk()
-                        resp = self._httpx_client.send(self._get_file_upload_request(url, chunks, len(chunks)))
-                        resp.raise_for_status()
-                    self.cdf_client.files._post(
-                        url_path="/files/completemultipartupload", json={"id": file_meta.id, "uploadId": upload_id}
-                    )
+                    self._upload_multipart(size, file, meta_or_apply)
                 else:
-                    file_meta, url = self.cdf_client.files.create(
-                        file_metadata=file_meta, overwrite=self.overwrite_existing
-                    )
-                    resp = self._httpx_client.send(self._get_file_upload_request(url, file, size))
-                    resp.raise_for_status()
+                    self._upload_bytes(size, file, meta_or_apply)
+                if isinstance(meta_or_apply, CogniteExtractorFileApply):
+                    meta_or_apply.is_uploaded = True
             if self.post_upload_function:
                 try:
-                    self.post_upload_function([file_meta])
+                    self.post_upload_function([meta_or_apply])
                 except Exception as e:
                     self.logger.error("Error in upload callback: %s", str(e))
-        def wrapped_upload(read_file: Callable[[], BinaryIO], file_meta: FileMetadata) -> None:
+        def wrapped_upload(
+            read_file: Callable[[], BinaryIO], meta_or_apply: FileMetadataOrCogniteExtractorFile
+        ) -> None:
             try:
-                upload_file(read_file, file_meta)
+                upload_file(read_file, meta_or_apply)
             except Exception as e:
-                self.logger.exception(f"Unexpected error while uploading file: {file_meta.external_id}")
+                self.logger.exception(f"Unexpected error while uploading file: {meta_or_apply.external_id}")
                 self.errors.append(e)
             finally:
@@ -340,7 +395,7 @@ class IOFileUploadQueue(AbstractUploadQueue):
                     pass
         with self.lock:
-            self.upload_queue.append(self._pool.submit(wrapped_upload, read_file, file_meta))
+            self.upload_queue.append(self._pool.submit(wrapped_upload, read_file, meta_or_apply))
             self.upload_queue_size += 1
             self.files_queued.inc()
             self.queue_size.set(self.upload_queue_size)
@@ -364,6 +419,18 @@ class IOFileUploadQueue(AbstractUploadQueue):
             headers=headers,
         )
+    def _create_cdm(self, instance_id: NodeId) -> tuple[FileMetadata, str]:
+        self.cdf_client.files._warn_alpha()
+        identifiers = IdentifierSequence.load(instance_ids=instance_id).as_singleton()
+        res = self.cdf_client.files._post(
+            url_path="/files/uploadlink",
+            json={"items": identifiers.as_dicts()},
+            headers=_CDF_ALPHA_VERSION_HEADER,
+        )
+        res.raise_for_status()
+        resp_json = res.json()["items"][0]
+        return FileMetadata.load(resp_json), resp_json["uploadUrl"]
     def upload(self, fail_on_errors: bool = True, timeout: Optional[float] = None) -> None:
         """
         Wait for all uploads to finish
@@ -428,7 +495,7 @@ class FileUploadQueue(IOFileUploadQueue):
     def __init__(
         self,
         cdf_client: CogniteClient,
-        post_upload_function: Optional[Callable[[List[FileMetadata]], None]] = None,
+        post_upload_function: Optional[Callable[[List[FileMetadataOrCogniteExtractorFile]], None]] = None,
         max_queue_size: Optional[int] = None,
         max_upload_interval: Optional[int] = None,
         trigger_log_level: str = "DEBUG",
@@ -447,7 +514,9 @@ class FileUploadQueue(IOFileUploadQueue):
             cancellation_token,
         )
-    def add_to_upload_queue(self, file_meta: FileMetadata, file_name: Union[str, PathLike]) -> None:
+    def add_to_upload_queue(
+        self, meta_or_apply: FileMetadataOrCogniteExtractorFile, file_name: Union[str, PathLike]
+    ) -> None:
         """
         Add file to upload queue. The queue will be uploaded if the queue size is larger than the threshold
         specified in the __init__.
@@ -461,7 +530,7 @@ class FileUploadQueue(IOFileUploadQueue):
         def load_file_from_path() -> BinaryIO:
             return open(file_name, "rb")
-        self.add_io_to_upload_queue(file_meta, load_file_from_path)
+        self.add_io_to_upload_queue(meta_or_apply, load_file_from_path)
 class BytesUploadQueue(IOFileUploadQueue):
@@ -481,7 +550,7 @@ class BytesUploadQueue(IOFileUploadQueue):
     def __init__(
         self,
         cdf_client: CogniteClient,
-        post_upload_function: Optional[Callable[[List[FileMetadata]], None]] = None,
+        post_upload_function: Optional[Callable[[List[FileMetadataOrCogniteExtractorFile]], None]] = None,
         max_queue_size: Optional[int] = None,
         trigger_log_level: str = "DEBUG",
         thread_name: Optional[str] = None,
@@ -498,7 +567,7 @@ class BytesUploadQueue(IOFileUploadQueue):
             cancellation_token,
         )
-    def add_to_upload_queue(self, content: bytes, metadata: FileMetadata) -> None:
+    def add_to_upload_queue(self, content: bytes, meta_or_apply: FileMetadataOrCogniteExtractorFile) -> None:
         """
         Add object to upload queue. The queue will be uploaded if the queue size is larger than the threshold
         specified in the __init__.
@@ -510,4 +579,4 @@ class BytesUploadQueue(IOFileUploadQueue):
         def get_byte_io() -> BinaryIO:
             return BytesIO(content)
-        self.add_io_to_upload_queue(metadata, get_byte_io)
+        self.add_io_to_upload_queue(meta_or_apply, get_byte_io)

cognite/extractorutils/util.py CHANGED Viewed

@@ -19,6 +19,7 @@ extractors.
 import logging
 import random
+from datetime import datetime, timezone
 from functools import partial, wraps
 from threading import Thread
 from time import time
@@ -501,3 +502,11 @@ def cognite_exceptions(
         return True
     return {CogniteException: handle_cognite_errors}
+def datetime_to_timestamp(dt: datetime) -> int:
+    return int(dt.timestamp() * 1000)
+def timestamp_to_datetime(ts: int) -> datetime:
+    return datetime.fromtimestamp(ts / 1000, tz=timezone.utc)

{cognite_extractor_utils-7.3.0.dist-info → cognite_extractor_utils-7.4.0.dist-info}/METADATA RENAMED Viewed

@@ -1,15 +1,14 @@
 Metadata-Version: 2.1
 Name: cognite-extractor-utils
-Version: 7.3.0
+Version: 7.4.0
 Summary: Utilities for easier development of extractors for CDF
 Home-page: https://github.com/cognitedata/python-extractor-utils
 License: Apache-2.0
 Author: Mathias Lohne
 Author-email: mathias.lohne@cognite.com
-Requires-Python: >=3.8.0,<4.0.0
+Requires-Python: >=3.9.0,<4.0.0
 Classifier: License :: OSI Approved :: Apache Software License
 Classifier: Programming Language :: Python :: 3
-Classifier: Programming Language :: Python :: 3.8
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
@@ -18,7 +17,7 @@ Provides-Extra: experimental
 Requires-Dist: arrow (>=1.0.0,<2.0.0)
 Requires-Dist: azure-identity (>=1.14.0,<2.0.0)
 Requires-Dist: azure-keyvault-secrets (>=4.7.0,<5.0.0)
-Requires-Dist: cognite-sdk (>=7.43.3,<8.0.0)
+Requires-Dist: cognite-sdk (>=7.54.17,<8.0.0)
 Requires-Dist: dacite (>=1.6.0,<2.0.0)
 Requires-Dist: decorator (>=5.1.1,<6.0.0)
 Requires-Dist: httpx (>=0.27.0,<0.28.0)

{cognite_extractor_utils-7.3.0.dist-info → cognite_extractor_utils-7.4.0.dist-info}/RECORD RENAMED Viewed

@@ -13,19 +13,20 @@ cognite/extractorutils/statestore/_base.py,sha256=PM4C-bz41tldA5Lx8rD0AzgXJciAZc
 cognite/extractorutils/statestore/hashing.py,sha256=o-efTv21_ATQnyxYmple3MF7r5Afy-7qZsdZhR47emw,8083
 cognite/extractorutils/statestore/watermark.py,sha256=c_lcmJfo8bOvWyCJ9iRbbE4BlqRVulom4TpHb2pOnkE,16755
 cognite/extractorutils/threading.py,sha256=2Hke5cFvP-wA45Crvh58JahoKXB64P3tr7R4y_BhBqM,3605
+cognite/extractorutils/unstable/__init__.py,sha256=L6nqJHjylpk67CE-PbXJyb_TBI4yjhEYEz9J9WShDfM,341
 cognite/extractorutils/uploader/__init__.py,sha256=W22u6QHA4cR0j78LN5LTL5YGbfC-uTApagTyP5ab7uQ,3110
 cognite/extractorutils/uploader/_base.py,sha256=wktbV8dpb8zBOsNaECZkBNoJSpOz437NlNMER3-a3xQ,5304
 cognite/extractorutils/uploader/_metrics.py,sha256=J2LJXb19L_SLSJ_voNIQHYLp0pjxUKevpH1q_xKX6Hk,3247
 cognite/extractorutils/uploader/assets.py,sha256=2E90N1kxsaA6Ah4h0_r_dTVhDYY_68ItRWrHYkkltJw,5628
 cognite/extractorutils/uploader/data_modeling.py,sha256=w35Ix5mu0Cgfn4ywnDyif4VVjo04LVTlkMEevk6ztUs,3639
 cognite/extractorutils/uploader/events.py,sha256=NZP2tMoU_rh_rb-EZiUBsOT5KdNABHN4c9Oddk0OsdE,5680
-cognite/extractorutils/uploader/files.py,sha256=5dVdG_3QtZ5Gr_GwYcE-FPQkKzC2I5odr6JXG5-arCc,18658
+cognite/extractorutils/uploader/files.py,sha256=jEZ_QwUnXTsfQ5Xsm03j_vNWTlYBg2gmSxE3MOyoC6s,21765
 cognite/extractorutils/uploader/raw.py,sha256=wFjF90PFTjmByOWx_Y4_YfDJ2w2jl0EQJ2Tjx2MP2PM,6738
 cognite/extractorutils/uploader/time_series.py,sha256=HBtQdsQoIOaL-EG5lMsaY-ORwVb0kGiXG86VjE5-_Bg,26815
 cognite/extractorutils/uploader_extractor.py,sha256=E-mpVvbPg_Tk90U4S9JybV0duptJ2SXE88HB6npE3zI,7732
 cognite/extractorutils/uploader_types.py,sha256=wxfrsiKPTzG5lmoYtQsxt8Xyj-s5HnaLl8WDzJNrazg,1020
-cognite/extractorutils/util.py,sha256=UA6mUZ1caHd6vtA45gZXrk6cxo5cSB2PZ32bMwfEU0M,17229
-cognite_extractor_utils-7.3.0.dist-info/LICENSE,sha256=psuoW8kuDP96RQsdhzwOqi6fyWv0ct8CR6Jr7He_P_k,10173
-cognite_extractor_utils-7.3.0.dist-info/METADATA,sha256=d5YNb6IXGvnpihhUECrRu3yhspo7ywz9Fs1ejlgpzE4,5526
-cognite_extractor_utils-7.3.0.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
-cognite_extractor_utils-7.3.0.dist-info/RECORD,,
+cognite/extractorutils/util.py,sha256=T6ef5b7aYJ8yq9swQwybYaLe3YGr3hElsJQy8E-d5Rs,17469
+cognite_extractor_utils-7.4.0.dist-info/LICENSE,sha256=psuoW8kuDP96RQsdhzwOqi6fyWv0ct8CR6Jr7He_P_k,10173
+cognite_extractor_utils-7.4.0.dist-info/METADATA,sha256=eD0--_YZWCF4Vj9oOcVvPIM2hiAOBrGsbZwAc5lRr9Q,5477
+cognite_extractor_utils-7.4.0.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
+cognite_extractor_utils-7.4.0.dist-info/RECORD,,

{cognite_extractor_utils-7.3.0.dist-info → cognite_extractor_utils-7.4.0.dist-info}/LICENSE RENAMED Viewed

File without changes

{cognite_extractor_utils-7.3.0.dist-info → cognite_extractor_utils-7.4.0.dist-info}/WHEEL RENAMED Viewed

File without changes

cognite-extractor-utils 7.3.0__py3-none-any.whl → 7.4.0__py3-none-any.whl

Potentially problematic release.

cognite-extractor-utils 7.3.0py3-none-any.whl → 7.4.0py3-none-any.whl