PyPI - pyPreservica - Versions diffs - 2.7.2__py3-none-any.whl → 3.3.4__py3-none-any.whl - Mend

pyPreservica 2.7.2py3-none-any.whl → 3.3.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (21) hide show

pyPreservica/__init__.py +18 -6
pyPreservica/adminAPI.py +29 -22
pyPreservica/authorityAPI.py +6 -7
pyPreservica/common.py +116 -19
pyPreservica/contentAPI.py +179 -8
pyPreservica/entityAPI.py +730 -214
pyPreservica/mdformsAPI.py +501 -29
pyPreservica/monitorAPI.py +2 -2
pyPreservica/parAPI.py +1 -37
pyPreservica/retentionAPI.py +58 -26
pyPreservica/settingsAPI.py +295 -0
pyPreservica/uploadAPI.py +298 -480
pyPreservica/webHooksAPI.py +42 -1
pyPreservica/workflowAPI.py +17 -13
{pyPreservica-2.7.2.dist-info → pypreservica-3.3.4.dist-info}/METADATA +20 -9
pypreservica-3.3.4.dist-info/RECORD +20 -0
{pyPreservica-2.7.2.dist-info → pypreservica-3.3.4.dist-info}/WHEEL +1 -1
pyPreservica/vocabularyAPI.py +0 -141
pyPreservica-2.7.2.dist-info/RECORD +0 -20
{pyPreservica-2.7.2.dist-info → pypreservica-3.3.4.dist-info/licenses}/LICENSE.txt +0 -0
{pyPreservica-2.7.2.dist-info → pypreservica-3.3.4.dist-info}/top_level.txt +0 -0

pyPreservica/uploadAPI.py CHANGED Viewed

@@ -13,7 +13,7 @@ import shutil
 import tempfile
 import uuid
 import xml
-from datetime import datetime, timedelta
+from datetime import datetime, timedelta, timezone
 from time import sleep
 from xml.dom import minidom
 from xml.etree import ElementTree
@@ -22,11 +22,12 @@ from xml.etree.ElementTree import Element, SubElement
 import boto3
 import s3transfer.tasks
 import s3transfer.upload
+from botocore.session import get_session
 from boto3.s3.transfer import TransferConfig, S3Transfer
 from botocore.config import Config
 from botocore.credentials import RefreshableCredentials
-from botocore.exceptions import ClientError
+from botocore.exceptions import ClientError, NoCredentialsError, PartialCredentialsError
+from dateutil.tz import tzlocal
 from s3transfer import S3UploadFailedError
 from tqdm import tqdm
@@ -37,7 +38,7 @@ logger = logging.getLogger(__name__)
 MB = 1024 * 1024
 GB = 1024 ** 3
-transfer_config = TransferConfig(multipart_threshold=int((1 * GB) / 16))
+transfer_config = TransferConfig(multipart_threshold=int(32 * MB))
 CONTENT_FOLDER = "content"
 PRESERVATION_CONTENT_FOLDER = "p1"
@@ -80,7 +81,8 @@ class PutObjectTask(s3transfer.tasks.Task):
 class CompleteMultipartUploadTask(s3transfer.tasks.Task):
     # Copied from s3transfer/tasks.py, changed to return a result.
     def _main(self, client, bucket, key, upload_id, parts, extra_args):
-        return client.complete_multipart_upload(Bucket=bucket, Key=key, UploadId=upload_id, MultipartUpload={"Parts": parts},
+        return client.complete_multipart_upload(Bucket=bucket, Key=key, UploadId=upload_id,
+                                                MultipartUpload={"Parts": parts},
                                                 **extra_args, )
@@ -99,8 +101,8 @@ def prettify(elem):
 def __create_io__(xip=None, file_name=None, parent_folder=None, **kwargs):
     if xip is None:
         xip = Element('xip:XIP')
+        xip.set('xmlns:xip', 'http://preservica.com/XIP/v6.0')
     assert xip is not None
-    xip.set('xmlns:xip', 'http://preservica.com/XIP/v6.0')
     io = SubElement(xip, 'xip:InformationObject')
     ref = SubElement(io, 'xip:Ref')
@@ -224,7 +226,8 @@ def __make_representation_multiple_co__(xip, rep_name, rep_type, rep_files, io_r
     return refs_dict
-def cvs_to_cmis_xslt(csv_file, xml_namespace, root_element, title="Metadata Title", export_folder=None, additional_namespaces=None):
+def cvs_to_cmis_xslt(csv_file, xml_namespace, root_element, title="Metadata Title", export_folder=None,
+                     additional_namespaces=None):
     """
             Create a custom CMIS transform to display metadata within UA.
@@ -242,7 +245,8 @@ def cvs_to_cmis_xslt(csv_file, xml_namespace, root_element, title="Metadata Titl
     namespaces = {"version": "2.0", "xmlns:xsl": "http://www.w3.org/1999/XSL/Transform",
                   "xmlns:fn": "http://www.w3.org/2005/xpath-functions", "xmlns:xs": "http://www.w3.org/2001/XMLSchema",
-                  "xmlns:csv": xml_namespace, "xmlns": "http://www.tessella.com/sdb/cmis/metadata", "exclude-result-prefixes": "csv"}
+                  "xmlns:csv": xml_namespace, "xmlns": "http://www.tessella.com/sdb/cmis/metadata",
+                  "exclude-result-prefixes": "csv"}
     if additional_namespaces is not None:
         for prefix, uri in additional_namespaces.items():
@@ -311,7 +315,8 @@ def cvs_to_xsd(csv_file, xml_namespace, root_element, export_folder=None, additi
                 headers.add(xml_tag)
             break
-    namespaces = {"xmlns:xs": "http://www.w3.org/2001/XMLSchema", "attributeFormDefault": "unqualified", "elementFormDefault": "qualified",
+    namespaces = {"xmlns:xs": "http://www.w3.org/2001/XMLSchema", "attributeFormDefault": "unqualified",
+                  "elementFormDefault": "qualified",
                   "targetNamespace": xml_namespace}
     if additional_namespaces is not None:
@@ -333,7 +338,8 @@ def cvs_to_xsd(csv_file, xml_namespace, root_element, export_folder=None, additi
             prefix, sep, tag = header.partition(":")
             try:
                 namespace = additional_namespaces[prefix]
-                xml.etree.ElementTree.SubElement(xml_sequence, "xs:element", {"ref": header, "xmlns:" + prefix: namespace})
+                xml.etree.ElementTree.SubElement(xml_sequence, "xs:element",
+                                                 {"ref": header, "xmlns:" + prefix: namespace})
             except KeyError:
                 xml.etree.ElementTree.SubElement(xml_sequence, "xs:element", {"type": "xs:string", "name": header})
         else:
@@ -350,7 +356,8 @@ def cvs_to_xsd(csv_file, xml_namespace, root_element, export_folder=None, additi
     return xsd_file
-def csv_to_search_xml(csv_file, xml_namespace, root_element, title="Metadata Title", export_folder=None, additional_namespaces=None):
+def csv_to_search_xml(csv_file, xml_namespace, root_element, title="Metadata Title", export_folder=None,
+                      additional_namespaces=None):
     """
         Create a custom Preservica search index based on the columns in a csv file
@@ -400,7 +407,8 @@ def csv_to_search_xml(csv_file, xml_namespace, root_element, title="Metadata Tit
     return search_xml
-def cvs_to_xml(csv_file, xml_namespace, root_element, file_name_column="filename", export_folder=None, additional_namespaces=None):
+def cvs_to_xml(csv_file, xml_namespace, root_element, file_name_column="filename", export_folder=None,
+               additional_namespaces=None):
     """
         Export the rows of a CSV file as XML metadata documents which can be added to Preservica assets
@@ -451,7 +459,8 @@ def cvs_to_xml(csv_file, xml_namespace, root_element, file_name_column="filename
                 yield name
-def generic_asset_package(preservation_files_dict=None, access_files_dict=None, export_folder=None, parent_folder=None, compress=True,
+def generic_asset_package(preservation_files_dict=None, access_files_dict=None, export_folder=None, parent_folder=None,
+                          compress=True,
                           **kwargs):
     # some basic validation
     if export_folder is None:
@@ -473,7 +482,7 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
     content_type = kwargs.get('CustomType', "")
     if not compress:
-        shutil.register_archive_format("szip", _make_stored_zipfile, None, "UnCompressed ZIP file")
+        shutil.register_archive_format(name="szip", function=_make_stored_zipfile, extra_args=None, description="UnCompressed ZIP file")
     has_preservation_files = bool((preservation_files_dict is not None) and (len(preservation_files_dict) > 0))
     has_access_files = bool((access_files_dict is not None) and (len(access_files_dict) > 0))
@@ -501,8 +510,10 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
     if has_preservation_files:
         for representation_name in preservation_files_dict.keys():
             preservation_files_list = preservation_files_dict[representation_name]
-            preservation_refs_dict = __make_representation_multiple_co__(xip, rep_name=representation_name, rep_type="Preservation",
-                                                                         rep_files=preservation_files_list, io_ref=io_ref)
+            preservation_refs_dict = __make_representation_multiple_co__(xip, rep_name=representation_name,
+                                                                         rep_type="Preservation",
+                                                                         rep_files=preservation_files_list,
+                                                                         io_ref=io_ref)
             preservation_representation_refs_dict[representation_name] = preservation_refs_dict
     if has_access_files:
@@ -519,13 +530,16 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
                 default_content_objects_title = os.path.splitext(os.path.basename(filename))[0]
                 preservation_content_title = kwargs.get('Preservation_Content_Title', default_content_objects_title)
-                preservation_content_description = kwargs.get('Preservation_Content_Description', default_content_objects_title)
+                preservation_content_description = kwargs.get('Preservation_Content_Description',
+                                                              default_content_objects_title)
                 if isinstance(preservation_content_title, dict):
-                    preservation_content_title = preservation_content_title.get("filename", default_content_objects_title)
+                    preservation_content_title = preservation_content_title.get("filename",
+                                                                                default_content_objects_title)
                 if isinstance(preservation_content_description, dict):
-                    preservation_content_description = preservation_content_description.get("filename", default_content_objects_title)
+                    preservation_content_description = preservation_content_description.get("filename",
+                                                                                            default_content_objects_title)
                 __make_content_objects__(xip, preservation_content_title, content_ref, io_ref, security_tag,
                                          preservation_content_description, content_type)
@@ -545,7 +559,8 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
                 if isinstance(access_content_description, dict):
                     access_content_description = access_content_title.get("filename", default_content_objects_title)
-                __make_content_objects__(xip, access_content_title, content_ref, io_ref, security_tag, access_content_description,
+                __make_content_objects__(xip, access_content_title, content_ref, io_ref, security_tag,
+                                         access_content_description,
                                          content_type)
     if has_preservation_files:
@@ -598,12 +613,12 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
         for identifier_key, identifier_value in identifier_map.items():
             if identifier_key:
                 if identifier_value:
-                    identifier = SubElement(xip, 'Identifier')
-                    id_type = SubElement(identifier, "Type")
+                    identifier = SubElement(xip, 'xip:Identifier')
+                    id_type = SubElement(identifier, "xip:Type")
                     id_type.text = identifier_key
-                    id_value = SubElement(identifier, "Value")
+                    id_value = SubElement(identifier, "xip:Value")
                     id_value.text = identifier_value
-                    id_io = SubElement(identifier, "Entity")
+                    id_io = SubElement(identifier, "xip:Entity")
                     id_io.text = io_ref
     if 'Asset_Metadata' in kwargs:
@@ -613,22 +628,22 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
                 if metadata_path:
                     if os.path.exists(metadata_path) and os.path.isfile(metadata_path):
                         descriptive_metadata = xml.etree.ElementTree.parse(source=metadata_path)
-                        metadata = SubElement(xip, 'Metadata', {'schemaUri': metadata_ns})
-                        metadata_ref = SubElement(metadata, 'Ref')
+                        metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                        metadata_ref = SubElement(metadata, 'xip:Ref')
                         metadata_ref.text = str(uuid.uuid4())
-                        entity = SubElement(metadata, 'Entity')
+                        entity = SubElement(metadata, 'xip:Entity')
                         entity.text = io_ref
-                        content = SubElement(metadata, 'Content')
+                        content = SubElement(metadata, 'xip:Content')
                         content.append(descriptive_metadata.getroot())
                     elif isinstance(metadata_path, str):
                         try:
                             descriptive_metadata = xml.etree.ElementTree.fromstring(metadata_path)
-                            metadata = SubElement(xip, 'Metadata', {'schemaUri': metadata_ns})
-                            metadata_ref = SubElement(metadata, 'Ref')
+                            metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                            metadata_ref = SubElement(metadata, 'xip:Ref')
                             metadata_ref.text = str(uuid.uuid4())
-                            entity = SubElement(metadata, 'Entity')
+                            entity = SubElement(metadata, 'xip:Entity')
                             entity.text = io_ref
-                            content = SubElement(metadata, 'Content')
+                            content = SubElement(metadata, 'xip:Content')
                             content.append(descriptive_metadata)
                         except RuntimeError:
                             logging.info(f"Could not parse asset metadata in namespace {metadata_ns}")
@@ -712,71 +727,72 @@ def multi_asset_package(asset_file_list=None, export_folder=None, parent_folder=
     os.mkdir(os.path.join(inner_folder, CONTENT_FOLDER))
     asset_map = dict()
-    xip = Element('XIP')
+    xip = Element('xip:XIP')
+    xip.set('xmlns:xip', 'http://preservica.com/XIP/v6.0')
     for file in asset_file_list:
         default_asset_title = os.path.splitext(os.path.basename(file))[0]
         xip, io_ref = __create_io__(xip, file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
         asset_map[file] = io_ref
-        representation = SubElement(xip, 'Representation')
-        io_link = SubElement(representation, 'InformationObject')
+        representation = SubElement(xip, 'xip:Representation')
+        io_link = SubElement(representation, 'xip:InformationObject')
         io_link.text = io_ref
-        access_name = SubElement(representation, 'Name')
+        access_name = SubElement(representation, 'xip:Name')
         access_name.text = "Preservation"
-        access_type = SubElement(representation, 'Type')
+        access_type = SubElement(representation, 'xip:Type')
         access_type.text = "Preservation"
-        content_objects = SubElement(representation, 'ContentObjects')
-        content_object = SubElement(content_objects, 'ContentObject')
+        content_objects = SubElement(representation, 'xip:ContentObjects')
+        content_object = SubElement(content_objects, 'xip:ContentObject')
         content_object_ref = str(uuid.uuid4())
         content_object.text = content_object_ref
         default_content_objects_title = os.path.splitext(os.path.basename(file))[0]
-        content_object = SubElement(xip, 'ContentObject')
-        ref_element = SubElement(content_object, "Ref")
+        content_object = SubElement(xip, 'xip:ContentObject')
+        ref_element = SubElement(content_object, "xip:Ref")
         ref_element.text = content_object_ref
-        title = SubElement(content_object, "Title")
+        title = SubElement(content_object, "xip:Title")
         title.text = default_content_objects_title
-        description = SubElement(content_object, "Description")
+        description = SubElement(content_object, "xip:Description")
         description.text = default_content_objects_title
-        security_tag_element = SubElement(content_object, "SecurityTag")
+        security_tag_element = SubElement(content_object, "xip:SecurityTag")
         security_tag_element.text = security_tag
-        custom_type = SubElement(content_object, "CustomType")
+        custom_type = SubElement(content_object, "xip:CustomType")
         custom_type.text = content_type
-        parent = SubElement(content_object, "Parent")
+        parent = SubElement(content_object, "xip:Parent")
         parent.text = io_ref
-        generation = SubElement(xip, 'Generation', {"original": "true", "active": "true"})
-        content_object = SubElement(generation, "ContentObject")
+        generation = SubElement(xip, 'xip:Generation', {"original": "true", "active": "true"})
+        content_object = SubElement(generation, "xip:ContentObject")
         content_object.text = content_object_ref
-        label = SubElement(generation, "Label")
+        label = SubElement(generation, "xip:Label")
         label.text = os.path.splitext(os.path.basename(file))[0]
-        effective_date = SubElement(generation, "EffectiveDate")
+        effective_date = SubElement(generation, "xip:EffectiveDate")
         effective_date.text = datetime.now().isoformat()
-        bitstreams = SubElement(generation, "Bitstreams")
-        bitstream = SubElement(bitstreams, "Bitstream")
+        bitstreams = SubElement(generation, "xip:Bitstreams")
+        bitstream = SubElement(bitstreams, "xip:Bitstream")
         bitstream.text = os.path.basename(file)
-        SubElement(generation, "Formats")
-        SubElement(generation, "Properties")
+        SubElement(generation, "xip:Formats")
+        SubElement(generation, "xip:Properties")
-        bitstream = SubElement(xip, 'Bitstream')
-        filename_element = SubElement(bitstream, "Filename")
+        bitstream = SubElement(xip, 'xip:Bitstream')
+        filename_element = SubElement(bitstream, "xip:Filename")
         filename_element.text = os.path.basename(file)
-        filesize = SubElement(bitstream, "FileSize")
+        filesize = SubElement(bitstream, "xip:FileSize")
         file_stats = os.stat(file)
         filesize.text = str(file_stats.st_size)
-        physical_location = SubElement(bitstream, "PhysicalLocation")
-        fixities = SubElement(bitstream, "Fixities")
+        physical_location = SubElement(bitstream, "xip:PhysicalLocation")
+        fixities = SubElement(bitstream, "xip:Fixities")
         fixity_result = fixity_callback(filename_element.text, file)
         if type(fixity_result) == tuple:
-            fixity = SubElement(fixities, "Fixity")
-            fixity_algorithm_ref = SubElement(fixity, "FixityAlgorithmRef")
-            fixity_value = SubElement(fixity, "FixityValue")
+            fixity = SubElement(fixities, "xip:Fixity")
+            fixity_algorithm_ref = SubElement(fixity, "xip:FixityAlgorithmRef")
+            fixity_value = SubElement(fixity, "xip:FixityValue")
             fixity_algorithm_ref.text = fixity_result[0]
             fixity_value.text = fixity_result[1]
         elif type(fixity_result) == dict:
             for key, val in fixity_result.items():
-                fixity = SubElement(fixities, "Fixity")
-                fixity_algorithm_ref = SubElement(fixity, "FixityAlgorithmRef")
-                fixity_value = SubElement(fixity, "FixityValue")
+                fixity = SubElement(fixities, "xip:Fixity")
+                fixity_algorithm_ref = SubElement(fixity, "xip:FixityAlgorithmRef")
+                fixity_value = SubElement(fixity, "xip:FixityValue")
                 fixity_algorithm_ref.text = key
                 fixity_value.text = val
         else:
@@ -790,12 +806,12 @@ def multi_asset_package(asset_file_list=None, export_folder=None, parent_folder=
                 for identifier_key, identifier_value in identifier_map_values.items():
                     if identifier_key:
                         if identifier_value:
-                            identifier = SubElement(xip, 'Identifier')
-                            id_type = SubElement(identifier, "Type")
+                            identifier = SubElement(xip, 'xip:Identifier')
+                            id_type = SubElement(identifier, "xip:Type")
                             id_type.text = identifier_key
-                            id_value = SubElement(identifier, "Value")
+                            id_value = SubElement(identifier, "xip:Value")
                             id_value.text = identifier_value
-                            id_io = SubElement(identifier, "Entity")
+                            id_io = SubElement(identifier, "xip:Entity")
                             id_io.text = io_ref
         src_file = file
@@ -815,7 +831,8 @@ def multi_asset_package(asset_file_list=None, export_folder=None, parent_folder=
         return top_level_folder + ".zip"
-def complex_asset_package(preservation_files_list=None, access_files_list=None, export_folder=None, parent_folder=None, compress=True,
+def complex_asset_package(preservation_files_list=None, access_files_list=None, export_folder=None, parent_folder=None,
+                          compress=True,
                           **kwargs):
     """
@@ -894,27 +911,34 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
     if has_preservation_files:
         if default_asset_title is None:
             default_asset_title = os.path.splitext(os.path.basename(preservation_files_list[0]))[0]
         # create the asset
-        xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
+        if io_ref is None:
+            xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
     if has_access_files:
         if default_asset_title is None:
             default_asset_title = os.path.splitext(os.path.basename(access_files_list[0]))[0]
         if io_ref is None:
             xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
+    if io_ref is None:
+        default_asset_title = kwargs.get('Title', None)
+        if default_asset_title is None:
+            default_asset_title = "New Asset"
+        xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
     if has_preservation_files:
         # add the content objects
         representation_name = kwargs.get('Preservation_Representation_Name', "Preservation")
-        preservation_refs_dict = __make_representation_multiple_co__(xip, rep_name=representation_name, rep_type="Preservation",
+        preservation_refs_dict = __make_representation_multiple_co__(xip, rep_name=representation_name,
+                                                                     rep_type="Preservation",
                                                                      rep_files=preservation_files_list, io_ref=io_ref)
     if has_access_files:
         # add the content objects
         access_name = kwargs.get('Access_Representation_Name', "Access")
-        access_refs_dict = __make_representation_multiple_co__(xip, rep_name=access_name, rep_type="Access", rep_files=access_files_list,
+        access_refs_dict = __make_representation_multiple_co__(xip, rep_name=access_name, rep_type="Access",
+                                                               rep_files=access_files_list,
                                                                io_ref=io_ref)
     if has_preservation_files:
@@ -922,7 +946,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
         for content_ref, filename in preservation_refs_dict.items():
             default_content_objects_title = os.path.splitext(os.path.basename(filename))[0]
             preservation_content_title = kwargs.get('Preservation_Content_Title', default_content_objects_title)
-            preservation_content_description = kwargs.get('Preservation_Content_Description', default_content_objects_title)
+            preservation_content_description = kwargs.get('Preservation_Content_Description',
+                                                          default_content_objects_title)
             if isinstance(preservation_content_title, dict):
                 preservation_content_title = preservation_content_title[filename]
@@ -930,7 +955,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
             if isinstance(preservation_content_description, dict):
                 preservation_content_description = preservation_content_description[filename]
-            __make_content_objects__(xip, preservation_content_title, content_ref, io_ref, security_tag, preservation_content_description,
+            __make_content_objects__(xip, preservation_content_title, content_ref, io_ref, security_tag,
+                                     preservation_content_description,
                                      content_type)
     if has_access_files:
@@ -947,7 +973,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
             if isinstance(access_content_description, dict):
                 access_content_title = access_content_title[filename]
-            __make_content_objects__(xip, access_content_title, content_ref, io_ref, security_tag, access_content_description, content_type)
+            __make_content_objects__(xip, access_content_title, content_ref, io_ref, security_tag,
+                                     access_content_description, content_type)
     if has_preservation_files:
@@ -955,7 +982,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
         for content_ref, filename in preservation_refs_dict.items():
             preservation_file_name = os.path.basename(filename)
-            __make_generation__(xip, preservation_file_name, content_ref, preservation_generation_label, PRESERVATION_CONTENT_FOLDER)
+            __make_generation__(xip, preservation_file_name, content_ref, preservation_generation_label,
+                                PRESERVATION_CONTENT_FOLDER)
     if has_access_files:
@@ -1070,7 +1098,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
         return top_level_folder + ".zip"
-def simple_asset_package(preservation_file=None, access_file=None, export_folder=None, parent_folder=None, compress=True, **kwargs):
+def simple_asset_package(preservation_file=None, access_file=None, export_folder=None, parent_folder=None,
+                         compress=True, **kwargs):
     """
             Create a Preservica package containing a single Asset from a single preservation file
             and an optional access file.
@@ -1130,378 +1159,14 @@ def _unpad(s):
 class UploadAPI(AuthenticatedAPI):
-    def ingest_tweet(self, twitter_user=None, tweet_id: int = 0, twitter_consumer_key=None, twitter_secret_key=None, folder=None,
-                     callback=None, **kwargs):
-        """
-            Ingest tweets from a twitter stream by twitter username
-            :param tweet_id:
-            :param str twitter_user: Twitter Username
-            :param str twitter_consumer_key: Optional asset title
-            :param str twitter_secret_key: Optional asset description
-            :param str folder: Folder to ingest into
-            :param callback callback: Optional upload progress callback
-            :raises RuntimeError:
-        """
-        def get_image(m, has_video_element):
-            media_url_https_ = m["media_url_https"]
-            if media_url_https_:
-                req = requests.get(media_url_https_)
-                if req.status_code == requests.codes.ok:
-                    if has_video_element:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}]_thumb.jpg"
-                    else:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}].jpg"
-                    image_name_document_ = open(image_name_, "wb")
-                    image_name_document_.write(req.content)
-                    image_name_document_.close()
-                    return image_name_
-        def get_video(m):
-            video_info_ = m["video_info"]
-            variants_ = video_info_["variants"]
-            for v_ in variants_:
-                video_url_ = v_["url"]
-                req = requests.get(video_url_)
-                if req.status_code == requests.codes.ok:
-                    video_name_ = f"{{{media_id_str}}}_[{twitter_user}].mp4"
-                    video_name_document_ = open(video_name_, "wb")
-                    video_name_document_.write(req.content)
-                    video_name_document_.close()
-                    return video_name_, True
-        entity_client = pyPreservica.EntityAPI(username=self.username, password=self.password, server=self.server, tenant=self.tenant)
-        if hasattr(folder, "reference"):
-            folder = entity_client.folder(folder.reference)
-        else:
-            folder = entity_client.folder(folder)
-        try:
-            import tweepy
-        except ImportError:
-            logger.error("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-            raise RuntimeError("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-        config = configparser.ConfigParser()
-        config.read('credentials.properties')
-        if twitter_consumer_key is None:
-            twitter_consumer_key = os.environ.get('TWITTER_CONSUMER_KEY')
-            if twitter_consumer_key is None:
-                try:
-                    twitter_consumer_key = config['credentials']['TWITTER_CONSUMER_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        if twitter_secret_key is None:
-            twitter_secret_key = os.environ.get('TWITTER_SECRET_KEY')
-            if twitter_secret_key is None:
-                try:
-                    twitter_secret_key = config['credentials']['TWITTER_SECRET_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        api = None
-        try:
-            auth = tweepy.AppAuthHandler(twitter_consumer_key, twitter_secret_key)
-            api = tweepy.API(auth, wait_on_rate_limit=True)
-        except TweepError:
-            logger.error("No valid Twitter API keys. Could not authenticate")
-            raise RuntimeError("No valid Twitter API keys. Could not authenticate")
-        if api is not None:
-            logger.debug(api)
-            tweet = api.get_status(tweet_id, tweet_mode="extended", include_entities=True)
-            created_at = tweet.created_at
-            id_str = tweet.id_str
-            author = tweet.author.name
-            tweet_entities = tweet.entities
-            hashtags = dict()
-            if 'hashtags' in tweet_entities:
-                hashtags = tweet.entities['hashtags']
-            entities = entity_client.identifier("tweet_id", id_str.strip())
-            if len(entities) > 0:
-                logger.warning("Tweet already exists, skipping....")
-                return
-            logger.info(f"Processing tweet {id_str} ...")
-            tid = tweet.id
-            content_objects = list()
-            full_tweet = api.get_status(tid, tweet_mode="extended", include_entities=True)
-            text = tweet.full_text
-            full_text = full_tweet.full_text
-            file_name = f"{{{id_str}}}_[{twitter_user}].json"
-            json_doc = json.dumps(full_tweet._json)
-            json_file = open(file_name, "wt", encoding="utf-8")
-            json_file.write(json_doc)
-            json_file.close()
-            content_objects.append(file_name)
-            if hasattr(full_tweet, "extended_entities"):
-                extended_entities = full_tweet.extended_entities
-                if "media" in extended_entities:
-                    media = extended_entities["media"]
-                    for med in media:
-                        media_id_str = med["id_str"]
-                        has_video = False
-                        if "video_info" in med:
-                            co, has_video = get_video(med)
-                            content_objects.append(co)
-                            if has_video:
-                                co = get_image(med, has_video)
-                                content_objects.append(co)
-                            continue
-                        if "media_url_https" in med:
-                            co = get_image(med, has_video)
-                            content_objects.append(co)
-            identifiers = dict()
-            asset_metadata = dict()
-            identifiers["tweet_id"] = id_str
-            user = full_tweet._json['user']
-            if full_tweet._json.get('retweeted_status'):
-                retweeted_status = full_tweet._json['retweeted_status']
-                if retweeted_status.get("extended_entities"):
-                    extended_entities = retweeted_status["extended_entities"]
-                    if "media" in extended_entities:
-                        media = extended_entities["media"]
-                        for med in media:
-                            media_id_str = med["id_str"]
-                            has_video = False
-                            if "video_info" in med:
-                                co, has_video = get_video(med)
-                                content_objects.append(co)
-                                continue
-                            if "media_url_https" in med:
-                                co = get_image(med, has_video)
-                                content_objects.append(co)
-            xml_object = xml.etree.ElementTree.Element('tweet', {"xmlns": "http://www.preservica.com/tweets/v1"})
-            xml.etree.ElementTree.SubElement(xml_object, "id").text = id_str
-            xml.etree.ElementTree.SubElement(xml_object, "full_text").text = full_text
-            xml.etree.ElementTree.SubElement(xml_object, "created_at").text = str(created_at)
-            xml.etree.ElementTree.SubElement(xml_object, "screen_name_sender").text = user.get('screen_name')
-            for h in hashtags:
-                xml.etree.ElementTree.SubElement(xml_object, "hashtag").text = str(h['text'])
-            xml.etree.ElementTree.SubElement(xml_object, "name").text = author
-            xml.etree.ElementTree.SubElement(xml_object, "retweet").text = str(full_tweet._json['retweet_count'])
-            xml.etree.ElementTree.SubElement(xml_object, "likes").text = str(full_tweet._json['favorite_count'])
-            xml_request = xml.etree.ElementTree.tostring(xml_object, encoding='utf-8')
-            metadata_document = open("metadata.xml", "wt", encoding="utf-8")
-            metadata_document.write(xml_request.decode("utf-8"))
-            metadata_document.close()
-            asset_metadata["http://www.preservica.com/tweets/v1"] = "metadata.xml"
-            security_tag = kwargs.get("SecurityTag", "open")
-            asset_title = kwargs.get("Title", text)
-            asset_description = kwargs.get("Description", full_text)
-            p = complex_asset_package(preservation_files_list=content_objects, parent_folder=folder, Title=asset_title,
-                                      Description=asset_description, CustomType="Tweet", Identifiers=identifiers,
-                                      Asset_Metadata=asset_metadata, SecurityTag=security_tag)
-            self.upload_zip_package(p, folder=folder, callback=callback)
-            for ob in content_objects:
-                os.remove(ob)
-            os.remove("metadata.xml")
-    def ingest_twitter_feed(self, twitter_user=None, num_tweets: int = 25, twitter_consumer_key=None, twitter_secret_key=None, folder=None,
-                            callback=None, **kwargs):
-        """
-            Ingest tweets from a twitter stream by twitter username
-            :param str twitter_user: Twitter Username
-            :param int num_tweets: The number of tweets from the stream
-            :param str twitter_consumer_key: Optional asset title
-            :param str twitter_secret_key: Optional asset description
-            :param str folder: Folder to ingest into
-            :param callback callback: Optional upload progress callback
-            :raises RuntimeError:
-        """
-        def get_image(m, has_video_element):
-            media_url_https_ = m["media_url_https"]
-            if media_url_https_:
-                req = requests.get(media_url_https_)
-                if req.status_code == requests.codes.ok:
-                    if has_video_element:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}]_thumb.jpg"
-                    else:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}].jpg"
-                    image_name_document_ = open(image_name_, "wb")
-                    image_name_document_.write(req.content)
-                    image_name_document_.close()
-                    return image_name_
-        def get_video(m):
-            video_info_ = m["video_info"]
-            variants_ = video_info_["variants"]
-            for v_ in variants_:
-                if v_['content_type'] == 'video/mp4':
-                    video_url_ = v_["url"]
-                    with requests.get(video_url_, stream=True) as req:
-                        video_name_ = f"{{{media_id_str}}}_[{twitter_user}].mp4"
-                        with open(video_name_, 'wb') as video_name_document_:
-                            for chunk in req.iter_content(chunk_size=1024):
-                                video_name_document_.write(chunk)
-                                video_name_document_.flush()
-                        return video_name_, True
-        entity_client = pyPreservica.EntityAPI(username=self.username, password=self.password, server=self.server, tenant=self.tenant)
-        if hasattr(folder, "reference"):
-            folder = entity_client.folder(folder.reference)
-        else:
-            folder = entity_client.folder(folder)
-        try:
-            import tweepy
-        except ImportError:
-            logger.error("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-            raise RuntimeError("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-        config = configparser.ConfigParser()
-        config.read('credentials.properties')
-        if twitter_consumer_key is None:
-            twitter_consumer_key = os.environ.get('TWITTER_CONSUMER_KEY')
-            if twitter_consumer_key is None:
-                try:
-                    twitter_consumer_key = config['credentials']['TWITTER_CONSUMER_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        if twitter_secret_key is None:
-            twitter_secret_key = os.environ.get('TWITTER_SECRET_KEY')
-            if twitter_secret_key is None:
-                try:
-                    twitter_secret_key = config['credentials']['TWITTER_SECRET_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        api = None
-        try:
-            auth = tweepy.AppAuthHandler(twitter_consumer_key, twitter_secret_key)
-            api = tweepy.API(auth, wait_on_rate_limit=True)
-        except TweepError:
-            logger.error("No valid Twitter API keys. Could not authenticate")
-            raise RuntimeError("No valid Twitter API keys. Could not authenticate")
-        if api is not None:
-            logger.debug(api)
-            for tweet in tweepy.Cursor(api.user_timeline, id=twitter_user).items(int(num_tweets)):
-                created_at = tweet.created_at
-                id_str = tweet.id_str
-                author = tweet.author.name
-                tweet_entities = tweet.entities
-                hashtags = dict()
-                if 'hashtags' in tweet_entities:
-                    hashtags = tweet.entities['hashtags']
-                entities = entity_client.identifier("tweet_id", id_str.strip())
-                if len(entities) > 0:
-                    logger.warning("Tweet already exists, skipping....")
-                    continue
-                logger.info(f"Processing tweet {id_str} ...")
-                tid = tweet.id
-                content_objects = list()
-                full_tweet = api.get_status(tid, tweet_mode="extended", include_entities=True)
-                text = tweet.text
-                logger.debug(text)
-                full_text = full_tweet.full_text
-                file_name = f"{{{id_str}}}_[{twitter_user}].json"
-                json_doc = json.dumps(full_tweet._json)
-                json_file = open(file_name, "wt", encoding="utf-8")
-                json_file.write(json_doc)
-                json_file.close()
-                content_objects.append(file_name)
-                if hasattr(full_tweet, "extended_entities"):
-                    extended_entities = full_tweet.extended_entities
-                    if "media" in extended_entities:
-                        media = extended_entities["media"]
-                        for med in media:
-                            media_id_str = med["id_str"]
-                            has_video = False
-                            if "video_info" in med:
-                                co, has_video = get_video(med)
-                                content_objects.append(co)
-                                if has_video:
-                                    co = get_image(med, has_video)
-                                    content_objects.append(co)
-                                continue
-                            if "media_url_https" in med:
-                                co = get_image(med, has_video)
-                                content_objects.append(co)
-                identifiers = {}
-                asset_metadata = {}
-                identifiers["tweet_id"] = id_str
-                user = full_tweet._json['user']
-                if full_tweet._json.get('retweeted_status'):
-                    retweeted_status = full_tweet._json['retweeted_status']
-                    if retweeted_status.get("extended_entities"):
-                        extended_entities = retweeted_status["extended_entities"]
-                        if "media" in extended_entities:
-                            media = extended_entities["media"]
-                            for med in media:
-                                media_id_str = med["id_str"]
-                                has_video = False
-                                if "video_info" in med:
-                                    co, has_video = get_video(med)
-                                    content_objects.append(co)
-                                    continue
-                                if "media_url_https" in med:
-                                    co = get_image(med, has_video)
-                                    content_objects.append(co)
-                xml_object = xml.etree.ElementTree.Element('tweet', {"xmlns": "http://www.preservica.com/tweets/v1"})
-                xml.etree.ElementTree.SubElement(xml_object, "id").text = id_str
-                xml.etree.ElementTree.SubElement(xml_object, "full_text").text = full_text
-                xml.etree.ElementTree.SubElement(xml_object, "created_at").text = str(created_at)
-                xml.etree.ElementTree.SubElement(xml_object, "screen_name_sender").text = user.get('screen_name')
-                for h in hashtags:
-                    xml.etree.ElementTree.SubElement(xml_object, "hashtag").text = str(h['text'])
-                xml.etree.ElementTree.SubElement(xml_object, "name").text = author
-                xml.etree.ElementTree.SubElement(xml_object, "retweet").text = str(full_tweet._json['retweet_count'])
-                xml.etree.ElementTree.SubElement(xml_object, "likes").text = str(full_tweet._json['favorite_count'])
-                xml_request = xml.etree.ElementTree.tostring(xml_object, encoding='utf-8')
-                metadata_document = open("metadata.xml", "wt", encoding="utf-8")
-                metadata_document.write(xml_request.decode("utf-8"))
-                metadata_document.close()
-                asset_metadata["http://www.preservica.com/tweets/v1"] = "metadata.xml"
-                security_tag = kwargs.get("SecurityTag", "open")
-                asset_title = kwargs.get("Title", text)
-                asset_description = kwargs.get("Description", full_text)
-                p = complex_asset_package(preservation_files_list=content_objects, parent_folder=folder, Title=asset_title,
-                                          Description=asset_description, CustomType="Tweet", Identifiers=identifiers,
-                                          Asset_Metadata=asset_metadata, SecurityTag=security_tag)
-                self.upload_zip_package(p, folder=folder, callback=callback)
-                for ob in content_objects:
-                    os.remove(ob)
-                os.remove("metadata.xml")
-                sleep(2)
     def ingest_web_video(self, url=None, parent_folder=None, **kwargs):
         """
             Ingest a web video such as YouTube etc based on the URL
-            :param str url: URL to the youtube video
+            :param str url: URL to the YouTube video
             :param Folder parent_folder: The folder to ingest the video into
             :param str Title: Optional asset title
             :param str Description: Optional asset description
@@ -1572,7 +1237,8 @@ class UploadAPI(AuthenticatedAPI):
             duration = meta.get('duration')
             package = simple_asset_package(preservation_file=f"{vid_id}.mp4", parent_folder=parent_folder, Title=title,
-                                           Description=description, Identifiers=identifier_map, Asset_Metadata=descriptive_metadata,
+                                           Description=description, Identifiers=identifier_map,
+                                           Asset_Metadata=descriptive_metadata,
                                            Preservation_Content_Title=title, SecurityTag=security_tag)
             self.upload_zip_package(path_to_zip_package=package, folder=parent_folder, callback=callback)
@@ -1593,10 +1259,57 @@ class UploadAPI(AuthenticatedAPI):
             self.token = self.__token__()
             return self.upload_credentials(location_id)
         else:
-            exception = HTTPException(location_id, request.status_code, request.url, "upload_credentials", request.content.decode('utf-8'))
+            exception = HTTPException(location_id, request.status_code, request.url, "upload_credentials",
+                                      request.content.decode('utf-8'))
             logger.error(exception)
             raise exception
+    def clean_upload_bucket(self, bucket_name: str,  older_than_days: int = 90):
+        """
+        Clean up objects in an upload bucket which are older than older_than_days.
+        """
+        from azure.storage.blob import ContainerClient
+        for location in self.upload_locations():
+            if location['containerName'] == bucket_name:
+                if location['type'] != 'AWS':
+                    credentials = self.upload_credentials(location['apiId'])
+                    account_key = credentials['key']
+                    session_token = credentials['sessionToken']
+                    sas_url = f"https://{account_key}.blob.core.windows.net/{bucket_name}"
+                    container = ContainerClient.from_container_url(container_url=sas_url, credential=session_token)
+                    now = datetime.now(timezone.utc)
+                    for blob in container.list_blobs():
+                        if abs((blob.last_modified - now).days) > older_than_days:
+                            logger.debug(f"Deleting expired object {blob.name}")
+                            container.delete_blob(blob.name)
+                if location['type'] == 'AWS':
+                    credentials = self.upload_credentials(location['apiId'])
+                    access_key = credentials['key']
+                    secret_key = credentials['secret']
+                    session_token = credentials['sessionToken']
+                    session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key,
+                                            aws_session_token=session_token)
+                    s3_client = session.client("s3")
+                    paginator = s3_client.get_paginator('list_objects_v2')
+                    now = datetime.now(timezone.utc)
+                    for page in paginator.paginate(Bucket=bucket_name):
+                        if 'Contents' in page:
+                            for key in page['Contents']:
+                                last_modified = key['LastModified']
+                                if abs((last_modified - now).days) > older_than_days:
+                                    logger.debug(f"Deleting expired object {key['Key']}")
+                                    s3_client.delete_object(Bucket=bucket_name, Key=key['Key'])
     def upload_locations(self):
         """
         Upload locations are configured on the Sources page as 'SIP Upload'.
@@ -1612,7 +1325,8 @@ class UploadAPI(AuthenticatedAPI):
             self.token = self.__token__()
             return self.upload_locations()
         else:
-            exception = HTTPException("", request.status_code, request.url, "upload_locations", request.content.decode('utf-8'))
+            exception = HTTPException("", request.status_code, request.url, "upload_locations",
+                                      request.content.decode('utf-8'))
             logger.error(exception)
             raise exception
@@ -1624,35 +1338,60 @@ class UploadAPI(AuthenticatedAPI):
         """
         return self.upload_locations()
-    def crawl_filesystem(self, filesystem_path, bucket_name, preservica_parent, callback: bool = False, security_tag: str = "open",
+    def crawl_filesystem(self, filesystem_path, bucket_name, preservica_parent, callback: bool = False,
+                         security_tag: str = "open",
                          delete_after_upload: bool = True, max_MB_ingested: int = -1):
+        from pyPreservica import EntityAPI
+        def entity_value(client: EntityAPI, identifier: str) -> Entity:
+            back_off: int = 5
+            while True:
+                try:
+                    entities = client.identifier("code", identifier)
+                    if bool(len(entities) > 0):
+                        return entities.pop()
+                    else:
+                        return None
+                except HTTPException as e:
+                    sleep(back_off)
+                    back_off = back_off * 2
+        def entity_exists(client: EntityAPI, identifier: str) -> bool:
+            back_off: int = 5
+            while True:
+                try:
+                    entities = client.identifier("code", identifier)
+                    return bool(len(entities) > 0)
+                except HTTPException as e:
+                    sleep(back_off)
+                    back_off = back_off * 2
         def get_parent(client, identifier, parent_reference):
-            id = str(os.path.dirname(identifier))
-            if not id:
-                id = identifier
-            entities = client.identifier("code", id)
-            if len(entities) > 0:
-                folder = entities.pop()
+            dirname_id: str = str(os.path.dirname(identifier))
+            if not dirname_id:
+                dirname_id = identifier
+            folder = entity_value(client, dirname_id)
+            if folder is not None:
                 folder = client.folder(folder.reference)
                 return folder.reference
             else:
                 return parent_reference
         def get_folder(client, name, tag, parent_reference, identifier):
-            entities = client.identifier("code", identifier)
-            if len(entities) == 0:
+            folder = entity_value(client, identifier)
+            if folder is None:
                 logger.info(f"Creating new folder with name {name}")
                 folder = client.create_folder(name, name, tag, parent_reference)
                 client.add_identifier(folder, "code", identifier)
             else:
                 logger.info(f"Found existing folder with name {name}")
-                folder = entities.pop()
             return folder
-        from pyPreservica import EntityAPI
-        entity_client = EntityAPI(username=self.username, password=self.password, server=self.server, tenant=self.tenant,
-                                  two_fa_secret_key=self.two_fa_secret_key, use_shared_secret=self.shared_secret, protocol=self.protocol)
+        entity_client = EntityAPI(username=self.username, password=self.password, server=self.server,
+                                  tenant=self.tenant,
+                                  two_fa_secret_key=self.two_fa_secret_key, use_shared_secret=self.shared_secret,
+                                  protocol=self.protocol)
         if preservica_parent:
             parent = entity_client.folder(preservica_parent)
@@ -1678,7 +1417,7 @@ class UploadAPI(AuthenticatedAPI):
                     files.remove(file)
                     continue
                 asset_code = os.path.join(code, file)
-                if len(entity_client.identifier("code", asset_code)) == 0:
+                if not entity_exists(entity_client, asset_code):
                     bytes_ingested = bytes_ingested + os.stat(full_path).st_size
                     logger.info(f"Adding new file: {file} to package ready for upload")
                     file_identifiers = {"code": asset_code}
@@ -1696,8 +1435,14 @@ class UploadAPI(AuthenticatedAPI):
                 else:
                     progress_display = None
-                self.upload_zip_package_to_S3(path_to_zip_package=package, bucket_name=bucket_name, callback=progress_display,
+                if bucket_name is None:
+                    self.upload_zip_package(path_to_zip_package=package, callback=progress_display,
+                                            delete_after_upload=delete_after_upload)
+                else:
+                    self.upload_zip_to_Source(path_to_zip_package=package, container_name=bucket_name,
+                                              show_progress=bool(progress_display is not None),
                                               delete_after_upload=delete_after_upload)
                 logger.info(f"Uploaded " + "{:.1f}".format(bytes_ingested / (1024 * 1024)) + " MB")
                 if max_MB_ingested > 0:
@@ -1705,7 +1450,8 @@ class UploadAPI(AuthenticatedAPI):
                         logger.info(f"Reached Max Upload Limit")
                         break
-    def upload_zip_to_Source(self, path_to_zip_package, container_name, folder=None, delete_after_upload=False, show_progress=False):
+    def upload_zip_to_Source(self, path_to_zip_package, container_name, folder=None, delete_after_upload=False,
+                             show_progress=False):
         """
              Uploads a zip file package to either an Azure container or S3 bucket
@@ -1726,13 +1472,17 @@ class UploadAPI(AuthenticatedAPI):
                     callback = None
                     if show_progress:
                         callback = UploadProgressConsoleCallback(path_to_zip_package)
-                    self.upload_zip_package_to_S3(path_to_zip_package=path_to_zip_package, bucket_name=container_name, folder=folder,
+                    self.upload_zip_package_to_S3(path_to_zip_package=path_to_zip_package, bucket_name=container_name,
+                                                  folder=folder,
                                                   callback=callback, delete_after_upload=delete_after_upload)
                 else:
-                    self.upload_zip_package_to_Azure(path_to_zip_package=path_to_zip_package, container_name=container_name, folder=folder,
-                                                     delete_after_upload=delete_after_upload, show_progress=show_progress)
+                    self.upload_zip_package_to_Azure(path_to_zip_package=path_to_zip_package,
+                                                     container_name=container_name, folder=folder,
+                                                     delete_after_upload=delete_after_upload,
+                                                     show_progress=show_progress)
-    def upload_zip_package_to_Azure(self, path_to_zip_package, container_name, folder=None, delete_after_upload=False, show_progress=False):
+    def upload_zip_package_to_Azure(self, path_to_zip_package, container_name, folder=None, delete_after_upload=False,
+                                    show_progress=False):
         """
          Uploads a zip file package to an Azure container connected to a Preservica Cloud System
@@ -1745,7 +1495,8 @@ class UploadAPI(AuthenticatedAPI):
         """
         if (self.major_version < 7) and (self.minor_version < 5):
-            raise RuntimeError("This call [upload_zip_package_to_Azure] is only available against v6.5 systems and above")
+            raise RuntimeError(
+                "This call [upload_zip_package_to_Azure] is only available against v6.5 systems and above")
         from azure.storage.blob import ContainerClient
@@ -1773,11 +1524,13 @@ class UploadAPI(AuthenticatedAPI):
                 if show_progress:
                     with tqdm.wrapattr(open(path_to_zip_package, 'rb'), "read", total=len_bytes) as data:
-                        blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata, length=len_bytes)
+                        blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata,
+                                                            length=len_bytes)
                         properties = blob_client.get_blob_properties()
                 else:
                     with open(path_to_zip_package, "rb") as data:
-                        blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata, length=len_bytes)
+                        blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata,
+                                                            length=len_bytes)
                         properties = blob_client.get_blob_properties()
                 if delete_after_upload:
@@ -1785,7 +1538,8 @@ class UploadAPI(AuthenticatedAPI):
                 return properties
-    def upload_zip_package_to_S3(self, path_to_zip_package, bucket_name, folder=None, callback=None, delete_after_upload=False):
+    def upload_zip_package_to_S3(self, path_to_zip_package, bucket_name, folder=None, callback=None,
+                                 delete_after_upload=False):
         """
            Uploads a zip file package to an S3 bucket connected to a Preservica Cloud System
@@ -1814,7 +1568,8 @@ class UploadAPI(AuthenticatedAPI):
                 session_token = credentials['sessionToken']
                 endpoint = credentials['endpoint']
-                session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key, aws_session_token=session_token)
+                session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key,
+                                        aws_session_token=session_token)
                 s3 = session.resource(service_name="s3")
                 logger.debug(f"S3 Session: {s3}")
@@ -1833,7 +1588,8 @@ class UploadAPI(AuthenticatedAPI):
                 metadata_map = {'Metadata': metadata}
-                s3_object.upload_file(path_to_zip_package, Callback=callback, ExtraArgs=metadata_map, Config=transfer_config)
+                s3_object.upload_file(path_to_zip_package, Callback=callback, ExtraArgs=metadata_map,
+                                      Config=transfer_config)
                 if delete_after_upload:
                     os.remove(path_to_zip_package)
@@ -1859,8 +1615,42 @@ class UploadAPI(AuthenticatedAPI):
         endpoint = f'{self.protocol}://{self.server}/api/s3/buckets'
         self.token = self.__token__()
-        s3_client = boto3.client('s3', endpoint_url=endpoint, aws_access_key_id=self.token, aws_secret_access_key="NOT_USED",
-                                 config=Config(s3={'addressing_style': 'path'}))
+        retries= {
+            'max_attempts': 5,
+            'mode': 'adaptive'
+        }
+        def new_credentials():
+            cred_metadata: dict = {}
+            cred_metadata['access_key'] =  self.__token__()
+            cred_metadata['secret_key'] = "NOT_USED"
+            cred_metadata['token'] = ""
+            cred_metadata["expiry_time"] = (datetime.now(tzlocal()) + timedelta(minutes=12)).isoformat()
+            logger.info("Refreshing credentials at: " + str(datetime.now(tzlocal())))
+            return cred_metadata
+        session = get_session()
+        session_credentials = RefreshableCredentials.create_from_metadata(
+            metadata=new_credentials(),
+            refresh_using=new_credentials,
+            advisory_timeout = 4 * 60,
+            mandatory_timeout = 12 * 60,
+            method = 'Preservica'
+        )
+        autorefresh_session = boto3.Session(botocore_session=session)
+        session._credentials = session_credentials
+        config = Config(s3={'addressing_style': 'path'}, read_timeout=120, connect_timeout=120,
+               request_checksum_calculation="WHEN_REQUIRED",
+               response_checksum_validation="WHEN_REQUIRED",
+               retries=retries, tcp_keepalive=True)
+        s3_client = autorefresh_session.client('s3', endpoint_url=endpoint, config=config)
         metadata = {}
         if folder is not None:
@@ -1873,20 +1663,48 @@ class UploadAPI(AuthenticatedAPI):
             try:
                 key_id = str(uuid.uuid4()) + ".zip"
+                # how big is the package
+                package_size = os.path.getsize(path_to_zip_package)
+                if package_size > 1 * GB:
+                    transfer_config.multipart_chunksize = 16 * MB   ## Min 64 Chunks
+                if package_size > 8 * GB:
+                    transfer_config.multipart_chunksize = 32 * MB   ## Min 256 Chunks
+                if package_size > 24 * GB:
+                    transfer_config.multipart_chunksize = 48 * MB   ## Min 512 Chunks
+                if package_size > 48 * GB:
+                    transfer_config.multipart_chunksize = 64 * MB
+                logger.info("Using Multipart Chunk Size: " + str(transfer_config.multipart_chunksize))
                 transfer = S3Transfer(client=s3_client, config=transfer_config)
                 transfer.PutObjectTask = PutObjectTask
                 transfer.CompleteMultipartUploadTask = CompleteMultipartUploadTask
                 transfer.upload_file = upload_file
-                response = transfer.upload_file(self=transfer, filename=path_to_zip_package, bucket=bucket, key=key_id, extra_args=metadata,
+                response = transfer.upload_file(self=transfer, filename=path_to_zip_package, bucket=bucket,
+                                                key=key_id,
+                                                extra_args=metadata,
                                                 callback=callback)
                 if delete_after_upload:
                     os.remove(path_to_zip_package)
                 return response['ResponseMetadata']['HTTPHeaders']['preservica-progress-token']
-            except ClientError as e:
-                logger.error(e)
-                raise e
+            except (NoCredentialsError, PartialCredentialsError) as ex:
+                logger.error(ex)
+                raise ex
+            except ClientError as ex:
+                logger.error(ex)
+                raise ex

pyPreservica 2.7.2__py3-none-any.whl → 3.3.4__py3-none-any.whl

pyPreservica 2.7.2py3-none-any.whl → 3.3.4py3-none-any.whl