PyPI - pyPreservica - Versions diffs - 2.0.3__py3-none-any.whl → 3.3.3__py3-none-any.whl - Mend

pyPreservica 2.0.3py3-none-any.whl → 3.3.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of pyPreservica might be problematic. Click here for more details.

Files changed (21) hide show

pyPreservica/__init__.py +19 -7
pyPreservica/adminAPI.py +43 -33
pyPreservica/authorityAPI.py +9 -9
pyPreservica/common.py +198 -54
pyPreservica/contentAPI.py +199 -18
pyPreservica/entityAPI.py +944 -250
pyPreservica/mdformsAPI.py +572 -0
pyPreservica/monitorAPI.py +3 -3
pyPreservica/parAPI.py +7 -40
pyPreservica/retentionAPI.py +58 -26
pyPreservica/settingsAPI.py +295 -0
pyPreservica/uploadAPI.py +426 -609
pyPreservica/webHooksAPI.py +3 -1
pyPreservica/workflowAPI.py +21 -37
{pyPreservica-2.0.3.dist-info → pypreservica-3.3.3.dist-info}/METADATA +93 -84
pypreservica-3.3.3.dist-info/RECORD +20 -0
{pyPreservica-2.0.3.dist-info → pypreservica-3.3.3.dist-info}/WHEEL +1 -1
pyPreservica/vocabularyAPI.py +0 -141
pyPreservica-2.0.3.dist-info/RECORD +0 -19
{pyPreservica-2.0.3.dist-info → pypreservica-3.3.3.dist-info/licenses}/LICENSE.txt +0 -0
{pyPreservica-2.0.3.dist-info → pypreservica-3.3.3.dist-info}/top_level.txt +0 -0

pyPreservica/uploadAPI.py CHANGED Viewed

@@ -13,7 +13,7 @@ import shutil
 import tempfile
 import uuid
 import xml
-from datetime import datetime
+from datetime import datetime, timedelta, timezone
 from time import sleep
 from xml.dom import minidom
 from xml.etree import ElementTree
@@ -22,10 +22,12 @@ from xml.etree.ElementTree import Element, SubElement
 import boto3
 import s3transfer.tasks
 import s3transfer.upload
+from botocore.session import get_session
 from boto3.s3.transfer import TransferConfig, S3Transfer
 from botocore.config import Config
-from botocore.exceptions import ClientError
+from botocore.credentials import RefreshableCredentials
+from botocore.exceptions import ClientError, NoCredentialsError, PartialCredentialsError
+from dateutil.tz import tzlocal
 from s3transfer import S3UploadFailedError
 from tqdm import tqdm
@@ -36,7 +38,7 @@ logger = logging.getLogger(__name__)
 MB = 1024 * 1024
 GB = 1024 ** 3
-transfer_config = TransferConfig(multipart_threshold=int((1 * GB) / 16))
+transfer_config = TransferConfig(multipart_threshold=int(32 * MB))
 CONTENT_FOLDER = "content"
 PRESERVATION_CONTENT_FOLDER = "p1"
@@ -57,8 +59,7 @@ def upload_file(self, filename, bucket, key, callback=None, extra_args=None):
         raise ValueError('Filename must be a string')
     subscribers = self._get_subscribers(callback)
-    future = self._manager.upload(
-        filename, bucket, key, extra_args, subscribers)
+    future = self._manager.upload(filename, bucket, key, extra_args, subscribers)
     try:
         return future.result()
     # If a client error was raised, add the backwards compatibility layer
@@ -66,9 +67,7 @@ def upload_file(self, filename, bucket, key, callback=None, extra_args=None):
     # ever thrown for upload_parts but now can be thrown for any related
     # client error.
     except ClientError as e:
-        raise S3UploadFailedError(
-            "Failed to upload %s to %s: %s" % (
-                filename, '/'.join([bucket, key]), e))
+        raise S3UploadFailedError("Failed to upload %s to %s: %s" % (filename, '/'.join([bucket, key]), e))
 class PutObjectTask(s3transfer.tasks.Task):
@@ -82,13 +81,9 @@ class PutObjectTask(s3transfer.tasks.Task):
 class CompleteMultipartUploadTask(s3transfer.tasks.Task):
     # Copied from s3transfer/tasks.py, changed to return a result.
     def _main(self, client, bucket, key, upload_id, parts, extra_args):
-        return client.complete_multipart_upload(
-            Bucket=bucket,
-            Key=key,
-            UploadId=upload_id,
-            MultipartUpload={"Parts": parts},
-            **extra_args,
-        )
+        return client.complete_multipart_upload(Bucket=bucket, Key=key, UploadId=upload_id,
+                                                MultipartUpload={"Parts": parts},
+                                                **extra_args, )
 s3transfer.upload.PutObjectTask = PutObjectTask
@@ -105,11 +100,11 @@ def prettify(elem):
 def __create_io__(xip=None, file_name=None, parent_folder=None, **kwargs):
     if xip is None:
-        xip = Element('XIP')
+        xip = Element('xip:XIP')
+        xip.set('xmlns:xip', 'http://preservica.com/XIP/v6.0')
     assert xip is not None
-    xip.set('xmlns', 'http://preservica.com/XIP/v6.0')
-    io = SubElement(xip, 'InformationObject')
-    ref = SubElement(io, 'Ref')
+    io = SubElement(xip, 'xip:InformationObject')
+    ref = SubElement(io, 'xip:Ref')
     if 'IO_Identifier_callback' in kwargs:
         ident_callback = kwargs.get('IO_Identifier_callback')
@@ -117,15 +112,15 @@ def __create_io__(xip=None, file_name=None, parent_folder=None, **kwargs):
     else:
         ref.text = str(uuid.uuid4())
-    title = SubElement(io, 'Title')
+    title = SubElement(io, 'xip:Title')
     title.text = kwargs.get('Title', file_name)
-    description = SubElement(io, 'Description')
+    description = SubElement(io, 'xip:Description')
     description.text = kwargs.get('Description', file_name)
-    security = SubElement(io, 'SecurityTag')
+    security = SubElement(io, 'xip:SecurityTag')
     security.text = kwargs.get('SecurityTag', "open")
-    custom_type = SubElement(io, 'CustomType')
+    custom_type = SubElement(io, 'xip:CustomType')
     custom_type.text = kwargs.get('CustomType', "")
-    parent = SubElement(io, 'Parent')
+    parent = SubElement(io, 'xip:Parent')
     if hasattr(parent_folder, "reference"):
         parent.text = parent_folder.reference
@@ -136,76 +131,76 @@ def __create_io__(xip=None, file_name=None, parent_folder=None, **kwargs):
 def __make_representation__(xip, rep_name, rep_type, io_ref):
-    representation = SubElement(xip, 'Representation')
-    io_link = SubElement(representation, 'InformationObject')
+    representation = SubElement(xip, 'xip:Representation')
+    io_link = SubElement(representation, 'xip:InformationObject')
     io_link.text = io_ref
-    access_name = SubElement(representation, 'Name')
+    access_name = SubElement(representation, 'xip:Name')
     access_name.text = rep_name
-    access_type = SubElement(representation, 'Type')
+    access_type = SubElement(representation, 'xip:Type')
     access_type.text = rep_type
-    content_objects = SubElement(representation, 'ContentObjects')
-    content_object = SubElement(content_objects, 'ContentObject')
+    content_objects = SubElement(representation, 'xip:ContentObjects')
+    content_object = SubElement(content_objects, 'xip:ContentObject')
     content_object_ref = str(uuid.uuid4())
     content_object.text = content_object_ref
     return content_object_ref
 def __make_content_objects__(xip, content_title, co_ref, io_ref, tag, content_description, content_type):
-    content_object = SubElement(xip, 'ContentObject')
-    ref_element = SubElement(content_object, "Ref")
+    content_object = SubElement(xip, 'xip:ContentObject')
+    ref_element = SubElement(content_object, "xip:Ref")
     ref_element.text = co_ref
-    title = SubElement(content_object, "Title")
+    title = SubElement(content_object, "xip:Title")
     title.text = content_title
-    description = SubElement(content_object, "Description")
+    description = SubElement(content_object, "xip:Description")
     description.text = content_description
-    security_tag = SubElement(content_object, "SecurityTag")
+    security_tag = SubElement(content_object, "xip:SecurityTag")
     security_tag.text = tag
-    custom_type = SubElement(content_object, "CustomType")
+    custom_type = SubElement(content_object, "xip:CustomType")
     custom_type.text = content_type
-    parent = SubElement(content_object, "Parent")
+    parent = SubElement(content_object, "xip:Parent")
     parent.text = io_ref
 def __make_generation__(xip, filename, co_ref, generation_label, location=None):
-    generation = SubElement(xip, 'Generation', {"original": "true", "active": "true"})
-    content_object = SubElement(generation, "ContentObject")
+    generation = SubElement(xip, 'xip:Generation', {"original": "true", "active": "true"})
+    content_object = SubElement(generation, "xip:ContentObject")
     content_object.text = co_ref
-    label = SubElement(generation, "Label")
+    label = SubElement(generation, "xip:Label")
     if generation_label:
         label.text = generation_label
     else:
         label.text = os.path.splitext(filename)[0]
-    effective_date = SubElement(generation, "EffectiveDate")
+    effective_date = SubElement(generation, "xip:EffectiveDate")
     effective_date.text = datetime.now().isoformat()
-    bitstreams = SubElement(generation, "Bitstreams")
-    bitstream = SubElement(bitstreams, "Bitstream")
+    bitstreams = SubElement(generation, "xip:Bitstreams")
+    bitstream = SubElement(bitstreams, "xip:Bitstream")
     bitstream.text = f"{location}/{filename}"
-    SubElement(generation, "Formats")
-    SubElement(generation, "Properties")
+    SubElement(generation, "xip:Formats")
+    SubElement(generation, "xip:Properties")
 def __make_bitstream__(xip, file_name, full_path, callback, location=None):
-    bitstream = SubElement(xip, 'Bitstream')
-    filename_element = SubElement(bitstream, "Filename")
+    bitstream = SubElement(xip, 'xip:Bitstream')
+    filename_element = SubElement(bitstream, "xip:Filename")
     filename_element.text = file_name
-    filesize = SubElement(bitstream, "FileSize")
+    filesize = SubElement(bitstream, "xip:FileSize")
     file_stats = os.stat(full_path)
     filesize.text = str(file_stats.st_size)
-    physical_location = SubElement(bitstream, "PhysicalLocation")
+    physical_location = SubElement(bitstream, "xip:PhysicalLocation")
     physical_location.text = location
-    fixities = SubElement(bitstream, "Fixities")
+    fixities = SubElement(bitstream, "xip:Fixities")
     fixity_result = callback(file_name, full_path)
     if type(fixity_result) == tuple:
-        fixity = SubElement(fixities, "Fixity")
-        fixity_algorithm_ref = SubElement(fixity, "FixityAlgorithmRef")
-        fixity_value = SubElement(fixity, "FixityValue")
+        fixity = SubElement(fixities, "xip:Fixity")
+        fixity_algorithm_ref = SubElement(fixity, "xip:FixityAlgorithmRef")
+        fixity_value = SubElement(fixity, "xip:FixityValue")
         fixity_algorithm_ref.text = fixity_result[0]
         fixity_value.text = fixity_result[1]
     elif type(fixity_result) == dict:
         for key, val in fixity_result.items():
-            fixity = SubElement(fixities, "Fixity")
-            fixity_algorithm_ref = SubElement(fixity, "FixityAlgorithmRef")
-            fixity_value = SubElement(fixity, "FixityValue")
+            fixity = SubElement(fixities, "xip:Fixity")
+            fixity_algorithm_ref = SubElement(fixity, "xip:FixityAlgorithmRef")
+            fixity_value = SubElement(fixity, "xip:FixityValue")
             fixity_algorithm_ref.text = key
             fixity_value.text = val
     else:
@@ -214,17 +209,17 @@ def __make_bitstream__(xip, file_name, full_path, callback, location=None):
 def __make_representation_multiple_co__(xip, rep_name, rep_type, rep_files, io_ref):
-    representation = SubElement(xip, 'Representation')
-    io_link = SubElement(representation, 'InformationObject')
+    representation = SubElement(xip, 'xip:Representation')
+    io_link = SubElement(representation, 'xip:InformationObject')
     io_link.text = io_ref
-    access_name = SubElement(representation, 'Name')
+    access_name = SubElement(representation, 'xip:Name')
     access_name.text = rep_name
-    access_type = SubElement(representation, 'Type')
+    access_type = SubElement(representation, 'xip:Type')
     access_type.text = rep_type
-    content_objects = SubElement(representation, 'ContentObjects')
+    content_objects = SubElement(representation, 'xip:ContentObjects')
     refs_dict = {}
     for f in rep_files:
-        content_object = SubElement(content_objects, 'ContentObject')
+        content_object = SubElement(content_objects, 'xip:ContentObject')
         content_object_ref = str(uuid.uuid4())
         content_object.text = content_object_ref
         refs_dict[content_object_ref] = f
@@ -248,12 +243,9 @@ def cvs_to_cmis_xslt(csv_file, xml_namespace, root_element, title="Metadata Titl
                 headers.add(xml_tag)
             break
-    namespaces = {"version": "2.0",
-                  "xmlns:xsl": "http://www.w3.org/1999/XSL/Transform",
-                  "xmlns:fn": "http://www.w3.org/2005/xpath-functions",
-                  "xmlns:xs": "http://www.w3.org/2001/XMLSchema",
-                  "xmlns:csv": xml_namespace,
-                  "xmlns": "http://www.tessella.com/sdb/cmis/metadata",
+    namespaces = {"version": "2.0", "xmlns:xsl": "http://www.w3.org/1999/XSL/Transform",
+                  "xmlns:fn": "http://www.w3.org/2005/xpath-functions", "xmlns:xs": "http://www.w3.org/2001/XMLSchema",
+                  "xmlns:csv": xml_namespace, "xmlns": "http://www.tessella.com/sdb/cmis/metadata",
                   "exclude-result-prefixes": "csv"}
     if additional_namespaces is not None:
@@ -323,8 +315,7 @@ def cvs_to_xsd(csv_file, xml_namespace, root_element, export_folder=None, additi
                 headers.add(xml_tag)
             break
-    namespaces = {"xmlns:xs": "http://www.w3.org/2001/XMLSchema",
-                  "attributeFormDefault": "unqualified",
+    namespaces = {"xmlns:xs": "http://www.w3.org/2001/XMLSchema", "attributeFormDefault": "unqualified",
                   "elementFormDefault": "qualified",
                   "targetNamespace": xml_namespace}
@@ -399,9 +390,7 @@ def csv_to_search_xml(csv_file, xml_namespace, root_element, title="Metadata Tit
         else:
             xpath_expression = f"//{short_name}:{root_element}/{short_name}:{header}"
-        attr = {"indexName": header, "displayName": header,
-                "xpath": xpath_expression,
-                "indexType": "STRING_DEFAULT"}
+        attr = {"indexName": header, "displayName": header, "xpath": xpath_expression, "indexType": "STRING_DEFAULT"}
         xml_term = xml.etree.ElementTree.SubElement(xml_index, "term", attr)
     if additional_namespaces is not None:
@@ -470,8 +459,9 @@ def cvs_to_xml(csv_file, xml_namespace, root_element, file_name_column="filename
                 yield name
-def generic_asset_package(preservation_files_dict=None, access_files_dict=None, export_folder=None,
-                          parent_folder=None, compress=True, **kwargs):
+def generic_asset_package(preservation_files_dict=None, access_files_dict=None, export_folder=None, parent_folder=None,
+                          compress=True,
+                          **kwargs):
     # some basic validation
     if export_folder is None:
         export_folder = tempfile.gettempdir()
@@ -492,7 +482,7 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
     content_type = kwargs.get('CustomType', "")
     if not compress:
-        shutil.register_archive_format("szip", _make_stored_zipfile, None, "UnCompressed ZIP file")
+        shutil.register_archive_format(name="szip", function=_make_stored_zipfile, extra_args=None, description="UnCompressed ZIP file")
     has_preservation_files = bool((preservation_files_dict is not None) and (len(preservation_files_dict) > 0))
     has_access_files = bool((access_files_dict is not None) and (len(access_files_dict) > 0))
@@ -570,7 +560,8 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
                     access_content_description = access_content_title.get("filename", default_content_objects_title)
                 __make_content_objects__(xip, access_content_title, content_ref, io_ref, security_tag,
-                                         access_content_description, content_type)
+                                         access_content_description,
+                                         content_type)
     if has_preservation_files:
         for representation_name in preservation_representation_refs_dict.keys():
@@ -622,12 +613,12 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
         for identifier_key, identifier_value in identifier_map.items():
             if identifier_key:
                 if identifier_value:
-                    identifier = SubElement(xip, 'Identifier')
-                    id_type = SubElement(identifier, "Type")
+                    identifier = SubElement(xip, 'xip:Identifier')
+                    id_type = SubElement(identifier, "xip:Type")
                     id_type.text = identifier_key
-                    id_value = SubElement(identifier, "Value")
+                    id_value = SubElement(identifier, "xip:Value")
                     id_value.text = identifier_value
-                    id_io = SubElement(identifier, "Entity")
+                    id_io = SubElement(identifier, "xip:Entity")
                     id_io.text = io_ref
     if 'Asset_Metadata' in kwargs:
@@ -637,22 +628,22 @@ def generic_asset_package(preservation_files_dict=None, access_files_dict=None,
                 if metadata_path:
                     if os.path.exists(metadata_path) and os.path.isfile(metadata_path):
                         descriptive_metadata = xml.etree.ElementTree.parse(source=metadata_path)
-                        metadata = SubElement(xip, 'Metadata', {'schemaUri': metadata_ns})
-                        metadata_ref = SubElement(metadata, 'Ref')
+                        metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                        metadata_ref = SubElement(metadata, 'xip:Ref')
                         metadata_ref.text = str(uuid.uuid4())
-                        entity = SubElement(metadata, 'Entity')
+                        entity = SubElement(metadata, 'xip:Entity')
                         entity.text = io_ref
-                        content = SubElement(metadata, 'Content')
+                        content = SubElement(metadata, 'xip:Content')
                         content.append(descriptive_metadata.getroot())
                     elif isinstance(metadata_path, str):
                         try:
                             descriptive_metadata = xml.etree.ElementTree.fromstring(metadata_path)
-                            metadata = SubElement(xip, 'Metadata', {'schemaUri': metadata_ns})
-                            metadata_ref = SubElement(metadata, 'Ref')
+                            metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                            metadata_ref = SubElement(metadata, 'xip:Ref')
                             metadata_ref.text = str(uuid.uuid4())
-                            entity = SubElement(metadata, 'Entity')
+                            entity = SubElement(metadata, 'xip:Entity')
                             entity.text = io_ref
-                            content = SubElement(metadata, 'Content')
+                            content = SubElement(metadata, 'xip:Content')
                             content.append(descriptive_metadata)
                         except RuntimeError:
                             logging.info(f"Could not parse asset metadata in namespace {metadata_ns}")
@@ -736,71 +727,72 @@ def multi_asset_package(asset_file_list=None, export_folder=None, parent_folder=
     os.mkdir(os.path.join(inner_folder, CONTENT_FOLDER))
     asset_map = dict()
-    xip = Element('XIP')
+    xip = Element('xip:XIP')
+    xip.set('xmlns:xip', 'http://preservica.com/XIP/v6.0')
     for file in asset_file_list:
         default_asset_title = os.path.splitext(os.path.basename(file))[0]
         xip, io_ref = __create_io__(xip, file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
         asset_map[file] = io_ref
-        representation = SubElement(xip, 'Representation')
-        io_link = SubElement(representation, 'InformationObject')
+        representation = SubElement(xip, 'xip:Representation')
+        io_link = SubElement(representation, 'xip:InformationObject')
         io_link.text = io_ref
-        access_name = SubElement(representation, 'Name')
+        access_name = SubElement(representation, 'xip:Name')
         access_name.text = "Preservation"
-        access_type = SubElement(representation, 'Type')
+        access_type = SubElement(representation, 'xip:Type')
         access_type.text = "Preservation"
-        content_objects = SubElement(representation, 'ContentObjects')
-        content_object = SubElement(content_objects, 'ContentObject')
+        content_objects = SubElement(representation, 'xip:ContentObjects')
+        content_object = SubElement(content_objects, 'xip:ContentObject')
         content_object_ref = str(uuid.uuid4())
         content_object.text = content_object_ref
         default_content_objects_title = os.path.splitext(os.path.basename(file))[0]
-        content_object = SubElement(xip, 'ContentObject')
-        ref_element = SubElement(content_object, "Ref")
+        content_object = SubElement(xip, 'xip:ContentObject')
+        ref_element = SubElement(content_object, "xip:Ref")
         ref_element.text = content_object_ref
-        title = SubElement(content_object, "Title")
+        title = SubElement(content_object, "xip:Title")
         title.text = default_content_objects_title
-        description = SubElement(content_object, "Description")
+        description = SubElement(content_object, "xip:Description")
         description.text = default_content_objects_title
-        security_tag_element = SubElement(content_object, "SecurityTag")
+        security_tag_element = SubElement(content_object, "xip:SecurityTag")
         security_tag_element.text = security_tag
-        custom_type = SubElement(content_object, "CustomType")
+        custom_type = SubElement(content_object, "xip:CustomType")
         custom_type.text = content_type
-        parent = SubElement(content_object, "Parent")
+        parent = SubElement(content_object, "xip:Parent")
         parent.text = io_ref
-        generation = SubElement(xip, 'Generation', {"original": "true", "active": "true"})
-        content_object = SubElement(generation, "ContentObject")
+        generation = SubElement(xip, 'xip:Generation', {"original": "true", "active": "true"})
+        content_object = SubElement(generation, "xip:ContentObject")
         content_object.text = content_object_ref
-        label = SubElement(generation, "Label")
+        label = SubElement(generation, "xip:Label")
         label.text = os.path.splitext(os.path.basename(file))[0]
-        effective_date = SubElement(generation, "EffectiveDate")
+        effective_date = SubElement(generation, "xip:EffectiveDate")
         effective_date.text = datetime.now().isoformat()
-        bitstreams = SubElement(generation, "Bitstreams")
-        bitstream = SubElement(bitstreams, "Bitstream")
+        bitstreams = SubElement(generation, "xip:Bitstreams")
+        bitstream = SubElement(bitstreams, "xip:Bitstream")
         bitstream.text = os.path.basename(file)
-        SubElement(generation, "Formats")
-        SubElement(generation, "Properties")
+        SubElement(generation, "xip:Formats")
+        SubElement(generation, "xip:Properties")
-        bitstream = SubElement(xip, 'Bitstream')
-        filename_element = SubElement(bitstream, "Filename")
+        bitstream = SubElement(xip, 'xip:Bitstream')
+        filename_element = SubElement(bitstream, "xip:Filename")
         filename_element.text = os.path.basename(file)
-        filesize = SubElement(bitstream, "FileSize")
+        filesize = SubElement(bitstream, "xip:FileSize")
         file_stats = os.stat(file)
         filesize.text = str(file_stats.st_size)
-        physical_location = SubElement(bitstream, "PhysicalLocation")
-        fixities = SubElement(bitstream, "Fixities")
+        physical_location = SubElement(bitstream, "xip:PhysicalLocation")
+        fixities = SubElement(bitstream, "xip:Fixities")
         fixity_result = fixity_callback(filename_element.text, file)
         if type(fixity_result) == tuple:
-            fixity = SubElement(fixities, "Fixity")
-            fixity_algorithm_ref = SubElement(fixity, "FixityAlgorithmRef")
-            fixity_value = SubElement(fixity, "FixityValue")
+            fixity = SubElement(fixities, "xip:Fixity")
+            fixity_algorithm_ref = SubElement(fixity, "xip:FixityAlgorithmRef")
+            fixity_value = SubElement(fixity, "xip:FixityValue")
             fixity_algorithm_ref.text = fixity_result[0]
             fixity_value.text = fixity_result[1]
         elif type(fixity_result) == dict:
             for key, val in fixity_result.items():
-                fixity = SubElement(fixities, "Fixity")
-                fixity_algorithm_ref = SubElement(fixity, "FixityAlgorithmRef")
-                fixity_value = SubElement(fixity, "FixityValue")
+                fixity = SubElement(fixities, "xip:Fixity")
+                fixity_algorithm_ref = SubElement(fixity, "xip:FixityAlgorithmRef")
+                fixity_value = SubElement(fixity, "xip:FixityValue")
                 fixity_algorithm_ref.text = key
                 fixity_value.text = val
         else:
@@ -814,12 +806,12 @@ def multi_asset_package(asset_file_list=None, export_folder=None, parent_folder=
                 for identifier_key, identifier_value in identifier_map_values.items():
                     if identifier_key:
                         if identifier_value:
-                            identifier = SubElement(xip, 'Identifier')
-                            id_type = SubElement(identifier, "Type")
+                            identifier = SubElement(xip, 'xip:Identifier')
+                            id_type = SubElement(identifier, "xip:Type")
                             id_type.text = identifier_key
-                            id_value = SubElement(identifier, "Value")
+                            id_value = SubElement(identifier, "xip:Value")
                             id_value.text = identifier_value
-                            id_io = SubElement(identifier, "Entity")
+                            id_io = SubElement(identifier, "xip:Entity")
                             id_io.text = io_ref
         src_file = file
@@ -839,8 +831,9 @@ def multi_asset_package(asset_file_list=None, export_folder=None, parent_folder=
         return top_level_folder + ".zip"
-def complex_asset_package(preservation_files_list=None, access_files_list=None, export_folder=None,
-                          parent_folder=None, compress=True, **kwargs):
+def complex_asset_package(preservation_files_list=None, access_files_list=None, export_folder=None, parent_folder=None,
+                          compress=True,
+                          **kwargs):
     """
             Create a Preservica package containing a single Asset from a multiple preservation files
@@ -888,6 +881,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
         'Preservation_Representation_Name'      Name of the Preservation Representation
         'Access_Representation_Name'            Name of the Access Representation
     """
+    xml.etree.ElementTree.register_namespace("xip", "http://preservica.com/XIP/v6.0")
     # some basic validation
     if export_folder is None:
         export_folder = tempfile.gettempdir()
@@ -916,17 +911,22 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
     if has_preservation_files:
         if default_asset_title is None:
             default_asset_title = os.path.splitext(os.path.basename(preservation_files_list[0]))[0]
         # create the asset
-        xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
+        if io_ref is None:
+            xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
     if has_access_files:
         if default_asset_title is None:
             default_asset_title = os.path.splitext(os.path.basename(access_files_list[0]))[0]
         if io_ref is None:
             xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
+    if io_ref is None:
+        default_asset_title = kwargs.get('Title', None)
+        if default_asset_title is None:
+            default_asset_title = "New Asset"
+        xip, io_ref = __create_io__(file_name=default_asset_title, parent_folder=parent_folder, **kwargs)
     if has_preservation_files:
         # add the content objects
         representation_name = kwargs.get('Preservation_Representation_Name', "Preservation")
@@ -938,7 +938,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
         # add the content objects
         access_name = kwargs.get('Access_Representation_Name', "Access")
         access_refs_dict = __make_representation_multiple_co__(xip, rep_name=access_name, rep_type="Access",
-                                                               rep_files=access_files_list, io_ref=io_ref)
+                                                               rep_files=access_files_list,
+                                                               io_ref=io_ref)
     if has_preservation_files:
@@ -955,7 +956,8 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
                 preservation_content_description = preservation_content_description[filename]
             __make_content_objects__(xip, preservation_content_title, content_ref, io_ref, security_tag,
-                                     preservation_content_description, content_type)
+                                     preservation_content_description,
+                                     content_type)
     if has_access_files:
@@ -1018,40 +1020,51 @@ def complex_asset_package(preservation_files_list=None, access_files_list=None,
         for identifier_key, identifier_value in identifier_map.items():
             if identifier_key:
                 if identifier_value:
-                    identifier = SubElement(xip, 'Identifier')
-                    id_type = SubElement(identifier, "Type")
+                    identifier = SubElement(xip, 'xip:Identifier')
+                    id_type = SubElement(identifier, "xip:Type")
                     id_type.text = identifier_key
-                    id_value = SubElement(identifier, "Value")
+                    id_value = SubElement(identifier, "xip:Value")
                     id_value.text = identifier_value
-                    id_io = SubElement(identifier, "Entity")
+                    id_io = SubElement(identifier, "xip:Entity")
                     id_io.text = io_ref
     if 'Asset_Metadata' in kwargs:
         metadata_map = kwargs.get('Asset_Metadata')
         for metadata_ns, metadata_path in metadata_map.items():
             if metadata_ns:
-                if metadata_path:
+                if metadata_path and isinstance(metadata_path, str):
                     if os.path.exists(metadata_path) and os.path.isfile(metadata_path):
                         descriptive_metadata = xml.etree.ElementTree.parse(source=metadata_path)
-                        metadata = SubElement(xip, 'Metadata', {'schemaUri': metadata_ns})
-                        metadata_ref = SubElement(metadata, 'Ref')
+                        metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                        metadata_ref = SubElement(metadata, 'xip:Ref')
                         metadata_ref.text = str(uuid.uuid4())
-                        entity = SubElement(metadata, 'Entity')
+                        entity = SubElement(metadata, 'xip:Entity')
                         entity.text = io_ref
-                        content = SubElement(metadata, 'Content')
+                        content = SubElement(metadata, 'xip:Content')
                         content.append(descriptive_metadata.getroot())
                     elif isinstance(metadata_path, str):
                         try:
                             descriptive_metadata = xml.etree.ElementTree.fromstring(metadata_path)
-                            metadata = SubElement(xip, 'Metadata', {'schemaUri': metadata_ns})
-                            metadata_ref = SubElement(metadata, 'Ref')
+                            metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                            metadata_ref = SubElement(metadata, 'xip:Ref')
                             metadata_ref.text = str(uuid.uuid4())
-                            entity = SubElement(metadata, 'Entity')
+                            entity = SubElement(metadata, 'xip:Entity')
                             entity.text = io_ref
-                            content = SubElement(metadata, 'Content')
+                            content = SubElement(metadata, 'xip:Content')
                             content.append(descriptive_metadata)
                         except RuntimeError:
                             logging.info(f"Could not parse asset metadata in namespace {metadata_ns}")
+                if metadata_path and isinstance(metadata_path, list):
+                    for path in metadata_path:
+                        if os.path.exists(path) and os.path.isfile(path):
+                            descriptive_metadata = xml.etree.ElementTree.parse(source=path)
+                            metadata = SubElement(xip, 'xip:Metadata', {'schemaUri': metadata_ns})
+                            metadata_ref = SubElement(metadata, 'xip:Ref')
+                            metadata_ref.text = str(uuid.uuid4())
+                            entity = SubElement(metadata, 'xip:Entity')
+                            entity.text = io_ref
+                            content = SubElement(metadata, 'xip:Content')
+                            content.append(descriptive_metadata.getroot())
     if xip is not None:
         export_folder = export_folder
@@ -1146,382 +1159,14 @@ def _unpad(s):
 class UploadAPI(AuthenticatedAPI):
-    def ingest_tweet(self, twitter_user=None, tweet_id: int = 0, twitter_consumer_key=None,
-                     twitter_secret_key=None, folder=None, callback=None, **kwargs):
-        """
-            Ingest tweets from a twitter stream by twitter username
-            :param tweet_id:
-            :param str twitter_user: Twitter Username
-            :param str twitter_consumer_key: Optional asset title
-            :param str twitter_secret_key: Optional asset description
-            :param str folder: Folder to ingest into
-            :param callback callback: Optional upload progress callback
-            :raises RuntimeError:
-        """
-        def get_image(m, has_video_element):
-            media_url_https_ = m["media_url_https"]
-            if media_url_https_:
-                req = requests.get(media_url_https_)
-                if req.status_code == requests.codes.ok:
-                    if has_video_element:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}]_thumb.jpg"
-                    else:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}].jpg"
-                    image_name_document_ = open(image_name_, "wb")
-                    image_name_document_.write(req.content)
-                    image_name_document_.close()
-                    return image_name_
-        def get_video(m):
-            video_info_ = m["video_info"]
-            variants_ = video_info_["variants"]
-            for v_ in variants_:
-                video_url_ = v_["url"]
-                req = requests.get(video_url_)
-                if req.status_code == requests.codes.ok:
-                    video_name_ = f"{{{media_id_str}}}_[{twitter_user}].mp4"
-                    video_name_document_ = open(video_name_, "wb")
-                    video_name_document_.write(req.content)
-                    video_name_document_.close()
-                    return video_name_, True
-        entity_client = pyPreservica.EntityAPI(username=self.username, password=self.password, server=self.server,
-                                               tenant=self.tenant)
-        if hasattr(folder, "reference"):
-            folder = entity_client.folder(folder.reference)
-        else:
-            folder = entity_client.folder(folder)
-        try:
-            import tweepy
-        except ImportError:
-            logger.error("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-            raise RuntimeError("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-        config = configparser.ConfigParser()
-        config.read('credentials.properties')
-        if twitter_consumer_key is None:
-            twitter_consumer_key = os.environ.get('TWITTER_CONSUMER_KEY')
-            if twitter_consumer_key is None:
-                try:
-                    twitter_consumer_key = config['credentials']['TWITTER_CONSUMER_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        if twitter_secret_key is None:
-            twitter_secret_key = os.environ.get('TWITTER_SECRET_KEY')
-            if twitter_secret_key is None:
-                try:
-                    twitter_secret_key = config['credentials']['TWITTER_SECRET_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        api = None
-        try:
-            auth = tweepy.AppAuthHandler(twitter_consumer_key, twitter_secret_key)
-            api = tweepy.API(auth, wait_on_rate_limit=True)
-        except TweepError:
-            logger.error("No valid Twitter API keys. Could not authenticate")
-            raise RuntimeError("No valid Twitter API keys. Could not authenticate")
-        if api is not None:
-            logger.debug(api)
-            tweet = api.get_status(tweet_id, tweet_mode="extended", include_entities=True)
-            created_at = tweet.created_at
-            id_str = tweet.id_str
-            author = tweet.author.name
-            tweet_entities = tweet.entities
-            hashtags = dict()
-            if 'hashtags' in tweet_entities:
-                hashtags = tweet.entities['hashtags']
-            entities = entity_client.identifier("tweet_id", id_str.strip())
-            if len(entities) > 0:
-                logger.warning("Tweet already exists, skipping....")
-                return
-            logger.info(f"Processing tweet {id_str} ...")
-            tid = tweet.id
-            content_objects = list()
-            full_tweet = api.get_status(tid, tweet_mode="extended", include_entities=True)
-            text = tweet.full_text
-            full_text = full_tweet.full_text
-            file_name = f"{{{id_str}}}_[{twitter_user}].json"
-            json_doc = json.dumps(full_tweet._json)
-            json_file = open(file_name, "wt", encoding="utf-8")
-            json_file.write(json_doc)
-            json_file.close()
-            content_objects.append(file_name)
-            if hasattr(full_tweet, "extended_entities"):
-                extended_entities = full_tweet.extended_entities
-                if "media" in extended_entities:
-                    media = extended_entities["media"]
-                    for med in media:
-                        media_id_str = med["id_str"]
-                        has_video = False
-                        if "video_info" in med:
-                            co, has_video = get_video(med)
-                            content_objects.append(co)
-                            if has_video:
-                                co = get_image(med, has_video)
-                                content_objects.append(co)
-                            continue
-                        if "media_url_https" in med:
-                            co = get_image(med, has_video)
-                            content_objects.append(co)
-            identifiers = dict()
-            asset_metadata = dict()
-            identifiers["tweet_id"] = id_str
-            user = full_tweet._json['user']
-            if full_tweet._json.get('retweeted_status'):
-                retweeted_status = full_tweet._json['retweeted_status']
-                if retweeted_status.get("extended_entities"):
-                    extended_entities = retweeted_status["extended_entities"]
-                    if "media" in extended_entities:
-                        media = extended_entities["media"]
-                        for med in media:
-                            media_id_str = med["id_str"]
-                            has_video = False
-                            if "video_info" in med:
-                                co, has_video = get_video(med)
-                                content_objects.append(co)
-                                continue
-                            if "media_url_https" in med:
-                                co = get_image(med, has_video)
-                                content_objects.append(co)
-            xml_object = xml.etree.ElementTree.Element('tweet', {"xmlns": "http://www.preservica.com/tweets/v1"})
-            xml.etree.ElementTree.SubElement(xml_object, "id").text = id_str
-            xml.etree.ElementTree.SubElement(xml_object, "full_text").text = full_text
-            xml.etree.ElementTree.SubElement(xml_object, "created_at").text = str(created_at)
-            xml.etree.ElementTree.SubElement(xml_object, "screen_name_sender").text = user.get('screen_name')
-            for h in hashtags:
-                xml.etree.ElementTree.SubElement(xml_object, "hashtag").text = str(h['text'])
-            xml.etree.ElementTree.SubElement(xml_object, "name").text = author
-            xml.etree.ElementTree.SubElement(xml_object, "retweet").text = str(full_tweet._json['retweet_count'])
-            xml.etree.ElementTree.SubElement(xml_object, "likes").text = str(full_tweet._json['favorite_count'])
-            xml_request = xml.etree.ElementTree.tostring(xml_object, encoding='utf-8')
-            metadata_document = open("metadata.xml", "wt", encoding="utf-8")
-            metadata_document.write(xml_request.decode("utf-8"))
-            metadata_document.close()
-            asset_metadata["http://www.preservica.com/tweets/v1"] = "metadata.xml"
-            security_tag = kwargs.get("SecurityTag", "open")
-            asset_title = kwargs.get("Title", text)
-            asset_description = kwargs.get("Description", full_text)
-            p = complex_asset_package(preservation_files_list=content_objects, parent_folder=folder,
-                                      Title=asset_title, Description=asset_description, CustomType="Tweet",
-                                      Identifiers=identifiers, Asset_Metadata=asset_metadata,
-                                      SecurityTag=security_tag)
-            self.upload_zip_package(p, folder=folder, callback=callback)
-            for ob in content_objects:
-                os.remove(ob)
-            os.remove("metadata.xml")
-    def ingest_twitter_feed(self, twitter_user=None, num_tweets: int = 25, twitter_consumer_key=None,
-                            twitter_secret_key=None, folder=None, callback=None, **kwargs):
-        """
-            Ingest tweets from a twitter stream by twitter username
-            :param str twitter_user: Twitter Username
-            :param int num_tweets: The number of tweets from the stream
-            :param str twitter_consumer_key: Optional asset title
-            :param str twitter_secret_key: Optional asset description
-            :param str folder: Folder to ingest into
-            :param callback callback: Optional upload progress callback
-            :raises RuntimeError:
-        """
-        def get_image(m, has_video_element):
-            media_url_https_ = m["media_url_https"]
-            if media_url_https_:
-                req = requests.get(media_url_https_)
-                if req.status_code == requests.codes.ok:
-                    if has_video_element:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}]_thumb.jpg"
-                    else:
-                        image_name_ = f"{{{media_id_str}}}_[{twitter_user}].jpg"
-                    image_name_document_ = open(image_name_, "wb")
-                    image_name_document_.write(req.content)
-                    image_name_document_.close()
-                    return image_name_
-        def get_video(m):
-            video_info_ = m["video_info"]
-            variants_ = video_info_["variants"]
-            for v_ in variants_:
-                if v_['content_type'] == 'video/mp4':
-                    video_url_ = v_["url"]
-                    with requests.get(video_url_, stream=True) as req:
-                        video_name_ = f"{{{media_id_str}}}_[{twitter_user}].mp4"
-                        with open(video_name_, 'wb') as video_name_document_:
-                            for chunk in req.iter_content(chunk_size=1024):
-                                video_name_document_.write(chunk)
-                                video_name_document_.flush()
-                        return video_name_, True
-        entity_client = pyPreservica.EntityAPI(username=self.username, password=self.password, server=self.server,
-                                               tenant=self.tenant)
-        if hasattr(folder, "reference"):
-            folder = entity_client.folder(folder.reference)
-        else:
-            folder = entity_client.folder(folder)
-        try:
-            import tweepy
-        except ImportError:
-            logger.error("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-            raise RuntimeError("Package tweepy is required for twitter harvesting. pip install --upgrade tweepy")
-        config = configparser.ConfigParser()
-        config.read('credentials.properties')
-        if twitter_consumer_key is None:
-            twitter_consumer_key = os.environ.get('TWITTER_CONSUMER_KEY')
-            if twitter_consumer_key is None:
-                try:
-                    twitter_consumer_key = config['credentials']['TWITTER_CONSUMER_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_CONSUMER_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        if twitter_secret_key is None:
-            twitter_secret_key = os.environ.get('TWITTER_SECRET_KEY')
-            if twitter_secret_key is None:
-                try:
-                    twitter_secret_key = config['credentials']['TWITTER_SECRET_KEY']
-                except KeyError:
-                    logger.error("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                 "environment variables or credentials.properties file")
-                    raise RuntimeError("No valid TWITTER_SECRET_KEY found in method arguments, "
-                                       "environment variables or credentials.properties file")
-        api = None
-        try:
-            auth = tweepy.AppAuthHandler(twitter_consumer_key, twitter_secret_key)
-            api = tweepy.API(auth, wait_on_rate_limit=True)
-        except TweepError:
-            logger.error("No valid Twitter API keys. Could not authenticate")
-            raise RuntimeError("No valid Twitter API keys. Could not authenticate")
-        if api is not None:
-            logger.debug(api)
-            for tweet in tweepy.Cursor(api.user_timeline, id=twitter_user).items(int(num_tweets)):
-                created_at = tweet.created_at
-                id_str = tweet.id_str
-                author = tweet.author.name
-                tweet_entities = tweet.entities
-                hashtags = dict()
-                if 'hashtags' in tweet_entities:
-                    hashtags = tweet.entities['hashtags']
-                entities = entity_client.identifier("tweet_id", id_str.strip())
-                if len(entities) > 0:
-                    logger.warning("Tweet already exists, skipping....")
-                    continue
-                logger.info(f"Processing tweet {id_str} ...")
-                tid = tweet.id
-                content_objects = list()
-                full_tweet = api.get_status(tid, tweet_mode="extended", include_entities=True)
-                text = tweet.text
-                logger.debug(text)
-                full_text = full_tweet.full_text
-                file_name = f"{{{id_str}}}_[{twitter_user}].json"
-                json_doc = json.dumps(full_tweet._json)
-                json_file = open(file_name, "wt", encoding="utf-8")
-                json_file.write(json_doc)
-                json_file.close()
-                content_objects.append(file_name)
-                if hasattr(full_tweet, "extended_entities"):
-                    extended_entities = full_tweet.extended_entities
-                    if "media" in extended_entities:
-                        media = extended_entities["media"]
-                        for med in media:
-                            media_id_str = med["id_str"]
-                            has_video = False
-                            if "video_info" in med:
-                                co, has_video = get_video(med)
-                                content_objects.append(co)
-                                if has_video:
-                                    co = get_image(med, has_video)
-                                    content_objects.append(co)
-                                continue
-                            if "media_url_https" in med:
-                                co = get_image(med, has_video)
-                                content_objects.append(co)
-                identifiers = {}
-                asset_metadata = {}
-                identifiers["tweet_id"] = id_str
-                user = full_tweet._json['user']
-                if full_tweet._json.get('retweeted_status'):
-                    retweeted_status = full_tweet._json['retweeted_status']
-                    if retweeted_status.get("extended_entities"):
-                        extended_entities = retweeted_status["extended_entities"]
-                        if "media" in extended_entities:
-                            media = extended_entities["media"]
-                            for med in media:
-                                media_id_str = med["id_str"]
-                                has_video = False
-                                if "video_info" in med:
-                                    co, has_video = get_video(med)
-                                    content_objects.append(co)
-                                    continue
-                                if "media_url_https" in med:
-                                    co = get_image(med, has_video)
-                                    content_objects.append(co)
-                xml_object = xml.etree.ElementTree.Element('tweet', {"xmlns": "http://www.preservica.com/tweets/v1"})
-                xml.etree.ElementTree.SubElement(xml_object, "id").text = id_str
-                xml.etree.ElementTree.SubElement(xml_object, "full_text").text = full_text
-                xml.etree.ElementTree.SubElement(xml_object, "created_at").text = str(created_at)
-                xml.etree.ElementTree.SubElement(xml_object, "screen_name_sender").text = user.get('screen_name')
-                for h in hashtags:
-                    xml.etree.ElementTree.SubElement(xml_object, "hashtag").text = str(h['text'])
-                xml.etree.ElementTree.SubElement(xml_object, "name").text = author
-                xml.etree.ElementTree.SubElement(xml_object, "retweet").text = str(full_tweet._json['retweet_count'])
-                xml.etree.ElementTree.SubElement(xml_object, "likes").text = str(full_tweet._json['favorite_count'])
-                xml_request = xml.etree.ElementTree.tostring(xml_object, encoding='utf-8')
-                metadata_document = open("metadata.xml", "wt", encoding="utf-8")
-                metadata_document.write(xml_request.decode("utf-8"))
-                metadata_document.close()
-                asset_metadata["http://www.preservica.com/tweets/v1"] = "metadata.xml"
-                security_tag = kwargs.get("SecurityTag", "open")
-                asset_title = kwargs.get("Title", text)
-                asset_description = kwargs.get("Description", full_text)
-                p = complex_asset_package(preservation_files_list=content_objects, parent_folder=folder,
-                                          Title=asset_title, Description=asset_description, CustomType="Tweet",
-                                          Identifiers=identifiers, Asset_Metadata=asset_metadata,
-                                          SecurityTag=security_tag)
-                self.upload_zip_package(p, folder=folder, callback=callback)
-                for ob in content_objects:
-                    os.remove(ob)
-                os.remove("metadata.xml")
-                sleep(2)
     def ingest_web_video(self, url=None, parent_folder=None, **kwargs):
         """
             Ingest a web video such as YouTube etc based on the URL
-            :param str url: URL to the youtube video
+            :param str url: URL to the YouTube video
             :param Folder parent_folder: The folder to ingest the video into
             :param str Title: Optional asset title
             :param str Description: Optional asset description
@@ -1545,10 +1190,7 @@ class UploadAPI(AuthenticatedAPI):
             if d['status'] == 'finished':
                 logger.info('Download Complete. Uploading to Preservica ...')
-        ydl_opts = {
-            'outtmpl': '%(id)s.mp4',
-            'progress_hooks': [my_hook],
-        }
+        ydl_opts = {'outtmpl': '%(id)s.mp4', 'progress_hooks': [my_hook], }
         # if True:
         #    ydl_opts['writesubtitles'] = True
@@ -1622,6 +1264,52 @@ class UploadAPI(AuthenticatedAPI):
             logger.error(exception)
             raise exception
+    def clean_upload_bucket(self, bucket_name: str,  older_than_days: int = 90):
+        """
+        Clean up objects in an upload bucket which are older than older_than_days.
+        """
+        from azure.storage.blob import ContainerClient
+        for location in self.upload_locations():
+            if location['containerName'] == bucket_name:
+                if location['type'] != 'AWS':
+                    credentials = self.upload_credentials(location['apiId'])
+                    account_key = credentials['key']
+                    session_token = credentials['sessionToken']
+                    sas_url = f"https://{account_key}.blob.core.windows.net/{bucket_name}"
+                    container = ContainerClient.from_container_url(container_url=sas_url, credential=session_token)
+                    now = datetime.now(timezone.utc)
+                    for blob in container.list_blobs():
+                        if abs((blob.last_modified - now).days) > older_than_days:
+                            logger.debug(f"Deleting expired object {blob.name}")
+                            container.delete_blob(blob.name)
+                if location['type'] == 'AWS':
+                    credentials = self.upload_credentials(location['apiId'])
+                    access_key = credentials['key']
+                    secret_key = credentials['secret']
+                    session_token = credentials['sessionToken']
+                    session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key,
+                                            aws_session_token=session_token)
+                    s3_client = session.client("s3")
+                    paginator = s3_client.get_paginator('list_objects_v2')
+                    now = datetime.now(timezone.utc)
+                    for page in paginator.paginate(Bucket=bucket_name):
+                        if 'Contents' in page:
+                            for key in page['Contents']:
+                                last_modified = key['LastModified']
+                                if abs((last_modified - now).days) > older_than_days:
+                                    logger.debug(f"Deleting expired object {key['Key']}")
+                                    s3_client.delete_object(Bucket=bucket_name, Key=key['Key'])
     def upload_locations(self):
         """
         Upload locations are configured on the Sources page as 'SIP Upload'.
@@ -1650,36 +1338,60 @@ class UploadAPI(AuthenticatedAPI):
         """
         return self.upload_locations()
-    def crawl_filesystem(self, filesystem_path, bucket_name, preservica_parent, callback=None,
+    def crawl_filesystem(self, filesystem_path, bucket_name, preservica_parent, callback: bool = False,
                          security_tag: str = "open",
-                         delete_after_upload=True, max_MB_ingested: int = -1):
+                         delete_after_upload: bool = True, max_MB_ingested: int = -1):
+        from pyPreservica import EntityAPI
+        def entity_value(client: EntityAPI, identifier: str) -> Entity:
+            back_off: int = 5
+            while True:
+                try:
+                    entities = client.identifier("code", identifier)
+                    if bool(len(entities) > 0):
+                        return entities.pop()
+                    else:
+                        return None
+                except HTTPException as e:
+                    sleep(back_off)
+                    back_off = back_off * 2
+        def entity_exists(client: EntityAPI, identifier: str) -> bool:
+            back_off: int = 5
+            while True:
+                try:
+                    entities = client.identifier("code", identifier)
+                    return bool(len(entities) > 0)
+                except HTTPException as e:
+                    sleep(back_off)
+                    back_off = back_off * 2
         def get_parent(client, identifier, parent_reference):
-            id = str(os.path.dirname(identifier))
-            if not id:
-                id = identifier
-            entities = client.identifier("code", id)
-            if len(entities) > 0:
-                folder = entities.pop()
+            dirname_id: str = str(os.path.dirname(identifier))
+            if not dirname_id:
+                dirname_id = identifier
+            folder = entity_value(client, dirname_id)
+            if folder is not None:
                 folder = client.folder(folder.reference)
                 return folder.reference
             else:
                 return parent_reference
         def get_folder(client, name, tag, parent_reference, identifier):
-            entities = client.identifier("code", identifier)
-            if len(entities) == 0:
+            folder = entity_value(client, identifier)
+            if folder is None:
                 logger.info(f"Creating new folder with name {name}")
                 folder = client.create_folder(name, name, tag, parent_reference)
                 client.add_identifier(folder, "code", identifier)
             else:
                 logger.info(f"Found existing folder with name {name}")
-                folder = entities.pop()
             return folder
-        from pyPreservica import EntityAPI
         entity_client = EntityAPI(username=self.username, password=self.password, server=self.server,
-                                  tenant=self.tenant)
+                                  tenant=self.tenant,
+                                  two_fa_secret_key=self.two_fa_secret_key, use_shared_secret=self.shared_secret,
+                                  protocol=self.protocol)
         if preservica_parent:
             parent = entity_client.folder(preservica_parent)
@@ -1705,7 +1417,7 @@ class UploadAPI(AuthenticatedAPI):
                     files.remove(file)
                     continue
                 asset_code = os.path.join(code, file)
-                if len(entity_client.identifier("code", asset_code)) == 0:
+                if not entity_exists(entity_client, asset_code):
                     bytes_ingested = bytes_ingested + os.stat(full_path).st_size
                     logger.info(f"Adding new file: {file} to package ready for upload")
                     file_identifiers = {"code": asset_code}
@@ -1718,8 +1430,19 @@ class UploadAPI(AuthenticatedAPI):
                 full_path_list = [os.path.join(dirname, file) for file in files]
                 package = multi_asset_package(asset_file_list=full_path_list, parent_folder=f, SecurityTag=security_tag,
                                               Identifiers=identifiers)
-                self.upload_zip_package_to_S3(path_to_zip_package=package, bucket_name=bucket_name,
-                                              callback=callback, delete_after_upload=delete_after_upload)
+                if callback:
+                    progress_display = UploadProgressConsoleCallback(package)
+                else:
+                    progress_display = None
+                if bucket_name is None:
+                    self.upload_zip_package(path_to_zip_package=package, callback=progress_display,
+                                            delete_after_upload=delete_after_upload)
+                else:
+                    self.upload_zip_to_Source(path_to_zip_package=package, container_name=bucket_name,
+                                              show_progress=bool(progress_display is not None),
+                                              delete_after_upload=delete_after_upload)
                 logger.info(f"Uploaded " + "{:.1f}".format(bytes_ingested / (1024 * 1024)) + " MB")
                 if max_MB_ingested > 0:
@@ -1727,6 +1450,37 @@ class UploadAPI(AuthenticatedAPI):
                         logger.info(f"Reached Max Upload Limit")
                         break
+    def upload_zip_to_Source(self, path_to_zip_package, container_name, folder=None, delete_after_upload=False,
+                             show_progress=False):
+        """
+             Uploads a zip file package to either an Azure container or S3 bucket
+             depending on the Preservica system deployment
+             :param str path_to_zip_package: Path to the package
+             :param str container_name: container connected to the ingest workflow
+             :param Folder folder: The folder to ingest the package into
+             :param bool delete_after_upload: Delete the local copy of the package after the upload has completed
+             :param bool show_progress:  Show upload progress bar
+        """
+        locations = self.upload_locations()
+        for location in locations:
+            if location['containerName'] == container_name:
+                if location['type'] == 'AWS':
+                    callback = None
+                    if show_progress:
+                        callback = UploadProgressConsoleCallback(path_to_zip_package)
+                    self.upload_zip_package_to_S3(path_to_zip_package=path_to_zip_package, bucket_name=container_name,
+                                                  folder=folder,
+                                                  callback=callback, delete_after_upload=delete_after_upload)
+                else:
+                    self.upload_zip_package_to_Azure(path_to_zip_package=path_to_zip_package,
+                                                     container_name=container_name, folder=folder,
+                                                     delete_after_upload=delete_after_upload,
+                                                     show_progress=show_progress)
     def upload_zip_package_to_Azure(self, path_to_zip_package, container_name, folder=None, delete_after_upload=False,
                                     show_progress=False):
@@ -1746,97 +1500,99 @@ class UploadAPI(AuthenticatedAPI):
         from azure.storage.blob import ContainerClient
-        if (self.major_version > 5) and (self.minor_version > 4):
-            locations = self.upload_locations()
-            for location in locations:
-                if location['containerName'] == container_name:
-                    credentials = self.upload_credentials(location['apiId'])
-                    account_key = credentials['key']
-                    session_token = credentials['sessionToken']
+        locations = self.upload_locations()
+        for location in locations:
+            if location['containerName'] == container_name:
+                credentials = self.upload_credentials(location['apiId'])
+                account_key = credentials['key']
+                session_token = credentials['sessionToken']
-                    sas_url = f"https://{account_key}.blob.core.windows.net/{container_name}"
-                    container = ContainerClient.from_container_url(container_url=sas_url, credential=session_token)
+                sas_url = f"https://{account_key}.blob.core.windows.net/{container_name}"
+                container = ContainerClient.from_container_url(container_url=sas_url, credential=session_token)
-                    upload_key = str(uuid.uuid4())
-                    metadata = {'key': upload_key, 'name': upload_key + ".zip", 'bucket': container_name,
-                                'status': 'ready'}
+                upload_key = str(uuid.uuid4())
+                metadata = {'key': upload_key, 'name': upload_key + ".zip", 'bucket': container_name, 'status': 'ready'}
-                    if hasattr(folder, "reference"):
-                        metadata['collectionreference'] = folder.reference
-                    elif isinstance(folder, str):
-                        metadata['collectionreference'] = folder
+                if hasattr(folder, "reference"):
+                    metadata['collectionreference'] = folder.reference
+                elif isinstance(folder, str):
+                    metadata['collectionreference'] = folder
-                    properties = None
+                properties = None
-                    len_bytes = Path(path_to_zip_package).stat().st_size
+                len_bytes = Path(path_to_zip_package).stat().st_size
-                    if show_progress:
-                        with tqdm.wrapattr(open(path_to_zip_package, 'rb'), "read", total=len_bytes) as data:
-                            blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata,
-                                                                length=len_bytes)
-                            properties = blob_client.get_blob_properties()
-                    else:
-                        with open(path_to_zip_package, "rb") as data:
-                            blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata,
-                                                                length=len_bytes)
-                            properties = blob_client.get_blob_properties()
+                if show_progress:
+                    with tqdm.wrapattr(open(path_to_zip_package, 'rb'), "read", total=len_bytes) as data:
+                        blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata,
+                                                            length=len_bytes)
+                        properties = blob_client.get_blob_properties()
+                else:
+                    with open(path_to_zip_package, "rb") as data:
+                        blob_client = container.upload_blob(name=upload_key, data=data, metadata=metadata,
+                                                            length=len_bytes)
+                        properties = blob_client.get_blob_properties()
-                    if delete_after_upload:
-                        os.remove(path_to_zip_package)
+                if delete_after_upload:
+                    os.remove(path_to_zip_package)
-                    return properties
+                return properties
     def upload_zip_package_to_S3(self, path_to_zip_package, bucket_name, folder=None, callback=None,
                                  delete_after_upload=False):
         """
-         Uploads a zip file package to an S3 bucket connected to a Preservica Cloud System
+           Uploads a zip file package to an S3 bucket connected to a Preservica Cloud System
-         :param str path_to_zip_package: Path to the package
-         :param str bucket_name: Bucket connected to an ingest workflow
-         :param Folder folder: The folder to ingest the package into
-         :param Callable callback: Optional callback to allow the callee to monitor the upload progress
-         :param bool delete_after_upload: Delete the local copy of the package after the upload has completed
+           :param str path_to_zip_package: Path to the package
+           :param str bucket_name: Bucket connected to an ingest workflow
+           :param Folder folder: The folder to ingest the package into
+           :param Callable callback: Optional callback to allow the callee to monitor the upload progress
+           :param bool delete_after_upload: Delete the local copy of the package after the upload has completed
-        """
+          """
         if (self.major_version < 7) and (self.minor_version < 5):
             raise RuntimeError("This call [upload_zip_package_to_S3] is only available against v6.5 systems and above")
-        if (self.major_version > 5) and (self.minor_version > 4):
-            locations = self.upload_locations()
-            for location in locations:
-                if location['containerName'] == bucket_name:
-                    credentials = self.upload_credentials(location['apiId'])
-                    access_key = credentials['key']
-                    secret_key = credentials['secret']
-                    session_token = credentials['sessionToken']
-                    endpoint = credentials['endpoint']
+        logger.debug("Finding Upload Locations")
+        self.token = self.__token__()
+        locations = self.upload_locations()
+        for location in locations:
+            if location['containerName'] == bucket_name:
+                logger.debug(f"Found Upload Location {location['containerName']}")
+                logger.debug(f"Fetching Upload Credentials for {location['containerName']}")
+                credentials = self.upload_credentials(location['apiId'])
+                access_key = credentials['key']
+                secret_key = credentials['secret']
+                session_token = credentials['sessionToken']
+                endpoint = credentials['endpoint']
-                    session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key,
-                                            aws_session_token=session_token)
-                    s3 = session.resource(service_name="s3")
+                session = boto3.Session(aws_access_key_id=access_key, aws_secret_access_key=secret_key,
+                                        aws_session_token=session_token)
+                s3 = session.resource(service_name="s3")
+                logger.debug(f"S3 Session: {s3}")
-                    upload_key = str(uuid.uuid4())
-                    s3_object = s3.Object(bucket_name, upload_key)
-                    metadata = {'key': upload_key, 'name': upload_key + ".zip", 'bucket': bucket_name,
-                                'status': 'ready'}
+                upload_key = str(uuid.uuid4())
+                s3_object = s3.Object(bucket_name, upload_key)
+                metadata = {'key': upload_key, 'name': upload_key + ".zip", 'bucket': bucket_name, 'status': 'ready'}
-                    if hasattr(folder, "reference"):
-                        metadata['collectionreference'] = folder.reference
-                    elif isinstance(folder, str):
-                        metadata['collectionreference'] = folder
+                if hasattr(folder, "reference"):
+                    metadata['collectionreference'] = folder.reference
+                elif isinstance(folder, str):
+                    metadata['collectionreference'] = folder
-                    metadata['size'] = str(Path(path_to_zip_package).stat().st_size)
-                    metadata['createdby'] = self.username
+                metadata['size'] = str(Path(path_to_zip_package).stat().st_size)
+                metadata['createdby'] = self.username
-                    metadata_map = {'Metadata': metadata}
+                metadata_map = {'Metadata': metadata}
-                    s3_object.upload_file(path_to_zip_package, Callback=callback, ExtraArgs=metadata_map,
-                                          Config=transfer_config)
+                s3_object.upload_file(path_to_zip_package, Callback=callback, ExtraArgs=metadata_map,
+                                      Config=transfer_config)
-                    if delete_after_upload:
-                        os.remove(path_to_zip_package)
+                if delete_after_upload:
+                    os.remove(path_to_zip_package)
     def upload_zip_package(self, path_to_zip_package, folder=None, callback=None, delete_after_upload=False):
         """
@@ -1859,9 +1615,42 @@ class UploadAPI(AuthenticatedAPI):
         endpoint = f'{self.protocol}://{self.server}/api/s3/buckets'
         self.token = self.__token__()
-        s3_client = boto3.client('s3', endpoint_url=endpoint, aws_access_key_id=self.token,
-                                 aws_secret_access_key="NOT_USED",
-                                 config=Config(s3={'addressing_style': 'path'}))
+        retries= {
+            'max_attempts': 5,
+            'mode': 'adaptive'
+        }
+        def new_credentials():
+            cred_metadata: dict = {}
+            cred_metadata['access_key'] =  self.__token__()
+            cred_metadata['secret_key'] = "NOT_USED"
+            cred_metadata['token'] = ""
+            cred_metadata["expiry_time"] = (datetime.now(tzlocal()) + timedelta(minutes=12)).isoformat()
+            logger.info("Refreshing credentials at: " + str(datetime.now(tzlocal())))
+            return cred_metadata
+        session = get_session()
+        session_credentials = RefreshableCredentials.create_from_metadata(
+            metadata=new_credentials(),
+            refresh_using=new_credentials,
+            advisory_timeout = 4 * 60,
+            mandatory_timeout = 12 * 60,
+            method = 'Preservica'
+        )
+        autorefresh_session = boto3.Session(botocore_session=session)
+        session._credentials = session_credentials
+        config = Config(s3={'addressing_style': 'path'}, read_timeout=120, connect_timeout=120,
+               request_checksum_calculation="WHEN_REQUIRED",
+               response_checksum_validation="WHEN_REQUIRED",
+               retries=retries, tcp_keepalive=True)
+        s3_client = autorefresh_session.client('s3', endpoint_url=endpoint, config=config)
         metadata = {}
         if folder is not None:
@@ -1874,20 +1663,48 @@ class UploadAPI(AuthenticatedAPI):
             try:
                 key_id = str(uuid.uuid4()) + ".zip"
+                # how big is the package
+                package_size = os.path.getsize(path_to_zip_package)
+                if package_size > 1 * GB:
+                    transfer_config.multipart_chunksize = 16 * MB   ## Min 64 Chunks
+                if package_size > 8 * GB:
+                    transfer_config.multipart_chunksize = 32 * MB   ## Min 256 Chunks
+                if package_size > 24 * GB:
+                    transfer_config.multipart_chunksize = 48 * MB   ## Min 512 Chunks
+                if package_size > 48 * GB:
+                    transfer_config.multipart_chunksize = 64 * MB
+                logger.info("Using Multipart Chunk Size: " + str(transfer_config.multipart_chunksize))
                 transfer = S3Transfer(client=s3_client, config=transfer_config)
                 transfer.PutObjectTask = PutObjectTask
                 transfer.CompleteMultipartUploadTask = CompleteMultipartUploadTask
                 transfer.upload_file = upload_file
-                response = transfer.upload_file(self=transfer, filename=path_to_zip_package, bucket=bucket, key=key_id,
-                                                extra_args=metadata, callback=callback)
+                response = transfer.upload_file(self=transfer, filename=path_to_zip_package, bucket=bucket,
+                                                key=key_id,
+                                                extra_args=metadata,
+                                                callback=callback)
                 if delete_after_upload:
                     os.remove(path_to_zip_package)
                 return response['ResponseMetadata']['HTTPHeaders']['preservica-progress-token']
-            except ClientError as e:
-                logger.error(e)
-                raise e
+            except (NoCredentialsError, PartialCredentialsError) as ex:
+                logger.error(ex)
+                raise ex
+            except ClientError as ex:
+                logger.error(ex)
+                raise ex

pyPreservica 2.0.3__py3-none-any.whl → 3.3.3__py3-none-any.whl

Potentially problematic release.

pyPreservica 2.0.3py3-none-any.whl → 3.3.3py3-none-any.whl