PyPI - datamule - Versions diffs - 2.3.5__py3-none-any.whl → 2.3.7__py3-none-any.whl - Mend

datamule 2.3.5py3-none-any.whl → 2.3.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of datamule might be problematic. Click here for more details.

Files changed (28) hide show

datamule/__init__.py CHANGED Viewed

@@ -1,9 +1,9 @@
-from .submission import Submission
-from .portfolio import Portfolio
+from .submission.submission import Submission
+from .portfolio.portfolio import Portfolio
 from .document.document import Document
 from .helper import _load_package_csv, load_package_dataset
 from .config import Config
-from .sheet import Sheet
+from .sheet.sheet import Sheet
 from .index import Index
 from .package_updater import PackageUpdater
 from .utils.format_accession import format_accession
@@ -32,6 +32,8 @@ def _setup_notebook_env():
 # Set up notebook environment
 _setup_notebook_env()
+# TODO, is this load bearing?
 __all__ = [
     '_load_package_csv',
     'load_package_dataset',

datamule/book/s3transfer.py CHANGED Viewed

@@ -8,7 +8,7 @@ from datetime import datetime, timedelta
 from urllib.parse import urlparse
 from tqdm import tqdm
 import logging
-from ..sheet import Sheet
+from ..sheet.sheet import Sheet
 from ..utils.format_accession import format_accession
 # Set up logging

datamule/document/document.py CHANGED Viewed

@@ -10,7 +10,7 @@ from pathlib import Path
 import webbrowser
 from secsgml.utils import bytes_to_str
 import tempfile
-from .tables.tables import Tables
+from ..tables.tables import Tables
 from ..tags.utils import get_cusip_using_regex, get_isin_using_regex, get_figi_using_regex,get_all_tickers, get_full_names,get_full_names_dictionary_lookup, analyze_lm_sentiment_fragment
 from ..utils.pdf import has_extractable_text

datamule/{portfolio.py → portfolio/portfolio.py} RENAMED Viewed

@@ -1,19 +1,19 @@
 from pathlib import Path
 from tqdm import tqdm
 from concurrent.futures import ThreadPoolExecutor, as_completed
-from .submission import Submission
-from .sec.submissions.downloader import download as sec_download
-from .sec.submissions.textsearch import filter_text
-from .config import Config
+from ..submission.submission import Submission
+from ..sec.submissions.downloader import download as sec_download
+from ..sec.submissions.textsearch import filter_text
+from ..config import Config
 import os
 import tarfile
 from threading import Lock
-from .helper import _process_cik_and_metadata_filters
-from .datamule.downloader import download as seclibrary_download
-from .sec.xbrl.filter_xbrl import filter_xbrl
-from .sec.submissions.monitor import Monitor
-from .portfolio_compression_utils import CompressionManager
-from .datamule.sec_connector import SecConnector
+from ..helper import _process_cik_and_metadata_filters
+from ..datamule.downloader import download as seclibrary_download
+from ..sec.xbrl.filter_xbrl import filter_xbrl
+from ..sec.submissions.monitor import Monitor
+from .portfolio_compression_utils_legacy import CompressionManager
+from ..datamule.sec_connector import SecConnector
 import shutil
@@ -31,6 +31,7 @@ class Portfolio:
         self.monitor = Monitor()
         if self.path.exists():
             self._load_submissions()
             self.submissions_loaded = True
@@ -47,6 +48,7 @@ class Portfolio:
         regular_items = [f for f in self.path.iterdir() if (f.is_dir() or f.suffix=='.tar') and 'batch' not in f.name]
         batch_tars = [f for f in self.path.iterdir() if f.is_file() and 'batch' in f.name and f.suffix == '.tar']
         # Load regular submissions (existing logic)
         def load_submission(folder):
             return Submission(folder)
@@ -99,11 +101,12 @@ class Portfolio:
             try:
                 submission = Submission(
                     batch_tar_path=batch_tar_path,
-                    accession_prefix=accession_prefix,
+                    accession=accession_prefix,
                     portfolio_ref=self
                 )
                 submissions.append(submission)
             except Exception as e:
+                print(f"Path: {batch_tar_path}. Exception: {e}")
                 pass
                 #print(f"Path: {batch_tar_path}. Exception: {e}")
             pbar.update(1)  # Update progress for each successful submission
@@ -111,18 +114,6 @@ class Portfolio:
         return submissions
-    def compress(self, compression=None, compression_level=None, threshold=1048576, max_batch_size=1024*1024*1024):
-        """
-        Compress all individual submissions into batch tar files.
-        Args:
-            compression: None, 'gzip', or 'zstd' for document compression (default: None)
-            compression_level: Compression level, if None uses defaults (gzip=6, zstd=3)
-            threshold: Size threshold for compressing individual documents (default: 1MB)
-            max_batch_size: Maximum size per batch tar file (default: 1GB)
-        """
-        CompressionManager().compress_portfolio(self, compression, compression_level, threshold, max_batch_size, self.MAX_WORKERS)
     def decompress(self):
         """
         Decompress all batch tar files back to individual submission directories.

datamule/{portfolio_compression_utils.py → portfolio/portfolio_compression_utils_legacy.py} RENAMED Viewed

@@ -8,6 +8,8 @@ from tqdm import tqdm
 from concurrent.futures import ThreadPoolExecutor, as_completed
 from secsgml.utils import bytes_to_str, calculate_documents_locations_in_tar
+# probably can delete much of this TODO
 class CompressionManager:

datamule/seclibrary/bq.py CHANGED Viewed

@@ -2,6 +2,8 @@ import os
 import requests
 import json
+# slated for deletion
 def get_information_table(
     # Optional filtering parameters
     columns=None,

datamule/sheet/__init__.py ADDED Viewed

File without changes

datamule/{sheet.py → sheet/sheet.py} RENAMED Viewed

@@ -1,10 +1,10 @@
 from pathlib import Path
 import csv
 import os
-from .helper import _process_cik_and_metadata_filters, load_package_dataset
-from .sec.xbrl.downloadcompanyfacts import download_company_facts
-from .datamule.datamule_lookup import datamule_lookup
-from .datamule.datamule_mysql_rds import query_mysql_rds
+from ..helper import _process_cik_and_metadata_filters, load_package_dataset
+from ..sec.xbrl.downloadcompanyfacts import download_company_facts
+from ..datamule.datamule_lookup import datamule_lookup
+from ..datamule.datamule_mysql_rds import query_mysql_rds
 from company_fundamentals.utils import get_fundamental_mappings
 from company_fundamentals import construct_fundamentals
 class Sheet:

datamule/submission/__init__.py ADDED Viewed

File without changes

datamule/{submission.py → submission/submission.py} RENAMED Viewed

@@ -1,42 +1,103 @@
 from pathlib import Path
 import json
-from .document.document import Document
+from ..document.document import Document
 from secsgml import parse_sgml_content_into_memory
 from secsgml.parse_sgml import transform_metadata_string
 from secsgml.utils import bytes_to_str
-from .sec.utils import headers
+from ..sec.utils import headers
 import tarfile
-import zstandard as zstd
-import gzip
 import urllib.request
 from secxbrl import parse_inline_xbrl
 from company_fundamentals import construct_fundamentals
 from decimal import Decimal
-from .utils.format_accession import format_accession
+from ..utils.format_accession import format_accession
+from .tar_submission import tar_submission
+# probably needs rework later
+class FundamentalsAccessor:
+    def __init__(self, submission):
+        self.submission = submission
+        self._cache = {}
+        self._all_data = None
+    def __getattr__(self, name):
+        # Try as category first
+        try:
+            if name not in self._cache:
+                result = self.submission.parse_fundamentals(categories=[name])
+                if result:  # Only cache if we got actual data
+                    self._cache[name] = result
+                    return result
+        except:
+            pass
+        # Fall back to dict behavior
+        return getattr(self._get_all_data(), name)
+    def _get_all_data(self):
+        if self._all_data is None:
+            self._all_data = self.submission.parse_fundamentals(categories=None)
+        return self._all_data
+    # Make the accessor behave like the underlying data
+    def __getitem__(self, key):
+        return self._get_all_data()[key]
+    def __repr__(self):
+        return repr(self._get_all_data())
+    def __str__(self):
+        return str(self._get_all_data())
+    def __iter__(self):
+        return iter(self._get_all_data())
+    def __len__(self):
+        return len(self._get_all_data()) if self._get_all_data() else 0
+    def __bool__(self):
+        return bool(self._get_all_data())
 class Submission:
     def __init__(self, path=None, sgml_content=None, keep_document_types=None,
-                 batch_tar_path=None, accession_prefix=None, portfolio_ref=None,url=None):
+                 batch_tar_path=None, accession=None, portfolio_ref=None,url=None):
+        # get accession number
+        # lets just use accesion-prefix, to get around malformed metadata files (1995 has a lot!)
+        if path is not None:
+            self.accession = format_accession(path.stem,'no-dash')
+        elif batch_tar_path is not None:
+            self.accession = format_accession(accession,'no-dash')
+        elif url is not None or sgml_content is not None:
+            if accession is None:
+                raise ValueError("If using url or sgml_content, accession must be specified.")
+            self.accession = format_accession(accession,'no-dash')
+        else:
+            raise ValueError("If this appears, please post an issue: https://github.com/john-friedman/datamule-python/issues.")
         # declare vars to be filled later
         self._xbrl = None
         self._fundamentals_cache = {}
+        self._tar = None
+        self._tar_compression_type = 'zstd'
+        self._tar_compression_level = 3
+        self._accession_year_2d = None
+        self._documents = None
         # Validate parameters
         param_count = sum(x is not None for x in [path, sgml_content, batch_tar_path,url])
         if param_count != 1:
             raise ValueError("Exactly one of path, sgml_content, or batch_tar_path must be provided")
-        if batch_tar_path is not None and (accession_prefix is None or portfolio_ref is None):
-            raise ValueError("batch_tar_path requires both accession_prefix and portfolio_ref")
+        if batch_tar_path is not None and (self.accession is None or portfolio_ref is None):
+            raise ValueError("batch_tar_path requires both accession and portfolio_ref")
         # Initialize batch tar attributes
         self.batch_tar_path = batch_tar_path
-        self.accession_prefix = accession_prefix
         self.portfolio_ref = portfolio_ref
+        # here should set accession either from url or make it a required argument if sgml content
         if url is not None or sgml_content is not None:
             if url is not None:
                 request = urllib.request.Request(url, headers=headers)
@@ -49,17 +110,15 @@ class Submission:
             self.path = None
             metadata, raw_documents = parse_sgml_content_into_memory(sgml_content)
-            metadata = bytes_to_str(metadata)
+            metadata = bytes_to_str(metadata,lower=False)
             # standardize metadata
             metadata = transform_metadata_string(metadata)
             self.metadata = Document(type='submission_metadata', content=metadata, extension='.json',filing_date=None,accession=None,path=None)
-            # code dupe
-            self.accession = self.metadata.content['accession-number']
             self.filing_date= f"{self.metadata.content['filing-date'][:4]}-{self.metadata.content['filing-date'][4:6]}-{self.metadata.content['filing-date'][6:8]}"
-            self.documents = []
+            self.documents_obj_list = []
             filtered_metadata_documents = []
             for idx,doc in enumerate(self.metadata.content['documents']):
@@ -72,7 +131,7 @@ class Submission:
                 # write as txt if not declared
                 filename = doc.get('filename','.txt')
                 extension = Path(filename).suffix
-                self.documents.append(Document(type=type, content=raw_documents[idx], extension=extension,filing_date=self.filing_date,accession=self.accession))
+                self.documents_obj_list.append(Document(type=type, content=raw_documents[idx], extension=extension,filing_date=self.filing_date,accession=self.accession))
                 filtered_metadata_documents.append(doc)
@@ -85,24 +144,22 @@ class Submission:
             # Load metadata from batch tar
             with self.portfolio_ref.batch_tar_locks[batch_tar_path]:
                 tar_handle = self.portfolio_ref.batch_tar_handles[batch_tar_path]
-                metadata_obj = tar_handle.extractfile(f'{accession_prefix}/metadata.json')
+                metadata_obj = tar_handle.extractfile(f'{self.accession}/metadata.json')
                 metadata = json.loads(metadata_obj.read().decode('utf-8'))
             # Set metadata path using :: notation
-            metadata_path = f"{batch_tar_path}::{accession_prefix}/metadata.json"
+            metadata_path = f"{batch_tar_path}::{self.accession}/metadata.json"
             # standardize metadata
             metadata = transform_metadata_string(metadata)
             self.metadata = Document(type='submission_metadata', content=metadata, extension='.json',filing_date=None,accession=None,path=metadata_path)
-            # lets just use accesion-prefix, to get around malformed metadata files (1995 has a lot!)
-            self.accession = format_accession(self.accession_prefix,'dash')
-            #print(f"s: {self.metadata.content['accession-number']} : {batch_tar_path}")
             self.filing_date= f"{self.metadata.content['filing-date'][:4]}-{self.metadata.content['filing-date'][4:6]}-{self.metadata.content['filing-date'][6:8]}"
         elif path is not None:
             self.path = Path(path)
             if self.path.suffix == '.tar':
                 with tarfile.open(self.path,'r') as tar:
                     metadata_obj = tar.extractfile('metadata.json')
@@ -118,65 +175,45 @@ class Submission:
             # standardize metadata
             metadata = transform_metadata_string(metadata)
             self.metadata = Document(type='submission_metadata', content=metadata, extension='.json',filing_date=None,accession=None,path=metadata_path)
-            self.accession = self.metadata.content['accession-number']
             self.filing_date= f"{self.metadata.content['filing-date'][:4]}-{self.metadata.content['filing-date'][4:6]}-{self.metadata.content['filing-date'][6:8]}"
         # booleans
-        self._has_xbrl = any(
+        self._xbrl_bool = any(
                 doc['type'] in ('EX-100.INS', 'EX-101.INS') or
                 doc.get('filename', '').endswith('_htm.xml')
                 for doc in self.metadata.content['documents']
             )
-        self._has_fundamentals = self._has_xbrl
+        self._has_fundamentals = self._xbrl_bool
+    # TODO rework for better metadata accessing
     def _load_document_by_index(self, idx):
         """Load a document by its index in the metadata documents list."""
         doc = self.metadata.content['documents'][idx]
         # If loaded from sgml_content, return pre-loaded document
         if self.path is None and self.batch_tar_path is None:
-            return self.documents[idx]
+            return self.documents_obj_list[idx]
         # Get filename from metadata - this is the source of truth
         filename = doc.get('filename')
         if filename is None:
             filename = doc['sequence'] + '.txt'
-        # Get the base extension (before any compression extension)
-        # If filename ends with .gz or .zst, the real extension is before that
-        if filename.endswith('.gz'):
-            extension = Path(filename[:-3]).suffix
-            is_compressed = 'gzip'
-        elif filename.endswith('.zst'):
-            extension = Path(filename[:-4]).suffix
-            is_compressed = 'zstd'
-        else:
-            extension = Path(filename).suffix
-            is_compressed = False
+        extension = Path(filename).suffix
         # Handle batch tar case
         if self.batch_tar_path is not None:
             with self.portfolio_ref.batch_tar_locks[self.batch_tar_path]:
                 tar_handle = self.portfolio_ref.batch_tar_handles[self.batch_tar_path]
                 # Use exact filename from metadata
-                tar_path = f'{self.accession_prefix}/{filename}'
+                tar_path = f'{self.accession}/{filename}'
                 content = tar_handle.extractfile(tar_path).read()
-                # Decompress if needed based on filename extension
-                if is_compressed == 'gzip':
-                    content = gzip.decompress(content)
-                elif is_compressed == 'zstd':
-                    content = zstd.ZstdDecompressor().decompress(content)
-                # Decode text files
-                # if extension in ['.htm', '.html', '.txt', '.xml']:
-                #     content = content.decode('utf-8', errors='replace')
-                document_path = f"{self.batch_tar_path}::{self.accession_prefix}/{filename}"
+                document_path = f"{self.batch_tar_path}::{self.accession}/{filename}"
         # Handle regular path case
         else:
@@ -188,27 +225,7 @@ class Submission:
                         content = tar.extractfile(filename).read()
                         actual_filename = filename
                     except:
-                        try:
-                            content = tar.extractfile(filename + '.gz').read()
-                            actual_filename = filename + '.gz'
-                            is_compressed = 'gzip'
-                        except:
-                            try:
-                                content = tar.extractfile(filename + '.zst').read()
-                                actual_filename = filename + '.zst'
-                                is_compressed = 'zstd'
-                            except:
-                                raise FileNotFoundError(f"Document file not found in tar: {filename}")
-                    # Decompress if compressed
-                    if is_compressed == 'gzip':
-                        content = gzip.decompress(content)
-                    elif is_compressed == 'zstd':
-                        content = zstd.ZstdDecompressor().decompress(content)
-                    # Decode text files
-                    # if extension in ['.htm', '.html', '.txt', '.xml']:
-                    #     content = content.decode('utf-8', errors='replace')
+                        raise FileNotFoundError(f"Document file not found in tar: {filename}")
                     document_path = f"{self.path}::{actual_filename}"
@@ -222,15 +239,6 @@ class Submission:
                 with document_path.open('rb') as f:
                     content = f.read()
-                # Decompress if needed based on filename extension
-                if is_compressed == 'gzip':
-                    content = gzip.decompress(content)
-                elif is_compressed == 'zstd':
-                    content = zstd.ZstdDecompressor().decompress(content)
-                # Decode text files
-                # if extension in ['.htm', '.html', '.txt', '.xml']:
-                #     content = content.decode('utf-8', errors='replace')
         return Document(
             type=doc['type'],
@@ -260,20 +268,24 @@ class Submission:
     def parse_xbrl(self):
         if self._xbrl:
             return
+        if not self._xbrl_bool:
+            print(f"Submission: {self.accession} has no xbrl")
+            return
         for idx, doc in enumerate(self.metadata.content['documents']):
             if doc['type'] in ['EX-100.INS','EX-101.INS']:
                 document = self._load_document_by_index(idx)
                 self._xbrl = parse_inline_xbrl(content=document.content,file_type='extracted_inline')
-                return
+                return
             if doc['filename'].endswith('_htm.xml'):
                 document = self._load_document_by_index(idx)
                 self._xbrl = parse_inline_xbrl(content=document.content,file_type='extracted_inline')
                 return
     @property
-    def xbrl(self):
+    def xbrl(self):
         if self._xbrl is None:
             self.parse_xbrl()
         return self._xbrl
@@ -353,20 +365,61 @@ class Submission:
     @property
     def fundamentals(self):
-        """Get all fundamental data"""
-        return self.parse_fundamentals(categories=None)
+        """Access fundamentals via attributes: sub.fundamentals.incomeStatement"""
+        if not hasattr(self, '_fundamentals_accessor'):
+            self._fundamentals_accessor = FundamentalsAccessor(self)
+        return self._fundamentals_accessor
+    @property
+    def tar(self):
+        return self._tar_submission().getvalue()
+    def set_tar_compression(self,compression_type='zstd',level=3):
+        self._tar_compression_type = compression_type
+        self._tar_compression_level = level
+    def _tar_submission(self):
+        if self._tar is not None:
+            return self._tar
+        else:
+            documents_obj_list = self._get_documents_obj_list()
+            self._tar = tar_submission(
+                documents_obj_list=documents_obj_list,
+                metadata=self.metadata.content,
+                compression_type=self._tar_compression_type,
+                level=self._tar_compression_level
+            )
+            return self._tar
+    @property
+    def accession_year_2d(self):
+        return self._get_accession_year_2d()
+    def _get_accession_year_2d(self):
+        if self._accession_year_2d is not None:
+            return self._accession_year_2d
+        self._accession_year_2d = format_accession(self.accession,'dash').split('-')[1]
+        return self._accession_year_2d
+    @property
+    def documents(self):
+        return self._get_documents()
+    def _get_documents(self):
+        if self._documents is not None:
+            return self._documents
+        self._documents = self.metadata.content['documents']
+        return self._documents
-    def __getattr__(self, name):
-        # Check if it's a fundamentals property request
-        if name.endswith('_fundamentals'):
-            category = name.replace('_fundamentals', '')
-            return self.parse_fundamentals(categories=[category])
+    def _get_documents_obj_list(self):
+        """Get all documents as Document objects"""
+        if hasattr(self, 'documents_obj_list'):
+            return self.documents_obj_list
-        # For any other unknown attribute, try it as a fundamentals category
-        # Let parse_fundamentals handle whether it's valid or not
-        result = self.parse_fundamentals(categories=[name])
-        if result is not None:
-            return result
+        # Generate documents_obj_list for batch tar and path cases
+        documents_obj_list = []
+        for idx in range(len(self.metadata.content['documents'])):
+            documents_obj_list.append(self._load_document_by_index(idx))
-        # Only raise AttributeError if parse_fundamentals returns None/empty
-        raise AttributeError(f"'{self.__class__.__name__}' object has no attribute '{name}'")
+        return documents_obj_list

datamule/submission/tar_submission.py ADDED Viewed

@@ -0,0 +1,79 @@
+import zstandard as zstd
+from secsgml.utils import calculate_documents_locations_in_tar
+import tarfile
+import io
+import json
+# Note: we don't actually need accession at this level. TODO
+def compress_content(content, compression_type, level):
+    if compression_type == 'zstd':
+        # Create compressor with specified level
+        compressor = zstd.ZstdCompressor(level=level)
+        # Handle string content
+        # This should never be called
+        if isinstance(content, str):
+            content_bytes = content.encode('utf-8')
+        else:
+            content_bytes = content
+        # Compress and return
+        return compressor.compress(content_bytes)
+    # Return uncompressed if not zstd
+    return content
+def compress_content_list(document_tuple_list, compression_type, level):
+    if compression_type is None:
+        return document_tuple_list
+    if level is None:
+        level = 3
+    # Create new list to avoid modifying original
+    compressed_list = []
+    for document_tuple in document_tuple_list:
+        content = document_tuple[0]
+        accession = document_tuple[1]
+        compressed_content = compress_content(content, compression_type, level)
+        compressed_list.append((compressed_content, accession))
+    return compressed_list
+def tar_content_list(metadata, document_tuple_list_compressed):
+    # Update metadata with compressed sizes
+    for i, (content, accession) in enumerate(document_tuple_list_compressed):
+        metadata['documents'][i]['secsgml_size_bytes'] = len(content)
+    metadata = calculate_documents_locations_in_tar(metadata)
+    tar_buffer = io.BytesIO()
+    with tarfile.open(fileobj=tar_buffer, mode='w') as tar:
+        # Add metadata first
+        metadata_json = json.dumps(metadata).encode('utf-8')
+        tarinfo = tarfile.TarInfo(f'metadata.json')
+        tarinfo.size = len(metadata_json)
+        tar.addfile(tarinfo, io.BytesIO(metadata_json))
+        # Add each content
+        for i, (content, accession) in enumerate(document_tuple_list_compressed):
+            doc = metadata['documents'][i]
+            filename = doc.get('filename', doc['sequence'] + '.txt')
+            tarinfo = tarfile.TarInfo(name=filename)
+            tarinfo.size = len(content)
+            tar.addfile(tarinfo, io.BytesIO(content))
+    # Return the tar buffer
+    tar_buffer.seek(0)  # Reset buffer position to beginning
+    return tar_buffer
+def tar_submission(metadata, documents_obj_list, compression_type=None, level=None):
+    """Takes a list of documents, compresses them, then tars them."""
+    document_tuple_list = [(doc.content, doc.accession) for doc in documents_obj_list]
+    document_tuple_list_compressed = compress_content_list(document_tuple_list,  # Fixed: correct parameter name
+                                                          compression_type=compression_type,
+                                                          level=level)
+    return tar_content_list(metadata, document_tuple_list_compressed)

datamule/tables/__init__.py ADDED Viewed

File without changes

{datamule-2.3.5.dist-info → datamule-2.3.7.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: datamule
-Version: 2.3.5
+Version: 2.3.7
 Summary: Work with SEC submissions at scale.
 Home-page: https://github.com/john-friedman/datamule-python
 Author: John Friedman

{datamule-2.3.5.dist-info → datamule-2.3.7.dist-info}/RECORD RENAMED Viewed

@@ -1,16 +1,13 @@
-datamule/__init__.py,sha256=gsWTW0emwGtM-KVtwe2OICVmW7ImvLvP0SORULTPe-Y,1220
+datamule/__init__.py,sha256=fy8h9IQQqSqOvRXJ6Q7Q-8nWwdnw2THP6puqfGkIB4k,1278
 datamule/config.py,sha256=Y--CVv7JcgrjJkMOSLrvm2S8B9ost6RMSkGviP-MKtg,883
 datamule/datasets.py,sha256=1A9PPPyLIQ51evXLSsiKmVxNmjbO6c2FGszrairREjc,2058
 datamule/helper.py,sha256=KqhAmTMdvATEh3I-O4xLcAcrHB9zXQERBuwzue7zyQw,3674
 datamule/index.py,sha256=Rrcna9FJV-Oh_K6O2IuUEIDmtay_7UZ4l4jgKCi7A7I,2079
 datamule/package_updater.py,sha256=Z9zaa_y0Z5cknpRn8oPea3gg4kquFHfpfhduKKCZ6NU,958
-datamule/portfolio.py,sha256=0-E1ZSEjJ8hba7HxF8oCrRneNuF_KKISOY6K4dRg0Cg,12282
-datamule/portfolio_compression_utils.py,sha256=8OPYEN5zAdV1FiTxgVN3S7cTKs99Elv74bwgoIJP4QY,12654
-datamule/sheet.py,sha256=KD7yAgSB8BE-Z4GDuH58IV-2DJ673nMcEsrCyJbeYp8,10707
-datamule/submission.py,sha256=phHmi9ScjWHtVLjEoEdAO7RieUSKN5gPr0onfg5R8wE,16139
 datamule/book/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/book/book.py,sha256=Vw33JHhmulNDWRN2AQpUQrf8wgVqqUYg5QJgbKhBNak,773
-datamule/book/s3transfer.py,sha256=4Zpw5daAH05u1dppv2ARXG_VSBIdsHnlEWC9xZgBfZM,12590
+datamule/book/s3transfer.py,sha256=arftLhYThLSGvmBSNnU2rNpkqiyvwAL32OVAKP4HOAQ,12596
+datamule/cloud/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/data/listed_filer_metadata.csv,sha256=dT9fQ8AC5P1-Udf_UF0ZkdXJ88jNxJb_tuhi5YYL1rc,2426827
 datamule/datamule/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/datamule/datamule_lookup.py,sha256=e8djAg-ctSyHiKk7BjbtgugZ3p8roUjzsym5z3AihUg,9468
@@ -18,22 +15,14 @@ datamule/datamule/datamule_mysql_rds.py,sha256=Q6_h24-SNECWK60RnM6UQjUIp5dhJmfn3
 datamule/datamule/downloader.py,sha256=Ss9mz0Jf5UAd-CZJ6oO96o9hN04xMQIF3-e1wahokdM,18581
 datamule/datamule/sec_connector.py,sha256=VwOaODpHoAWy8JIky6kLR1-orW_PB61RHw7pIGRpkow,3288
 datamule/document/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-datamule/document/document.py,sha256=ooTbMpB_cBeONhtic8bNE4ISWltQIxQz4LLuXcGe8xc,23015
-datamule/document/tables/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-datamule/document/tables/tables.py,sha256=Z3Eu6bdjiaNx4pgXlTMwk2Q-DhpMpEAygF2kJdp-Pu8,5722
-datamule/document/tables/tables_13fhr.py,sha256=-6tWcaTyNsb0XuW0WMBrYir9Zn1wLZL0laKxRYfPNyg,4265
-datamule/document/tables/tables_25nse.py,sha256=kpoOcIpra6i3Wx_6pUCj1fkx0wUbMhx7pc8yUkrBJb4,980
-datamule/document/tables/tables_informationtable.py,sha256=3yjuxYuLoBjRd6O0BNd0jQDmS1XUDjA6xp51Csq2cH8,649
-datamule/document/tables/tables_npx.py,sha256=tZDBAonAQWLsgecVK_OwIgNcUJhuV5L2gkTSNbXAgNE,6652
-datamule/document/tables/tables_ownership.py,sha256=pRoFFRGLWp8gKAAvvUbVRxIU2xDFAQhwi9bgwddsT8A,11185
-datamule/document/tables/tables_proxyvotingrecord.py,sha256=S_Th294-KWRL-QVXkexNWIksSaFePZGSVq6EU8iiK0o,896
-datamule/document/tables/tables_sbsef.py,sha256=X6VKVnAdWxn2TgRmaAd1WWlxPhcLPQ-53s0qDokkPI0,635
-datamule/document/tables/tables_sdr.py,sha256=BwHRJvtijiYvNJ2lIc_30kct6VEmLimIzX28JjZBBqo,4924
-datamule/document/tables/utils.py,sha256=2-X_1NsiWj_XsD9djxCXwTeIVlg-ip78gG11xACJiDs,738
+datamule/document/document.py,sha256=Oj_7OMIldWB9HxlBca2gqr5E8ykDQZkPuUlcZjGuzqw,23016
 datamule/mapping_dicts/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/mapping_dicts/html_mapping_dicts.py,sha256=pba3utMr2KldPeEGnMRkHyVw7D2WHSDpg_5u36pHMII,5411
 datamule/mapping_dicts/txt_mapping_dicts.py,sha256=DQPrGYbAPQxomRUtt4iiMGrwuF7BHc_LeFBQuYBzU9o,6311
 datamule/mapping_dicts/xml_mapping_dicts.py,sha256=Z22yDVwKYonUfM5foQP00dVDE8EHhhMKp0CLqVKV5OI,438
+datamule/portfolio/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datamule/portfolio/portfolio.py,sha256=YPIvS4KKuEtm8A1XvNqDF39f4LJHhAFWmtpJzjbGDhY,11680
+datamule/portfolio/portfolio_compression_utils_legacy.py,sha256=1nlbz7JfBDrI0pwTyFiBF856xqGXvQRYBulLUpk7G1A,12695
 datamule/sec/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/sec/utils.py,sha256=96bavyG2Kq1t8L1YA2vwYnAHKIKdRSoVXxBO5QH1HWo,2196
 datamule/sec/infrastructure/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -50,8 +39,23 @@ datamule/sec/xbrl/filter_xbrl.py,sha256=QiSfm7tsJVLIw2PFqGh8D01qsRe_ZB-mbFhr6KcB
 datamule/sec/xbrl/streamcompanyfacts.py,sha256=Qq88PqW5_j1k3Aqrl0KRmKeF54D6Wbb6H5N2tbvKUzM,3307
 datamule/sec/xbrl/xbrlmonitor.py,sha256=TKFVfSyyUUfUgFQw4WxEVs4g8Nh-2C0tygNIRmTqW3Y,5848
 datamule/seclibrary/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-datamule/seclibrary/bq.py,sha256=C8sb_rpXTvchprrFLcbRar4Qi0XWW25tnv1YsHSS5o4,18025
-datamule/sentiment/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datamule/seclibrary/bq.py,sha256=TOP0WA6agDKu4vE1eHd62NDpAc02LDDrOP-g1bJpxbw,18048
+datamule/sheet/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datamule/sheet/sheet.py,sha256=Dw979JGygS566N0Iwsvqk0h1s26GfbrIHDWiBaS2oH8,10711
+datamule/submission/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datamule/submission/submission.py,sha256=4UtdViw-h_4Rqt09SFe8-WWdLqaD55T3vqTUVRB0CsE,17058
+datamule/submission/tar_submission.py,sha256=lkm1neVLW2_-G26VylL6Rzx98Cavvml0Qd2wlJHD0bw,3075
+datamule/tables/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datamule/tables/tables.py,sha256=Z3Eu6bdjiaNx4pgXlTMwk2Q-DhpMpEAygF2kJdp-Pu8,5722
+datamule/tables/tables_13fhr.py,sha256=-6tWcaTyNsb0XuW0WMBrYir9Zn1wLZL0laKxRYfPNyg,4265
+datamule/tables/tables_25nse.py,sha256=kpoOcIpra6i3Wx_6pUCj1fkx0wUbMhx7pc8yUkrBJb4,980
+datamule/tables/tables_informationtable.py,sha256=3yjuxYuLoBjRd6O0BNd0jQDmS1XUDjA6xp51Csq2cH8,649
+datamule/tables/tables_npx.py,sha256=tZDBAonAQWLsgecVK_OwIgNcUJhuV5L2gkTSNbXAgNE,6652
+datamule/tables/tables_ownership.py,sha256=pRoFFRGLWp8gKAAvvUbVRxIU2xDFAQhwi9bgwddsT8A,11185
+datamule/tables/tables_proxyvotingrecord.py,sha256=S_Th294-KWRL-QVXkexNWIksSaFePZGSVq6EU8iiK0o,896
+datamule/tables/tables_sbsef.py,sha256=X6VKVnAdWxn2TgRmaAd1WWlxPhcLPQ-53s0qDokkPI0,635
+datamule/tables/tables_sdr.py,sha256=BwHRJvtijiYvNJ2lIc_30kct6VEmLimIzX28JjZBBqo,4924
+datamule/tables/utils.py,sha256=2-X_1NsiWj_XsD9djxCXwTeIVlg-ip78gG11xACJiDs,738
 datamule/tags/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/tags/config.py,sha256=rxawvOBDT2v72Aw-VkmnUOLsKSAIrZBrjz_E0hPU7MY,1677
 datamule/tags/dictionaries.py,sha256=1v2OoN1KnM3HbFHxATxe7LhVRoXe64ecRRgA3oak210,4587
@@ -61,7 +65,7 @@ datamule/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datamule/utils/construct_submissions_data.py,sha256=NB_hvfxlRXPyt4Fgc-5qA8vJRItkLhBedCSTaxwW7Jg,5887
 datamule/utils/format_accession.py,sha256=60RtqoNqoT9zSKVb1DeOv1gncJxzPTFMNW4SNOVmC_g,476
 datamule/utils/pdf.py,sha256=Z9xrdVhKex2YdvjYsaPaygRE_J6P_JNiUGkwflz2Hw0,735
-datamule-2.3.5.dist-info/METADATA,sha256=8KXiAyLcn5aVKF38N4H7fWYnooUPPkIujAfqoOr658k,609
-datamule-2.3.5.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
-datamule-2.3.5.dist-info/top_level.txt,sha256=iOfgmtSMFVyr7JGl_bYSTDry79JbmsG4p8zKq89ktKk,9
-datamule-2.3.5.dist-info/RECORD,,
+datamule-2.3.7.dist-info/METADATA,sha256=1Igs40zdVpr6XPH4s2ToG5EIyAsI1lpdA1yiuGUjsx4,609
+datamule-2.3.7.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
+datamule-2.3.7.dist-info/top_level.txt,sha256=iOfgmtSMFVyr7JGl_bYSTDry79JbmsG4p8zKq89ktKk,9
+datamule-2.3.7.dist-info/RECORD,,