PyPI - dataverse-utils - Versions diffs - 0.22.1__tar.gz → 0.22.3__tar.gz - Mend

dataverse-utils 0.22.1tar.gz → 0.22.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (22) hide show

{dataverse_utils-0.22.1 → dataverse_utils-0.22.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dataverse-utils
-Version: 0.22.1
+Version: 0.22.3
 Summary: Utilities for the Dataverse data respository system
 License: MIT
 License-File: LICENCE.md

{dataverse_utils-0.22.1 → dataverse_utils-0.22.3}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "dataverse-utils"
-version = "0.22.1"
+version = "0.22.3"
 description = "Utilities for the Dataverse data respository system"
 authors = [
     {name = "Paul Lesack",email = "paul.lesack@ubc.ca"}

{dataverse_utils-0.22.1 → dataverse_utils-0.22.3}/src/dataverse_utils/__init__.py RENAMED Viewed

@@ -7,7 +7,7 @@ import pathlib
 import sys
 from dataverse_utils.dataverse_utils import *
-VERSION = (0, 22, 1)
+VERSION = (0, 22, '3a1')
 __version__ = '.'.join([str(x) for x in VERSION])
 USERAGENT = (f'dataverse_utils/v{__version__} ({sys.platform.capitalize()}); '

{dataverse_utils-0.22.1 → dataverse_utils-0.22.3}/src/dataverse_utils/collections.py RENAMED Viewed

@@ -16,6 +16,7 @@ import traceback
 import warnings
 import bs4
+import charset_normalizer as cn
 import markdown_pdf
 import markdownify
 import pyreadstat
@@ -290,8 +291,10 @@ class StudyMetadata(dict):
                            f'Offending JSON: {self.study_meta}') from e
         self.__files = None
         self.__all_files = None
-        self.index = {f"{_['versionNumber']}.{_['versionMinorNumber']}": n
-                 for n, _ in enumerate(self.all_versions['data'])}
+        #self.index = {f"{_['versionNumber']}.{_['versionMinorNumber']}": n
+        #         for n, _ in enumerate(self.all_versions['data'])}
+        #self.index = {_: n for _, n in enumerate(self.versions)}
+        self.index = dict(enumerate(self.versions))
     def __obtain_metadata(self):
         '''
@@ -347,7 +350,10 @@ class StudyMetadata(dict):
             for field in v['fields']:
                 tmp.update(self.extract_field_metadata(field))
         tmp.update(self.__extract_licence_info(chunk))
-        tmp['versionStatement'] = f"{chunk['versionNumber']}.{chunk['versionMinorNumber']}"
+        if chunk.get('versionNumber'):
+            tmp['versionStatement'] = f"{chunk['versionNumber']}.{chunk['versionMinorNumber']}"
+        else:
+            tmp['versionStatement'] = f"{chunk.get('versionState', '')}"
         return tmp
     def extract_field_metadata(self, field):
@@ -440,8 +446,15 @@ class StudyMetadata(dict):
         '''
         Return a *list* of formatted version strings
         '''
-        return [f"{_['versionNumber']}.{_['versionMinorNumber']}"
-                         for _ in self.all_versions['data']]
+        out = []
+        for _ in self.all_versions['data']:
+            if _.get('versionNumber'):
+                out.append(f"{_['versionNumber']}.{_['versionMinorNumber']}")
+            else:
+                out.append(_['versionState'])
+        #return [f"{_['versionNumber']}.{_['versionMinorNumber']}"
+        #                 for _ in self.all_versions['data']]
+        return out
     @property
     def files(self)->list:
@@ -468,10 +481,8 @@ class StudyMetadata(dict):
                 filelist = self.extract_files(_.get('files', []))
                 for oldfile in filelist:
                     oldfile.update({k:v for k,v in _.items() if k in add_fields})
-                    version_statement = {'versionStatement':
-                                             f'{_["versionNumber"]}.{_["versionMinorNumber"]}'}
-                    oldfile.update(version_statement)
-                #all_files.extend(self.extract_files_2(_.get('files', [])))
+                    vs = _.get('versionNumber', _.get('versionState', ''))
+                    oldfile.update({'versionStatement' : vs})
                 all_files.extend(filelist)
             self.__all_files = all_files
         return self.__all_files
@@ -904,7 +915,8 @@ class ReadmeCreator:
                    'Country':'Country(ies)',
                    'State':'State(s)',
                    'City':'City(ies)',
-                   'Geographic Unit':'Geographic unit(s)'}
+                   'Geographic Unit':'Geographic unit(s)',
+                   'State(s)ment' : 'Statement'}
         for k, v in fixthese.items():
             wordsp = wordsp.replace(k, v)
         return wordsp.strip()
@@ -1250,6 +1262,14 @@ class FileAnalysis(dict):
         self.update(outmeta)
         return
+    def get_encoding(self, fpath):
+        '''
+        Return the encoding of a file so that pandas
+        won't crash. Hopefully.
+        fpath : str
+            file path
+        '''
     def generic_metadata(self, ext)->None:
         '''
@@ -1265,14 +1285,20 @@ class FileAnalysis(dict):
         #    data = pd.read_csv(self.__whichfile, sep='\t')
         #else:
         #    data = pd.read_csv(self.__whichfile)
+        encme = {'.tsv': {'sep': '\t'},
+                 '.csv': {}}
+        if ext.lower() in encme:
+            with open(self.__whichfile, 'rb') as f:
+                encoding = {'encoding':'utf-8'}
+                encoding.update({'encoding':cn.detect(f.read()).get('encoding', 'utf-8')})
+                encme[ext.lower()].update(encoding)
         lookuptable ={'.tsv': {'func': pd.read_csv,
-                                'kwargs' : {'sep':'\t'}},
-                        '.csv': {'func' : pd.read_csv},
-                        '.rda': {'func' : pyreadr.read_r},
+                                'kwargs' : encme['.tsv']},
+                      '.csv': {'func' : pd.read_csv, 'kwargs' : encme['.csv']},
+                      '.rda': {'func' : pyreadr.read_r},
                        '.rdata':{'func' : pyreadr.read_r}}
         data = lookuptable[ext]['func'](self.__whichfile,
-                                              **lookuptable[ext].get('kwargs', {}))
+                                                  **lookuptable[ext].get('kwargs', {}))
         if ext  in ['.rda', '.rdata']:
             data = data[None] #why pyreadr why
         outmeta = {}

{dataverse_utils-0.22.1 → dataverse_utils-0.22.3}/src/dataverse_utils/scripts/dv_collection_info.py RENAMED Viewed

@@ -207,7 +207,7 @@ def main():
     else:
         try:
             all_studies = [dvc.StudyMetadata(url=args.url, pid=args.pid, key=args.key)]
-        except dataverse_utils.collections.MetadataError as e:
+        except (KeyError, dataverse_utils.collections.MetadataError) as e:
             print(e, file=sys.stderr)
             sys.exit()
     #if 'all' in [x.lower() for x in args.fields] and args.collection:

{dataverse_utils-0.22.1 → dataverse_utils-0.22.3}/src/dataverse_utils/scripts/dv_readme_creator.py RENAMED Viewed

@@ -36,7 +36,7 @@ def parse() -> argparse.ArgumentParser():
                               'Defaults to "borealisdata.ca"'))
     parser.add_argument('-p', '--pid',
                         help=('Persistent ID of study (ie, doi or hdl). '
-                              'format: doi: doi:12.2345/PRE/ZYX9876'),
+                              'eg: doi:12.2345/PRE/ZYX9876'),
                         type=str,
                         required=True)
     parser.add_argument('-k', '--key', required=True,