PyPI - tsp - Versions diffs - 1.8.1__py3-none-any.whl → 1.10.2__py3-none-any.whl - Mend

tsp 1.8.1py3-none-any.whl → 1.10.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (127) hide show

tsp/__init__.py +11 -11
tsp/__meta__.py +1 -1
tsp/concatenation.py +159 -153
tsp/core.py +1306 -1162
tsp/data/2023-01-06_755-test-Dataset_2031-Constant_Over_Interval-Hourly-Ground_Temperature-Thermistor_Automated.timeserie.csv +4 -4
tsp/data/2023-01-06_755-test.metadata.txt +208 -208
tsp/data/NTGS_example_csv.csv +6 -6
tsp/data/NTGS_example_slash_dates.csv +6 -6
tsp/data/NTGS_gtr_example_excel.xlsx +0 -0
tsp/data/example_geotop.csv +5240 -5240
tsp/data/example_gtnp.csv +1298 -1298
tsp/data/example_permos.csv +7 -7
tsp/data/ntgs-db-multi.txt +3872 -0
tsp/data/ntgs-db-single.txt +2251 -0
tsp/data/test_geotop_has_space.txt +5 -5
tsp/data/tsp_format_long.csv +10 -0
tsp/data/tsp_format_wide_1.csv +7 -0
tsp/data/tsp_format_wide_2.csv +7 -0
tsp/dataloggers/AbstractReader.py +43 -43
tsp/dataloggers/FG2.py +110 -110
tsp/dataloggers/GP5W.py +114 -114
tsp/dataloggers/Geoprecision.py +34 -34
tsp/dataloggers/HOBO.py +930 -914
tsp/dataloggers/RBRXL800.py +190 -190
tsp/dataloggers/RBRXR420.py +371 -308
tsp/dataloggers/Vemco.py +84 -0
tsp/dataloggers/__init__.py +15 -15
tsp/dataloggers/logr.py +196 -115
tsp/dataloggers/test_files/004448.DAT +2543 -2543
tsp/dataloggers/test_files/004531.DAT +17106 -17106
tsp/dataloggers/test_files/004531.HEX +3587 -3587
tsp/dataloggers/test_files/004534.HEX +3587 -3587
tsp/dataloggers/test_files/010252.dat +1731 -1731
tsp/dataloggers/test_files/010252.hex +1739 -1739
tsp/dataloggers/test_files/010274.hex +1291 -1291
tsp/dataloggers/test_files/010278.hex +3544 -3544
tsp/dataloggers/test_files/012064.dat +1286 -1286
tsp/dataloggers/test_files/012064.hex +1294 -1294
tsp/dataloggers/test_files/012064_modified_start.hex +1294 -0
tsp/dataloggers/test_files/012081.hex +3532 -3532
tsp/dataloggers/test_files/013138_recovery_stamp.hex +1123 -0
tsp/dataloggers/test_files/014037-2007.hex +95 -0
tsp/dataloggers/test_files/019360_20160918_1146_SlumpIslandTopofHill.hex +11253 -0
tsp/dataloggers/test_files/019360_20160918_1146_SlumpIslandTopofHill.xls +0 -0
tsp/dataloggers/test_files/07B1592.DAT +1483 -1483
tsp/dataloggers/test_files/07B1592.HEX +1806 -1806
tsp/dataloggers/test_files/07B4450.DAT +2234 -2234
tsp/dataloggers/test_files/07B4450.HEX +2559 -2559
tsp/dataloggers/test_files/2022018_2025-09-18T22-16-16.txt +36 -0
tsp/dataloggers/test_files/2022018_2025-09-18T22-16-16_raw.csv +2074 -0
tsp/dataloggers/test_files/2022018_2025-09-18T22-16-16_temp.csv +2074 -0
tsp/dataloggers/test_files/2025004_2025-12-02T17-07-28_cfg.txt +30 -0
tsp/dataloggers/test_files/2025004_2025-12-02T17-07-28_raw.csv +35 -0
tsp/dataloggers/test_files/2025004_2025-12-02T17-07-28_temp.csv +35 -0
tsp/dataloggers/test_files/204087.xlsx +0 -0
tsp/dataloggers/test_files/Asc-1455As02.000 +2982 -0
tsp/dataloggers/test_files/Asc-1456As02.000 +2992 -0
tsp/dataloggers/test_files/Asc-1457As02.000 +2917 -0
tsp/dataloggers/test_files/BGC_BH15_019362_20140610_1253.hex +1729 -0
tsp/dataloggers/test_files/Bin2944.csv +759 -0
tsp/dataloggers/test_files/Bin5494.csv +2972 -0
tsp/dataloggers/test_files/Bin6786.csv +272 -0
tsp/dataloggers/test_files/FG2_399.csv +9881 -9881
tsp/dataloggers/test_files/GP5W.csv +1121 -1121
tsp/dataloggers/test_files/GP5W_260.csv +1884 -1884
tsp/dataloggers/test_files/GP5W_270.csv +2210 -2210
tsp/dataloggers/test_files/H08-030-08_HOBOware.csv +998 -998
tsp/dataloggers/test_files/Minilog-II-T_350763_20190711_1.csv +2075 -0
tsp/dataloggers/test_files/Minilog-II-T_350769_20190921_1.csv +6384 -0
tsp/dataloggers/test_files/Minilog-II-T_354284_20190921_1.csv +4712 -0
tsp/dataloggers/test_files/Minilog-T_7943_20140920_1.csv +5826 -0
tsp/dataloggers/test_files/Minilog-T_8979_20140806_1.csv +2954 -0
tsp/dataloggers/test_files/Minilog-T_975_20110824_1.csv +4343 -0
tsp/dataloggers/test_files/RBR_01.dat +1046 -1046
tsp/dataloggers/test_files/RBR_02.dat +2426 -2426
tsp/dataloggers/test_files/RI03b_062831_20240905_1801.rsk +0 -0
tsp/dataloggers/test_files/RI03b_062831_20240905_1801.xlsx +0 -0
tsp/dataloggers/test_files/RSTDT2055.csv +2152 -2152
tsp/dataloggers/test_files/U23-001_HOBOware.csv +1001 -1001
tsp/dataloggers/test_files/hobo-negative-2.txt +6396 -6396
tsp/dataloggers/test_files/hobo-negative-3.txt +5593 -5593
tsp/dataloggers/test_files/hobo-positive-number-1.txt +1000 -1000
tsp/dataloggers/test_files/hobo-positive-number-2.csv +1003 -1003
tsp/dataloggers/test_files/hobo-positive-number-3.csv +1133 -1133
tsp/dataloggers/test_files/hobo-positive-number-4.csv +1209 -1209
tsp/dataloggers/test_files/hobo2.csv +8702 -8702
tsp/dataloggers/test_files/hobo_1_AB.csv +21732 -21732
tsp/dataloggers/test_files/hobo_1_AB_Details.txt +133 -133
tsp/dataloggers/test_files/hobo_1_AB_classic.csv +4373 -4373
tsp/dataloggers/test_files/hobo_1_AB_defaults.csv +21732 -21732
tsp/dataloggers/test_files/hobo_1_AB_minimal.txt +1358 -1358
tsp/dataloggers/test_files/hobo_1_AB_var2.csv +3189 -3189
tsp/dataloggers/test_files/hobo_1_AB_var3.csv +2458 -2458
tsp/dataloggers/test_files/logR_ULogC16-32_1.csv +106 -106
tsp/dataloggers/test_files/logR_ULogC16-32_2.csv +100 -100
tsp/dataloggers/test_files/mon_3_Ta_2010-08-18_2013-02-08.txt +21724 -21724
tsp/dataloggers/test_files/rbr_001.dat +1133 -1133
tsp/dataloggers/test_files/rbr_001.hex +1139 -1139
tsp/dataloggers/test_files/rbr_001_no_comment.dat +1132 -1132
tsp/dataloggers/test_files/rbr_001_no_comment.hex +1138 -1138
tsp/dataloggers/test_files/rbr_002.dat +1179 -1179
tsp/dataloggers/test_files/rbr_002.hex +1185 -1185
tsp/dataloggers/test_files/rbr_003.hex +1292 -1292
tsp/dataloggers/test_files/rbr_xl_001.DAT +1105 -1105
tsp/dataloggers/test_files/rbr_xl_002.DAT +1126 -1126
tsp/dataloggers/test_files/rbr_xl_003.DAT +4622 -4622
tsp/dataloggers/test_files/rbr_xl_003.HEX +3587 -3587
tsp/gtnp.py +148 -148
tsp/labels.py +3 -3
tsp/misc.py +90 -90
tsp/physics.py +101 -101
tsp/plots/static.py +388 -374
tsp/readers.py +829 -548
tsp/standardization/__init__.py +0 -0
tsp/standardization/metadata.py +95 -0
tsp/standardization/metadata_ref.py +0 -0
tsp/standardization/validator.py +535 -0
tsp/time.py +45 -45
tsp/tspwarnings.py +27 -15
tsp/utils.py +131 -101
tsp/version.py +1 -1
{tsp-1.8.1.dist-info → tsp-1.10.2.dist-info}/METADATA +95 -86
tsp-1.10.2.dist-info/RECORD +132 -0
{tsp-1.8.1.dist-info → tsp-1.10.2.dist-info}/licenses/LICENSE +674 -674
{tsp-1.8.1.dist-info → tsp-1.10.2.dist-info}/top_level.txt +1 -0
tsp-1.8.1.dist-info/RECORD +0 -94
{tsp-1.8.1.dist-info → tsp-1.10.2.dist-info}/WHEEL +0 -0

tsp/dataloggers/RBRXR420.py CHANGED Viewed

@@ -1,308 +1,371 @@
-import sqlite3
-import pathlib
-import warnings
-import numpy as np
-import pandas as pd
-import datetime as dt
-try:
-    from pyrsktools import RSK
-except ModuleNotFoundError:
-    warnings.warn("Missing pyRSKtools library. .rsk files can not be imported.")
-from .AbstractReader import AbstractReader
-class RBRXR420(AbstractReader):
-    def read(self, file_path: str) -> "pd.DataFrame":
-        """
-        Parameters
-        ----------
-        file_path
-        Returns
-        -------
-        """
-        file_extention = pathlib.Path(file_path).suffix.lower()
-        if file_extention in [".dat", ".hex"]:
-            with open(file_path, "r") as f:
-                first_50 = [next(f) for i in range(50)]
-                for line_num in range(len(first_50)):
-                    if first_50[line_num].lower().startswith("logger start:"):
-                        header_length = line_num + 1
-                        break
-            with open(file_path, "r") as f:
-                header_lines = [next(f) for i in range(header_length)]
-                self._parse_meta(header_lines)
-                data_lines = f.readlines()
-                if file_extention == ".dat":
-                    line_num = 0
-                    for line_num in range(len(data_lines)):
-                        if data_lines[line_num] != "\n":
-                            split_line = data_lines[line_num].split()
-                        else:
-                            split_line = ["no data"]
-                        if split_line[0].lower() == "temp":
-                            break
-                    if line_num == len(data_lines) - 1:
-                        raise RuntimeError("No column names found")
-                    data_lines = data_lines[line_num:]
-                    first_line = data_lines[0].split()
-                    second_line = data_lines[1].split()
-                    if len(first_line) == len(second_line):
-                        self._read_standard_dat_format(data_lines[1:], False)
-                    elif len(first_line) + 2 == len(second_line):
-                        try:
-                            is_datetime = bool(dt.datetime.strptime(" ".join(second_line[:2]), "%Y/%m/%d %H:%M:%S"))
-                        except ValueError:
-                            is_datetime = False
-                        if is_datetime:
-                            self._read_standard_dat_format(data_lines[1:], True)
-                        else:
-                            raise RuntimeError("Error, expected date time with format %Y/%m/%d %H:%M:%S at start of"
-                                               "row.")
-                    else:
-                        raise RuntimeError("Error: Number of column names and number of columns do not match any"
-                                           "expected pattern.")
-                else:
-                    self._read_standard_hex_format(data_lines)
-        elif file_extention == ".xls":
-            self._read_standard_xls_format(file_path)
-        elif file_extention == ".xlsx":
-            self._read_standard_xlsx_format(file_path)
-        elif file_extention == ".rsk":
-            self._read_standard_rsk_format(file_path)
-        else:
-            raise IOError("Unrecognised file. File is not a .dat, .hex, .xls, .xlsx, or .rsk.")
-        return self.DATA
-    def _parse_meta(self, header_lines: list):
-        self.META["logger model"] = header_lines[0].split()[1]
-        self.META["logger SN"] = header_lines[0].split()[3]
-        sample_interval = dt.datetime.strptime(header_lines[5].split()[-1], "%H:%M:%S")
-        self.META["download date"] = dt.datetime.strptime(header_lines[1][14:31], "%y/%m/%d %H:%M:%S")
-        self.META["sample interval"] = dt.timedelta(hours=sample_interval.hour, minutes=sample_interval.minute,
-                                                    seconds=sample_interval.second)
-        self.META["logging start"] = dt.datetime.strptime(" ".join(header_lines[3].split()[-2:]),
-                                                          "%y/%m/%d %H:%M:%S")
-        line_7_info = header_lines[6].split(",")
-        self.META["num channels"] = int(line_7_info[0].split()[-1])
-        self.META["num samples"] = int(line_7_info[1].split()[-1])
-        formatting = header_lines[7].split("%")[1]
-        if formatting.endswith("\n"):
-            self.META["precision"] = int(formatting[-3])
-        else:
-            self.META["precision"] = int(formatting[-2])
-        self.META["calibration parameters"] = {}
-        calibration_start_line = 8
-        for i in range(self.META["num channels"]):
-            self.META["calibration parameters"][f"channel {i + 1}"] = {}
-            for j in range(4):
-                line_num = calibration_start_line + 4 * i + j
-                if header_lines[line_num].lower().startswith("calibration"):
-                    self.META["calibration parameters"][f"channel {i + 1}"][chr(ord("a") + j)]\
-                        = float(header_lines[line_num].split()[-1])
-                else:
-                    self.META["calibration parameters"][f"channel {i + 1}"][chr(ord("a") + j)] \
-                        = float(header_lines[line_num].split()[0])
-        self.META['raw'] = "".join(header_lines)
-        return
-    def _read_standard_dat_format(self, raw_data: list, time_stamps: bool = False):
-        """
-        Parameters
-        ----------
-        raw_data
-        line_numbers
-        Returns
-        -------
-        """
-        self.DATA = pd.DataFrame(columns=[f"channel {i + 1}" for i in range(self.META["num channels"])])
-        line_num = 0
-        for line in raw_data:
-            line_data = line.split()
-            if time_stamps:
-                self.DATA.loc[dt.datetime.strptime(" ".join(line_data[:2]), "%Y/%m/%d %H:%M:%S")] = line_data[2:]
-            else:
-                self.DATA.loc[self.META["logging start"] + self.META["sample interval"] * line_num] = line_data
-            line_num += 1
-        for col in self.DATA:
-            self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
-        self.DATA.reset_index(inplace=True)
-        self.DATA.rename(columns={"index": "TIME"}, inplace=True)
-        return
-    def _read_standard_hex_format(self, raw_data: list):
-        """
-        Parameters
-        ----------
-        raw_data
-        Returns
-        -------
-        """
-        for line_num in range(len(raw_data)):
-            if raw_data[line_num].lower().startswith("number of bytes of data"):
-                hex_header_length = line_num + 2
-                break
-            elif raw_data[line_num].lower().startswith("number of bytes in header"):
-                header_bytes = int(raw_data[line_num].split()[-1])
-        num_hex_header_values = int(header_bytes / 3)
-        hex_vals = []
-        raw_data = raw_data[hex_header_length:]
-        for line_num in range(len(raw_data)):
-            line = raw_data[line_num]
-            line_hex_vals = [line[i: i + 6] for i in range(0, len(line), 6)][:-1]
-            for hex_val in line_hex_vals:
-                hex_vals.append(hex_val)
-        hex_vals = hex_vals[num_hex_header_values:]
-        self.DATA = pd.DataFrame(columns=[f"channel {i + 1}" for i in range(self.META["num channels"])])
-        line_num = 0
-        hex_num = 0
-        for line in range(self.META["num samples"]):
-            line_time = self.META["logging start"] + self.META["sample interval"] * line_num
-            time_hex_vals = hex_vals[hex_num: hex_num + 8]
-            line_vals = [int(h, 16) / int("FFFFFF", 16) for h in time_hex_vals]
-            line_temps = []
-            for channel in range(len(line_vals)):
-                val = line_vals[channel]
-                if val not in [0, 1]:
-                    a = self.META["calibration parameters"][f"channel {channel + 1}"]["a"]
-                    b = self.META["calibration parameters"][f"channel {channel + 1}"]["b"]
-                    c = self.META["calibration parameters"][f"channel {channel + 1}"]["c"]
-                    d = self.META["calibration parameters"][f"channel {channel + 1}"]["d"]
-                    x = np.log((1 / val) - 1)
-                    temp = 1 / (a + b * x + c * x**2 + d * x**3) - 273.15
-                    line_temps.append(round(temp, self.META["precision"]))
-                else:
-                    line_temps.append(np.nan)
-            self.DATA.loc[line_time] = line_temps
-            line_num += 1
-            hex_num += 8
-        for col in self.DATA:
-            self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
-        self.DATA.reset_index(inplace=True)
-        self.DATA.rename(columns={"index": "TIME"}, inplace=True)
-        return
-    def _read_standard_xls_format(self, file_path: str):
-        xls = pd.ExcelFile(file_path)
-        sheet = xls.sheet_names[0]
-        xls.close()
-        raw_data = pd.read_excel(file_path, sheet, header=None)
-        raw_meta = raw_data.iloc[:5].copy()
-        if raw_meta.iloc[0, 0] != "RBR data file":
-            raise IOError("Not a valid .xls file")
-        meta = {}
-        for i, r in raw_meta.iterrows():
-            for j in range(0, len(r) - 1, 2):
-                if not pd.isna(raw_meta.iloc[i, j]):
-                    meta[raw_meta.iloc[i, j]] = raw_meta.iloc[i, j + 1]
-        self.META["logger model"] = meta["Model:"]
-        self.META["logger SN"] = meta["Serial Number:"]
-        self.META["sample interval"] = dt.timedelta(seconds=int(meta["Logging sampling period (s):"]))
-        self.META["logging start"] = dt.datetime.strptime(meta["Logging start time:"], "%Y/%m/%d")
-        column_names = {}
-        for col in raw_data:
-            if col == 0:
-                col_name = "TIME"
-            else:
-                col_name = f"channel {col}"
-            column_names[col] = col_name
-        self.DATA = raw_data.iloc[6:].copy()
-        self.DATA.reset_index(drop=True, inplace=True)
-        self.DATA.rename(columns=column_names, inplace=True)
-        for col in self.DATA:
-            if col == "TIME":
-                self.DATA["TIME"] = pd.to_datetime(self.DATA["TIME"], format="%d/%m/%Y %H:%M:%S.%f")
-            else:
-                self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
-        return
-    def _read_standard_xlsx_format(self, file_path: str):
-        meta_table = {"Instrument": pd.read_excel(file_path, sheet_name="Metadata", header=9, nrows=1),
-                      "Schedule": pd.read_excel(file_path, sheet_name="Metadata", header=24, nrows=1),
-                      "Sampling": pd.read_excel(file_path, sheet_name="Metadata", header=28, nrows=1)}
-        self.META["logger model"] = meta_table["Instrument"]["Model"].loc[0]
-        self.META["logger SN"] = meta_table["Instrument"]["Serial"].loc[0]
-        self.META["sample interval"] = dt.timedelta(seconds=int(meta_table["Sampling"]["Period"].loc[0]))
-        self.META["logging start"] = meta_table["Schedule"]["Start time"].loc[0]
-        self.DATA = pd.read_excel(file_path, sheet_name="Data", header=1)
-        column_names = {}
-        for col in self.DATA:
-            if col == "Time":
-                col_name = "TIME"
-            elif col == "Temperature":
-                col_name = "channel 1"
-            else:
-                col_name = f"channel {int(col.split('.')[-1]) + 1}"
-            column_names[col] = col_name
-        self.DATA.rename(columns=column_names, inplace=True)
-        for col in self.DATA:
-            if col == "TIME":
-                self.DATA["TIME"] = pd.to_datetime(self.DATA["TIME"], format="%Y-%m-%d %H:%M:%S.%f")
-            else:
-                self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
-        return
-    def _read_standard_rsk_format(self, file_path: str):
-        raw_meta = {}
-        try:
-            with RSK(file_path) as rsk:
-                rsk.open()
-                rsk.readdata()
-                rsk_data = rsk.data
-                raw_meta["calibration"] = rsk.calibrations
-                raw_meta["instrument"] = rsk.instrument
-                raw_meta["schedule"] = rsk.scheduleInfo
-                raw_meta["parameter key"] = rsk.parameterKeys
-                raw_meta["epoch"] = rsk.epoch
-        except NameError:
-            raise ModuleNotFoundError("You must install pyRSKtools")
-        except sqlite3.OperationalError:
-            raise RuntimeError("An error occurred when opening the .rsk file. Try opening the .rsk file in the ruskin\n"
-                               " software then rerunning the code.")
-        self.DATA = pd.DataFrame(rsk_data)
-        self.META["logger model"] = raw_meta["instrument"].model
-        self.META["logger SN"] = raw_meta["instrument"].serialID
-        self.META["sample interval"] = dt.timedelta(seconds=raw_meta["schedule"].samplingPeriod/1000)
-        self.META["logging start"] = raw_meta["epoch"].startTime
-        self.META["utc offset"] = [int(float(element.value) * 3600) for element in raw_meta["parameter key"]
-                                   if element.key == "OFFSET_FROM_UTC"][0]
-        self.META["calibration parameters"] = {}
-        for cal in raw_meta["calibration"]:
-            self.META["calibration parameters"][f"channel {cal.channelOrder}"] = {}
-            self.META["calibration parameters"][f"channel {cal.channelOrder}"]["a"] = cal.c[0]
-            self.META["calibration parameters"][f"channel {cal.channelOrder}"]["b"] = cal.c[1]
-            self.META["calibration parameters"][f"channel {cal.channelOrder}"]["c"] = cal.c[2]
-            self.META["calibration parameters"][f"channel {cal.channelOrder}"]["d"] = cal.c[3]
-        column_names = {}
-        for col in self.DATA:
-            if col == "timestamp":
-                col_name = "TIME"
-            elif col == "temperature":
-                col_name = "channel 1"
-            else:
-                col_name = f"channel {int(col[-1]) + 1}"
-            column_names[col] = col_name
-        self.DATA.rename(columns=column_names, inplace=True)
-        return
+import sqlite3
+import re
+import pathlib
+import warnings
+import numpy as np
+import pandas as pd
+import datetime as dt
+from copy import deepcopy
+try:
+    from pyrsktools import RSK
+except ModuleNotFoundError:
+    warnings.warn("Missing pyRSKtools library. .rsk files can not be imported.")
+from .AbstractReader import AbstractReader
+class RBRXR420(AbstractReader):
+    def read(self, file_path: str) -> "pd.DataFrame":
+        """
+        Parameters
+        ----------
+        file_path
+        Returns
+        -------
+        """
+        file_extention = pathlib.Path(file_path).suffix.lower()
+        if file_extention in [".dat", ".hex"]:
+            with open(file_path, "r") as f:
+                num_lines = len(f.readlines())
+            with open(file_path, "r") as f:
+                first_75 = [next(f) for i in range(min([75, num_lines]))]
+                for line_num in range(len(first_75)):
+                    if first_75[line_num].lower().startswith("logger start:"):
+                        header_length = line_num + 1
+                        break
+            with open(file_path, "r") as f:
+                header_lines = [next(f) for i in range(header_length)]
+                self._parse_meta(header_lines)
+                data_lines = f.readlines()
+                if file_extention == ".dat":
+                    line_num = 0
+                    for line_num in range(len(data_lines)):
+                        if data_lines[line_num] != "\n":
+                            split_line = data_lines[line_num].split()
+                        else:
+                            split_line = ["no data"]
+                        if split_line[0].lower() == "temp":
+                            break
+                    if line_num == len(data_lines) - 1:
+                        raise RuntimeError("No column names found")
+                    data_lines = data_lines[line_num:]
+                    first_line = data_lines[0].split()
+                    second_line = data_lines[1].split()
+                    if len(first_line) == len(second_line):
+                        self._read_standard_dat_format(data_lines[1:], False)
+                    elif len(first_line) + 2 == len(second_line):
+                        try:
+                            is_datetime = bool(dt.datetime.strptime(" ".join(second_line[:2]), "%Y/%m/%d %H:%M:%S"))
+                        except ValueError:
+                            is_datetime = False
+                        if is_datetime:
+                            self._read_standard_dat_format(data_lines[1:], True)
+                        else:
+                            raise RuntimeError("Error, expected date time with format %Y/%m/%d %H:%M:%S at start of"
+                                               "row.")
+                    else:
+                        raise RuntimeError("Error: Number of column names and number of columns do not match any"
+                                           "expected pattern.")
+                else:
+                    self._read_standard_hex_format(data_lines)
+        elif file_extention == ".xls":
+            self._read_standard_xls_format(file_path)
+        elif file_extention == ".xlsx":
+            self._read_standard_xlsx_format(file_path)
+        elif file_extention == ".rsk":
+            self._read_standard_rsk_format(file_path)
+        else:
+            raise IOError("Unrecognised file. File is not a .dat, .hex, .xls, .xlsx, or .rsk.")
+        return self.DATA
+    def _parse_meta(self, header_lines: list):
+        self.META["logger_model"] = header_lines[0].split()[1]
+        self.META["logger_sn"] = header_lines[0].split()[3]
+        sample_interval = dt.datetime.strptime(header_lines[5].split()[-1], "%H:%M:%S")
+        self.META["download_date"] = dt.datetime.strptime(header_lines[1][14:31], "%y/%m/%d %H:%M:%S")
+        self.META["sample_interval"] = dt.timedelta(hours=sample_interval.hour, minutes=sample_interval.minute,
+                                                    seconds=sample_interval.second)
+        self.META["logging_start"] = dt.datetime.strptime(" ".join(header_lines[3].split()[-2:]),
+                                                          "%y/%m/%d %H:%M:%S")
+        line_7_info = header_lines[6].split(",")
+        self.META["num_channels"] = int(line_7_info[0].split()[-1])
+        self.META["num_samples"] = int(line_7_info[1].split()[-1])
+        formatting = header_lines[7].split("%")[1]
+        if formatting.endswith("\n"):
+            self.META["precision"] = int(formatting[-3])
+        else:
+            self.META["precision"] = int(formatting[-2])
+        self.META["calibration_parameters"] = {}
+        calibration_start_line = 8
+        for i in range(self.META["num_channels"]):
+            self.META["calibration_parameters"][f"channel_{i + 1}"] = {}
+            for j in range(4):
+                line_num = calibration_start_line + 4 * i + j
+                if header_lines[line_num].lower().startswith("calibration"):
+                    self.META["calibration_parameters"][f"channel_{i + 1}"][chr(ord("a") + j)] \
+                        = float(header_lines[line_num].split()[-1])
+                else:
+                    self.META["calibration_parameters"][f"channel_{i + 1}"][chr(ord("a") + j)] \
+                        = float(header_lines[line_num].split()[0])
+        self.META['raw'] = "".join(header_lines)
+        self.META["internal_log"] = []
+        return
+    def _read_standard_dat_format(self, raw_data: list, time_stamps: bool = False):
+        """
+        Parameters
+        ----------
+        raw_data
+        line_numbers
+        Returns
+        -------
+        """
+        self.DATA = pd.DataFrame(columns=[f"channel_{i + 1}" for i in range(self.META["num_channels"])])
+        line_num = 0
+        for line in raw_data:
+            line_data = line.split()
+            if time_stamps:
+                self.DATA.loc[dt.datetime.strptime(" ".join(line_data[:2]), "%Y/%m/%d %H:%M:%S")] = line_data[2:]
+            else:
+                self.DATA.loc[self.META["logging_start"] + self.META["sample_interval"] * line_num] = line_data
+            line_num += 1
+        for col in self.DATA:
+            self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
+        self.DATA.reset_index(inplace=True)
+        self.DATA.rename(columns={"index": "TIME"}, inplace=True)
+        return
+    def _read_standard_hex_format(self, raw_data: list):
+        """
+        Parameters
+        ----------
+        raw_data
+        Returns
+        -------
+        """
+        log_line_numbers = []
+        for line_num in range(len(raw_data)):
+            if raw_data[line_num].lower().startswith("number of bytes of data"):
+                hex_header_length = line_num + 2
+                break
+            elif raw_data[line_num].lower().startswith("number of bytes in header"):
+                header_bytes = int(raw_data[line_num].split()[-1])
+            elif raw_data[line_num].lower().startswith(" ") or raw_data[line_num].lower().startswith("\n"):
+                pass
+            elif raw_data[line_num].lower().startswith("extended data range"):
+                self.META["extended data range"] = raw_data[line_num].split()[-1]
+            else:
+                raw_log = raw_data[line_num][:-1]
+                time_stamp_regex = re.search(r"\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2}", raw_log)
+                time_stamp = time_stamp_regex.group(0)
+                # action = raw_log[:time_stamp_regex.start() - 1]
+                sample_num = int(re.search(r"\d+", raw_log[time_stamp_regex.end():]).group(0))
+                action_type = re.search(": .+", raw_log).group(0)[2:]
+                self.META["internal_log"].append({"timestamp": time_stamp, "sample_num": sample_num,
+                                                  "action": action_type})
+                log_line_numbers.append(sample_num)
+        num_hex_header_values = int(header_bytes / 3)
+        hex_vals = []
+        raw_data = raw_data[hex_header_length:]
+        for line_num in range(len(raw_data)):
+            line = raw_data[line_num].replace(" ", "")
+            line_hex_vals = [line[i: i + 6] for i in range(0, len(line), 6)][:-1]
+            for hex_val in line_hex_vals:
+                hex_vals.append(hex_val)
+        hex_vals = hex_vals[num_hex_header_values:]
+        self.DATA = pd.DataFrame(columns=[f"channel_{i + 1}" for i in range(self.META["num_channels"])])
+        line_num = 0
+        hex_num = 0
+        reference_time = deepcopy(self.META["logging_start"])
+        interval_num = 0
+        for line in range(self.META["num_samples"]):
+            if line_num + 1 not in log_line_numbers:
+                line_time = reference_time + self.META["sample_interval"] * interval_num
+            else:
+                log_records = [ele for ele in self.META["internal_log"] if ele["sample_num"] == line_num + 1]
+                for ele in log_records:
+                    if ele["action"] in ["TIME STAMP", "RTC STAMP"]:
+                        line_time = dt.datetime.strptime(ele["timestamp"], "%Y/%m/%d %H:%M:%S")
+                        interval_num = 0
+                        reference_time = line_time
+                        hex_num += 4
+                    elif ele["action"] == "RECOVERY STAMP":
+                        if ele["sample_num"] != self.META["num_samples"]:
+                            raise RuntimeError("Recovery stamp logged part way through data. Logger may have been "
+                                               "reset then continued logging. Open file in RBR software and "
+                                               "investigate.")
+                    else:
+                        warnings.warn(f"{ele}")
+            time_hex_vals = hex_vals[hex_num: hex_num + 8]
+            line_vals = [int(h, 16) / int("FFFFFF", 16) for h in time_hex_vals]
+            line_temps = []
+            for channel in range(len(line_vals)):
+                val = line_vals[channel]
+                if val not in [0, 1]:
+                    a = self.META["calibration_parameters"][f"channel_{channel + 1}"]["a"]
+                    b = self.META["calibration_parameters"][f"channel_{channel + 1}"]["b"]
+                    c = self.META["calibration_parameters"][f"channel_{channel + 1}"]["c"]
+                    d = self.META["calibration_parameters"][f"channel_{channel + 1}"]["d"]
+                    x = np.log((1 / val) - 1)
+                    temp = 1 / (a + b * x + c * x ** 2 + d * x ** 3) - 273.15
+                    line_temps.append(round(temp, self.META["precision"]))
+                else:
+                    line_temps.append(np.nan)
+            self.DATA.loc[line_time] = line_temps
+            line_num += 1
+            interval_num += 1
+            hex_num += 8
+        for col in self.DATA:
+            self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
+        self.DATA.reset_index(inplace=True)
+        self.DATA.rename(columns={"index": "TIME"}, inplace=True)
+        return
+    def _read_standard_xls_format(self, file_path: str):
+        xls = pd.ExcelFile(file_path)
+        sheet = xls.sheet_names[0]
+        xls.close()
+        raw_data = pd.read_excel(file_path, sheet, header=None)
+        raw_meta = raw_data.iloc[:5].copy()
+        if raw_meta.iloc[0, 0] != "RBR data file":
+            raise IOError("Not a valid .xls file")
+        meta = {}
+        for i, r in raw_meta.iterrows():
+            for j in range(0, len(r) - 1, 2):
+                if not pd.isna(raw_meta.iloc[i, j]):
+                    meta[raw_meta.iloc[i, j]] = raw_meta.iloc[i, j + 1]
+        self.META["logger_model"] = meta["Model:"]
+        self.META["logger_sn"] = meta["Serial Number:"]
+        self.META["sample_interval"] = dt.timedelta(seconds=int(meta["Logging sampling period (s):"]))
+        self.META["logging_start"] = dt.datetime.strptime(meta["Logging start time:"], "%Y/%m/%d")
+        column_names = {}
+        for col in raw_data:
+            if col == 0:
+                col_name = "TIME"
+            else:
+                col_name = f"channel_{col}"
+            column_names[col] = col_name
+        self.DATA = raw_data.iloc[6:].copy()
+        self.DATA.reset_index(drop=True, inplace=True)
+        self.DATA.rename(columns=column_names, inplace=True)
+        for col in self.DATA:
+            if col == "TIME":
+                self.DATA["TIME"] = pd.to_datetime(self.DATA["TIME"], format="%d/%m/%Y %H:%M:%S.%f")
+            else:
+                self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
+        return
+    def _read_standard_xlsx_format(self, file_path: str):
+        with warnings.catch_warnings():
+            warnings.simplefilter("ignore")
+            version = pd.read_excel(file_path, sheet_name="Metadata", header=1, nrows=1)
+        known_formats = {"2.7.3": [9, 24, 28, 5], "2.19.1": [12, 62, 66, 5]}
+        meta_table = None
+        for k, v in known_formats.items():
+            try:
+                with warnings.catch_warnings():
+                    warnings.simplefilter("ignore")
+                    mt = {"Instrument": pd.read_excel(file_path, sheet_name="Metadata", header=v[0], nrows=1),
+                          "Schedule": pd.read_excel(file_path, sheet_name="Metadata", header=v[1], nrows=1),
+                          "Sampling": pd.read_excel(file_path, sheet_name="Metadata", header=v[2], nrows=1),
+                          "Export": pd.read_excel(file_path, sheet_name="Metadata", header=v[3], nrows=1)}
+            except:
+                pass
+            else:
+                if "Model" in mt["Instrument"]:
+                    meta_table = mt
+                    print(f"RBR xlsx version {version.loc[0, 'Ruskin']} read as version {k}")
+                    break
+        if meta_table is None:
+            raise ValueError(f"Unrecognized formatting (version {version.loc[0, 'Ruskin']}). this code has been tested "
+                             f"on v1.12.1, v2.7.3, and v2.19.1")
+        self.META["logger_model"] = meta_table["Instrument"]["Model"].loc[0]
+        self.META["logger_sn"] = meta_table["Instrument"]["Serial"].loc[0]
+        self.META["sample_interval"] = dt.timedelta(seconds=int(meta_table["Sampling"]["Period"].loc[0]))
+        self.META["logging_start"] = meta_table["Schedule"]["Start time"].loc[0]
+        self.META["download_date"] = meta_table["Export"].loc[0, "Export Time"]
+        with warnings.catch_warnings():
+            warnings.simplefilter("ignore")
+            self.DATA = pd.read_excel(file_path, sheet_name="Data", header=1)
+        column_names = {}
+        for col in self.DATA:
+            if col == "Time":
+                col_name = "TIME"
+            elif col == "Temperature":
+                col_name = "channel_1"
+            else:
+                col_name = f"channel_{int(col.split('.')[-1]) + 1}"
+            column_names[col] = col_name
+        self.DATA.rename(columns=column_names, inplace=True)
+        for col in self.DATA:
+            if col == "TIME":
+                self.DATA["TIME"] = pd.to_datetime(self.DATA["TIME"], format="%Y-%m-%d %H:%M:%S.%f")
+            else:
+                self.DATA[col] = pd.to_numeric(self.DATA[col], errors='coerce')
+        return
+    def _read_standard_rsk_format(self, file_path: str):
+        raw_meta = {}
+        try:
+            with RSK(file_path) as rsk:
+                rsk.open()
+                rsk.readdata()
+                rsk_data = rsk.data
+                raw_meta["calibration"] = rsk.calibrations
+                raw_meta["deployment"] = rsk.deployment
+                raw_meta["instrument"] = rsk.instrument
+                raw_meta["schedule"] = rsk.scheduleInfo
+                raw_meta["parameter key"] = rsk.parameterKeys
+                raw_meta["epoch"] = rsk.epoch
+        except NameError:
+            raise ModuleNotFoundError("You must install pyRSKtools")
+        except sqlite3.OperationalError:
+            raise RuntimeError("An error occurred when opening the .rsk file. Try opening the .rsk file in the ruskin\n"
+                               " software then rerunning the code.")
+        self.DATA = pd.DataFrame(rsk_data)
+        self.META["logger_model"] = raw_meta["instrument"].model
+        self.META["logger_sn"] = str(raw_meta["instrument"].serialID)
+        self.META["download_date"] = raw_meta["deployment"].timeOfDownload.astype(dt.datetime)
+        self.META["sample_interval"] = dt.timedelta(seconds=raw_meta["schedule"].samplingPeriod / 1000)
+        self.META["logging_start"] = raw_meta["epoch"].startTime
+        utc_offset = [element.value for element in raw_meta["parameter key"] if element.key == "OFFSET_FROM_UTC"][0]
+        if pd.notna(utc_offset) and str(utc_offset).lower() != "nan":
+            self.META["utc_offset"] = int(round(float(utc_offset) * 3600, 0))
+        self.META["calibration_parameters"] = {}
+        for cal in raw_meta["calibration"]:
+            self.META["calibration_parameters"][f"channel_{cal.channelOrder}"] = {}
+            self.META["calibration_parameters"][f"channel_{cal.channelOrder}"]["a"] = cal.c[0]
+            self.META["calibration_parameters"][f"channel_{cal.channelOrder}"]["b"] = cal.c[1]
+            self.META["calibration_parameters"][f"channel_{cal.channelOrder}"]["c"] = cal.c[2]
+            self.META["calibration_parameters"][f"channel_{cal.channelOrder}"]["d"] = cal.c[3]
+        column_names = {}
+        for col in self.DATA:
+            if col == "timestamp":
+                col_name = "TIME"
+            elif col == "temperature":
+                col_name = "channel_1"
+            else:
+                col_name = f"channel_{int(col[-1]) + 1}"
+            column_names[col] = col_name
+        self.DATA.rename(columns=column_names, inplace=True)
+        return

tsp 1.8.1__py3-none-any.whl → 1.10.2__py3-none-any.whl

tsp 1.8.1py3-none-any.whl → 1.10.2py3-none-any.whl