PyPI - sinapsis-data-readers - Versions diffs - 0.1.12__tar.gz → 0.1.14__tar.gz - Mend

sinapsis-data-readers 0.1.12tar.gz → 0.1.14tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

{sinapsis_data_readers-0.1.12/src/sinapsis_data_readers.egg-info → sinapsis_data_readers-0.1.14}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: sinapsis-data-readers
-Version: 0.1.12
+Version: 0.1.14
 Summary: Templates to read data in different formats
 Author-email: SinapsisAI <dev@sinapsis.tech>
 Project-URL: Homepage, https://sinapsis.tech

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "sinapsis-data-readers"
-version = "0.1.12"
+version = "0.1.14"
 description = "Templates to read data in different formats"
 authors = [{ name = "SinapsisAI", email = "dev@sinapsis.tech" }]

sinapsis_data_readers-0.1.14/src/sinapsis_data_readers/helpers/csv_reader.py ADDED Viewed

@@ -0,0 +1,22 @@
+# -*- coding: utf-8 -*-
+import pandas as pd
+def read_file(file: str) -> pd.DataFrame:
+    """
+    Reads a CSV file and returns its contents as a pandas DataFrame.
+    Args:
+        file (str): The path to the CSV file to be read.
+    Returns:
+        pd.DataFrame: The data from the CSV file as a pandas DataFrame.
+    Raises:
+        ValueError: If the file does not have a .csv extension.
+    """
+    if not file.endswith("csv"):
+        raise ValueError("The file must have a .csv extension.")
+    data = pd.read_csv(file, header=0)
+    return data

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/helpers/sklearn_dataset_subset.py RENAMED Viewed

@@ -6,10 +6,22 @@ from sklearn import datasets
 _sklearn_supported_loaders = {
     name: getattr(datasets, name) for name in dir(datasets) if name.startswith(("load", "fetch"))
 }
+excluded_loaders = [
+    "fetch_lfw_pairs",
+    "fetch_20newsgroups",
+    "fetch_20newgroups_vectorized",
+    "load_sample_images",
+    "load_sample_image",
+    "load_svmlight_file",
+    "load_svmlight_files",
+    "fetch_rcv1",
+    "fetch_species_distribution",
+    "fetch_file",
+]
 def __getattr__(name: str) -> Callable:
-    if name in _sklearn_supported_loaders:
+    if name in _sklearn_supported_loaders and name not in excluded_loaders:
         return _sklearn_supported_loaders[name]
     raise AttributeError(f"Function `{name}` not found in sklearn.datasets.")

sinapsis_data_readers-0.1.14/src/sinapsis_data_readers/helpers/sktime_datasets_subset.py ADDED Viewed

@@ -0,0 +1,24 @@
+# -*- coding: utf-8 -*-
+""" Excluded sktime loaders"""
+from typing import Callable
+from sktime import datasets
+class_datasets = [
+"Airline",
+"Longley",
+"Lynx",
+"Macroeconomic",
+"ShampooSales",
+"Solar",
+"USChange"
+]
+def __getattr__(name: str) -> Callable:
+    if name in class_datasets:
+        return getattr(datasets, name)
+    raise AttributeError(f"Class `{name}` not found in sktime.datasets.")
+__all__ = class_datasets

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/__init__.py RENAMED Viewed

@@ -10,6 +10,7 @@ _template_lookup = {
     "AudioReaderPydub": f"{_root_lib_path}.audio_readers.audio_reader_pydub",
     "AudioReaderSoundfile": f"{_root_lib_path}.audio_readers.audio_reader_soundfile",
     "AudioReaderToBytes": f"{_root_lib_path}.audio_readers.audio_reader_to_bytes",
+    "CSVDatasetReader": f"{_root_lib_path}.datasets_readers.csv_datasets",
     "CSVImageDataset": f"{_root_lib_path}.image_readers.csv_dataset_reader",
     "CocoDetectionDatasetCV2": f"{_root_lib_path}.image_readers.coco_dataset_reader",
     "CocoKeypointsDatasetCV2": f"{_root_lib_path}.image_readers.coco_dataset_reader",
@@ -19,7 +20,6 @@ _template_lookup = {
     "ExecuteNTimesLazyAudioReaderPydub": f"{_root_lib_path}.audio_readers.audio_reader_pydub",
     "ExecuteNTimesLazyAudioReaderSoundfile": f"{_root_lib_path}.audio_readers.audio_reader_soundfile",
     "FolderImageDatasetCV2": f"{_root_lib_path}.image_readers.image_folder_reader_cv2",
-    "FolderImageDatasetKornia": f"{_root_lib_path}.image_readers.image_folder_reader_kornia",
     "ImageDatasetSplitter": f"{_root_lib_path}.datasets_readers.dataset_splitter",
     "LazyAudioReaderPydub": f"{_root_lib_path}.audio_readers.audio_reader_pydub",
     "LazyAudioReaderSoundfile": f"{_root_lib_path}.audio_readers.audio_reader_soundfile",

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/audio_readers/audio_reader_pydub.py RENAMED Viewed

@@ -134,6 +134,10 @@ class LazyAudioReaderPydub(AudioReaderPydub):
             from_bytes: False
     """
+    class AttributesBaseModel(AudioReaderPydub.AttributesBaseModel):
+        generic_key: str
+        audio_file_path: str | None = None  # type:ignore[assignment]
     def get_file_path_from_generic_data(self, container: DataContainer) -> None:
         """Method to retrieve the file path from the genetic data field of DataContainer.
         The method extracts the file path from the generic field and sets as attribute
@@ -141,8 +145,12 @@ class LazyAudioReaderPydub(AudioReaderPydub):
         Args:
             container (DataContainer): The DataContainer to extract the file path from
         """
-        file_path = container.generic_data.get("audio_path", "")
-        self.attributes.audio_file_path = file_path
+        if self.attributes.generic_key:
+            file_path = self._get_generic_data(container, self.attributes.generic_key)
+            if file_path:
+                self.attributes.audio_file_path = file_path
+            else:
+                self.logger.warning("No audio path in the existing container")
     def execute(self, container: DataContainer) -> DataContainer:
         self.get_file_path_from_generic_data(container)

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/audio_readers/audio_reader_soundfile.py RENAMED Viewed

@@ -110,6 +110,10 @@ class LazyAudioReaderSoundfile(AudioReaderSoundfile):
             from_bytes: true
     """
+    class AttributesBaseModel(_AudioBaseReader.AttributesBaseModel):
+        generic_key: str
+        audio_file_path: str | None = None  # type:ignore[assignment]
     def get_file_path_from_generic_data(self, container: DataContainer) -> None:
         """Method to retrieve the file path from the genetic data field of DataContainer.
         The method extracts the file path from the generic field and sets as attribute
@@ -117,8 +121,12 @@ class LazyAudioReaderSoundfile(AudioReaderSoundfile):
         Args:
             container (DataContainer): The DataContainer to extract the file path from
         """
-        file_path = container.generic_data["audio_path"]
-        self.attributes.audio_file_path = file_path
+        if self.attributes.generic_key:
+            file_path = self._get_generic_data(container, self.attributes.generic_key)
+            if file_path:
+                self.attributes.audio_file_path = file_path
+            else:
+                self.logger.warning("No audio path in the existing container")
     def execute(self, container: DataContainer) -> DataContainer:
         self.get_file_path_from_generic_data(container)

sinapsis_data_readers-0.1.14/src/sinapsis_data_readers/templates/datasets_readers/csv_datasets.py ADDED Viewed

@@ -0,0 +1,26 @@
+# -*- coding: utf-8 -*-
+from sinapsis_core.data_containers.data_packet import DataContainer, TextPacket, TimeSeriesPacket
+from sinapsis_core.template_base.base_models import TemplateAttributes, TemplateAttributeType
+from sinapsis_core.template_base.template import Template
+from sinapsis_data_readers.helpers.csv_reader import read_file
+class CSVDatasetReader(Template):
+    class AttributesBaseModel(TemplateAttributes):
+        path_to_csv: str
+        store_as_time_series: bool = False
+        store_as_text_packet: bool = True
+    def __init__(self, attributes: TemplateAttributeType) -> None:
+        super().__init__(attributes)
+        self.csv_file = read_file(self.attributes.path_to_csv)
+    def execute(self, container: DataContainer) -> DataContainer:
+        if self.attributes.store_as_time_series:
+            packet = TimeSeriesPacket(content=self.csv_file)
+            container.time_series.append(packet)
+        if self.attributes.store_as_text_packet:
+            packet = TextPacket(content=self.csv_file)
+            container.texts.append(packet)
+        return container

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/datasets_readers/dataset_splitter.py RENAMED Viewed

@@ -11,7 +11,7 @@ from sinapsis_core.template_base.base_models import TemplateAttributes
 from sklearn.model_selection import train_test_split
 ArrayDataFrameType = Union[list[np.ndarray], pd.DataFrame]
-StringDataFrameType = Union[list[str], pd.DataFrame]
+StringDataFrameType = Union[list[str | int], pd.DataFrame]
 OptionalArrayDataFrameType = Union[ArrayDataFrameType, None]
 OptionalStringDataFrameType = Union[StringDataFrameType, None]
@@ -30,9 +30,9 @@ class ImageDatasetSplit(BaseModel):
     """
     x_train: list[np.ndarray] = []
-    y_train: list[str] = []
+    y_train: list[str | int] = []
     x_test: list[np.ndarray] | None = None
-    y_test: list[str] | None = None
+    y_test: list[str | int] | None = None
     class Config:
         """allow arbitrary types"""
@@ -93,7 +93,11 @@ class DatasetSplitterBase(Template):
         x_train, x_test, y_train, y_test = x_data, None, y_data, None
         if self.attributes.train_size:
             x_train, x_test, y_train, y_test = train_test_split(
-                x_data, y_data, train_size=self.attributes.train_size, random_state=0
+                x_data,
+                y_data,
+                train_size=self.attributes.train_size,
+                test_size=1 - self.attributes.train_size,
+                random_state=0,
             )
         split_dataset = self.return_data_splitter_object(x_train=x_train, y_train=y_train, x_test=x_test, y_test=y_test)
         return split_dataset
@@ -126,7 +130,9 @@ class DatasetSplitterBase(Template):
         if not packet:
             self.logger.debug("No data to be processed by dataset splitter")
             return container
+        if len(packet) == 1:
+            self.logger.debug("Not enough entries to divide dataset, returning original container")
+            return container
         x_data, y_data = self.extract_x_y_from_packet(packet)
         custom_dataset = self.store_data_in_data_splitter(x_data, y_data)

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/datasets_readers/sklearn_datasets.py RENAMED Viewed

@@ -1,5 +1,6 @@
 # -*- coding: utf-8 -*-
+import numpy as np
 import pandas as pd
 from sinapsis_core.data_containers.data_packet import DataContainer, TimeSeriesPacket
 from sinapsis_core.template_base import Template
@@ -14,6 +15,7 @@ from sinapsis_core.template_base.multi_execute_template import (
 )
 from sinapsis_core.utils.env_var_keys import SINAPSIS_BUILD_DOCS
 from sklearn.model_selection import train_test_split
+from sklearn.utils import Bunch
 from sinapsis_data_readers.helpers import sklearn_dataset_subset
 from sinapsis_data_readers.helpers.tags import Tags
@@ -65,7 +67,7 @@ class SKLearnDatasets(BaseDynamicWrapperTemplate):
         """
         split_dataset: bool = True
-        train_size: float = 1
+        train_size: float = 0.9
         store_as_time_series: bool = False
     def __init__(self, attributes: TemplateAttributeType) -> None:
@@ -73,7 +75,23 @@ class SKLearnDatasets(BaseDynamicWrapperTemplate):
         self.dataset_attributes = getattr(self.attributes, self.wrapped_callable.__name__)
     @staticmethod
-    def parse_results(results: pd.DataFrame) -> pd.DataFrame:
+    def process_bunch(bunch: Bunch) -> tuple:
+        data = bunch.get("data")
+        original_target = bunch.get("target")
+        target = np.asarray(original_target)
+        target = target.reshape(-1, 1) if target.ndim == 1 else target
+        feature_column = bunch.get("feature_names", None)
+        target_column = bunch.get("target_names", None)
+        if target.shape[1] == 1:
+            target_column = ["target"]
+        elif target_column is not None and len(target_column) == target.shape[1]:
+            target_column = list(target_column)
+        else:
+            target_column = [f"target_{i}" for i in range(target.shape[1])]
+        return data, target, feature_column, target_column
+    def parse_results(self, results: pd.DataFrame) -> tuple[pd.DataFrame, list, list, int]:
         """Parses the dataset as a pandas dataframe with the feature names as columns
         Args:
@@ -84,17 +102,51 @@ class SKLearnDatasets(BaseDynamicWrapperTemplate):
             the additional column for target values
         """
-        data_frame = pd.DataFrame(data=results.data, columns=results.feature_names)
-        data_frame[TARGET] = results.target
-        return data_frame
+        if isinstance(results, tuple):
+            data = results[0]
+            target = results[1]
+            feature_column = None
+            target_column = None
+        elif isinstance(results, Bunch):
+            data, target, feature_column, target_column = self.process_bunch(results)
+        else:
+            try:
+                data = results.data
+            except (KeyError, AttributeError, ValueError):
+                data = None
+            try:
+                target = results.target
+            except (KeyError, AttributeError, ValueError):
+                target = None
+            try:
+                feature_column = results.feature_names
+                target_column = results.target_names
+            except AttributeError:
+                feature_column = None
+                target_column = None
+        _, n_features = data.shape
+        feature_data_frame = pd.DataFrame(data=data, columns=feature_column)
+        target_data_frame = pd.DataFrame(data=target, columns=target_column)
+        data_frame = pd.concat([feature_data_frame, target_data_frame], axis=1)
+        return data_frame, feature_column, target_column, n_features
     @staticmethod
-    def split_dataset(results: pd.DataFrame, split_size: float) -> TabularDatasetSplit:
+    def split_dataset(
+        results: pd.DataFrame, feature_name_cols: list, target_name_cols: list, n_features: int, split_size: float
+    ) -> TabularDatasetSplit:
         """Method to split the dataset into training and testing samples"""
-        x_vals = results.drop(columns=[TARGET], axis=1)
-        y_vals = results[TARGET]
-        x_train, x_test, y_train, y_test = train_test_split(x_vals, y_vals, train_size=split_size, random_state=0)
+        if feature_name_cols:
+            X = results[feature_name_cols]
+            y = results[target_name_cols]
+        else:
+            X = results.iloc[:, :n_features]
+            y = results.iloc[:, n_features:]
+        # x_vals = results.drop(columns=[TARGET], axis=1)
+        # y_vals = results[TARGET]
+        x_train, x_test, y_train, y_test = train_test_split(X, y, train_size=split_size, random_state=0)
         split_data = TabularDatasetSplit(
             x_train=pd.DataFrame(x_train),
             x_test=pd.DataFrame(x_test),
@@ -106,13 +158,15 @@ class SKLearnDatasets(BaseDynamicWrapperTemplate):
     def execute(self, container: DataContainer) -> DataContainer:
         sklearn_dataset = self.wrapped_callable.__func__(**self.dataset_attributes.model_dump())
-        dataset = self.parse_results(sklearn_dataset)
+        dataset, feature_columns, target_columns, n_features = self.parse_results(sklearn_dataset)
         if self.attributes.store_as_time_series:
             time_series_packet = TimeSeriesPacket(content=dataset)
             container.time_series.append(time_series_packet)
         if self.attributes.split_dataset:
-            split_dataset = self.split_dataset(dataset, split_size=self.attributes.train_size)
+            split_dataset = self.split_dataset(
+                dataset, feature_columns, target_columns, n_features, split_size=self.attributes.train_size
+            )
             self._set_generic_data(container, split_dataset)
         if sklearn_dataset and not self.attributes.split_dataset:
             self._set_generic_data(container, dataset)

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/datasets_readers/sktime_datasets.py RENAMED Viewed

@@ -1,4 +1,5 @@
 # -*- coding: utf-8 -*-
+from types import NoneType
 from typing import Any
 import pandas as pd
@@ -18,12 +19,24 @@ from sklearn.model_selection import train_test_split
 from sktime import datasets
 from sktime.split import temporal_train_test_split
+from sinapsis_data_readers.helpers import sktime_datasets_subset
+from sinapsis_data_readers.helpers.sktime_datasets_subset import class_datasets
 from sinapsis_data_readers.helpers.tags import Tags
 from sinapsis_data_readers.templates.datasets_readers.dataset_splitter import (
     TabularDatasetSplit,
 )
-EXCLUDE_MODULES = ["load_forecastingdata", "DATASET_NAMES_FPP3"]
+EXCLUDE_MODULES = ["load_forecastingdata", "DATASET_NAMES_FPP3", "BaseDataset",
+                   "load_gun_point_segmentation", "load_electric_devices_segments",
+                   "write_dataframe_to_tsfile",
+                   "write_ndarray_to_tsfile",
+                   "write_results_to_uea_format",
+                   "write_tabular_transformation_to_arff",
+                   "write_panel_to_tsfileWrapper",
+                   "_load_fpp3",
+                   "load_hierarchical_sales_toydata",
+                   "load_unitest_tsf"
+                   ] + class_datasets
 class SKTimeDatasets(BaseDynamicWrapperTemplate):
@@ -77,8 +90,10 @@ class SKTimeDatasets(BaseDynamicWrapperTemplate):
     def __init__(self, attributes: TemplateAttributeType) -> None:
         super().__init__(attributes)
-        self.dataset_attributes = getattr(self.attributes, self.wrapped_callable.__name__)
+        self.dataset_attributes = self.initialize_attributes()
+    def initialize_attributes(self):
+        return getattr(self.attributes, self.wrapped_callable.__name__)
     def split_time_series_dataset(self, dataset: Any) -> TabularDatasetSplit:
         """Split a time series dataset into training and testing sets
@@ -106,14 +121,22 @@ class SKTimeDatasets(BaseDynamicWrapperTemplate):
         Returns:
             TabularDatasetSplit: Object containing the split dataset.
         """
-        X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=self.attributes.train_size, random_state=0)
-        return TabularDatasetSplit(
-            x_train=pd.DataFrame(X_train),
-            x_test=pd.DataFrame(X_test),
-            y_train=pd.DataFrame(y_train),
-            y_test=pd.DataFrame(y_test),
-        )
+        try:
+            X_train, X_test, y_train, y_test = train_test_split(
+                X, y, train_size=self.attributes.train_size, random_state=0
+            )
+            return TabularDatasetSplit(
+                x_train=pd.DataFrame(X_train),
+                x_test=pd.DataFrame(X_test),
+                y_train=pd.DataFrame(y_train),
+                y_test=pd.DataFrame(y_test),
+            )
+        except ValueError:
+            self.logger.debug("Wrong format for split. original values")
+            return TabularDatasetSplit(x_train=pd.DataFrame(X), y_train=pd.DataFrame(y))
+    def create_dataset(self):
+        return self.wrapped_callable.__func__(**self.dataset_attributes.model_dump())
     def execute(self, container: DataContainer) -> DataContainer:
         """Execute the SKTimeDatasets template to load and process a dataset.
@@ -126,7 +149,7 @@ class SKTimeDatasets(BaseDynamicWrapperTemplate):
         Returns:
             DataContainer: The container with the dataset added to it.
         """
-        dataset = self.wrapped_callable.__func__(**self.dataset_attributes.model_dump())
+        dataset = self.create_dataset()
         split_dataset = dataset
         if isinstance(dataset, tuple):
             if self.attributes.split_dataset:
@@ -161,6 +184,36 @@ class ExecuteNTimesSKTimeDatasets(SKTimeDatasets):
     )
+class SKTimeClassDatasets(SKTimeDatasets):
+    WrapperEntry = WrapperEntryConfig(
+        wrapped_object=sktime_datasets_subset,
+        signature_from_doc_string=True,
+    )
+    def initialize_attributes(self):
+        return None
+    def create_dataset(self):
+        dataset = self.wrapped_callable.load("X", "y")
+        if isinstance(dataset[0], NoneType):
+            return dataset[1]
+        elif isinstance(dataset[1], NoneType):
+            return dataset[0]
+        return dataset
+@execute_template_n_times_wrapper
+class ExecuteNTimesSKTimeClassDatasets(SKTimeDatasets):
+    """This template extends the functionality of the SKTimeDatasets template
+    by loading the sktime dataset n times.
+    This is useful for running the same dataset loading operation multiple
+    times with different parameters or for benchmark purposes.
+    """
+    WrapperEntry = WrapperEntryConfig(
+        wrapped_object=sktime_datasets_subset,
+        signature_from_doc_string=True,
+        template_name_suffix="ExecuteNTimes",
+    )
 def __getattr__(name: str) -> Template:
     """
     Only create a template if it's imported, this avoids creating all the base models for all templates
@@ -170,10 +223,16 @@ def __getattr__(name: str) -> Template:
         return make_dynamic_template(name, SKTimeDatasets)
     if name in ExecuteNTimesSKTimeDatasets.WrapperEntry.module_att_names:
         return make_dynamic_template(name, ExecuteNTimesSKTimeDatasets)
+    if name in SKTimeClassDatasets.WrapperEntry.module_att_names:
+        return make_dynamic_template(name, SKTimeClassDatasets)
+    if name in ExecuteNTimesSKTimeClassDatasets.WrapperEntry.module_att_names:
+        return make_dynamic_template(name, ExecuteNTimesSKTimeClassDatasets)
     raise AttributeError(f"template `{name}` not found in {__name__}")
-__all__ = SKTimeDatasets.WrapperEntry.module_att_names + ExecuteNTimesSKTimeDatasets.WrapperEntry.module_att_names
+__all__ = (SKTimeDatasets.WrapperEntry.module_att_names + ExecuteNTimesSKTimeDatasets.WrapperEntry.module_att_names +
+           SKTimeClassDatasets.WrapperEntry.module_att_names +
+           ExecuteNTimesSKTimeClassDatasets.WrapperEntry.module_att_names)
 if SINAPSIS_BUILD_DOCS:

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/image_readers/coco_dataset_reader.py RENAMED Viewed

@@ -54,10 +54,10 @@ class CocoImageDatasetBaseCV2(FolderImageDatasetCV2):
         annotations_path: str
     def __init__(self, attributes: TemplateAttributeType) -> None:
-        super().__init__(attributes)
-        self.annotations_file = os.path.join(self.attributes.data_dir, self.attributes.annotations_path)
+        self.annotations_file = os.path.join(attributes.get("data_dir"), attributes.get("annotations_path"))
         self.raw_annotations_dict: list[dict[str, dict[str, Any]]] = self.read_annotations_file(self.annotations_file)
         self.annotations = self.images_annotations()
+        super().__init__(attributes)
     @staticmethod
     def read_annotations_file(file: str) -> list[dict[str, dict[str, Any]]]:

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/image_readers/csv_dataset_reader.py RENAMED Viewed

@@ -3,7 +3,6 @@
 from typing import cast
 import numpy as np
-import pandas as pd
 from sinapsis_core.data_containers.annotations import ImageAnnotations
 from sinapsis_core.data_containers.data_packet import ImagePacket
 from sinapsis_core.template_base.base_models import (
@@ -12,6 +11,7 @@ from sinapsis_core.template_base.base_models import (
     UIPropertiesMetadata,
 )
+from sinapsis_data_readers.helpers.csv_reader import read_file
 from sinapsis_data_readers.helpers.tags import Tags
 from sinapsis_data_readers.templates.base_file_data_loader import (
     ContentNotSetException,
@@ -19,26 +19,6 @@ from sinapsis_data_readers.templates.base_file_data_loader import (
 )
-def read_file(file: str) -> pd.DataFrame:
-    """
-    Reads a CSV file and returns its contents as a pandas DataFrame.
-    Args:
-        file (str): The path to the CSV file to be read.
-    Returns:
-        pd.DataFrame: The data from the CSV file as a pandas DataFrame.
-    Raises:
-        ValueError: If the file does not have a .csv extension.
-    """
-    if not file.endswith("csv"):
-        raise ValueError("The file must have a .csv extension.")
-    data = pd.read_csv(file, header=0)
-    return data
 class CSVImageDataset(_BaseDataReader):
     """
     A dataset reader for CSV-based image datasets, inheriting from _BaseDataReader.

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/video_readers/video_reader_dali.py RENAMED Viewed

@@ -4,6 +4,7 @@
 from typing import Literal, cast
 import nvidia.dali.fn as fn
+import torch
 from nvidia.dali import pipeline_def
 from nvidia.dali.pipeline import DataNode, Pipeline
 from nvidia.dali.plugin.pytorch import DALIGenericIterator
@@ -149,6 +150,12 @@ class VideoReaderDali(BaseVideoReader):
             video_frames.append(self._make_image_packet(frame, frame_index=self.frame_count + idx))
         return video_frames
+    def reset_state(self, template_name: str | None = None) -> None:
+        _ = template_name
+        if self.attributes.device == "gpu":
+            torch.cuda.empty_cache()
+        super().reset_state(template_name)
 @multi_video_wrapper
 class MultiVideoReaderDali(VideoReaderDali):

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/video_readers/video_reader_ffmpeg.py RENAMED Viewed

@@ -37,7 +37,6 @@ class VideoReaderFFMPEG(BaseVideoReader):
             video_file_path: '/path/to/video/file'
             batch_size: 1
             video_source: 4d2a355f-cda4-4742-9042-8e6ee842d1cf
-            device: cpu
             loop_forever: false
     """

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers/templates/video_readers/video_reader_torchcodec.py RENAMED Viewed

@@ -1,4 +1,5 @@
 # -*- coding: utf-8 -*-
+import torch
 from sinapsis_core.data_containers.data_packet import ImagePacket
 from torchcodec.decoders import SimpleVideoDecoder
@@ -84,6 +85,12 @@ class VideoReaderTorchCodec(BaseVideoReader):
             video_frames.append(self._make_image_packet(frame, frame_index=self.frame_count + idx))
         return video_frames
+    def reset_state(self, template_name: str | None = None) -> None:
+        _ = template_name
+        if self.attributes.device == "gpu":
+            torch.cuda.empty_cache()
+        super().reset_state(template_name)
 @multi_video_wrapper
 class MultiVideoReaderTorchCodec(VideoReaderTorchCodec):
@@ -92,5 +99,4 @@ class MultiVideoReaderTorchCodec(VideoReaderTorchCodec):
     by adding as many video_readers as needed depending on the lenght of
     video_file_path list. It appends the dataframes of each of the videos to the
     ImagePacket object in DataContainer
     """

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14/src/sinapsis_data_readers.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: sinapsis-data-readers
-Version: 0.1.12
+Version: 0.1.14
 Summary: Templates to read data in different formats
 Author-email: SinapsisAI <dev@sinapsis.tech>
 Project-URL: Homepage, https://sinapsis.tech

{sinapsis_data_readers-0.1.12 → sinapsis_data_readers-0.1.14}/src/sinapsis_data_readers.egg-info/SOURCES.txt RENAMED Viewed

@@ -10,9 +10,11 @@ src/sinapsis_data_readers.egg-info/requires.txt
 src/sinapsis_data_readers.egg-info/top_level.txt
 src/sinapsis_data_readers/helpers/__init__.py
 src/sinapsis_data_readers/helpers/coco_dataclasses.py
+src/sinapsis_data_readers/helpers/csv_reader.py
 src/sinapsis_data_readers/helpers/file_path_helpers.py
 src/sinapsis_data_readers/helpers/image_color_space_converter.py
 src/sinapsis_data_readers/helpers/sklearn_dataset_subset.py
+src/sinapsis_data_readers/helpers/sktime_datasets_subset.py
 src/sinapsis_data_readers/helpers/tags.py
 src/sinapsis_data_readers/helpers/text_input_helpers.py
 src/sinapsis_data_readers/templates/__init__.py
@@ -23,6 +25,7 @@ src/sinapsis_data_readers/templates/audio_readers/audio_reader_soundfile.py
 src/sinapsis_data_readers/templates/audio_readers/audio_reader_to_bytes.py
 src/sinapsis_data_readers/templates/audio_readers/base_audio_reader.py
 src/sinapsis_data_readers/templates/datasets_readers/__init__.py
+src/sinapsis_data_readers/templates/datasets_readers/csv_datasets.py
 src/sinapsis_data_readers/templates/datasets_readers/dataset_splitter.py
 src/sinapsis_data_readers/templates/datasets_readers/sklearn_datasets.py
 src/sinapsis_data_readers/templates/datasets_readers/sktime_datasets.py