PyPI - code-loader - Versions diffs - 1.0.50__py3-none-any.whl → 1.0.51__py3-none-any.whl - Mend

code-loader 1.0.50py3-none-any.whl → 1.0.51py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

code_loader/code_inegration_processes_manager.py ADDED Viewed

@@ -0,0 +1,83 @@
+# mypy: ignore-errors
+import traceback
+from dataclasses import dataclass
+from typing import List, Tuple, Optional
+from multiprocessing import Process, Queue
+from code_loader.leap_loader_parallelized_base import LeapLoaderParallelizedBase
+from code_loader.leaploader import LeapLoader
+from code_loader.contract.enums import DataStateEnum
+from code_loader.metric_calculator_parallelized import MetricCalculatorParallelized
+from code_loader.samples_generator_parallelized import SamplesGeneratorParallelized
+@dataclass
+class SampleSerializableError:
+    state: DataStateEnum
+    index: int
+    leap_script_trace: str
+    exception_as_str: str
+class CodeIntegrationProcessesManager:
+    def __init__(self, code_path: str, code_entry_name: str, n_workers: Optional[int] = 2,
+                 max_samples_in_queue: int = 128) -> None:
+        self.metric_calculator_parallelized = MetricCalculatorParallelized(code_path, code_entry_name)
+        self.samples_generator_parallelized = SamplesGeneratorParallelized(code_path, code_entry_name)
+    def _create_and_start_process(self) -> Process:
+        process = self.multiprocessing_context.Process(
+            target=CodeIntegrationProcessesManager._process_func,
+            args=(self.code_path, self.code_entry_name, self._inputs_waiting_to_be_process,
+                  self._ready_processed_results))
+        process.daemon = True
+        process.start()
+        return process
+    def _run_and_warm_first_process(self):
+        process = self._create_and_start_process()
+        self.processes = [process]
+        # needed in order to make sure the preprocess func runs once in nonparallel
+        self._start_process_inputs([(DataStateEnum.training, 0)])
+        self._get_next_ready_processed_result()
+    def _operation_decider(self):
+        if self.metric_calculator_parallelized._ready_processed_results.empty() and not \
+            self.metric_calculator_parallelized._inputs_waiting_to_be_process.empty():
+            return 'metric'
+        if self.samples_generator_parallelized._ready_processed_results.empty() and not \
+            self.samples_generator_parallelized._inputs_waiting_to_be_process.empty():
+            return 'dataset'
+    @staticmethod
+    def _process_func(code_path: str, code_entry_name: str,
+                      samples_to_process: Queue, ready_samples: Queue,
+                      metrics_to_process: Queue, ready_metrics: Queue) -> None:
+        import os
+        os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
+        leap_loader = LeapLoader(code_path, code_entry_name)
+        while True:
+            # decide on sample or metric to process
+            state, idx = samples_to_process.get(block=True)
+            leap_loader._preprocess_result()
+            try:
+                sample = leap_loader.get_sample(state, idx)
+            except Exception as e:
+                leap_script_trace = traceback.format_exc().split('File "<string>"')[-1]
+                ready_samples.put(SampleSerializableError(state, idx, leap_script_trace, str(e)))
+                continue
+            ready_samples.put(sample)
+    def generate_samples(self, sample_identities: List[Tuple[DataStateEnum, int]]):
+        return self.start_process_inputs(sample_identities)

code_loader/contract/datasetclasses.py CHANGED Viewed

@@ -32,21 +32,39 @@ class PreprocessResponse:
         }
         response = PreprocessResponse(length=len(preprocessed_data), data=preprocessed_data)
     """
-    length: int
-    data: Any
-SectionCallableInterface = Callable[[int, PreprocessResponse], npt.NDArray[np.float32]]
+    length: Optional[int] = None  # Deprecated. Please use sample_ids instead
+    data: Any = None
+    sample_ids: Optional[Union[List[str], List[int]]] = None
+    state: Optional[DataStateType] = None
+    sample_id_type: Optional[Union[Type[str], Type[int]]] = None
+    def __post_init__(self) -> None:
+        if self.length is not None and self.sample_ids is None:
+            self.sample_ids = [i for i in range(self.length)]
+            self.sample_id_type = int
+        elif self.length is None and self.sample_ids is not None:
+            self.length = len(self.sample_ids)
+            if self.sample_id_type is None:
+                self.sample_id_type = str
+        else:
+            raise Exception("length is deprecated.")
+    def __len__(self) -> int:
+        assert self.sample_ids is not None
+        return len(self.sample_ids)
+SectionCallableInterface = Callable[[Union[int, str], PreprocessResponse], npt.NDArray[np.float32]]
 MetadataSectionCallableInterface = Union[
-    Callable[[int, PreprocessResponse], int],
-    Callable[[int, PreprocessResponse], Dict[str, int]],
-    Callable[[int, PreprocessResponse], str],
-    Callable[[int, PreprocessResponse], Dict[str, str]],
-    Callable[[int, PreprocessResponse], bool],
-    Callable[[int, PreprocessResponse], Dict[str, bool]],
-    Callable[[int, PreprocessResponse], float],
-    Callable[[int, PreprocessResponse], Dict[str, float]]
+    Callable[[Union[int, str], PreprocessResponse], int],
+    Callable[[Union[int, str], PreprocessResponse], Dict[str, int]],
+    Callable[[Union[int, str], PreprocessResponse], str],
+    Callable[[Union[int, str], PreprocessResponse], Dict[str, str]],
+    Callable[[Union[int, str], PreprocessResponse], bool],
+    Callable[[Union[int, str], PreprocessResponse], Dict[str, bool]],
+    Callable[[Union[int, str], PreprocessResponse], float],
+    Callable[[Union[int, str], PreprocessResponse], Dict[str, float]]
 ]
@@ -181,5 +199,5 @@ class DatasetSample:
     inputs: Dict[str, npt.NDArray[np.float32]]
     gt: Optional[Dict[str, npt.NDArray[np.float32]]]
     metadata: Dict[str, Union[str, int, bool, float]]
-    index: int
+    index: Union[int, str]
     state: DataStateEnum

code_loader/inner_leap_binder/leapbinder.py CHANGED Viewed

@@ -389,17 +389,36 @@ class LeapBinder:
         if preprocess is None:
             raise Exception("Please make sure you call the leap_binder.set_preprocess method")
         preprocess_results = preprocess.function()
-        preprocess_result_dict = {
-            DataStateEnum(i): preprocess_result
-            for i, preprocess_result in enumerate(preprocess_results)
-        }
+        preprocess_result_dict = {}
+        for i, preprocess_result in enumerate(preprocess_results):
+            if preprocess_result.state is None:
+                state_enum = DataStateEnum(i)
+                preprocess_result.state = DataStateType(state_enum.name)
+            else:
+                state_enum = DataStateEnum[preprocess_result.state.name]
-        unlabeled_preprocess = self.setup_container.unlabeled_data_preprocess
-        if unlabeled_preprocess is not None:
-            preprocess_result_dict[DataStateEnum.unlabeled] = unlabeled_preprocess.function()
+            if state_enum in preprocess_result_dict:
+                raise Exception(f"Duplicate state {state_enum.name} in preprocess results")
+            preprocess_result_dict[state_enum] = preprocess_result
+        if DataStateEnum.unlabeled not in preprocess_result_dict:
+            preprocess_unlabeled_result = self.get_preprocess_unlabeled_result()
+            if preprocess_unlabeled_result is not None:
+                preprocess_result_dict[DataStateEnum.unlabeled] = preprocess_unlabeled_result
+        if DataStateEnum.training not in preprocess_result_dict:
+            raise Exception("Training data is required")
+        if DataStateEnum.validation not in preprocess_result_dict:
+            raise Exception("Validation data is required")
         return preprocess_result_dict
+    def get_preprocess_unlabeled_result(self) -> Optional[PreprocessResponse]:
+        unlabeled_preprocess = self.setup_container.unlabeled_data_preprocess
+        if unlabeled_preprocess is not None:
+            return unlabeled_preprocess.function()
+        return None
     def _get_all_dataset_base_handlers(self) -> List[Union[DatasetBaseHandler, MetadataHandler]]:
         all_dataset_base_handlers: List[Union[DatasetBaseHandler, MetadataHandler]] = []
         all_dataset_base_handlers.extend(self.setup_container.inputs)
@@ -411,7 +430,8 @@ class LeapBinder:
     def check_handler(
             preprocess_response: PreprocessResponse, test_result: List[DatasetTestResultPayload],
             dataset_base_handler: Union[DatasetBaseHandler, MetadataHandler]) -> List[DatasetTestResultPayload]:
-        raw_result = dataset_base_handler.function(0, preprocess_response)
+        assert preprocess_response.sample_ids is not None
+        raw_result = dataset_base_handler.function(preprocess_response.sample_ids[0], preprocess_response)
         handler_type = 'metadata' if isinstance(dataset_base_handler, MetadataHandler) else None
         if isinstance(dataset_base_handler, MetadataHandler) and isinstance(raw_result, dict):
             metadata_test_result_payloads = [

code_loader/leaploader.py CHANGED Viewed

@@ -2,10 +2,11 @@
 import importlib.util
 import io
 import sys
+import time
 from contextlib import redirect_stdout
 from functools import lru_cache
 from pathlib import Path
-from typing import Dict, List, Iterable, Union, Any
+from typing import Dict, List, Iterable, Union, Any, Type
 import numpy as np
 import numpy.typing as npt
@@ -27,6 +28,8 @@ class LeapLoader:
         self.code_entry_name = code_entry_name
         self.code_path = code_path
+        self._preprocess_result_cached = None
     @lru_cache()
     def exec_script(self) -> None:
         try:
@@ -103,12 +106,16 @@ class LeapLoader:
             for prediction_type in setup.prediction_types
         }
-    def get_sample(self, state: DataStateEnum, idx: int) -> DatasetSample:
+    def get_sample(self, state: DataStateEnum, sample_id: Union[int, str]) -> DatasetSample:
         self.exec_script()
-        sample = DatasetSample(inputs=self._get_inputs(state, idx),
-                               gt=None if state == DataStateEnum.unlabeled else self._get_gt(state, idx),
-                               metadata=self._get_metadata(state, idx),
-                               index=idx,
+        preprocess_result = self._preprocess_result()
+        if state == DataStateEnum.unlabeled and sample_id not in preprocess_result[state].sample_ids:
+            self._preprocess_result(update_unlabeled_preprocess=True)
+        sample = DatasetSample(inputs=self._get_inputs(state, sample_id),
+                               gt=None if state == DataStateEnum.unlabeled else self._get_gt(state, sample_id),
+                               metadata=self._get_metadata(state, sample_id),
+                               index=sample_id,
                                state=state)
         return sample
@@ -148,6 +155,13 @@ class LeapLoader:
         test_result = DatasetTestResultPayload('preprocess')
         try:
             preprocess_result = self._preprocess_result()
+            if self.get_sample_id_type() is str:
+                max_allowed_item_size = np.dtype('<U256').itemsize
+                for state, preprocess_response in preprocess_result.items():
+                    sample_ids_array = np.array(preprocess_response.sample_ids)
+                    if sample_ids_array.dtype.itemsize > max_allowed_item_size:
+                        raise Exception(f"Sample id are too long. Max allowed length is 256 charecters.")
             global_leap_binder.check_preprocess(preprocess_result)
         except Exception as e:
             line_number, file_name, stacktrace = get_root_exception_file_and_line_number()
@@ -279,27 +293,42 @@ class LeapLoader:
         ]
         return ModelSetup(custom_layer_instances)
-    @lru_cache()
-    def _preprocess_result(self) -> Dict[DataStateEnum, PreprocessResponse]:
+    def _preprocess_result(self, update_unlabeled_preprocess=False) -> Dict[DataStateEnum, PreprocessResponse]:
         self.exec_script()
-        return global_leap_binder.get_preprocess_result()
+        if self._preprocess_result_cached is None:
+            self._preprocess_result_cached = global_leap_binder.get_preprocess_result()
+        if update_unlabeled_preprocess:
+            self._preprocess_result_cached[
+                DataStateEnum.unlabeled] = global_leap_binder.get_preprocess_unlabeled_result()
+        return self._preprocess_result_cached
+    def get_preprocess_sample_ids(self, update_unlabeled_preprocess=False) -> Dict[DataStateEnum, Union[List[int], List[str]]]:
+        preprocess_result = self._preprocess_result(update_unlabeled_preprocess)
+        sample_ids = {}
+        for state, preprocess_response in preprocess_result.items():
+            sample_ids[state] = preprocess_response.sample_ids
+        return sample_ids
     def _get_dataset_handlers(self, handlers: Iterable[DatasetBaseHandler],
-                              state: DataStateEnum, idx: int) -> Dict[str, npt.NDArray[np.float32]]:
+                              state: DataStateEnum, sample_id: Union[int, str]) -> Dict[str, npt.NDArray[np.float32]]:
         result_agg = {}
         preprocess_result = self._preprocess_result()
         preprocess_state = preprocess_result[state]
         for handler in handlers:
-            handler_result = handler.function(idx, preprocess_state)
+            handler_result = handler.function(sample_id, preprocess_state)
             handler_name = handler.name
             result_agg[handler_name] = handler_result
         return result_agg
-    def _get_inputs(self, state: DataStateEnum, idx: int) -> Dict[str, npt.NDArray[np.float32]]:
-        return self._get_dataset_handlers(global_leap_binder.setup_container.inputs, state, idx)
+    def _get_inputs(self, state: DataStateEnum, sample_id: Union[int, str]) -> Dict[str, npt.NDArray[np.float32]]:
+        return self._get_dataset_handlers(global_leap_binder.setup_container.inputs, state, sample_id)
-    def _get_gt(self, state: DataStateEnum, idx: int) -> Dict[str, npt.NDArray[np.float32]]:
-        return self._get_dataset_handlers(global_leap_binder.setup_container.ground_truths, state, idx)
+    def _get_gt(self, state: DataStateEnum, sample_id: Union[int, str]) -> Dict[str, npt.NDArray[np.float32]]:
+        return self._get_dataset_handlers(global_leap_binder.setup_container.ground_truths, state, sample_id)
     @lru_cache()
     def _metadata_name_to_type(self) -> Dict[str, DatasetMetadataType]:
@@ -334,12 +363,12 @@ class LeapLoader:
         return converted_value
-    def _get_metadata(self, state: DataStateEnum, idx: int) -> Dict[str, Union[str, int, bool, float]]:
+    def _get_metadata(self, state: DataStateEnum, sample_id: Union[int, str]) -> Dict[str, Union[str, int, bool, float]]:
         result_agg = {}
         preprocess_result = self._preprocess_result()
         preprocess_state = preprocess_result[state]
         for handler in global_leap_binder.setup_container.metadata:
-            handler_result = handler.function(idx, preprocess_state)
+            handler_result = handler.function(sample_id, preprocess_state)
             if isinstance(handler_result, dict):
                 for single_metadata_name, single_metadata_result in handler_result.items():
                     handler_name = f'{handler.name}_{single_metadata_name}'
@@ -349,3 +378,14 @@ class LeapLoader:
                 result_agg[handler_name] = self._convert_metadata_to_correct_type(handler_name, handler_result)
         return result_agg
+    @lru_cache()
+    def get_sample_id_type(self) -> Type:
+        preprocess_results = list(self._preprocess_result().values())
+        id_type = preprocess_results[0].sample_id_type
+        for preprocess_result in preprocess_results:
+            if preprocess_result.sample_id_type != id_type:
+                raise Exception("Different id types in preprocess results")
+        return id_type

code_loader/utils.py CHANGED Viewed

@@ -10,7 +10,7 @@ from code_loader.contract.datasetclasses import SectionCallableInterface, Prepro
 def to_numpy_return_wrapper(encoder_function: SectionCallableInterface) -> SectionCallableInterface:
-    def numpy_encoder_function(idx: int, samples: PreprocessResponse) -> npt.NDArray[np.float32]:
+    def numpy_encoder_function(idx: Union[int, str], samples: PreprocessResponse) -> npt.NDArray[np.float32]:
         result = encoder_function(idx, samples)
         numpy_result: npt.NDArray[np.float32] = np.array(result)
         return numpy_result

{code_loader-1.0.50.dist-info → code_loader-1.0.51.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: code-loader
-Version: 1.0.50
+Version: 1.0.51
 Summary:
 Home-page: https://github.com/tensorleap/code-loader
 License: MIT
@@ -13,6 +13,7 @@ Classifier: Programming Language :: Python :: 3.8
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
+Requires-Dist: matplotlib (>=3.3,<3.4)
 Requires-Dist: numpy (>=1.22.3,<2.0.0)
 Requires-Dist: psutil (>=5.9.5,<6.0.0)
 Requires-Dist: pyyaml (>=6.0.2,<7.0.0)

{code_loader-1.0.50.dist-info → code_loader-1.0.51.dist-info}/RECORD RENAMED Viewed

@@ -1,7 +1,8 @@
 LICENSE,sha256=qIwWjdspQeSMTtnFZBC8MuT-95L02FPvzRUdWFxrwJY,1067
 code_loader/__init__.py,sha256=6MMWr0ObOU7hkqQKgOqp4Zp3I28L7joGC9iCbQYtAJg,241
+code_loader/code_inegration_processes_manager.py,sha256=XslWOPeNQk4RAFJ_f3tP5Oe3EgcIR7BE7Y8r9Ty73-o,3261
 code_loader/contract/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-code_loader/contract/datasetclasses.py,sha256=HPm-z82EbkIk_C_vkCpD8oBs5pgUpStzciMRV0auMlI,5679
+code_loader/contract/datasetclasses.py,sha256=lOIY-h9t4k9NxNsC9GrJhltmhpqRju3AuLA3WVQcCMs,6614
 code_loader/contract/enums.py,sha256=6Lo7p5CUog68Fd31bCozIuOgIp_IhSiPqWWph2k3OGU,1602
 code_loader/contract/exceptions.py,sha256=jWqu5i7t-0IG0jGRsKF4DjJdrsdpJjIYpUkN1F4RiyQ,51
 code_loader/contract/responsedataclasses.py,sha256=w7xVOv2S8Hyb5lqyomMGiKAWXDTSOG-FX1YW39bXD3A,3969
@@ -17,12 +18,12 @@ code_loader/experiment_api/types.py,sha256=MY8xFARHwdVA7p4dxyhD60ShmttgTvb4qdp1o
 code_loader/experiment_api/utils.py,sha256=XZHtxge12TS4H4-8PjV3sKuhp8Ud6ojAiIzTZJEqBqc,3304
 code_loader/experiment_api/workingspace_config_utils.py,sha256=DLzXQCg4dgTV_YgaSbeTVzq-2ja_SQw4zi7LXwKL9cY,990
 code_loader/inner_leap_binder/__init__.py,sha256=koOlJyMNYzGbEsoIbXathSmQ-L38N_pEXH_HvL7beXU,99
-code_loader/inner_leap_binder/leapbinder.py,sha256=ALUtiRYBxxP1xjza8WWZvVt3jNmfevRnxPYIQ4wy3g4,23808
-code_loader/leaploader.py,sha256=_iB23STM_6PuedtRsI_tod3dUoe1j5YoNuuoASBLLPc,17481
-code_loader/utils.py,sha256=TZAoUbA2pE8eK3Le3s5Xr4eRaYdeDMQtxotx6rh-5oE,2185
+code_loader/inner_leap_binder/leapbinder.py,sha256=4DaLjwwa0wR9qR6K5hKZNakd1oludBRRZPJcCzKsi78,24912
+code_loader/leaploader.py,sha256=POUgD6x1GH_iF_eDGz-VLX4DsIl2kddufKVDdrA_K-U,19491
+code_loader/utils.py,sha256=aw2i_fqW_ADjLB66FWZd9DfpCQ7mPdMyauROC5Nd51I,2197
 code_loader/visualizers/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 code_loader/visualizers/default_visualizers.py,sha256=VoqO9FN84yXyMjRjHjUTOt2GdTkJRMbHbXJ1cJkREkk,2230
-code_loader-1.0.50.dist-info/LICENSE,sha256=qIwWjdspQeSMTtnFZBC8MuT-95L02FPvzRUdWFxrwJY,1067
-code_loader-1.0.50.dist-info/METADATA,sha256=ThRDw4Frh9tilH0mroPmMI2bYeKQ-JXjheuLpRI0Bn8,849
-code_loader-1.0.50.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
-code_loader-1.0.50.dist-info/RECORD,,
+code_loader-1.0.51.dist-info/LICENSE,sha256=qIwWjdspQeSMTtnFZBC8MuT-95L02FPvzRUdWFxrwJY,1067
+code_loader-1.0.51.dist-info/METADATA,sha256=_lsVhZ2UtU1jvL3Sb-3dUfIvlUieLMGrIWqtO2f5gU4,888
+code_loader-1.0.51.dist-info/WHEEL,sha256=sP946D7jFCHeNz5Iq4fL4Lu-PrWrFsgfLXbbkciIZwg,88
+code_loader-1.0.51.dist-info/RECORD,,

{code_loader-1.0.50.dist-info → code_loader-1.0.51.dist-info}/LICENSE RENAMED Viewed

File without changes

{code_loader-1.0.50.dist-info → code_loader-1.0.51.dist-info}/WHEEL RENAMED Viewed

File without changes

code-loader 1.0.50__py3-none-any.whl → 1.0.51__py3-none-any.whl

code-loader 1.0.50py3-none-any.whl → 1.0.51py3-none-any.whl