PyPI - runnable - Versions diffs - 0.10.0__py3-none-any.whl → 0.11.1__py3-none-any.whl - Mend

runnable 0.10.0py3-none-any.whl → 0.11.1py3-none-any.whl

Files changed (31) hide show

runnable/__init__.py +16 -8
runnable/catalog.py +8 -1
runnable/cli.py +2 -0
runnable/context.py +5 -3
runnable/datastore.py +96 -12
runnable/defaults.py +9 -9
runnable/entrypoints.py +43 -24
runnable/exceptions.py +4 -0
runnable/extensions/catalog/file_system/implementation.py +8 -1
runnable/extensions/executor/__init__.py +87 -29
runnable/extensions/executor/argo/implementation.py +8 -4
runnable/extensions/executor/local/implementation.py +1 -0
runnable/extensions/nodes.py +90 -13
runnable/extensions/run_log_store/chunked_file_system/implementation.py +6 -1
runnable/extensions/run_log_store/file_system/implementation.py +6 -0
runnable/graph.py +11 -0
runnable/integration.py +4 -17
runnable/nodes.py +9 -0
runnable/parameters.py +3 -1
runnable/sdk.py +65 -16
runnable/tasks.py +135 -53
runnable/utils.py +2 -1
{runnable-0.10.0.dist-info → runnable-0.11.1.dist-info}/METADATA +2 -3
{runnable-0.10.0.dist-info → runnable-0.11.1.dist-info}/RECORD +27 -31
{runnable-0.10.0.dist-info → runnable-0.11.1.dist-info}/entry_points.txt +0 -4
runnable/experiment_tracker.py +0 -139
runnable/extensions/experiment_tracker/__init__.py +0 -0
runnable/extensions/experiment_tracker/mlflow/__init__.py +0 -0
runnable/extensions/experiment_tracker/mlflow/implementation.py +0 -94
{runnable-0.10.0.dist-info → runnable-0.11.1.dist-info}/LICENSE +0 -0
{runnable-0.10.0.dist-info → runnable-0.11.1.dist-info}/WHEEL +0 -0

runnable/sdk.py CHANGED Viewed

@@ -15,10 +15,17 @@ from pydantic import (
     field_validator,
     model_validator,
 )
-from rich import print
+from rich.progress import (
+    BarColumn,
+    Progress,
+    SpinnerColumn,
+    TextColumn,
+    TimeElapsedColumn,
+)
+from rich.table import Column
 from typing_extensions import Self
-from runnable import defaults, entrypoints, graph, utils
+from runnable import console, defaults, entrypoints, graph, utils
 from runnable.extensions.nodes import (
     FailNode,
     MapNode,
@@ -39,6 +46,10 @@ def pickled(name: str) -> TaskReturns:
     return TaskReturns(name=name, kind="object")
+def metric(name: str) -> TaskReturns:
+    return TaskReturns(name=name, kind="metric")
 class Catalog(BaseModel):
     """
     Use to instruct a task to sync data from/to the central catalog.
@@ -65,7 +76,7 @@ class Catalog(BaseModel):
 class BaseTraversal(ABC, BaseModel):
     name: str
-    next_node: str = Field(default="", alias="next")
+    next_node: str = Field(default="", serialization_alias="next_node")
     terminate_with_success: bool = Field(default=False, exclude=True)
     terminate_with_failure: bool = Field(default=False, exclude=True)
     on_failure: str = Field(default="", alias="on_failure")
@@ -77,6 +88,12 @@ class BaseTraversal(ABC, BaseModel):
     def internal_name(self) -> str:
         return self.name
+    def __hash__(self):
+        """
+        Needed to Uniqueize DataCatalog objects.
+        """
+        return hash(self.name)
     def __rshift__(self, other: StepType) -> StepType:
         if self.next_node:
             raise Exception(f"The node {self} already has a next node: {self.next_node}")
@@ -174,6 +191,7 @@ class BaseTask(BaseTraversal):
     catalog: Optional[Catalog] = Field(default=None, alias="catalog")
     overrides: Dict[str, Any] = Field(default_factory=dict, alias="overrides")
     returns: List[Union[str, TaskReturns]] = Field(default_factory=list, alias="returns")
+    secrets: List[str] = Field(default_factory=list)
     @field_validator("returns", mode="before")
     @classmethod
@@ -195,7 +213,7 @@ class BaseTask(BaseTraversal):
             if not (self.terminate_with_failure or self.terminate_with_success):
                 raise AssertionError("A node not being terminated must have a user defined next node")
-        return TaskNode.parse_from_config(self.model_dump(exclude_none=True))
+        return TaskNode.parse_from_config(self.model_dump(exclude_none=True, by_alias=True))
 class PythonTask(BaseTask):
@@ -291,9 +309,9 @@ class NotebookTask(BaseTask):
     """
-    notebook: str = Field(alias="command")
+    notebook: str = Field(serialization_alias="command")
-    notebook_output_path: Optional[str] = Field(default=None, alias="notebook_output_path")
+    notebook_output_path: Optional[str] = Field(default=None, alias="notebook_output_path", validate_default=True)
     optional_ploomber_args: Optional[Dict[str, Any]] = Field(default=None, alias="optional_ploomber_args")
     @computed_field
@@ -360,7 +378,7 @@ class Stub(BaseTraversal):
     """
-    model_config = ConfigDict(extra="allow")
+    model_config = ConfigDict(extra="ignore")
     catalog: Optional[Catalog] = Field(default=None, alias="catalog")
     def create_node(self) -> StubNode:
@@ -520,7 +538,7 @@ class Pipeline(BaseModel):
     _dag: graph.Graph = PrivateAttr()
     model_config = ConfigDict(extra="forbid")
-    def _validate_path(self, path: List[StepType]) -> None:
+    def _validate_path(self, path: List[StepType], failure_path: bool = False) -> None:
         # Check if one and only one step terminates with success
         # Check no more than one step terminates with failure
@@ -538,7 +556,7 @@ class Pipeline(BaseModel):
                     raise Exception("A pipeline cannot have more than one step that terminates with failure")
                 reached_failure = True
-        if not reached_success:
+        if not reached_success and not reached_failure:
             raise Exception("A pipeline must have at least one step that terminates with success")
     def _construct_path(self, path: List[StepType]) -> None:
@@ -588,11 +606,21 @@ class Pipeline(BaseModel):
         # Check all paths are valid and construct the path
         paths = [success_path] + on_failure_paths
+        failure_path = False
         for path in paths:
-            self._validate_path(path)
+            self._validate_path(path, failure_path)
             self._construct_path(path)
-        all_steps: List[StepType] = [step for step in success_path + on_failure_paths]  # type: ignore
+            failure_path = True
+        all_steps: List[StepType] = []
+        for path in paths:
+            for step in path:
+                all_steps.append(step)
+        seen = set()
+        unique = [x for x in all_steps if not (x in seen or seen.add(x))]  # type: ignore
         self._dag = graph.Graph(
             start_at=all_steps[0].name,
@@ -600,7 +628,7 @@ class Pipeline(BaseModel):
             internal_branch_name=self.internal_branch_name,
         )
-        for step in all_steps:
+        for step in unique:
             self._dag.add_node(step.create_node())
         if self.add_terminal_nodes:
@@ -669,8 +697,9 @@ class Pipeline(BaseModel):
         run_context.dag = graph.create_graph(dag_definition)
-        print("Working with context:")
-        print(run_context)
+        console.print("Working with context:")
+        console.print(run_context)
+        console.rule(style="[dark orange]")
         if not run_context.executor._local:
             # We are not working with non local executor
@@ -686,8 +715,28 @@ class Pipeline(BaseModel):
         # Prepare for graph execution
         run_context.executor.prepare_for_graph_execution()
-        logger.info("Executing the graph")
-        run_context.executor.execute_graph(dag=run_context.dag)
+        with Progress(
+            SpinnerColumn(spinner_name="runner"),
+            TextColumn("[progress.description]{task.description}", table_column=Column(ratio=2)),
+            BarColumn(table_column=Column(ratio=1), style="dark_orange"),
+            TimeElapsedColumn(table_column=Column(ratio=1)),
+            console=console,
+            expand=True,
+        ) as progress:
+            try:
+                run_context.progress = progress
+                pipeline_execution_task = progress.add_task("[dark_orange] Starting execution .. ", total=1)
+                run_context.executor.execute_graph(dag=run_context.dag)
+                run_log = run_context.run_log_store.get_run_log_by_id(run_id=run_context.run_id, full=False)
+                if run_log.status == defaults.SUCCESS:
+                    progress.update(pipeline_execution_task, description="[green] Success", completed=True)
+                else:
+                    progress.update(pipeline_execution_task, description="[red] Failed", completed=True)
+            except Exception as e:  # noqa: E722
+                console.print(e, style=defaults.error_style)
+                progress.update(pipeline_execution_task, description="[red] Errored execution", completed=True)
         if run_context.executor._local:
             return run_context.run_log_store.get_run_log_by_id(run_id=run_context.run_id)

runnable/tasks.py CHANGED Viewed

@@ -9,14 +9,21 @@ import sys
 from datetime import datetime
 from pickle import PicklingError
 from string import Template
-from typing import Any, Dict, List, Literal, Tuple
+from typing import Any, Dict, List, Literal, Optional, Tuple
 from pydantic import BaseModel, ConfigDict, Field, ValidationInfo, field_validator
+from rich.console import Console
 from stevedore import driver
 import runnable.context as context
-from runnable import defaults, parameters, utils
-from runnable.datastore import JsonParameter, ObjectParameter, Parameter, StepAttempt
+from runnable import defaults, exceptions, parameters, utils
+from runnable.datastore import (
+    JsonParameter,
+    MetricParameter,
+    ObjectParameter,
+    Parameter,
+    StepAttempt,
+)
 from runnable.defaults import TypeMapVariable
 logger = logging.getLogger(defaults.LOGGER_NAME)
@@ -26,9 +33,12 @@ logging.getLogger("stevedore").setLevel(logging.CRITICAL)
 # TODO: Can we add memory peak, cpu usage, etc. to the metrics?
+console = Console(file=io.StringIO())
 class TaskReturns(BaseModel):
     name: str
-    kind: Literal["json", "object"] = Field(default="json")
+    kind: Literal["json", "object", "metric"] = Field(default="json")
 class BaseTaskType(BaseModel):
@@ -36,11 +46,14 @@ class BaseTaskType(BaseModel):
     task_type: str = Field(serialization_alias="command_type")
     node_name: str = Field(exclude=True)
-    secrets: Dict[str, str] = Field(default_factory=dict)
+    secrets: List[str] = Field(default_factory=list)
     returns: List[TaskReturns] = Field(default_factory=list, alias="returns")
     model_config = ConfigDict(extra="forbid")
+    def get_summary(self) -> Dict[str, Any]:
+        return self.model_dump(by_alias=True, exclude_none=True)
     @property
     def _context(self):
         return context.run_context
@@ -60,15 +73,14 @@ class BaseTaskType(BaseModel):
         raise NotImplementedError()
     def set_secrets_as_env_variables(self):
-        for key, value in self.secrets.items():
+        for key in self.secrets:
             secret_value = context.run_context.secrets_handler.get(key)
-            self.secrets[value] = secret_value
-            os.environ[value] = secret_value
+            os.environ[key] = secret_value
     def delete_secrets_from_env_variables(self):
-        for _, value in self.secrets.items():
-            if value in os.environ:
-                del os.environ[value]
+        for key in self.secrets:
+            if key in os.environ:
+                del os.environ[key]
     def execute_command(
         self,
@@ -98,12 +110,15 @@ class BaseTaskType(BaseModel):
         self.set_secrets_as_env_variables()
         try:
             yield
+        except Exception as e:  # pylint: disable=broad-except
+            logger.exception(e)
         finally:
             self.delete_secrets_from_env_variables()
     @contextlib.contextmanager
     def execution_context(self, map_variable: TypeMapVariable = None, allow_complex: bool = True):
         params = self._context.run_log_store.get_parameters(run_id=self._context.run_id).copy()
+        logger.info(f"Parameters available for the execution: {params}")
         for param_name, param in params.items():
             # Any access to unreduced param should be replaced.
@@ -118,20 +133,28 @@ class BaseTaskType(BaseModel):
                 if context_param in params:
                     params[param_name].value = params[context_param].value
+        logger.debug(f"Resolved parameters: {params}")
         if not allow_complex:
             params = {key: value for key, value in params.items() if isinstance(value, JsonParameter)}
-        log_file_name = self.node_name.replace(" ", "_") + ".execution.log"
+        log_file_name = self.node_name  # + ".execution.log"
         if map_variable:
             for _, value in map_variable.items():
                 log_file_name += "_" + str(value)
+        log_file_name = "".join(x for x in log_file_name if x.isalnum()) + ".execution.log"
         log_file = open(log_file_name, "w")
         f = io.StringIO()
         try:
             with contextlib.redirect_stdout(f):
+                # with contextlib.nullcontext():
                 yield params
+                print(console.file.getvalue())  # type: ignore
+        except Exception as e:  # pylint: disable=broad-except
+            logger.exception(e)
         finally:
             print(f.getvalue())  # print to console
             log_file.write(f.getvalue())  # Print to file
@@ -140,15 +163,13 @@ class BaseTaskType(BaseModel):
             log_file.close()
             # Put the log file in the catalog
-            catalog_handler = context.run_context.catalog_handler
-            catalog_handler.put(name=log_file.name, run_id=context.run_context.run_id)
+            self._context.catalog_handler.put(name=log_file.name, run_id=context.run_context.run_id)
             os.remove(log_file.name)
             # Update parameters
+            # This should only update the parameters that are changed at the root level.
             self._context.run_log_store.set_parameters(parameters=params, run_id=self._context.run_id)
-            return True  # To suppress exceptions
 def task_return_to_parameter(task_return: TaskReturns, value: Any) -> Parameter:
     # implicit support for pydantic models
@@ -161,6 +182,9 @@ def task_return_to_parameter(task_return: TaskReturns, value: Any) -> Parameter:
     if task_return.kind == "json":
         return JsonParameter(kind="json", value=value)
+    if task_return.kind == "metric":
+        return MetricParameter(kind="metric", value=value)
     if task_return.kind == "object":
         obj = ObjectParameter(value=task_return.name, kind="object")
         obj.put_object(data=value)
@@ -197,13 +221,22 @@ class PythonTaskType(BaseTaskType):  # pylint: disable=too-few-public-methods
             imported_module = importlib.import_module(module)
             f = getattr(imported_module, func)
-            filtered_parameters = parameters.filter_arguments_for_func(f, params.copy(), map_variable)
-            logger.info(f"Calling {func} from {module} with {filtered_parameters}")
             try:
-                user_set_parameters = f(**filtered_parameters)  # This is a tuple or single value
+                try:
+                    filtered_parameters = parameters.filter_arguments_for_func(f, params.copy(), map_variable)
+                    logger.info(f"Calling {func} from {module} with {filtered_parameters}")
+                    user_set_parameters = f(**filtered_parameters)  # This is a tuple or single value
+                except Exception as e:
+                    console.log(e, style=defaults.error_style, markup=False)
+                    raise exceptions.CommandCallError(f"Function call: {self.command} did not succeed.\n") from e
                 attempt_log.input_parameters = params.copy()
+                if map_variable:
+                    attempt_log.input_parameters.update(
+                        {k: JsonParameter(value=v, kind="json") for k, v in map_variable.items()}
+                    )
                 if self.returns:
                     if not isinstance(user_set_parameters, tuple):  # make it a tuple
                         user_set_parameters = (user_set_parameters,)
@@ -212,6 +245,7 @@ class PythonTaskType(BaseTaskType):  # pylint: disable=too-few-public-methods
                         raise ValueError("Returns task signature does not match the function returns")
                     output_parameters: Dict[str, Parameter] = {}
+                    metrics: Dict[str, Parameter] = {}
                     for i, task_return in enumerate(self.returns):
                         output_parameter = task_return_to_parameter(
@@ -219,6 +253,9 @@ class PythonTaskType(BaseTaskType):  # pylint: disable=too-few-public-methods
                             value=user_set_parameters[i],
                         )
+                        if task_return.kind == "metric":
+                            metrics[task_return.name] = output_parameter
                         param_name = task_return.name
                         if map_variable:
                             for _, v in map_variable.items():
@@ -227,14 +264,15 @@ class PythonTaskType(BaseTaskType):  # pylint: disable=too-few-public-methods
                         output_parameters[param_name] = output_parameter
                     attempt_log.output_parameters = output_parameters
+                    attempt_log.user_defined_metrics = metrics
                     params.update(output_parameters)
                 attempt_log.status = defaults.SUCCESS
             except Exception as _e:
-                msg = f"Call to the function {self.command} with {filtered_parameters} did not succeed.\n"
-                logger.exception(msg)
-                logger.exception(_e)
-                attempt_log.status = defaults.FAIL
+                msg = f"Call to the function {self.command} did not succeed.\n"
+                attempt_log.message = msg
+                console.print_exception(show_locals=False)
+                console.log(_e, style=defaults.error_style)
         attempt_log.end_time = str(datetime.now())
@@ -246,7 +284,7 @@ class NotebookTaskType(BaseTaskType):
     task_type: str = Field(default="notebook", serialization_alias="command_type")
     command: str
-    notebook_output_path: str = Field(default="", validate_default=True)
+    notebook_output_path: Optional[str] = Field(default=None, validate_default=True)
     optional_ploomber_args: dict = {}
     @field_validator("command")
@@ -288,7 +326,7 @@ class NotebookTaskType(BaseTaskType):
             import ploomber_engine as pm
             from ploomber_engine.ipython import PloomberClient
-            notebook_output_path = self.notebook_output_path
+            notebook_output_path = self.notebook_output_path or ""
             with self.execution_context(
                 map_variable=map_variable, allow_complex=False
@@ -296,7 +334,6 @@ class NotebookTaskType(BaseTaskType):
                 if map_variable:
                     for key, value in map_variable.items():
                         notebook_output_path += "_" + str(value)
                         params[key] = value
                 notebook_params = {k: v.get_value() for k, v in params.items()}
@@ -394,15 +431,17 @@ class ShellTaskType(BaseTaskType):
         # Expose secrets as environment variables
         if self.secrets:
-            for key, value in self.secrets.items():
+            for key in self.secrets:
                 secret_value = context.run_context.secrets_handler.get(key)
-                subprocess_env[value] = secret_value
+                subprocess_env[key] = secret_value
         with self.execution_context(map_variable=map_variable, allow_complex=False) as params:
             subprocess_env.update({k: v.get_value() for k, v in params.items()})
             # Json dumps all runnable environment variables
             for key, value in subprocess_env.items():
+                if isinstance(value, str):
+                    continue
                 subprocess_env[key] = json.dumps(value)
             collect_delimiter = "=== COLLECT ==="
@@ -411,37 +450,80 @@ class ShellTaskType(BaseTaskType):
             logger.info(f"Executing shell command: {command}")
             capture = False
-            return_keys = [x.name for x in self.returns]
+            return_keys = {x.name: x for x in self.returns}
-            with subprocess.Popen(
+            proc = subprocess.Popen(
                 command,
                 shell=True,
                 env=subprocess_env,
                 stdout=subprocess.PIPE,
                 stderr=subprocess.PIPE,
                 text=True,
-            ) as proc:
-                for line in proc.stdout:  # type: ignore
-                    logger.info(line)
-                    print(line)
-                    if line.strip() == collect_delimiter:
-                        # The lines from now on should be captured
-                        capture = True
-                        continue
-                    if capture:
-                        key, value = line.strip().split("=", 1)
-                        if key in (return_keys or []):
-                            param_name = Template(key).safe_substitute(map_variable)  # type: ignore
-                            try:
-                                params[param_name] = JsonParameter(kind="json", value=json.loads(value))
-                            except json.JSONDecodeError:
-                                params[param_name] = JsonParameter(kind="json", value=value)
-                proc.wait()
-                if proc.returncode == 0:
-                    attempt_log.status = defaults.SUCCESS
+            )
+            result = proc.communicate()
+            logger.debug(result)
+            logger.info(proc.returncode)
+            if proc.returncode != 0:
+                msg = ",".join(result[1].split("\n"))
+                attempt_log.status = defaults.FAIL
+                attempt_log.end_time = str(datetime.now())
+                attempt_log.message = msg
+                console.print(msg, style=defaults.error_style)
+                return attempt_log
+            # for stderr
+            for line in result[1].split("\n"):
+                if line.strip() == "":
+                    continue
+                console.print(line, style=defaults.warning_style)
+            output_parameters: Dict[str, Parameter] = {}
+            metrics: Dict[str, Parameter] = {}
+            # only from stdout
+            for line in result[0].split("\n"):
+                if line.strip() == "":
+                    continue
+                logger.info(line)
+                console.print(line)
+                if line.strip() == collect_delimiter:
+                    # The lines from now on should be captured
+                    capture = True
+                    continue
+                if capture:
+                    key, value = line.strip().split("=", 1)
+                    if key in return_keys:
+                        task_return = return_keys[key]
+                        try:
+                            value = json.loads(value)
+                        except json.JSONDecodeError:
+                            value = value
+                        output_parameter = task_return_to_parameter(
+                            task_return=task_return,
+                            value=value,
+                        )
+                        if task_return.kind == "metric":
+                            metrics[task_return.name] = output_parameter
+                        param_name = task_return.name
+                        if map_variable:
+                            for _, v in map_variable.items():
+                                param_name = f"{param_name}_{v}"
+                        output_parameters[param_name] = output_parameter
+                attempt_log.output_parameters = output_parameters
+                attempt_log.user_defined_metrics = metrics
+                params.update(output_parameters)
+            attempt_log.status = defaults.SUCCESS
         attempt_log.end_time = str(datetime.now())
         return attempt_log

runnable/utils.py CHANGED Viewed

@@ -538,7 +538,7 @@ def get_provider_by_name_and_type(service_type: str, service_details: defaults.S
     if "config" in service_details:
         service_config = service_details.get("config", {})
-    logger.info(f"Trying to get a service of {service_type} of the name {service_name} with config: {service_config}")
+    logger.debug(f"Trying to get a service of {service_type} of the name {service_name} with config: {service_config}")
     try:
         mgr = driver.DriverManager(
             namespace=namespace,
@@ -548,6 +548,7 @@ def get_provider_by_name_and_type(service_type: str, service_details: defaults.S
         )
         return mgr.driver
     except Exception as _e:
+        logger.exception(f"Could not find the service of type: {service_type} with config: {service_details}")
         raise Exception(f"Could not find the service of type: {service_type} with config: {service_details}") from _e

{runnable-0.10.0.dist-info → runnable-0.11.1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: runnable
-Version: 0.10.0
+Version: 0.11.1
 Summary: A Compute agnostic pipelining software
 Home-page: https://github.com/vijayvammi/runnable
 License: Apache-2.0
@@ -15,13 +15,12 @@ Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Provides-Extra: database
 Provides-Extra: docker
-Provides-Extra: mlflow
 Provides-Extra: notebook
 Requires-Dist: click
 Requires-Dist: click-plugins (>=1.1.1,<2.0.0)
 Requires-Dist: dill (>=0.3.8,<0.4.0)
 Requires-Dist: docker ; extra == "docker"
-Requires-Dist: mlflow-skinny ; extra == "mlflow"
+Requires-Dist: mlflow-skinny
 Requires-Dist: ploomber-engine (>=0.0.31,<0.0.32) ; extra == "notebook"
 Requires-Dist: pydantic (>=2.5,<3.0)
 Requires-Dist: rich (>=13.5.2,<14.0.0)

runnable 0.10.0__py3-none-any.whl → 0.11.1__py3-none-any.whl

runnable 0.10.0py3-none-any.whl → 0.11.1py3-none-any.whl