PyPI - mlrun - Versions diffs - 1.3.2rc1__py3-none-any.whl → 1.3.2rc2__py3-none-any.whl - Mend

mlrun 1.3.2rc1py3-none-any.whl → 1.3.2rc2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mlrun might be problematic. Click here for more details.

Files changed (93) hide show

mlrun/api/api/deps.py +14 -1
mlrun/api/api/endpoints/frontend_spec.py +0 -2
mlrun/api/api/endpoints/functions.py +15 -27
mlrun/api/api/endpoints/grafana_proxy.py +435 -74
mlrun/api/api/endpoints/healthz.py +5 -18
mlrun/api/api/endpoints/model_endpoints.py +33 -37
mlrun/api/api/utils.py +6 -13
mlrun/api/crud/__init__.py +14 -16
mlrun/api/crud/logs.py +5 -7
mlrun/api/crud/model_monitoring/__init__.py +2 -2
mlrun/api/crud/model_monitoring/model_endpoint_store.py +847 -0
mlrun/api/crud/model_monitoring/model_endpoints.py +105 -328
mlrun/api/crud/pipelines.py +2 -3
mlrun/api/db/sqldb/models/models_mysql.py +52 -19
mlrun/api/db/sqldb/models/models_sqlite.py +52 -19
mlrun/api/db/sqldb/session.py +19 -26
mlrun/api/schemas/__init__.py +2 -0
mlrun/api/schemas/constants.py +0 -13
mlrun/api/schemas/frontend_spec.py +0 -1
mlrun/api/schemas/model_endpoints.py +38 -195
mlrun/api/schemas/schedule.py +2 -2
mlrun/api/utils/clients/log_collector.py +5 -0
mlrun/builder.py +9 -41
mlrun/config.py +1 -76
mlrun/data_types/__init__.py +1 -6
mlrun/data_types/data_types.py +1 -3
mlrun/datastore/__init__.py +2 -9
mlrun/datastore/sources.py +20 -25
mlrun/datastore/store_resources.py +1 -1
mlrun/datastore/targets.py +34 -67
mlrun/datastore/utils.py +4 -26
mlrun/db/base.py +2 -4
mlrun/db/filedb.py +5 -13
mlrun/db/httpdb.py +32 -64
mlrun/db/sqldb.py +2 -4
mlrun/errors.py +0 -5
mlrun/execution.py +0 -2
mlrun/feature_store/api.py +8 -24
mlrun/feature_store/feature_set.py +6 -28
mlrun/feature_store/feature_vector.py +0 -2
mlrun/feature_store/ingestion.py +11 -8
mlrun/feature_store/retrieval/base.py +43 -271
mlrun/feature_store/retrieval/dask_merger.py +153 -55
mlrun/feature_store/retrieval/job.py +3 -12
mlrun/feature_store/retrieval/local_merger.py +130 -48
mlrun/feature_store/retrieval/spark_merger.py +125 -126
mlrun/features.py +2 -7
mlrun/model_monitoring/constants.py +6 -48
mlrun/model_monitoring/helpers.py +35 -118
mlrun/model_monitoring/model_monitoring_batch.py +260 -293
mlrun/model_monitoring/stream_processing_fs.py +253 -220
mlrun/platforms/iguazio.py +0 -33
mlrun/projects/project.py +72 -34
mlrun/runtimes/base.py +0 -5
mlrun/runtimes/daskjob.py +0 -2
mlrun/runtimes/function.py +3 -29
mlrun/runtimes/kubejob.py +15 -39
mlrun/runtimes/local.py +45 -7
mlrun/runtimes/mpijob/abstract.py +0 -2
mlrun/runtimes/mpijob/v1.py +0 -2
mlrun/runtimes/pod.py +0 -2
mlrun/runtimes/remotesparkjob.py +0 -2
mlrun/runtimes/serving.py +0 -6
mlrun/runtimes/sparkjob/abstract.py +2 -39
mlrun/runtimes/sparkjob/spark3job.py +0 -2
mlrun/serving/__init__.py +1 -2
mlrun/serving/routers.py +35 -35
mlrun/serving/server.py +12 -22
mlrun/serving/states.py +30 -162
mlrun/serving/v2_serving.py +10 -13
mlrun/utils/clones.py +1 -1
mlrun/utils/model_monitoring.py +96 -122
mlrun/utils/version/version.json +2 -2
{mlrun-1.3.2rc1.dist-info → mlrun-1.3.2rc2.dist-info}/METADATA +27 -23
{mlrun-1.3.2rc1.dist-info → mlrun-1.3.2rc2.dist-info}/RECORD +79 -92
mlrun/api/crud/model_monitoring/grafana.py +0 -427
mlrun/datastore/spark_udf.py +0 -40
mlrun/model_monitoring/__init__.py +0 -44
mlrun/model_monitoring/common.py +0 -112
mlrun/model_monitoring/model_endpoint.py +0 -141
mlrun/model_monitoring/stores/__init__.py +0 -106
mlrun/model_monitoring/stores/kv_model_endpoint_store.py +0 -448
mlrun/model_monitoring/stores/model_endpoint_store.py +0 -147
mlrun/model_monitoring/stores/models/__init__.py +0 -23
mlrun/model_monitoring/stores/models/base.py +0 -18
mlrun/model_monitoring/stores/models/mysql.py +0 -100
mlrun/model_monitoring/stores/models/sqlite.py +0 -98
mlrun/model_monitoring/stores/sql_model_endpoint_store.py +0 -375
mlrun/utils/db.py +0 -52
{mlrun-1.3.2rc1.dist-info → mlrun-1.3.2rc2.dist-info}/LICENSE +0 -0
{mlrun-1.3.2rc1.dist-info → mlrun-1.3.2rc2.dist-info}/WHEEL +0 -0
{mlrun-1.3.2rc1.dist-info → mlrun-1.3.2rc2.dist-info}/entry_points.txt +0 -0
{mlrun-1.3.2rc1.dist-info → mlrun-1.3.2rc2.dist-info}/top_level.txt +0 -0

mlrun/feature_store/retrieval/dask_merger.py CHANGED Viewed

@@ -20,6 +20,7 @@ from dask.distributed import Client
 import mlrun
+from ..feature_vector import OfflineVectorResponse
 from .base import BaseMerger
@@ -31,6 +32,139 @@ class DaskFeatureMerger(BaseMerger):
         self.client = engine_args.get("dask_client")
         self._dask_cluster_uri = engine_args.get("dask_cluster_uri")
+    def _generate_vector(
+        self,
+        entity_rows,
+        entity_timestamp_column,
+        feature_set_objects,
+        feature_set_fields,
+        start_time=None,
+        end_time=None,
+        query=None,
+    ):
+        if "index" not in self._index_columns:
+            self._append_drop_column("index")
+        # init the dask client if needed
+        if not self.client:
+            if self._dask_cluster_uri:
+                function = mlrun.import_function(self._dask_cluster_uri)
+                self.client = function.client
+            else:
+                self.client = Client()
+        # load dataframes
+        feature_sets = []
+        dfs = []
+        keys = (
+            []
+        )  # the struct of key is [[[],[]], ..] So that each record indicates which way the corresponding
+        # featureset is connected to the previous one, and within each record the left keys are indicated in index 0
+        # and the right keys in index 1, this keys will be the keys that will be used in this join
+        all_columns = []
+        fs_link_list = self._create_linked_relation_list(
+            feature_set_objects, feature_set_fields
+        )
+        for node in fs_link_list:
+            name = node.name
+            feature_set = feature_set_objects[name]
+            feature_sets.append(feature_set)
+            columns = feature_set_fields[name]
+            column_names = [name for name, alias in columns]
+            for col in node.data["save_cols"]:
+                if col not in column_names:
+                    self._append_drop_column(col)
+            column_names += node.data["save_cols"]
+            df = feature_set.to_dataframe(
+                columns=column_names,
+                df_module=dd,
+                start_time=start_time,
+                end_time=end_time,
+                time_column=entity_timestamp_column,
+                index=False,
+            )
+            df = df.reset_index()
+            column_names += node.data["save_index"]
+            node.data["save_cols"] += node.data["save_index"]
+            entity_timestamp_column_list = (
+                [entity_timestamp_column]
+                if entity_timestamp_column
+                else feature_set.spec.timestamp_key
+            )
+            if entity_timestamp_column_list:
+                column_names += entity_timestamp_column_list
+                node.data["save_cols"] += entity_timestamp_column_list
+            df = df.persist()
+            # rename columns to be unique for each feature set
+            rename_col_dict = {
+                col: f"{col}_{name}"
+                for col in column_names
+                if col not in node.data["save_cols"]
+            }
+            df = df.rename(
+                columns=rename_col_dict,
+            )
+            dfs.append(df)
+            del df
+            keys.append([node.data["left_keys"], node.data["right_keys"]])
+            # update alias according to the unique column name
+            new_columns = []
+            for col, alias in columns:
+                if col in rename_col_dict and alias:
+                    new_columns.append((rename_col_dict[col], alias))
+                elif col in rename_col_dict and not alias:
+                    new_columns.append((rename_col_dict[col], col))
+                else:
+                    new_columns.append((col, alias))
+            all_columns.append(new_columns)
+            self._update_alias(
+                dictionary={name: alias for name, alias in new_columns if alias}
+            )
+        self.merge(
+            entity_df=entity_rows,
+            entity_timestamp_column=entity_timestamp_column,
+            featuresets=feature_sets,
+            featureset_dfs=dfs,
+            keys=keys,
+            all_columns=all_columns,
+        )
+        self._result_df = self._result_df.drop(
+            columns=self._drop_columns, errors="ignore"
+        )
+        # renaming all columns according to self._alias
+        self._result_df = self._result_df.rename(
+            columns=self._alias,
+        )
+        if self.vector.status.label_column:
+            self._result_df = self._result_df.dropna(
+                subset=[self.vector.status.label_column]
+            )
+        # filter joined data frame by the query param
+        if query:
+            self._result_df = self._result_df.query(query)
+        if self._drop_indexes:
+            self._result_df = self._reset_index(self._result_df)
+        else:
+            self._result_df = self._set_indexes(self._result_df)
+        self._write_to_target()
+        return OfflineVectorResponse(self)
     def _reset_index(self, df):
         to_drop = df.index.name is None
         df = df.reset_index(drop=to_drop)
@@ -44,13 +178,27 @@ class DaskFeatureMerger(BaseMerger):
         featureset_df,
         left_keys: list,
         right_keys: list,
+        columns: list,
     ):
+        entity_df = self._reset_index(entity_df)
+        entity_df = (
+            entity_df
+            if entity_timestamp_column not in entity_df
+            else entity_df.set_index(entity_timestamp_column, drop=True)
+        )
+        featureset_df = self._reset_index(featureset_df)
+        featureset_df = (
+            featureset_df
+            if entity_timestamp_column not in featureset_df
+            else featureset_df.set_index(entity_timestamp_column, drop=True)
+        )
         merged_df = merge_asof(
             entity_df,
             featureset_df,
-            left_on=entity_timestamp_column,
-            right_on=entity_timestamp_column,
+            left_index=True,
+            right_index=True,
             left_by=left_keys or None,
             right_by=right_keys or None,
             suffixes=("", f"_{featureset.metadata.name}_"),
@@ -69,6 +217,7 @@ class DaskFeatureMerger(BaseMerger):
         featureset_df,
         left_keys: list,
         right_keys: list,
+        columns: list,
     ):
         fs_name = featureset.metadata.name
@@ -92,56 +241,5 @@ class DaskFeatureMerger(BaseMerger):
     def get_df(self, to_pandas=True):
         if to_pandas and hasattr(self._result_df, "dask"):
-            df = self._result_df.compute()
-        else:
-            df = self._result_df
-        self._set_indexes(df)
-        return df
-    def _create_engine_env(self):
-        if "index" not in self._index_columns:
-            self._append_drop_column("index")
-        # init the dask client if needed
-        if not self.client:
-            if self._dask_cluster_uri:
-                function = mlrun.import_function(self._dask_cluster_uri)
-                self.client = function.client
-            else:
-                self.client = Client()
-    def _get_engine_df(
-        self,
-        feature_set,
-        feature_set_name,
-        column_names=None,
-        start_time=None,
-        end_time=None,
-        entity_timestamp_column=None,
-    ):
-        df = feature_set.to_dataframe(
-            columns=column_names,
-            df_module=dd,
-            start_time=start_time,
-            end_time=end_time,
-            time_column=entity_timestamp_column,
-            index=False,
-        )
-        return self._reset_index(df).persist()
-    def _rename_columns_and_select(self, df, rename_col_dict, columns=None):
-        return df.rename(
-            columns=rename_col_dict,
-        )
-    def _drop_columns_from_result(self):
-        self._result_df = self._result_df.drop(
-            columns=self._drop_columns, errors="ignore"
-        )
-    def _filter(self, query):
-        self._result_df = self._result_df.query(query)
-    def _order_by(self, order_by_active):
-        self._result_df.sort_values(by=order_by_active)
+            return self._result_df.compute()
+        return self._result_df

mlrun/feature_store/retrieval/job.py CHANGED Viewed

@@ -39,7 +39,6 @@ def run_merge_job(
     with_indexes=None,
     query=None,
     join_type="inner",
-    order_by=None,
 ):
     name = vector.metadata.name
     if not target or not hasattr(target, "to_dict"):
@@ -104,7 +103,6 @@ def run_merge_job(
             "with_indexes": with_indexes,
             "query": query,
             "join_type": join_type,
-            "order_by": order_by,
             "engine_args": engine_args,
         },
         inputs={"entity_rows": entity_rows},
@@ -149,18 +147,12 @@ class RemoteVectorResponse:
         :param df_module: optional, py module used to create the DataFrame (e.g. pd, dd, cudf, ..)
         :param kwargs:    extended DataItem.as_df() args
         """
         file_format = kwargs.get("format")
         if not file_format:
             file_format = self.run.status.results["target"]["kind"]
-        df = mlrun.get_dataitem(self.target_uri).as_df(
+        return mlrun.get_dataitem(self.target_uri).as_df(
             columns=columns, df_module=df_module, format=file_format, **kwargs
         )
-        if self.vector.spec.with_indexes:
-            df.set_index(
-                list(self.vector.spec.entity_fields.keys()), inplace=True, drop=True
-            )
-        return df
     @property
     def target_uri(self):
@@ -174,8 +166,7 @@ import mlrun
 import mlrun.feature_store.retrieval
 from mlrun.datastore.targets import get_target_driver
 def merge_handler(context, vector_uri, target, entity_rows=None,
-                  timestamp_column=None, drop_columns=None, with_indexes=None, query=None, join_type='inner',
-                  engine_args=None, order_by=None):
+                  timestamp_column=None, drop_columns=None, with_indexes=None, query=None, join_type='inner', engine_args=None):
     vector = context.get_store_resource(vector_uri)
     store_target = get_target_driver(target, vector)
     entity_timestamp_column = timestamp_column or vector.spec.timestamp_field
@@ -185,7 +176,7 @@ def merge_handler(context, vector_uri, target, entity_rows=None,
     context.logger.info(f"starting vector merge task to {vector.uri}")
     merger = mlrun.feature_store.retrieval.{{{engine}}}(vector, **(engine_args or {}))
     merger.start(entity_rows, entity_timestamp_column, store_target, drop_columns, with_indexes=with_indexes,
-                 query=query, join_type=join_type, order_by=order_by)
+                 query=query, join_type=join_type)
     target = vector.status.targets[store_target.name].to_dict()
     context.log_result('feature_vector', vector.uri)

mlrun/feature_store/retrieval/local_merger.py CHANGED Viewed

@@ -16,6 +16,7 @@ import re
 import pandas as pd
+from ..feature_vector import OfflineVectorResponse
 from .base import BaseMerger
@@ -25,6 +26,133 @@ class LocalFeatureMerger(BaseMerger):
     def __init__(self, vector, **engine_args):
         super().__init__(vector, **engine_args)
+    def _generate_vector(
+        self,
+        entity_rows,
+        entity_timestamp_column,
+        feature_set_objects,
+        feature_set_fields,
+        start_time=None,
+        end_time=None,
+        query=None,
+    ):
+        feature_sets = []
+        dfs = []
+        keys = (
+            []
+        )  # the struct of key is [[[],[]], ..] So that each record indicates which way the corresponding
+        # featureset is connected to the previous one, and within each record the left keys are indicated in index 0
+        # and the right keys in index 1, this keys will be the keys that will be used in this join
+        all_columns = []
+        fs_link_list = self._create_linked_relation_list(
+            feature_set_objects, feature_set_fields
+        )
+        for node in fs_link_list:
+            name = node.name
+            feature_set = feature_set_objects[name]
+            feature_sets.append(feature_set)
+            columns = feature_set_fields[name]
+            column_names = [name for name, alias in columns]
+            for col in node.data["save_cols"]:
+                if col not in column_names:
+                    self._append_drop_column(col)
+            column_names += node.data["save_cols"]
+            # handling case where there are multiple feature sets and user creates vector where entity_timestamp_
+            # column is from a specific feature set (can't be entity timestamp)
+            if (
+                entity_timestamp_column in column_names
+                or feature_set.spec.timestamp_key == entity_timestamp_column
+            ):
+                df = feature_set.to_dataframe(
+                    columns=column_names,
+                    start_time=start_time,
+                    end_time=end_time,
+                    time_column=entity_timestamp_column,
+                )
+            else:
+                df = feature_set.to_dataframe(
+                    columns=column_names,
+                    time_column=entity_timestamp_column,
+                )
+            if df.index.names[0]:
+                df.reset_index(inplace=True)
+            column_names += node.data["save_index"]
+            node.data["save_cols"] += node.data["save_index"]
+            entity_timestamp_column_list = (
+                [entity_timestamp_column]
+                if entity_timestamp_column
+                else feature_set.spec.timestamp_key
+            )
+            if entity_timestamp_column_list:
+                column_names += entity_timestamp_column_list
+                node.data["save_cols"] += entity_timestamp_column_list
+            # rename columns to be unique for each feature set
+            rename_col_dict = {
+                col: f"{col}_{name}"
+                for col in column_names
+                if col not in node.data["save_cols"]
+            }
+            df.rename(
+                columns=rename_col_dict,
+                inplace=True,
+            )
+            dfs.append(df)
+            keys.append([node.data["left_keys"], node.data["right_keys"]])
+            # update alias according to the unique column name
+            new_columns = []
+            for col, alias in columns:
+                if col in rename_col_dict and alias:
+                    new_columns.append((rename_col_dict[col], alias))
+                elif col in rename_col_dict and not alias:
+                    new_columns.append((rename_col_dict[col], col))
+                else:
+                    new_columns.append((col, alias))
+            all_columns.append(new_columns)
+            self._update_alias(
+                dictionary={name: alias for name, alias in new_columns if alias}
+            )
+        self.merge(
+            entity_df=entity_rows,
+            entity_timestamp_column=entity_timestamp_column,
+            featuresets=feature_sets,
+            featureset_dfs=dfs,
+            keys=keys,
+            all_columns=all_columns,
+        )
+        self._result_df.drop(columns=self._drop_columns, inplace=True, errors="ignore")
+        # renaming all columns according to self._alias
+        self._result_df.rename(
+            columns=self._alias,
+            inplace=True,
+        )
+        if self.vector.status.label_column:
+            self._result_df.dropna(
+                subset=[self.vector.status.label_column],
+                inplace=True,
+            )
+        # filter joined data frame by the query param
+        if query:
+            self._result_df.query(query, inplace=True)
+        if self._drop_indexes:
+            self._result_df.reset_index(drop=True, inplace=True)
+        else:
+            self._set_indexes(self._result_df)
+        self._write_to_target()
+        return OfflineVectorResponse(self)
     def _asof_join(
         self,
         entity_df,
@@ -33,6 +161,7 @@ class LocalFeatureMerger(BaseMerger):
         featureset_df,
         left_keys: list,
         right_keys: list,
+        columns: list,
     ):
         indexes = None
@@ -84,6 +213,7 @@ class LocalFeatureMerger(BaseMerger):
         featureset_df,
         left_keys: list,
         right_keys: list,
+        columns: list,
     ):
         fs_name = featureset.metadata.name
         merged_df = pd.merge(
@@ -98,51 +228,3 @@ class LocalFeatureMerger(BaseMerger):
             if re.findall(f"_{fs_name}_$", col):
                 self._append_drop_column(col)
         return merged_df
-    def _create_engine_env(self):
-        pass
-    def _get_engine_df(
-        self,
-        feature_set,
-        feature_set_name,
-        column_names=None,
-        start_time=None,
-        end_time=None,
-        entity_timestamp_column=None,
-    ):
-        # handling case where there are multiple feature sets and user creates vector where entity_timestamp_
-        # column is from a specific feature set (can't be entity timestamp)
-        if (
-            entity_timestamp_column in column_names
-            or feature_set.spec.timestamp_key == entity_timestamp_column
-        ):
-            df = feature_set.to_dataframe(
-                columns=column_names,
-                start_time=start_time,
-                end_time=end_time,
-                time_column=entity_timestamp_column,
-            )
-        else:
-            df = feature_set.to_dataframe(
-                columns=column_names,
-                time_column=entity_timestamp_column,
-            )
-        if df.index.names[0]:
-            df.reset_index(inplace=True)
-        return df
-    def _rename_columns_and_select(self, df, rename_col_dict, columns=None):
-        df.rename(
-            columns=rename_col_dict,
-            inplace=True,
-        )
-    def _drop_columns_from_result(self):
-        self._result_df.drop(columns=self._drop_columns, inplace=True, errors="ignore")
-    def _filter(self, query):
-        self._result_df.query(query, inplace=True)
-    def _order_by(self, order_by_active):
-        self._result_df.sort_values(by=order_by_active, ignore_index=True, inplace=True)

mlrun 1.3.2rc1__py3-none-any.whl → 1.3.2rc2__py3-none-any.whl

Potentially problematic release.

mlrun 1.3.2rc1py3-none-any.whl → 1.3.2rc2py3-none-any.whl