RubyGems - easy_ml - Versions diffs - 0.1.4 → 0.2.0.pre.rc1 - Mend

easy_ml 0.1.4 → 0.2.0.pre.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (239) hide show

checksums.yaml +4 -4
data/README.md +234 -26
data/Rakefile +45 -0
data/app/controllers/easy_ml/application_controller.rb +67 -0
data/app/controllers/easy_ml/columns_controller.rb +38 -0
data/app/controllers/easy_ml/datasets_controller.rb +156 -0
data/app/controllers/easy_ml/datasources_controller.rb +88 -0
data/app/controllers/easy_ml/deploys_controller.rb +20 -0
data/app/controllers/easy_ml/models_controller.rb +151 -0
data/app/controllers/easy_ml/retraining_runs_controller.rb +19 -0
data/app/controllers/easy_ml/settings_controller.rb +59 -0
data/app/frontend/components/AlertProvider.tsx +108 -0
data/app/frontend/components/DatasetPreview.tsx +161 -0
data/app/frontend/components/EmptyState.tsx +28 -0
data/app/frontend/components/ModelCard.tsx +255 -0
data/app/frontend/components/ModelDetails.tsx +334 -0
data/app/frontend/components/ModelForm.tsx +384 -0
data/app/frontend/components/Navigation.tsx +300 -0
data/app/frontend/components/Pagination.tsx +72 -0
data/app/frontend/components/Popover.tsx +55 -0
data/app/frontend/components/PredictionStream.tsx +105 -0
data/app/frontend/components/ScheduleModal.tsx +726 -0
data/app/frontend/components/SearchInput.tsx +23 -0
data/app/frontend/components/SearchableSelect.tsx +132 -0
data/app/frontend/components/dataset/AutosaveIndicator.tsx +39 -0
data/app/frontend/components/dataset/ColumnConfigModal.tsx +431 -0
data/app/frontend/components/dataset/ColumnFilters.tsx +256 -0
data/app/frontend/components/dataset/ColumnList.tsx +101 -0
data/app/frontend/components/dataset/FeatureConfigPopover.tsx +57 -0
data/app/frontend/components/dataset/FeaturePicker.tsx +205 -0
data/app/frontend/components/dataset/PreprocessingConfig.tsx +704 -0
data/app/frontend/components/dataset/SplitConfigurator.tsx +120 -0
data/app/frontend/components/dataset/splitters/DateSplitter.tsx +58 -0
data/app/frontend/components/dataset/splitters/KFoldSplitter.tsx +68 -0
data/app/frontend/components/dataset/splitters/LeavePOutSplitter.tsx +29 -0
data/app/frontend/components/dataset/splitters/PredefinedSplitter.tsx +146 -0
data/app/frontend/components/dataset/splitters/RandomSplitter.tsx +85 -0
data/app/frontend/components/dataset/splitters/StratifiedSplitter.tsx +79 -0
data/app/frontend/components/dataset/splitters/constants.ts +77 -0
data/app/frontend/components/dataset/splitters/types.ts +168 -0
data/app/frontend/components/dataset/splitters/utils.ts +53 -0
data/app/frontend/components/features/CodeEditor.tsx +46 -0
data/app/frontend/components/features/DataPreview.tsx +150 -0
data/app/frontend/components/features/FeatureCard.tsx +88 -0
data/app/frontend/components/features/FeatureForm.tsx +235 -0
data/app/frontend/components/features/FeatureGroupCard.tsx +54 -0
data/app/frontend/components/settings/PluginSettings.tsx +81 -0
data/app/frontend/components/ui/badge.tsx +44 -0
data/app/frontend/components/ui/collapsible.tsx +9 -0
data/app/frontend/components/ui/scroll-area.tsx +46 -0
data/app/frontend/components/ui/separator.tsx +29 -0
data/app/frontend/entrypoints/App.tsx +40 -0
data/app/frontend/entrypoints/Application.tsx +24 -0
data/app/frontend/hooks/useAutosave.ts +61 -0
data/app/frontend/layouts/Layout.tsx +38 -0
data/app/frontend/lib/utils.ts +6 -0
data/app/frontend/mockData.ts +272 -0
data/app/frontend/pages/DatasetDetailsPage.tsx +103 -0
data/app/frontend/pages/DatasetsPage.tsx +261 -0
data/app/frontend/pages/DatasourceFormPage.tsx +147 -0
data/app/frontend/pages/DatasourcesPage.tsx +261 -0
data/app/frontend/pages/EditModelPage.tsx +45 -0
data/app/frontend/pages/EditTransformationPage.tsx +56 -0
data/app/frontend/pages/ModelsPage.tsx +115 -0
data/app/frontend/pages/NewDatasetPage.tsx +366 -0
data/app/frontend/pages/NewModelPage.tsx +45 -0
data/app/frontend/pages/NewTransformationPage.tsx +43 -0
data/app/frontend/pages/SettingsPage.tsx +272 -0
data/app/frontend/pages/ShowModelPage.tsx +30 -0
data/app/frontend/pages/TransformationsPage.tsx +95 -0
data/app/frontend/styles/application.css +100 -0
data/app/frontend/types/dataset.ts +146 -0
data/app/frontend/types/datasource.ts +33 -0
data/app/frontend/types/preprocessing.ts +1 -0
data/app/frontend/types.ts +113 -0
data/app/helpers/easy_ml/application_helper.rb +10 -0
data/app/jobs/easy_ml/application_job.rb +21 -0
data/app/jobs/easy_ml/batch_job.rb +46 -0
data/app/jobs/easy_ml/compute_feature_job.rb +19 -0
data/app/jobs/easy_ml/deploy_job.rb +13 -0
data/app/jobs/easy_ml/finalize_feature_job.rb +15 -0
data/app/jobs/easy_ml/refresh_dataset_job.rb +32 -0
data/app/jobs/easy_ml/schedule_retraining_job.rb +11 -0
data/app/jobs/easy_ml/sync_datasource_job.rb +17 -0
data/app/jobs/easy_ml/training_job.rb +62 -0
data/app/models/easy_ml/adapters/base_adapter.rb +45 -0
data/app/models/easy_ml/adapters/polars_adapter.rb +77 -0
data/app/models/easy_ml/cleaner.rb +82 -0
data/app/models/easy_ml/column.rb +124 -0
data/app/models/easy_ml/column_history.rb +30 -0
data/app/models/easy_ml/column_list.rb +122 -0
data/app/models/easy_ml/concerns/configurable.rb +61 -0
data/app/models/easy_ml/concerns/versionable.rb +19 -0
data/app/models/easy_ml/dataset.rb +767 -0
data/app/models/easy_ml/dataset_history.rb +56 -0
data/app/models/easy_ml/datasource.rb +182 -0
data/app/models/easy_ml/datasource_history.rb +24 -0
data/app/models/easy_ml/datasources/base_datasource.rb +54 -0
data/app/models/easy_ml/datasources/file_datasource.rb +58 -0
data/app/models/easy_ml/datasources/polars_datasource.rb +89 -0
data/app/models/easy_ml/datasources/s3_datasource.rb +97 -0
data/app/models/easy_ml/deploy.rb +114 -0
data/app/models/easy_ml/event.rb +79 -0
data/app/models/easy_ml/feature.rb +437 -0
data/app/models/easy_ml/feature_history.rb +38 -0
data/app/models/easy_ml/model.rb +575 -41
data/app/models/easy_ml/model_file.rb +133 -0
data/app/models/easy_ml/model_file_history.rb +24 -0
data/app/models/easy_ml/model_history.rb +51 -0
data/app/models/easy_ml/models/base_model.rb +58 -0
data/app/models/easy_ml/models/hyperparameters/base.rb +99 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/dart.rb +82 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/gblinear.rb +82 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/gbtree.rb +97 -0
data/app/models/easy_ml/models/hyperparameters/xgboost.rb +71 -0
data/app/models/easy_ml/models/xgboost/evals_callback.rb +138 -0
data/app/models/easy_ml/models/xgboost/progress_callback.rb +39 -0
data/app/models/easy_ml/models/xgboost.rb +544 -5
data/app/models/easy_ml/prediction.rb +44 -0
data/app/models/easy_ml/retraining_job.rb +278 -0
data/app/models/easy_ml/retraining_run.rb +184 -0
data/app/models/easy_ml/settings.rb +37 -0
data/app/models/easy_ml/splitter.rb +90 -0
data/app/models/easy_ml/splitters/base_splitter.rb +28 -0
data/app/models/easy_ml/splitters/date_splitter.rb +91 -0
data/app/models/easy_ml/splitters/predefined_splitter.rb +74 -0
data/app/models/easy_ml/splitters/random_splitter.rb +82 -0
data/app/models/easy_ml/tuner_job.rb +56 -0
data/app/models/easy_ml/tuner_run.rb +31 -0
data/app/models/splitter_history.rb +6 -0
data/app/serializers/easy_ml/column_serializer.rb +27 -0
data/app/serializers/easy_ml/dataset_serializer.rb +73 -0
data/app/serializers/easy_ml/datasource_serializer.rb +64 -0
data/app/serializers/easy_ml/feature_serializer.rb +27 -0
data/app/serializers/easy_ml/model_serializer.rb +90 -0
data/app/serializers/easy_ml/retraining_job_serializer.rb +22 -0
data/app/serializers/easy_ml/retraining_run_serializer.rb +39 -0
data/app/serializers/easy_ml/settings_serializer.rb +9 -0
data/app/views/layouts/easy_ml/application.html.erb +15 -0
data/config/initializers/resque.rb +3 -0
data/config/resque-pool.yml +6 -0
data/config/routes.rb +39 -0
data/config/spring.rb +1 -0
data/config/vite.json +15 -0
data/lib/easy_ml/configuration.rb +64 -0
data/lib/easy_ml/core/evaluators/base_evaluator.rb +53 -0
data/lib/easy_ml/core/evaluators/classification_evaluators.rb +126 -0
data/lib/easy_ml/core/evaluators/regression_evaluators.rb +66 -0
data/lib/easy_ml/core/model_evaluator.rb +161 -89
data/lib/easy_ml/core/tuner/adapters/base_adapter.rb +28 -18
data/lib/easy_ml/core/tuner/adapters/xgboost_adapter.rb +4 -25
data/lib/easy_ml/core/tuner.rb +123 -62
data/lib/easy_ml/core.rb +0 -3
data/lib/easy_ml/core_ext/hash.rb +24 -0
data/lib/easy_ml/core_ext/pathname.rb +11 -5
data/lib/easy_ml/data/date_converter.rb +90 -0
data/lib/easy_ml/data/filter_extensions.rb +31 -0
data/lib/easy_ml/data/polars_column.rb +126 -0
data/lib/easy_ml/data/polars_reader.rb +297 -0
data/lib/easy_ml/data/preprocessor.rb +280 -142
data/lib/easy_ml/data/simple_imputer.rb +255 -0
data/lib/easy_ml/data/splits/file_split.rb +252 -0
data/lib/easy_ml/data/splits/in_memory_split.rb +54 -0
data/lib/easy_ml/data/splits/split.rb +95 -0
data/lib/easy_ml/data/splits.rb +9 -0
data/lib/easy_ml/data/statistics_learner.rb +93 -0
data/lib/easy_ml/data/synced_directory.rb +341 -0
data/lib/easy_ml/data.rb +6 -2
data/lib/easy_ml/engine.rb +105 -6
data/lib/easy_ml/feature_store.rb +227 -0
data/lib/easy_ml/features.rb +61 -0
data/lib/easy_ml/initializers/inflections.rb +17 -3
data/lib/easy_ml/logging.rb +2 -2
data/lib/easy_ml/predict.rb +74 -0
data/lib/easy_ml/railtie/generators/migration/migration_generator.rb +192 -36
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_column_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_columns.rb.tt +25 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_dataset_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasets.rb.tt +31 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasource_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasources.rb.tt +16 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_deploys.rb.tt +24 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_events.rb.tt +20 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_feature_histories.rb.tt +14 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_features.rb.tt +32 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_file_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_files.rb.tt +17 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_models.rb.tt +20 -9
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_predictions.rb.tt +17 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_retraining_jobs.rb.tt +77 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_settings.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_splitter_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_splitters.rb.tt +15 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_tuner_jobs.rb.tt +40 -0
data/lib/easy_ml/support/est.rb +5 -1
data/lib/easy_ml/support/file_rotate.rb +79 -15
data/lib/easy_ml/support/file_support.rb +9 -0
data/lib/easy_ml/support/local_file.rb +24 -0
data/lib/easy_ml/support/lockable.rb +62 -0
data/lib/easy_ml/support/synced_file.rb +103 -0
data/lib/easy_ml/support/utc.rb +5 -1
data/lib/easy_ml/support.rb +6 -3
data/lib/easy_ml/version.rb +4 -1
data/lib/easy_ml.rb +7 -2
metadata +355 -72
data/app/models/easy_ml/models.rb +0 -5
data/lib/easy_ml/core/model.rb +0 -30
data/lib/easy_ml/core/model_core.rb +0 -181
data/lib/easy_ml/core/models/hyperparameters/base.rb +0 -34
data/lib/easy_ml/core/models/hyperparameters/xgboost.rb +0 -19
data/lib/easy_ml/core/models/xgboost.rb +0 -10
data/lib/easy_ml/core/models/xgboost_core.rb +0 -220
data/lib/easy_ml/core/models.rb +0 -10
data/lib/easy_ml/core/uploaders/model_uploader.rb +0 -24
data/lib/easy_ml/core/uploaders.rb +0 -7
data/lib/easy_ml/data/dataloader.rb +0 -6
data/lib/easy_ml/data/dataset/data/preprocessor/statistics.json +0 -31
data/lib/easy_ml/data/dataset/data/sample_info.json +0 -1
data/lib/easy_ml/data/dataset/dataset/files/sample_info.json +0 -1
data/lib/easy_ml/data/dataset/splits/file_split.rb +0 -140
data/lib/easy_ml/data/dataset/splits/in_memory_split.rb +0 -49
data/lib/easy_ml/data/dataset/splits/split.rb +0 -98
data/lib/easy_ml/data/dataset/splits.rb +0 -11
data/lib/easy_ml/data/dataset/splitters/date_splitter.rb +0 -43
data/lib/easy_ml/data/dataset/splitters.rb +0 -9
data/lib/easy_ml/data/dataset.rb +0 -430
data/lib/easy_ml/data/datasource/datasource_factory.rb +0 -60
data/lib/easy_ml/data/datasource/file_datasource.rb +0 -40
data/lib/easy_ml/data/datasource/merged_datasource.rb +0 -64
data/lib/easy_ml/data/datasource/polars_datasource.rb +0 -41
data/lib/easy_ml/data/datasource/s3_datasource.rb +0 -89
data/lib/easy_ml/data/datasource.rb +0 -33
data/lib/easy_ml/data/preprocessor/preprocessor.rb +0 -205
data/lib/easy_ml/data/preprocessor/simple_imputer.rb +0 -402
data/lib/easy_ml/deployment.rb +0 -5
data/lib/easy_ml/support/synced_directory.rb +0 -134
data/lib/easy_ml/transforms.rb +0 -29
/data/{lib/easy_ml/core → app/models/easy_ml}/models/hyperparameters.rb +0 -0

data/config/vite.json ADDED Viewed

@@ -0,0 +1,15 @@
+{
+  "all": {
+    "sourceCodeDir": "app/frontend",
+    "watchAdditionalPaths": [],
+    "publicOutputDir": "easy-ml"
+  },
+  "development": {
+    "autoBuild": true,
+    "port": 3037
+  },
+  "test": {
+    "autoBuild": true,
+    "publicOutputDir": "vite-test"
+  }
+}

data/lib/easy_ml/configuration.rb ADDED Viewed

@@ -0,0 +1,64 @@
+require "singleton"
+require_relative "../../app/models/easy_ml/settings"
+module EasyML
+  class Configuration
+    include Singleton
+    TIMEZONES = [
+      { value: "America/New_York", label: "Eastern Time" },
+      { value: "America/Chicago", label: "Central Time" },
+      { value: "America/Denver", label: "Mountain Time" },
+      { value: "America/Los_Angeles", label: "Pacific Time" },
+    ]
+    KEYS = EasyML::Settings.configuration_attributes
+    LABELER = {
+      timezone: TIMEZONES,
+    }
+    KEYS.each do |key|
+      define_method "#{key}=" do |value|
+        db_settings.send("#{key}=", value)
+      end
+      define_method key do
+        db_settings.send(key)
+      end
+      if LABELER.key?(key.to_sym)
+        define_method "#{key}_label" do
+          LABELER[key].find { |h| h[:value] == send(key) }[:label]
+        end
+      end
+    end
+    class << self
+      def configure
+        yield instance
+        instance.db_settings.save
+      end
+      KEYS.each do |key|
+        define_method key do
+          instance.send(key)
+        end
+        if LABELER.key?(key.to_sym)
+          define_method "#{key}_label" do
+            instance.send("#{key}_label")
+          end
+        end
+      end
+      private
+      def db_settings
+        instance.db_settings
+      end
+    end
+    def db_settings
+      @db_settings ||= EasyML::Settings.first_or_create
+    end
+  end
+end

data/lib/easy_ml/core/evaluators/base_evaluator.rb ADDED Viewed

@@ -0,0 +1,53 @@
+module EasyML
+  module Core
+    module Evaluators
+      module BaseEvaluator
+        def self.included(base)
+          base.extend(ClassMethods)
+        end
+        def direction
+          "minimize"
+        end
+        def label
+          key.split("_").join(" ").titleize
+        end
+        def to_option
+          EasyML::Option.new(to_h)
+        end
+        def to_h
+          {
+            value: key,
+            label: label,
+            direction: direction
+          }
+        end
+        def key
+          self.class.name.split("::").last.underscore
+        end
+        # Instance methods that evaluators must implement
+        def evaluate(y_pred: nil, y_true: nil, x_true: nil)
+          raise NotImplementedError, "#{self.class} must implement #evaluate"
+        end
+        def calculate_result(metrics)
+          metrics.symbolize_keys!
+          metrics[metric.to_sym]
+        end
+        module ClassMethods
+          def self.extended(base)
+            class << base
+              attr_accessor :registry
+            end
+          end
+        end
+      end
+    end
+  end
+end

data/lib/easy_ml/core/evaluators/classification_evaluators.rb ADDED Viewed

@@ -0,0 +1,126 @@
+module EasyML
+  module Core
+    module Evaluators
+      module ClassificationEvaluators
+        class AccuracyScore
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            y_pred = Numo::Int32.cast(y_pred)
+            y_true = Numo::Int32.cast(y_true)
+            y_pred.eq(y_true).count_true.to_f / y_pred.size
+          end
+          def direction
+            "maximize"
+          end
+        end
+        class PrecisionScore
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            y_pred = Numo::Int32.cast(y_pred)
+            y_true = Numo::Int32.cast(y_true)
+            true_positives = (y_pred.eq(1) & y_true.eq(1)).count_true
+            predicted_positives = y_pred.eq(1).count_true
+            return 0 if predicted_positives.zero?
+            true_positives.to_f / predicted_positives
+          end
+          def direction
+            "maximize"
+          end
+        end
+        class RecallScore
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            y_pred = Numo::Int32.cast(y_pred)
+            y_true = Numo::Int32.cast(y_true)
+            true_positives = (y_pred.eq(1) & y_true.eq(1)).count_true
+            actual_positives = y_true.eq(1).count_true
+            true_positives.to_f / actual_positives
+          end
+          def direction
+            "maximize"
+          end
+        end
+        class F1Score
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            precision = PrecisionScore.new.evaluate(y_pred: y_pred, y_true: y_true)
+            recall = RecallScore.new.evaluate(y_pred: y_pred, y_true: y_true)
+            return 0 unless (precision + recall) > 0
+            2 * (precision * recall) / (precision + recall)
+          end
+          def direction
+            "maximize"
+          end
+        end
+        class AUC
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            y_pred = Numo::DFloat.cast(y_pred)
+            y_true = Numo::Int32.cast(y_true)
+            sorted_indices = y_pred.sort_index
+            y_pred[sorted_indices]
+            y_true_sorted = y_true[sorted_indices]
+            true_positive_rate = []
+            false_positive_rate = []
+            positive_count = y_true_sorted.eq(1).count_true
+            negative_count = y_true_sorted.eq(0).count_true
+            tp = 0
+            fp = 0
+            y_true_sorted.each do |label|
+              if label == 1
+                tp += 1
+              else
+                fp += 1
+              end
+              true_positive_rate << tp.to_f / positive_count
+              false_positive_rate << fp.to_f / negative_count
+            end
+            # Compute the AUC using the trapezoidal rule
+            tpr = Numo::DFloat[*true_positive_rate]
+            fpr = Numo::DFloat[*false_positive_rate]
+            auc = ((fpr[1..-1] - fpr[0...-1]) * (tpr[1..-1] + tpr[0...-1]) / 2.0).sum
+            auc
+          end
+          def direction
+            "maximize"
+          end
+        end
+        class ROC_AUC
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            AUC.new.evaluate(y_pred: y_pred, y_true: y_true)
+          end
+          def direction
+            "maximize"
+          end
+        end
+      end
+    end
+  end
+end

data/lib/easy_ml/core/evaluators/regression_evaluators.rb ADDED Viewed

@@ -0,0 +1,66 @@
+module EasyML
+  module Core
+    module Evaluators
+      module RegressionEvaluators
+        class MeanAbsoluteError
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            (Numo::DFloat.cast(y_pred) - Numo::DFloat.cast(y_true)).abs.mean
+          end
+          def direction
+            "minimize"
+          end
+        end
+        class MeanSquaredError
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            ((Numo::DFloat.cast(y_pred) - Numo::DFloat.cast(y_true)) ** 2).mean
+          end
+          def direction
+            "minimize"
+          end
+        end
+        class RootMeanSquaredError
+          include BaseEvaluator
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            Math.sqrt(((Numo::DFloat.cast(y_pred) - Numo::DFloat.cast(y_true)) ** 2).mean)
+          end
+          def direction
+            "minimize"
+          end
+        end
+        class R2Score
+          include BaseEvaluator
+          def direction
+            "maximize"
+          end
+          def evaluate(y_pred:, y_true:, x_true: nil)
+            y_true = Numo::DFloat.cast(y_true)
+            y_pred = Numo::DFloat.cast(y_pred)
+            mean_y = y_true.mean
+            ss_tot = ((y_true - mean_y) ** 2).sum
+            ss_res = ((y_true - y_pred) ** 2).sum
+            if ss_tot.zero?
+              ss_res.zero? ? 1.0 : Float::NAN
+            else
+              1 - (ss_res / ss_tot)
+            end
+          end
+        end
+      end
+    end
+  end
+end

data/lib/easy_ml/core/model_evaluator.rb CHANGED Viewed

@@ -1,78 +1,86 @@
+require "numo/narray"
+require_relative "evaluators/base_evaluator"
+require_relative "evaluators/regression_evaluators"
+require_relative "evaluators/classification_evaluators"
 module EasyML
   module Core
     class ModelEvaluator
-      require "numo/narray"
-      EVALUATORS = {
-        mean_absolute_error: lambda { |y_pred, y_true|
-          (Numo::DFloat.cast(y_pred) - Numo::DFloat.cast(y_true)).abs.mean
-        },
-        mean_squared_error: lambda { |y_pred, y_true|
-          ((Numo::DFloat.cast(y_pred) - Numo::DFloat.cast(y_true))**2).mean
-        },
-        root_mean_squared_error: lambda { |y_pred, y_true|
-          Math.sqrt(((Numo::DFloat.cast(y_pred) - Numo::DFloat.cast(y_true))**2).mean)
-        },
-        r2_score: lambda { |y_pred, y_true|
-          # Convert inputs to Numo::DFloat for numerical operations
-          y_true = Numo::DFloat.cast(y_true)
-          y_pred = Numo::DFloat.cast(y_pred)
-          # Calculate the mean of the true values
-          mean_y = y_true.mean
-          # Calculate Total Sum of Squares (SS_tot)
-          ss_tot = ((y_true - mean_y)**2).sum
-          # Calculate Residual Sum of Squares (SS_res)
-          ss_res = ((y_true - y_pred)**2).sum
-          # Handle the edge case where SS_tot is zero
-          if ss_tot.zero?
-            if ss_res.zero?
-              # Perfect prediction when both SS_tot and SS_res are zero
-              1.0
-            else
-              # Undefined R² when SS_tot is zero but SS_res is not
-              Float::NAN
+      class << self
+        def callbacks=(callback)
+          @callbacks ||= []
+          @callbacks.push(callback)
+        end
+        def callbacks
+          @callbacks || []
+        end
+        def register(metric_name, evaluator, type, aliases = {})
+          @registry ||= {}
+          unless evaluator.included_modules.include?(Evaluators::BaseEvaluator)
+            evaluator.include(Evaluators::BaseEvaluator)
+          end
+          callbacks.each do |callback|
+            callback.call(metric_name)
+          end
+          @registry[metric_name.to_sym] = {
+            evaluator: evaluator,
+            type: type,
+            aliases: (aliases || []).map(&:to_sym),
+          }
+        end
+        def get(name)
+          return if name.nil?
+          @registry ||= {}
+          option = (@registry[name.to_sym] || @registry.detect do |_k, opts|
+            opts[:aliases].include?(name.to_sym)
+          end.last) || {}
+          option.dig(:evaluator)
+        end
+        def for_frontend(evaluator)
+          evaluator.new.to_h
+        end
+        def default_evaluator(task)
+          {
+            classification: {
+              metric: "accuracy_score",
+              threshold: 0.70,
+              direction: "maximize",
+            },
+            regression: {
+              metric: "root_mean_squared_error",
+              threshold: 10,
+              direction: "minimize",
+            },
+          }[task.to_sym]
+        end
+        def metrics_by_task
+          @registry.group_by { |_key, metric| metric[:type] }.transform_values do |group|
+            group.flat_map do |metric|
+              for_frontend(metric.last.dig(:evaluator))
             end
+          end
+        end
+        def metrics(task = nil)
+          if task.nil?
+            @registry.keys
           else
-            # Calculate R²
-            1 - (ss_res / ss_tot)
+            @registry.select do |_k, v|
+              v[:type].to_sym == task.to_sym
+            end.keys
           end
-        },
-        accuracy_score: lambda { |y_pred, y_true|
-          y_pred = Numo::Int32.cast(y_pred)
-          y_true = Numo::Int32.cast(y_true)
-          y_pred.eq(y_true).count_true.to_f / y_pred.size
-        },
-        precision_score: lambda { |y_pred, y_true|
-          y_pred = Numo::Int32.cast(y_pred)
-          y_true = Numo::Int32.cast(y_true)
-          true_positives = (y_pred.eq(1) & y_true.eq(1)).count_true
-          predicted_positives = y_pred.eq(1).count_true
-          return 0 if predicted_positives == 0
-          true_positives.to_f / predicted_positives
-        },
-        recall_score: lambda { |y_pred, y_true|
-          y_pred = Numo::Int32.cast(y_pred)
-          y_true = Numo::Int32.cast(y_true)
-          true_positives = (y_pred.eq(1) & y_true.eq(1)).count_true
-          actual_positives = y_true.eq(1).count_true
-          true_positives.to_f / actual_positives
-        },
-        f1_score: lambda { |y_pred, y_true|
-          precision = EVALUATORS[:precision_score].call(y_pred, y_true) || 0
-          recall = EVALUATORS[:recall_score].call(y_pred, y_true) || 0
-          return 0 unless (precision + recall) > 0
-          2 * (precision * recall) / (precision + recall)
-        }
-      }
+        end
-      class << self
-        def evaluate(model: nil, y_pred: nil, y_true: nil, x_true: nil, evaluator: nil)
+        def evaluate(model:, y_pred:, y_true:, x_true: nil, evaluator: nil)
           y_pred = normalize_input(y_pred)
           y_true = normalize_input(y_true)
           check_size(y_pred, y_true)
@@ -80,45 +88,46 @@ module EasyML
           metrics_results = {}
           model.metrics.each do |metric|
-            if metric.is_a?(Module) || metric.is_a?(Class)
-              unless metric.respond_to?(:evaluate)
-                raise "Metric #{metric} must respond to #evaluate in order to be used as a custom evaluator"
-              end
-              metrics_results[metric.name] = metric.evaluate(y_pred, y_true)
-            elsif EVALUATORS.key?(metric.to_sym)
-              metrics_results[metric.to_sym] =
-                EVALUATORS[metric.to_sym].call(y_pred, y_true)
-            end
+            evaluator_class = get(metric.to_sym)
+            next unless evaluator_class
+            evaluator_instance = evaluator_class.new
+            metrics_results[metric.to_sym] = evaluator_instance.evaluate(
+              y_pred: y_pred,
+              y_true: y_true,
+              x_true: x_true,
+            )
           end
           if evaluator.present?
-            if evaluator.is_a?(Class)
-              response = evaluator.new.evaluate(y_pred: y_pred, y_true: y_true, x_true: x_true)
-            elsif evaluator.respond_to?(:evaluate)
-              response = evaluator.evaluate(y_pred: y_pred, y_true: y_true, x_true: x_true)
-            elsif evaluator.respond_to?(:call)
-              response = evaluator.call(y_pred: y_pred, y_true: y_true, x_true: x_true)
-            else
-              raise "Don't know how to use CustomEvaluator. Must be a class that responds to evaluate or lambda"
-            end
+            evaluator = evaluator.symbolize_keys!
+            evaluator_class = get(evaluator[:metric])
+            raise "Unknown evaluator: #{evaluator}" unless evaluator_class
+            evaluator_instance = evaluator_class.new
+            response = evaluator_instance.evaluate(y_pred: y_pred, y_true: y_true, x_true: x_true)
             if response.is_a?(Hash)
               metrics_results.merge!(response)
             else
-              metrics_results[:custom] = response
+              metrics_results[evaluator[:metric].to_sym] = response
             end
           end
-          metrics_results
+          metrics_results.symbolize_keys
         end
+        private
         def check_size(y_pred, y_true)
           raise ArgumentError, "Different sizes" if y_true.size != y_pred.size
         end
         def normalize_input(input)
           case input
+          when Array
+            Numo::DFloat.cast(input)
           when Polars::DataFrame
             if input.columns.count > 1
               raise ArgumentError, "Don't know how to evaluate input with multiple columns: #{input}"
@@ -135,3 +144,66 @@ module EasyML
     end
   end
 end
+# Register default evaluators
+EasyML::Core::ModelEvaluator.register(
+  :mean_absolute_error,
+  EasyML::Core::Evaluators::RegressionEvaluators::MeanAbsoluteError,
+  :regression,
+  %w[mae]
+)
+EasyML::Core::ModelEvaluator.register(
+  :mean_squared_error,
+  EasyML::Core::Evaluators::RegressionEvaluators::MeanSquaredError,
+  :regression,
+  %w[mse]
+)
+EasyML::Core::ModelEvaluator.register(
+  :root_mean_squared_error,
+  EasyML::Core::Evaluators::RegressionEvaluators::RootMeanSquaredError,
+  :regression,
+  %w[rmse]
+)
+EasyML::Core::ModelEvaluator.register(
+  :r2_score,
+  EasyML::Core::Evaluators::RegressionEvaluators::R2Score,
+  :regression,
+  %w[r2]
+)
+EasyML::Core::ModelEvaluator.register(
+  :accuracy_score,
+  EasyML::Core::Evaluators::ClassificationEvaluators::AccuracyScore,
+  :classification,
+  %w[accuracy]
+)
+EasyML::Core::ModelEvaluator.register(
+  :precision_score,
+  EasyML::Core::Evaluators::ClassificationEvaluators::PrecisionScore,
+  :classification,
+  %w[precision]
+)
+EasyML::Core::ModelEvaluator.register(
+  :recall_score,
+  EasyML::Core::Evaluators::ClassificationEvaluators::RecallScore,
+  :classification,
+  %w[recall]
+)
+EasyML::Core::ModelEvaluator.register(
+  :f1_score,
+  EasyML::Core::Evaluators::ClassificationEvaluators::F1Score,
+  :classification,
+  %w[f1]
+)
+# EasyML::Core::ModelEvaluator.register(
+#   :auc,
+#   EasyML::Core::Evaluators::ClassificationEvaluators::AUC,
+#   :classification,
+#   %w[auc]
+# )
+# EasyML::Core::ModelEvaluator.register(
+#   :roc_auc,
+#   EasyML::Core::Evaluators::ClassificationEvaluators::ROC_AUC,
+#   :classification,
+#   %w[roc_auc]
+# )

data/lib/easy_ml/core/tuner/adapters/base_adapter.rb CHANGED Viewed

@@ -3,39 +3,43 @@ module EasyML
     class Tuner
       module Adapters
         class BaseAdapter
-          include GlueGun::DSL
+          attr_accessor :config, :project_name, :tune_started_at, :model,
+                        :x_true, :y_true, :metadata, :model
+          def initialize(options = {})
+            @model = options[:model]
+            @config = options[:config] || {}
+            @project_name = options[:project_name]
+            @tune_started_at = options[:tune_started_at]
+            @model = options[:model]
+            @x_true = options[:x_true]
+            @y_true = options[:y_true]
+            @metadata = options[:metadata] || {}
+          end
           def defaults
             {}
           end
-          attribute :model
-          attribute :config, :hash
-          attribute :project_name, :string
-          attribute :tune_started_at
-          attribute :y_true
-          attribute :x_true
           def run_trial(trial)
-            config = deep_merge_defaults(self.config.clone)
+            config = deep_merge_defaults(self.config.clone.deep_symbolize_keys)
             suggest_parameters(trial, config)
-            model.fit
             yield model
           end
-          def configure_callbacks
-            raise "Subclasses fof Tuner::Adapter::BaseAdapter must define #configure_callbacks"
-          end
           def suggest_parameters(trial, config)
-            defaults.keys.each do |param_name|
-              param_value = suggest_parameter(trial, param_name, config)
-              model.hyperparameters.send("#{param_name}=", param_value)
+            config.keys.inject({}) do |hash, param_name|
+              hash.tap do
+                param_value = suggest_parameter(trial, param_name, config)
+                puts "Suggesting #{param_name}: #{param_value}"
+                model.hyperparameters.send("#{param_name}=", param_value)
+                hash[param_name] = param_value
+              end
             end
           end
           def deep_merge_defaults(config)
-            defaults.deep_merge(config) do |_key, default_value, config_value|
+            defaults.deep_symbolize_keys.deep_merge(config.deep_symbolize_keys) do |_key, default_value, config_value|
               if default_value.is_a?(Hash) && config_value.is_a?(Hash)
                 default_value.merge(config_value)
               else
@@ -46,12 +50,18 @@ module EasyML
           def suggest_parameter(trial, param_name, config)
             param_config = config[param_name]
+            if !param_config.is_a?(Hash)
+              return param_config
+            end
             min = param_config[:min]
             max = param_config[:max]
             log = param_config[:log]
             if log
               trial.suggest_loguniform(param_name.to_s, min, max)
+            elsif max.is_a?(Integer) && min.is_a?(Integer)
+              trial.suggest_int(param_name.to_s, min, max)
             else
               trial.suggest_uniform(param_name.to_s, min, max)
             end