RubyGems - easy_ml - Versions diffs - 0.1.3 → 0.2.0.pre.rc1 - Mend

easy_ml 0.1.3 → 0.2.0.pre.rc1

Files changed (239) hide show

checksums.yaml +4 -4
data/README.md +234 -26
data/Rakefile +45 -0
data/app/controllers/easy_ml/application_controller.rb +67 -0
data/app/controllers/easy_ml/columns_controller.rb +38 -0
data/app/controllers/easy_ml/datasets_controller.rb +156 -0
data/app/controllers/easy_ml/datasources_controller.rb +88 -0
data/app/controllers/easy_ml/deploys_controller.rb +20 -0
data/app/controllers/easy_ml/models_controller.rb +151 -0
data/app/controllers/easy_ml/retraining_runs_controller.rb +19 -0
data/app/controllers/easy_ml/settings_controller.rb +59 -0
data/app/frontend/components/AlertProvider.tsx +108 -0
data/app/frontend/components/DatasetPreview.tsx +161 -0
data/app/frontend/components/EmptyState.tsx +28 -0
data/app/frontend/components/ModelCard.tsx +255 -0
data/app/frontend/components/ModelDetails.tsx +334 -0
data/app/frontend/components/ModelForm.tsx +384 -0
data/app/frontend/components/Navigation.tsx +300 -0
data/app/frontend/components/Pagination.tsx +72 -0
data/app/frontend/components/Popover.tsx +55 -0
data/app/frontend/components/PredictionStream.tsx +105 -0
data/app/frontend/components/ScheduleModal.tsx +726 -0
data/app/frontend/components/SearchInput.tsx +23 -0
data/app/frontend/components/SearchableSelect.tsx +132 -0
data/app/frontend/components/dataset/AutosaveIndicator.tsx +39 -0
data/app/frontend/components/dataset/ColumnConfigModal.tsx +431 -0
data/app/frontend/components/dataset/ColumnFilters.tsx +256 -0
data/app/frontend/components/dataset/ColumnList.tsx +101 -0
data/app/frontend/components/dataset/FeatureConfigPopover.tsx +57 -0
data/app/frontend/components/dataset/FeaturePicker.tsx +205 -0
data/app/frontend/components/dataset/PreprocessingConfig.tsx +704 -0
data/app/frontend/components/dataset/SplitConfigurator.tsx +120 -0
data/app/frontend/components/dataset/splitters/DateSplitter.tsx +58 -0
data/app/frontend/components/dataset/splitters/KFoldSplitter.tsx +68 -0
data/app/frontend/components/dataset/splitters/LeavePOutSplitter.tsx +29 -0
data/app/frontend/components/dataset/splitters/PredefinedSplitter.tsx +146 -0
data/app/frontend/components/dataset/splitters/RandomSplitter.tsx +85 -0
data/app/frontend/components/dataset/splitters/StratifiedSplitter.tsx +79 -0
data/app/frontend/components/dataset/splitters/constants.ts +77 -0
data/app/frontend/components/dataset/splitters/types.ts +168 -0
data/app/frontend/components/dataset/splitters/utils.ts +53 -0
data/app/frontend/components/features/CodeEditor.tsx +46 -0
data/app/frontend/components/features/DataPreview.tsx +150 -0
data/app/frontend/components/features/FeatureCard.tsx +88 -0
data/app/frontend/components/features/FeatureForm.tsx +235 -0
data/app/frontend/components/features/FeatureGroupCard.tsx +54 -0
data/app/frontend/components/settings/PluginSettings.tsx +81 -0
data/app/frontend/components/ui/badge.tsx +44 -0
data/app/frontend/components/ui/collapsible.tsx +9 -0
data/app/frontend/components/ui/scroll-area.tsx +46 -0
data/app/frontend/components/ui/separator.tsx +29 -0
data/app/frontend/entrypoints/App.tsx +40 -0
data/app/frontend/entrypoints/Application.tsx +24 -0
data/app/frontend/hooks/useAutosave.ts +61 -0
data/app/frontend/layouts/Layout.tsx +38 -0
data/app/frontend/lib/utils.ts +6 -0
data/app/frontend/mockData.ts +272 -0
data/app/frontend/pages/DatasetDetailsPage.tsx +103 -0
data/app/frontend/pages/DatasetsPage.tsx +261 -0
data/app/frontend/pages/DatasourceFormPage.tsx +147 -0
data/app/frontend/pages/DatasourcesPage.tsx +261 -0
data/app/frontend/pages/EditModelPage.tsx +45 -0
data/app/frontend/pages/EditTransformationPage.tsx +56 -0
data/app/frontend/pages/ModelsPage.tsx +115 -0
data/app/frontend/pages/NewDatasetPage.tsx +366 -0
data/app/frontend/pages/NewModelPage.tsx +45 -0
data/app/frontend/pages/NewTransformationPage.tsx +43 -0
data/app/frontend/pages/SettingsPage.tsx +272 -0
data/app/frontend/pages/ShowModelPage.tsx +30 -0
data/app/frontend/pages/TransformationsPage.tsx +95 -0
data/app/frontend/styles/application.css +100 -0
data/app/frontend/types/dataset.ts +146 -0
data/app/frontend/types/datasource.ts +33 -0
data/app/frontend/types/preprocessing.ts +1 -0
data/app/frontend/types.ts +113 -0
data/app/helpers/easy_ml/application_helper.rb +10 -0
data/app/jobs/easy_ml/application_job.rb +21 -0
data/app/jobs/easy_ml/batch_job.rb +46 -0
data/app/jobs/easy_ml/compute_feature_job.rb +19 -0
data/app/jobs/easy_ml/deploy_job.rb +13 -0
data/app/jobs/easy_ml/finalize_feature_job.rb +15 -0
data/app/jobs/easy_ml/refresh_dataset_job.rb +32 -0
data/app/jobs/easy_ml/schedule_retraining_job.rb +11 -0
data/app/jobs/easy_ml/sync_datasource_job.rb +17 -0
data/app/jobs/easy_ml/training_job.rb +62 -0
data/app/models/easy_ml/adapters/base_adapter.rb +45 -0
data/app/models/easy_ml/adapters/polars_adapter.rb +77 -0
data/app/models/easy_ml/cleaner.rb +82 -0
data/app/models/easy_ml/column.rb +124 -0
data/app/models/easy_ml/column_history.rb +30 -0
data/app/models/easy_ml/column_list.rb +122 -0
data/app/models/easy_ml/concerns/configurable.rb +61 -0
data/app/models/easy_ml/concerns/versionable.rb +19 -0
data/app/models/easy_ml/dataset.rb +767 -0
data/app/models/easy_ml/dataset_history.rb +56 -0
data/app/models/easy_ml/datasource.rb +182 -0
data/app/models/easy_ml/datasource_history.rb +24 -0
data/app/models/easy_ml/datasources/base_datasource.rb +54 -0
data/app/models/easy_ml/datasources/file_datasource.rb +58 -0
data/app/models/easy_ml/datasources/polars_datasource.rb +89 -0
data/app/models/easy_ml/datasources/s3_datasource.rb +97 -0
data/app/models/easy_ml/deploy.rb +114 -0
data/app/models/easy_ml/event.rb +79 -0
data/app/models/easy_ml/feature.rb +437 -0
data/app/models/easy_ml/feature_history.rb +38 -0
data/app/models/easy_ml/model.rb +575 -41
data/app/models/easy_ml/model_file.rb +133 -0
data/app/models/easy_ml/model_file_history.rb +24 -0
data/app/models/easy_ml/model_history.rb +51 -0
data/app/models/easy_ml/models/base_model.rb +58 -0
data/app/models/easy_ml/models/hyperparameters/base.rb +99 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/dart.rb +82 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/gblinear.rb +82 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/gbtree.rb +97 -0
data/app/models/easy_ml/models/hyperparameters/xgboost.rb +71 -0
data/app/models/easy_ml/models/xgboost/evals_callback.rb +138 -0
data/app/models/easy_ml/models/xgboost/progress_callback.rb +39 -0
data/app/models/easy_ml/models/xgboost.rb +544 -4
data/app/models/easy_ml/prediction.rb +44 -0
data/app/models/easy_ml/retraining_job.rb +278 -0
data/app/models/easy_ml/retraining_run.rb +184 -0
data/app/models/easy_ml/settings.rb +37 -0
data/app/models/easy_ml/splitter.rb +90 -0
data/app/models/easy_ml/splitters/base_splitter.rb +28 -0
data/app/models/easy_ml/splitters/date_splitter.rb +91 -0
data/app/models/easy_ml/splitters/predefined_splitter.rb +74 -0
data/app/models/easy_ml/splitters/random_splitter.rb +82 -0
data/app/models/easy_ml/tuner_job.rb +56 -0
data/app/models/easy_ml/tuner_run.rb +31 -0
data/app/models/splitter_history.rb +6 -0
data/app/serializers/easy_ml/column_serializer.rb +27 -0
data/app/serializers/easy_ml/dataset_serializer.rb +73 -0
data/app/serializers/easy_ml/datasource_serializer.rb +64 -0
data/app/serializers/easy_ml/feature_serializer.rb +27 -0
data/app/serializers/easy_ml/model_serializer.rb +90 -0
data/app/serializers/easy_ml/retraining_job_serializer.rb +22 -0
data/app/serializers/easy_ml/retraining_run_serializer.rb +39 -0
data/app/serializers/easy_ml/settings_serializer.rb +9 -0
data/app/views/layouts/easy_ml/application.html.erb +15 -0
data/config/initializers/resque.rb +3 -0
data/config/resque-pool.yml +6 -0
data/config/routes.rb +39 -0
data/config/spring.rb +1 -0
data/config/vite.json +15 -0
data/lib/easy_ml/configuration.rb +64 -0
data/lib/easy_ml/core/evaluators/base_evaluator.rb +53 -0
data/lib/easy_ml/core/evaluators/classification_evaluators.rb +126 -0
data/lib/easy_ml/core/evaluators/regression_evaluators.rb +66 -0
data/lib/easy_ml/core/model_evaluator.rb +161 -89
data/lib/easy_ml/core/tuner/adapters/base_adapter.rb +28 -18
data/lib/easy_ml/core/tuner/adapters/xgboost_adapter.rb +4 -25
data/lib/easy_ml/core/tuner.rb +123 -62
data/lib/easy_ml/core.rb +0 -3
data/lib/easy_ml/core_ext/hash.rb +24 -0
data/lib/easy_ml/core_ext/pathname.rb +11 -5
data/lib/easy_ml/data/date_converter.rb +90 -0
data/lib/easy_ml/data/filter_extensions.rb +31 -0
data/lib/easy_ml/data/polars_column.rb +126 -0
data/lib/easy_ml/data/polars_reader.rb +297 -0
data/lib/easy_ml/data/preprocessor.rb +280 -142
data/lib/easy_ml/data/simple_imputer.rb +255 -0
data/lib/easy_ml/data/splits/file_split.rb +252 -0
data/lib/easy_ml/data/splits/in_memory_split.rb +54 -0
data/lib/easy_ml/data/splits/split.rb +95 -0
data/lib/easy_ml/data/splits.rb +9 -0
data/lib/easy_ml/data/statistics_learner.rb +93 -0
data/lib/easy_ml/data/synced_directory.rb +341 -0
data/lib/easy_ml/data.rb +6 -2
data/lib/easy_ml/engine.rb +105 -6
data/lib/easy_ml/feature_store.rb +227 -0
data/lib/easy_ml/features.rb +61 -0
data/lib/easy_ml/initializers/inflections.rb +17 -3
data/lib/easy_ml/logging.rb +2 -2
data/lib/easy_ml/predict.rb +74 -0
data/lib/easy_ml/railtie/generators/migration/migration_generator.rb +192 -36
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_column_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_columns.rb.tt +25 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_dataset_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasets.rb.tt +31 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasource_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasources.rb.tt +16 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_deploys.rb.tt +24 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_events.rb.tt +20 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_feature_histories.rb.tt +14 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_features.rb.tt +32 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_file_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_files.rb.tt +17 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_models.rb.tt +20 -9
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_predictions.rb.tt +17 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_retraining_jobs.rb.tt +77 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_settings.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_splitter_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_splitters.rb.tt +15 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_tuner_jobs.rb.tt +40 -0
data/lib/easy_ml/support/est.rb +5 -1
data/lib/easy_ml/support/file_rotate.rb +79 -15
data/lib/easy_ml/support/file_support.rb +9 -0
data/lib/easy_ml/support/local_file.rb +24 -0
data/lib/easy_ml/support/lockable.rb +62 -0
data/lib/easy_ml/support/synced_file.rb +103 -0
data/lib/easy_ml/support/utc.rb +5 -1
data/lib/easy_ml/support.rb +6 -3
data/lib/easy_ml/version.rb +4 -1
data/lib/easy_ml.rb +7 -2
metadata +355 -72
data/app/models/easy_ml/models.rb +0 -5
data/lib/easy_ml/core/model.rb +0 -30
data/lib/easy_ml/core/model_core.rb +0 -181
data/lib/easy_ml/core/models/hyperparameters/base.rb +0 -34
data/lib/easy_ml/core/models/hyperparameters/xgboost.rb +0 -19
data/lib/easy_ml/core/models/xgboost.rb +0 -10
data/lib/easy_ml/core/models/xgboost_core.rb +0 -220
data/lib/easy_ml/core/models.rb +0 -10
data/lib/easy_ml/core/uploaders/model_uploader.rb +0 -24
data/lib/easy_ml/core/uploaders.rb +0 -7
data/lib/easy_ml/data/dataloader.rb +0 -6
data/lib/easy_ml/data/dataset/data/preprocessor/statistics.json +0 -31
data/lib/easy_ml/data/dataset/data/sample_info.json +0 -1
data/lib/easy_ml/data/dataset/dataset/files/sample_info.json +0 -1
data/lib/easy_ml/data/dataset/splits/file_split.rb +0 -140
data/lib/easy_ml/data/dataset/splits/in_memory_split.rb +0 -49
data/lib/easy_ml/data/dataset/splits/split.rb +0 -98
data/lib/easy_ml/data/dataset/splits.rb +0 -11
data/lib/easy_ml/data/dataset/splitters/date_splitter.rb +0 -43
data/lib/easy_ml/data/dataset/splitters.rb +0 -9
data/lib/easy_ml/data/dataset.rb +0 -430
data/lib/easy_ml/data/datasource/datasource_factory.rb +0 -60
data/lib/easy_ml/data/datasource/file_datasource.rb +0 -40
data/lib/easy_ml/data/datasource/merged_datasource.rb +0 -64
data/lib/easy_ml/data/datasource/polars_datasource.rb +0 -41
data/lib/easy_ml/data/datasource/s3_datasource.rb +0 -89
data/lib/easy_ml/data/datasource.rb +0 -33
data/lib/easy_ml/data/preprocessor/preprocessor.rb +0 -205
data/lib/easy_ml/data/preprocessor/simple_imputer.rb +0 -402
data/lib/easy_ml/deployment.rb +0 -5
data/lib/easy_ml/support/synced_directory.rb +0 -134
data/lib/easy_ml/transforms.rb +0 -29
/data/{lib/easy_ml/core → app/models/easy_ml}/models/hyperparameters.rb +0 -0

data/lib/easy_ml/data/preprocessor.rb CHANGED Viewed

@@ -2,63 +2,135 @@ require "fileutils"
 require "polars"
 require "date"
 require "json"
-require_relative "preprocessor/utils"
-require_relative "preprocessor/simple_imputer"
+require_relative "simple_imputer"
 module EasyML::Data
   class Preprocessor
-    include GlueGun::DSL
-    include EasyML::Data::Preprocessor::Utils
     CATEGORICAL_COMMON_MIN = 50
-    PREPROCESSING_ORDER = %w[clip mean median constant categorical one_hot ffill custom fill_date add_datepart]
-    attribute :directory, :string
-    attribute :verbose, :boolean, default: false
-    attribute :preprocessing_steps, :hash, default: {}
-    def preprocessing_steps=(preprocessing_steps)
-      super(standardize_config(preprocessing_steps).with_indifferent_access)
+    ALLOWED_PARAMS = {
+      constant: [:constant],
+      categorical: %i[categorical_min one_hot ordinal_encoding],
+      most_frequent: %i[one_hot ordinal_encoding],
+      mean: [:clip],
+      median: [:clip],
+    }
+    PREPROCESSING_STRATEGIES = {
+      float: [
+        { value: "mean", label: "Mean" },
+        { value: "median", label: "Median" },
+        { value: "constant", label: "Constant Value" },
+      ],
+      integer: [
+        { value: "mean", label: "Mean" },
+        { value: "median", label: "Median" },
+        { value: "constant", label: "Constant Value" },
+      ],
+      boolean: [
+        { value: "most_frequent", label: "Most Frequent" },
+        { value: "constant", label: "Constant Value" },
+      ],
+      datetime: [
+        { value: "ffill", label: "Forward Fill" },
+        { value: "constant", label: "Constant Value" },
+        { value: "today", label: "Current Date" },
+      ],
+      string: [
+        { value: "most_frequent", label: "Most Frequent" },
+        { value: "constant", label: "Constant Value" },
+      ],
+      text: [
+        { value: "most_frequent", label: "Most Frequent" },
+        { value: "constant", label: "Constant Value" },
+      ],
+      categorical: [
+        { value: "categorical", label: "Categorical" },
+        { value: "most_frequent", label: "Most Frequent" },
+        { value: "constant", label: "Constant Value" },
+      ],
+    }.freeze
+    attr_accessor :directory, :verbose, :imputers, :preprocessing_steps
+    attr_reader :statistics
+    def initialize(options = {})
+      @directory = options[:directory]
+      @verbose = options[:verbose]
+      @imputers = options[:imputers]
+      @preprocessing_steps = options[:preprocessing_steps]
+      @statistics = {}
+    end
+    def statistics=(stats)
+      @statistics = (stats || {}).deep_symbolize_keys
+    end
+    def apply_clip(df, preprocessing_steps)
+      df = df.clone
+      preprocessing_steps ||= {}
+      preprocessing_steps.deep_symbolize_keys!
+      (preprocessing_steps[:training] || {}).each_key do |col|
+        clip_params = preprocessing_steps.dig(:training, col, :params, :clip)
+        next unless clip_params
+        min = clip_params[:min]
+        max = clip_params[:max]
+        df[col.to_s] = df[col.to_s].clip(min, max)
+      end
+      df
+    end
+    def learn_categorical_min(df, preprocessing_steps)
+      preprocessing_steps ||= {}
+      preprocessing_steps.deep_symbolize_keys!
+      allowed_categories = {}
+      (preprocessing_steps[:training] || {}).each_key do |col|
+        next unless [
+          preprocessing_steps.dig(:training, col, :params, :ordinal_encoding),
+          preprocessing_steps.dig(:training, col, :params, :one_hot),
+          preprocessing_steps.dig(:training, col, :method).to_sym == :categorical,
+        ].any?
+        cat_min = preprocessing_steps.dig(:training, col, :params, :categorical_min) || 1
+        val_counts = df[col].value_counts
+        allowed_categories[col] = val_counts[val_counts["count"] >= cat_min][col].to_a.compact
+      end
+      allowed_categories
     end
     def fit(df)
       return if df.nil?
-      return if preprocessing_steps.keys.none?
+      return if preprocessing_steps.nil? || preprocessing_steps.keys.none?
-      puts "Preprocessing..." if verbose
-      imputers = initialize_imputers(
-        preprocessing_steps[:training].merge!(preprocessing_steps[:inference] || {})
-      )
+      preprocessing_steps.deep_symbolize_keys!
+      df = apply_clip(df, preprocessing_steps)
+      allowed_categories = learn_categorical_min(df, preprocessing_steps)
-      did_cleanup = false
-      imputers.each do |col, imputers|
-        sorted_strategies(imputers).each do |strategy|
-          imputer = imputers[strategy]
-          unless did_cleanup
-            imputer.cleanup
-            did_cleanup = true
-          end
-          if df.columns.map(&:downcase).include?(col.downcase)
-            actual_col = df.columns.find { |c| c.downcase == imputer.attribute.downcase }
-            imputer.fit(df[actual_col], df)
-            if strategy == "clip" # This is the only one to transform during fit
-              df[actual_col] = imputer.transform(df[actual_col])
-            end
-          elsif @verbose
-            puts "Warning: Column '#{col}' not found in DataFrame during fit process."
-          end
-        end
+      self.statistics = StatisticsLearner.learn_df(df).deep_symbolize_keys
+      # Merge allowed categories into statistics
+      allowed_categories.each do |col, categories|
+        statistics[col] ||= {}
+        statistics[col][:allowed_categories] = categories
+        statistics[col].merge!(
+          fit_categorical(df[col], preprocessing_steps)
+        )
       end
     end
     def postprocess(df, inference: false)
       puts "Postprocessing..." if verbose
-      return df if preprocessing_steps.keys.none?
+      return df if preprocessing_steps.nil? || preprocessing_steps.keys.none?
       steps = if inference
-                preprocessing_steps[:training].merge(preprocessing_steps[:inference] || {})
-              else
-                preprocessing_steps[:training]
-              end
+          preprocessing_steps[:training].merge(preprocessing_steps[:inference] || {})
+        else
+          preprocessing_steps[:training]
+        end
       df = apply_transformations(df, steps)
@@ -66,11 +138,14 @@ module EasyML::Data
       df
     end
-    def statistics
-      initialize_imputers(preprocessing_steps[:training]).each_with_object({}) do |(col, strategies), result|
-        result[col] = strategies.each_with_object({}) do |(strategy, imputer), col_result|
-          col_result[strategy] = imputer.statistics
-        end
+    def decode_labels(values, col: nil)
+      decoder = statistics.dig(col.to_sym, :label_decoder)
+      other_value = decoder.keys.map(&:to_s).map(&:to_i).max + 1
+      decoder[other_value] = "other"
+      decoder.stringify_keys!
+      values.map do |value|
+        decoder[value.to_s]
       end
     end
@@ -84,66 +159,55 @@ module EasyML::Data
       FileUtils.rm_rf(@directory)
     end
-    def move(to)
-      old_dir = directory
-      current_env = directory.split("/")[-1]
-      new_dir = directory.gsub(Regexp.new(current_env), to)
-      puts "Moving #{old_dir} to #{new_dir}"
-      FileUtils.mv(old_dir, new_dir)
-      @directory = new_dir
-    end
-    def decode_labels(values, col: nil)
-      imputers = initialize_imputers(preprocessing_steps[:training], dumb: true)
-      imputer = imputers.dig(col, "categorical")
-      decoder = imputer.statistics.dig(:categorical, :label_decoder)
-      other_value = decoder.keys.map(&:to_s).map(&:to_i).max + 1
-      decoder[other_value] = "other"
-      decoder.stringify_keys!
-      values.map do |value|
-        decoder[value.to_s]
-      end
+    def serialize
+      {
+        directory: directory,
+        verbose: verbose,
+        imputers: imputers,
+        preprocessing_steps: preprocessing_steps,
+        statistics: serialize_statistics(statistics || {}),
+      }
     end
     private
-    def initialize_imputers(config, dumb: false)
-      standardize_config(config).each_with_object({}) do |(col, strategies), hash|
+    def initialize_imputers(config)
+      config.each_with_object({}) do |(col, conf), hash|
         hash[col] ||= {}
-        strategies.each do |strategy, options|
-          options = {} if options == true
-          hash[col][strategy] = EasyML::Data::Preprocessor::SimpleImputer.new(
-            strategy: strategy,
-            path: directory,
-            attribute: col,
-            options: options
-          )
-        end
+        conf.symbolize_keys!
+        method = conf[:method]
+        params = conf[:params] || {}
+        hash[col][method] = EasyML::Data::SimpleImputer.new(
+          strategy: method,
+          options: params,
+          path: directory,
+          attribute: col,
+          statistics: statistics.dig(col),
+        )
       end
     end
     def apply_transformations(df, config)
       imputers = initialize_imputers(config)
-      standardize_config(config).each do |col, strategies|
-        if df.columns.map(&:downcase).include?(col.downcase)
-          actual_col = df.columns.find { |c| c.downcase == col.downcase }
-          sorted_strategies(strategies).each do |strategy|
-            if strategy.to_sym == :categorical
-              if imputers.dig(col, strategy).options.dig("one_hot")
-                df = apply_one_hot(df, col, imputers)
-              elsif imputers.dig(col, strategy).options.dig("encode_labels")
-                df = apply_encode_labels(df, col, imputers)
-              end
-            else
-              imputer = imputers.dig(col, strategy)
-              df[actual_col] = imputer.transform(df[actual_col]) if imputer
-            end
+      df = apply_clip(df, { training: config })
+      config.each do |col, conf|
+        conf.symbolize_keys!
+        if df.columns.map(&:downcase).map(&:to_s).include?(col.downcase.to_s)
+          actual_col = df.columns.map(&:to_s).find { |c| c.to_s.downcase == col.to_s.downcase }
+          strategy = conf[:method]
+          params = conf[:params]
+          imputer = imputers.dig(col, strategy)
+          df[actual_col] = imputer.transform(df[actual_col]) if imputer
+          if params.is_a?(Hash) && params.key?(:one_hot) && params[:one_hot] == true
+            df = apply_one_hot(df, col)
+          elsif params.is_a?(Hash) && params.key?(:ordinal_encoding) && params[:ordinal_encoding] == true
+            df = apply_ordinal_encoding(df, col)
           end
         elsif @verbose
           puts "Warning: Column '#{col}' not found in DataFrame during apply_transformations process."
@@ -153,17 +217,14 @@ module EasyML::Data
       df
     end
-    def apply_one_hot(df, col, imputers)
-      cat_imputer = imputers.dig(col, "categorical")
-      approved_values = cat_imputer.statistics[:categorical][:value].select do |_k, v|
-        v >= cat_imputer.options["categorical_min"]
-      end.keys
+    def apply_one_hot(df, col)
+      approved_values = statistics.dig(col, :allowed_categories).sort
       # Create one-hot encoded columns
       approved_values.each do |value|
-        new_col_name = "#{col}_#{value}".tr("-", "_")
+        new_col_name = "#{col}_#{value}".gsub(/-/, "_")
         df = df.with_column(
-          df[col].eq(value.to_s).cast(Polars::Int64).alias(new_col_name)
+          df[col].cast(Polars::String).eq(value.to_s).cast(Polars::Boolean).alias(new_col_name)
         )
       end
@@ -171,68 +232,145 @@ module EasyML::Data
       other_col_name = "#{col}_other"
       df[other_col_name] = df[col].map_elements do |value|
         approved_values.map(&:to_s).exclude?(value)
-      end.cast(Polars::Int64)
-      df.drop([col])
+      end.cast(Polars::Boolean)
+      df.drop([col.to_s])
     end
-    def apply_encode_labels(df, col, imputers)
-      cat_imputer = imputers.dig(col, "categorical")
-      approved_values = cat_imputer.statistics[:categorical][:value].select do |_k, v|
-        v >= cat_imputer.options["categorical_min"]
-      end.keys
+    def apply_ordinal_encoding(df, col)
+      approved_values = statistics.dig(col, :allowed_categories)
       df.with_column(
         df[col].map_elements do |value|
           approved_values.map(&:to_s).exclude?(value) ? "other" : value
-        end.alias(col)
+        end.alias(col.to_s)
       )
-      label_encoder = cat_imputer.statistics[:categorical][:label_encoder].stringify_keys
+      label_encoder = statistics.dig(col, :label_encoder).stringify_keys
       other_value = label_encoder.values.max + 1
       label_encoder["other"] = other_value
       df.with_column(
-        df[col].map { |v| label_encoder[v.to_s] }.alias(col)
+        df[col].map { |v| label_encoder[v.to_s] }.alias(col.to_s)
       )
     end
-    def sorted_strategies(strategies)
-      strategies.keys.sort_by do |key|
-        PREPROCESSING_ORDER.index(key)
+    def fit_categorical(series, _preprocessing_steps)
+      value_counts = series.value_counts
+      column_names = value_counts.columns
+      value_column = column_names[0]
+      count_column = column_names[1]
+      as_hash = value_counts.select([value_column, count_column]).rows.to_a.to_h.transform_keys(&:to_s)
+      label_encoder = as_hash.keys.sort.each.with_index.reduce({}) do |h, (k, i)|
+        h.tap do
+          h[k] = i
+        end
       end
+      label_decoder = label_encoder.invert
+      {
+        value: as_hash,
+        label_encoder: label_encoder,
+        label_decoder: label_decoder,
+      }
     end
     def prepare_for_imputation(df, col)
       df = df.with_column(Polars.col(col).cast(Polars::Float64))
       df.with_column(Polars.when(Polars.col(col).is_null).then(Float::NAN).otherwise(Polars.col(col)).alias(col))
     end
+    def serialize_statistics(stats)
+      stats.deep_transform_values do |value|
+        case value
+        when Time, DateTime
+          { "__type__" => "datetime", "value" => value.iso8601 }
+        when Date
+          { "__type__" => "date", "value" => value.iso8601 }
+        when BigDecimal
+          { "__type__" => "bigdecimal", "value" => value.to_s }
+        when Polars::DataType
+          { "__type__" => "polars_dtype", "value" => value.to_s }
+        when Symbol
+          { "__type__" => "symbol", "value" => value.to_s }
+        else
+          value
+        end
+      end
+    end
+    def deserialize_statistics(stats)
+      return nil if stats.nil?
+      stats.transform_values do |value|
+        recursive_deserialize(value)
+      end
+    end
+    def recursive_deserialize(value)
+      case value
+      when Hash
+        if value["__type__"]
+          deserialize_special_type(value)
+        else
+          value.transform_values { |v| recursive_deserialize(v) }
+        end
+      when Array
+        value.map { |v| recursive_deserialize(v) }
+      else
+        value
+      end
+    end
+    def deserialize_special_type(value)
+      case value["__type__"]
+      when "datetime"
+        DateTime.parse(value["value"])
+      when "date"
+        Date.parse(value["value"])
+      when "bigdecimal"
+        BigDecimal(value["value"])
+      when "polars_dtype"
+        parse_polars_dtype(value["value"])
+      when "symbol"
+        value["value"].to_sym
+      else
+        value["value"]
+      end
+    end
+    def parse_polars_dtype(dtype_string)
+      case dtype_string
+      when /^Polars::Datetime/
+        time_unit = dtype_string[/time_unit: "(.*?)"/, 1]
+        time_zone = dtype_string[/time_zone: (.*)?\)/, 1]
+        time_zone = time_zone == "nil" ? nil : time_zone&.delete('"')
+        Polars::Datetime.new(time_unit: time_unit, time_zone: time_zone).class
+      when /^Polars::/
+        Polars.const_get(dtype_string.split("::").last)
+      else
+        raise ArgumentError, "Unknown Polars data type: #{dtype_string}"
+      end
+    end
+    def cast_to_dtype(value, dtype)
+      case dtype
+      when Polars::Int64
+        value.to_i
+      when Polars::Float64
+        value.to_f
+      when Polars::Boolean
+        !!value
+      when Polars::Utf8
+        value.to_s
+      else
+        value
+      end
+    end
+    def self.constants
+      {
+        preprocessing_strategies: PREPROCESSING_STRATEGIES,
+      }
+    end
   end
 end
-# Where to put this???
-#
-# def self.stage_required_files
-#   required_files.each do |file|
-#     git_add(file)
-#   end
-# end
-# def self.git_add(path)
-#   command = "git add #{path}"
-#   puts command if verbose
-#   result = `#{command}`
-#   puts result if verbose
-# end
-# def self.set_verbose(verbose)
-#   @verbose = verbose
-# end
-# def required_files
-#   files = Dir.entries(@directory) - %w[. ..]
-#   required_file_types = %w[bin]
-#   files.select { |file| required_file_types.any? { |ext| file.include?(ext) } }.map do |file|
-#     File.join(@directory, file)
-#   end
-# end