RubyGems - easy_ml - Versions diffs - 0.1.4 → 0.2.0.pre.rc1 - Mend

easy_ml 0.1.4 → 0.2.0.pre.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (239) hide show

checksums.yaml +4 -4
data/README.md +234 -26
data/Rakefile +45 -0
data/app/controllers/easy_ml/application_controller.rb +67 -0
data/app/controllers/easy_ml/columns_controller.rb +38 -0
data/app/controllers/easy_ml/datasets_controller.rb +156 -0
data/app/controllers/easy_ml/datasources_controller.rb +88 -0
data/app/controllers/easy_ml/deploys_controller.rb +20 -0
data/app/controllers/easy_ml/models_controller.rb +151 -0
data/app/controllers/easy_ml/retraining_runs_controller.rb +19 -0
data/app/controllers/easy_ml/settings_controller.rb +59 -0
data/app/frontend/components/AlertProvider.tsx +108 -0
data/app/frontend/components/DatasetPreview.tsx +161 -0
data/app/frontend/components/EmptyState.tsx +28 -0
data/app/frontend/components/ModelCard.tsx +255 -0
data/app/frontend/components/ModelDetails.tsx +334 -0
data/app/frontend/components/ModelForm.tsx +384 -0
data/app/frontend/components/Navigation.tsx +300 -0
data/app/frontend/components/Pagination.tsx +72 -0
data/app/frontend/components/Popover.tsx +55 -0
data/app/frontend/components/PredictionStream.tsx +105 -0
data/app/frontend/components/ScheduleModal.tsx +726 -0
data/app/frontend/components/SearchInput.tsx +23 -0
data/app/frontend/components/SearchableSelect.tsx +132 -0
data/app/frontend/components/dataset/AutosaveIndicator.tsx +39 -0
data/app/frontend/components/dataset/ColumnConfigModal.tsx +431 -0
data/app/frontend/components/dataset/ColumnFilters.tsx +256 -0
data/app/frontend/components/dataset/ColumnList.tsx +101 -0
data/app/frontend/components/dataset/FeatureConfigPopover.tsx +57 -0
data/app/frontend/components/dataset/FeaturePicker.tsx +205 -0
data/app/frontend/components/dataset/PreprocessingConfig.tsx +704 -0
data/app/frontend/components/dataset/SplitConfigurator.tsx +120 -0
data/app/frontend/components/dataset/splitters/DateSplitter.tsx +58 -0
data/app/frontend/components/dataset/splitters/KFoldSplitter.tsx +68 -0
data/app/frontend/components/dataset/splitters/LeavePOutSplitter.tsx +29 -0
data/app/frontend/components/dataset/splitters/PredefinedSplitter.tsx +146 -0
data/app/frontend/components/dataset/splitters/RandomSplitter.tsx +85 -0
data/app/frontend/components/dataset/splitters/StratifiedSplitter.tsx +79 -0
data/app/frontend/components/dataset/splitters/constants.ts +77 -0
data/app/frontend/components/dataset/splitters/types.ts +168 -0
data/app/frontend/components/dataset/splitters/utils.ts +53 -0
data/app/frontend/components/features/CodeEditor.tsx +46 -0
data/app/frontend/components/features/DataPreview.tsx +150 -0
data/app/frontend/components/features/FeatureCard.tsx +88 -0
data/app/frontend/components/features/FeatureForm.tsx +235 -0
data/app/frontend/components/features/FeatureGroupCard.tsx +54 -0
data/app/frontend/components/settings/PluginSettings.tsx +81 -0
data/app/frontend/components/ui/badge.tsx +44 -0
data/app/frontend/components/ui/collapsible.tsx +9 -0
data/app/frontend/components/ui/scroll-area.tsx +46 -0
data/app/frontend/components/ui/separator.tsx +29 -0
data/app/frontend/entrypoints/App.tsx +40 -0
data/app/frontend/entrypoints/Application.tsx +24 -0
data/app/frontend/hooks/useAutosave.ts +61 -0
data/app/frontend/layouts/Layout.tsx +38 -0
data/app/frontend/lib/utils.ts +6 -0
data/app/frontend/mockData.ts +272 -0
data/app/frontend/pages/DatasetDetailsPage.tsx +103 -0
data/app/frontend/pages/DatasetsPage.tsx +261 -0
data/app/frontend/pages/DatasourceFormPage.tsx +147 -0
data/app/frontend/pages/DatasourcesPage.tsx +261 -0
data/app/frontend/pages/EditModelPage.tsx +45 -0
data/app/frontend/pages/EditTransformationPage.tsx +56 -0
data/app/frontend/pages/ModelsPage.tsx +115 -0
data/app/frontend/pages/NewDatasetPage.tsx +366 -0
data/app/frontend/pages/NewModelPage.tsx +45 -0
data/app/frontend/pages/NewTransformationPage.tsx +43 -0
data/app/frontend/pages/SettingsPage.tsx +272 -0
data/app/frontend/pages/ShowModelPage.tsx +30 -0
data/app/frontend/pages/TransformationsPage.tsx +95 -0
data/app/frontend/styles/application.css +100 -0
data/app/frontend/types/dataset.ts +146 -0
data/app/frontend/types/datasource.ts +33 -0
data/app/frontend/types/preprocessing.ts +1 -0
data/app/frontend/types.ts +113 -0
data/app/helpers/easy_ml/application_helper.rb +10 -0
data/app/jobs/easy_ml/application_job.rb +21 -0
data/app/jobs/easy_ml/batch_job.rb +46 -0
data/app/jobs/easy_ml/compute_feature_job.rb +19 -0
data/app/jobs/easy_ml/deploy_job.rb +13 -0
data/app/jobs/easy_ml/finalize_feature_job.rb +15 -0
data/app/jobs/easy_ml/refresh_dataset_job.rb +32 -0
data/app/jobs/easy_ml/schedule_retraining_job.rb +11 -0
data/app/jobs/easy_ml/sync_datasource_job.rb +17 -0
data/app/jobs/easy_ml/training_job.rb +62 -0
data/app/models/easy_ml/adapters/base_adapter.rb +45 -0
data/app/models/easy_ml/adapters/polars_adapter.rb +77 -0
data/app/models/easy_ml/cleaner.rb +82 -0
data/app/models/easy_ml/column.rb +124 -0
data/app/models/easy_ml/column_history.rb +30 -0
data/app/models/easy_ml/column_list.rb +122 -0
data/app/models/easy_ml/concerns/configurable.rb +61 -0
data/app/models/easy_ml/concerns/versionable.rb +19 -0
data/app/models/easy_ml/dataset.rb +767 -0
data/app/models/easy_ml/dataset_history.rb +56 -0
data/app/models/easy_ml/datasource.rb +182 -0
data/app/models/easy_ml/datasource_history.rb +24 -0
data/app/models/easy_ml/datasources/base_datasource.rb +54 -0
data/app/models/easy_ml/datasources/file_datasource.rb +58 -0
data/app/models/easy_ml/datasources/polars_datasource.rb +89 -0
data/app/models/easy_ml/datasources/s3_datasource.rb +97 -0
data/app/models/easy_ml/deploy.rb +114 -0
data/app/models/easy_ml/event.rb +79 -0
data/app/models/easy_ml/feature.rb +437 -0
data/app/models/easy_ml/feature_history.rb +38 -0
data/app/models/easy_ml/model.rb +575 -41
data/app/models/easy_ml/model_file.rb +133 -0
data/app/models/easy_ml/model_file_history.rb +24 -0
data/app/models/easy_ml/model_history.rb +51 -0
data/app/models/easy_ml/models/base_model.rb +58 -0
data/app/models/easy_ml/models/hyperparameters/base.rb +99 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/dart.rb +82 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/gblinear.rb +82 -0
data/app/models/easy_ml/models/hyperparameters/xgboost/gbtree.rb +97 -0
data/app/models/easy_ml/models/hyperparameters/xgboost.rb +71 -0
data/app/models/easy_ml/models/xgboost/evals_callback.rb +138 -0
data/app/models/easy_ml/models/xgboost/progress_callback.rb +39 -0
data/app/models/easy_ml/models/xgboost.rb +544 -5
data/app/models/easy_ml/prediction.rb +44 -0
data/app/models/easy_ml/retraining_job.rb +278 -0
data/app/models/easy_ml/retraining_run.rb +184 -0
data/app/models/easy_ml/settings.rb +37 -0
data/app/models/easy_ml/splitter.rb +90 -0
data/app/models/easy_ml/splitters/base_splitter.rb +28 -0
data/app/models/easy_ml/splitters/date_splitter.rb +91 -0
data/app/models/easy_ml/splitters/predefined_splitter.rb +74 -0
data/app/models/easy_ml/splitters/random_splitter.rb +82 -0
data/app/models/easy_ml/tuner_job.rb +56 -0
data/app/models/easy_ml/tuner_run.rb +31 -0
data/app/models/splitter_history.rb +6 -0
data/app/serializers/easy_ml/column_serializer.rb +27 -0
data/app/serializers/easy_ml/dataset_serializer.rb +73 -0
data/app/serializers/easy_ml/datasource_serializer.rb +64 -0
data/app/serializers/easy_ml/feature_serializer.rb +27 -0
data/app/serializers/easy_ml/model_serializer.rb +90 -0
data/app/serializers/easy_ml/retraining_job_serializer.rb +22 -0
data/app/serializers/easy_ml/retraining_run_serializer.rb +39 -0
data/app/serializers/easy_ml/settings_serializer.rb +9 -0
data/app/views/layouts/easy_ml/application.html.erb +15 -0
data/config/initializers/resque.rb +3 -0
data/config/resque-pool.yml +6 -0
data/config/routes.rb +39 -0
data/config/spring.rb +1 -0
data/config/vite.json +15 -0
data/lib/easy_ml/configuration.rb +64 -0
data/lib/easy_ml/core/evaluators/base_evaluator.rb +53 -0
data/lib/easy_ml/core/evaluators/classification_evaluators.rb +126 -0
data/lib/easy_ml/core/evaluators/regression_evaluators.rb +66 -0
data/lib/easy_ml/core/model_evaluator.rb +161 -89
data/lib/easy_ml/core/tuner/adapters/base_adapter.rb +28 -18
data/lib/easy_ml/core/tuner/adapters/xgboost_adapter.rb +4 -25
data/lib/easy_ml/core/tuner.rb +123 -62
data/lib/easy_ml/core.rb +0 -3
data/lib/easy_ml/core_ext/hash.rb +24 -0
data/lib/easy_ml/core_ext/pathname.rb +11 -5
data/lib/easy_ml/data/date_converter.rb +90 -0
data/lib/easy_ml/data/filter_extensions.rb +31 -0
data/lib/easy_ml/data/polars_column.rb +126 -0
data/lib/easy_ml/data/polars_reader.rb +297 -0
data/lib/easy_ml/data/preprocessor.rb +280 -142
data/lib/easy_ml/data/simple_imputer.rb +255 -0
data/lib/easy_ml/data/splits/file_split.rb +252 -0
data/lib/easy_ml/data/splits/in_memory_split.rb +54 -0
data/lib/easy_ml/data/splits/split.rb +95 -0
data/lib/easy_ml/data/splits.rb +9 -0
data/lib/easy_ml/data/statistics_learner.rb +93 -0
data/lib/easy_ml/data/synced_directory.rb +341 -0
data/lib/easy_ml/data.rb +6 -2
data/lib/easy_ml/engine.rb +105 -6
data/lib/easy_ml/feature_store.rb +227 -0
data/lib/easy_ml/features.rb +61 -0
data/lib/easy_ml/initializers/inflections.rb +17 -3
data/lib/easy_ml/logging.rb +2 -2
data/lib/easy_ml/predict.rb +74 -0
data/lib/easy_ml/railtie/generators/migration/migration_generator.rb +192 -36
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_column_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_columns.rb.tt +25 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_dataset_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasets.rb.tt +31 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasource_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_datasources.rb.tt +16 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_deploys.rb.tt +24 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_events.rb.tt +20 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_feature_histories.rb.tt +14 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_features.rb.tt +32 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_file_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_files.rb.tt +17 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_model_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_models.rb.tt +20 -9
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_predictions.rb.tt +17 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_retraining_jobs.rb.tt +77 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_settings.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_splitter_histories.rb.tt +9 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_splitters.rb.tt +15 -0
data/lib/easy_ml/railtie/templates/migration/create_easy_ml_tuner_jobs.rb.tt +40 -0
data/lib/easy_ml/support/est.rb +5 -1
data/lib/easy_ml/support/file_rotate.rb +79 -15
data/lib/easy_ml/support/file_support.rb +9 -0
data/lib/easy_ml/support/local_file.rb +24 -0
data/lib/easy_ml/support/lockable.rb +62 -0
data/lib/easy_ml/support/synced_file.rb +103 -0
data/lib/easy_ml/support/utc.rb +5 -1
data/lib/easy_ml/support.rb +6 -3
data/lib/easy_ml/version.rb +4 -1
data/lib/easy_ml.rb +7 -2
metadata +355 -72
data/app/models/easy_ml/models.rb +0 -5
data/lib/easy_ml/core/model.rb +0 -30
data/lib/easy_ml/core/model_core.rb +0 -181
data/lib/easy_ml/core/models/hyperparameters/base.rb +0 -34
data/lib/easy_ml/core/models/hyperparameters/xgboost.rb +0 -19
data/lib/easy_ml/core/models/xgboost.rb +0 -10
data/lib/easy_ml/core/models/xgboost_core.rb +0 -220
data/lib/easy_ml/core/models.rb +0 -10
data/lib/easy_ml/core/uploaders/model_uploader.rb +0 -24
data/lib/easy_ml/core/uploaders.rb +0 -7
data/lib/easy_ml/data/dataloader.rb +0 -6
data/lib/easy_ml/data/dataset/data/preprocessor/statistics.json +0 -31
data/lib/easy_ml/data/dataset/data/sample_info.json +0 -1
data/lib/easy_ml/data/dataset/dataset/files/sample_info.json +0 -1
data/lib/easy_ml/data/dataset/splits/file_split.rb +0 -140
data/lib/easy_ml/data/dataset/splits/in_memory_split.rb +0 -49
data/lib/easy_ml/data/dataset/splits/split.rb +0 -98
data/lib/easy_ml/data/dataset/splits.rb +0 -11
data/lib/easy_ml/data/dataset/splitters/date_splitter.rb +0 -43
data/lib/easy_ml/data/dataset/splitters.rb +0 -9
data/lib/easy_ml/data/dataset.rb +0 -430
data/lib/easy_ml/data/datasource/datasource_factory.rb +0 -60
data/lib/easy_ml/data/datasource/file_datasource.rb +0 -40
data/lib/easy_ml/data/datasource/merged_datasource.rb +0 -64
data/lib/easy_ml/data/datasource/polars_datasource.rb +0 -41
data/lib/easy_ml/data/datasource/s3_datasource.rb +0 -89
data/lib/easy_ml/data/datasource.rb +0 -33
data/lib/easy_ml/data/preprocessor/preprocessor.rb +0 -205
data/lib/easy_ml/data/preprocessor/simple_imputer.rb +0 -402
data/lib/easy_ml/deployment.rb +0 -5
data/lib/easy_ml/support/synced_directory.rb +0 -134
data/lib/easy_ml/transforms.rb +0 -29
/data/{lib/easy_ml/core → app/models/easy_ml}/models/hyperparameters.rb +0 -0

data/lib/easy_ml/data/simple_imputer.rb ADDED Viewed

@@ -0,0 +1,255 @@
+require "active_support/core_ext/hash/deep_transform_values"
+require "numo/narray"
+require "json"
+module EasyML
+  module Data
+    class SimpleImputer
+      attr_reader :statistics
+      attr_accessor :path, :attribute, :strategy, :options
+      def initialize(strategy: "mean", path: nil, attribute: nil, options: {}, statistics: {}, &block)
+        @strategy = strategy.to_sym
+        @path = path
+        @attribute = attribute
+        @options = options || {}
+        apply_defaults
+        @statistics = statistics || {}
+        deep_symbolize_keys!
+        return unless block_given?
+        instance_eval(&block)
+      end
+      def deep_symbolize_keys!
+        @statistics = @statistics.deep_symbolize_keys
+      end
+      def apply_defaults
+        @options[:date_column] ||= "CREATED_DATE"
+        if strategy == :categorical
+          @options[:categorical_min] ||= 25
+        elsif strategy == :custom
+          itself = ->(col) { col }
+          @options[:fit] ||= itself
+          @options[:transform] ||= itself
+        end
+      end
+      def fit(x, df = nil)
+        x = validate_input(x)
+        fit_values = case @strategy
+        when :mean
+          fit_mean(x)
+        when :median
+          fit_median(x)
+        when :ffill
+          fit_ffill(x, df)
+        when :most_frequent
+          fit_most_frequent(x)
+        when :categorical
+          fit_categorical(x)
+        when :constant
+          fit_constant(x)
+        when :clip
+          fit_no_op(x)
+        when :today
+          fit_no_op(x)
+        when :one_hot
+          fit_no_op(x)
+        when :custom
+          fit_custom(x)
+        else
+          raise ArgumentError, "Invalid strategy: #{@strategy}"
+        end || {}
+        @statistics[attribute] ||= {}
+        @statistics[attribute][@strategy] = fit_values.merge!(original_dtype: x.dtype)
+        @statistics.deep_symbolize_keys
+      end
+      def transform(x)
+        check_is_fitted
+        if x.is_a?(Polars::Series)
+          transform_polars(x)
+        else
+          transform_dense(x)
+        end
+      end
+      def transform_polars(x)
+        case @strategy
+        when :mean, :median
+          x.fill_null(@statistics[@strategy])
+        when :ffill
+          x.fill_null(@statistics[:last_value])
+        when :most_frequent
+          x.fill_null(@statistics[:most_frequent_value])
+        when :constant
+          x.fill_null(@options[:constant])
+        when :categorical
+          allowed_cats = statistics[:allowed_categories]
+          df = Polars::DataFrame.new({ x: x })
+          df.with_column(
+            Polars.when(Polars.col("x").is_in(allowed_cats))
+              .then(Polars.col("x"))
+              .otherwise(Polars.lit("other"))
+              .alias("x")
+          )["x"]
+        when :clip
+          min = options["min"] || 0
+          max = options["max"] || 1_000_000_000_000
+          if x.null_count != x.len
+            x.clip(min, max)
+          else
+            x
+          end
+        when :today
+          x.fill_null(transform_today(nil))
+        when :custom
+          if x.null_count == x.len
+            x.fill_null(transform_custom(nil))
+          else
+            x.apply do |val|
+              should_transform_custom?(val) ? transform_custom(val) : val
+            end
+          end
+        else
+          raise ArgumentError, "Unsupported strategy for Polars::Series: #{@strategy}"
+        end
+      end
+      def file_path
+        raise "Need both attribute and path to save/load statistics" unless attribute.present? && path.to_s.present?
+        File.join(path, "statistics.json")
+      end
+      def transform_today(_val)
+        UTC.now.beginning_of_day
+      end
+      def fit_custom(x)
+        x
+      end
+      def should_transform_custom?(x)
+        if options.key?(:should_transform)
+          options[:should_transform].call(x)
+        else
+          should_transform_default?(x)
+        end
+      end
+      def transform_custom(x)
+        raise "transform required" unless options.key?(:transform)
+        options[:transform].call(x)
+      end
+      private
+      def validate_input(x)
+        raise ArgumentError, "Input must be a Polars::Series" unless x.is_a?(Polars::Series)
+        x
+      end
+      def fit_mean(x)
+        { value: x.mean }
+      end
+      def fit_median(x)
+        { value: x.median }
+      end
+      def fit_ffill(x, df)
+        values = { value: nil, max_date: nil }
+        date_col = df[options[:date_column]]
+        return if date_col.is_null.all
+        sorted_df = df.sort(options[:date_column])
+        new_max_date = sorted_df[options[:date_column]].max
+        current_max_date = values[:max_date]
+        return if current_max_date && current_max_date > new_max_date
+        values[:max_date] = [current_max_date, new_max_date].compact.max
+        # Get the last non-null value
+        last_non_null = sorted_df[x.name].filter(sorted_df[x.name].is_not_null).tail(1).to_a.first
+        values[:value] = last_non_null
+        values
+      end
+      def fit_most_frequent(x)
+        value_counts = x.filter(x.is_not_null).value_counts
+        column_names = value_counts.columns
+        column_names[0]
+        count_column = column_names[1]
+        most_frequent_value = value_counts.sort(count_column, descending: true).row(0)[0]
+        { value: most_frequent_value }
+      end
+      def fit_no_op(_x)
+        {}
+      end
+      def fit_constant(_x)
+        { value: @options[:fill_value] }
+      end
+      def transform_default(_val)
+        @statistics[strategy][:value]
+      end
+      def should_transform_default?(val)
+        checker_method = val.respond_to?(:nan?) ? :nan? : :nil?
+        val.send(checker_method)
+      end
+      def transform_dense(x)
+        result = x.map do |val|
+          strategy_method = respond_to?("transform_#{strategy}") ? "transform_#{strategy}" : "transform_default"
+          checker_method = respond_to?("should_transform_#{strategy}?") ? "should_transform_#{strategy}?" : "should_transform_default?"
+          send(checker_method, val) ? send(strategy_method, val) : val
+        end
+        # Cast the result back to the original dtype
+        original_dtype = @statistics[:original_dtype]
+        if original_dtype
+          result.map { |val| cast_to_dtype(val, original_dtype) }
+        else
+          result
+        end
+      end
+      def check_is_fitted
+        return if %i[clip today custom].include?(strategy)
+        pass_check = case strategy
+          when :mean
+            @statistics.dig(:mean).present?
+          when :median
+            @statistics.dig(:median).present?
+          when :ffill
+            @statistics.dig(:last_value).present?
+          when :most_frequent
+            @statistics.key?(:most_frequent_value)
+          when :constant
+            options.dig(:constant).present?
+          when :categorical
+            true
+          end
+        raise "SimpleImputer has not been fitted yet for #{attribute}##{strategy}" unless pass_check
+      end
+    end
+  end
+end

data/lib/easy_ml/data/splits/file_split.rb ADDED Viewed

@@ -0,0 +1,252 @@
+require_relative "split"
+module EasyML
+  module Data
+    module Splits
+      class FileSplit < Split
+        include EasyML::Data::Utils
+        attr_accessor :dir, :polars_args, :max_rows_per_file, :batch_size, :verbose,
+                      :dataset, :datasource
+        def initialize(options = {})
+          super
+          @dir = options[:dir]
+          @polars_args = options[:polars_args] || {}
+          @max_rows_per_file = options[:max_rows_per_file] || 1_000_000
+          @batch_size = options[:batch_size] || 10_000
+          @verbose = options[:verbose] || false
+          @dataset = options[:dataset]
+          @datasource = options[:datasource]
+          FileUtils.mkdir_p(dir)
+        end
+        def attributes
+          {
+            dir: dir,
+            polars_args: polars_args,
+            max_rows_per_file: max_rows_per_file,
+            batch_size: batch_size,
+            verbose: verbose,
+            dataset: dataset,
+            datasource: datasource,
+          }.with_indifferent_access
+        end
+        def s3_prefix
+          File.join("datasets", dir.split("datasets").last)
+        end
+        def synced_directory
+          datasource_config = datasource.configuration || {}
+          @synced_dir ||= EasyML::Data::SyncedDirectory.new(
+            root_dir: dir,
+            s3_bucket: datasource_config.dig("s3_bucket") || EasyML::Configuration.s3_bucket,
+            s3_prefix: s3_prefix,
+            s3_access_key_id: EasyML::Configuration.s3_access_key_id,
+            s3_secret_access_key: EasyML::Configuration.s3_secret_access_key,
+            polars_args: datasource_config.dig("polars_args"),
+            cache_for: 0,
+          )
+        end
+        def should_sync?
+          synced_directory.should_sync?
+        end
+        def download
+          synced_directory.download
+        end
+        def upload
+          synced_directory.upload
+        end
+        # cp can receive a directory or just a version string
+        def cp(target_dir)
+          target_dir = version_to_dir(target_dir) if is_version?(target_dir)
+          return self if target_dir.nil?
+          target_dir = target_dir.to_s
+          puts "copying #{dir} to #{target_dir}"
+          FileUtils.mkdir_p(target_dir)
+          files_to_cp = Dir.glob(Pathname.new(dir).join("**/*")).select { |f| File.file?(f) }
+          files_to_cp.each do |file|
+            target_parts = target_dir.split("/")
+            file_parts = file.split("/")
+            _, not_shared = file_parts.partition.with_index { |part, index| target_parts[index] == part }
+            not_shared = not_shared[1..-1].join("/") # remove leading "processed", "raw", etc
+            target_file = File.join(target_dir, not_shared)
+            FileUtils.mkdir_p(File.dirname(target_file))
+            FileUtils.cp(file, target_file)
+          end
+          self.class.new(dir: target_dir, **attributes.except("dir"))
+        end
+        def save(segment, df)
+          return unless df.present?
+          segment_dir = File.join(dir, segment.to_s)
+          FileUtils.mkdir_p(segment_dir)
+          file_path = new_file_path_for_segment(segment)
+          df.write_parquet(file_path)
+          file_path
+        end
+        def query(**kwargs, &block)
+          read(:all, **kwargs, &block)
+        end
+        def read(segment, split_ys: false, target: nil, drop_cols: [], filter: nil, limit: nil, select: nil,
+                          unique: nil, sort: nil, descending: false, batch_size: nil, batch_start: nil, batch_key: nil, &block)
+          files = files_for_segment(segment)
+          return split_ys ? [nil, nil] : nil if files.empty?
+          query_params = {
+            filter: filter,
+            limit: limit,
+            select: select,
+            unique: unique,
+            drop_cols: drop_cols,
+            sort: sort,
+            descending: descending,
+            batch_size: batch_size,
+            batch_start: batch_start,
+            batch_key: batch_key,
+          }.compact
+          if batch_size.present?
+            base_enumerator = EasyML::Data::PolarsReader.query(files, **query_params)
+            if block_given?
+              wrap_with_block(base_enumerator, split_ys, target, &block)
+            else
+              wrap_with_split(base_enumerator, target)
+            end
+          else
+            df = EasyML::Data::PolarsReader.query(files, **query_params, &block)
+            split_features_targets(df, split_ys, target)
+          end
+        end
+        def cleanup
+          FileUtils.rm_rf(dir)
+          FileUtils.mkdir_p(dir)
+        end
+        def split_at
+          return nil if output_files.empty?
+          output_files.map { |file| File.mtime(file) }.max
+        end
+        def num_batches(segment)
+          files_for_segment(segment).count
+        end
+        def files
+          files_for_segment("all")
+        end
+        private
+        def wrap_with_block(base_enumerator, split_ys, target, &block)
+          Enumerator.new do |yielder|
+            base_enumerator.each do |df|
+              df = block.call(df)
+              result = process_dataframe(df, split_ys, target)
+              yielder << result
+            end
+          end
+        end
+        def wrap_with_split(base_enumerator, target)
+          Enumerator.new do |yielder|
+            base_enumerator.each do |df|
+              result = process_dataframe(df, true, target)
+              yielder << result
+            end
+          end
+        end
+        def process_dataframe(df, split_ys, target)
+          return df unless split_ys
+          df = df.collect if df.is_a?(Polars::LazyFrame)
+          split_features_targets(df, split_ys, target)
+        end
+        def version_to_dir(version)
+          relative_path = dir.gsub(Regexp.new(Rails.root.to_s), "")
+          current_path = Pathname.new(relative_path)
+          # Find the version component in the path
+          path_parts = current_path.each_filename.to_a
+          version_index = path_parts.find_index { |part| part.match?(version_pattern) }
+          return unless version_index
+          old_version = path_parts[version_index]
+          return if old_version == version
+          # Replace the version number with the new version
+          path_parts[version_index] = version
+          Rails.root.join(File.join(*path_parts))
+        end
+        def version_pattern
+          /^\d{14}$/
+        end
+        def is_version?(string)
+          string.to_s.match?(version_pattern)
+        end
+        def df(path)
+          filtered_args = filter_polars_args(Polars.method(:read_parquet))
+          Polars.read_parquet(path, **filtered_args)
+        end
+        def filter_polars_args(method)
+          supported_params = method.parameters.map { |_, name| name }
+          polars_args.select { |k, _| supported_params.include?(k) }
+        end
+        def output_files
+          Dir.glob("#{dir}/**/*.parquet")
+        end
+        def files_for_segment(segment)
+          if segment.to_s == "all"
+            files_for_segment("train") + files_for_segment("test") + files_for_segment("valid")
+          else
+            segment_dir = File.join(dir, segment.to_s)
+            Dir.glob(File.join(segment_dir, "**/*.parquet")).sort
+          end
+        end
+        def current_file_for_segment(segment)
+          segment_dir = File.join(dir, segment.to_s)
+          File.join(segment_dir, "#{segment}.parquet")
+        end
+        def new_file_path_for_segment(segment)
+          segment_dir = File.join(dir, segment.to_s)
+          file_number = Dir.glob(File.join(segment_dir, "*.parquet")).count
+          File.join(segment_dir, "#{segment}_%04d.parquet" % file_number)
+        end
+        def combine_dataframes(files)
+          dfs = files.map { |file| df(file) }
+          Polars.concat(dfs)
+        end
+      end
+    end
+  end
+end

data/lib/easy_ml/data/splits/in_memory_split.rb ADDED Viewed

@@ -0,0 +1,54 @@
+module EasyML
+  module Data
+    module Splits
+      class InMemorySplit < Split
+        attr_accessor :dataset
+        def initialize(options = {})
+          @data = {}
+          @dataset = options[:dataset]
+        end
+        # We don't backup in-memory splits to s3
+        def download; end
+        def upload; end
+        def files
+          []
+        end
+        def save(segment, df)
+          @data[segment] = df
+        end
+        def read(segment, split_ys: false, target: nil, drop_cols: [], filter: nil, limit: nil, select: nil,
+                          unique: nil)
+          return nil if @data.keys.none?
+          df = if segment.to_s == "all"
+              Polars.concat(EasyML::Dataset::SPLIT_ORDER.map { |segment| @data[segment] }.compact)
+            else
+              @data[segment]
+            end
+          return nil if df.nil?
+          df = df.filter(filter) if filter.present?
+          drop_cols &= df.columns
+          df = df.drop(drop_cols) unless drop_cols.empty?
+          df = df.unique if unique
+          split_features_targets(df, split_ys, target)
+        end
+        def cleanup
+          @data.clear
+        end
+        def split_at
+          @data.keys.empty? ? nil : Time.now
+        end
+      end
+    end
+  end
+end

data/lib/easy_ml/data/splits/split.rb ADDED Viewed

@@ -0,0 +1,95 @@
+module EasyML
+  module Data
+    module Splits
+      class Split
+        include EasyML::Data::Utils
+        VALID_SEGMENTS = %w[train test valid all].freeze
+        def initialize(options = {})
+        end
+        def load_data(segment, **kwargs)
+          drop_cols = dataset.drop_columns(all_columns: kwargs[:all_columns] || false)
+          kwargs.delete(:all_columns)
+          kwargs = kwargs.merge!(drop_cols: drop_cols, target: dataset.target)
+          read(segment, **kwargs)
+        end
+        def save(segment, _df)
+          validate_segment!(segment)
+          raise NotImplementedError, "Subclasses must implement #save"
+        end
+        def data(**kwargs, &block)
+          load_data(:all, **kwargs, &block)
+        end
+        def train(**kwargs, &block)
+          load_data(:train, **kwargs, &block)
+        end
+        def test(**kwargs, &block)
+          load_data(:test, **kwargs, &block)
+        end
+        def valid(**kwargs, &block)
+          load_data(:valid, **kwargs, &block)
+        end
+        def cleanup
+          raise NotImplementedError, "Subclasses must implement #cleanup"
+        end
+        def split_at
+          raise NotImplementedError, "Subclasses must implement #split_at"
+        end
+        protected
+        def split_features_targets(df, split_ys, target)
+          return df unless split_ys
+          raise ArgumentError, "Target column must be specified when split_ys is true" if target.nil?
+          xs = df.drop(target)
+          ys = df.select(target)
+          [xs, ys]
+        end
+        def validate_segment!(segment)
+          segment = segment.to_s
+          return if VALID_SEGMENTS.include?(segment)
+          raise ArgumentError, "Invalid segment: #{segment}. Must be one of: #{VALID_SEGMENTS.join(", ")}"
+        end
+        def validate_read_options!(options)
+          valid_options = %i[filter limit select unique sort descending batch_size batch_start batch_key]
+          invalid_options = options.keys - valid_options
+          return if invalid_options.empty?
+          raise ArgumentError,
+                "Invalid options: #{invalid_options.join(", ")}. Valid options are: #{valid_options.join(", ")}"
+        end
+        private
+        def process_block_with_split_ys(block, result, xs, ys)
+          case block.arity
+          when 3 then result.nil? ? [xs, ys] : block.call(result, xs, ys)
+          when 2 then block.call(xs, ys) && result
+          else raise ArgumentError, "Block must accept 2 or 3 arguments when split_ys is true"
+          end
+        end
+        def process_block_without_split_ys(block, result, df)
+          case block.arity
+          when 2 then result.nil? ? df : block.call(result, df)
+          when 1 then block.call(df) && result
+          else raise ArgumentError, "Block must accept 1 or 2 arguments when split_ys is false"
+          end
+        end
+      end
+    end
+  end
+end

data/lib/easy_ml/data/splits.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module EasyML
+  module Data
+    module Splits
+      require_relative "splits/split"
+      require_relative "splits/file_split"
+      require_relative "splits/in_memory_split"
+    end
+  end
+end