RubyGems - svmkit - Versions diffs - 0.7.3 → 0.8.1 - Mend

svmkit 0.7.3 → 0.8.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (78) hide show

checksums.yaml +4 -4
data/.gitignore +0 -9
data/.rspec +1 -0
data/.travis.yml +4 -12
data/LICENSE.txt +1 -1
data/README.md +11 -13
data/lib/svmkit.rb +3 -66
data/svmkit.gemspec +12 -7
metadata +16 -81
data/.coveralls.yml +0 -1
data/.rubocop.yml +0 -47
data/.rubocop_todo.yml +0 -58
data/HISTORY.md +0 -168
data/lib/svmkit/base/base_estimator.rb +0 -13
data/lib/svmkit/base/classifier.rb +0 -34
data/lib/svmkit/base/cluster_analyzer.rb +0 -29
data/lib/svmkit/base/evaluator.rb +0 -13
data/lib/svmkit/base/regressor.rb +0 -34
data/lib/svmkit/base/splitter.rb +0 -17
data/lib/svmkit/base/transformer.rb +0 -18
data/lib/svmkit/clustering/dbscan.rb +0 -127
data/lib/svmkit/clustering/k_means.rb +0 -140
data/lib/svmkit/dataset.rb +0 -109
data/lib/svmkit/decomposition/nmf.rb +0 -147
data/lib/svmkit/decomposition/pca.rb +0 -150
data/lib/svmkit/ensemble/ada_boost_classifier.rb +0 -198
data/lib/svmkit/ensemble/ada_boost_regressor.rb +0 -180
data/lib/svmkit/ensemble/random_forest_classifier.rb +0 -182
data/lib/svmkit/ensemble/random_forest_regressor.rb +0 -143
data/lib/svmkit/evaluation_measure/accuracy.rb +0 -30
data/lib/svmkit/evaluation_measure/f_score.rb +0 -51
data/lib/svmkit/evaluation_measure/log_loss.rb +0 -46
data/lib/svmkit/evaluation_measure/mean_absolute_error.rb +0 -30
data/lib/svmkit/evaluation_measure/mean_squared_error.rb +0 -30
data/lib/svmkit/evaluation_measure/normalized_mutual_information.rb +0 -63
data/lib/svmkit/evaluation_measure/precision.rb +0 -51
data/lib/svmkit/evaluation_measure/precision_recall.rb +0 -91
data/lib/svmkit/evaluation_measure/purity.rb +0 -41
data/lib/svmkit/evaluation_measure/r2_score.rb +0 -44
data/lib/svmkit/evaluation_measure/recall.rb +0 -51
data/lib/svmkit/kernel_approximation/rbf.rb +0 -136
data/lib/svmkit/kernel_machine/kernel_svc.rb +0 -194
data/lib/svmkit/linear_model/lasso.rb +0 -138
data/lib/svmkit/linear_model/linear_regression.rb +0 -112
data/lib/svmkit/linear_model/logistic_regression.rb +0 -161
data/lib/svmkit/linear_model/ridge.rb +0 -112
data/lib/svmkit/linear_model/sgd_linear_estimator.rb +0 -89
data/lib/svmkit/linear_model/svc.rb +0 -184
data/lib/svmkit/linear_model/svr.rb +0 -123
data/lib/svmkit/model_selection/cross_validation.rb +0 -121
data/lib/svmkit/model_selection/grid_search_cv.rb +0 -247
data/lib/svmkit/model_selection/k_fold.rb +0 -77
data/lib/svmkit/model_selection/stratified_k_fold.rb +0 -95
data/lib/svmkit/multiclass/one_vs_rest_classifier.rb +0 -101
data/lib/svmkit/naive_bayes/naive_bayes.rb +0 -316
data/lib/svmkit/nearest_neighbors/k_neighbors_classifier.rb +0 -112
data/lib/svmkit/nearest_neighbors/k_neighbors_regressor.rb +0 -94
data/lib/svmkit/optimizer/nadam.rb +0 -90
data/lib/svmkit/optimizer/rmsprop.rb +0 -69
data/lib/svmkit/optimizer/sgd.rb +0 -65
data/lib/svmkit/optimizer/yellow_fin.rb +0 -144
data/lib/svmkit/pairwise_metric.rb +0 -91
data/lib/svmkit/pipeline/pipeline.rb +0 -197
data/lib/svmkit/polynomial_model/factorization_machine_classifier.rb +0 -262
data/lib/svmkit/polynomial_model/factorization_machine_regressor.rb +0 -194
data/lib/svmkit/preprocessing/l2_normalizer.rb +0 -63
data/lib/svmkit/preprocessing/label_encoder.rb +0 -95
data/lib/svmkit/preprocessing/min_max_scaler.rb +0 -93
data/lib/svmkit/preprocessing/one_hot_encoder.rb +0 -99
data/lib/svmkit/preprocessing/standard_scaler.rb +0 -87
data/lib/svmkit/probabilistic_output.rb +0 -112
data/lib/svmkit/tree/decision_tree_classifier.rb +0 -276
data/lib/svmkit/tree/decision_tree_regressor.rb +0 -251
data/lib/svmkit/tree/node.rb +0 -70
data/lib/svmkit/utils.rb +0 -22
data/lib/svmkit/validation.rb +0 -79
data/lib/svmkit/values.rb +0 -13
data/lib/svmkit/version.rb +0 -7

data/lib/svmkit/pipeline/pipeline.rb DELETED

@@ -1,197 +0,0 @@
-# frozen_string_literal: true
-require 'svmkit/validation'
-require 'svmkit/base/base_estimator'
-module SVMKit
-  # Module implements utilities of pipeline that cosists of a chain of transfomers and estimators.
-  module Pipeline
-    # Pipeline is a class that implements the function to perform the transformers and estimators sequencially.
-    #
-    # @example
-    #   rbf = SVMKit::KernelApproximation::RBF.new(gamma: 1.0, n_coponents: 128, random_seed: 1)
-    #   svc = SVMKit::LinearModel::SVC.new(reg_param: 1.0, fit_bias: true, max_iter: 5000, random_seed: 1)
-    #   pipeline = SVMKit::Pipeline::Pipeline.new(steps: { trs: rbf, est: svc })
-    #   pipeline.fit(training_samples, traininig_labels)
-    #   results = pipeline.predict(testing_samples)
-    #
-    class Pipeline
-      include Base::BaseEstimator
-      include Validation
-      # Return the steps.
-      # @return [Hash]
-      attr_reader :steps
-      # Create a new pipeline.
-      #
-      # @param steps [Hash] List of transformers and estimators. The order of transforms follows the insertion order of hash keys.
-      #   The last entry is considered an estimator.
-      def initialize(steps:)
-        check_params_type(Hash, steps: steps)
-        validate_steps(steps)
-        @params = {}
-        @steps = steps
-      end
-      # Fit the model with given training data.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The training data to be transformed and used for fitting the model.
-      # @param y [Numo::NArray] (shape: [n_samples, n_outputs]) The target values or labels to be used for fitting the model.
-      # @return [Pipeline] The learned pipeline itself.
-      def fit(x, y)
-        check_sample_array(x)
-        trans_x = apply_transforms(x, y, fit: true)
-        last_estimator.fit(trans_x, y) unless last_estimator.nil?
-        self
-      end
-      # Call the fit_predict method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The training data to be transformed and used for fitting the model.
-      # @param y [Numo::NArray] (shape: [n_samples, n_outputs], default: nil) The target values or labels to be used for fitting the model.
-      # @return [Numo::NArray] The predicted results by last estimator.
-      def fit_predict(x, y = nil)
-        check_sample_array(x)
-        trans_x = apply_transforms(x, y, fit: true)
-        last_estimator.fit_predict(trans_x)
-      end
-      # Call the fit_transform method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The training data to be transformed and used for fitting the model.
-      # @param y [Numo::NArray] (shape: [n_samples, n_outputs], default: nil) The target values or labels to be used for fitting the model.
-      # @return [Numo::NArray] The predicted results by last estimator.
-      def fit_transform(x, y = nil)
-        check_sample_array(x)
-        trans_x = apply_transforms(x, y, fit: true)
-        last_estimator.fit_transform(trans_x, y)
-      end
-      # Call the decision_function method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to compute the scores.
-      # @return [Numo::DFloat] (shape: [n_samples]) Confidence score per sample.
-      def decision_function(x)
-        check_sample_array(x)
-        trans_x = apply_transforms(x)
-        last_estimator.decision_function(trans_x)
-      end
-      # Call the predict method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to obtain prediction result.
-      # @return [Numo::NArray] The predicted results by last estimator.
-      def predict(x)
-        check_sample_array(x)
-        trans_x = apply_transforms(x)
-        last_estimator.predict(trans_x)
-      end
-      # Call the predict_log_proba method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to predict the log-probailities.
-      # @return [Numo::DFloat] (shape: [n_samples, n_classes]) Predicted log-probability of each class per sample.
-      def predict_log_proba(x)
-        check_sample_array(x)
-        trans_x = apply_transforms(x)
-        last_estimator.predict_log_proba(trans_x)
-      end
-      # Call the predict_proba method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to predict the probailities.
-      # @return [Numo::DFloat] (shape: [n_samples, n_classes]) Predicted probability of each class per sample.
-      def predict_proba(x)
-        check_sample_array(x)
-        trans_x = apply_transforms(x)
-        last_estimator.predict_proba(trans_x)
-      end
-      # Call the transform method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to be transformed.
-      # @return [Numo::DFloat] (shape: [n_samples, n_components]) The transformed samples.
-      def transform(x)
-        check_sample_array(x)
-        trans_x = apply_transforms(x)
-        last_estimator.nil? ? trans_x : last_estimator.transform(trans_x)
-      end
-      # Call the inverse_transform method in reverse order.
-      #
-      # @param z [Numo::DFloat] (shape: [n_samples, n_components]) The transformed samples to be restored into original space.
-      # @return [Numo::DFloat] (shape: [n_samples, n_featuress]) The restored samples.
-      def inverse_transform(z)
-        check_sample_array(z)
-        itrans_z = z
-        @steps.keys.reverse_each do |name|
-          transformer = @steps[name]
-          next if transformer.nil?
-          itrans_z = transformer.inverse_transform(itrans_z)
-        end
-        itrans_z
-      end
-      # Call the score method of last estimator after applying all transforms.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) Testing data.
-      # @param y [Numo::NArray] (shape: [n_samples, n_outputs]) True target values or labels for testing data.
-      # @return [Float] The score of last estimator
-      def score(x, y)
-        check_sample_array(x)
-        trans_x = apply_transforms(x)
-        last_estimator.score(trans_x, y)
-      end
-      # Dump marshal data.
-      # @return [Hash] The marshal data about Pipeline.
-      def marshal_dump
-        { params: @params,
-          steps: @steps }
-      end
-      # Load marshal data.
-      # @return [nil]
-      def marshal_load(obj)
-        @params = obj[:params]
-        @steps = obj[:steps]
-        nil
-      end
-      private
-      def validate_steps(steps)
-        steps.keys[0...-1].each do |name|
-          transformer = steps[name]
-          next if transformer.nil? || %i[fit transform].all? { |m| transformer.class.method_defined?(m) }
-          raise TypeError,
-                'Class of intermediate step in pipeline should be implemented fit and transform methods: ' \
-                "#{name} => #{transformer.class}"
-        end
-        estimator = steps[steps.keys.last]
-        unless estimator.nil? || estimator.class.method_defined?(:fit)
-          raise TypeError,
-                'Class of last step in pipeline should be implemented fit method: ' \
-                "#{steps.keys.last} => #{estimator.class}"
-        end
-      end
-      def apply_transforms(x, y = nil, fit: false)
-        trans_x = x
-        @steps.keys[0...-1].each do |name|
-          transformer = @steps[name]
-          next if transformer.nil?
-          transformer.fit(trans_x, y) if fit
-          trans_x = transformer.transform(trans_x)
-        end
-        trans_x
-      end
-      def last_estimator
-        @steps[@steps.keys.last]
-      end
-    end
-  end
-end

data/lib/svmkit/polynomial_model/factorization_machine_classifier.rb DELETED

@@ -1,262 +0,0 @@
-# frozen_string_literal: true
-require 'svmkit/validation'
-require 'svmkit/base/base_estimator'
-require 'svmkit/base/classifier'
-require 'svmkit/optimizer/nadam'
-module SVMKit
-  # This module consists of the classes that implement polynomial models.
-  module PolynomialModel
-    # FactorizationMachineClassifier is a class that implements Factorization Machine
-    # with stochastic gradient descent (SGD) optimization.
-    # For multiclass classification problem, it uses one-vs-the-rest strategy.
-    #
-    # @example
-    #   estimator =
-    #     SVMKit::PolynomialModel::FactorizationMachineClassifier.new(
-    #      n_factors: 10, loss: 'hinge', reg_param_linear: 0.001, reg_param_factor: 0.001,
-    #      max_iter: 5000, batch_size: 50, random_seed: 1)
-    #   estimator.fit(training_samples, traininig_labels)
-    #   results = estimator.predict(testing_samples)
-    #
-    # *Reference*
-    # - S. Rendle, "Factorization Machines with libFM," ACM TIST, vol. 3 (3), pp. 57:1--57:22, 2012.
-    # - S. Rendle, "Factorization Machines," Proc. ICDM'10, pp. 995--1000, 2010.
-    class FactorizationMachineClassifier
-      include Base::BaseEstimator
-      include Base::Classifier
-      include Validation
-      # Return the factor matrix for Factorization Machine.
-      # @return [Numo::DFloat] (shape: [n_classes, n_factors, n_features])
-      attr_reader :factor_mat
-      # Return the weight vector for Factorization Machine.
-      # @return [Numo::DFloat] (shape: [n_classes, n_features])
-      attr_reader :weight_vec
-      # Return the bias term for Factoriazation Machine.
-      # @return [Numo::DFloat] (shape: [n_classes])
-      attr_reader :bias_term
-      # Return the class labels.
-      # @return [Numo::Int32] (shape: [n_classes])
-      attr_reader :classes
-      # Return the random generator for random sampling.
-      # @return [Random]
-      attr_reader :rng
-      # Create a new classifier with Factorization Machine.
-      #
-      # @param n_factors [Integer] The maximum number of iterations.
-      # @param loss [String] The loss function ('hinge' or 'logistic').
-      # @param reg_param_linear [Float] The regularization parameter for linear model.
-      # @param reg_param_factor [Float] The regularization parameter for factor matrix.
-      # @param max_iter [Integer] The maximum number of iterations.
-      # @param batch_size [Integer] The size of the mini batches.
-      # @param optimizer [Optimizer] The optimizer to calculate adaptive learning rate.
-      #   If nil is given, Nadam is used.
-      # @param random_seed [Integer] The seed value using to initialize the random generator.
-      def initialize(n_factors: 2, loss: 'hinge', reg_param_linear: 1.0, reg_param_factor: 1.0,
-                     max_iter: 1000, batch_size: 10, optimizer: nil, random_seed: nil)
-        check_params_float(reg_param_linear: reg_param_linear, reg_param_factor: reg_param_factor)
-        check_params_integer(n_factors: n_factors, max_iter: max_iter, batch_size: batch_size)
-        check_params_string(loss: loss)
-        check_params_type_or_nil(Integer, random_seed: random_seed)
-        check_params_positive(n_factors: n_factors,
-                              reg_param_linear: reg_param_linear, reg_param_factor: reg_param_factor,
-                              max_iter: max_iter, batch_size: batch_size)
-        @params = {}
-        @params[:n_factors] = n_factors
-        @params[:loss] = loss
-        @params[:reg_param_linear] = reg_param_linear
-        @params[:reg_param_factor] = reg_param_factor
-        @params[:max_iter] = max_iter
-        @params[:batch_size] = batch_size
-        @params[:optimizer] = optimizer
-        @params[:optimizer] ||= Optimizer::Nadam.new
-        @params[:random_seed] = random_seed
-        @params[:random_seed] ||= srand
-        @factor_mat = nil
-        @weight_vec = nil
-        @bias_term = nil
-        @classes = nil
-        @rng = Random.new(@params[:random_seed])
-      end
-      # Fit the model with given training data.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The training data to be used for fitting the model.
-      # @param y [Numo::Int32] (shape: [n_samples]) The labels to be used for fitting the model.
-      # @return [FactorizationMachineClassifier] The learned classifier itself.
-      def fit(x, y)
-        check_sample_array(x)
-        check_label_array(y)
-        check_sample_label_size(x, y)
-        @classes = Numo::Int32[*y.to_a.uniq.sort]
-        n_classes = @classes.size
-        _n_samples, n_features = x.shape
-        if n_classes > 2
-          @factor_mat = Numo::DFloat.zeros(n_classes, @params[:n_factors], n_features)
-          @weight_vec = Numo::DFloat.zeros(n_classes, n_features)
-          @bias_term = Numo::DFloat.zeros(n_classes)
-          n_classes.times do |n|
-            bin_y = Numo::Int32.cast(y.eq(@classes[n])) * 2 - 1
-            @factor_mat[n, true, true], @weight_vec[n, true], @bias_term[n] = binary_fit(x, bin_y)
-          end
-        else
-          negative_label = y.to_a.uniq.min
-          bin_y = Numo::Int32.cast(y.ne(negative_label)) * 2 - 1
-          @factor_mat, @weight_vec, @bias_term = binary_fit(x, bin_y)
-        end
-        self
-      end
-      # Calculate confidence scores for samples.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to compute the scores.
-      # @return [Numo::DFloat] (shape: [n_samples]) Confidence score per sample.
-      def decision_function(x)
-        check_sample_array(x)
-        linear_term = @bias_term + x.dot(@weight_vec.transpose)
-        factor_term = if @classes.size <= 2
-                        0.5 * (@factor_mat.dot(x.transpose)**2 - (@factor_mat**2).dot(x.transpose**2)).sum(0)
-                      else
-                        0.5 * (@factor_mat.dot(x.transpose)**2 - (@factor_mat**2).dot(x.transpose**2)).sum(1).transpose
-                      end
-        linear_term + factor_term
-      end
-      # Predict class labels for samples.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to predict the labels.
-      # @return [Numo::Int32] (shape: [n_samples]) Predicted class label per sample.
-      def predict(x)
-        check_sample_array(x)
-        return Numo::Int32.cast(decision_function(x).ge(0.0)) * 2 - 1 if @classes.size <= 2
-        n_samples, = x.shape
-        decision_values = decision_function(x)
-        Numo::Int32.asarray(Array.new(n_samples) { |n| @classes[decision_values[n, true].max_index] })
-      end
-      # Predict probability for samples.
-      #
-      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to predict the probailities.
-      # @return [Numo::DFloat] (shape: [n_samples, n_classes]) Predicted probability of each class per sample.
-      def predict_proba(x)
-        check_sample_array(x)
-        proba = 1.0 / (Numo::NMath.exp(-decision_function(x)) + 1.0)
-        return (proba.transpose / proba.sum(axis: 1)).transpose if @classes.size > 2
-        n_samples, = x.shape
-        probs = Numo::DFloat.zeros(n_samples, 2)
-        probs[true, 1] = proba
-        probs[true, 0] = 1.0 - proba
-        probs
-      end
-      # Dump marshal data.
-      # @return [Hash] The marshal data about FactorizationMachineClassifier.
-      def marshal_dump
-        { params: @params,
-          factor_mat: @factor_mat,
-          weight_vec: @weight_vec,
-          bias_term: @bias_term,
-          classes: @classes,
-          rng: @rng }
-      end
-      # Load marshal data.
-      # @return [nil]
-      def marshal_load(obj)
-        @params = obj[:params]
-        @factor_mat = obj[:factor_mat]
-        @weight_vec = obj[:weight_vec]
-        @bias_term = obj[:bias_term]
-        @classes = obj[:classes]
-        @rng = obj[:rng]
-        nil
-      end
-      private
-      def binary_fit(x, y)
-        # Initialize some variables.
-        n_samples, n_features = x.shape
-        rand_ids = [*0...n_samples].shuffle(random: @rng)
-        weight_vec = Numo::DFloat.zeros(n_features + 1)
-        factor_mat = Numo::DFloat.zeros(@params[:n_factors], n_features)
-        weight_optimizer = @params[:optimizer].dup
-        factor_optimizers = Array.new(@params[:n_factors]) { @params[:optimizer].dup }
-        # Start optimization.
-        @params[:max_iter].times do |_t|
-          # Random sampling.
-          subset_ids = rand_ids.shift(@params[:batch_size])
-          rand_ids.concat(subset_ids)
-          data = x[subset_ids, true]
-          ex_data = expand_feature(data)
-          label = y[subset_ids]
-          # Calculate gradients for loss function.
-          loss_grad = loss_gradient(data, ex_data, label, factor_mat, weight_vec)
-          next if loss_grad.ne(0.0).count.zero?
-          # Update each parameter.
-          weight_vec = weight_optimizer.call(weight_vec, weight_gradient(loss_grad, ex_data, weight_vec))
-          @params[:n_factors].times do |n|
-            factor_mat[n, true] = factor_optimizers[n].call(factor_mat[n, true],
-                                                            factor_gradient(loss_grad, data, factor_mat[n, true]))
-          end
-        end
-        [factor_mat, *split_weight_vec_bias(weight_vec)]
-      end
-      def bin_decision_function(x, ex_x, factor, weight)
-        ex_x.dot(weight) + 0.5 * (factor.dot(x.transpose)**2 - (factor**2).dot(x.transpose**2)).sum(0)
-      end
-      def hinge_loss_gradient(x, ex_x, y, factor, weight)
-        evaluated = y * bin_decision_function(x, ex_x, factor, weight)
-        gradient = Numo::DFloat.zeros(evaluated.size)
-        gradient[evaluated < 1.0] = -y[evaluated < 1.0]
-        gradient
-      end
-      def logistic_loss_gradient(x, ex_x, y, factor, weight)
-        evaluated = y * bin_decision_function(x, ex_x, factor, weight)
-        sigmoid_func = 1.0 / (Numo::NMath.exp(-evaluated) + 1.0)
-        (sigmoid_func - 1.0) * y
-      end
-      def loss_gradient(x, ex_x, y, factor, weight)
-        if @params[:loss] == 'hinge'
-          hinge_loss_gradient(x, ex_x, y, factor, weight)
-        else
-          logistic_loss_gradient(x, ex_x, y, factor, weight)
-        end
-      end
-      def weight_gradient(loss_grad, data, weight)
-        (loss_grad.expand_dims(1) * data).mean(0) + @params[:reg_param_linear] * weight
-      end
-      def factor_gradient(loss_grad, data, factor)
-        (loss_grad.expand_dims(1) * (data * data.dot(factor).expand_dims(1) - factor * (data**2))).mean(0) + @params[:reg_param_factor] * factor
-      end
-      def expand_feature(x)
-        Numo::NArray.hstack([x, Numo::DFloat.ones([x.shape[0], 1])])
-      end
-      def split_weight_vec_bias(weight_vec)
-        weights = weight_vec[0...-1].dup
-        bias = weight_vec[-1]
-        [weights, bias]
-      end
-    end
-  end
-end