RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/lib/spark/java_bridge/rjb.rb ADDED Viewed

@@ -0,0 +1,41 @@
+if !ENV.has_key?('JAVA_HOME')
+  raise Spark::ConfigurationError, 'Environment variable JAVA_HOME is not set'
+end
+require 'rjb'
+module Spark
+  module JavaBridge
+    class RJB < Base
+      def initialize(*args)
+        super
+        Rjb.load(jars)
+        Rjb.primitive_conversion = true
+      end
+      def import(name, klass)
+        Object.const_set(name, silence_warnings { Rjb.import(klass) })
+      end
+      def java_object?(object)
+        object.is_a?(Rjb::Rjb_JavaProxy)
+      end
+      private
+        def jars
+          separator = windows? ? ';' : ':'
+          super.join(separator)
+        end
+        def silence_warnings
+          old_verbose, $VERBOSE = $VERBOSE, nil
+          yield
+        ensure
+          $VERBOSE = old_verbose
+        end
+    end
+  end
+end

data/lib/spark/logger.rb ADDED Viewed

@@ -0,0 +1,76 @@
+# Necessary libraries
+Spark.load_lib
+module Spark
+  class Logger
+    attr_reader :jlogger
+    def initialize
+      @jlogger = JLogger.getLogger('Ruby')
+    end
+    def level_off
+      JLevel.toLevel('OFF')
+    end
+    # Disable all Spark log
+    def disable
+      jlogger.setLevel(level_off)
+      JLogger.getLogger('org').setLevel(level_off)
+      JLogger.getLogger('akka').setLevel(level_off)
+      JLogger.getRootLogger.setLevel(level_off)
+    end
+    def enabled?
+      !disabled?
+    end
+    def info(message)
+      jlogger.info(message) if info?
+    end
+    def debug(message)
+      jlogger.debug(message) if debug?
+    end
+    def trace(message)
+      jlogger.trace(message) if trace?
+    end
+    def warning(message)
+      jlogger.warn(message) if warning?
+    end
+    def error(message)
+      jlogger.error(message) if error?
+    end
+    def info?
+      level_enabled?('info')
+    end
+    def debug?
+      level_enabled?('debug')
+    end
+    def trace?
+      level_enabled?('trace')
+    end
+    def warning?
+      level_enabled?('warn')
+    end
+    def error?
+      level_enabled?('error')
+    end
+    def level_enabled?(type)
+      jlogger.isEnabledFor(JPriority.toPriority(type.upcase))
+    end
+    alias_method :warn, :warning
+  end
+end

data/lib/spark/mllib.rb ADDED Viewed

@@ -0,0 +1,100 @@
+module Spark
+  # MLlib is Spark’s scalable machine learning library consisting of common learning algorithms and utilities,
+  # including classification, regression, clustering, collaborative filtering, dimensionality reduction,
+  # as well as underlying optimization primitives.
+  module Mllib
+    def self.autoload(klass, location, import=true)
+      if import
+        @for_importing ||= []
+        @for_importing << klass
+      end
+      super(klass, location)
+    end
+    def self.autoload_without_import(klass, location)
+      autoload(klass, location, false)
+    end
+    # Base classes
+    autoload_without_import :VectorBase, 'spark/mllib/vector'
+    autoload_without_import :MatrixBase, 'spark/mllib/matrix'
+    autoload_without_import :RegressionMethodBase,     'spark/mllib/regression/common'
+    autoload_without_import :ClassificationMethodBase, 'spark/mllib/classification/common'
+    # Linear algebra
+    autoload :Vectors,      'spark/mllib/vector'
+    autoload :DenseVector,  'spark/mllib/vector'
+    autoload :SparseVector, 'spark/mllib/vector'
+    autoload :Matrices,     'spark/mllib/matrix'
+    autoload :DenseMatrix,  'spark/mllib/matrix'
+    autoload :SparseMatrix, 'spark/mllib/matrix'
+    # Regression
+    autoload :LabeledPoint,            'spark/mllib/regression/labeled_point'
+    autoload :RegressionModel,         'spark/mllib/regression/common'
+    autoload :LinearRegressionModel,   'spark/mllib/regression/linear'
+    autoload :LinearRegressionWithSGD, 'spark/mllib/regression/linear'
+    autoload :LassoModel,              'spark/mllib/regression/lasso'
+    autoload :LassoWithSGD,            'spark/mllib/regression/lasso'
+    autoload :RidgeRegressionModel,    'spark/mllib/regression/ridge'
+    autoload :RidgeRegressionWithSGD,  'spark/mllib/regression/ridge'
+    # Classification
+    autoload :ClassificationModel,         'spark/mllib/classification/common'
+    autoload :LogisticRegressionWithSGD,   'spark/mllib/classification/logistic_regression'
+    autoload :LogisticRegressionWithLBFGS, 'spark/mllib/classification/logistic_regression'
+    autoload :SVMModel,                    'spark/mllib/classification/svm'
+    autoload :SVMWithSGD,                  'spark/mllib/classification/svm'
+    autoload :NaiveBayesModel,             'spark/mllib/classification/naive_bayes'
+    autoload :NaiveBayes,                  'spark/mllib/classification/naive_bayes'
+    # Clustering
+    autoload :KMeans,               'spark/mllib/clustering/kmeans'
+    autoload :KMeansModel,          'spark/mllib/clustering/kmeans'
+    autoload :GaussianMixture,      'spark/mllib/clustering/gaussian_mixture'
+    autoload :GaussianMixtureModel, 'spark/mllib/clustering/gaussian_mixture'
+    # Stat
+    autoload :MultivariateGaussian, 'spark/mllib/stat/distribution'
+    def self.prepare
+      return if @prepared
+      # if narray?
+      #   require 'spark/mllib/narray/vector'
+      #   require 'spark/mllib/narray/matrix'
+      # elsif mdarray?
+      #   require 'spark/mllib/mdarray/vector'
+      #   require 'spark/mllib/mdarray/matrix'
+      # else
+      #   require 'spark/mllib/matrix/vector'
+      #   require 'spark/mllib/matrix/matrix'
+      # end
+      require 'spark/mllib/ruby_matrix/vector_adapter'
+      require 'spark/mllib/ruby_matrix/matrix_adapter'
+      @prepared = true
+      nil
+    end
+    def self.import(to=Object)
+      @for_importing.each do |klass|
+        to.const_set(klass, const_get(klass))
+      end
+      nil
+    end
+    def self.narray?
+      Gem::Specification::find_all_by_name('narray').any?
+    end
+    def self.mdarray?
+      Gem::Specification::find_all_by_name('mdarray').any?
+    end
+  end
+end
+Spark::Mllib.prepare

data/lib/spark/mllib/classification/common.rb ADDED Viewed

@@ -0,0 +1,31 @@
+module Spark
+  module Mllib
+    class ClassificationModel
+      attr_reader :weights, :intercept, :threshold
+      def initialize(weights, intercept)
+        @weights = Spark::Mllib::Vectors.to_vector(weights)
+        @intercept = intercept.to_f
+        @threshold = nil
+      end
+      def threshold=(value)
+        @threshold = value.to_f
+      end
+      def clear_threshold
+        @threshold = nil
+      end
+    end
+  end
+end
+module Spark
+  module Mllib
+    class ClassificationMethodBase < RegressionMethodBase
+    end
+  end
+end

data/lib/spark/mllib/classification/logistic_regression.rb ADDED Viewed

@@ -0,0 +1,223 @@
+module Spark
+  module Mllib
+    ##
+    # LogisticRegressionModel
+    #
+    # A linear binary classification model derived from logistic regression.
+    #
+    # == Examples:
+    #
+    #   Spark::Mllib.import
+    #
+    #   # Dense vectors
+    #   data = [
+    #     LabeledPoint.new(0.0, [0.0, 1.0]),
+    #     LabeledPoint.new(1.0, [1.0, 0.0]),
+    #   ]
+    #   lrm = LogisticRegressionWithSGD.train($sc.parallelize(data))
+    #
+    #   lrm.predict([1.0, 0.0])
+    #   # => 1
+    #   lrm.predict([0.0, 1.0])
+    #   # => 0
+    #
+    #   lrm.clear_threshold
+    #   lrm.predict([0.0, 1.0])
+    #   # => 0.123...
+    #
+    #
+    #   # Sparse vectors
+    #   data = [
+    #     LabeledPoint.new(0.0, SparseVector.new(2, {0 => 0.0})),
+    #     LabeledPoint.new(1.0, SparseVector.new(2, {1 => 1.0})),
+    #     LabeledPoint.new(0.0, SparseVector.new(2, {0 => 1.0})),
+    #     LabeledPoint.new(1.0, SparseVector.new(2, {1 => 2.0}))
+    #   ]
+    #   lrm = LogisticRegressionWithSGD.train($sc.parallelize(data))
+    #
+    #   lrm.predict([0.0, 1.0])
+    #   # => 1
+    #   lrm.predict([1.0, 0.0])
+    #   # => 0
+    #   lrm.predict(SparseVector.new(2, {1 => 1.0}))
+    #   # => 1
+    #   lrm.predict(SparseVector.new(2, {0 => 1.0}))
+    #   # => 0
+    #
+    #
+    #   # LogisticRegressionWithLBFGS
+    #   data = [
+    #     LabeledPoint.new(0.0, [0.0, 1.0]),
+    #     LabeledPoint.new(1.0, [1.0, 0.0]),
+    #   ]
+    #   lrm = LogisticRegressionWithLBFGS.train($sc.parallelize(data))
+    #
+    #   lrm.predict([1.0, 0.0])
+    #   # => 1
+    #   lrm.predict([0.0, 1.0])
+    #   # => 0
+    #
+    class LogisticRegressionModel < ClassificationModel
+      def initialize(*args)
+        super
+        @threshold = 0.5
+      end
+      # Predict values for a single data point or an RDD of points using
+      # the model trained.
+      def predict(vector)
+        vector = Spark::Mllib::Vectors.to_vector(vector)
+        margin = weights.dot(vector) + intercept
+        score = 1.0 / (1.0 + Math.exp(-margin))
+        if threshold.nil?
+          return score
+        end
+        if score > threshold
+          1
+        else
+          0
+        end
+      end
+    end
+  end
+end
+module Spark
+  module Mllib
+    class LogisticRegressionWithSGD < ClassificationMethodBase
+      DEFAULT_OPTIONS = {
+        iterations: 100,
+        step: 1.0,
+        mini_batch_fraction: 1.0,
+        initial_weights: nil,
+        reg_param: 0.01,
+        reg_type: 'l2',
+        intercept: false
+      }
+      # Train a logistic regression model on the given data.
+      #
+      # == Arguments:
+      # rdd::
+      #   The training data, an RDD of LabeledPoint.
+      #
+      # iterations::
+      #   The number of iterations (default: 100).
+      #
+      # step::
+      #   The step parameter used in SGD (default: 1.0).
+      #
+      # mini_batch_fraction::
+      #   Fraction of data to be used for each SGD iteration.
+      #
+      # initial_weights::
+      #   The initial weights (default: nil).
+      #
+      # reg_param::
+      #   The regularizer parameter (default: 0.01).
+      #
+      # reg_type::
+      #   The type of regularizer used for training our model (default: "l2").
+      #
+      #   Allowed values:
+      #   - "l1" for using L1 regularization
+      #   - "l2" for using L2 regularization
+      #   - nil for no regularization
+      #
+      # intercept::
+      #   Boolean parameter which indicates the use
+      #   or not of the augmented representation for
+      #   training data (i.e. whether bias features
+      #   are activated or not).
+      #
+      def self.train(rdd, options={})
+        super
+        weights, intercept = Spark.jb.call(RubyMLLibAPI.new, 'trainLogisticRegressionModelWithSGD', rdd,
+                                           options[:iterations].to_i,
+                                           options[:step].to_f,
+                                           options[:mini_batch_fraction].to_f,
+                                           options[:initial_weights],
+                                           options[:reg_param].to_f,
+                                           options[:reg_type],
+                                           options[:intercept])
+        LogisticRegressionModel.new(weights, intercept)
+      end
+    end
+  end
+end
+module Spark
+  module Mllib
+    class LogisticRegressionWithLBFGS < ClassificationMethodBase
+      DEFAULT_OPTIONS = {
+        iterations: 100,
+        initial_weights: nil,
+        reg_param: 0.01,
+        reg_type: 'l2',
+        intercept: false,
+        corrections: 10,
+        tolerance: 0.0001
+      }
+      # Train a logistic regression model on the given data.
+      #
+      # == Arguments:
+      # rdd::
+      #   The training data, an RDD of LabeledPoint.
+      #
+      # iterations::
+      #   The number of iterations (default: 100).
+      #
+      # initial_weights::
+      #   The initial weights (default: nil).
+      #
+      # reg_param::
+      #   The regularizer parameter (default: 0.01).
+      #
+      # reg_type::
+      #   The type of regularizer used for training our model (default: "l2").
+      #
+      #   Allowed values:
+      #   - "l1" for using L1 regularization
+      #   - "l2" for using L2 regularization
+      #   - nil for no regularization
+      #
+      # intercept::
+      #   Boolean parameter which indicates the use
+      #   or not of the augmented representation for
+      #   training data (i.e. whether bias features
+      #   are activated or not).
+      #
+      # corrections::
+      #   The number of corrections used in the LBFGS update (default: 10).
+      #
+      # tolerance::
+      #   The convergence tolerance of iterations for L-BFGS (default: 0.0001).
+      #
+      def self.train(rdd, options={})
+        super
+        weights, intercept = Spark.jb.call(RubyMLLibAPI.new, 'trainLogisticRegressionModelWithLBFGS', rdd,
+                                           options[:iterations].to_i,
+                                           options[:initial_weights],
+                                           options[:reg_param].to_f,
+                                           options[:reg_type],
+                                           options[:intercept],
+                                           options[:corrections].to_i,
+                                           options[:tolerance].to_f)
+        LogisticRegressionModel.new(weights, intercept)
+      end
+    end
+  end
+end