RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/lib/spark/helper/serialize.rb ADDED Viewed

@@ -0,0 +1,71 @@
+module Spark
+  module Helper
+    module Serialize
+      DIRECTIVE_INTEGER_BIG_ENDIAN = 'l>'
+      DIRECTIVE_INTEGERS_BIG_ENDIAN = 'l>*'
+      DIRECTIVE_LONG_BIG_ENDIAN = 'q>'
+      DIRECTIVE_LONGS_BIG_ENDIAN = 'q>*'
+      DIRECTIVE_DOUBLE_BIG_ENDIAN = 'G'
+      DIRECTIVE_DOUBLES_BIG_ENDIAN = 'G*'
+      DIRECTIVE_UNSIGNED_CHARS = 'C*'
+      DIRECTIVE_CHARS = 'c*'
+      # Packing
+      def pack_int(data)
+        [data].pack(DIRECTIVE_INTEGER_BIG_ENDIAN)
+      end
+      def pack_long(data)
+        [data].pack(DIRECTIVE_LONG_BIG_ENDIAN)
+      end
+      def pack_double(data)
+        [data].pack(DIRECTIVE_DOUBLE_BIG_ENDIAN)
+      end
+      def pack_unsigned_chars(data)
+        data.pack(DIRECTIVE_UNSIGNED_CHARS)
+      end
+      def pack_ints(data)
+        __check_array(data)
+        data.pack(DIRECTIVE_INTEGERS_BIG_ENDIAN)
+      end
+      def pack_longs(data)
+        __check_array(data)
+        data.pack(DIRECTIVE_LONGS_BIG_ENDIAN)
+      end
+      def pack_doubles(data)
+        __check_array(data)
+        data.pack(DIRECTIVE_DOUBLES_BIG_ENDIAN)
+      end
+      # Unpacking
+      def unpack_int(data)
+        data.unpack(DIRECTIVE_INTEGER_BIG_ENDIAN)[0]
+      end
+      def unpack_long(data)
+        data.unpack(DIRECTIVE_LONG_BIG_ENDIAN)[0]
+      end
+      def unpack_chars(data)
+        data.unpack(DIRECTIVE_CHARS)
+      end
+      private
+        def __check_array(data)
+          unless data.is_a?(Array)
+            raise ArgumentError, 'Data must be an Array.'
+          end
+        end
+    end
+  end
+end

data/lib/spark/helper/statistic.rb ADDED Viewed

@@ -0,0 +1,93 @@
+module Spark
+  module Helper
+    module Statistic
+      # Returns a sampling rate that guarantees a sample of size >= sampleSizeLowerBound 99.99% of the time.
+      #
+      # == How the sampling rate is determined:
+      # Let p = num / total, where num is the sample size and total is the total number of
+      # datapoints in the RDD. We're trying to compute q > p such that
+      # * when sampling with replacement, we're drawing each datapoint with prob_i ~ Pois(q),
+      #   where we want to guarantee Pr[s < num] < 0.0001 for s = sum(prob_i for i from 0 to total),
+      #   i.e. the failure rate of not having a sufficiently large sample < 0.0001.
+      #   Setting q = p + 5 * sqrt(p/total) is sufficient to guarantee 0.9999 success rate for
+      #   num > 12, but we need a slightly larger q (9 empirically determined).
+      # * when sampling without replacement, we're drawing each datapoint with prob_i
+      #   ~ Binomial(total, fraction) and our choice of q guarantees 1-delta, or 0.9999 success
+      #   rate, where success rate is defined the same as in sampling with replacement.
+      #
+      def compute_fraction(lower_bound, total, with_replacement)
+        lower_bound = lower_bound.to_f
+        if with_replacement
+          upper_poisson_bound(lower_bound) / total
+        else
+          fraction = lower_bound / total
+          upper_binomial_bound(0.00001, total, fraction)
+        end
+      end
+      def upper_poisson_bound(bound)
+        num_std = if bound < 6
+          12
+        elsif bound < 16
+          9
+        else
+          6
+        end.to_f
+        [bound + num_std * Math.sqrt(bound), 1e-10].max
+      end
+      def upper_binomial_bound(delta, total, fraction)
+        gamma = -Math.log(delta) / total
+        [1, fraction + gamma + Math.sqrt(gamma*gamma + 2*gamma*fraction)].min
+      end
+      # Bisect right
+      #
+      # == Examples:
+      #   data = [1,5,6,8,96,120,133]
+      #
+      #   bisect_right(data, 0)   # => 0
+      #   bisect_right(data, 1)   # => 1
+      #   bisect_right(data, 5)   # => 2
+      #   bisect_right(data, 9)   # => 4
+      #   bisect_right(data, 150) # => 7
+      #
+      def bisect_right(data, value, low=0, high=data.size)
+        if low < 0
+          raise ArgumentError, 'Low must be >= 0.'
+        end
+        while low < high
+          mid = (low + high) / 2
+          if value < data[mid]
+            high = mid
+          else
+            low = mid + 1
+          end
+        end
+        low
+      end
+      # Determine bound of partitioning
+      #
+      # == Example:
+      #   data = [0,1,2,3,4,5,6,7,8,9,10]
+      #   determine_bounds(data, 3)
+      #   # => [2, 5, 8]
+      #
+      def determine_bounds(data, num_partitions)
+        bounds = []
+        count = data.size
+        (0...(num_partitions-1)).each do |index|
+          bounds << data[count * (index+1) / num_partitions]
+        end
+        bounds
+      end
+    end
+  end
+end

data/lib/spark/helper/system.rb ADDED Viewed

@@ -0,0 +1,42 @@
+module Spark
+  module Helper
+    module System
+      def self.included(base)
+        base.send :extend,  Methods
+        base.send :include, Methods
+      end
+      module Methods
+        def windows?
+          RbConfig::CONFIG['host_os'] =~ /mswin|mingw/
+        end
+        def mri?
+          RbConfig::CONFIG['ruby_install_name'] == 'ruby'
+        end
+        def jruby?
+          RbConfig::CONFIG['ruby_install_name'] == 'jruby'
+        end
+        def pry?
+          !!Thread.current[:__pry__]
+        end
+        # Memory usage in kb
+        def memory_usage
+          if jruby?
+            runtime = java.lang.Runtime.getRuntime
+            (runtime.totalMemory - runtime.freeMemory) >> 10
+          elsif windows?
+            # not yet
+          else
+            `ps -o rss= -p #{Process.pid}`.to_i
+          end
+        end
+      end # Methods
+    end # System
+  end # Helper
+end # Spark

data/lib/spark/java_bridge.rb ADDED Viewed

@@ -0,0 +1,19 @@
+module Spark
+  module JavaBridge
+    autoload :Base,  'spark/java_bridge/base'
+    autoload :JRuby, 'spark/java_bridge/jruby'
+    autoload :RJB,   'spark/java_bridge/rjb'
+    include Spark::Helper::System
+    def self.get
+      if jruby?
+        JRuby
+      else
+        RJB
+      end
+    end
+  end
+end

data/lib/spark/java_bridge/base.rb ADDED Viewed

@@ -0,0 +1,203 @@
+##
+# Spark::JavaBridge::Base
+#
+# Parent for all adapter (ruby - java)
+#
+module Spark
+  module JavaBridge
+    class Base
+      include Spark::Helper::System
+      JAVA_OBJECTS = [
+        'java.util.ArrayList',
+        'org.apache.spark.SparkConf',
+        'org.apache.spark.api.java.JavaSparkContext',
+        'org.apache.spark.api.ruby.RubyRDD',
+        'org.apache.spark.api.ruby.RubyUtils',
+        'org.apache.spark.api.ruby.RubyWorker',
+        'org.apache.spark.api.ruby.PairwiseRDD',
+        'org.apache.spark.api.ruby.RubyAccumulatorParam',
+        'org.apache.spark.api.ruby.RubySerializer',
+        'org.apache.spark.api.python.PythonRDD',
+        'org.apache.spark.api.python.PythonPartitioner',
+        'org.apache.spark.ui.ruby.RubyTab',
+        'org.apache.spark.mllib.api.ruby.RubyMLLibAPI',
+        'scala.collection.mutable.HashMap',
+        :JInteger  => 'java.lang.Integer',
+        :JLong     => 'java.lang.Long',
+        :JLogger   => 'org.apache.log4j.Logger',
+        :JLevel    => 'org.apache.log4j.Level',
+        :JPriority => 'org.apache.log4j.Priority',
+        :JUtils    => 'org.apache.spark.util.Utils',
+        :JStorageLevel => 'org.apache.spark.storage.StorageLevel',
+        :JDenseVector => 'org.apache.spark.mllib.linalg.DenseVector',
+        :JDenseMatrix => 'org.apache.spark.mllib.linalg.DenseMatrix'
+      ]
+      JAVA_TEST_OBJECTS = [
+        'org.apache.spark.mllib.api.ruby.RubyMLLibUtilAPI'
+      ]
+      RUBY_TO_JAVA_SKIP = [Fixnum, Integer]
+      def initialize(spark_home)
+        @spark_home = spark_home
+      end
+      # Import all important classes into Objects
+      def load
+        return if @loaded
+        java_objects.each do |name, klass|
+          import(name, klass)
+        end
+        @loaded = true
+        nil
+      end
+      # Import classes for testing
+      def load_test
+        return if @loaded_test
+        java_test_objects.each do |name, klass|
+          import(name, klass)
+        end
+        @loaded_test = true
+        nil
+      end
+      # Call java object
+      def call(klass, method, *args)
+        # To java
+        args.map!{|item| to_java(item)}
+        # Call java
+        result = klass.__send__(method, *args)
+        # To ruby
+        to_ruby(result)
+      end
+      def to_java_array_list(array)
+        array_list = ArrayList.new
+        array.each do |item|
+          array_list.add(to_java(item))
+        end
+        array_list
+      end
+      def to_long(number)
+        return nil if number.nil?
+        JLong.new(number)
+      end
+      def to_java(object)
+        if RUBY_TO_JAVA_SKIP.include?(object.class)
+          # Some object are convert automatically
+          # This is for preventing errors
+          # For example: jruby store integer as long so 1.to_java is Long
+          object
+        elsif object.respond_to?(:to_java)
+          object.to_java
+        elsif object.is_a?(Array)
+          to_java_array_list(object)
+        else
+          object
+        end
+      end
+      # Array problem:
+      #   Rjb:   object.toArray -> Array
+      #   Jruby: object.toArray -> java.lang.Object
+      #
+      def to_ruby(object)
+        if java_object?(object)
+          class_name = object.getClass.getSimpleName
+          case class_name
+          when 'ArraySeq'
+            result = []
+            iterator = object.iterator
+            while iterator.hasNext
+              result << to_ruby(iterator.next)
+            end
+            result
+          when 'Map2', 'Map3', 'Map4', 'HashTrieMap'
+            Hash[
+              object.toSeq.array.to_a.map!{|item| [item._1, item._2]}
+            ]
+          when 'SeqWrapper'; object.toArray.to_a.map!{|item| to_ruby(item)}
+          when 'ofRef';      object.array.to_a.map!{|item| to_ruby(item)} # WrappedArray$ofRef
+          when 'LabeledPoint'; Spark::Mllib::LabeledPoint.from_java(object)
+          when 'DenseVector';  Spark::Mllib::DenseVector.from_java(object)
+          when 'KMeansModel';  Spark::Mllib::KMeansModel.from_java(object)
+          when 'DenseMatrix';  Spark::Mllib::DenseMatrix.from_java(object)
+          else
+            # Some RDD
+            if class_name != 'JavaRDD' && class_name.end_with?('RDD')
+              object = object.toJavaRDD
+              class_name = 'JavaRDD'
+            end
+            # JavaRDD
+            if class_name == 'JavaRDD'
+              jrdd = RubyRDD.toRuby(object)
+              serializer   = Spark.sc.get_serializer('marshal', nil)
+              deserializer = Spark.sc.get_serializer('marshal', 2) # is fully batched
+              return Spark::RDD.new(jrdd, Spark.sc, serializer, deserializer)
+            end
+            # Unknow
+            Spark.logger.warn("Java object '#{object.getClass.name}' was not converted.")
+            object
+          end
+        else
+          # Already transfered
+          object
+        end
+      end
+      alias_method :java_to_ruby, :to_ruby
+      alias_method :ruby_to_java, :to_java
+      private
+        def jars
+          result = []
+          if File.file?(@spark_home)
+            result << @spark_home
+          else
+            result << Dir.glob(File.join(@spark_home, '*.jar'))
+          end
+          result.flatten
+        end
+        def objects_with_names(objects)
+          hash = {}
+          objects.each do |object|
+            if object.is_a?(Hash)
+              hash.merge!(object)
+            else
+              key = object.split('.').last.to_sym
+              hash[key] = object
+            end
+          end
+          hash
+        end
+        def java_objects
+          objects_with_names(JAVA_OBJECTS)
+        end
+        def java_test_objects
+          objects_with_names(JAVA_TEST_OBJECTS)
+        end
+    end
+  end
+end

data/lib/spark/java_bridge/jruby.rb ADDED Viewed

@@ -0,0 +1,23 @@
+require 'java'
+module Spark
+  module JavaBridge
+    class JRuby < Base
+      def initialize(*args)
+        super
+        jars.each {|jar| require jar}
+      end
+      def import(name, klass)
+        klass = "Java::#{klass}"
+        Object.const_set(name, eval(klass)) rescue nil
+      end
+      def java_object?(object)
+        object.is_a?(JavaProxy)
+      end
+    end
+  end
+end