RubyGems - ruby-spark - Versions diffs - 1.1.0.1-java - Mend

ruby-spark 1.1.0.1-java

Files changed (180) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +252 -0
data/Rakefile +35 -0
data/TODO.md +6 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/comparison/prepare.sh +18 -0
data/benchmark/comparison/python.py +156 -0
data/benchmark/comparison/r.r +69 -0
data/benchmark/comparison/ruby.rb +167 -0
data/benchmark/comparison/run-all.sh +160 -0
data/benchmark/comparison/scala.scala +181 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/example/website_search.rb +83 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +392 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +158 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +238 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +322 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +67 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1377 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +79 -0
data/lib/spark/serializer/auto_batched.rb +59 -0
data/lib/spark/serializer/base.rb +63 -0
data/lib/spark/serializer/batched.rb +84 -0
data/lib/spark/serializer/cartesian.rb +13 -0
data/lib/spark/serializer/compressed.rb +27 -0
data/lib/spark/serializer/marshal.rb +17 -0
data/lib/spark/serializer/message_pack.rb +23 -0
data/lib/spark/serializer/oj.rb +23 -0
data/lib/spark/serializer/pair.rb +41 -0
data/lib/spark/serializer/text.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +200 -0
data/ruby-spark.gemspec +47 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +165 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +122 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +88 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +170 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +38 -0
metadata +389 -0

data/lib/spark/helper/serialize.rb ADDED

@@ -0,0 +1,71 @@
+module Spark
+  module Helper
+    module Serialize
+      DIRECTIVE_INTEGER_BIG_ENDIAN = 'l>'
+      DIRECTIVE_INTEGERS_BIG_ENDIAN = 'l>*'
+      DIRECTIVE_LONG_BIG_ENDIAN = 'q>'
+      DIRECTIVE_LONGS_BIG_ENDIAN = 'q>*'
+      DIRECTIVE_DOUBLE_BIG_ENDIAN = 'G'
+      DIRECTIVE_DOUBLES_BIG_ENDIAN = 'G*'
+      DIRECTIVE_UNSIGNED_CHARS = 'C*'
+      DIRECTIVE_CHARS = 'c*'
+      # Packing
+      def pack_int(data)
+        [data].pack(DIRECTIVE_INTEGER_BIG_ENDIAN)
+      end
+      def pack_long(data)
+        [data].pack(DIRECTIVE_LONG_BIG_ENDIAN)
+      end
+      def pack_double(data)
+        [data].pack(DIRECTIVE_DOUBLE_BIG_ENDIAN)
+      end
+      def pack_unsigned_chars(data)
+        data.pack(DIRECTIVE_UNSIGNED_CHARS)
+      end
+      def pack_ints(data)
+        __check_array(data)
+        data.pack(DIRECTIVE_INTEGERS_BIG_ENDIAN)
+      end
+      def pack_longs(data)
+        __check_array(data)
+        data.pack(DIRECTIVE_LONGS_BIG_ENDIAN)
+      end
+      def pack_doubles(data)
+        __check_array(data)
+        data.pack(DIRECTIVE_DOUBLES_BIG_ENDIAN)
+      end
+      # Unpacking
+      def unpack_int(data)
+        data.unpack(DIRECTIVE_INTEGER_BIG_ENDIAN)[0]
+      end
+      def unpack_long(data)
+        data.unpack(DIRECTIVE_LONG_BIG_ENDIAN)[0]
+      end
+      def unpack_chars(data)
+        data.unpack(DIRECTIVE_CHARS)
+      end
+      private
+        def __check_array(data)
+          unless data.is_a?(Array)
+            raise ArgumentError, 'Data must be an Array.'
+          end
+        end
+    end
+  end
+end

data/lib/spark/helper/statistic.rb ADDED

@@ -0,0 +1,93 @@
+module Spark
+  module Helper
+    module Statistic
+      # Returns a sampling rate that guarantees a sample of size >= sampleSizeLowerBound 99.99% of the time.
+      #
+      # == How the sampling rate is determined:
+      # Let p = num / total, where num is the sample size and total is the total number of
+      # datapoints in the RDD. We're trying to compute q > p such that
+      # * when sampling with replacement, we're drawing each datapoint with prob_i ~ Pois(q),
+      #   where we want to guarantee Pr[s < num] < 0.0001 for s = sum(prob_i for i from 0 to total),
+      #   i.e. the failure rate of not having a sufficiently large sample < 0.0001.
+      #   Setting q = p + 5 * sqrt(p/total) is sufficient to guarantee 0.9999 success rate for
+      #   num > 12, but we need a slightly larger q (9 empirically determined).
+      # * when sampling without replacement, we're drawing each datapoint with prob_i
+      #   ~ Binomial(total, fraction) and our choice of q guarantees 1-delta, or 0.9999 success
+      #   rate, where success rate is defined the same as in sampling with replacement.
+      #
+      def compute_fraction(lower_bound, total, with_replacement)
+        lower_bound = lower_bound.to_f
+        if with_replacement
+          upper_poisson_bound(lower_bound) / total
+        else
+          fraction = lower_bound / total
+          upper_binomial_bound(0.00001, total, fraction)
+        end
+      end
+      def upper_poisson_bound(bound)
+        num_std = if bound < 6
+          12
+        elsif bound < 16
+          9
+        else
+          6
+        end.to_f
+        [bound + num_std * Math.sqrt(bound), 1e-10].max
+      end
+      def upper_binomial_bound(delta, total, fraction)
+        gamma = -Math.log(delta) / total
+        [1, fraction + gamma + Math.sqrt(gamma*gamma + 2*gamma*fraction)].min
+      end
+      # Bisect right
+      #
+      # == Examples:
+      #   data = [1,5,6,8,96,120,133]
+      #
+      #   bisect_right(data, 0)   # => 0
+      #   bisect_right(data, 1)   # => 1
+      #   bisect_right(data, 5)   # => 2
+      #   bisect_right(data, 9)   # => 4
+      #   bisect_right(data, 150) # => 7
+      #
+      def bisect_right(data, value, low=0, high=data.size)
+        if low < 0
+          raise ArgumentError, 'Low must be >= 0.'
+        end
+        while low < high
+          mid = (low + high) / 2
+          if value < data[mid]
+            high = mid
+          else
+            low = mid + 1
+          end
+        end
+        low
+      end
+      # Determine bound of partitioning
+      #
+      # == Example:
+      #   data = [0,1,2,3,4,5,6,7,8,9,10]
+      #   determine_bounds(data, 3)
+      #   # => [2, 5, 8]
+      #
+      def determine_bounds(data, num_partitions)
+        bounds = []
+        count = data.size
+        (0...(num_partitions-1)).each do |index|
+          bounds << data[count * (index+1) / num_partitions]
+        end
+        bounds
+      end
+    end
+  end
+end

data/lib/spark/helper/system.rb ADDED

@@ -0,0 +1,42 @@
+module Spark
+  module Helper
+    module System
+      def self.included(base)
+        base.send :extend,  Methods
+        base.send :include, Methods
+      end
+      module Methods
+        def windows?
+          RbConfig::CONFIG['host_os'] =~ /mswin|mingw/
+        end
+        def mri?
+          RbConfig::CONFIG['ruby_install_name'] == 'ruby'
+        end
+        def jruby?
+          RbConfig::CONFIG['ruby_install_name'] == 'jruby'
+        end
+        def pry?
+          !!Thread.current[:__pry__]
+        end
+        # Memory usage in kb
+        def memory_usage
+          if jruby?
+            runtime = java.lang.Runtime.getRuntime
+            (runtime.totalMemory - runtime.freeMemory) >> 10
+          elsif windows?
+            # not yet
+          else
+            `ps -o rss= -p #{Process.pid}`.to_i
+          end
+        end
+      end # Methods
+    end # System
+  end # Helper
+end # Spark

data/lib/spark/java_bridge.rb ADDED

@@ -0,0 +1,19 @@
+module Spark
+  module JavaBridge
+    autoload :Base,  'spark/java_bridge/base'
+    autoload :JRuby, 'spark/java_bridge/jruby'
+    autoload :RJB,   'spark/java_bridge/rjb'
+    include Spark::Helper::System
+    def self.get
+      if jruby?
+        JRuby
+      else
+        RJB
+      end
+    end
+  end
+end

data/lib/spark/java_bridge/base.rb ADDED

@@ -0,0 +1,203 @@
+##
+# Spark::JavaBridge::Base
+#
+# Parent for all adapter (ruby - java)
+#
+module Spark
+  module JavaBridge
+    class Base
+      include Spark::Helper::System
+      JAVA_OBJECTS = [
+        'java.util.ArrayList',
+        'org.apache.spark.SparkConf',
+        'org.apache.spark.api.java.JavaSparkContext',
+        'org.apache.spark.api.ruby.RubyRDD',
+        'org.apache.spark.api.ruby.RubyUtils',
+        'org.apache.spark.api.ruby.RubyWorker',
+        'org.apache.spark.api.ruby.PairwiseRDD',
+        'org.apache.spark.api.ruby.RubyAccumulatorParam',
+        'org.apache.spark.api.ruby.RubySerializer',
+        'org.apache.spark.api.python.PythonRDD',
+        'org.apache.spark.api.python.PythonPartitioner',
+        'org.apache.spark.ui.ruby.RubyTab',
+        'org.apache.spark.mllib.api.ruby.RubyMLLibAPI',
+        'scala.collection.mutable.HashMap',
+        :JInteger  => 'java.lang.Integer',
+        :JLong     => 'java.lang.Long',
+        :JLogger   => 'org.apache.log4j.Logger',
+        :JLevel    => 'org.apache.log4j.Level',
+        :JPriority => 'org.apache.log4j.Priority',
+        :JUtils    => 'org.apache.spark.util.Utils',
+        :JStorageLevel => 'org.apache.spark.storage.StorageLevel',
+        :JDenseVector => 'org.apache.spark.mllib.linalg.DenseVector',
+        :JDenseMatrix => 'org.apache.spark.mllib.linalg.DenseMatrix'
+      ]
+      JAVA_TEST_OBJECTS = [
+        'org.apache.spark.mllib.api.ruby.RubyMLLibUtilAPI'
+      ]
+      RUBY_TO_JAVA_SKIP = [Fixnum, Integer]
+      def initialize(spark_home)
+        @spark_home = spark_home
+      end
+      # Import all important classes into Objects
+      def load
+        return if @loaded
+        java_objects.each do |name, klass|
+          import(name, klass)
+        end
+        @loaded = true
+        nil
+      end
+      # Import classes for testing
+      def load_test
+        return if @loaded_test
+        java_test_objects.each do |name, klass|
+          import(name, klass)
+        end
+        @loaded_test = true
+        nil
+      end
+      # Call java object
+      def call(klass, method, *args)
+        # To java
+        args.map!{|item| to_java(item)}
+        # Call java
+        result = klass.__send__(method, *args)
+        # To ruby
+        to_ruby(result)
+      end
+      def to_java_array_list(array)
+        array_list = ArrayList.new
+        array.each do |item|
+          array_list.add(to_java(item))
+        end
+        array_list
+      end
+      def to_long(number)
+        return nil if number.nil?
+        JLong.new(number)
+      end
+      def to_java(object)
+        if RUBY_TO_JAVA_SKIP.include?(object.class)
+          # Some object are convert automatically
+          # This is for preventing errors
+          # For example: jruby store integer as long so 1.to_java is Long
+          object
+        elsif object.respond_to?(:to_java)
+          object.to_java
+        elsif object.is_a?(Array)
+          to_java_array_list(object)
+        else
+          object
+        end
+      end
+      # Array problem:
+      #   Rjb:   object.toArray -> Array
+      #   Jruby: object.toArray -> java.lang.Object
+      #
+      def to_ruby(object)
+        if java_object?(object)
+          class_name = object.getClass.getSimpleName
+          case class_name
+          when 'ArraySeq'
+            result = []
+            iterator = object.iterator
+            while iterator.hasNext
+              result << to_ruby(iterator.next)
+            end
+            result
+          when 'Map2', 'Map3', 'Map4', 'HashTrieMap'
+            Hash[
+              object.toSeq.array.to_a.map!{|item| [item._1, item._2]}
+            ]
+          when 'SeqWrapper'; object.toArray.to_a.map!{|item| to_ruby(item)}
+          when 'ofRef';      object.array.to_a.map!{|item| to_ruby(item)} # WrappedArray$ofRef
+          when 'LabeledPoint'; Spark::Mllib::LabeledPoint.from_java(object)
+          when 'DenseVector';  Spark::Mllib::DenseVector.from_java(object)
+          when 'KMeansModel';  Spark::Mllib::KMeansModel.from_java(object)
+          when 'DenseMatrix';  Spark::Mllib::DenseMatrix.from_java(object)
+          else
+            # Some RDD
+            if class_name != 'JavaRDD' && class_name.end_with?('RDD')
+              object = object.toJavaRDD
+              class_name = 'JavaRDD'
+            end
+            # JavaRDD
+            if class_name == 'JavaRDD'
+              jrdd = RubyRDD.toRuby(object)
+              serializer = Spark::Serializer.build { __batched__(__marshal__) }
+              serializer = Spark::Serializer.build { __batched__(__marshal__, 2) }
+              return Spark::RDD.new(jrdd, Spark.sc, serializer, deserializer)
+            end
+            # Unknow
+            Spark.logger.warn("Java object '#{object.getClass.name}' was not converted.")
+            object
+          end
+        else
+          # Already transfered
+          object
+        end
+      end
+      alias_method :java_to_ruby, :to_ruby
+      alias_method :ruby_to_java, :to_java
+      private
+        def jars
+          result = []
+          if File.file?(@spark_home)
+            result << @spark_home
+          else
+            result << Dir.glob(File.join(@spark_home, '*.jar'))
+          end
+          result.flatten
+        end
+        def objects_with_names(objects)
+          hash = {}
+          objects.each do |object|
+            if object.is_a?(Hash)
+              hash.merge!(object)
+            else
+              key = object.split('.').last.to_sym
+              hash[key] = object
+            end
+          end
+          hash
+        end
+        def java_objects
+          objects_with_names(JAVA_OBJECTS)
+        end
+        def java_test_objects
+          objects_with_names(JAVA_TEST_OBJECTS)
+        end
+    end
+  end
+end

data/lib/spark/java_bridge/jruby.rb ADDED

@@ -0,0 +1,23 @@
+require 'java'
+module Spark
+  module JavaBridge
+    class JRuby < Base
+      def initialize(*args)
+        super
+        jars.each {|jar| require jar}
+      end
+      def import(name, klass)
+        klass = "Java::#{klass}"
+        Object.const_set(name, eval(klass)) rescue nil
+      end
+      def java_object?(object)
+        object.is_a?(JavaProxy)
+      end
+    end
+  end
+end