RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/benchmark/custom_marshal.rb ADDED Viewed

@@ -0,0 +1,94 @@
+require 'benchmark'
+require 'benchmark/ips'
+def pack_int(data)
+  [data].pack('l>')
+end
+def pack_long(data)
+  [data].pack('q>')
+end
+def pack_doubles(data)
+  data.pack('G*')
+end
+module Standard
+  class LabeledPoint
+    def initialize(label, features)
+      @label = label
+      @features = Standard::Vector.new(features)
+    end
+    def marshal_dump
+      [@label, @features]
+    end
+    def marshal_load(*)
+    end
+  end
+  class Vector
+    def initialize(array)
+      @values = array
+    end
+    def marshal_dump
+      [@values]
+    end
+    def marshal_load(*)
+    end
+  end
+end
+module Custom
+  class LabeledPoint
+    def initialize(label, features)
+      @label = label
+      @features = Custom::Vector.new(features)
+    end
+    def _dump(*)
+      pack_long(@label) + @features._dump
+    end
+    def self._load(*)
+    end
+  end
+  class Vector
+    def initialize(array)
+      @values = array
+    end
+    def _dump(*)
+      result = 'v'
+      result << pack_int(@values.size)
+      result << pack_doubles(@values)
+      result.encode(Encoding::ASCII_8BIT)
+    end
+    def self._load(*)
+    end
+  end
+end
+data_size = 10_000
+vector_size = 1_000
+values = Array.new(vector_size) { |x| rand(10_000..100_000) }
+@data1 = Array.new(data_size) {|i| Standard::LabeledPoint.new(i, values)}
+@data2 = Array.new(data_size) {|i| Custom::LabeledPoint.new(i, values)}
+Benchmark.ips do |r|
+  r.report('standard') do
+    Marshal.dump(@data1)
+  end
+  r.report('custom') do
+    Marshal.dump(@data2)
+  end
+  r.compare!
+end

data/benchmark/digest.rb ADDED Viewed

@@ -0,0 +1,150 @@
+lib = File.expand_path(File.dirname(__FILE__) + '/../lib')
+$LOAD_PATH.unshift(lib) if File.directory?(lib) && !$LOAD_PATH.include?(lib)
+def java?
+  RUBY_PLATFORM =~ /java/
+end
+unless java?
+  require 'murmurhash3'
+end
+require 'digest'
+require 'benchmark'
+require 'ruby-spark'
+TEST = 5_000_000
+WORDS = ["wefwefwef", "rgwefiwefwe", "a", "rujfwgrethrzjrhgawf", "irncrnuggo"]
+puts "TEST COUNT = #{TEST*WORDS.size}"
+# =================================================================================================
+# Pure ruby mumrumur
+# funny-falcon/murmurhash3-ruby
+MASK32 = 0xffffffff
+def murmur3_32_rotl(x, r)
+  ((x << r) | (x >> (32 - r))) & MASK32
+end
+def murmur3_32_fmix(h)
+  h &= MASK32
+  h ^= h >> 16
+  h = (h * 0x85ebca6b) & MASK32
+  h ^= h >> 13
+  h = (h * 0xc2b2ae35) & MASK32
+  h ^ (h >> 16)
+end
+def murmur3_32__mmix(k1)
+  k1 = (k1 * 0xcc9e2d51) & MASK32
+  k1 = murmur3_32_rotl(k1, 15)
+  (k1 * 0x1b873593) & MASK32
+end
+def murmur3_32_str_hash(str, seed=0)
+  h1 = seed
+  numbers = str.unpack('V*C*')
+  tailn = str.bytesize % 4
+  tail = numbers.slice!(numbers.size - tailn, tailn)
+  for k1 in numbers
+    h1 ^= murmur3_32__mmix(k1)
+    h1 = murmur3_32_rotl(h1, 13)
+    h1 = (h1*5 + 0xe6546b64) & MASK32
+  end
+  unless tail.empty?
+    k1 = 0
+    tail.reverse_each do |c1|
+      k1 = (k1 << 8) | c1
+    end
+    h1 ^= murmur3_32__mmix(k1)
+  end
+  h1 ^= str.bytesize
+  murmur3_32_fmix(h1)
+end
+# =================================================================================================
+# Benchmark
+Benchmark.bm(18) do |x|
+  x.report("ruby hash"){
+    TEST.times{
+      WORDS.each{ |word|
+        word.hash
+      }
+    }
+  }
+  x.report("ext portable"){
+    TEST.times{
+      WORDS.each{ |word|
+        Spark::Digest.portable_hash(word)
+      }
+    }
+  }
+  x.report("murmur3 32"){
+    TEST.times{
+      WORDS.each{ |word|
+        # MurmurHash3::V128.str_hash(word)
+        # [MurmurHash3::V128.str_hash(word).join.to_i].pack("q>")
+        # MurmurHash3::V128.str_hash(word)
+        # a = MurmurHash3::V32.str_hash(word).to_s
+        # a.slice!(0,8)
+        MurmurHash3::V32.str_hash(word)
+      }
+    }
+  } unless java?
+  # Too slow
+  # x.report("murmur3 32 (ruby)"){
+  #   TEST.times{
+  #     WORDS.each{ |word|
+  #       # MurmurHash3::V128.str_hash(word)
+  #       # [MurmurHash3::V128.str_hash(word).join.to_i].pack("q>")
+  #       # MurmurHash3::V128.str_hash(word)
+  #       # a = murmur3_32_str_hash(word).to_s
+  #       # a.slice!(0,8)
+  #       murmur3_32_str_hash(word)
+  #     }
+  #   }
+  # }
+  x.report("murmur3 128"){
+    TEST.times{
+      WORDS.each{ |word|
+        # MurmurHash3::V128.str_hash(word)
+        # [MurmurHash3::V128.str_hash(word).join.to_i].pack("q>")
+        # a = MurmurHash3::V128.str_hash(word).to_s
+        # a.slice!(0,8)
+        MurmurHash3::V128.str_hash(word)
+      }
+    }
+  } unless java?
+  # x.report("sha256"){
+  #   TEST.times{
+  #     WORDS.each{ |word|
+  #       a = Digest::SHA256.digest(word)
+  #       # a.slice!(0,8)
+  #     }
+  #   }
+  # }
+  # x.report("md5"){
+  #   TEST.times{
+  #     WORDS.each{ |word|
+  #       a = Digest::MD5.digest(word)
+  #       # a.slice!(0,8)
+  #     }
+  #   }
+  # }
+end

data/benchmark/enumerator.rb ADDED Viewed

@@ -0,0 +1,88 @@
+require "benchmark"
+class Enumerator
+  def defer(&blk)
+    self.class.new do |y|
+      each do |*input|
+        blk.call(y, *input)
+      end
+    end
+  end
+end
+ARRAY_SIZE = 50_000_000
+def type_yield
+  return to_enum(__callee__) unless block_given?
+  ARRAY_SIZE.times { |i|
+    yield i
+  }
+end
+def yield_map_x2(enum)
+  return to_enum(__callee__, enum) unless block_given?
+  enum.each do |item|
+    yield item*2
+  end
+end
+def type_enumerator_new
+  Enumerator.new do |e|
+    ARRAY_SIZE.times { |i|
+      e << i
+    }
+  end
+end
+def enumerator_new_map_x2(enum)
+  Enumerator.new do |e|
+    enum.each do |item|
+      e << item*2
+    end
+  end
+end
+def enumerator_defer_x2(enum)
+  enum.defer do |out, inp|
+    out << inp*2
+  end
+end
+Benchmark.bm(26) do |x|
+  x.report("yield max") do
+    type_yield.max
+  end
+  x.report("yield sum") do
+    type_yield.reduce(:+)
+  end
+  x.report("yield map x*2 sum") do
+    yield_map_x2(type_yield).reduce(:+)
+  end
+  x.report("yield defer map x*2 sum") do
+    enumerator_defer_x2(type_yield).reduce(:+)
+  end
+  x.report("-----"){}
+  x.report("Enum.new max") do
+    type_enumerator_new.max
+  end
+  x.report("Enum.new sum") do
+    type_enumerator_new.reduce(:+)
+  end
+  x.report("Enum.new map x*2 sum") do
+    enumerator_new_map_x2(type_enumerator_new).reduce(:+)
+  end
+  x.report("Enum.new defer map x*2 sum") do
+    enumerator_defer_x2(type_enumerator_new).reduce(:+)
+  end
+end

data/benchmark/performance/prepare.sh ADDED Viewed

@@ -0,0 +1,18 @@
+#!/usr/bin/env bash
+# Current dir
+cd "$(dirname "$0")"
+# Exit immediately if a pipeline returns a non-zero status.
+set -e
+# Spark
+wget "http://d3kbcqa49mib13.cloudfront.net/spark-1.3.0-bin-hadoop2.4.tgz" -O spark.tgz
+tar xvzf spark.tgz
+mv spark-1.3.0-bin-hadoop2.4 spark
+rm spark.tgz
+# RSpark (only for 1.3.0)
+git clone git@github.com:amplab-extras/SparkR-pkg.git rspark
+cd rspark
+SPARK_VERSION=1.3.0 ./install-dev.sh

data/benchmark/performance/python.py ADDED Viewed

@@ -0,0 +1,156 @@
+import os
+import math
+from time import time
+from random import random
+from operator import add
+from pyspark import SparkContext
+sc = SparkContext(appName="Python", master="local[*]")
+log_file = open(os.environ.get('PYTHON_LOG'), 'w')
+def log(*values):
+  values = map(lambda x: str(x), values)
+  log_file.write(';'.join(values))
+  log_file.write('\n')
+workers = int(os.environ.get('WORKERS'))
+numbers_count = int(os.environ.get('NUMBERS_COUNT'))
+text_file = os.environ.get('TEXT_FILE')
+numbers = range(numbers_count)
+floats = [float(i) for i in numbers]
+with open(text_file) as t:
+  strings = t.read().split("\n")
+# =============================================================================
+# Serialization
+# =============================================================================
+t = time()
+rdd_numbers = sc.parallelize(numbers, workers)
+t = time() - t
+log('NumbersSerialization', t)
+t = time()
+rdd_floats = sc.parallelize(floats, workers)
+t = time() - t
+log('FloatsSerialization', t)
+t = time()
+rdd_strings = sc.parallelize(strings, workers)
+t = time() - t
+log('StringsSerialization', t)
+# =============================================================================
+# Computing
+# =============================================================================
+# --- Is prime? ---------------------------------------------------------------
+def is_prime(x):
+  if x < 2:
+    return [x, False]
+  elif x == 2:
+    return [x, True]
+  elif x % 2 == 0:
+    return [x, False]
+  else:
+    upper = int(math.sqrt(float(x)))
+    result = True
+    i = 3
+    while i <= upper:
+      if x % i == 0:
+        result = False
+        break
+      i += 2
+    return [x, result]
+t = time()
+rdd_numbers.map(is_prime).collect()
+t = time() - t
+log('IsPrime', t)
+# --- Matrix multiplication ---------------------------------------------------
+matrix_size = int(os.environ.get('MATRIX_SIZE'))
+matrix = []
+for row in range(matrix_size):
+  matrix.append([])
+  for col in range(matrix_size):
+    matrix[row].append(row+col)
+def multiplication_func(matrix):
+  matrix = list(matrix)
+  size = len(matrix)
+  new_matrix = []
+  for row in range(size):
+    new_matrix.append([])
+    for col in range(size):
+      result = 0
+      for i in range(size):
+        result += matrix[row][i] * matrix[col][i]
+      new_matrix[row].append(result)
+  return new_matrix
+t = time()
+rdd = sc.parallelize(matrix, 1)
+rdd.mapPartitions(multiplication_func).collect()
+t = time() - t
+log('MatrixMultiplication', t)
+# --- Pi digits ---------------------------------------------------------------
+# http://rosettacode.org/wiki/Pi#Python
+pi_digit = int(os.environ.get('PI_DIGIT'))
+def pi_func(size):
+  size = size.next()
+  result = ''
+  q, r, t, k, n, l = 1, 0, 1, 1, 3, 3
+  while size > 0:
+    if 4*q+r-t < n*t:
+      result += str(n)
+      size -= 1
+      nr = 10*(r-n*t)
+      n  = ((10*(3*q+r))//t)-10*n
+      q  *= 10
+      r  = nr
+    else:
+      nr = (2*q+r)*l
+      nn = (q*(7*k)+2+(r*l))//(t*l)
+      q  *= k
+      t  *= l
+      l  += 2
+      k += 1
+      n  = nn
+      r  = nr
+  return [result]
+t = time()
+rdd = sc.parallelize([pi_digit], 1)
+rdd.mapPartitions(pi_func).collect()
+t = time() - t
+log('PiDigit', t)
+log_file.close()