RubyGems - ruby-spark - Versions diffs - 1.1.0.1-java - Mend

ruby-spark 1.1.0.1-java

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (180) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +252 -0
data/Rakefile +35 -0
data/TODO.md +6 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/comparison/prepare.sh +18 -0
data/benchmark/comparison/python.py +156 -0
data/benchmark/comparison/r.r +69 -0
data/benchmark/comparison/ruby.rb +167 -0
data/benchmark/comparison/run-all.sh +160 -0
data/benchmark/comparison/scala.scala +181 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/example/website_search.rb +83 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +392 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +158 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +238 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +322 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +67 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1377 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +79 -0
data/lib/spark/serializer/auto_batched.rb +59 -0
data/lib/spark/serializer/base.rb +63 -0
data/lib/spark/serializer/batched.rb +84 -0
data/lib/spark/serializer/cartesian.rb +13 -0
data/lib/spark/serializer/compressed.rb +27 -0
data/lib/spark/serializer/marshal.rb +17 -0
data/lib/spark/serializer/message_pack.rb +23 -0
data/lib/spark/serializer/oj.rb +23 -0
data/lib/spark/serializer/pair.rb +41 -0
data/lib/spark/serializer/text.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +200 -0
data/ruby-spark.gemspec +47 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +165 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +122 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +88 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +170 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +38 -0
metadata +389 -0

data/benchmark/enumerator.rb ADDED

@@ -0,0 +1,88 @@
+require "benchmark"
+class Enumerator
+  def defer(&blk)
+    self.class.new do |y|
+      each do |*input|
+        blk.call(y, *input)
+      end
+    end
+  end
+end
+ARRAY_SIZE = 50_000_000
+def type_yield
+  return to_enum(__callee__) unless block_given?
+  ARRAY_SIZE.times { |i|
+    yield i
+  }
+end
+def yield_map_x2(enum)
+  return to_enum(__callee__, enum) unless block_given?
+  enum.each do |item|
+    yield item*2
+  end
+end
+def type_enumerator_new
+  Enumerator.new do |e|
+    ARRAY_SIZE.times { |i|
+      e << i
+    }
+  end
+end
+def enumerator_new_map_x2(enum)
+  Enumerator.new do |e|
+    enum.each do |item|
+      e << item*2
+    end
+  end
+end
+def enumerator_defer_x2(enum)
+  enum.defer do |out, inp|
+    out << inp*2
+  end
+end
+Benchmark.bm(26) do |x|
+  x.report("yield max") do
+    type_yield.max
+  end
+  x.report("yield sum") do
+    type_yield.reduce(:+)
+  end
+  x.report("yield map x*2 sum") do
+    yield_map_x2(type_yield).reduce(:+)
+  end
+  x.report("yield defer map x*2 sum") do
+    enumerator_defer_x2(type_yield).reduce(:+)
+  end
+  x.report("-----"){}
+  x.report("Enum.new max") do
+    type_enumerator_new.max
+  end
+  x.report("Enum.new sum") do
+    type_enumerator_new.reduce(:+)
+  end
+  x.report("Enum.new map x*2 sum") do
+    enumerator_new_map_x2(type_enumerator_new).reduce(:+)
+  end
+  x.report("Enum.new defer map x*2 sum") do
+    enumerator_defer_x2(type_enumerator_new).reduce(:+)
+  end
+end

data/benchmark/serializer.rb ADDED

@@ -0,0 +1,82 @@
+require "benchmark"
+require "yaml"
+require "msgpack"
+require "oj"
+# require "thrift"
+puts "Simple"
+data = (0..100000).to_a
+Benchmark.bmbm do |x|
+  x.report("YAML") do
+    serialized = YAML.dump(data)
+    deserialized = YAML.load(serialized)
+    puts "Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  x.report("Marshal") do
+    serialized = Marshal.dump(data)
+    deserialized = Marshal.load(serialized)
+    puts "Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  x.report("MessagePack") do
+    serialized = MessagePack.dump(data)
+    deserialized = MessagePack.load(serialized)
+    puts "Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  x.report("Oj") do
+    serialized = Oj.dump(data)
+    deserialized = Oj.load(serialized)
+    puts "Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  # x.report("Thrift") do
+  #   serializer = Thrift::Serializer.new
+  #   deserializer = Thrift::Deserializer.new
+  #   serialized = serializer.serialize(data)
+  # end
+end
+puts ""
+puts "More complex"
+data = Array.new(10000000) {
+  [rand(97..122).chr, rand(10000000)]
+}
+Benchmark.bm do |x|
+  # Take too long
+  # x.report("YAML") do
+  #   serialized = YAML.dump(data)
+  #   YAML.load(serialized)
+  # end
+  x.report("Marshal") do
+    serialized = Marshal.dump(data)
+    deserialized = Marshal.load(serialized)
+    puts " Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  x.report("MessagePack") do
+    serialized = MessagePack.dump(data)
+    deserialized = MessagePack.load(serialized)
+    puts " Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  x.report("Oj") do
+    serialized = Oj.dump(data)
+    deserialized = Oj.load(serialized)
+    puts " Size: #{serialized.size}, Equal: #{deserialized == data}"
+  end
+  # x.report("Thrift") do
+  #   serializer = Thrift::Serializer.new
+  #   deserializer = Thrift::Deserializer.new
+  #   serialized = serializer.serialize(data)
+  # end
+end

data/benchmark/sort.rb ADDED

@@ -0,0 +1,43 @@
+require "benchmark"
+array = []
+1000.times {
+  array << {:bar => rand(1000)}
+}
+n = 500
+Benchmark.bm(20) do |x|
+  x.report("sort")               { n.times { array.sort{ |a,b| b[:bar] <=> a[:bar] } } }
+  x.report("sort reverse")       { n.times { array.sort{ |a,b| a[:bar] <=> b[:bar] }.reverse } }
+  x.report("sort_by -a[:bar]")   { n.times { array.sort_by{ |a| -a[:bar] } } }
+  x.report("sort_by a[:bar]*-1") { n.times { array.sort_by{ |a| a[:bar]*-1 } } }
+  x.report("sort_by.reverse!")   { n.times { array.sort_by{ |a| a[:bar] }.reverse } }
+end
+array = Array.new(10000) { Array.new(rand(1..10)){(97+rand(26)).chr}.join }
+Benchmark.bm(20) do |x|
+  x.report("sort asc")         { n.times { array.sort } }
+  x.report("sort asc block")   { n.times { array.sort{|a,b| a <=> b} } }
+  x.report("sort desc")        { n.times { array.sort{|a,b| b <=> a} } }
+  x.report("sort asc reverse") { n.times { array.sort.reverse } }
+end
+key_value = Struct.new(:key, :value) do
+  def <=>(other)
+    key <=> other.key
+  end
+end
+count = 10000
+item_range = 1000000
+array1 = Array.new(count) { [rand(item_range), rand(item_range)] }
+array2 = Array.new(count) { key_value.new rand(item_range), rand(item_range) }
+Benchmark.bm(20) do |x|
+  x.report("sort_by")       { n.times { array1.sort_by {|a| a[0]} } }
+  x.report("sort struct")   { n.times { array2.sort } }
+end

data/benchmark/sort2.rb ADDED

@@ -0,0 +1,164 @@
+require "benchmark"
+require "algorithms"
+NUMBER_OF_SORTING = 1
+NUMBER_OF_ARRAY   = 10
+WORDS_IN_ARRAY    = 100000
+MAX_WORD_SIZE     = 10
+EVAL_N_VALUES     = 10
+puts "NUMBER_OF_SORTING: #{NUMBER_OF_SORTING}"
+puts "NUMBER_OF_ARRAY: #{NUMBER_OF_ARRAY}"
+puts "WORDS_IN_ARRAY: #{WORDS_IN_ARRAY}"
+puts "MAX_WORD_SIZE: #{MAX_WORD_SIZE}"
+puts "EVAL_N_VALUES: #{EVAL_N_VALUES}"
+def words
+  Array.new(WORDS_IN_ARRAY) { word }
+end
+def word
+  Array.new(rand(1..MAX_WORD_SIZE)){(97+rand(26)).chr}.join
+end
+@array = Array.new(NUMBER_OF_ARRAY) { words.sort }
+# =================================================================================================
+# Sort1
+# Vrátí nový (nevyhodnocený) enumerator
+def sort1(data)
+  return to_enum(__callee__, data) unless block_given?
+  heap = []
+  # Inicializuji heap s prvními položkami
+  # připojím samotné enumeratory pro volání .next
+  data.each do |a|
+    heap << [a.next, a]
+  end
+  while data.any?
+    begin
+      # Seřadím pole podle hodnot
+      heap.sort_by!{|(item,_)| item}
+      # Uložím si hodnotu a enumerator
+      item, enum = heap.shift
+      # Hodnota půjde do výsledku
+      yield item
+      # Místo odstraněné položky nahradí další ze stejného seznamu
+      heap << [enum.next, enum]
+    rescue StopIteration
+      # Enumerator je prázdný
+      data.delete(enum)
+    end
+  end
+end
+# =================================================================================================
+# Sort1_2
+# Vrátí nový (nevyhodnocený) enumerator
+def sort1_2(data)
+  return to_enum(__callee__, data) unless block_given?
+  heap = []
+  enums = []
+  # Inicializuji heap s prvními položkami
+  # připojím samotné enumeratory pro volání .next
+  data.each do |a|
+    EVAL_N_VALUES.times {
+      begin
+        heap << [a.next, a]
+      rescue StopIteration
+      end
+    }
+  end
+  while data.any? || heap.any?
+      # Seřadím pole podle hodnot
+      heap.sort_by!{|(item,_)| item}
+      # Minimálně můžu vzít EVAL_N_VALUES
+      EVAL_N_VALUES.times {
+        break if heap.empty?
+        # Uložím si hodnotu a enumerator
+        item, enum = heap.shift
+        # Hodnota půjde do výsledku
+        yield item
+        enums << enum
+      }
+    while (enum = enums.shift)
+      begin
+        heap << [enum.next, enum]
+      rescue StopIteration
+        data.delete(enum)
+        enums.delete(enum)
+      end
+    end
+  end
+end
+# =================================================================================================
+# Sort 2
+def sort2(data)
+  return to_enum(__callee__, data) unless block_given?
+  heap = Containers::Heap.new
+  data.each do |enum|
+    item = enum.next
+    heap.push(item, [item, enum])
+  end
+  while data.any?
+    begin
+      item, enum = heap.pop
+      yield item
+      item = enum.next
+      heap.push(item, [item, enum])
+    rescue StopIteration
+      data.delete(enum)
+    end
+  end
+end
+# =================================================================================================
+# Benchmark
+Benchmark.bm(10) do |x|
+  x.report("sort") do
+    NUMBER_OF_SORTING.times {
+      @result = @array.flatten.sort
+    }
+  end
+  x.report("sort 1") do
+    NUMBER_OF_SORTING.times {
+      raise "Bad sorting" if @result != sort1(@array.map(&:each)).to_a
+    }
+  end
+  x.report("sort 1_2") do
+    NUMBER_OF_SORTING.times {
+      raise "Bad sorting" if @result != sort1_2(@array.map(&:each)).to_a
+    }
+  end
+  # x.report("sort 2") do
+  #   NUMBER_OF_SORTING.times {
+  #     raise "Bad sorting" if @result != sort2(@array.map(&:each)).to_a
+  #   }
+  # end
+end

data/benchmark/take.rb ADDED

@@ -0,0 +1,28 @@
+require "benchmark"
+SIZE = 100_000_000
+@array1 = (0..SIZE).to_a;
+@array2 = (0..SIZE).to_a;
+@array3 = (0..SIZE).to_a;
+TAKE = 100_000
+Benchmark.bm(15) do |x|
+  # Fastest
+  x.report("take"){
+    a=@array1.take(TAKE)
+  }
+  # Slowest and take most memory
+  x.report("reverse drop"){
+    @array2.reverse!
+    @array2.drop(@array2.size - TAKE)
+    @array2.reverse!
+  }
+  # Least memory
+  x.report("splice"){
+    a=@array2.slice!(0, TAKE)
+  }
+end

data/bin/ruby-spark ADDED

@@ -0,0 +1,8 @@
+#!/usr/bin/env ruby
+lib = File.expand_path(File.dirname(__FILE__) + '/../lib')
+$LOAD_PATH.unshift(lib) if File.directory?(lib) && !$LOAD_PATH.include?(lib)
+require 'ruby-spark'
+Spark::CLI.new.run

data/example/pi.rb ADDED

@@ -0,0 +1,28 @@
+#!/usr/bin/env ruby
+lib = File.expand_path(File.dirname(__FILE__) + '/../lib')
+$LOAD_PATH.unshift(lib) if File.directory?(lib) && !$LOAD_PATH.include?(lib)
+require 'ruby-spark'
+Spark.logger.disable
+Spark.start
+slices = 3
+n = 100000 * slices
+def map(_)
+  x = rand * 2 - 1
+  y = rand * 2 - 1
+  if x**2 + y**2 < 1
+    return 1
+  else
+    return 0
+  end
+end
+rdd = Spark.context.parallelize(1..n, slices)
+rdd = rdd.map(method(:map))
+puts 'Pi is roughly %f' % (4.0 * rdd.sum / n)