RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/lib/spark/sort.rb ADDED Viewed

@@ -0,0 +1,189 @@
+module Spark
+  module InternalSorter
+    class Base
+      def initialize(key_function)
+        @key_function = key_function
+      end
+    end
+    class Ascending < Base
+      def sort(data)
+        data.sort_by!(&@key_function)
+      end
+    end
+    class Descending < Ascending
+      def sort(data)
+        super
+        data.reverse!
+      end
+    end
+    def self.get(ascending, key_function)
+      if ascending
+        type = Ascending
+      else
+        type = Descending
+      end
+      type.new(key_function)
+    end
+  end
+end
+module Spark
+  class ExternalSorter
+    include Spark::Helper::System
+    # Items from GC cannot be destroyed so #make_parts need some reserve
+    MEMORY_RESERVE = 50 # %
+    # How big will be chunk for adding new memory because GC not cleaning
+    # immediately un-referenced variables
+    MEMORY_FREE_CHUNK = 10 # %
+    # How many items will be evaluate from iterator at start
+    START_SLICE_SIZE = 10
+    # Maximum of slicing. Memory control can be avoided by large value.
+    MAX_SLICE_SIZE = 10_000
+    # How many values will be taken from each enumerator.
+    EVAL_N_VALUES = 10
+    # Default key function
+    KEY_FUNCTION = lambda{|item| item}
+    attr_reader :total_memory, :memory_limit, :memory_chunk, :serializer
+    def initialize(total_memory, serializer)
+      @total_memory = total_memory
+      @memory_limit = total_memory * (100-MEMORY_RESERVE)    / 100
+      @memory_chunk = total_memory * (100-MEMORY_FREE_CHUNK) / 100
+      @serializer   = serializer
+    end
+    def add_memory!
+      @memory_limit += memory_chunk
+    end
+    def sort_by(iterator, ascending=true, key_function=KEY_FUNCTION)
+      return to_enum(__callee__, iterator, key_function) unless block_given?
+      create_temp_folder
+      internal_sorter = Spark::InternalSorter.get(ascending, key_function)
+      # Make N sorted enumerators
+      parts = make_parts(iterator, internal_sorter)
+      return [] if parts.empty?
+      # Need new key function because items have new structure
+      # From: [1,2,3] to [[1, Enumerator],[2, Enumerator],[3, Enumerator]]
+      key_function_with_enum = lambda{|(key, _)| key_function[key]}
+      internal_sorter = Spark::InternalSorter.get(ascending, key_function_with_enum)
+      heap  = []
+      enums = []
+      # Load first items to heap
+      parts.each do |part|
+        EVAL_N_VALUES.times {
+          begin
+            heap << [part.next, part]
+          rescue StopIteration
+            break
+          end
+        }
+      end
+      # Parts can be empty but heap not
+      while parts.any? || heap.any?
+        internal_sorter.sort(heap)
+        # Since parts are sorted and heap contains EVAL_N_VALUES method
+        # can add EVAL_N_VALUES items to the result
+        EVAL_N_VALUES.times {
+          break if heap.empty?
+          item, enum = heap.shift
+          enums << enum
+          yield item
+        }
+        # Add new element to heap from part of which was result item
+        while (enum = enums.shift)
+          begin
+            heap << [enum.next, enum]
+          rescue StopIteration
+            parts.delete(enum)
+            enums.delete(enum)
+          end
+        end
+      end
+    ensure
+      destroy_temp_folder
+    end
+    private
+      def create_temp_folder
+        @dir = Dir.mktmpdir
+      end
+      def destroy_temp_folder
+        FileUtils.remove_entry_secure(@dir) if @dir
+      end
+      # New part is created when current part exceeds memory limit (is variable)
+      # Every new part have more memory because of ruby GC
+      def make_parts(iterator, internal_sorter)
+        slice = START_SLICE_SIZE
+        parts = []
+        part  = []
+        loop do
+          begin
+            # Enumerator does not have slice method
+            slice.times { part << iterator.next }
+          rescue StopIteration
+            break
+          end
+          # Carefully memory_limit is variable
+          if memory_usage > memory_limit
+            # Sort current part with origin key_function
+            internal_sorter.sort(part)
+            # Tempfile for current part
+            # will be destroyed on #destroy_temp_folder
+            file = Tempfile.new("part", @dir)
+            serializer.dump(part, file)
+            # Peek is at the end of file
+            file.seek(0)
+            parts << serializer.load(file)
+            # Some memory will be released but not immediately
+            # need some new memory for start
+            part.clear
+            add_memory!
+          else
+            slice = [slice*2, MAX_SLICE_SIZE].min
+          end
+        end
+        # Last part which is not in the file
+        if part.any?
+          internal_sorter.sort(part)
+          parts << part.each
+        end
+        parts
+      end
+  end # ExternalSorter
+end # Spark

data/lib/spark/stat_counter.rb ADDED Viewed

@@ -0,0 +1,125 @@
+module Spark
+  class StatCounter
+    attr_reader :n   # count of our values
+    attr_reader :mu  # mean of our values
+    attr_reader :m2  # variance numerator (sum of (x - mean)^2)
+    attr_reader :max # max of our values
+    attr_reader :min # min of our values
+    def initialize(iterator)
+      @n = 0
+      @mu = 0.0
+      @m2 = 0.0
+      @max = -Float::INFINITY
+      @min = Float::INFINITY
+      merge(iterator)
+    end
+    def merge(other)
+      if other.is_a?(Spark::StatCounter)
+        merge_stat_counter(other)
+      elsif other.respond_to?(:each)
+        merge_array(other)
+      else
+        merge_value(other)
+      end
+      self
+    end
+    def sum
+      @n * @mu
+    end
+    # Return the variance of the values.
+    def variance
+      if @n == 0
+        Float::NAN
+      else
+        @m2 / @n
+      end
+    end
+    # Return the sample variance, which corrects for bias in estimating the variance by dividing
+    # by N-1 instead of N.
+    def sample_variance
+      if @n <= 1
+        Float::NAN
+      else
+        @m2 / (@n - 1)
+      end
+    end
+    # Return the standard deviation of the values.
+    def stdev
+      Math.sqrt(variance)
+    end
+    # Return the sample standard deviation of the values, which corrects for bias in estimating the
+    # variance by dividing by N-1 instead of N.
+    def sample_stdev
+      Math.sqrt(sample_variance)
+    end
+    def to_s
+      "(count: #{count}, mean: #{mean}, stdev: #{stdev}, max: #{max}, min: #{min})"
+    end
+    alias_method :count, :n
+    alias_method :mean, :mu
+    alias_method :max_value, :max
+    alias_method :min_value, :min
+    alias_method :sampleStdev, :sample_stdev
+    alias_method :sampleVariance, :sample_variance
+    private
+      def merge_stat_counter(other)
+        if other == self
+          other = self.deep_copy
+        end
+        if @n == 0
+          @n = other.n
+          @mu = other.mu
+          @m2 = other.m2
+          @max = other.max
+          @min = other.min
+        elsif other.n != 0
+          delta = other.mu - @mu
+          if other.n * 10 < @n
+            @mu = @mu + (delta * other.n) / (@n + other.n)
+          elsif @n * 10 < other.n
+            @mu = other.mu - (delta * @n) / (@n + other.n)
+          else
+            @mu = (@mu * @n + other.mu * other.n) / (@n + other.n)
+          end
+          @max = [@max, other.max].max
+          @min = [@min, other.min].min
+          @m2 += other.m2 + (delta * delta * @n * other.n) / (@n + other.n)
+          @n += other.n
+        end
+      end
+      def merge_array(array)
+        array.each do |item|
+          merge_value(item)
+        end
+      end
+      def merge_value(value)
+        delta = value - @mu
+        @n += 1
+        @mu += delta / @n
+        @m2 += delta * (value - @mu)
+        @max = [@max, value].max
+        @min = [@min, value].min
+      end
+  end
+end

data/lib/spark/storage_level.rb ADDED Viewed

@@ -0,0 +1,39 @@
+# Necessary libraries
+Spark.load_lib
+module Spark
+  class StorageLevel
+    def self.reload
+      return if @reloaded
+      reload!
+      @reloaded = true
+    end
+    def self.reload!
+      self.const_set(:NONE,                  JStorageLevel.NONE)
+      self.const_set(:DISK_ONLY,             JStorageLevel.DISK_ONLY)
+      self.const_set(:DISK_ONLY_2,           JStorageLevel.DISK_ONLY_2)
+      self.const_set(:MEMORY_ONLY,           JStorageLevel.MEMORY_ONLY)
+      self.const_set(:MEMORY_ONLY_SER,       JStorageLevel.MEMORY_ONLY_SER)
+      self.const_set(:MEMORY_ONLY_2,         JStorageLevel.MEMORY_ONLY_2)
+      self.const_set(:MEMORY_ONLY_SER_2,     JStorageLevel.MEMORY_ONLY_SER_2)
+      self.const_set(:MEMORY_AND_DISK,       JStorageLevel.MEMORY_AND_DISK)
+      self.const_set(:MEMORY_AND_DISK_2,     JStorageLevel.MEMORY_AND_DISK_2)
+      self.const_set(:MEMORY_AND_DISK_SER,   JStorageLevel.MEMORY_AND_DISK_SER)
+      self.const_set(:MEMORY_AND_DISK_SER_2, JStorageLevel.MEMORY_AND_DISK_SER_2)
+      self.const_set(:OFF_HEAP,              JStorageLevel.OFF_HEAP)
+    end
+    def self.java_get(arg)
+      reload
+      if arg.is_a?(String)
+        const_get(arg.upcase)
+      else
+        arg
+      end
+    end
+  end
+end

data/lib/spark/version.rb ADDED Viewed

@@ -0,0 +1,3 @@
+module Spark
+  VERSION = '1.0.0'
+end

data/lib/spark/worker/master.rb ADDED Viewed

@@ -0,0 +1,144 @@
+#!/usr/bin/env ruby
+$PROGRAM_NAME = 'RubySparkMaster'
+require 'socket'
+require 'io/wait'
+require 'nio'
+require_relative 'worker'
+# New process group
+# Otherwise master can be killed from pry console
+Process.setsid
+# =================================================================================================
+# Master
+#
+module Master
+  def self.create
+    case ARGV[0].to_s.strip
+    when 'thread'
+      Master::Thread.new
+    else
+      Master::Process.new
+    end
+  end
+  class Base
+    include Spark::Constant
+    def initialize
+      @port = ARGV[1].to_s.strip.to_i
+      @socket = TCPSocket.open('localhost', @port)
+      @worker_arguments = @socket.read_string
+    end
+    def run
+      selector = NIO::Selector.new
+      monitor = selector.register(@socket, :r)
+      monitor.value = Proc.new { receive_message }
+      loop {
+        selector.select {|monitor| monitor.value.call}
+      }
+    end
+    def receive_message
+      command = @socket.read_int
+      case command
+      when CREATE_WORKER
+        create_worker
+      when KILL_WORKER
+        kill_worker
+      when KILL_WORKER_AND_WAIT
+        kill_worker_and_wait
+      end
+    end
+    def kill_worker_and_wait
+      if kill_worker
+        @socket.write_int(SUCCESSFULLY_KILLED)
+      else
+        @socket.write_int(UNSUCCESSFUL_KILLING)
+      end
+    end
+  end
+  # ===============================================================================================
+  # Worker::Process
+  #
+  class Process < Base
+    def create_worker
+      if fork?
+        pid = ::Process.fork do
+          Worker::Process.new(@port).run
+        end
+      else
+        pid = ::Process.spawn("ruby #{@worker_arguments} worker.rb #{@port}")
+      end
+      # Detach child from master to avoid zombie process
+      ::Process.detach(pid)
+    end
+    def kill_worker
+      worker_id = @socket.read_long
+      ::Process.kill('TERM', worker_id)
+    rescue
+      nil
+    end
+    def fork?
+      @can_fork ||= _fork?
+    end
+    def _fork?
+      return false if !::Process.respond_to?(:fork)
+      pid = ::Process.fork
+      exit unless pid # exit the child immediately
+      true
+    rescue NotImplementedError
+      false
+    end
+  end
+  # ===============================================================================================
+  # Worker::Thread
+  #
+  class Thread < Base
+    def initialize
+      ::Thread.abort_on_exception = true
+      # For synchronous access to socket IO
+      $mutex_for_command  = Mutex.new
+      $mutex_for_iterator = Mutex.new
+      super
+    end
+    def create_worker
+      ::Thread.new do
+        Worker::Thread.new(@port).run
+      end
+    end
+    def kill_worker
+      worker_id = @socket.read_long
+      thread = ObjectSpace._id2ref(worker_id)
+      thread.kill
+    rescue
+      nil
+    end
+  end
+end
+# Create proper master by worker_type
+Master.create.run