RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/spec/lib/sample_spec.rb ADDED Viewed

@@ -0,0 +1,46 @@
+require "spec_helper"
+# Sample method can not be tested because of random generator
+# Just test it for raising error
+RSpec::shared_examples "a sampler" do |workers|
+  context "with #{workers || 'default'} worker" do
+    context ".sample" do
+      it "with replacement" do
+        rdd2 = rdd(workers).sample(true, rand)
+        expect { rdd2.collect }.to_not raise_error
+      end
+      it "without replacement" do
+        rdd2 = rdd(workers).sample(false, rand)
+        expect { rdd2.collect }.to_not raise_error
+      end
+    end
+    context ".take_sample" do
+      it "with replacement" do
+        size = rand(10..999)
+        expect(rdd(workers).take_sample(true, size).size).to eql(size)
+      end
+      it "without replacement" do
+        size = rand(10..999)
+        expect(rdd(workers).take_sample(false, size).size).to eql(size)
+      end
+    end
+  end
+end
+RSpec::describe "Spark::RDD" do
+  let(:numbers) { Generator.numbers(1000) }
+  def rdd(workers)
+    $sc.parallelize(numbers, workers)
+  end
+  it_behaves_like "a sampler", nil
+  it_behaves_like "a sampler", 1
+  it_behaves_like "a sampler", rand(2..10)
+end

data/spec/lib/serializer_spec.rb ADDED Viewed

@@ -0,0 +1,13 @@
+require "spec_helper"
+RSpec::describe Spark::Serializer do
+  it ".get" do
+    expect(described_class.get(nil)).to eql(nil)
+    expect(described_class.get("MARSHAL")).to eql(nil)
+    expect(described_class.get("Marshal")).to eql(described_class::Marshal)
+    expect(described_class.get("marshal")).to eql(described_class::Marshal)
+    expect(described_class.get("message_pack")).to eql(described_class::MessagePack)
+  end
+end

data/spec/lib/sort_spec.rb ADDED Viewed

@@ -0,0 +1,58 @@
+require "spec_helper"
+RSpec::shared_examples "a sorting" do |workers|
+  it "with #{workers || 'default'} worker" do
+    rdd2 = rdd(workers)
+    rdd2 = rdd2.flat_map(split)
+    result = lines.flat_map(&split)
+    # Sort by self
+    rdd3 = rdd2.map(map).sort_by_key
+    result2 = result.map(&map).sort_by{|(key, _)| key}
+    expect(rdd3.collect).to eql(result2)
+    # Sort by len
+    rdd3 = rdd2.map(len_map).sort_by_key
+    result2 = result.map(&len_map).sort_by{|(key, _)| key}
+    expect(rdd3.collect).to eql(result2)
+  end
+end
+RSpec::describe "Spark::RDD" do
+  let(:split)   { lambda{|x| x.split} }
+  let(:map)     { lambda{|x| [x.to_s, 1]} }
+  let(:len_map) { lambda{|x| [x.size, x]} }
+  context "throught parallelize" do
+    context ".map" do
+      let(:lines) { Generator.lines }
+      def rdd(workers)
+        $sc.parallelize(lines, workers)
+      end
+      it_behaves_like "a sorting", nil
+      it_behaves_like "a sorting", 1
+      it_behaves_like "a sorting", rand(2..10)
+    end
+  end
+  context "throught text_file" do
+    context ".map" do
+      let(:file)  { File.join("spec", "inputs", "lorem_300.txt") }
+      let(:lines) { File.readlines(file).map(&:strip) }
+      def rdd(workers)
+        $sc.text_file(file, workers)
+      end
+      it_behaves_like "a sorting", nil
+      it_behaves_like "a sorting", 1
+      it_behaves_like "a sorting", rand(2..10)
+    end
+  end
+end

data/spec/lib/statistic_spec.rb ADDED Viewed

@@ -0,0 +1,168 @@
+require 'spec_helper'
+RSpec::shared_examples 'a stats' do |workers|
+  let(:numbers) { [1.0, 1.0, 2.0, 3.0, 5.0, 8.0] }
+  context "with #{workers || 'default'} worker" do
+    it 'stats class' do
+      stats = $sc.parallelize(numbers, workers).stats
+      expect(stats.sum).to             be_within(0.1).of(20)
+      expect(stats.mean).to            be_within(0.1).of(20/6.0)
+      expect(stats.max).to             be_within(0.1).of(8.0)
+      expect(stats.min).to             be_within(0.1).of(1.0)
+      expect(stats.variance).to        be_within(0.1).of(6.22222)
+      expect(stats.sample_variance).to be_within(0.1).of(7.46667)
+      expect(stats.stdev).to           be_within(0.1).of(2.49444)
+      expect(stats.sample_stdev).to    be_within(0.1).of(2.73252)
+    end
+    it 'rdd methods' do
+      rdd = $sc.parallelize([1, 2, 3], workers)
+      expect(rdd.mean).to            be_within(0.1).of(2.0)
+      expect(rdd.variance).to        be_within(0.1).of(0.666)
+      expect(rdd.stdev).to           be_within(0.1).of(0.816)
+      expect(rdd.sample_stdev).to    be_within(0.1).of(1.0)
+      expect(rdd.sample_variance).to be_within(0.1).of(1.0)
+    end
+  end
+end
+RSpec::shared_examples 'a histogram' do |workers|
+  context "with #{workers || 'default'} worker" do
+    it 'empty' do
+      rdd = $sc.parallelize([], workers, batch_size: 1)
+      expect( rdd.histogram([0, 10])[1] ).to eq([0])
+      expect( rdd.histogram([0, 4, 10])[1] ).to eq([0, 0])
+    end
+    it 'validation' do
+      rdd = $sc.parallelize([], workers, batch_size: 1)
+      expect { rdd.histogram(0) }.to raise_error(ArgumentError)
+    end
+    it 'double' do
+      rdd = $sc.parallelize([1.0, 2.0, 3.0, 4.0], workers, batch_size: 1)
+      buckets, counts = rdd.histogram(2)
+      expect(buckets).to eq([1.0, 2.5, 4.0])
+      expect(counts).to eq([2, 2])
+    end
+    it 'out of range' do
+      rdd = $sc.parallelize([10.01, -0.01], workers, batch_size: 1)
+      expect( rdd.histogram([0, 10])[1] ).to eq([0])
+      expect( rdd.histogram([0, 4, 10])[1] ).to eq([0, 0])
+    end
+    it 'in range with one bucket' do
+      rdd = $sc.parallelize([1, 2, 3, 4], workers, batch_size: 1)
+      expect( rdd.histogram([0, 10])[1] ).to eq([4])
+      expect( rdd.histogram([0, 4, 10])[1] ).to eq([3, 1])
+    end
+    it 'in range with one bucket exact match' do
+      rdd = $sc.parallelize([1, 2, 3, 4], workers, batch_size: 1)
+      expect( rdd.histogram([1, 4])[1] ).to eq([4])
+    end
+    it 'out of range with two buckets' do
+      rdd = $sc.parallelize([10.01, -0.01], workers, batch_size: 1)
+      expect( rdd.histogram([0, 5, 10])[1] ).to eq([0, 0])
+    end
+    it 'out of range with two uneven buckets' do
+      rdd = $sc.parallelize([10.01, -0.01], workers, batch_size: 1)
+      expect( rdd.histogram([0, 4, 10])[1] ).to eq([0, 0])
+    end
+    it 'in range with two buckets' do
+      rdd = $sc.parallelize([1, 2, 3, 5, 6], workers, batch_size: 1)
+      expect( rdd.histogram([0, 5, 10])[1] ).to eq([3, 2])
+    end
+    it 'in range with two bucket and nil' do
+      rdd = $sc.parallelize([1, 2, 3, 5, 6, nil, Float::NAN], workers, batch_size: 1)
+      expect( rdd.histogram([0, 5, 10])[1] ).to eq([3, 2])
+    end
+    it 'in range with two uneven buckets' do
+      rdd = $sc.parallelize([1, 2, 3, 5, 6], workers, batch_size: 1)
+      expect( rdd.histogram([0, 5, 11])[1] ).to eq([3, 2])
+    end
+    it 'mixed range with two uneven buckets' do
+      rdd = $sc.parallelize([-0.01, 0.0, 1, 2, 3, 5, 6, 11.0, 11.01], workers, batch_size: 1)
+      expect( rdd.histogram([0, 5, 11])[1] ).to eq([4, 3])
+    end
+    it 'mixed range with four uneven buckets' do
+      rdd = $sc.parallelize([-0.01, 0.0, 1, 2, 3, 5, 6, 11.01, 12.0, 199.0, 200.0, 200.1], workers, batch_size: 1)
+      expect( rdd.histogram([0.0, 5.0, 11.0, 12.0, 200.0])[1] ).to eq([4, 2, 1, 3])
+    end
+    it 'mixed range with uneven buckets and NaN' do
+      rdd = $sc.parallelize([-0.01, 0.0, 1, 2, 3, 5, 6, 11.01, 12.0, 199.0, 200.0, 200.1, nil, Float::NAN], workers, batch_size: 1)
+      expect( rdd.histogram([0.0, 5.0, 11.0, 12.0, 200.0])[1] ).to eq([4, 2, 1, 3])
+    end
+    it 'out of range with infinite buckets' do
+      rdd = $sc.parallelize([10.01, -0.01, Float::NAN, Float::INFINITY], workers, batch_size: 1)
+      expect( rdd.histogram([-Float::INFINITY, 0, Float::INFINITY])[1] ).to eq([1, 1])
+    end
+    it 'without buckets' do
+      rdd = $sc.parallelize([1, 2, 3, 4], workers, batch_size: 1)
+      expect( rdd.histogram(1) ).to eq([[1, 4], [4]])
+    end
+    it 'without buckets single element' do
+      rdd = $sc.parallelize([1], workers, batch_size: 1)
+      expect( rdd.histogram(1) ).to eq([[1, 1], [1]])
+    end
+    it 'without bucket no range' do
+      rdd = $sc.parallelize([1, 1, 1, 1], workers, batch_size: 1)
+      expect( rdd.histogram(1) ).to eq([[1, 1], [4]])
+    end
+    it 'without buckets basic two' do
+      rdd = $sc.parallelize([1, 2, 3, 4], workers, batch_size: 1)
+      expect( rdd.histogram(2) ).to eq([[1, 2.5, 4], [2, 2]])
+    end
+    it 'without buckets with more requested than elements' do
+      rdd = $sc.parallelize([1, 2], workers, batch_size: 1)
+      buckets = [1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0]
+      hist = [1, 0, 0, 0, 0, 0, 0, 0, 0, 1]
+      expect( rdd.histogram(10) ).to eq([buckets, hist])
+    end
+    it 'string' do
+      rdd = $sc.parallelize(['ab', 'ac', 'b', 'bd', 'ef'], workers, batch_size: 1)
+      expect( rdd.histogram(['a', 'b', 'c'])[1] ).to eq([2, 2])
+      expect( rdd.histogram(1) ).to eq([['ab', 'ef'], [5]])
+      expect { rdd.histogram(2) }.to raise_error(Spark::RDDError)
+    end
+  end
+end
+RSpec::describe Spark::RDD do
+  context '.stats' do
+    it_behaves_like 'a stats', 1
+    it_behaves_like 'a stats', rand(2..5)
+  end
+  context '.histogram' do
+    it_behaves_like 'a histogram', 1
+    it_behaves_like 'a histogram', rand(2..5)
+  end
+end

data/spec/lib/whole_text_files_spec.rb ADDED Viewed

@@ -0,0 +1,33 @@
+require "spec_helper"
+RSpec::shared_examples "a whole_text_files" do |workers|
+  it "with #{workers || 'default'} worker" do
+    rdd2 = rdd(workers).map(get_numbers)
+    result = files.size
+    expect(rdd2.collect.size).to eql(result)
+    rdd3 = rdd(workers)
+    rdd3 = rdd3.flat_map(get_numbers)
+    result = 0
+    files.each{|f| result += File.read(f).split.map(&:to_i).reduce(:+)}
+    expect(rdd3.sum).to eql(result)
+  end
+end
+RSpec::describe "Spark::Context" do
+  let(:get_numbers) { lambda{|file, content| content.split.map(&:to_i)} }
+  let(:dir)   { File.join("spec", "inputs", "numbers") }
+  let(:files) { Dir.glob(File.join(dir, "*")) }
+  def rdd(workers)
+    $sc.whole_text_files(dir, workers)
+  end
+  it_behaves_like "a whole_text_files", nil
+  it_behaves_like "a whole_text_files", 1
+  it_behaves_like "a whole_text_files", rand(2..10)
+end

data/spec/spec_helper.rb ADDED Viewed

@@ -0,0 +1,39 @@
+# require 'simplecov'
+# SimpleCov.start
+$LOAD_PATH.unshift File.dirname(__FILE__) + '/../lib'
+require 'ruby-spark'
+require 'generator'
+# Loading
+Spark.load_lib
+Spark.jb.load_test
+Spark::Mllib.import
+# Keep it on method because its called from config test
+def spark_start
+  Spark.logger.disable
+  Spark.config do
+    set 'spark.ruby.parallelize_strategy', 'deep_copy'
+    set 'spark.ruby.batch_size', 100
+  end
+  Spark.start
+  $sc = Spark.context
+end
+def windows?
+  RbConfig::CONFIG['host_os'] =~ /mswin|mingw/
+end
+RSpec.configure do |config|
+  config.default_formatter = 'doc'
+  config.color = true
+  config.tty   = true
+  config.before(:suite) do
+    spark_start
+  end
+  config.after(:suite) do
+    Spark.stop
+  end
+end

metadata ADDED Viewed

@@ -0,0 +1,301 @@
+--- !ruby/object:Gem::Specification
+name: ruby-spark
+version: !ruby/object:Gem::Version
+  version: 1.0.0
+platform: ruby
+authors:
+- Ondřej Moravčík
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2015-05-04 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.6'
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+description: ''
+email:
+- moravcik.ondrej@gmail.com
+executables:
+- ruby-spark
+extensions:
+- ext/ruby_c/extconf.rb
+extra_rdoc_files: []
+files:
+- ".gitignore"
+- Gemfile
+- Guardfile
+- LICENSE.txt
+- README.md
+- Rakefile
+- TODO.md
+- benchmark/aggregate.rb
+- benchmark/bisect.rb
+- benchmark/custom_marshal.rb
+- benchmark/digest.rb
+- benchmark/enumerator.rb
+- benchmark/performance/prepare.sh
+- benchmark/performance/python.py
+- benchmark/performance/r.r
+- benchmark/performance/ruby.rb
+- benchmark/performance/run-all.sh
+- benchmark/performance/scala.scala
+- benchmark/serializer.rb
+- benchmark/sort.rb
+- benchmark/sort2.rb
+- benchmark/take.rb
+- bin/ruby-spark
+- example/pi.rb
+- ext/ruby_c/extconf.rb
+- ext/ruby_c/murmur.c
+- ext/ruby_c/murmur.h
+- ext/ruby_c/ruby-spark.c
+- ext/ruby_java/Digest.java
+- ext/ruby_java/Murmur2.java
+- ext/ruby_java/RubySparkExtService.java
+- ext/ruby_java/extconf.rb
+- ext/spark/build.sbt
+- ext/spark/project/plugins.sbt
+- ext/spark/sbt/sbt
+- ext/spark/src/main/scala/Exec.scala
+- ext/spark/src/main/scala/MLLibAPI.scala
+- ext/spark/src/main/scala/Marshal.scala
+- ext/spark/src/main/scala/MarshalDump.scala
+- ext/spark/src/main/scala/MarshalLoad.scala
+- ext/spark/src/main/scala/RubyAccumulatorParam.scala
+- ext/spark/src/main/scala/RubyBroadcast.scala
+- ext/spark/src/main/scala/RubyConstant.scala
+- ext/spark/src/main/scala/RubyMLLibAPI.scala
+- ext/spark/src/main/scala/RubyMLLibUtilAPI.scala
+- ext/spark/src/main/scala/RubyPage.scala
+- ext/spark/src/main/scala/RubyRDD.scala
+- ext/spark/src/main/scala/RubySerializer.scala
+- ext/spark/src/main/scala/RubyTab.scala
+- ext/spark/src/main/scala/RubyUtils.scala
+- ext/spark/src/main/scala/RubyWorker.scala
+- ext/spark/src/test/scala/MarshalSpec.scala
+- lib/ruby-spark.rb
+- lib/spark.rb
+- lib/spark/accumulator.rb
+- lib/spark/broadcast.rb
+- lib/spark/build.rb
+- lib/spark/cli.rb
+- lib/spark/command.rb
+- lib/spark/command/base.rb
+- lib/spark/command/basic.rb
+- lib/spark/command/pair.rb
+- lib/spark/command/sort.rb
+- lib/spark/command/statistic.rb
+- lib/spark/command_builder.rb
+- lib/spark/command_validator.rb
+- lib/spark/config.rb
+- lib/spark/constant.rb
+- lib/spark/context.rb
+- lib/spark/error.rb
+- lib/spark/ext/hash.rb
+- lib/spark/ext/integer.rb
+- lib/spark/ext/io.rb
+- lib/spark/ext/ip_socket.rb
+- lib/spark/ext/module.rb
+- lib/spark/ext/object.rb
+- lib/spark/ext/string.rb
+- lib/spark/helper.rb
+- lib/spark/helper/logger.rb
+- lib/spark/helper/parser.rb
+- lib/spark/helper/serialize.rb
+- lib/spark/helper/statistic.rb
+- lib/spark/helper/system.rb
+- lib/spark/java_bridge.rb
+- lib/spark/java_bridge/base.rb
+- lib/spark/java_bridge/jruby.rb
+- lib/spark/java_bridge/rjb.rb
+- lib/spark/logger.rb
+- lib/spark/mllib.rb
+- lib/spark/mllib/classification/common.rb
+- lib/spark/mllib/classification/logistic_regression.rb
+- lib/spark/mllib/classification/naive_bayes.rb
+- lib/spark/mllib/classification/svm.rb
+- lib/spark/mllib/clustering/gaussian_mixture.rb
+- lib/spark/mllib/clustering/kmeans.rb
+- lib/spark/mllib/matrix.rb
+- lib/spark/mllib/regression/common.rb
+- lib/spark/mllib/regression/labeled_point.rb
+- lib/spark/mllib/regression/lasso.rb
+- lib/spark/mllib/regression/linear.rb
+- lib/spark/mllib/regression/ridge.rb
+- lib/spark/mllib/ruby_matrix/matrix_adapter.rb
+- lib/spark/mllib/ruby_matrix/vector_adapter.rb
+- lib/spark/mllib/stat/distribution.rb
+- lib/spark/mllib/vector.rb
+- lib/spark/rdd.rb
+- lib/spark/sampler.rb
+- lib/spark/serializer.rb
+- lib/spark/serializer/base.rb
+- lib/spark/serializer/cartesian.rb
+- lib/spark/serializer/marshal.rb
+- lib/spark/serializer/message_pack.rb
+- lib/spark/serializer/oj.rb
+- lib/spark/serializer/pair.rb
+- lib/spark/serializer/utf8.rb
+- lib/spark/sort.rb
+- lib/spark/stat_counter.rb
+- lib/spark/storage_level.rb
+- lib/spark/version.rb
+- lib/spark/worker/master.rb
+- lib/spark/worker/spark_files.rb
+- lib/spark/worker/worker.rb
+- ruby-spark.gemspec
+- spec/generator.rb
+- spec/inputs/lorem_300.txt
+- spec/inputs/numbers/1.txt
+- spec/inputs/numbers/10.txt
+- spec/inputs/numbers/11.txt
+- spec/inputs/numbers/12.txt
+- spec/inputs/numbers/13.txt
+- spec/inputs/numbers/14.txt
+- spec/inputs/numbers/15.txt
+- spec/inputs/numbers/16.txt
+- spec/inputs/numbers/17.txt
+- spec/inputs/numbers/18.txt
+- spec/inputs/numbers/19.txt
+- spec/inputs/numbers/2.txt
+- spec/inputs/numbers/20.txt
+- spec/inputs/numbers/3.txt
+- spec/inputs/numbers/4.txt
+- spec/inputs/numbers/5.txt
+- spec/inputs/numbers/6.txt
+- spec/inputs/numbers/7.txt
+- spec/inputs/numbers/8.txt
+- spec/inputs/numbers/9.txt
+- spec/inputs/numbers_0_100.txt
+- spec/inputs/numbers_1_100.txt
+- spec/lib/collect_spec.rb
+- spec/lib/command_spec.rb
+- spec/lib/config_spec.rb
+- spec/lib/context_spec.rb
+- spec/lib/ext_spec.rb
+- spec/lib/external_apps_spec.rb
+- spec/lib/filter_spec.rb
+- spec/lib/flat_map_spec.rb
+- spec/lib/group_spec.rb
+- spec/lib/helper_spec.rb
+- spec/lib/key_spec.rb
+- spec/lib/manipulation_spec.rb
+- spec/lib/map_partitions_spec.rb
+- spec/lib/map_spec.rb
+- spec/lib/mllib/classification_spec.rb
+- spec/lib/mllib/clustering_spec.rb
+- spec/lib/mllib/matrix_spec.rb
+- spec/lib/mllib/regression_spec.rb
+- spec/lib/mllib/vector_spec.rb
+- spec/lib/reduce_by_key_spec.rb
+- spec/lib/reduce_spec.rb
+- spec/lib/sample_spec.rb
+- spec/lib/serializer_spec.rb
+- spec/lib/sort_spec.rb
+- spec/lib/statistic_spec.rb
+- spec/lib/whole_text_files_spec.rb
+- spec/spec_helper.rb
+homepage: ''
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '2.0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements:
+- java, scala
+rubyforge_project:
+rubygems_version: 2.2.2
+signing_key:
+specification_version: 4
+summary: Ruby wrapper for Spark
+test_files:
+- spec/generator.rb
+- spec/inputs/lorem_300.txt
+- spec/inputs/numbers/1.txt
+- spec/inputs/numbers/10.txt
+- spec/inputs/numbers/11.txt
+- spec/inputs/numbers/12.txt
+- spec/inputs/numbers/13.txt
+- spec/inputs/numbers/14.txt
+- spec/inputs/numbers/15.txt
+- spec/inputs/numbers/16.txt
+- spec/inputs/numbers/17.txt
+- spec/inputs/numbers/18.txt
+- spec/inputs/numbers/19.txt
+- spec/inputs/numbers/2.txt
+- spec/inputs/numbers/20.txt
+- spec/inputs/numbers/3.txt
+- spec/inputs/numbers/4.txt
+- spec/inputs/numbers/5.txt
+- spec/inputs/numbers/6.txt
+- spec/inputs/numbers/7.txt
+- spec/inputs/numbers/8.txt
+- spec/inputs/numbers/9.txt
+- spec/inputs/numbers_0_100.txt
+- spec/inputs/numbers_1_100.txt
+- spec/lib/collect_spec.rb
+- spec/lib/command_spec.rb
+- spec/lib/config_spec.rb
+- spec/lib/context_spec.rb
+- spec/lib/ext_spec.rb
+- spec/lib/external_apps_spec.rb
+- spec/lib/filter_spec.rb
+- spec/lib/flat_map_spec.rb
+- spec/lib/group_spec.rb
+- spec/lib/helper_spec.rb
+- spec/lib/key_spec.rb
+- spec/lib/manipulation_spec.rb
+- spec/lib/map_partitions_spec.rb
+- spec/lib/map_spec.rb
+- spec/lib/mllib/classification_spec.rb
+- spec/lib/mllib/clustering_spec.rb
+- spec/lib/mllib/matrix_spec.rb
+- spec/lib/mllib/regression_spec.rb
+- spec/lib/mllib/vector_spec.rb
+- spec/lib/reduce_by_key_spec.rb
+- spec/lib/reduce_spec.rb
+- spec/lib/sample_spec.rb
+- spec/lib/serializer_spec.rb
+- spec/lib/sort_spec.rb
+- spec/lib/statistic_spec.rb
+- spec/lib/whole_text_files_spec.rb
+- spec/spec_helper.rb
+has_rdoc: