RubyGems - ruby-spark - Versions diffs - 1.1.0.1-java - Mend

ruby-spark 1.1.0.1-java

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (180) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +252 -0
data/Rakefile +35 -0
data/TODO.md +6 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/comparison/prepare.sh +18 -0
data/benchmark/comparison/python.py +156 -0
data/benchmark/comparison/r.r +69 -0
data/benchmark/comparison/ruby.rb +167 -0
data/benchmark/comparison/run-all.sh +160 -0
data/benchmark/comparison/scala.scala +181 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/example/website_search.rb +83 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +392 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +158 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +238 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +322 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +67 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1377 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +79 -0
data/lib/spark/serializer/auto_batched.rb +59 -0
data/lib/spark/serializer/base.rb +63 -0
data/lib/spark/serializer/batched.rb +84 -0
data/lib/spark/serializer/cartesian.rb +13 -0
data/lib/spark/serializer/compressed.rb +27 -0
data/lib/spark/serializer/marshal.rb +17 -0
data/lib/spark/serializer/message_pack.rb +23 -0
data/lib/spark/serializer/oj.rb +23 -0
data/lib/spark/serializer/pair.rb +41 -0
data/lib/spark/serializer/text.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +200 -0
data/ruby-spark.gemspec +47 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +165 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +122 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +88 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +170 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +38 -0
metadata +389 -0

checksums.yaml ADDED

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 0c7cdadb3ef29b9ff9c4a4d24c545be97937e6d0
+  data.tar.gz: fd949d2b46717f81e3fefe6ae00f3cc5ca741c32
+SHA512:
+  metadata.gz: 80595e1ff9ae32831f2bf501c78150796e037460d70b7476cc7beab9c73035324fcabc6e4ce143eca919af9f71ec6850f46b399a11c8453fc411b0ca249a7a79
+  data.tar.gz: 112f079c1b024df1b2b35e008945109afb35553373998ce49496f7fa9361d0bc89fcd78bed10d10734fb4842dc9f35024a8c86ee4c41c33fcbe626b0c93bb1dc

data/.gitignore ADDED

@@ -0,0 +1,37 @@
+/.gemtags
+/.tags
+/java/spark.jar
+.jbundler
+target/*
+*.class
+*.jar
+pom.xml
+vendor/*
+*.gem
+*.rbc
+.bundle
+.config
+.yardoc
+Gemfile.lock
+InstalledFiles
+_yardoc
+coverage
+doc/
+lib/bundler/man
+pkg
+rdoc
+spec/reports
+test/tmp
+test/version_tmp
+tmp
+*.bundle
+*.so
+*.o
+*.a
+mkmf.log
+ext/spark/target/*
+ext/spark/project/target/*
+ext/spark/project/project/target/*
+wiki
+/benchmark/performance/spark/*
+/benchmark/performance/rspark/*

data/Gemfile ADDED

@@ -0,0 +1,47 @@
+source 'https://rubygems.org'
+gemspec
+gem 'sourcify', '0.6.0.rc4'
+gem 'method_source'
+gem 'commander'
+gem 'pry'
+gem 'nio4r'
+gem 'distribution'
+platform :mri do
+  gem 'rjb'
+  gem 'msgpack'
+  gem 'oj'
+  gem 'narray'
+end
+platform :jruby do
+  gem 'msgpack-jruby', require: 'msgpack'
+  # NameError: no constructorfor arguments (org.jruby.RubyFixnum,org.jruby.RubyFixnum,org.jruby.RubyFixnum,org.jruby.RubyFixnum,org.jruby.RubyFixnum,org.jruby.RubyFixnum,org.joda.time.chrono.GJChronology) on Java::OrgJodaTime::DateTime
+  # gem 'mdarray'
+end
+group :stats do
+  # gem 'nmatrix'
+  # gem 'statsample'
+  # gem 'statsample-glm'
+  # gem 'statsample-timeseries'
+  # gem 'statistics2'
+  # gem 'statsample-optimization' # libgsl0-dev
+  # gem 'narray'
+  # gem 'gsl-nmatrix'
+end
+group :development do
+  gem 'benchmark-ips'
+  gem 'rspec'
+  gem 'rake-compiler'
+  gem 'guard'
+  gem 'guard-rspec'
+end
+group :test do
+  gem 'simplecov', require: false
+end

data/Guardfile ADDED

@@ -0,0 +1,5 @@
+guard :rspec, cmd: 'rspec' do
+  watch(%r{^spec/.+_spec\.rb$})
+  watch(%r{^lib/(.+)\.rb$})     { |m| "spec/lib/#{m[1]}_spec.rb" }
+  watch('spec/spec_helper.rb')  { "spec" }
+end

data/LICENSE.txt ADDED

@@ -0,0 +1,22 @@
+Copyright (c) 2014 Ondřej Moravčík
+MIT License
+Permission is hereby granted, free of charge, to any person obtaining
+a copy of this software and associated documentation files (the
+"Software"), to deal in the Software without restriction, including
+without limitation the rights to use, copy, modify, merge, publish,
+distribute, sublicense, and/or sell copies of the Software, and to
+permit persons to whom the Software is furnished to do so, subject to
+the following conditions:
+The above copyright notice and this permission notice shall be
+included in all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
+EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
+NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
+LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

data/README.md ADDED

@@ -0,0 +1,252 @@
+# Ruby-Spark
+Apache Spark™ is a fast and general engine for large-scale data processing.
+This Gem allows you use Spark functionality on Ruby.
+> Word count in Spark's Ruby API
+```ruby
+file = spark.text_file("hdfs://...")
+file.flat_map(:split)
+    .map(lambda{|word| [word, 1]})
+    .reduce_by_key(lambda{|a, b| a+b})
+```
+- [Apache Spark](http://spark.apache.org)
+- [Wiki](https://github.com/ondra-m/ruby-spark/wiki)
+- [Ruby-doc](http://www.rubydoc.info/github/ondra-m/ruby-spark)
+## Installation
+### Requirments
+- Java 7+
+- Ruby 2+
+- MRI or JRuby
+Add this line to your application's Gemfile:
+```ruby
+gem 'ruby-spark'
+```
+And then execute:
+```
+$ bundle
+```
+Or install it yourself as:
+```
+$ gem install ruby-spark
+```
+Run `rake compile` if you are using gem from local filesystem.
+### Build Apache Spark
+This command will download Spark and build extensions for this gem ([SBT](ext/spark/build.sbt) is used for compiling). For more informations check [wiki](https://github.com/ondra-m/ruby-spark/wiki/Installation). Everything is stored by default at [GEM_ROOT]/target,
+```
+$ ruby-spark build
+```
+## Usage
+You can use Ruby Spark via interactive shell (Pry is used)
+```
+$ ruby-spark shell
+```
+Or on existing project
+```ruby
+require 'ruby-spark'
+# Create a SparkContext
+Spark.start
+# Context reference
+Spark.sc
+```
+If you want configure Spark first. See [configurations](https://github.com/ondra-m/ruby-spark/wiki/Configuration) for more details.
+```ruby
+require 'ruby-spark'
+# Use if you have custom SPARK_HOME
+Spark.load_lib(spark_home)
+# Configuration
+Spark.config do
+   set_app_name "RubySpark"
+   set 'spark.ruby.serializer', 'oj'
+   set 'spark.ruby.serializer.batch_size', 100
+end
+# Start Apache Spark
+Spark.start
+```
+Finally, to stop the cluster. On the shell is Spark stopped automatically when you exist.
+```ruby
+Spark.stop
+```
+## Creating RDD (upload data)
+Single text file:
+```ruby
+rdd = sc.text_file(FILE, workers_num, serializer=nil)
+```
+All files on directory:
+```ruby
+rdd = sc.whole_text_files(DIRECTORY, workers_num, serializer=nil)
+```
+Direct uploading structures from ruby (choosen serializer must be able to serialize it):
+```ruby
+rdd = sc.parallelize([1,2,3,4,5], workers_num, serializer=nil)
+rdd = sc.parallelize(1..5, workers_num, serializer=nil)
+```
+### Options
+<dl>
+  <dt>workers_num</dt>
+  <dd>
+    Min count of works computing this task.<br>
+    <i>(This value can be overwriten by spark)</i>
+  </dd>
+  <dt>serializer</dt>
+  <dd>
+    Custom serializer.<br>
+    <i>(default: by <b>spark.ruby.serializer</b> options)</i>
+  </dd>
+</dl>
+## Operations
+All operations can be divided into 2 groups:
+- **Transformations:** append new operation to current RDD and return new
+- **Actions:** add operation and start calculations
+See [wiki page](https://github.com/ondra-m/ruby-spark/wiki/RDD) or [Ruby-doc](http://www.rubydoc.info/github/ondra-m/ruby-spark/master/Spark/RDD) for more details.
+#### Transformations
+```ruby
+rdd.map(lambda{|item| ...})
+rdd.flat_map(lambda{|item| ...})
+rdd.filter(lambda{|item| ...})
+rdd.union(rdd)
+rdd.map_paritions(lambda{|iterator| ...})
+# ...
+```
+#### Actions
+```ruby
+rdd.count
+rdd.take(n)
+rdd.collect
+# ...
+```
+## Examples
+Sum of numbers
+```ruby
+sc.parallelize(0..10).sum
+# => 55
+```
+Words count using methods
+```ruby
+# Content:
+# "first line"
+# "second line"
+rdd = sc.text_file(PATH)
+# ["first", "line", "second", "line"]
+rdd = rdd.flat_map(lambda{|line| line.split})
+# [["first", 1], ["line", 1], ["second", 1], ["line", 1]]
+rdd = rdd.map(lambda{|word| [word, 1]})
+# [["first", 1], ["line", 2], ["second", 1]]
+rdd = rdd.reduce_by_key(lambda{|a, b| a+b})
+# {"first"=>1, "line"=>2, "second"=>1}
+rdd.collect_as_hash
+```
+Estimating PI with a custom serializer
+```ruby
+slices = 3
+n = 100000 * slices
+def map(_)
+  x = rand * 2 - 1
+  y = rand * 2 - 1
+  if x**2 + y**2 < 1
+    return 1
+  else
+    return 0
+  end
+end
+rdd = Spark.context.parallelize(1..n, slices, serializer: 'oj')
+rdd = rdd.map(method(:map))
+puts 'Pi is roughly %f' % (4.0 * rdd.sum / n)
+```
+Estimating PI
+```ruby
+rdd = sc.parallelize([10_000], 1)
+rdd = rdd.add_library('bigdecimal/math')
+rdd = rdd.map(lambda{|x| BigMath.PI(x)})
+rdd.collect # => #<BigDecimal, '0.31415926...'>
+```
+Linear regression
+```ruby
+# Import Mllib classes into Object
+# Otherwise are accessible via Spark::Mllib::LinearRegressionWithSGD
+Spark::Mllib.import(Object)
+# Training data
+data = [
+  LabeledPoint.new(0.0, [0.0]),
+  LabeledPoint.new(1.0, [1.0]),
+  LabeledPoint.new(3.0, [2.0]),
+  LabeledPoint.new(2.0, [3.0])
+]
+# Train a model
+lrm = LinearRegressionWithSGD.train(sc.parallelize(data), initial_weights: [1.0])
+lrm.predict([0.0])
+```

data/Rakefile ADDED

@@ -0,0 +1,35 @@
+#-*- mode: ruby -*-
+require "bundler/gem_tasks"
+require "rspec/core/rake_task"
+RSpec::Core::RakeTask.new
+task default: :spec
+task test:    :spec
+def java?
+  RUBY_PLATFORM =~ /java/
+end
+if java?
+  require "rake/javaextensiontask"
+  Rake::JavaExtensionTask.new("ruby_java") do |ext|
+    ext.name = "ruby_spark_ext"
+  end
+else
+  require "rake/extensiontask"
+  Rake::ExtensionTask.new("ruby_c") do |ext|
+    ext.name = "ruby_spark_ext"
+  end
+end
+task :clean do
+  Dir['lib/*.{jar,o,so}'].each do |path|
+    puts "Deleting #{path} ..."
+    File.delete(path)
+  end
+  FileUtils.rm_rf('./pkg')
+  FileUtils.rm_rf('./tmp')
+end

data/TODO.md ADDED

@@ -0,0 +1,6 @@
+- refactor JavaBridge: to_java, from_java
+- add Streaming
+- add SQL
+- worker informations (time, memory, ...)
+- killing zombie workers
+- global config to ~/.ruby-spark.conf (e.g. target folder for spark)

data/benchmark/aggregate.rb ADDED

@@ -0,0 +1,33 @@
+require 'benchmark'
+require 'benchmark/ips'
+data = 0..1_000_000
+zero_value = rand(100_000)
+function = Proc.new{|sum, n| sum+n}
+Benchmark.ips do |r|
+  r.report('each') do
+    sum = zero_value
+    data.each do |n|
+      sum += n
+    end
+  end
+  r.report('reduce') do
+    data.reduce(zero_value){|sum, n| sum+n}
+  end
+  r.report('each with function') do
+    sum = zero_value
+    data.each do |n|
+      sum = function.call(sum, n)
+    end
+  end
+  r.report('reduce with function') do
+    data.reduce(zero_value, &function)
+  end
+  r.compare!
+end