RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/ext/spark/src/main/scala/MarshalDump.scala ADDED Viewed

@@ -0,0 +1,113 @@
+package org.apache.spark.api.ruby.marshal
+import java.io.{DataInputStream, DataOutputStream, ByteArrayInputStream, ByteArrayOutputStream}
+import scala.collection.mutable.ArrayBuffer
+import scala.collection.JavaConverters._
+import scala.reflect.{ClassTag, classTag}
+import org.apache.spark.mllib.regression.LabeledPoint
+import org.apache.spark.mllib.linalg.{Vector, DenseVector, SparseVector}
+/* =================================================================================================
+ * class MarshalDump
+ * =================================================================================================
+ */
+class MarshalDump(os: DataOutputStream) {
+  val NAN_BYTELIST               = "nan".getBytes
+  val NEGATIVE_INFINITY_BYTELIST = "-inf".getBytes
+  val INFINITY_BYTELIST          = "inf".getBytes
+  def dump(data: Any) {
+    data match {
+      case null =>
+        os.writeByte('0')
+      case item: Boolean =>
+        val char = if(item) 'T' else 'F'
+        os.writeByte(char)
+      case item: Int =>
+        os.writeByte('i')
+        dumpInt(item)
+      case item: Array[_] =>
+        os.writeByte('[')
+        dumpArray(item)
+      case item: Double =>
+        os.writeByte('f')
+        dumpFloat(item)
+      case item: ArrayBuffer[Any] => dump(item.toArray)
+    }
+  }
+  def dumpInt(data: Int) {
+    if(data == 0){
+      os.writeByte(0)
+    }
+    else if (0 < data && data < 123) {
+      os.writeByte(data + 5)
+    }
+    else if (-124 < data && data < 0) {
+      os.writeByte((data - 5) & 0xff)
+    }
+    else {
+      val buffer = new Array[Byte](4)
+      var value = data
+      var i = 0
+      while(i != 4 && value != 0 && value != -1){
+        buffer(i) = (value & 0xff).toByte
+        value = value >> 8
+        i += 1
+      }
+      val lenght = i + 1
+      if(value < 0){
+        os.writeByte(-lenght)
+      }
+      else{
+        os.writeByte(lenght)
+      }
+      os.write(buffer, 0, lenght)
+    }
+  }
+  def dumpArray(array: Array[_]) {
+    dumpInt(array.size)
+    for(item <- array) {
+      dump(item)
+    }
+  }
+  def dumpFloat(value: Double) {
+    if(value.isPosInfinity){
+      dumpString(NEGATIVE_INFINITY_BYTELIST)
+    }
+    else if(value.isNegInfinity){
+      dumpString(INFINITY_BYTELIST)
+    }
+    else if(value.isNaN){
+      dumpString(NAN_BYTELIST)
+    }
+    else{
+      // dumpString("%.17g".format(value))
+      dumpString(value.toString)
+    }
+  }
+  def dumpString(data: String) {
+    dumpString(data.getBytes)
+  }
+  def dumpString(data: Array[Byte]) {
+    dumpInt(data.size)
+    os.write(data)
+  }
+}

data/ext/spark/src/main/scala/MarshalLoad.scala ADDED Viewed

@@ -0,0 +1,220 @@
+package org.apache.spark.api.ruby.marshal
+import java.io.{DataInputStream, DataOutputStream, ByteArrayInputStream, ByteArrayOutputStream}
+import scala.collection.mutable.ArrayBuffer
+import scala.collection.JavaConverters._
+import scala.reflect.{ClassTag, classTag}
+import org.apache.spark.mllib.regression.LabeledPoint
+import org.apache.spark.mllib.linalg.{Vector, DenseVector, SparseVector}
+/* =================================================================================================
+ * class MarshalLoad
+ * =================================================================================================
+ */
+class MarshalLoad(is: DataInputStream) {
+  case class WaitForObject()
+  val registeredSymbols = ArrayBuffer[String]()
+  val registeredLinks = ArrayBuffer[Any]()
+  def load: Any = {
+    load(is.readUnsignedByte.toChar)
+  }
+  def load(dataType: Char): Any = {
+    dataType match {
+      case '0' => null
+      case 'T' => true
+      case 'F' => false
+      case 'i' => loadInt
+      case 'f' => loadAndRegisterFloat
+      case ':' => loadAndRegisterSymbol
+      case '[' => loadAndRegisterArray
+      case 'U' => loadAndRegisterUserObject
+      case _ =>
+        throw new IllegalArgumentException(s"Format is not supported: $dataType.")
+    }
+  }
+  // ----------------------------------------------------------------------------------------------
+  // Load by type
+  def loadInt: Int = {
+    var c = is.readByte.toInt
+    if (c == 0) {
+      return 0
+    } else if (4 < c && c < 128) {
+      return c - 5
+    } else if (-129 < c && c < -4) {
+      return c + 5
+    }
+    var result: Long = 0
+    if (c > 0) {
+      result = 0
+      for( i <- 0 until c ) {
+        result |= (is.readUnsignedByte << (8 * i)).toLong
+      }
+    } else {
+      c = -c
+      result = -1
+      for( i <- 0 until c ) {
+        result &= ~((0xff << (8 * i)).toLong)
+        result |= (is.readUnsignedByte << (8 * i)).toLong
+      }
+    }
+    result.toInt
+  }
+  def loadAndRegisterFloat: Double = {
+    val result = loadFloat
+    registeredLinks += result
+    result
+  }
+  def loadFloat: Double = {
+    val string = loadString
+    string match {
+      case "nan"  => Double.NaN
+      case "inf"  => Double.PositiveInfinity
+      case "-inf" => Double.NegativeInfinity
+      case _ => string.toDouble
+    }
+  }
+  def loadString: String = {
+    new String(loadStringBytes)
+  }
+  def loadStringBytes: Array[Byte] = {
+    val size = loadInt
+    val buffer = new Array[Byte](size)
+    var readSize = 0
+    while(readSize < size){
+      val read = is.read(buffer, readSize, size-readSize)
+      if(read == -1){
+        throw new IllegalArgumentException("Marshal too short.")
+      }
+      readSize += read
+    }
+    buffer
+  }
+  def loadAndRegisterSymbol: String = {
+    val result = loadString
+    registeredSymbols += result
+    result
+  }
+  def loadAndRegisterArray: Array[Any] = {
+    val size = loadInt
+    val array = new Array[Any](size)
+    registeredLinks += array
+    for( i <- 0 until size ) {
+      array(i) = loadNextObject
+    }
+    array
+  }
+  def loadAndRegisterUserObject: Any = {
+    val klass = loadNextObject.asInstanceOf[String]
+    // Register future class before load the next object
+    registeredLinks += WaitForObject()
+    val index = registeredLinks.size - 1
+    val data = loadNextObject
+    val result = klass match {
+      case "Spark::Mllib::LabeledPoint" => createLabeledPoint(data)
+      case "Spark::Mllib::DenseVector" => createDenseVector(data)
+      case "Spark::Mllib::SparseVector" => createSparseVector(data)
+      case other =>
+        throw new IllegalArgumentException(s"Object $other is not supported.")
+    }
+    registeredLinks(index) = result
+    result
+  }
+  // ----------------------------------------------------------------------------------------------
+  // Other loads
+  def loadNextObject: Any = {
+    val dataType = is.readUnsignedByte.toChar
+    if(isLinkType(dataType)){
+      readLink(dataType)
+    }
+    else{
+      load(dataType)
+    }
+  }
+  // ----------------------------------------------------------------------------------------------
+  // To java objects
+  def createLabeledPoint(data: Any): LabeledPoint = {
+    val array = data.asInstanceOf[Array[_]]
+    new LabeledPoint(array(0).asInstanceOf[Double], array(1).asInstanceOf[Vector])
+  }
+  def createDenseVector(data: Any): DenseVector = {
+    new DenseVector(data.asInstanceOf[Array[_]].map(toDouble(_)))
+  }
+  def createSparseVector(data: Any): SparseVector = {
+    val array = data.asInstanceOf[Array[_]]
+    val size = array(0).asInstanceOf[Int]
+    val indices = array(1).asInstanceOf[Array[_]].map(_.asInstanceOf[Int])
+    val values = array(2).asInstanceOf[Array[_]].map(toDouble(_))
+    new SparseVector(size, indices, values)
+  }
+  // ----------------------------------------------------------------------------------------------
+  // Helpers
+  def toDouble(data: Any): Double = data match {
+    case x: Int => x.toDouble
+    case x: Double => x
+    case _ => 0.0
+  }
+  // ----------------------------------------------------------------------------------------------
+  // Cache
+  def readLink(dataType: Char): Any = {
+    val index = loadInt
+    dataType match {
+      case '@' => registeredLinks(index)
+      case ';' => registeredSymbols(index)
+    }
+  }
+  def isLinkType(dataType: Char): Boolean = {
+    dataType == ';' || dataType == '@'
+  }
+}

data/ext/spark/src/main/scala/RubyAccumulatorParam.scala ADDED Viewed

@@ -0,0 +1,69 @@
+package org.apache.spark.api.ruby
+import java.io._
+import java.net._
+import java.util.{List, ArrayList}
+import scala.collection.JavaConversions._
+import scala.collection.immutable._
+import org.apache.spark._
+import org.apache.spark.util.Utils
+/**
+ * Internal class that acts as an `AccumulatorParam` for Ruby accumulators. Inside, it
+ * collects a list of pickled strings that we pass to Ruby through a socket.
+ */
+private class RubyAccumulatorParam(serverHost: String, serverPort: Int)
+  extends AccumulatorParam[List[Array[Byte]]] {
+  // Utils.checkHost(serverHost, "Expected hostname")
+  val bufferSize = SparkEnv.get.conf.getInt("spark.buffer.size", 65536)
+  // Socket shoudl not be serialized
+  // Otherwise: SparkException: Task not serializable
+  @transient var socket: Socket = null
+  @transient var socketOutputStream: DataOutputStream = null
+  @transient var socketInputStream:  DataInputStream = null
+  def openSocket(){
+    synchronized {
+      if (socket == null || socket.isClosed) {
+        socket = new Socket(serverHost, serverPort)
+        socketInputStream  = new DataInputStream(new BufferedInputStream(socket.getInputStream, bufferSize))
+        socketOutputStream = new DataOutputStream(new BufferedOutputStream(socket.getOutputStream, bufferSize))
+      }
+    }
+  }
+  override def zero(value: List[Array[Byte]]): List[Array[Byte]] = new ArrayList
+  override def addInPlace(val1: List[Array[Byte]], val2: List[Array[Byte]]) : List[Array[Byte]] = synchronized {
+    if (serverHost == null) {
+      // This happens on the worker node, where we just want to remember all the updates
+      val1.addAll(val2)
+      val1
+    } else {
+      // This happens on the master, where we pass the updates to Ruby through a socket
+      openSocket()
+      socketOutputStream.writeInt(val2.size)
+      for (array <- val2) {
+        socketOutputStream.writeInt(array.length)
+        socketOutputStream.write(array)
+      }
+      socketOutputStream.flush()
+      // Wait for acknowledgement
+      // http://stackoverflow.com/questions/28560133/ruby-server-java-scala-client-deadlock
+      //
+      // if(in.readInt() != RubyConstant.ACCUMULATOR_ACK){
+      //   throw new SparkException("Accumulator was not acknowledged")
+      // }
+      new ArrayList
+    }
+  }
+}

data/ext/spark/src/main/scala/RubyBroadcast.scala ADDED Viewed

@@ -0,0 +1,13 @@
+package org.apache.spark.api.ruby
+import org.apache.spark.api.python.PythonBroadcast
+/**
+ * An Wrapper for Ruby Broadcast, which is written into disk by Ruby. It also will
+ * write the data into disk after deserialization, then Ruby can read it from disks.
+ *
+ * Class use Python logic - only for semantic
+ */
+class RubyBroadcast(@transient var _path: String, @transient var id: java.lang.Long) extends PythonBroadcast(_path) {
+}

data/ext/spark/src/main/scala/RubyConstant.scala ADDED Viewed

@@ -0,0 +1,13 @@
+package org.apache.spark.api.ruby
+object RubyConstant {
+  val DATA_EOF = -2
+  val WORKER_ERROR = -1
+  val WORKER_DONE = 0
+  val CREATE_WORKER = 1
+  val KILL_WORKER = 2
+  val KILL_WORKER_AND_WAIT = 3
+  val SUCCESSFULLY_KILLED = 4
+  val UNSUCCESSFUL_KILLING = 5
+  val ACCUMULATOR_ACK = 6
+}

data/ext/spark/src/main/scala/RubyMLLibAPI.scala ADDED Viewed

@@ -0,0 +1,55 @@
+package org.apache.spark.mllib.api.ruby
+import java.util.ArrayList
+import scala.collection.JavaConverters._
+import org.apache.spark.rdd.RDD
+import org.apache.spark.api.java.JavaRDD
+import org.apache.spark.mllib.linalg._
+import org.apache.spark.mllib.regression.LabeledPoint
+import org.apache.spark.mllib.classification.NaiveBayes
+import org.apache.spark.mllib.clustering.GaussianMixtureModel
+import org.apache.spark.mllib.stat.distribution.MultivariateGaussian
+import org.apache.spark.mllib.api.python.MLLibAPI
+class RubyMLLibAPI extends MLLibAPI {
+  // trainLinearRegressionModelWithSGD
+  // trainLassoModelWithSGD
+  // trainRidgeModelWithSGD
+  // trainLogisticRegressionModelWithSGD
+  // trainLogisticRegressionModelWithLBFGS
+  // trainSVMModelWithSGD
+  // trainKMeansModel
+  // trainGaussianMixture
+  // Rjb have a problem with theta: Array[Array[Double]]
+  override def trainNaiveBayes(data: JavaRDD[LabeledPoint], lambda: Double) = {
+    val model = NaiveBayes.train(data.rdd, lambda)
+    List(
+      Vectors.dense(model.labels),
+      Vectors.dense(model.pi),
+      model.theta.toSeq
+    ).map(_.asInstanceOf[Object]).asJava
+  }
+  // On python is wt just Object
+  def predictSoftGMM(
+      data: JavaRDD[Vector],
+      wt: ArrayList[Object],
+      mu: ArrayList[Object],
+      si: ArrayList[Object]): RDD[Array[Double]] = {
+      // val weight = wt.asInstanceOf[Array[Double]]
+      val weight = wt.toArray.map(_.asInstanceOf[Double])
+      val mean = mu.toArray.map(_.asInstanceOf[DenseVector])
+      val sigma = si.toArray.map(_.asInstanceOf[DenseMatrix])
+      val gaussians = Array.tabulate(weight.length){
+        i => new MultivariateGaussian(mean(i), sigma(i))
+      }
+      val model = new GaussianMixtureModel(weight, gaussians)
+      model.predictSoft(data)
+  }
+}