RubyGems - ruby-spark - Versions diffs - 1.0.0 - Mend

ruby-spark 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

checksums.yaml +7 -0
data/.gitignore +37 -0
data/Gemfile +47 -0
data/Guardfile +5 -0
data/LICENSE.txt +22 -0
data/README.md +185 -0
data/Rakefile +35 -0
data/TODO.md +7 -0
data/benchmark/aggregate.rb +33 -0
data/benchmark/bisect.rb +88 -0
data/benchmark/custom_marshal.rb +94 -0
data/benchmark/digest.rb +150 -0
data/benchmark/enumerator.rb +88 -0
data/benchmark/performance/prepare.sh +18 -0
data/benchmark/performance/python.py +156 -0
data/benchmark/performance/r.r +69 -0
data/benchmark/performance/ruby.rb +167 -0
data/benchmark/performance/run-all.sh +160 -0
data/benchmark/performance/scala.scala +181 -0
data/benchmark/serializer.rb +82 -0
data/benchmark/sort.rb +43 -0
data/benchmark/sort2.rb +164 -0
data/benchmark/take.rb +28 -0
data/bin/ruby-spark +8 -0
data/example/pi.rb +28 -0
data/ext/ruby_c/extconf.rb +3 -0
data/ext/ruby_c/murmur.c +158 -0
data/ext/ruby_c/murmur.h +9 -0
data/ext/ruby_c/ruby-spark.c +18 -0
data/ext/ruby_java/Digest.java +36 -0
data/ext/ruby_java/Murmur2.java +98 -0
data/ext/ruby_java/RubySparkExtService.java +28 -0
data/ext/ruby_java/extconf.rb +3 -0
data/ext/spark/build.sbt +73 -0
data/ext/spark/project/plugins.sbt +9 -0
data/ext/spark/sbt/sbt +34 -0
data/ext/spark/src/main/scala/Exec.scala +91 -0
data/ext/spark/src/main/scala/MLLibAPI.scala +4 -0
data/ext/spark/src/main/scala/Marshal.scala +52 -0
data/ext/spark/src/main/scala/MarshalDump.scala +113 -0
data/ext/spark/src/main/scala/MarshalLoad.scala +220 -0
data/ext/spark/src/main/scala/RubyAccumulatorParam.scala +69 -0
data/ext/spark/src/main/scala/RubyBroadcast.scala +13 -0
data/ext/spark/src/main/scala/RubyConstant.scala +13 -0
data/ext/spark/src/main/scala/RubyMLLibAPI.scala +55 -0
data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala +21 -0
data/ext/spark/src/main/scala/RubyPage.scala +34 -0
data/ext/spark/src/main/scala/RubyRDD.scala +364 -0
data/ext/spark/src/main/scala/RubySerializer.scala +14 -0
data/ext/spark/src/main/scala/RubyTab.scala +11 -0
data/ext/spark/src/main/scala/RubyUtils.scala +15 -0
data/ext/spark/src/main/scala/RubyWorker.scala +257 -0
data/ext/spark/src/test/scala/MarshalSpec.scala +84 -0
data/lib/ruby-spark.rb +1 -0
data/lib/spark.rb +198 -0
data/lib/spark/accumulator.rb +260 -0
data/lib/spark/broadcast.rb +98 -0
data/lib/spark/build.rb +43 -0
data/lib/spark/cli.rb +169 -0
data/lib/spark/command.rb +86 -0
data/lib/spark/command/base.rb +154 -0
data/lib/spark/command/basic.rb +345 -0
data/lib/spark/command/pair.rb +124 -0
data/lib/spark/command/sort.rb +51 -0
data/lib/spark/command/statistic.rb +144 -0
data/lib/spark/command_builder.rb +141 -0
data/lib/spark/command_validator.rb +34 -0
data/lib/spark/config.rb +244 -0
data/lib/spark/constant.rb +14 -0
data/lib/spark/context.rb +304 -0
data/lib/spark/error.rb +50 -0
data/lib/spark/ext/hash.rb +41 -0
data/lib/spark/ext/integer.rb +25 -0
data/lib/spark/ext/io.rb +57 -0
data/lib/spark/ext/ip_socket.rb +29 -0
data/lib/spark/ext/module.rb +58 -0
data/lib/spark/ext/object.rb +24 -0
data/lib/spark/ext/string.rb +24 -0
data/lib/spark/helper.rb +10 -0
data/lib/spark/helper/logger.rb +40 -0
data/lib/spark/helper/parser.rb +85 -0
data/lib/spark/helper/serialize.rb +71 -0
data/lib/spark/helper/statistic.rb +93 -0
data/lib/spark/helper/system.rb +42 -0
data/lib/spark/java_bridge.rb +19 -0
data/lib/spark/java_bridge/base.rb +203 -0
data/lib/spark/java_bridge/jruby.rb +23 -0
data/lib/spark/java_bridge/rjb.rb +41 -0
data/lib/spark/logger.rb +76 -0
data/lib/spark/mllib.rb +100 -0
data/lib/spark/mllib/classification/common.rb +31 -0
data/lib/spark/mllib/classification/logistic_regression.rb +223 -0
data/lib/spark/mllib/classification/naive_bayes.rb +97 -0
data/lib/spark/mllib/classification/svm.rb +135 -0
data/lib/spark/mllib/clustering/gaussian_mixture.rb +82 -0
data/lib/spark/mllib/clustering/kmeans.rb +118 -0
data/lib/spark/mllib/matrix.rb +120 -0
data/lib/spark/mllib/regression/common.rb +73 -0
data/lib/spark/mllib/regression/labeled_point.rb +41 -0
data/lib/spark/mllib/regression/lasso.rb +100 -0
data/lib/spark/mllib/regression/linear.rb +124 -0
data/lib/spark/mllib/regression/ridge.rb +97 -0
data/lib/spark/mllib/ruby_matrix/matrix_adapter.rb +53 -0
data/lib/spark/mllib/ruby_matrix/vector_adapter.rb +57 -0
data/lib/spark/mllib/stat/distribution.rb +12 -0
data/lib/spark/mllib/vector.rb +185 -0
data/lib/spark/rdd.rb +1328 -0
data/lib/spark/sampler.rb +92 -0
data/lib/spark/serializer.rb +24 -0
data/lib/spark/serializer/base.rb +170 -0
data/lib/spark/serializer/cartesian.rb +37 -0
data/lib/spark/serializer/marshal.rb +19 -0
data/lib/spark/serializer/message_pack.rb +25 -0
data/lib/spark/serializer/oj.rb +25 -0
data/lib/spark/serializer/pair.rb +27 -0
data/lib/spark/serializer/utf8.rb +25 -0
data/lib/spark/sort.rb +189 -0
data/lib/spark/stat_counter.rb +125 -0
data/lib/spark/storage_level.rb +39 -0
data/lib/spark/version.rb +3 -0
data/lib/spark/worker/master.rb +144 -0
data/lib/spark/worker/spark_files.rb +15 -0
data/lib/spark/worker/worker.rb +197 -0
data/ruby-spark.gemspec +36 -0
data/spec/generator.rb +37 -0
data/spec/inputs/lorem_300.txt +316 -0
data/spec/inputs/numbers/1.txt +50 -0
data/spec/inputs/numbers/10.txt +50 -0
data/spec/inputs/numbers/11.txt +50 -0
data/spec/inputs/numbers/12.txt +50 -0
data/spec/inputs/numbers/13.txt +50 -0
data/spec/inputs/numbers/14.txt +50 -0
data/spec/inputs/numbers/15.txt +50 -0
data/spec/inputs/numbers/16.txt +50 -0
data/spec/inputs/numbers/17.txt +50 -0
data/spec/inputs/numbers/18.txt +50 -0
data/spec/inputs/numbers/19.txt +50 -0
data/spec/inputs/numbers/2.txt +50 -0
data/spec/inputs/numbers/20.txt +50 -0
data/spec/inputs/numbers/3.txt +50 -0
data/spec/inputs/numbers/4.txt +50 -0
data/spec/inputs/numbers/5.txt +50 -0
data/spec/inputs/numbers/6.txt +50 -0
data/spec/inputs/numbers/7.txt +50 -0
data/spec/inputs/numbers/8.txt +50 -0
data/spec/inputs/numbers/9.txt +50 -0
data/spec/inputs/numbers_0_100.txt +101 -0
data/spec/inputs/numbers_1_100.txt +100 -0
data/spec/lib/collect_spec.rb +42 -0
data/spec/lib/command_spec.rb +68 -0
data/spec/lib/config_spec.rb +64 -0
data/spec/lib/context_spec.rb +163 -0
data/spec/lib/ext_spec.rb +72 -0
data/spec/lib/external_apps_spec.rb +45 -0
data/spec/lib/filter_spec.rb +80 -0
data/spec/lib/flat_map_spec.rb +100 -0
data/spec/lib/group_spec.rb +109 -0
data/spec/lib/helper_spec.rb +19 -0
data/spec/lib/key_spec.rb +41 -0
data/spec/lib/manipulation_spec.rb +114 -0
data/spec/lib/map_partitions_spec.rb +87 -0
data/spec/lib/map_spec.rb +91 -0
data/spec/lib/mllib/classification_spec.rb +54 -0
data/spec/lib/mllib/clustering_spec.rb +35 -0
data/spec/lib/mllib/matrix_spec.rb +32 -0
data/spec/lib/mllib/regression_spec.rb +116 -0
data/spec/lib/mllib/vector_spec.rb +77 -0
data/spec/lib/reduce_by_key_spec.rb +118 -0
data/spec/lib/reduce_spec.rb +131 -0
data/spec/lib/sample_spec.rb +46 -0
data/spec/lib/serializer_spec.rb +13 -0
data/spec/lib/sort_spec.rb +58 -0
data/spec/lib/statistic_spec.rb +168 -0
data/spec/lib/whole_text_files_spec.rb +33 -0
data/spec/spec_helper.rb +39 -0
metadata +301 -0

data/ext/spark/src/main/scala/RubyMLLibUtilAPI.scala ADDED Viewed

@@ -0,0 +1,21 @@
+package org.apache.spark.mllib.api.ruby
+import java.util.ArrayList
+import org.apache.spark.mllib.util.LinearDataGenerator
+import org.apache.spark.mllib.regression.LabeledPoint
+object RubyMLLibUtilAPI {
+  // Ruby does have a problem with creating Array[Double]
+  def generateLinearInput(
+      intercept: Double,
+      weights: ArrayList[String],
+      nPoints: Int,
+      seed: Int,
+      eps: Double = 0.1): Seq[LabeledPoint] = {
+    LinearDataGenerator.generateLinearInput(intercept, weights.toArray.map(_.toString.toDouble), nPoints, seed, eps)
+  }
+}

data/ext/spark/src/main/scala/RubyPage.scala ADDED Viewed

@@ -0,0 +1,34 @@
+package org.apache.spark.ui.ruby
+// import javax.servlet.http.HttpServletRequest
+// import scala.xml.Node
+// import org.apache.spark.ui.{WebUIPage, UIUtils}
+// import org.apache.spark.util.Utils
+// private[ui] class RubyPage(parent: RubyTab, rbConfig: Array[Tuple2[String, String]]) extends WebUIPage("") {
+//   def render(request: HttpServletRequest): Seq[Node] = {
+//     val content = UIUtils.listingTable(header, row, rbConfig)
+//     UIUtils.headerSparkPage("Ruby Config", content, parent)
+//   }
+//   private def header = Seq(
+//     "Number"
+//   )
+//   private def row(keyValue: (String, String)): Seq[Node] = {
+//     // scalastyle:off
+//     keyValue match {
+//       case (key, value) =>
+//         <tr>
+//           <td>{key}</td>
+//           <td>{value}</td>
+//         </tr>
+//     }
+//     // scalastyle:on
+//   }
+// }
+class RubyPage {}

data/ext/spark/src/main/scala/RubyRDD.scala ADDED Viewed

@@ -0,0 +1,364 @@
+package org.apache.spark.api.ruby
+import java.io._
+import java.net._
+import java.util.{List, ArrayList, Collections}
+import scala.util.Try
+import scala.reflect.ClassTag
+import scala.collection.JavaConversions._
+import org.apache.spark._
+import org.apache.spark.{SparkEnv, Partition, SparkException, TaskContext}
+import org.apache.spark.api.ruby._
+import org.apache.spark.api.ruby.marshal._
+import org.apache.spark.api.java.{JavaSparkContext, JavaPairRDD, JavaRDD}
+import org.apache.spark.api.python.PythonRDD
+import org.apache.spark.broadcast.Broadcast
+import org.apache.spark.rdd.RDD
+import org.apache.spark.util.Utils
+import org.apache.spark.InterruptibleIterator
+/* =================================================================================================
+ * Class RubyRDD
+ * =================================================================================================
+ */
+class RubyRDD(
+    @transient parent: RDD[_],
+    command: Array[Byte],
+    broadcastVars: ArrayList[Broadcast[RubyBroadcast]],
+    accumulator: Accumulator[List[Array[Byte]]])
+  extends RDD[Array[Byte]](parent){
+    val bufferSize = conf.getInt("spark.buffer.size", 65536)
+    val asJavaRDD: JavaRDD[Array[Byte]] = JavaRDD.fromRDD(this)
+    override def getPartitions: Array[Partition] = firstParent.partitions
+    override val partitioner = None
+    /* ------------------------------------------------------------------------------------------ */
+    override def compute(split: Partition, context: TaskContext): Iterator[Array[Byte]] = {
+      val env = SparkEnv.get
+      // Get worker and id
+      val (worker, workerId) = RubyWorker.create(env)
+      // Start a thread to feed the process input from our parent's iterator
+      val writerThread = new WriterThread(env, worker, split, context)
+      context.addTaskCompletionListener { context =>
+        writerThread.shutdownOnTaskCompletion()
+        writerThread.join()
+        // Cleanup the worker socket. This will also cause the worker to exit.
+        try {
+          RubyWorker.remove(worker, workerId)
+          worker.close()
+        } catch {
+          case e: Exception => logWarning("Failed to close worker socket", e)
+        }
+      }
+      val stream = new DataInputStream(new BufferedInputStream(worker.getInputStream, bufferSize))
+      // Send data
+      writerThread.start()
+      // For violent termination of worker
+      new MonitorThread(workerId, worker, context).start()
+      // Return an iterator that read lines from the process's stdout
+      val stdoutIterator = new StreamReader(stream, writerThread, context)
+      // An iterator that wraps around an existing iterator to provide task killing functionality.
+      new InterruptibleIterator(context, stdoutIterator)
+    } // end compute
+    /* ------------------------------------------------------------------------------------------ */
+    class WriterThread(env: SparkEnv, worker: Socket, split: Partition, context: TaskContext)
+      extends Thread("stdout writer for worker") {
+      @volatile private var _exception: Exception = null
+      setDaemon(true)
+      // Contains the exception thrown while writing the parent iterator to the process.
+      def exception: Option[Exception] = Option(_exception)
+      // Terminates the writer thread, ignoring any exceptions that may occur due to cleanup.
+      def shutdownOnTaskCompletion() {
+        assert(context.isCompleted)
+        this.interrupt()
+      }
+      // -------------------------------------------------------------------------------------------
+      // Send the necessary data for worker
+      //   - split index
+      //   - command
+      //   - iterator
+      override def run(): Unit = Utils.logUncaughtExceptions {
+        try {
+          SparkEnv.set(env)
+          val stream = new BufferedOutputStream(worker.getOutputStream, bufferSize)
+          val dataOut = new DataOutputStream(stream)
+          // Partition index
+          dataOut.writeInt(split.index)
+          // Spark files
+          PythonRDD.writeUTF(SparkFiles.getRootDirectory, dataOut)
+          // Broadcast variables
+          dataOut.writeInt(broadcastVars.length)
+          for (broadcast <- broadcastVars) {
+            dataOut.writeLong(broadcast.value.id)
+            PythonRDD.writeUTF(broadcast.value.path, dataOut)
+          }
+          // Serialized command
+          dataOut.writeInt(command.length)
+          dataOut.write(command)
+          // Send it
+          dataOut.flush()
+          // Data
+          PythonRDD.writeIteratorToStream(firstParent.iterator(split, context), dataOut)
+          dataOut.writeInt(RubyConstant.DATA_EOF)
+          dataOut.flush()
+        } catch {
+          case e: Exception if context.isCompleted || context.isInterrupted =>
+            logDebug("Exception thrown after task completion (likely due to cleanup)", e)
+          case e: Exception =>
+            // We must avoid throwing exceptions here, because the thread uncaught exception handler
+            // will kill the whole executor (see org.apache.spark.executor.Executor).
+            _exception = e
+        } finally {
+          Try(worker.shutdownOutput()) // kill worker process
+        }
+      }
+    } // end WriterThread
+    /* ------------------------------------------------------------------------------------------ */
+    class StreamReader(stream: DataInputStream, writerThread: WriterThread, context: TaskContext) extends Iterator[Array[Byte]] {
+      def hasNext = _nextObj != null
+      var _nextObj = read()
+      // -------------------------------------------------------------------------------------------
+      def next(): Array[Byte] = {
+        val obj = _nextObj
+        if (hasNext) {
+          _nextObj = read()
+        }
+        obj
+      }
+      // -------------------------------------------------------------------------------------------
+      private def read(): Array[Byte] = {
+        if (writerThread.exception.isDefined) {
+          throw writerThread.exception.get
+        }
+        try {
+          stream.readInt() match {
+            case length if length > 0 =>
+              val obj = new Array[Byte](length)
+              stream.readFully(obj)
+              obj
+            case RubyConstant.WORKER_DONE =>
+              val numAccumulatorUpdates = stream.readInt()
+              (1 to numAccumulatorUpdates).foreach { _ =>
+                val updateLen = stream.readInt()
+                val update = new Array[Byte](updateLen)
+                stream.readFully(update)
+                accumulator += Collections.singletonList(update)
+              }
+              null
+            case RubyConstant.WORKER_ERROR =>
+              // Exception from worker
+              // message
+              val length = stream.readInt()
+              val obj = new Array[Byte](length)
+              stream.readFully(obj)
+              // stackTrace
+              val stackTraceLen = stream.readInt()
+              val stackTrace = new Array[String](stackTraceLen)
+              (0 until stackTraceLen).foreach { i =>
+                val length = stream.readInt()
+                val obj = new Array[Byte](length)
+                stream.readFully(obj)
+                stackTrace(i) = new String(obj, "utf-8")
+              }
+              // Worker will be killed
+              stream.close
+              // exception
+              val exception = new RubyException(new String(obj, "utf-8"), writerThread.exception.getOrElse(null))
+              exception.appendToStackTrace(stackTrace)
+              throw exception
+          }
+        } catch {
+          case e: Exception if context.isInterrupted =>
+            logDebug("Exception thrown after task interruption", e)
+            throw new TaskKilledException
+          case e: Exception if writerThread.exception.isDefined =>
+            logError("Worker exited unexpectedly (crashed)", e)
+            throw writerThread.exception.get
+          case eof: EOFException =>
+            throw new SparkException("Worker exited unexpectedly (crashed)", eof)
+        }
+      }
+    } // end StreamReader
+    /* ---------------------------------------------------------------------------------------------
+     * Monitor thread for controll worker. Kill worker if task is interrupted.
+     */
+    class MonitorThread(workerId: Long, worker: Socket, context: TaskContext)
+      extends Thread("Worker Monitor for worker") {
+      setDaemon(true)
+      override def run() {
+        // Kill the worker if it is interrupted, checking until task completion.
+        while (!context.isInterrupted && !context.isCompleted) {
+          Thread.sleep(2000)
+        }
+        if (!context.isCompleted) {
+          try {
+            logWarning("Incomplete task interrupted: Attempting to kill Worker "+workerId.toString())
+            RubyWorker.kill(workerId)
+          } catch {
+            case e: Exception =>
+              logError("Exception when trying to kill worker "+workerId.toString(), e)
+          }
+        }
+      }
+    } // end MonitorThread
+  } // end RubyRDD
+/* =================================================================================================
+ * Class PairwiseRDD
+ * =================================================================================================
+ *
+ * Form an RDD[(Array[Byte], Array[Byte])] from key-value pairs returned from Ruby.
+ * This is used by PySpark's shuffle operations.
+ * Borrowed from Python Package -> need new deserializeLongValue ->
+ *   Marshal will add the same 4b header
+ */
+class PairwiseRDD(prev: RDD[Array[Byte]]) extends RDD[(Long, Array[Byte])](prev) {
+  override def getPartitions = prev.partitions
+  override def compute(split: Partition, context: TaskContext) =
+    prev.iterator(split, context).grouped(2).map {
+      case Seq(a, b) => (Utils.deserializeLongValue(a.reverse), b)
+      case x => throw new SparkException("PairwiseRDD: unexpected value: " + x)
+    }
+  val asJavaPairRDD : JavaPairRDD[Long, Array[Byte]] = JavaPairRDD.fromRDD(this)
+}
+/* =================================================================================================
+ * Object RubyRDD
+ * =================================================================================================
+ */
+object RubyRDD extends Logging {
+  def readRDDFromFile(sc: JavaSparkContext, filename: String, parallelism: Int): JavaRDD[Array[Byte]] = {
+    // Too slow
+    // val file = new DataInputStream(new FileInputStream(filename))
+    val file = new DataInputStream(new BufferedInputStream(new FileInputStream(filename)))
+    val objs = new collection.mutable.ArrayBuffer[Array[Byte]]
+    try {
+      while (true) {
+        val length = file.readInt()
+        val obj = new Array[Byte](length)
+        file.readFully(obj)
+        objs.append(obj)
+      }
+    } catch {
+      case eof: EOFException => {}
+    }
+    JavaRDD.fromRDD(sc.sc.parallelize(objs, parallelism))
+  }
+  def readBroadcastFromFile(sc: JavaSparkContext, path: String, id: java.lang.Long): Broadcast[RubyBroadcast] = {
+    sc.broadcast(new RubyBroadcast(path, id))
+  }
+  /**
+   * Convert an RDD of serialized Ruby objects to RDD of objects, that is usable in Java.
+   */
+  def toJava(rbRDD: JavaRDD[Array[Byte]], batched: Boolean): JavaRDD[Any] = {
+    rbRDD.rdd.mapPartitions { iter =>
+      iter.flatMap { item =>
+        val obj = Marshal.load(item)
+        if(batched){
+          obj.asInstanceOf[Array[_]]
+        }
+        else{
+          Seq(item)
+        }
+      }
+    }.toJavaRDD()
+  }
+  /**
+   * Convert an RDD of Java objects to an RDD of serialized Ruby objects, that is usable by Ruby.
+   */
+  def toRuby(jRDD: JavaRDD[_]): JavaRDD[Array[Byte]] = {
+    jRDD.rdd.mapPartitions { iter => new IterableMarshaller(iter) }
+  }
+}
+/* =================================================================================================
+ * Class RubyException
+ * =================================================================================================
+ */
+class RubyException(msg: String, cause: Exception) extends RuntimeException(msg, cause) {
+  def appendToStackTrace(toAdded: Array[String]) {
+    val newStactTrace = getStackTrace.toBuffer
+    var regexpMatch = "(.*):([0-9]+):in `([a-z]+)'".r
+    for(item <- toAdded) {
+      item match {
+        case regexpMatch(fileName, lineNumber, methodName) =>
+          newStactTrace += new StackTraceElement("RubyWorker", methodName, fileName, lineNumber.toInt)
+        case _ => null
+      }
+    }
+    setStackTrace(newStactTrace.toArray)
+  }
+}

data/ext/spark/src/main/scala/RubySerializer.scala ADDED Viewed

@@ -0,0 +1,14 @@
+package org.apache.spark.api.ruby
+import scala.collection.JavaConverters._
+import scala.reflect.{ClassTag, classTag}
+import org.apache.spark.api.java.JavaRDD
+import org.apache.spark.api.ruby.marshal._
+/* =================================================================================================
+ * object RubySerializer
+ * =================================================================================================
+ */
+object RubySerializer { }

data/ext/spark/src/main/scala/RubyTab.scala ADDED Viewed

@@ -0,0 +1,11 @@
+package org.apache.spark.ui.ruby
+import scala.collection.mutable.HashMap
+import org.apache.spark.ui._
+// class RubyTab(parent: SparkUI, rbConfig: HashMap[String, String]) extends SparkUITab(parent, "ruby"){
+//   attachPage(new RubyPage(this, rbConfig.toArray))
+// }
+class RubyTab {}