RubyGems - hadoop-papyrus - Versions diffs - 0.0.6 - Mend

hadoop-papyrus 0.0.6

Files changed (32) hide show

data/.gitignore +1 -0
data/README.rdoc +58 -0
data/Rakefile +18 -0
data/VERSION +1 -0
data/bin/papyrus +5 -0
data/conf/hadoop-site.xml +19 -0
data/contrib/hudson/hadoop-hudson.sh +276 -0
data/contrib/hudson/hadoop-ruby.sh +30 -0
data/examples/hive_like_test.rb +14 -0
data/examples/log_analysis_test.rb +43 -0
data/examples/word_count_test.rb +7 -0
data/hadoop-papyrus.gemspec +77 -0
data/lib/core.rb +106 -0
data/lib/dsl_init.rb +33 -0
data/lib/hadoop_dsl.rb +14 -0
data/lib/hadoop_dsl_client.rb +37 -0
data/lib/hive_like.rb +106 -0
data/lib/log_analysis.rb +213 -0
data/lib/mapred_factory.rb +54 -0
data/lib/util.rb +38 -0
data/lib/word_count.rb +56 -0
data/spec/client_spec.rb +27 -0
data/spec/core_spec.rb +73 -0
data/spec/dsl_init_spec.rb +49 -0
data/spec/example_spec.rb +84 -0
data/spec/hive_like_spec.rb +57 -0
data/spec/log_analysis_spec.rb +184 -0
data/spec/mapred_factory_spec.rb +74 -0
data/spec/spec_helper.rb +10 -0
data/spec/util_spec.rb +34 -0
data/spec/word_count_spec.rb +88 -0
metadata +96 -0

data/.gitignore ADDED

	@@ -0,0 +1 @@
1	+ pkg

data/README.rdoc ADDED

@@ -0,0 +1,58 @@
+= hadoop-papyrus
+Enable to run Ruby DSL script on your Hadoop.
+== Description
+You can write DSL by Ruby to run Hadoop as Mapper / Reducer.
+This gem depends on 'jruby-on-hadoop' project.
+== Install
+Required gems are all on GemCutter.
+1. Upgrade your rubygem to 1.3.5
+2. Install gems
+ $ gem install hadoop-papyrus
+== Usage
+1. Run Hadoop cluster on your machines and put your 'hadoop' executable to your PATH or set HADOOP_HOME env variable.
+2. put files into your hdfs. ex) wc/inputs/file1
+3. Now you can run 'papyrus' like below:
+ $ papyrus examples/word_count_test.rb
+You can get Hadoop job results in your hdfs wc/outputs/part-*
+== Examples
+Word Count DSL script
+ dsl 'WordCount'
+ from 'wc/inputs'
+ to 'wc/outputs'
+ count_uniq
+ total :bytes, :words, :lines
+Log Analysis DSL script
+ dsl 'LogAnalysis'
+ data 'apache log on test2' do
+   from 'apachelog/inputs'
+   to 'apachelog/outputs'
+   each_line do
+     pattern /(.*) (.*) (.*) \[(.*)\] (".*") (\d*) (\d*) (.*) "(.*)"/
+     column_name 'remote_host', 'pass', 'user', 'access_date', 'request', 'status', 'bytes', 'pass', 'ua'
+     topic 'ua counts', :label => 'ua' do
+       count_uniq column[:ua]
+     end
+   end
+ end
+== Author
+Koichi Fujikawa <fujibee@gmail.com>
+== Copyright
+License: Apache License

data/Rakefile ADDED

@@ -0,0 +1,18 @@
+begin
+  require 'jeweler'
+  Jeweler::Tasks.new do |gemspec|
+    gemspec.name = "hadoop-papyrus"
+    gemspec.summary = "Hadoop papyrus"
+    gemspec.description = "Hadoop papyrus - Ruby DSL for Hadoop"
+    gemspec.email = "fujibee@gmail.com"
+    gemspec.homepage = "http://github.com/fujibee/hadoop-papyrus"
+    gemspec.authors = ["Koichi Fujikawa"]
+    gemspec.add_dependency 'jruby-on-hadoop'
+    gemspec.files.exclude "spec/**/*"
+  end
+  Jeweler::GemcutterTasks.new
+rescue LoadError
+  puts "Jeweler not available. Install it with: gem install jeweler"
+end

data/VERSION ADDED

	@@ -0,0 +1 @@
1	+ 0.0.6

data/bin/papyrus ADDED

@@ -0,0 +1,5 @@
+#!/usr/bin/env ruby
+require 'hadoop_dsl_client'
+HadoopDsl::Client.new(ARGV).run

data/conf/hadoop-site.xml ADDED

@@ -0,0 +1,19 @@
+<?xml version="1.0"?>
+<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
+<!-- Put site-specific property overrides in this file. -->
+<configuration>
+    <property>
+        <name>fs.default.name</name>
+        <value>hdfs://localhost:9000/</value>
+    </property>
+    <property>
+        <name>mapred.job.tracker</name>
+        <value>localhost:50040</value>
+    </property>
+    <property>
+        <name>mapred.child.java.opts</name>
+        <value>-Xmx512m</value>
+    </property>
+</configuration>

data/contrib/hudson/hadoop-hudson.sh ADDED

@@ -0,0 +1,276 @@
+#!/usr/bin/env bash
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements.  See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License.  You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# The Hadoop command script
+#
+# Environment Variables
+#
+#   JAVA_HOME        The java implementation to use.  Overrides JAVA_HOME.
+#
+#   HADOOP_CLASSPATH Extra Java CLASSPATH entries.
+#
+#   HADOOP_HEAPSIZE  The maximum amount of heap to use, in MB.
+#                    Default is 1000.
+#
+#   HADOOP_OPTS      Extra Java runtime options.
+#
+#   HADOOP_NAMENODE_OPTS       These options are added to HADOOP_OPTS
+#   HADOOP_CLIENT_OPTS         when the respective command is run.
+#   HADOOP_{COMMAND}_OPTS etc  HADOOP_JT_OPTS applies to JobTracker
+#                              for e.g.  HADOOP_CLIENT_OPTS applies to
+#                              more than one command (fs, dfs, fsck,
+#                              dfsadmin etc)
+#
+#   HADOOP_CONF_DIR  Alternate conf dir. Default is ${HADOOP_HOME}/conf.
+#
+#   HADOOP_ROOT_LOGGER The root appender. Default is INFO,console
+#
+bin=`dirname "$0"`
+bin=`cd "$bin"; pwd`
+if [ -f "$bin"/hadoop-config.sh ]; then
+  . "$bin"/hadoop-config.sh
+fi
+cygwin=false
+case "`uname`" in
+CYGWIN*) cygwin=true;;
+esac
+# if no args specified, show usage
+if [ $# = 0 ]; then
+  echo "Usage: hadoop [--config confdir] COMMAND"
+  echo "where COMMAND is one of:"
+  echo "  namenode -format     format the DFS filesystem"
+  echo "  secondarynamenode    run the DFS secondary namenode"
+  echo "  namenode             run the DFS namenode"
+  echo "  datanode             run a DFS datanode"
+  echo "  dfsadmin             run a DFS admin client"
+  echo "  fsck                 run a DFS filesystem checking utility"
+  echo "  fs                   run a generic filesystem user client"
+  echo "  balancer             run a cluster balancing utility"
+  echo "  jobtracker           run the MapReduce job Tracker node"
+  echo "  pipes                run a Pipes job"
+  echo "  tasktracker          run a MapReduce task Tracker node"
+  echo "  job                  manipulate MapReduce jobs"
+  echo "  queue                get information regarding JobQueues"
+  echo "  version              print the version"
+  echo "  jar <jar>            run a jar file"
+  echo "  distcp <srcurl> <desturl> copy file or directories recursively"
+  echo "  archive -archiveName NAME <src>* <dest> create a hadoop archive"
+  echo "  daemonlog            get/set the log level for each daemon"
+  echo " or"
+  echo "  CLASSNAME            run the class named CLASSNAME"
+  echo "Most commands print help when invoked w/o parameters."
+  exit 1
+fi
+# get arguments
+COMMAND=$1
+shift
+if [ -f "${HADOOP_CONF_DIR}/hadoop-env.sh" ]; then
+  . "${HADOOP_CONF_DIR}/hadoop-env.sh"
+fi
+# some Java parameters
+if [ "$JAVA_HOME" != "" ]; then
+  #echo "run java in $JAVA_HOME"
+  JAVA_HOME=$JAVA_HOME
+fi
+if [ "$JAVA_HOME" = "" ]; then
+  echo "Error: JAVA_HOME is not set."
+  exit 1
+fi
+JAVA=$JAVA_HOME/bin/java
+JAVA_HEAP_MAX=-Xmx1000m
+# check envvars which might override default args
+if [ "$HADOOP_HEAPSIZE" != "" ]; then
+  #echo "run with heapsize $HADOOP_HEAPSIZE"
+  JAVA_HEAP_MAX="-Xmx""$HADOOP_HEAPSIZE""m"
+  #echo $JAVA_HEAP_MAX
+fi
+# CLASSPATH initially contains $HADOOP_CONF_DIR
+CLASSPATH="${HADOOP_CONF_DIR}"
+CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar
+# for developers, add Hadoop classes to CLASSPATH
+if [ -d "$HADOOP_HOME/build/classes" ]; then
+  CLASSPATH=${CLASSPATH}:$HADOOP_HOME/build/classes
+fi
+if [ -d "$HADOOP_HOME/build/webapps" ]; then
+  CLASSPATH=${CLASSPATH}:$HADOOP_HOME/build
+fi
+if [ -d "$HADOOP_HOME/build/test/classes" ]; then
+  CLASSPATH=${CLASSPATH}:$HADOOP_HOME/build/test/classes
+fi
+if [ -d "$HADOOP_HOME/build/tools" ]; then
+  CLASSPATH=${CLASSPATH}:$HADOOP_HOME/build/tools
+fi
+# so that filenames w/ spaces are handled correctly in loops below
+IFS=
+# for releases, add core hadoop jar & webapps to CLASSPATH
+if [ -d "$HADOOP_HOME/webapps" ]; then
+  CLASSPATH=${CLASSPATH}:$HADOOP_HOME
+fi
+for f in $HADOOP_HOME/hadoop-*-core.jar; do
+  CLASSPATH=${CLASSPATH}:$f;
+done
+# add libs to CLASSPATH
+for f in $HADOOP_HOME/lib/*.jar; do
+  CLASSPATH=${CLASSPATH}:$f;
+done
+for f in $HADOOP_HOME/lib/jetty-ext/*.jar; do
+  CLASSPATH=${CLASSPATH}:$f;
+done
+for f in $HADOOP_HOME/hadoop-*-tools.jar; do
+  TOOL_PATH=${TOOL_PATH}:$f;
+done
+for f in $HADOOP_HOME/build/hadoop-*-tools.jar; do
+  TOOL_PATH=${TOOL_PATH}:$f;
+done
+# add user-specified CLASSPATH last
+if [ "$HADOOP_CLASSPATH" != "" ]; then
+  CLASSPATH=${CLASSPATH}:${HADOOP_CLASSPATH}
+fi
+# default log directory & file
+if [ "$HADOOP_LOG_DIR" = "" ]; then
+  HADOOP_LOG_DIR="$HADOOP_HOME/logs"
+fi
+if [ "$HADOOP_LOGFILE" = "" ]; then
+  HADOOP_LOGFILE='hadoop.log'
+fi
+# restore ordinary behaviour
+unset IFS
+# figure out which class to run
+if [ "$COMMAND" = "namenode" ] ; then
+  CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_NAMENODE_OPTS"
+elif [ "$COMMAND" = "secondarynamenode" ] ; then
+  CLASS='org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode'
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_SECONDARYNAMENODE_OPTS"
+elif [ "$COMMAND" = "datanode" ] ; then
+  CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode'
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_DATANODE_OPTS"
+elif [ "$COMMAND" = "fs" ] ; then
+  CLASS=org.apache.hadoop.fs.FsShell
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "dfs" ] ; then
+  CLASS=org.apache.hadoop.fs.FsShell
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "dfsadmin" ] ; then
+  CLASS=org.apache.hadoop.hdfs.tools.DFSAdmin
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "fsck" ] ; then
+  CLASS=org.apache.hadoop.hdfs.tools.DFSck
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "balancer" ] ; then
+  CLASS=org.apache.hadoop.hdfs.server.balancer.Balancer
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_BALANCER_OPTS"
+elif [ "$COMMAND" = "jobtracker" ] ; then
+  CLASS=org.apache.hadoop.mapred.JobTracker
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_JOBTRACKER_OPTS"
+elif [ "$COMMAND" = "tasktracker" ] ; then
+  CLASS=org.apache.hadoop.mapred.TaskTracker
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_TASKTRACKER_OPTS"
+elif [ "$COMMAND" = "job" ] ; then
+  CLASS=org.apache.hadoop.mapred.JobClient
+elif [ "$COMMAND" = "queue" ] ; then
+  CLASS=org.apache.hadoop.mapred.JobQueueClient
+elif [ "$COMMAND" = "pipes" ] ; then
+  CLASS=org.apache.hadoop.mapred.pipes.Submitter
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "version" ] ; then
+  CLASS=org.apache.hadoop.util.VersionInfo
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "jar" ] ; then
+  CLASS=org.apache.hadoop.mapred.JobShell
+elif [ "$COMMAND" = "distcp" ] ; then
+  CLASS=org.apache.hadoop.tools.DistCp
+  CLASSPATH=${CLASSPATH}:${TOOL_PATH}
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "daemonlog" ] ; then
+  CLASS=org.apache.hadoop.log.LogLevel
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "archive" ] ; then
+  CLASS=org.apache.hadoop.tools.HadoopArchives
+  CLASSPATH=${CLASSPATH}:${TOOL_PATH}
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+elif [ "$COMMAND" = "sampler" ] ; then
+  CLASS=org.apache.hadoop.mapred.lib.InputSampler
+  HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
+else
+  CLASS=$COMMAND
+fi
+# cygwin path translation
+if $cygwin; then
+  CLASSPATH=`cygpath -p -w "$CLASSPATH"`
+  HADOOP_HOME=`cygpath -d "$HADOOP_HOME"`
+  HADOOP_LOG_DIR=`cygpath -d "$HADOOP_LOG_DIR"`
+  TOOL_PATH=`cygpath -p -w "$TOOL_PATH"`
+fi
+# setup 'java.library.path' for native-hadoop code if necessary
+JAVA_LIBRARY_PATH=''
+if [ -d "${HADOOP_HOME}/build/native" -o -d "${HADOOP_HOME}/lib/native" ]; then
+  JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"`
+  if [ -d "$HADOOP_HOME/build/native" ]; then
+    JAVA_LIBRARY_PATH=${HADOOP_HOME}/build/native/${JAVA_PLATFORM}/lib
+  fi
+  if [ -d "${HADOOP_HOME}/lib/native" ]; then
+    if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then
+      JAVA_LIBRARY_PATH=${JAVA_LIBRARY_PATH}:${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}
+    else
+      JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}
+    fi
+  fi
+fi
+# cygwin path translation
+if $cygwin; then
+  JAVA_LIBRARY_PATH=`cygpath -p "$JAVA_LIBRARY_PATH"`
+fi
+HADOOP_OPTS="$HADOOP_OPTS -Dhadoop.log.dir=$HADOOP_LOG_DIR"
+HADOOP_OPTS="$HADOOP_OPTS -Dhadoop.log.file=$HADOOP_LOGFILE"
+HADOOP_OPTS="$HADOOP_OPTS -Dhadoop.home.dir=$HADOOP_HOME"
+HADOOP_OPTS="$HADOOP_OPTS -Dhadoop.id.str=$HADOOP_IDENT_STRING"
+HADOOP_OPTS="$HADOOP_OPTS -Dhadoop.root.logger=${HADOOP_ROOT_LOGGER:-INFO,console}"
+if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then
+  HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$JAVA_LIBRARY_PATH"
+fi
+# run it
+#echo exec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH" $CLASS "$@"
+exec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH" $CLASS "$@"

data/contrib/hudson/hadoop-ruby.sh ADDED

@@ -0,0 +1,30 @@
+#!/bin/bash
+BIN_DIR=`dirname "$0"`
+BASE_DIR=`cd $BIN_DIR/..; pwd`
+# choose hadoop sh
+HADOOP=$HADOOP_HOME/bin/hadoop
+if [ ! -f $HADOOP ]; then
+  HADOOP=$BIN_DIR/hadoop
+  #HADOOP_OPTS="--config $BASE_DIR/conf"
+fi
+# fetch jruby jar if not exist
+LIB_DIR=$BASE_DIR/lib/java
+JRUBY_JAR=jruby-complete-1.4.0.jar
+if [ ! -f "$LIB_DIR/$JRUBY_JAR" ]; then
+  wget http://jruby.kenai.com/downloads/1.4.0/jruby-complete-1.4.0.jar
+  mv $JRUBY_JAR $LIB_DIR/
+fi
+# construct command line
+HADOOP_RUBY_LIB_DIR=$BASE_DIR/lib
+export HADOOP_CLASSPATH=$HADOOP_RUBY_LIB_DIR
+for x in `ls $HADOOP_RUBY_LIB_DIR`; do
+  DSL_FILES=$HADOOP_RUBY_LIB_DIR/$x,$DSL_FILES
+done
+DSL_FILES=$DSL_FILES$1
+# execute hadoop ruby
+echo runnig $1...
+$HADOOP $HADOOP_OPTS jar $LIB_DIR/hadoop-ruby.jar org.apache.hadoop.ruby.JRubyJobRunner -libjars $LIB_DIR/$JRUBY_JAR -files $DSL_FILES $1 $2 $3

data/examples/hive_like_test.rb ADDED

@@ -0,0 +1,14 @@
+dsl 'HiveLike'
+# hive-like/items.txt
+# apple, 3, 100
+# banana, 1, 50
+create_table items(item STRING, quantity INT, price INT);
+load_data "hive-like/items.txt" items;
+select quantity, price, item from items;
+# expect
+# 0  apple 3 300
+# 1  banana 1 50

data/examples/log_analysis_test.rb ADDED

@@ -0,0 +1,43 @@
+dsl 'LogAnalysis'
+data 'apache log on test2' do
+  from 'apachelog/inputs'
+  to 'apachelog/outputs'
+  # 119.63.199.8 - - [15/Nov/2009:01:18:16 +0900] "GET /ranking/game?page=31 HTTP/1.1" 200 10077 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
+  # 203.83.243.81 - - [15/Nov/2009:01:18:33 +0900] "GET /dns_zones.txt HTTP/1.1" 404 294 "-" "libwww-perl/5.65"
+  each_line do
+    pattern /(.*) (.*) (.*) \[(.*)\] (".*") (\d*) (\d*) (.*) "(.*)"/
+    column_name 'remote_host', 'pass', 'user', 'access_date', 'request', 'status', 'bytes', 'pass', 'ua'
+    topic 'ua counts', :label => 'ua' do
+      count_uniq column[:ua]
+    end
+    topic 'count bot', :label => 'bot' do
+      ua = column[:ua].value
+      bot = ua if ua =~ /bot/i
+      count_uniq bot
+    end
+    topic 'ua counts group by path' do
+      request = column[:request].value
+      if request
+        path = request.split(/\s+/)[1]
+        group_by path
+      end
+      count_uniq column[:ua]
+    end
+    topic 'ua counts by daily' do
+#      group_date_by column[:access_date], :daily
+#      count_uniq column[:ua]
+    end
+#    topic 'total bytes' do
+#      select_date column[:access_date], BY_MONTHLY
+#      sum column[:bytes].to_kilobytes # / 1024
+#    end
+  end
+end