RubyGems - embulk-output-parquet - Versions diffs - 0.1.0 - Mend

embulk-output-parquet 0.1.0

Files changed (90) hide show

checksums.yaml +7 -0
data/.gitignore +7 -0
data/LICENSE.txt +21 -0
data/README.md +33 -0
data/build.gradle +64 -0
data/classpath/activation-1.1.jar +0 -0
data/classpath/apacheds-i18n-2.0.0-M15.jar +0 -0
data/classpath/apacheds-kerberos-codec-2.0.0-M15.jar +0 -0
data/classpath/api-asn1-api-1.0.0-M20.jar +0 -0
data/classpath/api-util-1.0.0-M20.jar +0 -0
data/classpath/avro-1.7.4.jar +0 -0
data/classpath/commons-beanutils-1.7.0.jar +0 -0
data/classpath/commons-cli-1.2.jar +0 -0
data/classpath/commons-codec-1.6.jar +0 -0
data/classpath/commons-collections-3.2.1.jar +0 -0
data/classpath/commons-compress-1.4.1.jar +0 -0
data/classpath/commons-configuration-1.6.jar +0 -0
data/classpath/commons-digester-1.8.jar +0 -0
data/classpath/commons-httpclient-3.1.jar +0 -0
data/classpath/commons-io-2.4.jar +0 -0
data/classpath/commons-lang-2.6.jar +0 -0
data/classpath/commons-logging-1.1.3.jar +0 -0
data/classpath/commons-math3-3.1.1.jar +0 -0
data/classpath/commons-net-3.1.jar +0 -0
data/classpath/curator-client-2.6.0.jar +0 -0
data/classpath/curator-framework-2.6.0.jar +0 -0
data/classpath/curator-recipes-2.6.0.jar +0 -0
data/classpath/embulk-output-parquet-0.1.0.jar +0 -0
data/classpath/gson-2.2.4.jar +0 -0
data/classpath/hadoop-annotations-2.6.0.jar +0 -0
data/classpath/hadoop-auth-2.6.0.jar +0 -0
data/classpath/hadoop-client-2.6.0.jar +0 -0
data/classpath/hadoop-common-2.6.0.jar +0 -0
data/classpath/hadoop-hdfs-2.6.0.jar +0 -0
data/classpath/hadoop-mapreduce-client-app-2.6.0.jar +0 -0
data/classpath/hadoop-mapreduce-client-common-2.6.0.jar +0 -0
data/classpath/hadoop-mapreduce-client-core-2.6.0.jar +0 -0
data/classpath/hadoop-mapreduce-client-jobclient-2.6.0.jar +0 -0
data/classpath/hadoop-mapreduce-client-shuffle-2.6.0.jar +0 -0
data/classpath/hadoop-yarn-api-2.6.0.jar +0 -0
data/classpath/hadoop-yarn-client-2.6.0.jar +0 -0
data/classpath/hadoop-yarn-common-2.6.0.jar +0 -0
data/classpath/hadoop-yarn-server-common-2.6.0.jar +0 -0
data/classpath/hadoop-yarn-server-nodemanager-2.6.0.jar +0 -0
data/classpath/htrace-core-3.0.4.jar +0 -0
data/classpath/httpclient-4.2.5.jar +0 -0
data/classpath/httpcore-4.2.4.jar +0 -0
data/classpath/jackson-core-asl-1.9.13.jar +0 -0
data/classpath/jackson-jaxrs-1.9.13.jar +0 -0
data/classpath/jackson-mapper-asl-1.9.13.jar +0 -0
data/classpath/jackson-xc-1.9.13.jar +0 -0
data/classpath/jaxb-api-2.2.2.jar +0 -0
data/classpath/jaxb-impl-2.2.3-1.jar +0 -0
data/classpath/jersey-client-1.9.jar +0 -0
data/classpath/jersey-core-1.9.jar +0 -0
data/classpath/jersey-guice-1.9.jar +0 -0
data/classpath/jersey-json-1.9.jar +0 -0
data/classpath/jersey-server-1.9.jar +0 -0
data/classpath/jettison-1.1.jar +0 -0
data/classpath/jetty-util-6.1.26.jar +0 -0
data/classpath/jline-0.9.94.jar +0 -0
data/classpath/jsr305-1.3.9.jar +0 -0
data/classpath/leveldbjni-all-1.8.jar +0 -0
data/classpath/netty-3.7.0.Final.jar +0 -0
data/classpath/paranamer-2.3.jar +0 -0
data/classpath/parquet-column-1.5.0.jar +0 -0
data/classpath/parquet-common-1.5.0.jar +0 -0
data/classpath/parquet-encoding-1.5.0.jar +0 -0
data/classpath/parquet-format-2.1.0.jar +0 -0
data/classpath/parquet-generator-1.5.0.jar +0 -0
data/classpath/parquet-hadoop-1.5.0.jar +0 -0
data/classpath/parquet-jackson-1.5.0.jar +0 -0
data/classpath/protobuf-java-2.5.0.jar +0 -0
data/classpath/servlet-api-2.5.jar +0 -0
data/classpath/snappy-java-1.1.1.6.jar +0 -0
data/classpath/stax-api-1.0-2.jar +0 -0
data/classpath/xercesImpl-2.9.1.jar +0 -0
data/classpath/xml-apis-1.3.04.jar +0 -0
data/classpath/xmlenc-0.52.jar +0 -0
data/classpath/xz-1.0.jar +0 -0
data/classpath/zookeeper-3.4.6.jar +0 -0
data/gradle/wrapper/gradle-wrapper.jar +0 -0
data/gradle/wrapper/gradle-wrapper.properties +6 -0
data/gradlew +164 -0
data/gradlew.bat +90 -0
data/lib/embulk/output/parquet.rb +3 -0
data/src/main/java/org/embulk/output/EmbulkWriteSupport.java +154 -0
data/src/main/java/org/embulk/output/ParquetOutputPlugin.java +199 -0
data/src/test/java/org/embulk/output/TestParquetOutputPlugin.java +5 -0
metadata +160 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 66f4589bf4371ed6fba6f3f52271587eb76cc457
+  data.tar.gz: 6d5bd8a010ec341b9a5d0b37a3e0c5a7e15770ae
+SHA512:
+  metadata.gz: abc657f97ba0791f170c40f4c7d7f0248fa4147b1c90803f4b1cdc37f43b60905eeed60523b178e3a0cce9d7cad9f082d2a98af0de090bc7a6b308c95f3de972
+  data.tar.gz: b279faf534596db8366b89a92440242218718369e04a67960e34bbd8b5b18b47d40bfb31f3aa04812bc607b5be5146ee76934bec43f1f176f15f563d0ca290e9

data/.gitignore ADDED Viewed

@@ -0,0 +1,7 @@
+*~
+/pkg/
+/tmp/
+.gradle/
+/classpath/
+build/
+.idea

data/LICENSE.txt ADDED Viewed

@@ -0,0 +1,21 @@
+MIT License
+Permission is hereby granted, free of charge, to any person obtaining
+a copy of this software and associated documentation files (the
+"Software"), to deal in the Software without restriction, including
+without limitation the rights to use, copy, modify, merge, publish,
+distribute, sublicense, and/or sell copies of the Software, and to
+permit persons to whom the Software is furnished to do so, subject to
+the following conditions:
+The above copyright notice and this permission notice shall be
+included in all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
+EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
+NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
+LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

data/README.md ADDED Viewed

@@ -0,0 +1,33 @@
+# Parquet output plugin for Embulk
+## Overview
+* **Plugin type**: output
+* **Load all or nothing**: no
+* **Resume supported**: no
+* **Cleanup supported**: no
+## Configuration
+- **path_prefix**: A prefix of output path. This is hadoop Path URI, and you can also include `scheme` and `authority` within this parameter. (string, required)
+- **file_ext**: An extension of output path. (string, default: .parquet)
+- **sequence_format**: (string, default: .%03d)
+- **block_size**: A block size of parquet file. (int, default: 134217728(128M))
+- **page_size**: A page size of parquet file. (int, default: 1048576(1M))
+- **compression_codec**: A compression codec. available: UNCOMPRESSED, SNAPPY, GZIP (string, default: UNCOMPRESSED)
+- **timezone**: A timezone for timestamp format. (string, default: UTC)
+## Example
+```yaml
+out:
+  type: parquet
+  path_prefix: file:///data/output
+```
+## Build
+```
+$ ./gradlew gem
+```

data/build.gradle ADDED Viewed

@@ -0,0 +1,64 @@
+plugins {
+    id "com.jfrog.bintray" version "1.1"
+    id "com.github.jruby-gradle.base" version "0.1.5"
+    id "java"
+}
+import com.github.jrubygradle.JRubyExec
+repositories {
+    mavenCentral()
+    jcenter()
+    maven {
+        url "http://maven.twttr.com/"
+    }
+}
+configurations {
+    provided
+}
+version = "0.1.0"
+dependencies {
+    compile  "org.embulk:embulk-core:0.4.2"
+    provided "org.embulk:embulk-core:0.4.2"
+    compile "com.twitter:parquet-hadoop:1.5.0"
+    compile "org.apache.hadoop:hadoop-client:2.6.0"
+    compile "org.xerial.snappy:snappy-java:1.1.1.6"
+    testCompile "junit:junit:4.+"
+}
+task classpath(type: Copy, dependsOn: ["jar"]) {
+    doFirst { file("classpath").deleteDir() }
+    from (configurations.runtime - configurations.provided + files(jar.archivePath))
+    into "classpath"
+}
+clean { delete 'classpath' }
+task gem(type: JRubyExec, dependsOn: ["build", "gemspec", "classpath"]) {
+    jrubyArgs "-rrubygems/gem_runner", "-eGem::GemRunner.new.run(ARGV)", "build"
+    script "build/gemspec"
+    doLast { ant.move(file: "${project.name}-${project.version}.gem", todir: "pkg") }
+}
+task gemspec << { file("build/gemspec").write($/
+Gem::Specification.new do |spec|
+  spec.name          = "${project.name}"
+  spec.version       = "${project.version}"
+  spec.authors       = ["OKUNO Akihiro"]
+  spec.summary       = %[Parquet output plugin for Embulk]
+  spec.description   = %[Parquet output plugin is an Embulk plugin that loads records to Parquet read by any input plugins. Search the input plugins by "embulk-input" keyword.]
+  spec.email         = ["choplin.choplin@gmail.com"]
+  spec.licenses      = ["MIT"]
+  spec.homepage      = "https://github.com/choplin/embulk-output-parquet"
+  spec.files         = `git ls-files`.split("\n") + Dir["classpath/*.jar"]
+  spec.test_files    = spec.files.grep(%r"^(test|spec)/")
+  spec.require_paths = ["lib"]
+  #spec.add_dependency 'YOUR_GEM_DEPENDENCY', ['~> YOUR_GEM_DEPENDENCY_VERSION']
+  spec.add_development_dependency 'bundler', ['~> 1.0']
+  spec.add_development_dependency 'rake', ['>= 10.0']
+end
+/$)
+}

data/classpath/activation-1.1.jar ADDED Viewed

Binary file

data/classpath/apacheds-i18n-2.0.0-M15.jar ADDED Viewed

Binary file

data/classpath/apacheds-kerberos-codec-2.0.0-M15.jar ADDED Viewed

Binary file

data/classpath/api-asn1-api-1.0.0-M20.jar ADDED Viewed

Binary file

data/classpath/api-util-1.0.0-M20.jar ADDED Viewed

Binary file

data/classpath/avro-1.7.4.jar ADDED Viewed

Binary file

data/classpath/commons-beanutils-1.7.0.jar ADDED Viewed

Binary file

data/classpath/commons-cli-1.2.jar ADDED Viewed

Binary file

data/classpath/commons-codec-1.6.jar ADDED Viewed

Binary file

data/classpath/commons-collections-3.2.1.jar ADDED Viewed

Binary file

data/classpath/commons-compress-1.4.1.jar ADDED Viewed

Binary file

data/classpath/commons-configuration-1.6.jar ADDED Viewed

Binary file

data/classpath/commons-digester-1.8.jar ADDED Viewed

Binary file

data/classpath/commons-httpclient-3.1.jar ADDED Viewed

Binary file

data/classpath/commons-io-2.4.jar ADDED Viewed

Binary file

data/classpath/commons-lang-2.6.jar ADDED Viewed

Binary file

data/classpath/commons-logging-1.1.3.jar ADDED Viewed

Binary file

data/classpath/commons-math3-3.1.1.jar ADDED Viewed

Binary file

data/classpath/commons-net-3.1.jar ADDED Viewed

Binary file

data/classpath/curator-client-2.6.0.jar ADDED Viewed

Binary file

data/classpath/curator-framework-2.6.0.jar ADDED Viewed

Binary file

data/classpath/curator-recipes-2.6.0.jar ADDED Viewed

Binary file

data/classpath/embulk-output-parquet-0.1.0.jar ADDED Viewed

Binary file

data/classpath/gson-2.2.4.jar ADDED Viewed

Binary file

data/classpath/hadoop-annotations-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-auth-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-client-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-common-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-hdfs-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-mapreduce-client-app-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-mapreduce-client-common-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-mapreduce-client-core-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-mapreduce-client-jobclient-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-mapreduce-client-shuffle-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-yarn-api-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-yarn-client-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-yarn-common-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-yarn-server-common-2.6.0.jar ADDED Viewed

Binary file

data/classpath/hadoop-yarn-server-nodemanager-2.6.0.jar ADDED Viewed

Binary file

data/classpath/htrace-core-3.0.4.jar ADDED Viewed

Binary file

data/classpath/httpclient-4.2.5.jar ADDED Viewed

Binary file

data/classpath/httpcore-4.2.4.jar ADDED Viewed

Binary file

data/classpath/jackson-core-asl-1.9.13.jar ADDED Viewed

Binary file

data/classpath/jackson-jaxrs-1.9.13.jar ADDED Viewed

Binary file

data/classpath/jackson-mapper-asl-1.9.13.jar ADDED Viewed

Binary file

data/classpath/jackson-xc-1.9.13.jar ADDED Viewed

Binary file

data/classpath/jaxb-api-2.2.2.jar ADDED Viewed

Binary file

data/classpath/jaxb-impl-2.2.3-1.jar ADDED Viewed

Binary file

data/classpath/jersey-client-1.9.jar ADDED Viewed

Binary file

data/classpath/jersey-core-1.9.jar ADDED Viewed

Binary file

data/classpath/jersey-guice-1.9.jar ADDED Viewed

Binary file

data/classpath/jersey-json-1.9.jar ADDED Viewed

Binary file

data/classpath/jersey-server-1.9.jar ADDED Viewed

Binary file

data/classpath/jettison-1.1.jar ADDED Viewed

Binary file

data/classpath/jetty-util-6.1.26.jar ADDED Viewed

Binary file

data/classpath/jline-0.9.94.jar ADDED Viewed

Binary file

data/classpath/jsr305-1.3.9.jar ADDED Viewed

Binary file

data/classpath/leveldbjni-all-1.8.jar ADDED Viewed

Binary file

data/classpath/netty-3.7.0.Final.jar ADDED Viewed

Binary file

data/classpath/paranamer-2.3.jar ADDED Viewed

Binary file

data/classpath/parquet-column-1.5.0.jar ADDED Viewed

Binary file

data/classpath/parquet-common-1.5.0.jar ADDED Viewed

Binary file

data/classpath/parquet-encoding-1.5.0.jar ADDED Viewed

Binary file

data/classpath/parquet-format-2.1.0.jar ADDED Viewed

Binary file

data/classpath/parquet-generator-1.5.0.jar ADDED Viewed

Binary file

data/classpath/parquet-hadoop-1.5.0.jar ADDED Viewed

Binary file

data/classpath/parquet-jackson-1.5.0.jar ADDED Viewed

Binary file

data/classpath/protobuf-java-2.5.0.jar ADDED Viewed

Binary file

data/classpath/servlet-api-2.5.jar ADDED Viewed

Binary file

data/classpath/snappy-java-1.1.1.6.jar ADDED Viewed

Binary file

data/classpath/stax-api-1.0-2.jar ADDED Viewed

Binary file

data/classpath/xercesImpl-2.9.1.jar ADDED Viewed

Binary file

data/classpath/xml-apis-1.3.04.jar ADDED Viewed

Binary file

data/classpath/xmlenc-0.52.jar ADDED Viewed

Binary file

data/classpath/xz-1.0.jar ADDED Viewed

Binary file

data/classpath/zookeeper-3.4.6.jar ADDED Viewed

Binary file

data/gradle/wrapper/gradle-wrapper.jar ADDED Viewed

Binary file

data/gradle/wrapper/gradle-wrapper.properties ADDED Viewed

@@ -0,0 +1,6 @@
+#Mon Feb 16 18:53:39 JST 2015
+distributionBase=GRADLE_USER_HOME
+distributionPath=wrapper/dists
+zipStoreBase=GRADLE_USER_HOME
+zipStorePath=wrapper/dists
+distributionUrl=https\://services.gradle.org/distributions/gradle-2.2.1-all.zip

data/gradlew ADDED Viewed

@@ -0,0 +1,164 @@
+#!/usr/bin/env bash
+##############################################################################
+##
+##  Gradle start up script for UN*X
+##
+##############################################################################
+# Add default JVM options here. You can also use JAVA_OPTS and GRADLE_OPTS to pass JVM options to this script.
+DEFAULT_JVM_OPTS=""
+APP_NAME="Gradle"
+APP_BASE_NAME=`basename "$0"`
+# Use the maximum available, or set MAX_FD != -1 to use that value.
+MAX_FD="maximum"
+warn ( ) {
+    echo "$*"
+}
+die ( ) {
+    echo
+    echo "$*"
+    echo
+    exit 1
+}
+# OS specific support (must be 'true' or 'false').
+cygwin=false
+msys=false
+darwin=false
+case "`uname`" in
+  CYGWIN* )
+    cygwin=true
+    ;;
+  Darwin* )
+    darwin=true
+    ;;
+  MINGW* )
+    msys=true
+    ;;
+esac
+# For Cygwin, ensure paths are in UNIX format before anything is touched.
+if $cygwin ; then
+    [ -n "$JAVA_HOME" ] && JAVA_HOME=`cygpath --unix "$JAVA_HOME"`
+fi
+# Attempt to set APP_HOME
+# Resolve links: $0 may be a link
+PRG="$0"
+# Need this for relative symlinks.
+while [ -h "$PRG" ] ; do
+    ls=`ls -ld "$PRG"`
+    link=`expr "$ls" : '.*-> \(.*\)$'`
+    if expr "$link" : '/.*' > /dev/null; then
+        PRG="$link"
+    else
+        PRG=`dirname "$PRG"`"/$link"
+    fi
+done
+SAVED="`pwd`"
+cd "`dirname \"$PRG\"`/" >&-
+APP_HOME="`pwd -P`"
+cd "$SAVED" >&-
+CLASSPATH=$APP_HOME/gradle/wrapper/gradle-wrapper.jar
+# Determine the Java command to use to start the JVM.
+if [ -n "$JAVA_HOME" ] ; then
+    if [ -x "$JAVA_HOME/jre/sh/java" ] ; then
+        # IBM's JDK on AIX uses strange locations for the executables
+        JAVACMD="$JAVA_HOME/jre/sh/java"
+    else
+        JAVACMD="$JAVA_HOME/bin/java"
+    fi
+    if [ ! -x "$JAVACMD" ] ; then
+        die "ERROR: JAVA_HOME is set to an invalid directory: $JAVA_HOME
+Please set the JAVA_HOME variable in your environment to match the
+location of your Java installation."
+    fi
+else
+    JAVACMD="java"
+    which java >/dev/null 2>&1 || die "ERROR: JAVA_HOME is not set and no 'java' command could be found in your PATH.
+Please set the JAVA_HOME variable in your environment to match the
+location of your Java installation."
+fi
+# Increase the maximum file descriptors if we can.
+if [ "$cygwin" = "false" -a "$darwin" = "false" ] ; then
+    MAX_FD_LIMIT=`ulimit -H -n`
+    if [ $? -eq 0 ] ; then
+        if [ "$MAX_FD" = "maximum" -o "$MAX_FD" = "max" ] ; then
+            MAX_FD="$MAX_FD_LIMIT"
+        fi
+        ulimit -n $MAX_FD
+        if [ $? -ne 0 ] ; then
+            warn "Could not set maximum file descriptor limit: $MAX_FD"
+        fi
+    else
+        warn "Could not query maximum file descriptor limit: $MAX_FD_LIMIT"
+    fi
+fi
+# For Darwin, add options to specify how the application appears in the dock
+if $darwin; then
+    GRADLE_OPTS="$GRADLE_OPTS \"-Xdock:name=$APP_NAME\" \"-Xdock:icon=$APP_HOME/media/gradle.icns\""
+fi
+# For Cygwin, switch paths to Windows format before running java
+if $cygwin ; then
+    APP_HOME=`cygpath --path --mixed "$APP_HOME"`
+    CLASSPATH=`cygpath --path --mixed "$CLASSPATH"`
+    # We build the pattern for arguments to be converted via cygpath
+    ROOTDIRSRAW=`find -L / -maxdepth 1 -mindepth 1 -type d 2>/dev/null`
+    SEP=""
+    for dir in $ROOTDIRSRAW ; do
+        ROOTDIRS="$ROOTDIRS$SEP$dir"
+        SEP="|"
+    done
+    OURCYGPATTERN="(^($ROOTDIRS))"
+    # Add a user-defined pattern to the cygpath arguments
+    if [ "$GRADLE_CYGPATTERN" != "" ] ; then
+        OURCYGPATTERN="$OURCYGPATTERN|($GRADLE_CYGPATTERN)"
+    fi
+    # Now convert the arguments - kludge to limit ourselves to /bin/sh
+    i=0
+    for arg in "$@" ; do
+        CHECK=`echo "$arg"|egrep -c "$OURCYGPATTERN" -`
+        CHECK2=`echo "$arg"|egrep -c "^-"`                                 ### Determine if an option
+        if [ $CHECK -ne 0 ] && [ $CHECK2 -eq 0 ] ; then                    ### Added a condition
+            eval `echo args$i`=`cygpath --path --ignore --mixed "$arg"`
+        else
+            eval `echo args$i`="\"$arg\""
+        fi
+        i=$((i+1))
+    done
+    case $i in
+        (0) set -- ;;
+        (1) set -- "$args0" ;;
+        (2) set -- "$args0" "$args1" ;;
+        (3) set -- "$args0" "$args1" "$args2" ;;
+        (4) set -- "$args0" "$args1" "$args2" "$args3" ;;
+        (5) set -- "$args0" "$args1" "$args2" "$args3" "$args4" ;;
+        (6) set -- "$args0" "$args1" "$args2" "$args3" "$args4" "$args5" ;;
+        (7) set -- "$args0" "$args1" "$args2" "$args3" "$args4" "$args5" "$args6" ;;
+        (8) set -- "$args0" "$args1" "$args2" "$args3" "$args4" "$args5" "$args6" "$args7" ;;
+        (9) set -- "$args0" "$args1" "$args2" "$args3" "$args4" "$args5" "$args6" "$args7" "$args8" ;;
+    esac
+fi
+# Split up the JVM_OPTS And GRADLE_OPTS values into an array, following the shell quoting and substitution rules
+function splitJvmOpts() {
+    JVM_OPTS=("$@")
+}
+eval splitJvmOpts $DEFAULT_JVM_OPTS $JAVA_OPTS $GRADLE_OPTS
+JVM_OPTS[${#JVM_OPTS[*]}]="-Dorg.gradle.appname=$APP_BASE_NAME"
+exec "$JAVACMD" "${JVM_OPTS[@]}" -classpath "$CLASSPATH" org.gradle.wrapper.GradleWrapperMain "$@"

data/gradlew.bat ADDED Viewed

@@ -0,0 +1,90 @@
+@if "%DEBUG%" == "" @echo off
+@rem ##########################################################################
+@rem
+@rem  Gradle startup script for Windows
+@rem
+@rem ##########################################################################
+@rem Set local scope for the variables with windows NT shell
+if "%OS%"=="Windows_NT" setlocal
+@rem Add default JVM options here. You can also use JAVA_OPTS and GRADLE_OPTS to pass JVM options to this script.
+set DEFAULT_JVM_OPTS=
+set DIRNAME=%~dp0
+if "%DIRNAME%" == "" set DIRNAME=.
+set APP_BASE_NAME=%~n0
+set APP_HOME=%DIRNAME%
+@rem Find java.exe
+if defined JAVA_HOME goto findJavaFromJavaHome
+set JAVA_EXE=java.exe
+%JAVA_EXE% -version >NUL 2>&1
+if "%ERRORLEVEL%" == "0" goto init
+echo.
+echo ERROR: JAVA_HOME is not set and no 'java' command could be found in your PATH.
+echo.
+echo Please set the JAVA_HOME variable in your environment to match the
+echo location of your Java installation.
+goto fail
+:findJavaFromJavaHome
+set JAVA_HOME=%JAVA_HOME:"=%
+set JAVA_EXE=%JAVA_HOME%/bin/java.exe
+if exist "%JAVA_EXE%" goto init
+echo.
+echo ERROR: JAVA_HOME is set to an invalid directory: %JAVA_HOME%
+echo.
+echo Please set the JAVA_HOME variable in your environment to match the
+echo location of your Java installation.
+goto fail
+:init
+@rem Get command-line arguments, handling Windowz variants
+if not "%OS%" == "Windows_NT" goto win9xME_args
+if "%@eval[2+2]" == "4" goto 4NT_args
+:win9xME_args
+@rem Slurp the command line arguments.
+set CMD_LINE_ARGS=
+set _SKIP=2
+:win9xME_args_slurp
+if "x%~1" == "x" goto execute
+set CMD_LINE_ARGS=%*
+goto execute
+:4NT_args
+@rem Get arguments from the 4NT Shell from JP Software
+set CMD_LINE_ARGS=%$
+:execute
+@rem Setup the command line
+set CLASSPATH=%APP_HOME%\gradle\wrapper\gradle-wrapper.jar
+@rem Execute Gradle
+"%JAVA_EXE%" %DEFAULT_JVM_OPTS% %JAVA_OPTS% %GRADLE_OPTS% "-Dorg.gradle.appname=%APP_BASE_NAME%" -classpath "%CLASSPATH%" org.gradle.wrapper.GradleWrapperMain %CMD_LINE_ARGS%
+:end
+@rem End local scope for the variables with windows NT shell
+if "%ERRORLEVEL%"=="0" goto mainEnd
+:fail
+rem Set variable GRADLE_EXIT_CONSOLE if you need the _script_ return code instead of
+rem the _cmd.exe /c_ return code!
+if  not "" == "%GRADLE_EXIT_CONSOLE%" exit 1
+exit /b 1
+:mainEnd
+if "%OS%"=="Windows_NT" endlocal
+:omega

data/lib/embulk/output/parquet.rb ADDED Viewed

@@ -0,0 +1,3 @@
+Embulk::JavaPlugin.register_output(
+  :parquet, "org.embulk.output.ParquetOutputPlugin",
+  File.expand_path('../../../../classpath', __FILE__))

data/src/main/java/org/embulk/output/EmbulkWriteSupport.java ADDED Viewed

@@ -0,0 +1,154 @@
+package org.embulk.output;
+import org.apache.hadoop.conf.Configuration;
+import org.embulk.spi.Column;
+import org.embulk.spi.ColumnVisitor;
+import org.embulk.spi.PageReader;
+import org.embulk.spi.Schema;
+import org.embulk.spi.time.Timestamp;
+import org.embulk.spi.time.TimestampFormatter;
+import parquet.hadoop.api.WriteSupport;
+import parquet.io.api.Binary;
+import parquet.io.api.RecordConsumer;
+import parquet.schema.MessageType;
+import parquet.schema.PrimitiveType;
+import parquet.schema.PrimitiveType.PrimitiveTypeName;
+import parquet.schema.Type;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+public class EmbulkWriteSupport extends WriteSupport<PageReader> {
+    final Schema schema;
+    RecordConsumer consumer;
+    WriteContext writeContext;
+    Map<Integer, TimestampFormatter> timestampFormatters;
+    public EmbulkWriteSupport(Schema schema, Map<Integer, TimestampFormatter> timestampFormatters) {
+        this.schema = schema;
+        this.timestampFormatters = timestampFormatters;
+    }
+    @Override
+    public WriteContext init(Configuration configuration) {
+        if (writeContext == null) {
+            init();
+        }
+        return writeContext;
+    }
+    @Override
+    public void prepareForWrite(RecordConsumer recordConsumer) {
+        this.consumer = recordConsumer;
+    }
+    @Override
+    public void write(PageReader record) {
+        final ColumnVisitor visitor = new ParquetColumnVisitor(record, consumer);
+        consumer.startMessage();
+        for (Column c : schema.getColumns()) {
+            if (!record.isNull(c)) {
+                consumer.startField(c.getName(), c.getIndex());
+                c.visit(visitor);
+                consumer.endField(c.getName(), c.getIndex());
+            }
+        }
+        consumer.endMessage();
+    }
+    private void init() {
+        MessageType messageType = convertSchema(schema);
+        Map<String, String> metadata = new HashMap<>();
+        writeContext = new WriteContext(messageType, metadata);
+    }
+    private MessageType convertSchema(Schema schema) {
+        SchemaConvertColumnVisitor visitor = new SchemaConvertColumnVisitor();
+        schema.visitColumns(visitor);
+        String messageName = "embulk";
+        return new MessageType(messageName, visitor.getConvertedFields());
+    }
+    class ParquetColumnVisitor implements ColumnVisitor {
+        final PageReader record;
+        final RecordConsumer consumer;
+        public ParquetColumnVisitor(PageReader record, RecordConsumer consumer) {
+            this.record = record;
+            this.consumer = consumer;
+        }
+        @Override
+        public void booleanColumn(Column column) {
+            if (!record.isNull(column)) {
+                consumer.addBoolean(record.getBoolean(column));
+            }
+        }
+        @Override
+        public void longColumn(Column column) {
+            if (!record.isNull(column)) {
+                consumer.addLong(record.getLong(column));
+            }
+        }
+        @Override
+        public void doubleColumn(Column column) {
+            if (!record.isNull(column)) {
+                consumer.addDouble(record.getDouble(column));
+            }
+        }
+        @Override
+        public void stringColumn(Column column) {
+            if (!record.isNull(column)) {
+                consumer.addBinary(Binary.fromString(record.getString(column)));
+            }
+        }
+        @Override
+        public void timestampColumn(Column column) {
+            if (!record.isNull(column)) {
+                Timestamp t = record.getTimestamp(column);
+                String formatted = timestampFormatters.get(column.getIndex()).format(t);
+                consumer.addBinary(Binary.fromString(formatted));
+            }
+        }
+    }
+    class SchemaConvertColumnVisitor implements ColumnVisitor {
+        List<Type> fields = new ArrayList<>();
+        @Override
+        public void booleanColumn(Column column) {
+            fields.add(new PrimitiveType(Type.Repetition.OPTIONAL, PrimitiveTypeName.BOOLEAN, column.getName()));
+        }
+        @Override
+        public void longColumn(Column column) {
+            fields.add(new PrimitiveType(Type.Repetition.OPTIONAL, PrimitiveTypeName.INT64, column.getName()));
+        }
+        @Override
+        public void doubleColumn(Column column) {
+            fields.add(new PrimitiveType(Type.Repetition.OPTIONAL, PrimitiveTypeName.DOUBLE, column.getName()));
+        }
+        @Override
+        public void stringColumn(Column column) {
+            fields.add(new PrimitiveType(Type.Repetition.OPTIONAL, PrimitiveTypeName.BINARY, column.getName()));
+        }
+        @Override
+        public void timestampColumn(Column column) {
+            // formatted as string
+            fields.add(new PrimitiveType(Type.Repetition.OPTIONAL, PrimitiveTypeName.BINARY, column.getName()));
+        }
+        public List<Type> getConvertedFields() {
+            return fields;
+        }
+    }
+}

data/src/main/java/org/embulk/output/ParquetOutputPlugin.java ADDED Viewed

@@ -0,0 +1,199 @@
+package org.embulk.output;
+import java.io.IOException;
+import java.util.List;
+import java.util.Map;
+import com.google.common.base.Throwables;
+import com.google.common.collect.ImmutableBiMap;
+import com.google.common.collect.ImmutableMap;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.LocalFileSystem;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.hdfs.DistributedFileSystem;
+import org.embulk.config.CommitReport;
+import org.embulk.config.Config;
+import org.embulk.config.ConfigDefault;
+import org.embulk.config.ConfigDiff;
+import org.embulk.config.ConfigSource;
+import org.embulk.config.Task;
+import org.embulk.config.TaskSource;
+import org.embulk.spi.Column;
+import org.embulk.spi.Exec;
+import org.embulk.spi.OutputPlugin;
+import org.embulk.spi.Page;
+import org.embulk.spi.PageReader;
+import org.embulk.spi.Schema;
+import org.embulk.spi.TransactionalPageOutput;
+import org.embulk.spi.time.TimestampFormatter;
+import org.embulk.spi.type.TimestampType;
+import parquet.hadoop.ParquetWriter;
+import parquet.hadoop.api.WriteSupport;
+import parquet.hadoop.metadata.CompressionCodecName;
+@SuppressWarnings("unused")
+public class ParquetOutputPlugin
+        implements OutputPlugin
+{
+    public interface PluginTask
+            extends Task, TimestampFormatter.FormatterTask
+    {
+        @Config("path_prefix")
+        public String getPathPrefix();
+        @Config("file_ext")
+        @ConfigDefault("\".parquet\"")
+        public String getFileNameExtension();
+        @Config("sequence_format")
+        @ConfigDefault("\".%03d\"")
+        public String getSequenceFormat();
+        @Config("block_size")
+        @ConfigDefault("134217728") // 128M
+        public int getBlockSize();
+        @Config("page_size")
+        @ConfigDefault("1048576") // 1M
+        public int getPageSize();
+        @Config("compression_codec")
+        @ConfigDefault("\"UNCOMPRESSED\"")
+        public String getCompressionCodec();
+    }
+    public ConfigDiff transaction(ConfigSource config,
+            Schema schema, int processorCount,
+            OutputPlugin.Control control)
+    {
+        PluginTask task = config.loadConfig(PluginTask.class);
+        //TODO
+        control.run(task.dump());
+        return Exec.newConfigDiff();
+    }
+    public ConfigDiff resume(TaskSource taskSource,
+            Schema schema, int processorCount,
+            OutputPlugin.Control control)
+    {
+        throw new UnsupportedOperationException("parquet output plugin does not support resuming");
+    }
+    public void cleanup(TaskSource taskSource,
+            Schema schema, int processorCount,
+            List<CommitReport> successCommitReports)
+    {
+        //TODO
+    }
+    public TransactionalPageOutput open(TaskSource taskSource, final Schema schema, int processorIndex)
+    {
+        PluginTask task = taskSource.loadTask(PluginTask.class);
+        final String pathPrefix = task.getPathPrefix();
+        final String pathSuffix = task.getFileNameExtension();
+        final String sequenceFormat = task.getSequenceFormat();
+        final CompressionCodecName codec = CompressionCodecName.valueOf(task.getCompressionCodec());
+        final int blockSize = task.getBlockSize();
+        final int pageSize = task.getPageSize();
+        final String path = pathPrefix + String.format(sequenceFormat, processorIndex) + pathSuffix;
+        final PageReader reader = new PageReader(schema);
+        final Map<Integer, TimestampFormatter> timestampFormatters = newTimestampFormatters(task, schema);
+        final EmbulkWriteSupport writeSupport = new EmbulkWriteSupport(schema, timestampFormatters);
+        ParquetWriter<PageReader> writer = createParquetWriter(new Path(path), writeSupport, codec, blockSize, pageSize);
+        return new ParquetTransactionalPageOutput(reader, writer);
+    }
+    private Map<Integer, TimestampFormatter> newTimestampFormatters(
+            TimestampFormatter.FormatterTask task, Schema schema)
+    {
+        ImmutableMap.Builder<Integer, TimestampFormatter> builder = new ImmutableBiMap.Builder<>();
+        for (Column column : schema.getColumns()) {
+            if (column.getType() instanceof TimestampType) {
+                TimestampType tt = (TimestampType) column.getType();
+                builder.put(column.getIndex(), new TimestampFormatter(tt.getFormat(), task));
+            }
+        }
+        return builder.build();
+    }
+    private <T> ParquetWriter<T> createParquetWriter(Path path, WriteSupport<T> writeSupport, CompressionCodecName codec, int blockSize, int pageSize) {
+        ParquetWriter<T> writer = null;
+        Configuration conf = new Configuration();
+        conf.set("fs.hdfs.impl", DistributedFileSystem.class.getName());
+        conf.set("fs.file.impl", LocalFileSystem.class.getName());
+        conf.setClassLoader(this.getClass().getClassLoader());
+        try {
+            writer = new ParquetWriter<>(
+                    path,
+                    writeSupport,
+                    codec,
+                    blockSize,
+                    pageSize,
+                    pageSize,
+                    ParquetWriter.DEFAULT_IS_DICTIONARY_ENABLED,
+                    ParquetWriter.DEFAULT_IS_VALIDATING_ENABLED,
+                    ParquetWriter.DEFAULT_WRITER_VERSION,
+                    conf);
+        } catch (IOException e) {
+            Throwables.propagate(e);
+        }
+        return writer;
+    }
+    class ParquetTransactionalPageOutput implements TransactionalPageOutput {
+        private PageReader reader;
+        private ParquetWriter<PageReader> writer;
+        public ParquetTransactionalPageOutput(PageReader reader, ParquetWriter<PageReader> writer) {
+            this.reader = reader;
+            this.writer = writer;
+        }
+        @Override
+        public void add(Page page) {
+            try {
+                reader.setPage(page);
+                while (reader.nextRecord()) {
+                    writer.write(reader);
+                }
+            } catch(IOException e) {
+                Throwables.propagate(e);
+            }
+        }
+        @Override
+        public void finish() {
+            try {
+                writer.close();
+                writer = null;
+            } catch (IOException e) {
+                Throwables.propagate(e);
+            }
+        }
+        @Override
+        public void close() {
+            //TODO
+        }
+        @Override
+        public void abort() {
+            //TODO
+        }
+        @Override
+        public CommitReport commit() {
+            return Exec.newCommitReport();
+            //TODO
+        }
+    }
+}

data/src/test/java/org/embulk/output/TestParquetOutputPlugin.java ADDED Viewed

@@ -0,0 +1,5 @@
+package org.embulk.output;
+public class TestParquetOutputPlugin
+{
+}

metadata ADDED Viewed

@@ -0,0 +1,160 @@
+--- !ruby/object:Gem::Specification
+name: embulk-output-parquet
+version: !ruby/object:Gem::Version
+  version: 0.1.0
+platform: ruby
+authors:
+- OKUNO Akihiro
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2015-02-17 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: '1.0'
+  name: bundler
+  prerelease: false
+  type: :development
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: '1.0'
+- !ruby/object:Gem::Dependency
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '10.0'
+  name: rake
+  prerelease: false
+  type: :development
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - '>='
+      - !ruby/object:Gem::Version
+        version: '10.0'
+description: Parquet output plugin is an Embulk plugin that loads records to Parquet read by any input plugins. Search the input plugins by "embulk-input" keyword.
+email:
+- choplin.choplin@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- .gitignore
+- LICENSE.txt
+- README.md
+- build.gradle
+- gradle/wrapper/gradle-wrapper.jar
+- gradle/wrapper/gradle-wrapper.properties
+- gradlew
+- gradlew.bat
+- lib/embulk/output/parquet.rb
+- src/main/java/org/embulk/output/EmbulkWriteSupport.java
+- src/main/java/org/embulk/output/ParquetOutputPlugin.java
+- src/test/java/org/embulk/output/TestParquetOutputPlugin.java
+- classpath/activation-1.1.jar
+- classpath/apacheds-i18n-2.0.0-M15.jar
+- classpath/apacheds-kerberos-codec-2.0.0-M15.jar
+- classpath/api-asn1-api-1.0.0-M20.jar
+- classpath/api-util-1.0.0-M20.jar
+- classpath/avro-1.7.4.jar
+- classpath/commons-beanutils-1.7.0.jar
+- classpath/commons-cli-1.2.jar
+- classpath/commons-codec-1.6.jar
+- classpath/commons-collections-3.2.1.jar
+- classpath/commons-compress-1.4.1.jar
+- classpath/commons-configuration-1.6.jar
+- classpath/commons-digester-1.8.jar
+- classpath/commons-httpclient-3.1.jar
+- classpath/commons-io-2.4.jar
+- classpath/commons-lang-2.6.jar
+- classpath/commons-logging-1.1.3.jar
+- classpath/commons-math3-3.1.1.jar
+- classpath/commons-net-3.1.jar
+- classpath/curator-client-2.6.0.jar
+- classpath/curator-framework-2.6.0.jar
+- classpath/curator-recipes-2.6.0.jar
+- classpath/embulk-output-parquet-0.1.0.jar
+- classpath/gson-2.2.4.jar
+- classpath/hadoop-annotations-2.6.0.jar
+- classpath/hadoop-auth-2.6.0.jar
+- classpath/hadoop-client-2.6.0.jar
+- classpath/hadoop-common-2.6.0.jar
+- classpath/hadoop-hdfs-2.6.0.jar
+- classpath/hadoop-mapreduce-client-app-2.6.0.jar
+- classpath/hadoop-mapreduce-client-common-2.6.0.jar
+- classpath/hadoop-mapreduce-client-core-2.6.0.jar
+- classpath/hadoop-mapreduce-client-jobclient-2.6.0.jar
+- classpath/hadoop-mapreduce-client-shuffle-2.6.0.jar
+- classpath/hadoop-yarn-api-2.6.0.jar
+- classpath/hadoop-yarn-client-2.6.0.jar
+- classpath/hadoop-yarn-common-2.6.0.jar
+- classpath/hadoop-yarn-server-common-2.6.0.jar
+- classpath/hadoop-yarn-server-nodemanager-2.6.0.jar
+- classpath/htrace-core-3.0.4.jar
+- classpath/httpclient-4.2.5.jar
+- classpath/httpcore-4.2.4.jar
+- classpath/jackson-core-asl-1.9.13.jar
+- classpath/jackson-jaxrs-1.9.13.jar
+- classpath/jackson-mapper-asl-1.9.13.jar
+- classpath/jackson-xc-1.9.13.jar
+- classpath/jaxb-api-2.2.2.jar
+- classpath/jaxb-impl-2.2.3-1.jar
+- classpath/jersey-client-1.9.jar
+- classpath/jersey-core-1.9.jar
+- classpath/jersey-guice-1.9.jar
+- classpath/jersey-json-1.9.jar
+- classpath/jersey-server-1.9.jar
+- classpath/jettison-1.1.jar
+- classpath/jetty-util-6.1.26.jar
+- classpath/jline-0.9.94.jar
+- classpath/jsr305-1.3.9.jar
+- classpath/leveldbjni-all-1.8.jar
+- classpath/netty-3.7.0.Final.jar
+- classpath/paranamer-2.3.jar
+- classpath/parquet-column-1.5.0.jar
+- classpath/parquet-common-1.5.0.jar
+- classpath/parquet-encoding-1.5.0.jar
+- classpath/parquet-format-2.1.0.jar
+- classpath/parquet-generator-1.5.0.jar
+- classpath/parquet-hadoop-1.5.0.jar
+- classpath/parquet-jackson-1.5.0.jar
+- classpath/protobuf-java-2.5.0.jar
+- classpath/servlet-api-2.5.jar
+- classpath/snappy-java-1.1.1.6.jar
+- classpath/stax-api-1.0-2.jar
+- classpath/xercesImpl-2.9.1.jar
+- classpath/xml-apis-1.3.04.jar
+- classpath/xmlenc-0.52.jar
+- classpath/xz-1.0.jar
+- classpath/zookeeper-3.4.6.jar
+homepage: https://github.com/choplin/embulk-output-parquet
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.1.9
+signing_key:
+specification_version: 4
+summary: Parquet output plugin for Embulk
+test_files: []