RubyGems - embulk-output-s3_parquet - Versions diffs - 0.0.2 → 0.0.3 - Mend

embulk-output-s3_parquet 0.0.2 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (19) hide show

data/src/test/scala/org/embulk/output/s3_parquet/TestS3ParquetOutputPlugin.scala CHANGED

@@ -1,8 +1,8 @@
 package org.embulk.output.s3_parquet
-import java.io.{File, PrintWriter}
-import java.nio.file.{FileSystems, Path}
+import java.io.File
+import java.nio.file.FileSystems
 import cloud.localstack.{DockerTestUtils, Localstack, TestUtils}
 import cloud.localstack.docker.LocalstackDocker
@@ -21,120 +21,129 @@ import org.scalatest.{BeforeAndAfter, BeforeAndAfterAll, DiagrammedAssertions, F
 import org.scalatest.junit.JUnitRunner
 import scala.annotation.meta.getter
-import scala.collection.JavaConverters._
+import scala.jdk.CollectionConverters._
 @RunWith(classOf[JUnitRunner])
 class TestS3ParquetOutputPlugin
-  extends FunSuite
-  with BeforeAndAfter
-  with BeforeAndAfterAll
-  with DiagrammedAssertions {
-  val RESOURCE_NAME_PREFIX: String = "org/embulk/output/s3_parquet/"
-  val BUCKET_NAME: String = "my-bucket"
-  val LOCALSTACK_DOCKER: LocalstackDocker = LocalstackDocker.INSTANCE
-  override protected def beforeAll(): Unit = {
-    Localstack.teardownInfrastructure()
-    LOCALSTACK_DOCKER.startup(LocalstackDockerConfiguration.DEFAULT)
-    super.beforeAll()
-  }
-  override protected def afterAll(): Unit = {
-    LOCALSTACK_DOCKER.stop()
-    super.afterAll()
-  }
-  @(Rule@getter)
-  val embulk: TestingEmbulk = TestingEmbulk.builder()
-    .registerPlugin(classOf[OutputPlugin], "s3_parquet", classOf[S3ParquetOutputPlugin])
-    .build()
-  before {
-    DockerTestUtils.getClientS3.createBucket(BUCKET_NAME)
-  }
-  def defaultOutConfig(): ConfigSource = {
-    embulk.newConfig()
-      .set("type", "s3_parquet")
-      .set("endpoint", "http://localhost:4572") // See https://github.com/localstack/localstack#overview
-      .set("bucket", BUCKET_NAME)
-      .set("path_prefix", "path/to/p")
-      .set("auth_method", "basic")
-      .set("access_key_id", TestUtils.TEST_ACCESS_KEY)
-      .set("secret_access_key", TestUtils.TEST_SECRET_KEY)
-      .set("path_style_access_enabled", true)
-      .set("default_timezone", "Asia/Tokyo")
-  }
-  test("first test") {
-    val inPath = toPath("in1.csv")
-    val outConfig = defaultOutConfig()
-    val result: TestingEmbulk.RunResult = embulk.runOutput(outConfig, inPath)
-    val outRecords: Seq[Map[String, String]] = result.getOutputTaskReports.asScala.map { tr =>
-      val b = tr.get(classOf[String], "bucket")
-      val k = tr.get(classOf[String], "key")
-      readParquetFile(b, k)
-    }.foldLeft(Seq[Map[String, String]]()) { (merged,
-                                      records) =>
-      merged ++ records
+    extends FunSuite
+        with BeforeAndAfter
+        with BeforeAndAfterAll
+        with DiagrammedAssertions
+{
+    val RESOURCE_NAME_PREFIX: String = "org/embulk/output/s3_parquet/"
+    val BUCKET_NAME: String = "my-bucket"
+    val LOCALSTACK_DOCKER: LocalstackDocker = LocalstackDocker.INSTANCE
+    override protected def beforeAll(): Unit =
+    {
+        Localstack.teardownInfrastructure()
+        LOCALSTACK_DOCKER.startup(LocalstackDockerConfiguration.DEFAULT)
+        super.beforeAll()
     }
-    val inRecords: Seq[Seq[String]] = EmbulkTests.readResource(RESOURCE_NAME_PREFIX + "out1.tsv")
-      .stripLineEnd
-      .split("\n")
-      .map(record => record.split("\t").toSeq)
+    override protected def afterAll(): Unit =
+    {
+        LOCALSTACK_DOCKER.stop()
+        super.afterAll()
+    }
-    inRecords.zipWithIndex.foreach {
-      case (record, recordIndex) =>
-        0.to(5).foreach { columnIndex =>
-          val columnName = s"c$columnIndex"
-          val inData: String = inRecords(recordIndex)(columnIndex)
-          val outData: String = outRecords(recordIndex).getOrElse(columnName, "")
+    @(Rule@getter)
+    val embulk: TestingEmbulk = TestingEmbulk.builder()
+        .registerPlugin(classOf[OutputPlugin], "s3_parquet", classOf[S3ParquetOutputPlugin])
+        .build()
-          assert(outData === inData, s"record: $recordIndex, column: $columnName")
-        }
+    before {
+        DockerTestUtils.getClientS3.createBucket(BUCKET_NAME)
     }
-  }
-  def readParquetFile(bucket: String,
-                      key: String): Seq[Map[String, String]] = {
-    val xfer = TransferManagerBuilder.standard()
-      .withS3Client(DockerTestUtils.getClientS3)
-      .build()
-    val createdParquetFile = embulk.createTempFile("in")
-    try xfer.download(bucket, key, createdParquetFile.toFile).waitForCompletion()
-    finally xfer.shutdownNow()
-    val reader: ParquetReader[SimpleRecord] = ParquetReader
-      .builder(new SimpleReadSupport(), new HadoopPath(createdParquetFile.toString))
-      .build()
-    def read(reader: ParquetReader[SimpleRecord],
-             records: Seq[Map[String, String]] = Seq()): Seq[Map[String, String]] = {
-      val simpleRecord: SimpleRecord = reader.read()
-      if (simpleRecord != null) {
-        val r: Map[String, String] = simpleRecord.getValues.asScala.map(v => v.getName -> v.getValue.toString).toMap
-        return read(reader, records :+ r)
-      }
-      records
+    def defaultOutConfig(): ConfigSource =
+    {
+        embulk.newConfig()
+            .set("type", "s3_parquet")
+            .set("endpoint", "http://localhost:4572") // See https://github.com/localstack/localstack#overview
+            .set("bucket", BUCKET_NAME)
+            .set("path_prefix", "path/to/p")
+            .set("auth_method", "basic")
+            .set("access_key_id", TestUtils.TEST_ACCESS_KEY)
+            .set("secret_access_key", TestUtils.TEST_SECRET_KEY)
+            .set("path_style_access_enabled", true)
+            .set("default_timezone", "Asia/Tokyo")
     }
-    try read(reader)
-    finally {
-      reader.close()
+    test("first test") {
+        val inPath = toPath("in1.csv")
+        val outConfig = defaultOutConfig()
+        val result: TestingEmbulk.RunResult = embulk.runOutput(outConfig, inPath)
+        val outRecords: Seq[Map[String, String]] = result.getOutputTaskReports.asScala.map { tr =>
+            val b = tr.get(classOf[String], "bucket")
+            val k = tr.get(classOf[String], "key")
+            readParquetFile(b, k)
+        }.foldLeft(Seq[Map[String, String]]()) { (merged,
+                                                  records) =>
+            merged ++ records
+        }
+        val inRecords: Seq[Seq[String]] = EmbulkTests.readResource(RESOURCE_NAME_PREFIX + "out1.tsv")
+            .stripLineEnd
+            .split("\n")
+            .map(record => record.split("\t").toSeq)
+            .toSeq
+        inRecords.zipWithIndex.foreach {
+            case (record, recordIndex) =>
+                0.to(5).foreach { columnIndex =>
+                    val columnName = s"c$columnIndex"
+                    val inData: String = inRecords(recordIndex)(columnIndex)
+                    val outData: String = outRecords(recordIndex).getOrElse(columnName, "")
+                    assert(outData === inData, s"record: $recordIndex, column: $columnName")
+                }
+        }
+    }
+    def readParquetFile(bucket: String,
+                        key: String): Seq[Map[String, String]] =
+    {
+        val xfer = TransferManagerBuilder.standard()
+            .withS3Client(DockerTestUtils.getClientS3)
+            .build()
+        val createdParquetFile = embulk.createTempFile("in")
+        try xfer.download(bucket, key, createdParquetFile.toFile).waitForCompletion()
+        finally xfer.shutdownNow()
+        val reader: ParquetReader[SimpleRecord] = ParquetReader
+            .builder(new SimpleReadSupport(), new HadoopPath(createdParquetFile.toString))
+            .build()
+        def read(reader: ParquetReader[SimpleRecord],
+                 records: Seq[Map[String, String]] = Seq()): Seq[Map[String, String]] =
+        {
+            val simpleRecord: SimpleRecord = reader.read()
+            if (simpleRecord != null) {
+                val r: Map[String, String] = simpleRecord.getValues.asScala.map(v => v.getName -> v.getValue.toString).toMap
+                return read(reader, records :+ r)
+            }
+            records
+        }
+        try read(reader)
+        finally {
+            reader.close()
+        }
     }
-  }
-  private def toPath(fileName: String) = {
-    val url = Resources.getResource(RESOURCE_NAME_PREFIX + fileName)
-    FileSystems.getDefault.getPath(new File(url.toURI).getAbsolutePath)
-  }
+    private def toPath(fileName: String) =
+    {
+        val url = Resources.getResource(RESOURCE_NAME_PREFIX + fileName)
+        FileSystems.getDefault.getPath(new File(url.toURI).getAbsolutePath)
+    }
 }

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: embulk-output-s3_parquet
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3
 platform: ruby
 authors:
 - Civitaspo
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2019-01-21 00:00:00.000000000 Z
+date: 2019-07-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   requirement: !ruby/object:Gem::Requirement
@@ -46,7 +46,6 @@ extensions: []
 extra_rdoc_files: []
 files:
 - ".gitignore"
-- ".scalafmt.conf"
 - CHANGELOG.md
 - LICENSE.txt
 - README.md
@@ -60,11 +59,13 @@ files:
 - classpath/asm-3.1.jar
 - classpath/asm-5.0.4.jar
 - classpath/avro-1.7.7.jar
-- classpath/aws-java-sdk-core-1.11.479.jar
-- classpath/aws-java-sdk-kms-1.11.479.jar
-- classpath/aws-java-sdk-s3-1.11.479.jar
-- classpath/aws-java-sdk-sts-1.11.479.jar
+- classpath/aws-java-sdk-core-1.11.592.jar
+- classpath/aws-java-sdk-glue-1.11.592.jar
+- classpath/aws-java-sdk-kms-1.11.592.jar
+- classpath/aws-java-sdk-s3-1.11.592.jar
+- classpath/aws-java-sdk-sts-1.11.592.jar
 - classpath/commons-beanutils-1.7.0.jar
+- classpath/commons-cli-1.2.jar
 - classpath/commons-codec-1.10.jar
 - classpath/commons-collections-3.2.2.jar
 - classpath/commons-compress-1.4.1.jar
@@ -79,7 +80,7 @@ files:
 - classpath/curator-client-2.7.1.jar
 - classpath/curator-framework-2.7.1.jar
 - classpath/curator-recipes-2.7.1.jar
-- classpath/embulk-output-s3_parquet-0.0.2.jar
+- classpath/embulk-output-s3_parquet-0.0.3.jar
 - classpath/gson-2.2.4.jar
 - classpath/hadoop-annotations-2.9.2.jar
 - classpath/hadoop-auth-2.9.2.jar
@@ -107,7 +108,7 @@ files:
 - classpath/jetty-sslengine-6.1.26.jar
 - classpath/jetty-util-6.1.26.jar
 - classpath/jline-0.9.94.jar
-- classpath/jmespath-java-1.11.479.jar
+- classpath/jmespath-java-1.11.592.jar
 - classpath/jsch-0.1.54.jar
 - classpath/json-smart-2.3.jar
 - classpath/jsp-api-2.1.jar
@@ -116,19 +117,19 @@ files:
 - classpath/netty-3.7.0.Final.jar
 - classpath/nimbus-jose-jwt-4.41.1.jar
 - classpath/paranamer-2.3.jar
-- classpath/parquet-column-1.10.0.jar
-- classpath/parquet-common-1.10.0.jar
-- classpath/parquet-encoding-1.10.0.jar
+- classpath/parquet-column-1.10.1.jar
+- classpath/parquet-common-1.10.1.jar
+- classpath/parquet-encoding-1.10.1.jar
 - classpath/parquet-format-2.4.0.jar
-- classpath/parquet-hadoop-1.10.0.jar
-- classpath/parquet-jackson-1.10.0.jar
+- classpath/parquet-hadoop-1.10.1.jar
+- classpath/parquet-jackson-1.10.1.jar
 - classpath/protobuf-java-2.5.0.jar
-- classpath/scala-library-2.12.8.jar
+- classpath/scala-library-2.13.0.jar
 - classpath/servlet-api-2.5-20081211.jar
 - classpath/servlet-api-2.5.jar
 - classpath/slf4j-api-1.7.25.jar
 - classpath/slf4j-log4j12-1.7.25.jar
-- classpath/snappy-java-1.1.7.2.jar
+- classpath/snappy-java-1.1.7.3.jar
 - classpath/stax-api-1.0-2.jar
 - classpath/stax2-api-3.1.4.jar
 - classpath/woodstox-core-5.0.3.jar
@@ -143,6 +144,7 @@ files:
 - gradlew.bat
 - lib/embulk/output/s3_parquet.rb
 - settings.gradle
+- src/main/scala/org/embulk/output/s3_parquet/CatalogRegistrator.scala
 - src/main/scala/org/embulk/output/s3_parquet/S3ParquetOutputPlugin.scala
 - src/main/scala/org/embulk/output/s3_parquet/S3ParquetPageOutput.scala
 - src/main/scala/org/embulk/output/s3_parquet/aws/Aws.scala

data/.scalafmt.conf DELETED

@@ -1,9 +0,0 @@
-# https://scalameta.org/scalafmt/#Configuration
-style = IntelliJ
-maxColumn = 160
-align = none
-newlines.penalizeSingleSelectMultiArgList = false
-newlines.alwaysBeforeElseAfterCurlyIf = true
-newlines.alwaysBeforeTopLevelStatements = true