RubyGems - data_drain - Versions diffs - 0.2.0 → 0.2.1 - Mend

data_drain 0.2.0 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml +4 -4
data/.rubocop.yml +2 -0
data/CHANGELOG.md +12 -0
data/README.md +0 -2
data/docs/IMPROVEMENT_PLAN.md +1162 -0
data/docs/execution/archive/v0.2.0.agente-review.md +125 -0
data/docs/execution/archive/v0.2.0.md +812 -0
data/docs/glue_pyspark_example.py +60 -0
data/lib/data_drain/version.rb +1 -1
data/skill/references/antipatrones.md +1 -1
metadata +5 -1

data/docs/glue_pyspark_example.py ADDED Viewed

@@ -0,0 +1,60 @@
+"""
+Script de AWS Glue (PySpark) compatible con DataDrain::GlueRunner.
+Crear el Job en la consola de AWS Glue (Spark 4.0+) y usar este script como base.
+Argumentos requeridos: JOB_NAME, start_date, end_date, s3_bucket, s3_folder,
+db_url, db_user, db_password, db_table, partition_by.
+Personalizar la sección de columnas derivadas según las partition_keys de cada tabla.
+"""
+import sys
+from awsglue.utils import getResolvedOptions
+from pyspark.context import SparkContext
+from awsglue.context import GlueContext
+from awsglue.job import Job
+from pyspark.sql.functions import col, year, month
+args = getResolvedOptions(sys.argv, [
+    'JOB_NAME', 'start_date', 'end_date', 's3_bucket', 's3_folder',
+    'db_url', 'db_user', 'db_password', 'db_table', 'partition_by'
+])
+sc = SparkContext()
+glueContext = GlueContext(sc)
+spark = glueContext.spark_session
+job = Job(glueContext)
+job.init(args['JOB_NAME'], args)
+options = {
+    "url": args['db_url'],
+    "dbtable": args['db_table'],
+    "user": args['db_user'],
+    "password": args['db_password'],
+    "sampleQuery": (
+        f"SELECT * FROM {args['db_table']} "
+        f"WHERE created_at >= '{args['start_date']}' "
+        f"AND created_at < '{args['end_date']}'"
+    )
+}
+df = spark.read.format("jdbc").options(**options).load()
+# Agregar columnas derivadas necesarias para las particiones.
+# isp_id ya existe en la tabla fuente — solo agregar las que se calculan.
+# Personalizar esta seccion segun las partition_keys de cada tabla.
+df_final = (
+    df.withColumn("year", year(col("created_at")))
+      .withColumn("month", month(col("created_at")))
+)
+output_path = f"s3://{args['s3_bucket']}/{args['s3_folder']}/"
+partitions = args['partition_by'].split(",")
+(df_final.write.mode("overwrite")
+    .partitionBy(*partitions)
+    .format("parquet")
+    .option("compression", "zstd")
+    .save(output_path))
+job.commit()

data/lib/data_drain/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module DataDrain
-  VERSION = "0.2.0"
+  VERSION = "0.2.1"
 end

data/skill/references/antipatrones.md CHANGED Viewed

@@ -207,7 +207,7 @@ ArchivedX.connection.close  # Rompe la siguiente query del mismo thread
 **Razón:** `Record.connection` es thread-local y persistente — diseñada para amortizar el costo de cargar `httpfs` y credenciales. Cerrarla obliga a reconectar todo en la próxima query y puede dejar el `Thread.current` apuntando a una conexión muerta (`Database` GC'd).
-**Alternativa:** No cerrarla manualmente. Vive mientras vive el thread.
+**Alternativa:** No usar `Record.connection.close` directamente. Si necesitás cerrar (Sidekiq/Puma middleware), usar `Record.disconnect!` que cierra `db` + `conn` y limpia `Thread.current` atómicamente. En threads de larga vida, esto previene memory leak.
 ---

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: data_drain
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.2.1
 platform: ruby
 authors:
 - Gabriel
@@ -97,6 +97,10 @@ files:
 - README.md
 - Rakefile
 - data_drain.gemspec
+- docs/IMPROVEMENT_PLAN.md
+- docs/execution/archive/v0.2.0.agente-review.md
+- docs/execution/archive/v0.2.0.md
+- docs/glue_pyspark_example.py
 - lib/data_drain.rb
 - lib/data_drain/configuration.rb
 - lib/data_drain/engine.rb