RubyGems - remi - Versions diffs - 0.2.42 → 0.3.0 - Mend

remi 0.2.42 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (94) hide show

checksums.yaml +4 -4
data/.yardopts +7 -0
data/Gemfile +1 -1
data/Gemfile.lock +13 -26
data/README.md +1 -1
data/features/step_definitions/remi_step.rb +33 -13
data/features/sub_job_example.feature +24 -0
data/features/sub_transform_example.feature +35 -0
data/features/sub_transform_many_to_many.feature +49 -0
data/features/support/env_app.rb +1 -1
data/jobs/all_jobs_shared.rb +19 -16
data/jobs/copy_source_job.rb +11 -9
data/jobs/csv_file_target_job.rb +10 -9
data/jobs/json_job.rb +18 -14
data/jobs/metadata_job.rb +33 -28
data/jobs/parameters_job.rb +14 -11
data/jobs/sample_job.rb +106 -77
data/jobs/sftp_file_target_job.rb +14 -13
data/jobs/sub_job_example_job.rb +86 -0
data/jobs/sub_transform_example_job.rb +43 -0
data/jobs/sub_transform_many_to_many_job.rb +46 -0
data/jobs/transforms/concatenate_job.rb +16 -12
data/jobs/transforms/data_frame_sieve_job.rb +24 -19
data/jobs/transforms/date_diff_job.rb +15 -11
data/jobs/transforms/nvl_job.rb +16 -12
data/jobs/transforms/parse_date_job.rb +17 -14
data/jobs/transforms/partitioner_job.rb +27 -19
data/jobs/transforms/prefix_job.rb +13 -10
data/jobs/transforms/truncate_job.rb +14 -10
data/jobs/transforms/truthy_job.rb +11 -8
data/lib/remi.rb +25 -11
data/lib/remi/data_frame.rb +4 -4
data/lib/remi/data_frame/daru.rb +1 -37
data/lib/remi/data_subject.rb +234 -48
data/lib/remi/data_subjects/csv_file.rb +171 -0
data/lib/remi/data_subjects/data_frame.rb +106 -0
data/lib/remi/data_subjects/file_system.rb +115 -0
data/lib/remi/data_subjects/local_file.rb +109 -0
data/lib/remi/data_subjects/none.rb +31 -0
data/lib/remi/data_subjects/postgres.rb +186 -0
data/lib/remi/data_subjects/s3_file.rb +84 -0
data/lib/remi/data_subjects/salesforce.rb +211 -0
data/lib/remi/data_subjects/sftp_file.rb +196 -0
data/lib/remi/data_subjects/sub_job.rb +50 -0
data/lib/remi/dsl.rb +74 -0
data/lib/remi/encoder.rb +45 -0
data/lib/remi/extractor.rb +21 -0
data/lib/remi/field_symbolizers.rb +1 -0
data/lib/remi/job.rb +279 -113
data/lib/remi/job/parameters.rb +90 -0
data/lib/remi/job/sub_job.rb +35 -0
data/lib/remi/job/transform.rb +165 -0
data/lib/remi/loader.rb +22 -0
data/lib/remi/monkeys/daru.rb +4 -0
data/lib/remi/parser.rb +44 -0
data/lib/remi/testing/business_rules.rb +17 -23
data/lib/remi/testing/data_stub.rb +2 -2
data/lib/remi/version.rb +1 -1
data/remi.gemspec +3 -0
data/spec/data_subject_spec.rb +475 -11
data/spec/data_subjects/csv_file_spec.rb +69 -0
data/spec/data_subjects/data_frame_spec.rb +52 -0
data/spec/{extractor → data_subjects}/file_system_spec.rb +0 -0
data/spec/{extractor → data_subjects}/local_file_spec.rb +0 -0
data/spec/data_subjects/none_spec.rb +41 -0
data/spec/data_subjects/postgres_spec.rb +80 -0
data/spec/{extractor → data_subjects}/s3_file_spec.rb +0 -0
data/spec/data_subjects/salesforce_spec.rb +117 -0
data/spec/{extractor → data_subjects}/sftp_file_spec.rb +16 -0
data/spec/data_subjects/sub_job_spec.rb +33 -0
data/spec/encoder_spec.rb +38 -0
data/spec/extractor_spec.rb +11 -0
data/spec/fixtures/sf_bulk_helper_stubs.rb +443 -0
data/spec/job/transform_spec.rb +257 -0
data/spec/job_spec.rb +507 -0
data/spec/loader_spec.rb +11 -0
data/spec/parser_spec.rb +38 -0
data/spec/sf_bulk_helper_spec.rb +117 -0
data/spec/testing/data_stub_spec.rb +5 -3
metadata +109 -27
data/features/aggregate.feature +0 -42
data/jobs/aggregate_job.rb +0 -31
data/jobs/transforms/transform_jobs.rb +0 -4
data/lib/remi/data_subject/csv_file.rb +0 -162
data/lib/remi/data_subject/data_frame.rb +0 -52
data/lib/remi/data_subject/postgres.rb +0 -134
data/lib/remi/data_subject/salesforce.rb +0 -136
data/lib/remi/data_subject/sftp_file.rb +0 -65
data/lib/remi/extractor/file_system.rb +0 -92
data/lib/remi/extractor/local_file.rb +0 -43
data/lib/remi/extractor/s3_file.rb +0 -57
data/lib/remi/extractor/sftp_file.rb +0 -83
data/spec/data_subject/csv_file_spec.rb +0 -79
data/spec/data_subject/data_frame.rb +0 -27

data/jobs/aggregate_job.rb DELETED

@@ -1,31 +0,0 @@
-require_relative 'all_jobs_shared'
-class AggregateJob
-  include AllJobsShared
-  define_source :source_data, Remi::DataSource::DataFrame
-  define_target :target_data, Remi::DataTarget::DataFrame
-  define_target :multigroup_target_data, Remi::DataTarget::DataFrame
-  define_transform :main, sources: :source_data, targets: :target_data do
-    mymin = lambda do |field, df, group_key, indicies|
-      values = indicies.map { |idx| df.row[idx][field] }
-      "Group #{group_key} has a minimum value of #{values.min}"
-    end
-    # Daru groups don't use the index of the dataframe when returning groups (WTF?).
-    # Instead they return the position of the record in the dataframe.  Here, we
-    # shift the indexes which causes a failure if this artifact is not handled
-    # properly in the aggregate function
-    source_data.df.index = Daru::Index.new(1.upto(source_data.df.size).to_a)
-    target_data.df = source_data.df.aggregate(by: :alpha, func: mymin.curry.(:year)).detach_index
-    target_data.df.vectors = Daru::Index.new([:alpha, :year])
-    multigroup_target_data.df = source_data.df.aggregate(by: [:alpha,:beta], func: mymin.curry.(:year)).detach_index
-    multigroup_target_data.df.vectors = Daru::Index.new([:alpha_beta, :year])
-  end
-end

data/jobs/transforms/transform_jobs.rb DELETED

@@ -1,4 +0,0 @@
-require_relative 'prefix_job'
-require_relative 'parse_date_job'
-require_relative 'date_diff_job'
-require_relative 'nvl_job'

data/lib/remi/data_subject/csv_file.rb DELETED

@@ -1,162 +0,0 @@
-module Remi
-  module DataSubject::CsvFile
-    def self.included(base)
-      base.extend(CsvFileClassMethods)
-    end
-    def field_symbolizer
-      self.class.default_csv_options[:header_converters]
-    end
-    module CsvFileClassMethods
-      def default_csv_options
-        @default_csv_options ||= CSV::DEFAULT_OPTIONS.merge({
-          headers: true,
-          header_converters: Remi::FieldSymbolizers[:standard],
-          converters: [],
-          col_sep: ',',
-          encoding: 'UTF-8',
-          quote_char: '"'
-        })
-      end
-    end
-  end
-  class DataSource::CsvFile < DataSource
-    include Remi::DataSubject::CsvFile
-    def initialize(*args, **kargs, &block)
-      super
-      init_csv_file(*args, **kargs, &block)
-    end
-    attr_reader   :extractor
-    attr_reader   :csv_options
-    # Public: Called to extract data from the source.
-    #
-    # Returns data in a format that can be used to create a dataframe.
-    def extract!
-      @extract = Array(@extractor.extract)
-    end
-    # Public: Converts extracted data to a dataframe.
-    # Currently only supports Daru DataFrames.
-    #
-    # Returns a Remi::DataFrame
-    def to_dataframe
-      # Assumes that each file has exactly the same structure
-      result_df = nil
-      extract.each_with_index do |filename, idx|
-        filename = filename.to_s
-        @logger.info "Converting #{filename} to a dataframe"
-        processed_filename = preprocess(filename)
-        csv_df = Daru::DataFrame.from_csv processed_filename, @csv_options
-        csv_df[@filename_field] = Daru::Vector.new([filename] * csv_df.size, index: csv_df.index) if @filename_field
-        if idx == 0
-          result_df = csv_df
-        else
-          result_df = result_df.concat csv_df
-        end
-      end
-      Remi::DataFrame.create(:daru, result_df)
-    end
-    def extractor=(arg)
-      @extractor = arg.respond_to?(:extract) ? arg : Extractor::LocalFile.new(remote_path: arg.to_s)
-    end
-    # Only going to support single file for now
-    def source_filename
-      raise "Multiple source files detected" if extract.size > 1
-      @source_filename ||= extract.first
-    end
-    def first_line
-      # Readline assumes \n line endings.  Strip out \r if it is a DOS file.
-      @first_line ||= File.open(source_filename) do |f|
-        f.readline.gsub(/\r/,'')
-      end
-    end
-    def headers
-      @headers ||= CSV.open(source_filename, 'r', source_csv_options) { |csv| csv.first }.headers
-    end
-    def valid_headers?
-      (fields.keys - headers).empty?
-    end
-    private
-    def preprocess(filename)
-      return filename unless @preprocessor
-      @logger.info "Preprocessing #{filename}"
-      tmp_filename = File.join(Remi::Settings.work_dir, "#{Pathname.new(filename).basename}-#{SecureRandom.uuid}")
-      dirname = Pathname.new(tmp_filename).dirname
-      FileUtils.mkdir_p(dirname) unless File.directory? dirname
-      File.open(tmp_filename, 'w') do |outfile|
-        File.foreach(filename) do |in_line|
-          outfile.write @preprocessor.call(in_line)
-        end
-      end
-      tmp_filename
-    end
-    def init_csv_file(*args, extractor:, csv_options: {}, filename_field: nil, preprocessor: nil, **kargs, &block)
-      self.extractor = extractor
-      @csv_options = self.class.default_csv_options.merge(csv_options)
-      @filename_field = filename_field
-      @preprocessor = preprocessor
-    end
-  end
-  class DataTarget::CsvFile < DataTarget
-    include ::Remi::DataSubject::CsvFile
-    default_csv_options[:row_sep] = "\n"
-    def initialize(*args, **kargs, &block)
-      super
-      init_csv_file(*args, **kargs, &block)
-    end
-    attr_reader   :csv_options
-    # Public: Performs the load operation, regardless of whether it has
-    # already executed.
-    #
-    # Returns true if the load operation was successful
-    def load!
-      @logger.info "Writing CSV file #{@path}"
-      df.write_csv @path, @csv_options
-      true
-    end
-    private
-    def init_csv_file(*args, path:, csv_options: {}, **kargs, &block)
-      @path = path
-      @csv_options = self.class.default_csv_options.merge(csv_options)
-    end
-  end
-end

data/lib/remi/data_subject/data_frame.rb DELETED

@@ -1,52 +0,0 @@
-module Remi
-  class DataSource::DataFrame < DataSource
-    def initialize(*args, **kargs, &block)
-      super
-      init_df(*args, **kargs, &block)
-    end
-    # Public: Called to extract data from the source.
-    #
-    # Returns data in a format that can be used to create a dataframe.
-    def extract!
-      @extract = @data.transpose
-    end
-    # Public: Converts extracted data to a dataframe
-    #
-    # Returns a Remi::DataFrame
-    def to_dataframe
-      DataFrame.create(@remi_df_type, extract, order: @fields.keys)
-    end
-    private
-    def init_df(*args, data: [], **kargs, &block)
-      @data = data
-    end
-  end
-  class DataTarget::DataFrame < DataTarget
-    def initialize(*args, **kargs, &block)
-      super
-      init_df(*args, **kargs, &block)
-    end
-    # Public: Performs the load operation, regardless of whether it has
-    # already executed.
-    #
-    # Returns true if the load operation was successful
-    def load!
-      true
-    end
-    private
-    def init_df(*args, **kargs, &block)
-    end
-  end
-end

data/lib/remi/data_subject/postgres.rb DELETED

@@ -1,134 +0,0 @@
-module Remi
-  module DataSubject::Postgres
-    def connection
-      @connection ||= PG.connect(
-        host:     @credentials[:host] || 'localhost',
-        port:     @credentials[:port] || 5432,
-        dbname:   @credentials[:dbname],
-        user:     @credentials[:user] || `whoami`.chomp,
-        password: @credentials[:password],
-        sslmode:  @credentials[:sslmode] || 'allow'
-      )
-    end
-  end
-  class DataSource::Postgres < DataSource
-    include Remi::DataSubject::Postgres
-    def initialize(*args, **kargs, &block)
-      super
-      init_postgres(*args, **kargs, &block)
-    end
-    # Public: Called to extract data from the source.
-    #
-    # Returns data in a format that can be used to create a dataframe.
-    def extract!
-      @logger.info "Executing query #{@query}"
-      @extract = connection.exec @query
-    end
-    # Public: Converts extracted data to a dataframe.
-    # Currently only supports Daru DataFrames.
-    #
-    # Returns a Remi::DataFrame
-    def to_dataframe
-      # Performance for larger sets could be improved by using bulk query (via COPY)
-      @logger.info "Converting query to a dataframe"
-      hash_array = {}
-      extract.each do |row|
-        row.each do |field, value|
-          (hash_array[field_symbolizer.call(field)] ||= []) << value
-        end
-      end
-      # After converting to DF, clear the PG results to save memory.
-      extract.clear
-      Remi::DataFrame.create(@remi_df_type, hash_array, order: hash_array.keys)
-    end
-    private
-    def init_postgres(*args, credentials:, query:, **kargs, &block)
-      @credentials = credentials
-      @query = query
-    end
-  end
-  # VERY PRELIMINARY IMPLEMENTAtION - ONLY LOADS TO TEMP TABLES
-  # IT IS THEN UP TO THE USER TO DO ELT TO LOAD THE FINAL TABLE
-  class DataTarget::Postgres < DataTarget
-    include Remi::DataSubject::Postgres
-    def initialize(*args, **kargs, &block)
-      super
-      init_postgres(*args, **kargs, &block)
-    end
-    # Public: Performs the load operation, regardless of whether it has
-    # already executed.
-    #
-    # Returns true if the load operation was successful
-    def load!
-      @logger.info "Performing postgres load to table #{@table_name}"
-      create_target_table
-      load_target_table
-      true
-    end
-    private
-    def init_postgres(*args, credentials:, table_name:, **kargs, &block)
-      @credentials = credentials
-      @table_name = table_name
-    end
-    def fields_with_type_ddl
-      @fields.map { |k,v| "#{k} #{v[:type]}" }.join(', ')
-    end
-    def create_target_table
-      create_table_sql = <<-EOT
-        CREATE TEMPORARY TABLE #{@table_name} (
-          #{fields_with_type_ddl}
-        )
-      EOT
-      @logger.info create_table_sql
-      connection.exec create_table_sql
-    end
-    def load_target_table
-      connection.copy_data "COPY #{@table_name} (#{@fields.keys.join(', ')}) FROM STDIN" do
-        df.each(:row) do |row|
-          row_str = @fields.keys.map do |field|
-            field = row[field]
-            case
-            when field.respond_to?(:strftime)
-              field.strftime('%Y-%m-%d %H:%M:%S')
-            when field.respond_to?(:map)
-              field.to_json.gsub("\t", '\t')
-            when field.blank? && !field.nil?
-              ''
-            when field.nil?
-              '\N'
-            else
-              field.to_s.gsub(/[\t\n\r]/, "\t" => '\t', "\n" => '\n', "\r" => '\r')
-            end
-          end.join("\t")
-          connection.put_copy_data row_str + "\n"
-        end
-      end
-    end
-  end
-end

data/lib/remi/data_subject/salesforce.rb DELETED

@@ -1,136 +0,0 @@
-require 'restforce'
-require 'salesforce_bulk_api'
-require 'remi/sf_bulk_helper'
-module Remi
-  module DataSubject::Salesforce
-    def field_symbolizer
-      Remi::FieldSymbolizers[:salesforce]
-    end
-    def restforce_client
-      @restforce_client ||= begin
-        client = Restforce.new(@credentials)
-        #run a dummy query to initiate a connection. Workaround for Bulk API problem
-        # https://github.com/yatish27/salesforce_bulk_api/issues/33
-        client.query('SELECT Id FROM Contact LIMIT 1')
-        client
-      end
-    end
-  end
-  class DataSource::Salesforce < DataSource
-    include Remi::DataSubject::Salesforce
-    def initialize(*args, **kargs, &block)
-      super
-      init_salesforce(*args, **kargs, &block)
-    end
-    # Public: Called to extract data from the source.
-    #
-    # Returns data in a format that can be used to create a dataframe.
-    def extract!
-      @extract = sf_bulk.query(@sfo, @query, 10000)
-      check_for_errors(@extract)
-      @extract
-    end
-    def sf_bulk
-      @sf_bulk ||= SalesforceBulkApi::Api.new(restforce_client).tap { |o| o.connection.set_status_throttle(5) }
-    end
-    # Public: Converts extracted data to a dataframe.
-    # Currently only supports Daru DataFrames.
-    #
-    # Returns a Remi::DataFrame
-    def to_dataframe
-      @logger.info "Converting salesforce query results to a dataframe"
-      hash_array = {}
-      extract['batches'].each do |batch|
-        next unless batch['response']
-        batch['response'].each do |record|
-          record.each do |field, value|
-            next if ['xsi:type','type'].include? field
-            (hash_array[field.to_sym] ||= []) << case value.first
-              when Hash
-                value.first["xsi:nil"] == "true" ? nil : value.first
-              else
-                value.first
-              end
-          end
-        end
-        # delete raw result at end of processing to free memory
-        batch['response'] = nil
-      end
-      Remi::DataFrame.create(@remi_df_type, hash_array, order: hash_array.keys)
-    end
-    private
-    def init_salesforce(*args, object:, query:, credentials:, api: :bulk, **kargs, &block)
-      @sfo = object
-      @query = query
-      @credentials = credentials
-      @api = api
-    end
-    def check_for_errors(sf_result)
-      sf_result['batches'].each do |batch|
-        raise "Error with batch #{batch['id']} - #{batch['state']}: #{batch['stateMessage']}" unless batch['state'].first == 'Completed'
-      end
-    end
-  end
-  class DataTarget::Salesforce < DataTarget
-    include Remi::DataSubject::Salesforce
-    def initialize(*args, **kargs, &block)
-      super
-      init_salesforce(*args, **kargs, &block)
-    end
-    # Public: Performs the load operation, regardless of whether it has
-    # already executed.
-    #
-    # Returns true if the load operation was successful
-    def load!
-      @logger.info "Performing Salesforce #{@operation} on object #{@sfo}"
-      df_as_array_of_hashes = df.to_a[0] # This probably wouldn't work with a non-Daru df
-      if @operation == :update
-        Remi::SfBulkHelper::SfBulkUpdate.update(restforce_client, @sfo, df_as_array_of_hashes, batch_size: @batch_size, logger: @logger)
-      elsif @operation == :create
-        Remi::SfBulkHelper::SfBulkCreate.create(restforce_client, @sfo, df_as_array_of_hashes, batch_size: @batch_size, logger: @logger)
-      elsif @operation == :upsert
-        Remi::SfBulkHelper::SfBulkUpsert.upsert(restforce_client, @sfo, df_as_array_of_hashes, batch_size: @batch_size, external_id: @external_id, logger: @logger)
-      else
-        raise ArgumentError, "Unknown operation: #{@operation}"
-      end
-      true
-    end
-    private
-    def init_salesforce(*args, object:, operation:, credentials:, batch_size: 5000, external_id: 'Id', api: :bulk, **kargs, &block)
-      @sfo = object
-      @operation = operation
-      @batch_size = batch_size
-      @external_id = external_id
-      @credentials = credentials
-      @api = api
-    end
-  end
-end