RubyGems - remi - Versions diffs - 0.2.27 → 0.2.28 - Mend

remi 0.2.27 → 0.2.28

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (49) hide show

checksums.yaml +4 -4
data/Gemfile +3 -0
data/Gemfile.lock +34 -5
data/features/metadata.feature +17 -0
data/features/step_definitions/remi_step.rb +6 -6
data/features/transforms/date_diff.feature +1 -0
data/jobs/aggregate_job.rb +0 -1
data/jobs/all_jobs_shared.rb +0 -2
data/jobs/copy_source_job.rb +0 -1
data/jobs/csv_file_target_job.rb +0 -1
data/jobs/metadata_job.rb +60 -0
data/jobs/parameters_job.rb +1 -1
data/jobs/sample_job.rb +19 -20
data/jobs/sftp_file_target_job.rb +0 -1
data/jobs/transforms/date_diff_job.rb +1 -1
data/jobs/transforms/nvl_job.rb +1 -1
data/jobs/transforms/parse_date_job.rb +7 -4
data/jobs/transforms/prefix_job.rb +1 -1
data/jobs/transforms/truncate_job.rb +1 -1
data/lib/remi.rb +10 -15
data/lib/remi/cucumber/business_rules.rb +23 -23
data/lib/remi/cucumber/data_source.rb +2 -1
data/lib/remi/data_frame.rb +36 -0
data/lib/remi/data_frame/daru.rb +67 -0
data/lib/remi/data_subject.rb +71 -10
data/lib/remi/data_subject/csv_file.rb +151 -0
data/lib/remi/data_subject/data_frame.rb +53 -0
data/lib/remi/data_subject/postgres.rb +136 -0
data/lib/remi/data_subject/salesforce.rb +136 -0
data/lib/remi/data_subject/sftp_file.rb +66 -0
data/lib/remi/fields.rb +8 -0
data/lib/remi/source_to_target_map.rb +56 -32
data/lib/remi/transform.rb +426 -83
data/lib/remi/version.rb +1 -1
data/remi.gemspec +2 -1
data/spec/metadata_spec.rb +62 -0
metadata +15 -28
data/lib/remi/data_source.rb +0 -13
data/lib/remi/data_source/csv_file.rb +0 -101
data/lib/remi/data_source/data_frame.rb +0 -16
data/lib/remi/data_source/postgres.rb +0 -58
data/lib/remi/data_source/salesforce.rb +0 -87
data/lib/remi/data_target.rb +0 -15
data/lib/remi/data_target/csv_file.rb +0 -42
data/lib/remi/data_target/data_frame.rb +0 -14
data/lib/remi/data_target/postgres.rb +0 -74
data/lib/remi/data_target/salesforce.rb +0 -54
data/lib/remi/data_target/sftp_file.rb +0 -54
data/lib/remi/refinements/daru.rb +0 -85

data/lib/remi/data_target.rb DELETED

@@ -1,15 +0,0 @@
-module Remi
-  module DataTarget
-    include DataSubject
-    # Gets called automatically at the end of a job, but could
-    # also get manually called at the end of a transform so make
-    # sure it doesn't do it twice.
-    def load
-      @logger.info "Loading target"
-      return true if @loaded
-      @loaded = true
-      raise "Load function undefined for #{self.class.name}"
-    end
-  end
-end

data/lib/remi/data_target/csv_file.rb DELETED

@@ -1,42 +0,0 @@
-module Remi
-  module DataTarget
-    class CsvFile
-      include DataTarget
-      def self.default_csv_options
-        CSV::DEFAULT_OPTIONS.merge({
-          headers: true,
-          header_converters: Remi::FieldSymbolizers[:standard],
-          col_sep: ',',
-          encoding: 'UTF-8',
-          quote_char: '"',
-          row_sep: "\n"
-        })
-      end
-      def initialize(path:, csv_options: {}, logger: Remi::Settings.logger)
-        @path = path
-        @csv_options = self.class.default_csv_options.merge(csv_options)
-        @logger = logger
-      end
-      attr_reader   :path
-      attr_reader   :csv_options
-      def field_symbolizer
-        self.class.default_csv_options[:header_converters]
-      end
-      def load
-        return true if @loaded || df.size == 0
-        @logger.info "Writing CSV file #{@path}"
-        df.write_csv @path, @csv_options
-        @loaded = true
-      end
-    end
-  end
-end

data/lib/remi/data_target/data_frame.rb DELETED

@@ -1,14 +0,0 @@
-module Remi
-  module DataTarget
-    class DataFrame
-      include DataSubject
-      def initialize(**args)
-      end
-      def load
-        true
-      end
-    end
-  end
-end

data/lib/remi/data_target/postgres.rb DELETED

@@ -1,74 +0,0 @@
-module Remi
-  module DataTarget
-    class Postgres
-      include DataTarget
-      def initialize(credentials:, table_name:, fields:, logger: Remi::Settings.logger)
-        @credentials = credentials
-        @table_name = table_name
-        @fields = fields
-        @logger = logger
-      end
-      def load
-        return true if @loaded || df.size == 0
-        @logger.info "Performing postgres load to table #{@table_name}"
-        create_target_table
-        load_target_table
-        @loaded = true
-      end
-      def connection
-        @connection ||= PG.connect(
-          host:     @credentials[:host] || 'localhost',
-          port:     @credentials[:port] || 5432,
-          dbname:   @credentials[:dbname],
-          user:     @credentials[:user] || `whoami`.chomp,
-          password: @credentials[:password],
-          sslmode:  @credentials[:sslmode] || 'allow'
-        )
-      end
-      def fields_with_type_ddl
-        @fields.map { |k,v| "#{k} #{v[:type]}" }.join(', ')
-      end
-      def create_target_table
-        connection.exec <<-EOT
-          CREATE TEMPORARY TABLE #{@table_name} (
-            #{fields_with_type_ddl}
-          )
-        EOT
-      end
-      def load_target_table
-        connection.copy_data "COPY #{@table_name} (#{@fields.keys.join(', ')}) FROM STDIN" do
-          df.each(:row) do |row|
-            row_str = @fields.keys.map do |field|
-              field = row[field]
-              case
-              when field.respond_to?(:strftime)
-                field.strftime('%Y-%m-%d %H:%M:%S')
-              when field.respond_to?(:map)
-                field.to_json.gsub("\t", '\t')
-              when field.blank? && !field.nil?
-                ''
-              when field.nil?
-                '\N'
-              else
-                field.to_s.gsub("\t", '\t')
-              end
-            end.join("\t")
-            connection.put_copy_data row_str + "\n"
-          end
-        end
-      end
-    end
-  end
-end

data/lib/remi/data_target/salesforce.rb DELETED

@@ -1,54 +0,0 @@
-module Remi
-  module DataTarget
-    class Salesforce
-      include DataTarget
-      def initialize(object:, operation:, credentials:, external_id: 'Id', api: :bulk, logger: Remi::Settings.logger)
-        @sfo = object
-        @operation = operation
-        @external_id = external_id
-        @credentials = credentials
-        @api = api
-        @logger = logger
-      end
-      def field_symbolizer
-        Remi::FieldSymbolizers[:salesforce]
-      end
-      def load
-        return true if @loaded || df.size == 0
-        @logger.info "Performing Salesforce #{@operation} on object #{@sfo}"
-        if @operation == :update
-          Remi::SfBulkHelper::SfBulkUpdate.update(restforce_client, @sfo, df_as_array_of_hashes, logger: @logger)
-        elsif @operation == :create
-          Remi::SfBulkHelper::SfBulkCreate.create(restforce_client, @sfo, df_as_array_of_hashes, logger: @logger)
-        elsif @operation == :upsert
-          Remi::SfBulkHelper::SfBulkUpsert.upsert(restforce_client, @sfo, df_as_array_of_hashes, external_id: @external_id, logger: @logger)
-        else
-          raise "Unknown operation: #{@operation}"
-        end
-        @loaded = true
-      end
-      def restforce_client
-        @restforce_client ||= begin
-          client = Restforce.new(@credentials)
-          #run a dummy query to initiate a connection. Workaround for Bulk API problem
-          # https://github.com/yatish27/salesforce_bulk_api/issues/33
-          client.query('SELECT Id FROM Contact LIMIT 1')
-          client
-        end
-      end
-      def df_as_array_of_hashes
-        df.to_a[0]
-      end
-    end
-  end
-end

data/lib/remi/data_target/sftp_file.rb DELETED

@@ -1,54 +0,0 @@
-module Remi
-  module DataTarget
-    class SftpFile
-      include DataTarget
-      def initialize(credentials:, local_path:, remote_path: File.basename(local_path), logger: Remi::Settings.logger)
-        @credentials = credentials
-        @local_path = local_path
-        @remote_path = remote_path
-        @logger = logger
-      end
-      attr_reader :local_path
-      attr_reader :remote_path
-      def load
-        return true if @loaded
-        connection do |sftp|
-          retry_upload { sftp.upload! @local_path, @remote_path }
-        end
-        @loaded = true
-      end
-      private
-      def connection(&block)
-        result = nil
-        Net::SFTP.start(@credentials[:host], @credentials[:username], password: @credentials[:password], port: @credentials[:port] || '22') do |sftp|
-          result = yield sftp
-        end
-        result
-      end
-      def retry_upload(ntry=2, &block)
-        1.upto(ntry).each do |itry|
-          begin
-            block.call
-          rescue RuntimeError => err
-            raise err unless itry < ntry
-            @logger.error "Upload failed with error: #{err.message}"
-            @logger.error "Retry attempt #{itry}/#{ntry-1}"
-            sleep(1)
-          end
-        end
-      end
-    end
-  end
-end

data/lib/remi/refinements/daru.rb DELETED

@@ -1,85 +0,0 @@
-module Remi
-  module Refinements
-    module Daru
-      refine ::Daru::DataFrame do
-        # Public: Fixes dup issues in the Daru library (vectors not being duped).
-        def dup
-          dupdf = ::Daru::DataFrame.new([], index: self.index)
-          self.vectors.each do |v|
-            dupdf[v] = self[v]
-          end
-          dupdf
-        end
-        # Public: Allows for combining dataframes with different columns
-        def concat other_df
-          vectors = @vectors.to_a
-          data = []
-          vectors.each do |v|
-            other_vec = other_df.vectors.include?(v) ? other_df[v].to_a : [nil] * other_df.size
-            data << self[v].dup.to_a.concat(other_vec)
-          end
-          other_df.vectors.each do |v|
-            next if vectors.include?(v)
-            vectors << v
-            data << ([nil] * self.size).concat(other_df[v].to_a)
-          end
-          ::Daru::DataFrame.new(data, order: vectors)
-        end
-        # Public: Saves a Dataframe to a file.
-        def hash_dump(filename)
-          File.binwrite(filename, Marshal.dump(self.to_hash))
-        end
-        # Public: Allows the user to define an arbitrary aggregation function.
-        #
-        # by   - The name of the DataFrame vector to use to group records.
-        # func - A lambda function that accepts three arguments - the
-        #        first argument is the DataFrame, the second is the
-        #        key to the current group, and the third is the index
-        #        of the elements belonging to a group.
-        #
-        # Example:
-        #   df = Daru::DataFrame.new( { a: ['a','a','a','b','b'], year: ['2018','2015','2019', '2014', '2013'] })
-        #
-        #   mymin = lambda do |field, df, group_key, indices|
-        #     values = indices.map { |idx| df.row[idx][field] }
-        #     "Group #{group_key} has a minimum value of #{values.min}"
-        #   end
-        #
-        #   df.aggregate(by: :a, func: mymin.curry.(:year))
-        #
-        #
-        # Returns a Daru::Vector.
-        def aggregate(by:, func:)
-          grouped = self.group_by(by)
-          df_indices = self.index.to_a
-          ::Daru::Vector.new(
-            grouped.groups.reduce({}) do |h, (key, indices)|
-              # Daru groups don't use the index of the dataframe when returning groups (WTF?).
-              # Instead they return the position of the record in the dataframe.  Here, we
-              group_df_indices = indices.map { |v| df_indices[v] }
-              group_key = key.size == 1 ? key.first : key
-              h[group_key] = func.(self, group_key, group_df_indices)
-              h
-            end
-          )
-        end
-      end
-      refine ::Daru::DataFrame.singleton_class do
-        # Public: Creates a DataFrame by reading the dumped version from a file.
-        def from_hash_dump(filename)
-          ::Daru::DataFrame.new(Marshal.load(File.binread(filename)))
-        end
-      end
-    end
-  end
-end