RubyGems - trials - Versions diffs - 0.1.3 → 0.1.4 - Mend

trials 0.1.3 → 0.1.4

Files changed (17) hide show

checksums.yaml +4 -4
data/bin/trial +7 -2
data/lib/trials.rb +2 -4
data/lib/trials/utils/aws.rb +1 -2
data/lib/trials/utils/csvs.rb +3 -3
data/lib/trials/utils/files.rb +71 -109
data/lib/trials/utils/google_drive.rb +2 -2
data/lib/trials/utils/h_array.rb +14 -0
data/lib/trials/utils/jsons.rb +4 -4
data/lib/trials/utils/logging.rb +2 -2
data/lib/trials/utils/pdfs.rb +1 -1
data/lib/trials/utils/sqls.rb +2 -2
data/lib/trials/utils/various.rb +18 -0
metadata +1 -4
data/lib/trials/data_handling/addresses.rb +0 -37
data/lib/trials/data_handling/names.rb +0 -84
data/lib/trials/utils/hashes.rb +0 -90

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 303d61afdd0937269e514488c1462361d6bf24a7ade281e65d3aae0270e9ae31
-  data.tar.gz: e0e8e292b51e7166af634fdf2e6117ded4aa700567aa197280dfc35f8de96f27
+  metadata.gz: 8f8af3df6ab16bb8ba4b08d0ea7b1dd11507aeb2c6113a0598a5e9965d0264c9
+  data.tar.gz: c1e9cc7305f5cee913a7091d321811153d33e9e67d383bad0f1518034a195556
 SHA512:
-  metadata.gz: 83503c1320739905b44c54e3bf31b469435562a508cbae1670749e0eeba6cc439a7c3f53b4a15389eeebbf8c3218473c778befbb05a2b75499b7904a0d07ddad
-  data.tar.gz: ae364df5de6484dc9c461838b809d24644202e6979a65c90e206a95e60dabe755a08d695f1a7aa042fb490c52193dbfbf928404f83f75a6bf70499cf93390a54
+  metadata.gz: d4bdc989741b4f86a3b80f91979a3882c2666da4749ee7864f0b45596311cbdebd297e17950d27bb84d39efc6d30b16fa18fc1a1bd4f65b98cd213ec4e0cbba7
+  data.tar.gz: d3fa929a7157792cd5fce04b64f0d0312ce240f59de755d323dc1ee910a21f9a966e74342a5e4c0d05d732291ab28a7b7a324bad6a5e1afb3c0293ea0c682c1c

data/bin/trial CHANGED Viewed

@@ -1,12 +1,13 @@
 #!/usr/bin/env ruby
-require_relative '../lib/trials'
 # env
 START_TIME = Time.now
 SCRIPT_NAME = ARGV[0].gsub('.rb', '')
 RUN = "#{START_TIME.strftime("%Y%m%dT%H%M%S")}_#{SCRIPT_NAME}"
 ROOT = Dir.pwd
+require_relative '../lib/trials'
 SECRETS = begin
   if File.exists?(File.expand_path('~/.trials/secrets.yml'))
     JSON.parse(
@@ -22,6 +23,10 @@ end
 FileUtils.mkdir_p("seeds")
 FileUtils.mkdir_p("results/#{RUN}")
 FileUtils.mkdir_p("tmp")
+FileUtils.mkdir_p("cache")
+# allow to init the current folder
+return if SCRIPT_NAME == 'init'
 # log start
 log "starting #{SCRIPT_NAME} at #{START_TIME.iso8601}"

data/lib/trials.rb CHANGED Viewed

@@ -10,18 +10,18 @@ require 'nokogiri'
 require 'ostruct'
 require 'pp'
 require 'pry'
+require 'rack'
 require 'rest-client'
+require 'securerandom'
 require 'set'
 require 'smalltext'
 require 'sqlite3'
 require 'street_address'
 require 'tty-table'
 require 'yaml'
-require 'rack'
 require_relative 'trials/utils/various'
 require_relative 'trials/utils/csvs'
-require_relative 'trials/utils/hashes'
 require_relative 'trials/utils/logging'
 require_relative 'trials/utils/strings'
 require_relative 'trials/utils/files'
@@ -34,7 +34,5 @@ require_relative 'trials/utils/rollbar'
 require_relative 'trials/utils/aws'
 require_relative 'trials/utils/google_drive'
 require_relative 'trials/utils/h_array'
-require_relative 'trials/data_handling/addresses'
-require_relative 'trials/data_handling/names'
 require_relative 'trials/extensions/hash'
 require_relative 'trials/extensions/array'

data/lib/trials/utils/aws.rb CHANGED Viewed

@@ -6,7 +6,7 @@ def ddb_connection
   )
 end
-def cached_ddb_scan(query)
+def ddb_scan_with_cache(query)
   json_cache(query.dig(:table_name)) { ddb_scan(query) }
 end
@@ -31,7 +31,6 @@ end
 def ddb_scan_without_segmentation(query)
   result = nil
-  requests = 0
   items = []
   loop do

data/lib/trials/utils/csvs.rb CHANGED Viewed

@@ -1,15 +1,15 @@
 def read_csv(filename)
   CSV
-    .foreach(seeds_path(filename), headers: true)
+    .foreach(seed_path(filename), headers: true)
     .map(&:to_h)
     .map(&:symbolize_keys)
     .select { |i| i.values.any?(&:present?) }
 end
 def write_csv_from_hashes(file, hash_set, attrs: nil)
-  attrs ||= uniq_hash_keys(hash_set)
+  attrs ||= hash_set.to_harray.uniq_keys
-  CSV.open(results_path(file), 'w') do |csv|
+  CSV.open(result_path(file), 'w') do |csv|
     csv << attrs
     hash_set.each do |c|

data/lib/trials/utils/files.rb CHANGED Viewed

@@ -1,110 +1,72 @@
-# paths
-def seeds_path(name)
-  "#{ROOT}/seeds/#{name}"
-end
-alias seed_path seeds_path
-def seed_exists?(name)
-  File.exist?(seed_path(name))
-end
-alias seeds_exist? seed_exists?
-def results_path(name)
-  "#{ROOT}/results/#{RUN}/#{name}"
-end
-alias result_path results_path
-def result_exists?(name)
-  File.exist?(result_path(name))
-end
-alias results_exist? result_exists?
-def tmp_path(name)
-  "#{ROOT}/tmp/#{name}"
-end
-def tmp_exists?(name)
-  File.exist?(tmp_path(name))
-end
-def list_dir(dir)
-  Dir["#{seeds_path(dir)}/**/*"]
-end
-# reading
-def read(file)
-  return unless seed_exists?(file)
-  File.read(seeds_path(file))
-end
-alias read_seed read
-alias read_seeds read
-def read_tmp(file)
-  return unless tmp_exists?(file)
-  File.read(tmp_path(file))
-end
-def readlines(file)
-  File.read(seeds_path(file)).split("\n")
-end
-# writing
-def write(file, content)
-  FileUtils.mkdir_p(File.dirname(results_path(file)))
-  File.open(results_path(file), 'w') { |f| f << content }
-end
-alias write_result write
-alias write_results write
-def write_tmp(file, content)
-  FileUtils.mkdir_p(File.dirname(tmp_path(file)))
-  File.open(tmp_path(file), 'w') { |f| f << content }
-end
-def append(file, content)
-  File.open(results_path(file), 'a') { |f| f << content }
-end
-alias append_result append
-alias append_results append
-# deleting
-def delete(file)
-  return unless result_exists?(file)
-  FileUtils.rm_r(results_path(file))
-end
-alias delete_result delete
-alias delete_results delete
-def delete_tmp(file)
-  return unless tmp_exists?(file)
-  FileUtils.rm_r(tmp_path(file))
-end
-def delete_seeds(file)
-  return unless seed_exists?(file)
-  FileUtils.rm_r(seeds_path(file))
-end
-alias delete_seed delete_seeds
-# other
-def make_seed(file)
-  FileUtils.cp(results_path(file), seeds_path(file))
-end
-def make_tmp(file)
-  FileUtils.cp(results_path(file), tmp_path(file))
+dirs = {
+  seed: { run: false, pluralized: ActiveSupport::Inflector.pluralize('seed') },
+  result: { run: true, pluralized: ActiveSupport::Inflector.pluralize('result') },
+  tmp: { run: false, pluralized: 'tmp' },
+  cache: { run: false, pluralized: 'cache' },
+}
+dirs.each do |dir, opts|
+  eval <<~RUBY
+    def #{opts.dig(:pluralized)}_root
+      File.join(
+        ROOT,
+        '#{opts.dig(:pluralized)}',
+        '#{opts.dig(:run) ? RUN : nil}',
+      ).to_s
+    end
+    def #{dir}_path(name)
+      File.join(
+        #{opts.dig(:pluralized)}_root,
+        name,
+      ).to_s
+    end
+    def #{dir}_exists?(name)
+      File.exist?(#{dir}_path(name))
+    end
+    def list_#{opts.dig(:pluralized)}(name = nil)
+      Dir[
+        File.join(
+          *[
+            #{opts.dig(:pluralized)}_root,
+            name,
+            '**',
+            '*',
+          ].compact
+        )
+      ].reject { |d| File.directory?(d) }
+    end
+    def read_#{dir}(name)
+      File.read(#{dir}_path(name)) if #{dir}_exists?(name)
+    end
+    def readlines_#{dir}(name)
+      read_#{dir}(name).split("\\n")
+    end
+    def write_#{dir}(name, content)
+      FileUtils.mkdir_p(File.dirname(#{dir}_path(name)))
+      File.open(#{dir}_path(name), 'w') { |f| f << content }
+    end
+    def append_to_#{dir}(name, content)
+      File.open(#{dir}_path(name), 'a') { |f| f << content }
+    end
+    def delete_#{dir}(name)
+      FileUtils.rm_r(#{dir}_path(name)) if #{dir}_exists?(name)
+    end
+  RUBY
+  dirs.each do |o_dir, o_opts|
+    next if o_dir == dir
+    eval <<~RUBY
+      def cp_#{o_dir}_to_#{opts.dig(:pluralized)}(name)
+        FileUtils.cp(#{o_dir}_path(name), #{dir}_path(name))
+      end
+    RUBY
+  end
 end

data/lib/trials/utils/google_drive.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 def gd_session
   @gd_session ||= begin
-    write('config.json', secrets.google.drive_config_json)
-    session = GoogleDrive::Session.from_config(results_path("config.json"))
+    write_tmp('config.json', secrets.google.drive_config_json)
+    session = GoogleDrive::Session.from_config(tmp_path("config.json"))
     delete('config.json')
     session
   end

data/lib/trials/utils/h_array.rb CHANGED Viewed

@@ -20,6 +20,14 @@ class HArray < Array
     end
   end
+  def normalize_keys
+    hashes.map do |h|
+      h
+        .map { |k, v| [normalize_key(k), v] }
+        .to_h
+    end
+  end
   def uniq_keys
     hashes.flat_map(&:keys).uniq.compact
   end
@@ -49,4 +57,10 @@ class HArray < Array
         .reduce(&:merge)
     end
   end
+  private
+  def normalize_key(k)
+    k.downcase.to_sym
+  end
 end

data/lib/trials/utils/jsons.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 def read_json(filename)
-  result = JSON.parse(read(filename))
+  result = JSON.parse(read_seed(filename))
   aggressive_deep_symbolize_keys(result)
 end
@@ -11,12 +11,12 @@ end
 def json_cache(key)
   name = "json/#{key}.json"
-  return aggressive_deep_symbolize_keys(JSON.parse(read_tmp(name))) if tmp_exists?(name)
+  return aggressive_deep_symbolize_keys(JSON.parse(read_cache(name))) if cache_exists?(name)
-  write_tmp(name, yield.to_json)
+  write_cache(name, yield.to_json)
   json_cache(key)
 end
 def invalidate_json_cache
-  delete_tmp("json")
+  delete_cache("json")
 end

data/lib/trials/utils/logging.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 def render_table_from_hashes(hash_set, sort: true, headers: nil)
   return 'no data' if hash_set.blank?
-  headers = headers || uniq_hash_keys(hash_set)
+  headers = headers || hash_set.to_harray.uniq_keys
   headers.sort! if sort
@@ -21,7 +21,7 @@ def log(item, nl: true, quiet: false, each: true)
     return
   end
-  File.open(results_path('log.txt'), 'a') do |f|
+  File.open(result_path('log.txt'), 'a') do |f|
     f << begin
       if item.is_a?(String) || item.is_a?(Numeric)
         item.to_s

data/lib/trials/utils/pdfs.rb CHANGED Viewed

@@ -1,4 +1,4 @@
 def pdf_to_text(path)
-  `pdftotext "#{seeds_path(path)}" #{tmp_path('tmp_pdf.txt')}; \
+  `pdftotext "#{seed_path(path)}" #{tmp_path('tmp_pdf.txt')}; \
   cat #{tmp_path('tmp_pdf.txt')}`
 end

data/lib/trials/utils/sqls.rb CHANGED Viewed

@@ -1,6 +1,6 @@
 def db(db_name = nil)
   db_name ||= 'data.db'
-  db = SQLite3::Database.new(tmp_path(db_name))
+  db = SQLite3::Database.new(cache_path(db_name))
   db.results_as_hash = true
   db
 end
@@ -14,7 +14,7 @@ def get_db(db_name = nil)
 end
 def import_csv_into_db(db_name = 'data.db', table, csv)
-  system("sqlite3 -csv #{tmp_path(db_name)} '.import #{seed_path(csv)} #{table}'")
+  system("sqlite3 -csv #{cache_path(db_name)} '.import #{seed_path(csv)} #{table}'")
 end
 def query_db(db_name = nil, query)

data/lib/trials/utils/various.rb CHANGED Viewed

@@ -2,6 +2,14 @@ def secrets
   SECRETS
 end
+def run
+  RUN
+end
+def root_path
+  ROOT
+end
 def or_nil
   val = yield
   raise if val.blank?
@@ -25,3 +33,13 @@ def aggressive_deep_symbolize_keys(maybe)
   maybe
 end
+def marshal_fetch(key)
+  return Marshal.load(read_cache(key)) if cache_exists?(key)
+  File.open(cache_path(key), 'wb') do |f|
+    f.write(Marshal.dump(yield))
+  end
+  marshal_fetch(key)
+end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: trials
 version: !ruby/object:Gem::Version
-  version: 0.1.3
+  version: 0.1.4
 platform: ruby
 authors:
 - grahamotte
@@ -299,8 +299,6 @@ extra_rdoc_files: []
 files:
 - bin/trial
 - lib/trials.rb
-- lib/trials/data_handling/addresses.rb
-- lib/trials/data_handling/names.rb
 - lib/trials/extensions/array.rb
 - lib/trials/extensions/hash.rb
 - lib/trials/utils/aws.rb
@@ -309,7 +307,6 @@ files:
 - lib/trials/utils/files.rb
 - lib/trials/utils/google_drive.rb
 - lib/trials/utils/h_array.rb
-- lib/trials/utils/hashes.rb
 - lib/trials/utils/jsons.rb
 - lib/trials/utils/logging.rb
 - lib/trials/utils/pdfs.rb

data/lib/trials/data_handling/addresses.rb DELETED Viewed

@@ -1,37 +0,0 @@
-# normal format <number> <STREET NAME>, <CITY>, <STATE> <postal>
-def normalize_address(address)
-  return if address.blank?
-  cleaner_string = if address.respond_to?(:address1)
-    "#{address.address1}, #{address.city}, #{address.state} #{address.postal_code}"
-  else
-    address
-  end
-  cleaner_string = cleaner_string.gsub('#', ' #').squish
-  parsed = StreetAddress::US.parse(cleaner_string)
-  return if parsed.blank?
-  return if parsed.number.blank?
-  return if parsed.street.blank?
-  return if parsed.city.blank?
-  return if parsed.state.blank?
-  return if parsed.postal_code.blank?
-  parsed.prefix = nil
-  parsed.suffix = nil
-  parsed.unit_prefix = nil
-  parsed.unit = nil
-  parsed.postal_code_ext = nil
-  parsed.to_s.upcase
-end
-def parse_address(address_string)
-  StreetAddress::US.parse(address_string)
-end
-def normalize_and_parse_address(address_string)
-  StreetAddress::US.parse(normalize_address(address_string))
-end

data/lib/trials/data_handling/names.rb DELETED Viewed

@@ -1,84 +0,0 @@
-# normal <FIRST> <LAST>
-Name = Struct.new(:first_name, :middle_name, :last_name)
-class NamePartsParser
-  def initialize(name_string)
-    @namae = Namae.parse((name_string || '').upcase).first
-  end
-  def first
-    normalize_name(split_first_and_middle(given).first)
-  end
-  def middle
-    normalize_name(split_first_and_middle(given).last)
-  end
-  def last
-    normalize_name(family)
-  end
-  private
-  def given
-    @namae&.given || ''
-  end
-  def family
-    @namae&.family || ''
-  end
-  def split_first_and_middle(first_and_middle)
-    names = first_and_middle.split(' ', 2)
-    names.length == 1 ? names + [''] : names
-  end
-end
-def normalize_name(name)
-  return if name.blank?
-  name = name_from_parts(name) if name.respond_to?(:first_name)
-  name.strip.upcase.delete('^A-Z\ \-').squeeze(" ")
-end
-def normalize_full_names(names)
-  Array.wrap(names)
-    .map { |n| normalize_full_name(n) }
-    .map(&:to_s)
-    .map(&:presence)
-    .compact
-    .uniq
-end
-def normalize_full_name(name)
-  return if name.blank?
-  name.strip.upcase.delete('^A-Z\ \-').squeeze(" ")
-end
-def parse_name(name)
-  NamePartsParser.new(name)
-end
-def normalize_and_parse_name(name)
-  NamePartsParser.new(normalize_name(name))
-end
-# private
-def name_from_parts(name)
-  first = normalize_name_part(name.first_name)
-  last = normalize_name_part(name.last_name)
-  [first, last].join(' ')
-end
-def full_name_from_parts(name)
-  first = normalize_name_part(name.first_name)
-  middle = normalize_name_part(name.middle_name)
-  last = normalize_name_part(name.last_name)
-  [first, middle, last].join(' ')
-end

data/lib/trials/utils/hashes.rb DELETED Viewed

@@ -1,90 +0,0 @@
-def uniq_hash_keys(hashes)
-  hashes.flat_map(&:keys).uniq.compact
-end
-def sanitize_hash_value(hash, key:, type:, date_format: '%Y-%m-%d')
-  hash.merge(
-    key => or_nil do
-      case type
-      when :date
-        Date.strptime(hash.dig(key), date_format)
-      when :datetime
-        DateTime.parse(hash.dig(key))
-      when :integer, :int
-        hash.dig(key).to_i
-      when :float
-        hash.dig(key).to_f
-      when :string
-        hash.dig(key).to_s
-      when :alphanum
-        string_to_alphanum(hash.dig(key))
-      when :present?
-        hash.dig(key).present?
-      end
-    end
-  )
-end
-def sanitize_hash_values(hash, scheme = {})
-  scheme.each do |k, v|
-    hash = sanitize_hash_value(hash, key: k, type: v)
-  end
-  hash
-end
-def rename_hash_key(hash, from:, to:)
-  hash[to] = hash.delete(from)
-  hash
-end
-def rename_hash_keys(hash, scheme = {})
-  scheme.each do |k, v|
-    hash = rename_hash_key(hash, from: k, to: v)
-  end
-  hash
-end
-def merge_hash_groups(*groups, key:, join_type: :inner)
-  groups = groups.map { |group| group.map { |g| [g.dig(key), g] }.to_h }
-  keys = begin
-    case join_type
-    when :inner
-      groups.map(&:keys).reduce(&:&)
-    when :all
-      groups.flat_map(&:keys).uniq
-    when :first
-      groups.first.keys
-    end
-  end
-  keys.map { |key| groups.map { |g| g.dig(key) }.compact.reduce(&:merge) }
-end
-def count_for_group_by(batch, &block)
-  batch
-    .group_by(&block)
-    .map { |k, v| [k, v.length] }
-    .to_h
-end
-def array_to_count_hash(list)
-  list.uniq.reduce({}) do |h, i|
-    h[i] = list.count(i)
-    h
-  end
-end
-def update_counts_hash(counts, update)
-  update.each do |k, v|
-    if counts.key?(k)
-      counts[k] += v
-    else
-      counts[k] = v
-    end
-  end
-  counts
-end