RubyGems - puppet-community-mvp - Versions diffs - 0.0.4 → 0.0.5 - Mend

puppet-community-mvp 0.0.4 → 0.0.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml +4 -4
data/bin/mvp +9 -15
data/bin/pftest.rb +22 -0
data/lib/mvp.rb +1 -3
data/lib/mvp/{uploader.rb → bigquery.rb} +75 -70
data/lib/mvp/{downloader.rb → forge.rb} +44 -125
data/lib/mvp/itemizer.rb +12 -4
data/lib/mvp/puppetfile_parser.rb +171 -0
data/lib/mvp/runner.rb +96 -27
metadata +6 -5
data/lib/mvp/monkeypatches.rb +0 -8

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: e45ff6e06d776fb8c3129789b4f469f25f86ea59
-  data.tar.gz: 640dd10a4620d77281ebb58ec4d097dc40b9bfbd
+  metadata.gz: 3f5ed8c2978cad58a0ce52346eb854b3b4e82a9a
+  data.tar.gz: a5637f505ed5fe8c74a22f9633723b9211ad3c4a
 SHA512:
-  metadata.gz: 00fffd365248a810b1542eb7e4e370398330d469834a2e5cecab70f0fe370149d8bc87ac7027c9260c6a2d0a8f24a06915e5946bf5d84c5dd6c07a8e4ac95ac3
-  data.tar.gz: ac1e153462e94226eb56621e687667f369aa0ca35f3d34dd6e3c9096e0d7dc56dcb1f4584f0b2072cda3f47a5c5f1b2b645f106d5f314ef45fdcc3d9f6af6a25
+  metadata.gz: 3ad31ba42a0e2f96ae8254bf383e523c74890fa219cb1b27946cae7718aba76b2d3532149dc98dfc1d59b5e47c4d31c70156c96203659425b55607c6a0d948d1
+  data.tar.gz: f8970bb1a709f807e3e5d2f45e2c74f7adbea034fc5d9293024e76f4dfb8b2e9eb59ecf636e38b12d69ce224867bbc96570f5e9ed1ddb5092783888e145ceec9

data/bin/mvp CHANGED Viewed

@@ -13,16 +13,14 @@ optparse = OptionParser.new { |opts|
   opts.banner = "Usage : #{NAME} [command] [target] [options]
 This tool will scrape the Puppet Forge API for interesting module & author stats.
-The following CLI commands are available.
+It can also mirror public BigQuery tables or views into our dataset for efficiency,
+or download and itemize each Forge module.
-  * get | retrieve | download [target]
-      * Downloads and caches all Forge metadata.
-      * Optional targets: all, authors, modules, releases
-  * upload | insert [target]
-      * Uploads data to BigQuery
-      * Optional targets: all, authors, modules, releases, mirrors
   * mirror [target]
       * Runs the download & then upload tasks.
+      * Optional targets: all, authors, modules, releases, validations, itemizations, puppetfiles, tables
+  * get | retrieve | download [target]
+      * Downloads and caches data locally so you can run the stats task.
       * Optional targets: all, authors, modules, releases
   * stats
       * Print out a summary of interesting stats.
@@ -64,6 +62,10 @@ The following CLI commands are available.
     options[:debug] = true
   end
+  opts.on("-n", "--noop", "Don't actually upload data.") do
+    options[:noop] = true
+  end
   opts.separator('')
   opts.on("-h", "--help", "Displays this help") do
@@ -100,14 +102,6 @@ when 'get', 'retrieve', 'download'
   target ||= :all
   runner.retrieve(target.to_sym)
-when 'transform'
-  target ||= :all
-  runner.retrieve(target.to_sym, false)
-when 'insert', 'upload'
-  target ||= :all
-  runner.upload(target.to_sym)
 when 'mirror'
   target ||= :all
   runner.mirror(target.to_sym)

data/bin/pftest.rb ADDED Viewed

@@ -0,0 +1,22 @@
+#! /usr/bin/env ruby
+require 'mvp/puppetfile_parser'
+require 'open-uri'
+require 'json'
+require 'logger'
+$logger           = Logger::new(STDOUT)
+$logger.level     = Logger::INFO
+$logger.formatter = proc { |severity,datetime,progname,msg| "#{severity}: #{msg}\n" }
+pf = open(ARGV.first)
+parser = Mvp::PuppetfileParser.new()
+repo = {
+  :repo_name => 'testing',
+  :md5       => 'wakka wakka',
+  :content   => pf.read,
+}
+puts JSON.pretty_generate(parser.parse(repo))

data/lib/mvp.rb CHANGED Viewed

@@ -1,4 +1,2 @@
 require 'mvp/runner'
-require 'mvp/downloader'
-require 'mvp/uploader'
-require 'mvp/stats'
+require 'mvp/stats'

data/lib/mvp/{uploader.rb → bigquery.rb} RENAMED Viewed

@@ -3,10 +3,10 @@ require 'tty-spinner'
 require "google/cloud/bigquery"
 class Mvp
-  class Uploader
+  class Bigquery
     def initialize(options = {})
+      @options  = options
       @cachedir = options[:cachedir]
-      @mirrors  = options[:gcloud][:mirrors]
       @bigquery = Google::Cloud::Bigquery.new(
         :project_id  => options[:gcloud][:project],
         :credentials => Google::Cloud::Bigquery::Credentials.new(options[:gcloud][:keyfile]),
@@ -27,9 +27,24 @@ class Mvp
                                                           s.integer "count",   mode: :required
                                                         end
                                                       end
+      @puppetfile_usage = @dataset.table('github_puppetfile_usage') || @dataset.create_table('github_puppetfile_usage') do |table|
+                                                                          table.name        = 'Puppetfile Module Usage'
+                                                                          table.description = 'A list of all modules referenced in public Puppetfiles'
+                                                                          table.schema do |s|
+                                                                            s.string    "repo_name", mode: :required
+                                                                            s.string    "module",    mode: :required
+                                                                            s.string    "type",      mode: :required
+                                                                            s.string    "source"
+                                                                            s.string    "version"
+                                                                            s.string    "md5",       mode: :required
+                                                                          end
+                                                                        end
     end
     def truncate(entity)
+      return if @options[:noop]
       begin
         case entity
         when :authors
@@ -163,95 +178,85 @@ class Mvp
       end
     end
-    def authors()
-      upload('authors')
-    end
-    def modules()
-      upload('modules')
+    def retrieve(entity)
+      get(entity, ['*'])
     end
-    def releases()
-      upload('releases')
-    end
+    def mirror_table(entity)
+      return if @options[:noop]
-    def validations()
-      upload('validations')
-    end
-    def github_mirrors()
-      @mirrors.each do |entity|
-        begin
-          spinner = TTY::Spinner.new("[:spinner] :title")
-          spinner.update(title: "Mirroring #{entity[:type]} #{entity[:name]} to BigQuery...")
-          spinner.auto_spin
-          case entity[:type]
-          when :view
-            @dataset.table(entity[:name]).delete rescue nil # delete if exists
-            @dataset.create_view(entity[:name], entity[:query],
-                                  :legacy_sql => true)
-          when :table
-            job = @dataset.query_job(entity[:query],
-                                  :legacy_sql => true,
-                                  :write      => 'truncate',
-                                  :table      => @dataset.table(entity[:name], :skip_lookup => true))
-            job.wait_until_done!
+      begin
+        case entity[:type]
+        when :view
+          @dataset.table(entity[:name]).delete rescue nil # delete if exists
+          @dataset.create_view(entity[:name], entity[:query])
-          else
-            $logger.error "Unknown mirror type: #{entity[:type]}"
-          end
+        when :table
+          job = @dataset.query_job(entity[:query],
+                                :write      => 'truncate',
+                                :table      => @dataset.table(entity[:name], :skip_lookup => true))
+          job.wait_until_done!
-          spinner.success('(OK)')
-        rescue => e
-          spinner.error("(Google Cloud error: #{e.message})")
-          $logger.error e.backtrace.join("\n")
+        else
+          $logger.error "Unknown mirror type: #{entity[:type]}"
         end
+      rescue => e
+        $logger.error("(Google Cloud error: #{e.message})")
+        $logger.debug e.backtrace.join("\n")
       end
     end
-    def insert(entity, data)
-      table    = @dataset.table("forge_#{entity}")
+    def insert(entity, data, suite = 'forge')
+      return if @options[:noop]
+      return if data.empty?
+      table    = @dataset.table("#{suite}_#{entity}")
       response = table.insert(data)
       unless response.success?
-        errors = {}
         response.insert_errors.each do |err|
-          errors[err.row['slug']] = err.errors
+          $logger.error JSON.pretty_generate(err.row)
+          $logger.error JSON.pretty_generate(err.errors)
         end
-        $logger.error JSON.pretty_generate(errors)
       end
     end
-    def upload(entity)
-      begin
-        spinner = TTY::Spinner.new("[:spinner] :title")
-        spinner.update(title: "Uploading #{entity} to BigQuery ...")
-        spinner.auto_spin
+    def delete(entity, field, match, suite = 'forge')
+      @dataset.query("DELETE FROM #{suite}_#{entity} WHERE #{field} = '#{match}'")
+    end
-        @dataset.load("forge_#{entity}", "#{@cachedir}/nld_#{entity}.json",
-                        :write      => 'truncate',
-                        :autodetect => true)
+    def get(entity, fields, suite = 'forge')
+      raise 'pass fields as an array' unless fields.is_a? Array
+      @dataset.query("SELECT #{fields.join(', ')} FROM #{suite}_#{entity}")
+    end
-#         table = @dataset.table("forge_#{entity}")
-#         File.readlines("#{@cachedir}/nld_#{entity}.json").each do |line|
-#           data = JSON.parse(line)
-#
-#           begin
-#             table.insert data
-#           rescue
-#             require 'pry'
-#             binding.pry
-#           end
-#         end
+    def module_sources()
+      get('modules', ['slug', 'source'])
+    end
+    def puppetfiles()
+      sql = 'SELECT f.repo_name, f.path, c.content, c.md5
+                FROM github_puppetfile_files AS f
+                JOIN github_puppetfile_contents AS c
+                  ON c.id = f.id
-        spinner.success('(OK)')
-      rescue => e
-        spinner.error("(Google Cloud error: #{e.message})")
-        $logger.error e.backtrace.join("\n")
-      end
+              WHERE c.md5 NOT IN (
+                SELECT u.md5
+                FROM github_puppetfile_usage AS u
+                WHERE u.repo_name = f.repo_name
+              ) AND LOWER(repo_name) NOT LIKE "%boxen%"'
+      @dataset.query(sql)
+    end
+    def unitemized()
+      sql = 'SELECT m.name, m.slug, m.version, m.dependencies
+              FROM forge_modules AS m
+              WHERE m.version NOT IN (
+                SELECT i.version
+                FROM forge_itemized AS i
+                WHERE module = m.slug
+              )'
+      @dataset.query(sql)
     end
     def version_itemized?(mod, version)

data/lib/mvp/{downloader.rb → forge.rb} RENAMED Viewed

@@ -2,151 +2,82 @@ require 'json'
 require 'httparty'
 require 'tty-spinner'
 require 'semantic_puppet'
-require 'mvp/monkeypatches'
-require 'mvp/itemizer'
 class Mvp
-  class Downloader
+  class Forge
     def initialize(options = {})
       @useragent = 'Puppet Community Stats Monitor'
-      @cachedir  = options[:cachedir]
       @forgeapi  = options[:forgeapi] ||'https://forgeapi.puppet.com'
-      @itemizer  = Mvp::Itemizer.new(options)
     end
-    def mirror(entity, uploader)
-      # using authors for git repo terminology consistency
-      item = (entity == :authors) ? 'users' : entity.to_s
-      download(item) do |data|
-        case entity
-        when :modules
-          uploader.insert(:validations, flatten_validations(retrieve_validations(data)))
-          data = flatten_modules(data)
-          @itemizer.run!(data, uploader)
-        when :releases
-          data = flatten_releases(data)
-        end
-        uploader.insert(entity, data)
-      end
-    end
-    def retrieve(entity, download = true)
-      if download
-        # I am focusing on authorship rather than just users, so for now I'm using the word authors
-        item = (entity == :authors) ? 'users' : entity.to_s
-        data = []
-        download(item) do |resp|
-          data.concat resp
-        end
-        save_json(entity, data)
-      else
-        data = File.read("#{@cachedir}/#{entity}.json")
-      end
-      case entity
-      when :modules
-        data = flatten_modules(data)
-      when :releases
-        data = flatten_releases(data)
-      end
-      save_nld_json(entity.to_s, data)
-    end
-    def retrieve_validations(modules, period = 25)
-      results = {}
+    def retrieve(entity)
+      raise 'Please process downloaded data by passing a block' unless block_given?
+      # using authors for git repo terminology consistency
+      entity = :users if entity == :authors
       begin
         offset   = 0
-        endpoint = "/private/validations/"
-        modules.each do |mod|
-          name = "#{mod['owner']['username']}-#{mod['name']}"
-          response = HTTParty.get("#{@forgeapi}#{endpoint}#{name}", headers: {'User-Agent' => @useragent})
+        endpoint = "/v3/#{entity}?sort_by=downloads&limit=50"
+        while endpoint do
+          response = HTTParty.get("#{@forgeapi}#{endpoint}", headers: {"User-Agent" => @useragent})
           raise "Forge Error: #{@response.body}" unless response.code == 200
+          data    = JSON.parse(response.body)
+          results = munge_dates(data['results'])
+          case entity
+          when :modules
+            results = flatten_modules(results)
+          when :releases
+            results = flatten_releases(results)
+          end
-          results[name] = JSON.parse(response.body)
-          offset       += 1
+          yield results, offset
-          if block_given? and (offset % period == 0)
-            yield offset
+          offset  += 50
+          endpoint = data['pagination']['next']
+          if (endpoint and (offset % 250 == 0))
             GC.start
           end
         end
       rescue => e
         $logger.error e.message
         $logger.debug e.backtrace.join("\n")
       end
-      results
+      nil
     end
-    def validations()
-      cache = "#{@cachedir}/modules.json"
-      if File.exist? cache
-        module_data = JSON.parse(File.read(cache))
-      else
-        module_data = retrieve(:modules)
-      end
+    def retrieve_validations(modules, period = 25)
+      raise 'Please process validations by passing a block' unless block_given?
+      offset = 0
       begin
-        spinner = TTY::Spinner.new("[:spinner] :title")
-        spinner.update(title: "Downloading module validations ...")
-        spinner.auto_spin
+        modules.each_slice(period) do |group|
+          offset += period
+          results = group.map { |mod| validations(mod[:slug]) }
-        results = retrieve_validations(module_data) do |offset|
-          spinner.update(title: "Downloading module validations [#{offset}]...")
+          yield results, offset
+          GC.start
         end
-        spinner.success('(OK)')
       rescue => e
-        spinner.error('API error')
         $logger.error e.message
         $logger.debug e.backtrace.join("\n")
       end
-      save_json('validations', results)
-      save_nld_json('validations', flatten_validations(results))
-      results
+      nil
     end
-    def download(entity)
-       raise 'Please process downloaded data by passing a block' unless block_given?
+    def validations(name)
+      endpoint = "/private/validations/"
+      response = HTTParty.get("#{@forgeapi}#{endpoint}#{name}", headers: {'User-Agent' => @useragent})
+      raise "Forge Error: #{@response.body}" unless response.code == 200
-      begin
-        offset   = 0
-        endpoint = "/v3/#{entity}?sort_by=downloads&limit=50"
-        spinner  = TTY::Spinner.new("[:spinner] :title")
-        spinner.update(title: "Downloading #{entity} ...")
-        spinner.auto_spin
-        while endpoint do
-          response = HTTParty.get("#{@forgeapi}#{endpoint}", headers: {"User-Agent" => @useragent})
-          raise "Forge Error: #{@response.body}" unless response.code == 200
-          data = JSON.parse(response.body)
-          offset  += 50
-          endpoint = data['pagination']['next']
-          yield munge_dates(data['results'])
-          if (endpoint and (offset % 250 == 0))
-            spinner.update(title: "Downloading #{entity} [#{offset}]...")
-            GC.start
-          end
-        end
-        spinner.success('(OK)')
-      rescue => e
-        spinner.error('API error')
-        $logger.error e.message
-        $logger.debug e.backtrace.join("\n")
-      end
-      nil
+      flatten_validations(name, JSON.parse(response.body))
     end
     # transform dates into a format that bigquery knows
     def munge_dates(object)
       ["created_at", "updated_at", "deprecated_at", "deleted_at"].each do |field|
@@ -160,16 +91,6 @@ class Mvp
       object
     end
-    def save_json(thing, data)
-      File.write("#{@cachedir}/#{thing}.json", data.to_json)
-    end
-    # store data in a way that bigquery can grok
-    # uploading files is far easier than streaming data, when replacing a dataset
-    def save_nld_json(thing, data)
-      File.write("#{@cachedir}/nld_#{thing}.json", data.to_newline_delimited_json)
-    end
     def flatten_modules(data)
       data.each do |row|
         row['owner']             = row['owner']['username']
@@ -209,14 +130,12 @@ class Mvp
       data
     end
-    def flatten_validations(data)
-      data.map do |name, scores|
-        row = { 'name' => name }
-        scores.each do |entry|
-          row[entry['name']] = entry['score']
-        end
-        row
+    def flatten_validations(name, scores)
+      row = { 'name' => name }
+      scores.each do |entry|
+        row[entry['name']] = entry['score']
       end
+      row
     end
     def simplify_metadata(data, metadata)

data/lib/mvp/itemizer.rb CHANGED Viewed

@@ -27,6 +27,14 @@ class Mvp
       end
     end
+    def itemized(mod)
+      modname = mod[:slug]
+      version = mod[:version]
+      baserow = { :module => modname, :version => version, :kind => 'admin', :element => 'version', :count => 0}
+      table(itemize(modname, version), mod) << baserow
+    end
     def download(path, modname, version)
       filename = "#{modname}-#{version}.tar.gz"
       Dir.chdir(path) do
@@ -58,10 +66,10 @@ class Mvp
     # Build a table with this schema
     # module | version | source | kind | element | count
     def table(itemized, data)
-      modname      = data['name']
-      slug         = data['slug']
-      version      = data['version']
-      dependencies = data['dependencies']
+      modname      = data[:name]
+      slug         = data[:slug]
+      version      = data[:version]
+      dependencies = data[:dependencies]
       itemized.map do |kind, elements|
         # the kind of element comes pluralized from puppet-itemize

data/lib/mvp/puppetfile_parser.rb ADDED Viewed

@@ -0,0 +1,171 @@
+class Mvp
+  class PuppetfileParser
+    def initialize(options = {})
+      @sources = {}
+      @modules = []
+      @repo    = nil
+    end
+    def suitable?
+      defined?(RubyVM::AbstractSyntaxTree)
+    end
+    def sources=(modules)
+      modules.each do |row|
+        next unless row[:source]
+        next if row[:source] == 'UNKNOWN'
+        @sources[canonical_git_repo(row[:source])] = row[:slug]
+      end
+    end
+    def parse(repo)
+      # This only works on Ruby 2.6+
+      return unless suitable?
+      begin
+        root = RubyVM::AbstractSyntaxTree.parse(repo[:content])
+      rescue SyntaxError => e
+        $logger.warn "Syntax error in #{repo[:repo_name]}/Puppetfile"
+        $logger.warn e.message
+      end
+      @repo    = repo
+      @modules = []
+      traverse(root)
+      @modules.compact.map do |row|
+        row[:repo_name] = repo[:repo_name]
+        row[:md5]       = repo[:md5]
+        row[:module]    = canonical_name(row[:module], row[:source])
+        stringify(row)
+      end
+    end
+    def stringify(row)
+      row.each do |key, value|
+        if value.is_a? RubyVM::AbstractSyntaxTree::Node
+          row[key] = :'#<programmatically generated via ruby code>'
+        end
+      end
+    end
+    def canonical_name(name, repo)
+      return name if name.include?('-')
+      repo = canonical_git_repo(repo)
+      return @sources[repo] if @sources.include?(repo)
+      name
+    end
+    def canonical_git_repo(repo)
+      return unless repo
+      return unless repo.is_a? String
+      repo.sub(/^git@github.com\:/, 'github.com/')
+          .sub(/^(git|https?)\:\/\//, '')
+          .sub(/\.git$/, '')
+    end
+    def add_module(name, args)
+      unless name.is_a? String
+        $logger.warn "Non string module name in #{@repo[:repo_name]}/Puppetfile"
+        return nil
+      end
+      name.gsub!('/', '-')
+      case args
+      when String, Symbol, NilClass
+        @modules << {
+          :module  => name,
+          :type    => :forge,
+          :source  => :forge,
+          :version => args,
+        }
+      when Hash
+        @modules << parse_args(name, args)
+      else
+        $logger.warn "#{@repo[:repo_name]}/Puppetfile: Unknown format: mod('#{name}', #{args.inspect})"
+      end
+    end
+    def parse_args(name, args)
+      data = {:module => name}
+      if args.include? :git
+        data[:type]    = :git
+        data[:source]  = args[:git]
+        data[:version] = args[:ref] || args[:tag] || args[:commit] || args[:branch] || :latest
+      elsif args.include? :svn
+        data[:type]    = :svn
+        data[:source]  = args[:svn]
+        data[:version] = args[:rev] || args[:revision] || :latest
+      elsif args.include? :boxen
+        data[:type]    = :boxen
+        data[:source]  = args[:repo]
+        data[:version] = args[:version] || :latest
+      else
+        $logger.warn "#{@repo[:repo_name]}/Puppetfile: Unknown args format: mod('#{name}', #{args.inspect})"
+        return nil
+      end
+      data
+    end
+    def traverse(node)
+      begin
+        if node.type == :FCALL
+          name = node.children.first
+          args = node.children.last.children.map do |item|
+            next if item.nil?
+            case item.type
+            when :HASH
+              Hash[*item.children.first.children.compact.map {|n| n.children.first }]
+            else
+              item.children.first
+            end
+          end.compact
+          case name
+          when :mod
+            add_module(args.shift, args.shift)
+          when :forge
+            # noop
+          when :moduledir
+            # noop
+          when :github
+            # oh boxen, you so silly.
+            # The order of the unpacking below *is* important.
+            modname = args.shift
+            version = args.shift
+            data    = args.shift || {}
+            # this is gross but I'm not sure I actually care right now.
+            if (modname.is_a? String and [String, NilClass].include? version.class and data.is_a? Hash)
+              data[:boxen]   = :boxen
+              data[:version] = version
+              add_module(modname, data)
+            else
+              $logger.warn "#{@repo[:repo_name]}/Puppetfile: malformed boxen"
+            end
+          else
+            # Should we record unexpected Ruby code or just log it to stdout?
+            args = args.map {|a| a.is_a?(String) ? "'#{a}'" : a}.join(', ')
+            $logger.warn "#{@repo[:repo_name]}/Puppetfile: Unexpected invocation of #{name}(#{args})"
+          end
+        end
+        node.children.each do |n|
+          next unless n.is_a? RubyVM::AbstractSyntaxTree::Node
+          traverse(n)
+        end
+      rescue => e
+        puts e.message
+      end
+    end
+    def test()
+      require 'pry'
+      binding.pry
+    end
+  end
+end

data/lib/mvp/runner.rb CHANGED Viewed

@@ -1,6 +1,10 @@
-require 'mvp/downloader'
-require 'mvp/uploader'
+require 'mvp/forge'
+require 'mvp/bigquery'
 require 'mvp/stats'
+require 'mvp/itemizer'
+require 'mvp/puppetfile_parser'
+require 'tty-spinner'
 class Mvp
   class Runner
@@ -11,40 +15,94 @@ class Mvp
     end
     def retrieve(target = :all, download = true)
-      downloader = Mvp::Downloader.new(@options)
+      bigquery = Mvp::Bigquery.new(@options)
-      [:authors, :modules, :releases].each do |thing|
-        next unless [:all, thing].include? target
-        downloader.retrieve(thing, download)
-      end
+      begin
+        [:authors, :modules, :releases, :validations].each do |thing|
+          next unless [:all, thing].include? target
+          spinner = mkspinner("Retrieving #{thing} ...")
+          data = bigquery.retrieve(thing)
+          save_json(thing, data)
+          spinner.success('(OK)')
+        end
-      if [:all, :validations].include? target
-        downloader.validations()
+      rescue => e
+        spinner.error("API error: #{e.message}")
+        $logger.error "API error: #{e.message}"
+        $logger.debug e.backtrace.join("\n")
+        sleep 10
       end
     end
-    def upload(target = :all)
-      uploader = Mvp::Uploader.new(@options)
+    def mirror(target = :all)
+      forge    = Mvp::Forge.new(@options)
+      bigquery = Mvp::Bigquery.new(@options)
+      itemizer = Mvp::Itemizer.new(@options)
+      pfparser = Mvp::PuppetfileParser.new(@options)
-      [:authors, :modules, :releases, :validations, :github_mirrors].each do |thing|
-        next unless [:all, thing].include? target
-        uploader.send(thing)
-      end
-    end
+      begin
+        [:authors, :modules, :releases].each do |thing|
+          next unless [:all, thing].include? target
+          spinner = mkspinner("Mirroring #{thing}...")
+          bigquery.truncate(thing)
+          forge.retrieve(thing) do |data, offset|
+            spinner.update(title: "Mirroring #{thing} [#{offset}]...")
+            bigquery.insert(thing, data)
+          end
+          spinner.success('(OK)')
+        end
-    def mirror(target = :all)
-      downloader = Mvp::Downloader.new(@options)
-      uploader   = Mvp::Uploader.new(@options)
+        if [:all, :validations].include? target
+          spinner = mkspinner("Mirroring validations...")
+          modules = bigquery.get(:modules, [:slug])
+          bigquery.truncate(:validations)
+          forge.retrieve_validations(modules) do |data, offset|
+            spinner.update(title: "Mirroring validations [#{offset}]...")
+            bigquery.insert(:validations, data)
+          end
+          spinner.success('(OK)')
+        end
-      # validations are downloaded with modules
-      [:authors, :modules, :releases].each do |thing|
-        next unless [:all, thing].include? target
-          uploader.truncate(thing)
-          downloader.mirror(thing, uploader)
-      end
+        if [:all, :itemizations].include? target
+          spinner = mkspinner("Itemizing modules...")
+          bigquery.unitemized.each do |mod|
+            spinner.update(title: "Itemizing [#{mod[:slug]}]...")
+            rows = itemizer.itemized(mod)
+            bigquery.delete(:itemized, :module, mod[:slug])
+            bigquery.insert(:itemized, rows)
+          end
+          spinner.success('(OK)')
+        end
+        if [:all, :mirrors, :tables].include? target
+          @options[:gcloud][:mirrors].each do |entity|
+            spinner = mkspinner("Mirroring #{entity[:type]} #{entity[:name]} to BigQuery...")
+            bigquery.mirror_table(entity)
+            spinner.success('(OK)')
+          end
+        end
+        if [:all, :puppetfiles].include? target
+          spinner = mkspinner("Analyzing Puppetfile module references...")
+          if pfparser.suitable?
+            pfparser.sources = bigquery.module_sources
+            bigquery.puppetfiles.each do |repo|
+              spinner.update(title: "Analyzing [#{repo[:repo_name]}/Puppetfile]...")
+              rows = pfparser.parse(repo)
+              bigquery.delete(:puppetfile_usage, :repo_name, repo[:repo_name], :github)
+              bigquery.insert(:puppetfile_usage, rows, :github)
+            end
+            spinner.success('(OK)')
+          else
+            spinner.error("(Not functional on Ruby #{RUBY_VERSION})")
+          end
+        end
-      if [:all, :mirrors].include? target
-        uploader.github_mirrors()
+      rescue => e
+        spinner.error("API error: #{e.message}")
+        $logger.error "API error: #{e.message}"
+        $logger.debug e.backtrace.join("\n")
+        sleep 10
       end
     end
@@ -57,6 +115,17 @@ class Mvp
       end
     end
+    def mkspinner(title)
+      spinner = TTY::Spinner.new("[:spinner] :title")
+      spinner.update(title: title)
+      spinner.auto_spin
+      spinner
+    end
+    def save_json(thing, data)
+      File.write("#{@cachedir}/#{thing}.json", data.to_json)
+    end
     def test()
       require 'pry'
       binding.pry

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: puppet-community-mvp
 version: !ruby/object:Gem::Version
-  version: 0.0.4
+  version: 0.0.5
 platform: ruby
 authors:
 - Ben Ford
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2018-10-31 00:00:00.000000000 Z
+date: 2019-03-05 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: json
@@ -151,13 +151,14 @@ files:
 - LICENSE
 - README.md
 - bin/mvp
+- bin/pftest.rb
 - lib/mvp.rb
-- lib/mvp/downloader.rb
+- lib/mvp/bigquery.rb
+- lib/mvp/forge.rb
 - lib/mvp/itemizer.rb
-- lib/mvp/monkeypatches.rb
+- lib/mvp/puppetfile_parser.rb
 - lib/mvp/runner.rb
 - lib/mvp/stats.rb
-- lib/mvp/uploader.rb
 homepage:
 licenses:
 - Apache 2

data/lib/mvp/monkeypatches.rb DELETED Viewed

@@ -1,8 +0,0 @@
-# BigQuery uses newline delimited json
-# https://en.wikipedia.org/wiki/JSON_streaming#Line-delimited_JSON
-class Array
-  def to_newline_delimited_json
-    self.map(&:to_json).join("\n")
-  end
-end