RubyGems - answersengine - Versions diffs - 0.2.33 - Mend

answersengine 0.2.33

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (65) hide show

checksums.yaml +7 -0
data/.gitignore +12 -0
data/.travis.yml +7 -0
data/CODE_OF_CONDUCT.md +74 -0
data/Gemfile +6 -0
data/LICENSE.txt +21 -0
data/README.md +30 -0
data/Rakefile +22 -0
data/answersengine.gemspec +45 -0
data/bin/console +14 -0
data/bin/setup +8 -0
data/examples/fetchtest/libraries/hello.rb +9 -0
data/examples/fetchtest/libraries/hello_fail.rb +10 -0
data/examples/fetchtest/parsers/failed.rb +2 -0
data/examples/fetchtest/parsers/find_outputs.rb +18 -0
data/examples/fetchtest/parsers/home.rb +50 -0
data/examples/fetchtest/parsers/nested_fail.rb +3 -0
data/examples/fetchtest/parsers/simple.rb +14 -0
data/examples/fetchtest/seeders/csv_seeder.rb +12 -0
data/examples/fetchtest/seeders/failed.rb +1 -0
data/examples/fetchtest/seeders/list_of_urls.csv +5 -0
data/examples/fetchtest/seeders/seed.rb +28 -0
data/examples/fetchtest/seeders/test_reset_page.rb +4 -0
data/exe/answersengine +3 -0
data/lib/answersengine.rb +5 -0
data/lib/answersengine/cli.rb +33 -0
data/lib/answersengine/cli/global_page.rb +39 -0
data/lib/answersengine/cli/job.rb +30 -0
data/lib/answersengine/cli/job_output.rb +69 -0
data/lib/answersengine/cli/parser.rb +64 -0
data/lib/answersengine/cli/scraper.rb +172 -0
data/lib/answersengine/cli/scraper_deployment.rb +24 -0
data/lib/answersengine/cli/scraper_export.rb +51 -0
data/lib/answersengine/cli/scraper_exporter.rb +40 -0
data/lib/answersengine/cli/scraper_job.rb +71 -0
data/lib/answersengine/cli/scraper_page.rb +200 -0
data/lib/answersengine/cli/seeder.rb +40 -0
data/lib/answersengine/client.rb +23 -0
data/lib/answersengine/client/backblaze_content.rb +45 -0
data/lib/answersengine/client/base.rb +50 -0
data/lib/answersengine/client/export.rb +10 -0
data/lib/answersengine/client/global_page.rb +18 -0
data/lib/answersengine/client/job.rb +53 -0
data/lib/answersengine/client/job_export.rb +10 -0
data/lib/answersengine/client/job_log.rb +27 -0
data/lib/answersengine/client/job_output.rb +19 -0
data/lib/answersengine/client/job_page.rb +62 -0
data/lib/answersengine/client/job_stat.rb +16 -0
data/lib/answersengine/client/scraper.rb +54 -0
data/lib/answersengine/client/scraper_deployment.rb +17 -0
data/lib/answersengine/client/scraper_export.rb +22 -0
data/lib/answersengine/client/scraper_exporter.rb +14 -0
data/lib/answersengine/client/scraper_job.rb +49 -0
data/lib/answersengine/client/scraper_job_output.rb +19 -0
data/lib/answersengine/client/scraper_job_page.rb +55 -0
data/lib/answersengine/plugin.rb +6 -0
data/lib/answersengine/plugin/context_exposer.rb +55 -0
data/lib/answersengine/scraper.rb +16 -0
data/lib/answersengine/scraper/executor.rb +292 -0
data/lib/answersengine/scraper/parser.rb +18 -0
data/lib/answersengine/scraper/ruby_parser_executor.rb +141 -0
data/lib/answersengine/scraper/ruby_seeder_executor.rb +114 -0
data/lib/answersengine/scraper/seeder.rb +18 -0
data/lib/answersengine/version.rb +3 -0
metadata +255 -0

data/exe/answersengine ADDED Viewed

@@ -0,0 +1,3 @@
+#!/usr/bin/env ruby
+require 'answersengine/cli'
+AnswersEngine::CLI.start

data/lib/answersengine.rb ADDED Viewed

@@ -0,0 +1,5 @@
+require "answersengine/version"
+require "answersengine/scraper"
+module AnswersEngine
+end

data/lib/answersengine/cli.rb ADDED Viewed

@@ -0,0 +1,33 @@
+require 'thor'
+require 'answersengine/scraper'
+require 'answersengine/cli/scraper_exporter'
+require 'answersengine/cli/scraper_export'
+require 'answersengine/cli/scraper_job'
+require 'answersengine/cli/global_page'
+require 'answersengine/cli/scraper_page'
+require 'answersengine/cli/job_output'
+require 'answersengine/cli/job'
+require 'answersengine/cli/scraper_deployment'
+require 'answersengine/cli/scraper'
+require 'answersengine/cli/parser'
+require 'answersengine/cli/seeder'
+module AnswersEngine
+  class CLI < Thor
+    desc "scraper SUBCOMMAND ...ARGS", "manage scrapers"
+    subcommand "scraper", Scraper
+    desc "job SUBCOMMAND ...ARGS", "manage scrapers jobs"
+    subcommand "job", Job
+    desc "globalpage SUBCOMMAND ...ARGS", "interacts with global page"
+    subcommand "globalpage", GlobalPage
+    desc "parser SUBCOMMAND ...ARGS", "for parsing related activities"
+    subcommand "parser", Parser
+    desc "seeder SUBCOMMAND ...ARGS", "for seeding related activities"
+    subcommand "seeder", Seeder
+  end
+end

data/lib/answersengine/cli/global_page.rb ADDED Viewed

@@ -0,0 +1,39 @@
+module AnswersEngine
+  class CLI < Thor
+    class GlobalPage < Thor
+      desc "show <gid>", "Show a global page"
+      def show(gid)
+        client = Client::GlobalPage.new(options)
+        puts "#{client.find(gid)}"
+      end
+      desc "content <gid>", "Show content of a globalpage"
+      def content(gid)
+        client = Client::GlobalPage.new(options)
+        result = JSON.parse(client.find_content(gid).to_s)
+        if result['available'] == true
+          puts "Preview content url: \"#{result['preview_url']}\""
+          `open "#{result['preview_url']}"`
+        else
+          puts "Content does not exist"
+        end
+      end
+      desc "failedcontent <gid>", "Show failed content of a globalpage"
+      def failedcontent(gid)
+        client = Client::GlobalPage.new(options)
+        result = JSON.parse(client.find_failed_content(gid).to_s)
+        if result['available'] == true
+          puts "Preview failed content url: \"#{result['preview_url']}\""
+          `open "#{result['preview_url']}"`
+        else
+          puts "Failed Content does not exist"
+        end
+      end
+    end
+  end
+end

data/lib/answersengine/cli/job.rb ADDED Viewed

@@ -0,0 +1,30 @@
+module AnswersEngine
+  class CLI < Thor
+    class Job < Thor
+      package_name "job"
+      def self.banner(command, namespace = nil, subcommand = false)
+        "#{basename} #{@package_name} #{command.usage}"
+      end
+      desc "list", "gets a list of jobs"
+      option :page, :aliases => :p, type: :numeric, desc: 'Get the next set of records by page.'
+      option :per_page, :aliases => :P, type: :numeric, desc: 'Number of records per page. Max 500 per page.'
+      long_desc <<-LONGDESC
+        List scrape jobs.
+      LONGDESC
+      def list()
+        client = Client::Job.new(options)
+        puts "#{client.all()}"
+      end
+      desc "show <job_id>", "Show a job"
+      def show(job_id)
+        client = Client::Job.new(options)
+        puts "#{client.find(job_id)}"
+      end
+    end
+  end
+end

data/lib/answersengine/cli/job_output.rb ADDED Viewed

@@ -0,0 +1,69 @@
+module AnswersEngine
+  class CLI < Thor
+    class JobOutput < Thor
+      package_name "scraper output"
+      def self.banner(command, namespace = nil, subcommand = false)
+        "#{basename} #{@package_name} #{command.usage}"
+      end
+      desc "list <scraper_name>", "List output records in a collection that is in the current job"
+      long_desc <<-LONGDESC
+        List all output records in a collection that is in the current job of a scraper\n
+      LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      option :page, :aliases => :p, type: :numeric, desc: 'Get the next set of records by page.'
+      option :per_page, :aliases => :P, type: :numeric, desc: 'Number of records per page. Max 500 per page.'
+      option :collection, :aliases => :c, desc: "Shows outputs from a specific collection.(defaults to 'default' collection)"
+      option :query, :aliases => :q, type: :string, banner: :JSON, desc: 'Set search query. Must be in json format. i.e: {"Foo":"bar"} '
+      def list(scraper_name)
+        collection = options.fetch(:collection) { 'default' }
+        if options[:job]
+          client = Client::JobOutput.new(options)
+          puts "#{client.all(options[:job], collection)}"
+        else
+          client = Client::ScraperJobOutput.new(options)
+          puts "#{client.all(scraper_name, collection)}"
+        end
+      end
+      desc "show <scraper_name> <record_id>", "Show one output record in a collection that is in the current job of a scraper"
+      long_desc <<-LONGDESC
+        Shows an output record in a collection that is in the current job of a scraper\n
+        <record_id>: ID of the output record.\x5
+      LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      option :collection, :aliases => :c, desc: "Shows output from a specific collection.(defaults to 'default' collection)"
+      def show(scraper_name, id)
+        collection = options.fetch(:collection) { 'default' }
+        if options[:job]
+          client = Client::JobOutput.new(options)
+          puts "#{client.find(options[:job], collection, id)}"
+        else
+          client = Client::ScraperJobOutput.new(options)
+          puts "#{client.find(scraper_name, collection, id)}"
+        end
+      end
+      desc "collections <scraper_name>", "list job output collections that are inside a current job of a scraper."
+      long_desc <<-LONGDESC
+        List job output collections that are inside a current job of a scraper.\x5
+      LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      option :page, :aliases => :p, type: :numeric, desc: 'Get the next set of records by page.'
+      option :per_page, :aliases => :P, type: :numeric, desc: 'Number of records per page. Max 500 per page.'
+      def collections(scraper_name)
+        if options[:job]
+          client = Client::JobOutput.new(options)
+          puts "#{client.collections(options[:job])}"
+        else
+          client = Client::ScraperJobOutput.new(options)
+          puts "#{client.collections(scraper_name)}"
+        end
+      end
+    end
+  end
+end

data/lib/answersengine/cli/parser.rb ADDED Viewed

@@ -0,0 +1,64 @@
+module AnswersEngine
+  class CLI < Thor
+    class Parser < Thor
+      desc "try <scraper_name> <parser_file> <GID>", "Tries a parser on a Job Page"
+      long_desc <<-LONGDESC
+            Takes a parser script and runs it against a job page\x5
+            <parser_file>: Parser script file that will be executed on the page.\x5
+            <GID>: Global ID of the page.\x5
+          LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      option :global, :aliases => :g, type: :boolean, default: false, desc: 'Use globalpage instead of a job page'
+      option :vars, :aliases => :v, type: :string, desc: 'Set user-defined page variables. Must be in json format. i.e: {"Foo":"bar"}'
+      def try_parse(scraper_name, parser_file, gid)
+        begin
+            if options[:job]
+              job_id = options[:job]
+            elsif options[:global]
+              job_id = nil
+            else
+              job = Client::ScraperJob.new(options).find(scraper_name)
+              job_id = job['id']
+            end
+          vars = JSON.parse(options[:vars]) if options[:vars]
+          puts AnswersEngine::Scraper::Parser.exec_parser_page(parser_file, gid, job_id, false, vars)
+          rescue JSON::ParserError
+          if options[:vars]
+            puts "Error: #{options[:vars]} on vars is not a valid JSON"
+          end
+        end
+      end
+      desc "exec <scraper_name> <parser_file> <GID>...<GID>", "Executes a parser script on one or more Job Pages within a scraper's current job"
+      long_desc <<-LONGDESC
+            Takes a parser script executes it against a job page(s) and save the output to the scraper's current job\x5
+            <parser_file>: Parser script file will be executed on the page.\x5
+            <GID>: Global ID of the page.\x5
+          LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      def exec_parse(scraper_name, parser_file, *gids)
+        gids.each do |gid|
+          begin
+            puts "Parsing #{gid}"
+            if options[:job]
+              job_id = options[:job]
+            else
+              job = Client::ScraperJob.new(options).find(scraper_name)
+              job_id = job['id']
+            end
+            puts AnswersEngine::Scraper::Parser.exec_parser_page(parser_file, gid, job_id, true)
+          rescue => e
+            puts e
+          end
+        end
+      end
+    end
+  end
+end

data/lib/answersengine/cli/scraper.rb ADDED Viewed

@@ -0,0 +1,172 @@
+module AnswersEngine
+  class CLI < Thor
+    class Scraper < Thor
+      desc "list", "List scrapers"
+      long_desc <<-LONGDESC
+        List all scrapers.
+      LONGDESC
+      option :page, :aliases => :p, type: :numeric, desc: 'Get the next set of records by page.'
+      option :per_page, :aliases => :P, type: :numeric, desc: 'Number of records per page. Max 500 per page.'
+      def list
+        client = Client::Scraper.new(options)
+        puts "#{client.all}"
+      end
+      desc "create <scraper_name> <git_repository>", "Create a scraper"
+      long_desc <<-LONGDESC
+          Creates a scraper\x5
+          <scraper_name>: Scraper name can only consist of alphabets, numbers, underscores and dashes. Name must be unique to your account.\x5
+          <git_repository>: URL to a valid Git repository.\x5
+          LONGDESC
+      option :branch, :aliases => :b, desc: 'Set the Git branch to use. Default: master'
+      option :freshness_type, :aliases => :t, desc: 'Set how fresh the page cache is. Possible values: day, week, month, year. Default: any'
+      option :proxy_type, desc: 'Set the Proxy type. Default: standard'
+      option :force_fetch, :aliases => :f, type: :boolean, desc: 'Set true to force fetch page that is not within freshness criteria. Default: false'
+      option :workers, :aliases => :w, type: :numeric, desc: 'Set how many standard workers to use. Default: 1'
+      option :browsers, type: :numeric, desc: 'Set how many browser workers to use. Default: 0'
+      option :disable_scheduler, type: :boolean, desc: 'Set true to disable scheduler. Default: false'
+      option :cancel_current_job, type: :boolean, desc: 'Set true to cancel currently active job if scheduler starts. Default: false'
+      option :schedule, type: :string, desc: 'Set the schedule of the scraper to run. Must be in CRON format.'
+      option :timezone, type: :string, desc: "Set the scheduler's timezone. Must be in IANA Timezone format. Defaults to \"America/Toronto\""
+      def create(scraper_name, git_repository)
+        puts "options #{options}"
+        client = Client::Scraper.new(options)
+        puts "#{client.create(scraper_name, git_repository, options)}"
+      end
+      desc "update <scraper_name>", "Update a scraper"
+      long_desc <<-LONGDESC
+          Updates a scraper\x5
+          LONGDESC
+      option :branch, :aliases => :b, desc: 'Set the Git branch to use. Default: master'
+      option :name, :aliases => :n, desc: 'Set the scraper name. Name can only consist of alphabets, numbers, underscores and dashes. Name must be unique to your account'
+      option :repo, :aliases => :r, desc: 'Set the URL to a valid Git repository'
+      option :freshness_type, :aliases => :t, desc: 'Set how fresh the page cache is. Possible values: day, week, month, year. Default: any'
+      option :proxy_type, desc: 'Set the Proxy type. Default: standard'
+      option :force_fetch, :aliases => :f, type: :boolean, desc: 'Set true to force fetch page that is not within freshness criteria. Default: false'
+      option :workers, :aliases => :w, type: :numeric, desc: 'Set how many standard workers to use. Default: 1'
+      option :browsers, type: :numeric, desc: 'Set how many browser workers to use. Default: 0'
+      option :disable_scheduler, type: :boolean, desc: 'Set true to disable scheduler. Default: false'
+      option :cancel_current_job, type: :boolean, desc: 'Set true to cancel currently active job if scheduler starts. Default: false'
+      option :schedule, type: :string, desc: 'Set the schedule of the scraper to run. Must be in CRON format.'
+      option :timezone, type: :string, desc: "Set the scheduler's timezone. Must be in IANA Timezone format. Defaults to \"America/Toronto\""
+      def update(scraper_name)
+        client = Client::Scraper.new(options)
+        puts "#{client.update(scraper_name, options)}"
+      end
+      desc "show <scraper_name>", "Show a scraper"
+      def show(scraper_name)
+        client = Client::Scraper.new(options)
+        puts "#{client.find(scraper_name)}"
+      end
+      desc "deploy <scraper_name>", "Deploy a scraper"
+      long_desc <<-LONGDESC
+          Deploys a scraper
+          LONGDESC
+      def deploy(scraper_name)
+        client = Client::ScraperDeployment.new()
+        puts "Deploying scraper. This may take a while..."
+        puts "#{client.deploy(scraper_name)}"
+      end
+      desc "start <scraper_name>", "Creates a scraping job and runs it"
+      long_desc <<-LONGDESC
+          Starts a scraper by creating an active scrape job\x5
+          LONGDESC
+      option :workers, :aliases => :w, type: :numeric, desc: 'Set how many standard workers to use. Default: 1'
+      option :browsers, type: :numeric, desc: 'Set how many browser workers to use. Default: 0'
+      option :proxy_type, desc: 'Set the Proxy type. Default: standard'
+      def start(scraper_name)
+        client = Client::ScraperJob.new(options)
+        puts "Starting a scrape job..."
+        puts "#{client.create(scraper_name, options)}"
+      end
+      desc "log <scraper_name>", "List log entries related to a scraper's current job"
+      long_desc <<-LONGDESC
+          Shows log related to a scraper's current job. Defaults to showing the most recent entries\x5
+          LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      option :head, :aliases => :H, desc: 'Show the oldest log entries. If not set, newest entries is shown'
+      option :parsing, :aliases => :p, type: :boolean, desc: 'Show only log entries related to parsing errors'
+      option :seeding, :aliases => :s, type: :boolean, desc: 'Show only log entries related to seeding errors'
+      option :more, :aliases => :m, desc: 'Show next set of log entries. Enter the `More token`'
+      option :per_page, :aliases => :P, type: :numeric, desc: 'Number of records per page. Max 5000 per page.'
+      def log(scraper_name)
+        client = Client::JobLog.new(options)
+        query = {}
+        query["order"] = options.delete(:head) if options[:head]
+        query["job_type"] = "parsing" if options[:parsing]
+        query["job_type"] = "seeding" if options[:seeding]
+        query["page_token"] = options.delete(:more) if options[:more]
+        query["per_page"] = options.delete(:per_page) if options[:per_page]
+        puts "Fetching logs..."
+        if options[:job]
+          result = client.all_job_log(options[:job], {query: query})
+        else
+          result = client.scraper_all_job_log(scraper_name, {query: query})
+        end
+        if result['entries'].nil? || result["entries"].length == 0
+          puts "No logs yet, please try again later."
+        else
+          more_token = result["more_token"]
+          result["entries"].each do |entry|
+            puts "#{entry["timestamp"]} #{entry["severity"]}: #{entry["payload"]}" if entry.is_a?(Hash)
+          end
+          unless more_token.nil?
+            puts "-----------"
+            puts "To see more entries, add: \"--more #{more_token}\""
+          end
+        end
+      end
+      desc "stats <scraper_name>", "Get the current stat for a job"
+      long_desc <<-LONGDESC
+        Get stats for a scraper's current job\n
+      LONGDESC
+      option :job, :aliases => :j, type: :numeric, desc: 'Set a specific job ID'
+      def stats(scraper_name)
+        client = Client::JobStat.new(options)
+        if options[:job]
+          puts "#{client.job_current_stats(options[:job])}"
+        else
+          puts "#{client.scraper_job_current_stats(scraper_name)}"
+        end
+      end
+      desc "job SUBCOMMAND ...ARGS", "manage scrapers jobs"
+      subcommand "job", ScraperJob
+      desc "deployment SUBCOMMAND ...ARGS", "manage scrapers deployments"
+      subcommand "deployment", ScraperDeployment
+      desc "output SUBCOMMAND ...ARGS", "view scraper outputs"
+      subcommand "output", JobOutput
+      desc "page SUBCOMMAND ...ARGS", "manage pages on a job"
+      subcommand "page", ScraperPage
+      desc "export SUBCOMMAND ...ARGS", "manage scraper's exports"
+      subcommand "export", ScraperExport
+      desc "exporter SUBCOMMAND ...ARGS", "manage scraper's exporters"
+      subcommand "exporter", ScraperExporter
+    end
+  end
+end

data/lib/answersengine/cli/scraper_deployment.rb ADDED Viewed

@@ -0,0 +1,24 @@
+module AnswersEngine
+  class CLI < Thor
+    class ScraperDeployment < Thor
+      package_name "scraper deployment"
+      def self.banner(command, namespace = nil, subcommand = false)
+        "#{basename} #{@package_name} #{command.usage}"
+      end
+      desc "list <scraper_name>", "List deployments on a scraper"
+      long_desc <<-LONGDESC
+        List deployments on a scraper.
+      LONGDESC
+      option :page, :aliases => :p, type: :numeric, desc: 'Get the next set of records by page.'
+      option :per_page, :aliases => :P, type: :numeric, desc: 'Number of records per page. Max 500 per page.'
+      def list(scraper_name)
+        client = Client::ScraperDeployment.new(options)
+        puts "#{client.all(scraper_name)}"
+      end
+    end
+  end
+end