RubyGems - completion-kit - Versions diffs - 0.2.1 → 0.4.0 - Mend

completion-kit 0.2.1 → 0.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (45) hide show

checksums.yaml +4 -4
data/LICENSE +97 -0
data/README.md +19 -2
data/app/assets/stylesheets/completion_kit/application.css +87 -0
data/app/controllers/completion_kit/api/v1/runs_controller.rb +26 -5
data/app/controllers/completion_kit/runs_controller.rb +31 -11
data/app/helpers/completion_kit/application_helper.rb +4 -12
data/app/jobs/completion_kit/generate_row_job.rb +102 -0
data/app/jobs/completion_kit/judge_review_job.rb +110 -0
data/app/jobs/completion_kit/model_discovery_job.rb +22 -4
data/app/jobs/completion_kit/run_completion_check_job.rb +18 -0
data/app/models/completion_kit/prompt.rb +4 -0
data/app/models/completion_kit/response.rb +29 -2
data/app/models/completion_kit/review.rb +17 -2
data/app/models/completion_kit/run.rb +90 -96
data/app/services/completion_kit/anthropic_client.rb +13 -0
data/app/services/completion_kit/mcp_tools/runs.rb +5 -13
data/app/services/completion_kit/ollama_client.rb +13 -0
data/app/services/completion_kit/open_ai_client.rb +11 -0
data/app/services/completion_kit/open_router_client.rb +13 -0
data/app/services/completion_kit/worker_health.rb +10 -0
data/app/views/completion_kit/api_reference/index.html.erb +0 -5
data/app/views/completion_kit/prompts/_form.html.erb +8 -5
data/app/views/completion_kit/runs/_actions.html.erb +1 -1
data/app/views/completion_kit/runs/_form.html.erb +6 -3
data/app/views/completion_kit/runs/_progress.html.erb +1 -1
data/app/views/completion_kit/runs/_response_row.html.erb +26 -8
data/app/views/completion_kit/runs/_status_header.html.erb +36 -1
data/app/views/completion_kit/runs/show.html.erb +1 -1
data/app/views/layouts/completion_kit/application.html.erb +28 -2
data/config/routes.rb +2 -2
data/db/migrate/20260501000001_add_status_and_error_to_responses.rb +21 -0
data/db/migrate/20260501000002_index_responses_on_run_id_and_status.rb +9 -0
data/db/migrate/20260501000003_add_status_and_error_to_reviews.rb +25 -0
data/db/migrate/20260501000004_index_reviews_on_response_id_and_status.rb +9 -0
data/db/migrate/20260501000005_collapse_run_status_and_add_failure_summary.rb +15 -0
data/lib/completion_kit/concurrency_check.rb +16 -0
data/lib/completion_kit/errors.rb +16 -0
data/lib/completion_kit/version.rb +1 -1
data/lib/completion_kit.rb +2 -2
data/lib/tasks/completion_kit_runs.rake +13 -0
metadata +31 -7
data/MIT-LICENSE +0 -20
data/app/jobs/completion_kit/generate_job.rb +0 -12
data/app/jobs/completion_kit/judge_job.rb +0 -12

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: c87481def48cfd6193ee591e9ac1ab1a2be6b7de63a3275c82f7f7175804abfc
-  data.tar.gz: 333b23de10b7e81daeac7c118f2c4ae13b2624304a1d04404b206aa5dffce092
+  metadata.gz: 0111ef5469e6634ac46f899c5e78a67aa212a174027ce253c7172a326a375121
+  data.tar.gz: 73162904d2924d4434b724d8e14e7c38e86ef4262de73c18585a6cc38b87e0cb
 SHA512:
-  metadata.gz: '0538aae286aeffe40644e580dc84a27ee1bc2a187fe0a060f33bc4dfb30e04a769f9daa2b8a59b19633d35b8f79172a40bcd03d75d136c5dc1d4a8af92e5aa4a'
-  data.tar.gz: 1843ea626685029288ec9533edc07a800bca18b8e435de22d1b6c32c59e4b2d52c08999833f7b123d983855e445a95ae814cb12a31aa21c041bac11d7a70c466
+  metadata.gz: 5a38d31eeb9fdc4482890799fe34ac7fbf57009c77874bcbcd0b4fc6b37f1878d4890137f83bdab52db469a7e91323438ae31d491272aa022e9c7f55fc5ad16a
+  data.tar.gz: 64eac5ee675ed6090835b291b64b4cd6dfe30a5c7db36589c8411e9e67331c762977c97533108a9a9c17680dbad43cfcacb024e68666c5af70ec76b7772844de

data/LICENSE ADDED Viewed

@@ -0,0 +1,97 @@
+Business Source License 1.1
+Licensor:             Homemade Software, Inc.
+Licensed Work:        CompletionKit
+                      The Licensed Work is Copyright © 2026 Homemade
+                      Software, Inc.
+Additional Use Grant: You may use the Licensed Work for any purpose,
+                      including in production, except to offer the Licensed
+                      Work (or any derivative work) to third parties as a
+                      hosted or managed service whose primary value is the
+                      functionality of the Licensed Work itself.
+Change Date:          2029-04-25
+Change License:       GNU General Public License (GPL) Version 3
+For information about alternative licensing arrangements for the Licensed
+Work, please contact hello@homemade.software.
+--------------------------------------------------------------------------------
+Business Source License 1.1
+Terms
+The Licensor hereby grants you the right to copy, modify, create derivative
+works, redistribute, and make non-production use of the Licensed Work. The
+Licensor may make an Additional Use Grant, above, permitting limited
+production use.
+Effective on the Change Date, or the fourth anniversary of the first publicly
+available distribution of a specific version of the Licensed Work under this
+License, whichever comes first, the Licensor hereby grants you rights under
+the terms of the Change License, and the rights granted in the paragraph
+above terminate.
+If your use of the Licensed Work does not comply with the requirements
+currently in effect as described in this License, you must purchase a
+commercial license from the Licensor, its affiliated entities, or authorized
+resellers, or you must refrain from using the Licensed Work.
+All copies of the original and modified Licensed Work, and derivative works
+of the Licensed Work, are subject to this License. This License applies
+separately for each version of the Licensed Work and the Change Date may
+vary for each version of the Licensed Work released by Licensor.
+You must conspicuously display this License on each original or modified
+copy of the Licensed Work. If you receive the Licensed Work in original or
+modified form from a third party, the terms and conditions set forth in this
+License apply to your use of that work.
+Any use of the Licensed Work in violation of this License will automatically
+terminate your rights under this License for the current and all other
+versions of the Licensed Work.
+This License does not grant you any right in any trademark or logo of
+Licensor or its affiliates (provided that you may use a trademark or logo of
+Licensor as expressly required by this License).
+TO THE EXTENT PERMITTED BY APPLICABLE LAW, THE LICENSED WORK IS PROVIDED ON
+AN "AS IS" BASIS. LICENSOR HEREBY DISCLAIMS ALL WARRANTIES AND CONDITIONS,
+EXPRESS OR IMPLIED, INCLUDING (WITHOUT LIMITATION) WARRANTIES OF
+MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE, NON-INFRINGEMENT, AND
+TITLE.
+MariaDB hereby grants you permission to use this License's text to license
+your works, and to refer to it using the trademark "Business Source
+License", as long as you comply with the Covenants of Licensor below.
+Covenants of Licensor
+In consideration of the right to use this License's text and the "Business
+Source License" name and trademark, Licensor covenants to MariaDB, and to
+all other recipients of the Licensed Work to be provided by Licensor:
+1. To specify as the Change License the GPL Version 2.0 or any later
+   version, or a license that is compatible with GPL Version 2.0 or a later
+   version, where "compatible" means that software provided under the Change
+   License can be included in a program with software provided under GPL
+   Version 2.0 or a later version. Licensor may specify additional Change
+   Licenses without limitation.
+2. To either: (a) specify an additional grant of rights to use that does not
+   impose any additional restriction on the right granted in this License,
+   as the Additional Use Grant; or (b) insert the text "None".
+3. To specify a Change Date.
+4. Not to modify this License in any other way.
+Notice
+The Business Source License (this document, or the "License") is not an
+Open Source license. However, the Licensed Work will eventually be made
+available under an Open Source License, as stated in this License.

data/README.md CHANGED Viewed

@@ -15,6 +15,8 @@ It's the difference between "this prompt seems to work" and "this prompt scores
 **[completionkit.com](https://completionkit.com)** | **[RubyGems](https://rubygems.org/gems/completion-kit)**
+> **CompletionKit Cloud** is coming — hosted, managed CompletionKit with zero setup. Early access opening soon at [app.completionkit.com](https://app.completionkit.com).
 ![Prompts index](https://raw.githubusercontent.com/homemade-software-inc/completion-kit/main/docs/screenshots/prompts.png)
 ![Prompt detail with metrics and rubrics](https://raw.githubusercontent.com/homemade-software-inc/completion-kit/main/docs/screenshots/prompt-detail.png)
@@ -33,9 +35,20 @@ cd completion-kit/standalone
 bundle install
 bin/rails completion_kit:install:migrations
 bin/rails db:migrate
+```
+Then run **both** processes — a web server and a Solid Queue worker. In two terminals:
+```bash
 bin/rails server
 ```
+```bash
+bin/jobs
+```
+Or with [foreman](https://github.com/ddollar/foreman) in one terminal: `foreman start -f Procfile.dev`.
 Visit `http://localhost:3000`. Add a provider credential (Settings), create a prompt, upload a CSV dataset, and run it.
 ### Or mount as an engine in your existing Rails app
@@ -49,7 +62,7 @@ bin/rails generate completion_kit:install
 bin/rails db:migrate
 ```
-The engine mounts at `/completion_kit` in your app.
+The engine mounts at `/completion_kit` in your app. CompletionKit's generate and judge flows enqueue Active Job jobs (`CompletionKit::GenerateRowJob`, `CompletionKit::JudgeReviewJob`, `CompletionKit::RunCompletionCheckJob`), so your host app needs an Active Job adapter that actually processes them — Solid Queue, Sidekiq, GoodJob, etc. The `:async` adapter is **not** suitable for production: it runs jobs in the web Puma's thread pool with no durability and no retry, and a long LLM call will block request handling.
 ## Providers
@@ -200,4 +213,8 @@ See [CONTRIBUTING.md](CONTRIBUTING.md) for development setup, testing, and pull
 ## License
-[MIT](https://opensource.org/licenses/MIT)
+CompletionKit 0.3.0 and later are licensed under the [Business Source License 1.1](LICENSE). You may use CompletionKit freely for any purpose, including production, except to offer it (or a derivative) to third parties as a hosted or managed service whose primary value is CompletionKit itself. Three years after each release, that version automatically re-licenses to GPL-3.
+CompletionKit 0.2.x and earlier remain available under the [MIT License](https://github.com/homemade-software-inc/completion-kit/blob/v0.2.0/MIT-LICENSE).
+For alternative licensing, contact hello@homemade.software.

data/app/assets/stylesheets/completion_kit/application.css CHANGED Viewed

@@ -274,6 +274,39 @@ form.button_to {
   color: var(--ck-accent);
 }
+.ck-disclosure-toggle {
+  appearance: none;
+  background: transparent;
+  border: 0;
+  padding: 0;
+  margin: 0.5rem 0 0;
+  font-family: var(--ck-mono);
+  font-size: 0.75rem;
+  font-weight: 500;
+  letter-spacing: 0.12em;
+  text-transform: uppercase;
+  color: var(--ck-muted);
+  cursor: pointer;
+  transition: color 0.15s;
+}
+.ck-disclosure-toggle:hover,
+.ck-disclosure-toggle:focus-visible {
+  color: var(--ck-accent);
+  outline: none;
+}
+.ck-disclosure-toggle::after {
+  content: " ↓";
+  display: inline-block;
+  margin-left: 0.25rem;
+  transition: transform 0.15s;
+}
+.ck-disclosure-toggle[aria-expanded="true"]::after {
+  transform: rotate(180deg);
+}
 .ck-list {
   display: grid;
   gap: 0.5rem;
@@ -385,6 +418,18 @@ tr:hover .ck-chip--publish {
   color: var(--ck-accent);
 }
+.ck-chip--warning {
+  background: var(--ck-warning-soft);
+  border-color: rgba(224, 164, 88, 0.3);
+  color: var(--ck-warning);
+}
+.ck-chip--danger {
+  background: var(--ck-danger-soft);
+  border-color: rgba(248, 113, 113, 0.3);
+  color: var(--ck-danger);
+}
 .ck-badge--high {
   background: var(--ck-success-soft);
   border: 1px solid rgba(34, 197, 94, 0.25);
@@ -679,6 +724,27 @@ tr:hover .ck-chip--publish {
   color: var(--ck-text);
 }
+.ck-progress-block {
+  padding: 0.5rem 1rem 0.75rem;
+  border-top: 1px solid var(--ck-line);
+  font-size: 0.72rem;
+  font-family: var(--ck-mono);
+  color: var(--ck-muted);
+  display: flex;
+  flex-direction: column;
+  gap: 0.25rem;
+}
+.ck-progress-line {
+  display: flex;
+  gap: 0.4rem;
+  align-items: baseline;
+}
+.ck-progress-failed {
+  color: var(--ck-danger);
+}
 .ck-model-list-details summary {
   list-style: none;
 }
@@ -802,6 +868,12 @@ tr:hover .ck-chip--publish {
   color: var(--ck-muted);
 }
+.ck-field--info #refresh-status,
+.ck-field--warn #refresh-status,
+.ck-field--error #refresh-status {
+  color: var(--ck-muted);
+}
 .ck-field--info .ck-input {
   border-color: var(--ck-accent);
 }
@@ -1815,6 +1887,21 @@ select.ck-input {
   flex-shrink: 0;
 }
+.ck-response-row--pending .ck-response-row__text,
+.ck-response-row--retrying .ck-response-row__text {
+  color: var(--ck-dim);
+}
+.ck-response-row--failed .ck-response-row__text {
+  color: var(--ck-danger);
+  opacity: 0.8;
+}
+.ck-response-row__error {
+  font-family: var(--ck-mono);
+  font-size: 0.82rem;
+}
 .ck-score {
   font-size: 0.85rem;
   color: var(--ck-muted);

data/app/controllers/completion_kit/api/v1/runs_controller.rb CHANGED Viewed

@@ -2,7 +2,7 @@ module CompletionKit
   module Api
     module V1
       class RunsController < BaseController
-        before_action :set_run, only: [:show, :update, :destroy, :generate, :judge]
+        before_action :set_run, only: [:show, :update, :destroy, :generate, :retry_failures]
         def index
           render json: Run.order(created_at: :desc)
@@ -37,12 +37,33 @@ module CompletionKit
         end
         def generate
-          GenerateJob.perform_later(@run.id)
-          render json: @run.reload, status: :accepted
+          if @run.start!
+            render json: @run.reload, status: :accepted
+          else
+            render json: { errors: [@run.failure_summary || @run.errors.full_messages.to_sentence] }, status: :unprocessable_entity
+          end
         end
-        def judge
-          JudgeJob.perform_later(@run.id)
+        def retry_failures
+          scope = @run.responses.where(status: "failed")
+          scope = scope.where(id: params[:only]) if params[:only].present?
+          ActiveRecord::Base.transaction do
+            failed_response_ids = scope.pluck(:id)
+            CompletionKit::Review.where(response_id: failed_response_ids, status: "failed").update_all(
+              status: "pending", attempts: 0,
+              error_provider: nil, error_class: nil, error_status: nil, error_message: nil,
+              ai_score: nil, ai_feedback: nil
+            )
+            scope.update_all(
+              status: "pending", attempts: 0,
+              error_provider: nil, error_class: nil, error_status: nil, error_message: nil,
+              response_text: nil
+            )
+            @run.update!(status: "running")
+            failed_response_ids.each { |rid| CompletionKit::GenerateRowJob.perform_later(@run.id, rid) }
+          end
           render json: @run.reload, status: :accepted
         end

data/app/controllers/completion_kit/runs_controller.rb CHANGED Viewed

@@ -1,6 +1,6 @@
 module CompletionKit
   class RunsController < ApplicationController
-    before_action :set_run, only: [:show, :edit, :update, :destroy, :generate, :judge, :suggest, :suggestion, :apply_suggestion]
+    before_action :set_run, only: [:show, :edit, :update, :destroy, :generate, :suggest, :suggestion, :apply_suggestion, :retry_failures]
     before_action :load_form_collections, only: [:new, :edit, :create, :update]
     def index
@@ -63,17 +63,11 @@ module CompletionKit
     end
     def generate
-      @run.update!(status: "generating", progress_current: 0, progress_total: 0, error_message: nil)
-      GenerateJob.perform_later(@run.id)
-      redirect_to run_path(@run)
-    end
-    def judge
-      if params[:run]
-        @run.update(judge_model: params[:run][:judge_model])
+      if @run.start!
+        redirect_to run_path(@run)
+      else
+        redirect_to run_path(@run), alert: @run.failure_summary || @run.errors.full_messages.to_sentence
       end
-      JudgeJob.perform_later(@run.id)
-      redirect_to run_path(@run)
     end
     def suggest
@@ -93,6 +87,32 @@ module CompletionKit
       return redirect_to run_path(@run), alert: "No suggestion available. Generate one first." unless @suggestion
     end
+    def retry_failures
+      scope = @run.responses.where(status: "failed")
+      scope = scope.where(id: params[:only]) if params[:only].present?
+      ActiveRecord::Base.transaction do
+        failed_response_ids = scope.pluck(:id)
+        Review.where(response_id: failed_response_ids, status: "failed").update_all(
+          status: "pending",
+          attempts: 0,
+          error_provider: nil, error_class: nil, error_status: nil, error_message: nil,
+          ai_score: nil, ai_feedback: nil
+        )
+        scope.update_all(
+          status: "pending",
+          attempts: 0,
+          error_provider: nil, error_class: nil, error_status: nil, error_message: nil,
+          response_text: nil
+        )
+        @run.update!(status: "running")
+        failed_response_ids.each { |rid| GenerateRowJob.perform_later(@run.id, rid) }
+      end
+      @run.send(:broadcast_ui)
+      redirect_to run_path(@run)
+    end
     def apply_suggestion
       suggestion = @run.suggestions.order(created_at: :desc).first
       return redirect_to run_path(@run), alert: "No suggestion to apply." unless suggestion

data/app/helpers/completion_kit/application_helper.rb CHANGED Viewed

@@ -35,8 +35,6 @@ module CompletionKit
         "ck-badge ck-badge--pending"
       when "running"
         "ck-badge ck-badge--running"
-      when "generating", "judging"
-        "ck-badge ck-badge--running"
       when "completed"
         "ck-badge ck-badge--high"
       when "failed"
@@ -48,7 +46,7 @@ module CompletionKit
     def ck_run_dot(run)
       case run.status
-      when "generating", "judging" then "ck-dot ck-dot--running"
+      when "running" then "ck-dot ck-dot--running"
       when "failed" then "ck-dot ck-dot--failed"
       when "completed" then "ck-dot ck-dot--completed"
       else "ck-dot ck-dot--pending"
@@ -58,17 +56,11 @@ module CompletionKit
     def ck_run_status_label(run)
       case run.status
       when "pending" then "Ready to run"
-      when "generating"
-        if run.progress_total.to_i > 0
-          "Generating responses (#{run.progress_current}/#{run.progress_total})"
-        else
-          "Generating responses…"
-        end
-      when "judging"
+      when "running"
         if run.progress_total.to_i > 0
-          "Judging (#{run.progress_current}/#{run.progress_total} evaluations)"
+          "Running (#{run.progress_current}/#{run.progress_total})"
         else
-          "Judging…"
+          "Running…"
         end
       when "completed" then "Completed"
       when "failed" then "Failed"

data/app/jobs/completion_kit/generate_row_job.rb ADDED Viewed

@@ -0,0 +1,102 @@
+require "faraday"
+module CompletionKit
+  class GenerateRowJob < ApplicationJob
+    queue_as :llm
+    limits_concurrency to: ENV.fetch("COMPLETION_KIT_PER_RUN_CONCURRENCY", 5).to_i,
+                       key: ->(run_id, _) { "run:#{run_id}" },
+                       duration: 10.minutes
+    def self.rate_limit_wait(executions)
+      30 * executions
+    end
+    retry_on Faraday::TimeoutError,
+             Faraday::ConnectionFailed,
+             wait: :polynomially_longer, attempts: 5
+    retry_on CompletionKit::RateLimitError,
+             wait: method(:rate_limit_wait), attempts: 5
+    discard_on ActiveJob::DeserializationError
+    discard_on CompletionKit::ConfigurationError
+    rescue_from(StandardError) do |error|
+      record_terminal_failure!(error)
+      enqueue_completion_check
+    end
+    before_perform do |job|
+      response = Response.find_by(id: job.arguments.last)
+      next unless response
+      response.update_columns(status: "retrying", attempts: response.attempts + 1)
+      response.run.send(:broadcast_response_update, response) if response.run
+    end
+    def perform(run_id, response_id)
+      @run_id = run_id
+      @response_id = response_id
+      response = Response.find(response_id)
+      run = response.run
+      prompt = run.prompt
+      row = parsed_input(response)
+      rendered = CsvProcessor.apply_variables(prompt, row)
+      client = LlmClient.for_model(prompt.llm_model, ApiConfig.for_model(prompt.llm_model))
+      raise ConfigurationError, client.configuration_errors.join(", ") unless client.configured?
+      text = client.generate_completion(rendered, model: prompt.llm_model, temperature: run.temperature)
+      response.update!(
+        status: "succeeded",
+        response_text: text,
+        error_provider: nil, error_class: nil, error_status: nil, error_message: nil
+      )
+      run.send(:broadcast_response_update, response)
+      if run.judge_configured?
+        run.metrics.each do |metric|
+          JudgeReviewJob.perform_later(response.id, metric.id)
+        end
+      end
+      enqueue_completion_check
+    end
+    private
+    def parsed_input(response)
+      return {} if response.input_data.blank?
+      JSON.parse(response.input_data)
+    rescue JSON::ParserError
+      {}
+    end
+    def record_terminal_failure!(error)
+      response_id = @response_id || arguments.last
+      response = Response.find_by(id: response_id)
+      return unless response
+      response.update_columns(
+        status: "failed",
+        error_provider: provider_for(response),
+        error_class: error.class.name,
+        error_status: error.respond_to?(:status) ? error.status : nil,
+        error_message: error.message.to_s.truncate(2000)
+      )
+      response.run&.send(:broadcast_response_update, response)
+    end
+    def provider_for(response)
+      response.run&.prompt&.llm_model_provider
+    end
+    def enqueue_completion_check
+      run_id = @run_id || arguments.first
+      RunCompletionCheckJob.perform_later(run_id)
+    end
+  end
+end

data/app/jobs/completion_kit/judge_review_job.rb ADDED Viewed

@@ -0,0 +1,110 @@
+require "faraday"
+module CompletionKit
+  class JudgeReviewJob < ApplicationJob
+    queue_as :llm
+    limits_concurrency to: ENV.fetch("COMPLETION_KIT_PER_RUN_CONCURRENCY", 5).to_i,
+                       key: ->(response_id, _) { "run:#{Response.find_by(id: response_id)&.run_id}" },
+                       duration: 10.minutes
+    def self.rate_limit_wait(executions)
+      30 * executions
+    end
+    retry_on Faraday::TimeoutError,
+             Faraday::ConnectionFailed,
+             wait: :polynomially_longer, attempts: 5
+    retry_on CompletionKit::RateLimitError,
+             wait: method(:rate_limit_wait), attempts: 5
+    discard_on ActiveJob::DeserializationError
+    discard_on CompletionKit::ConfigurationError
+    rescue_from(StandardError) do |error|
+      record_terminal_failure!(error)
+      enqueue_completion_check
+    end
+    before_perform do |job|
+      response_id, metric_id = job.arguments
+      response = Response.find_by(id: response_id)
+      next unless response
+      review = response.reviews.find_or_initialize_by(metric_id: metric_id)
+      review.metric_name ||= Metric.find_by(id: metric_id)&.name || "(deleted metric)"
+      review.attempts = (review.attempts || 0) + 1
+      review.status = "retrying"
+      review.save!(validate: false)
+      response.run.send(:broadcast_response_update, response) if response.run
+    end
+    def perform(response_id, metric_id)
+      @response_id = response_id
+      @metric_id = metric_id
+      response = Response.find(response_id)
+      metric = Metric.find(metric_id)
+      run = response.run
+      config = ApiConfig.for_model(run.judge_model).merge(judge_model: run.judge_model)
+      judge = JudgeService.new(config)
+      evaluation = judge.evaluate(
+        response.response_text,
+        response.expected_output,
+        run.prompt.template,
+        criteria: metric.instruction.to_s,
+        rubric_text: metric.display_rubric_text,
+        input_data: response.input_data
+      )
+      review = response.reviews.find_or_initialize_by(metric_id: metric.id)
+      review.assign_attributes(
+        metric_name: metric.name,
+        instruction: metric.instruction.to_s,
+        status: "succeeded",
+        ai_score: evaluation[:score],
+        ai_feedback: evaluation[:feedback],
+        error_provider: nil, error_class: nil, error_status: nil, error_message: nil
+      )
+      review.save!
+      run.send(:broadcast_response_update, response)
+      enqueue_completion_check
+    end
+    private
+    def record_terminal_failure!(error)
+      response_id = @response_id || arguments.first
+      metric_id = @metric_id || arguments.last
+      response = Response.find_by(id: response_id)
+      return unless response
+      review = response.reviews.find_or_initialize_by(metric_id: metric_id)
+      review.assign_attributes(
+        metric_name: review.metric_name || Metric.find_by(id: metric_id)&.name || "(deleted metric)",
+        status: "failed",
+        error_provider: provider_for(response),
+        error_class: error.class.name,
+        error_status: error.respond_to?(:status) ? error.status : nil,
+        error_message: error.message.to_s.truncate(2000)
+      )
+      review.save!(validate: false)
+      response.run&.send(:broadcast_response_update, response)
+    end
+    def provider_for(response)
+      run = response.run
+      return nil unless run&.judge_model
+      ApiConfig.provider_for_model(run.judge_model)
+    end
+    def enqueue_completion_check
+      response_id = @response_id || arguments.first
+      response = Response.find_by(id: response_id)
+      RunCompletionCheckJob.perform_later(response.run_id) if response
+    end
+  end
+end

data/app/jobs/completion_kit/model_discovery_job.rb CHANGED Viewed

@@ -1,7 +1,29 @@
+require "faraday"
 module CompletionKit
   class ModelDiscoveryJob < ApplicationJob
     queue_as :default
+    def self.rate_limit_wait(executions)
+      30 * executions
+    end
+    retry_on Faraday::TimeoutError,
+             Faraday::ConnectionFailed,
+             wait: :polynomially_longer, attempts: 5
+    retry_on CompletionKit::RateLimitError,
+             wait: method(:rate_limit_wait), attempts: 5
+    discard_on ActiveJob::DeserializationError
+    rescue_from(StandardError) do |_error|
+      credential = ProviderCredential.find(arguments.first)
+      credential.update_columns(discovery_status: "failed")
+      credential.reload
+      credential.broadcast_discovery_progress
+    end
     def perform(provider_credential_id)
       credential = ProviderCredential.find_by(id: provider_credential_id)
       return unless credential
@@ -20,10 +42,6 @@ module CompletionKit
       credential.update_columns(discovery_status: "completed", updated_at: Time.current)
       credential.reload
       credential.broadcast_discovery_complete
-    rescue StandardError
-      credential.update_columns(discovery_status: "failed")
-      credential.reload
-      credential.broadcast_discovery_progress
     end
   end
 end