RubyGems - completion-kit - Versions diffs - 0.12.4 → 0.13.0 - Mend

completion-kit 0.12.4 → 0.13.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/app/services/completion_kit/mcp_tools/judges.rb +0 -22
data/app/services/completion_kit/mcp_tools/metrics.rb +22 -0
data/app/services/completion_kit/mcp_tools/prompts.rb +29 -0
data/lib/completion_kit/version.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: cfff016e2f30d073116ddcac7e1deb59dd6a6f5cbbc56452004912691a28d07b
-  data.tar.gz: 536e3a578f45d762c37d0115a390b034f581a5e3e2dcd7f036200aef8ef6db22
+  metadata.gz: 83e9019cabf58eef8e2110428561e9a4a14763e2f7b7334d77684e6714b85560
+  data.tar.gz: c05f8a637a7727091af35c2a673a7cca07e9c3bf424daff49cca9208da1a96ee
 SHA512:
-  metadata.gz: 1d7498497e03fdcd2797eb361250eb70bb378884f9593f617dc4e8a5dc9e61dbad15feef83bfd1b811b56f07bdd1a7573e65c291c05bd5233ff4b0442f16e089
-  data.tar.gz: 729db67d4ab9151e3103c4ae75cfdfc720311608cdb3f7aba15609bbabc5221d292528fb514a54b9c058e62ce98f4f1e74971edde05aba53073313f427c6803f
+  metadata.gz: 7bd1d7943255b84a81706d7977aaf2d224c88d6884c831302f669151b24659bfd60debb1f3c2558ac71e29b9f14ddc6b4140597955658576d8c39003d62b89dc
+  data.tar.gz: 71f23d6a1ac7dfc1b32792ee30116a9b3a32062836798b28fc3c07adc12ebe1ca79345a5249375c7b380af26df4a2fd78cf33976591ccee682c8eb3fd9bce0a9

data/app/services/completion_kit/mcp_tools/judges.rb CHANGED Viewed

@@ -4,19 +4,6 @@ module CompletionKit
       extend Base
       TOOLS = {
-        "judges_suggest" => {
-          description: "Ask the model to rewrite the metric's judge instruction in N variants targeted at the recent disagreements. Each variant is saved as a draft MetricVersion with source=\"suggestion\". Returns the persisted drafts. Stripe-metering hooks fire via ActiveSupport::Notifications under completion_kit.judge_suggestion.generated.",
-          inputSchema: {
-            type: "object",
-            properties: {
-              metric_id: { type: "integer" },
-              count: { type: "integer", description: "How many variants to request (default 1, max 3). One focused rewrite beats five reworded copies." },
-              model: { type: "string", description: "Override the model used to generate variants. Defaults to CompletionKit.config.judge_model." }
-            },
-            required: ["metric_id"]
-          },
-          handler: :suggest
-        },
         "judges_replay" => {
           description: "Run the current judge against a dataset (judge-only run). Wraps runs_create with prompt_id omitted and output_column supplied. Re-judges existing dataset outputs so you can compare against human verdicts.",
           inputSchema: {
@@ -47,15 +34,6 @@ module CompletionKit
         }
       }.freeze
-      def self.suggest(args)
-        metric = CompletionKit::Metric.find(args["metric_id"])
-        generator = CompletionKit::MetricVariantGenerator.new(metric, count: args["count"].to_i, model: args["model"])
-        variants = generator.call
-        return error_result("Variant generator returned no parseable variants. Try again or change the model.") if variants.empty?
-        versions = generator.persist!(variants)
-        text_result(versions.map(&:as_json))
-      end
       def self.replay(args)
         metric = CompletionKit::Metric.find(args["metric_id"])
         dataset = CompletionKit::Dataset.find(args["dataset_id"])

data/app/services/completion_kit/mcp_tools/metrics.rb CHANGED Viewed

@@ -44,6 +44,19 @@ module CompletionKit
           description: "Delete a metric",
           inputSchema: {type: "object", properties: {id: {type: "integer"}}, required: ["id"]},
           handler: :delete
+        },
+        "metrics_suggest_variants" => {
+          description: "Ask the model to rewrite the metric's judge instruction in N variants targeted at the recent disagreements. Each variant is saved as a draft MetricVersion with source=\"suggestion\". Returns the persisted drafts. Stripe-metering hooks fire via ActiveSupport::Notifications under completion_kit.judge_suggestion.generated.",
+          inputSchema: {
+            type: "object",
+            properties: {
+              metric_id: {type: "integer"},
+              count: {type: "integer", description: "How many variants to request (default 1, max 3). One focused rewrite beats five reworded copies."},
+              model: {type: "string", description: "Override the model used to generate variants. Defaults to CompletionKit.config.judge_model."}
+            },
+            required: ["metric_id"]
+          },
+          handler: :suggest_variants
         }
       }.freeze
@@ -79,6 +92,15 @@ module CompletionKit
         Metric.find(args["id"]).destroy!
         text_result("Metric #{args["id"]} deleted")
       end
+      def self.suggest_variants(args)
+        metric = Metric.find(args["metric_id"])
+        generator = MetricVariantGenerator.new(metric, count: args["count"].to_i, model: args["model"])
+        variants = generator.call
+        return error_result("Variant generator returned no parseable variants. Try again or change the model.") if variants.empty?
+        versions = generator.persist!(variants)
+        text_result(versions.map(&:as_json))
+      end
     end
   end
 end

data/app/services/completion_kit/mcp_tools/prompts.rb CHANGED Viewed

@@ -50,6 +50,15 @@ module CompletionKit
           inputSchema: {type: "object", properties: {id: {type: "integer"}}, required: ["id"]},
           handler: :publish
         },
+        "prompts_suggest_improvement" => {
+          description: "Suggest an improved version of a prompt, grounded in a run's test results and judge feedback. Analyzes the run's responses, scores, and reviews, then returns reasoning plus a rewritten template (preserving {{variables}}) and persists it as a Suggestion. Requires a run that has a prompt (not a judge-only run).",
+          inputSchema: {
+            type: "object",
+            properties: {run_id: {type: "integer", description: "The run whose results ground the improvement."}},
+            required: ["run_id"]
+          },
+          handler: :suggest_improvement
+        },
       }.freeze
       def self.list(_args)
@@ -96,6 +105,26 @@ module CompletionKit
         prompt.publish!
         text_result(prompt.reload.as_json)
       end
+      def self.suggest_improvement(args)
+        run = Run.find(args["run_id"])
+        return error_result("Judge-only runs don't have a prompt to improve.") if run.prompt.nil?
+        result = PromptImprovementService.new(run).suggest
+        suggestion = run.suggestions.create!(
+          prompt: run.prompt,
+          reasoning: result["reasoning"],
+          suggested_template: result["suggested_template"],
+          original_template: result["original_template"]
+        )
+        text_result(
+          suggestion_id: suggestion.id,
+          prompt_id: run.prompt.id,
+          reasoning: suggestion.reasoning,
+          suggested_template: suggestion.suggested_template,
+          original_template: suggestion.original_template
+        )
+      end
     end
   end
 end

data/lib/completion_kit/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module CompletionKit
-  VERSION = "0.12.4"
+  VERSION = "0.13.0"
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: completion-kit
 version: !ruby/object:Gem::Version
-  version: 0.12.4
+  version: 0.13.0
 platform: ruby
 authors:
 - Damien Bastin