RubyGems - completion-kit - Versions diffs - 0.5.18 → 0.5.19 - Mend

completion-kit 0.5.18 → 0.5.19

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/app/assets/stylesheets/completion_kit/application.css +181 -8
data/app/services/completion_kit/dashboard_stats.rb +99 -0
data/lib/completion_kit/version.rb +1 -1
metadata +2 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 25e795a8d94b2f0984e65d312eb152ffabcda8e7929a52529906ff1fab6cfa4f
-  data.tar.gz: 91110f1c5736d0c6d3c12ef5aa5a75b66ffe0d565cf5777bd9f2d322936e01d5
+  metadata.gz: fe8be5a5838f6a270f5ed934e250f0dd55d673b51ba15ed29579429dadcaaa03
+  data.tar.gz: 6044e3c6805e697c1e8e80b28760ab5f749e2ba14bd976b67225f0d3cffb6eff
 SHA512:
-  metadata.gz: 87678468d49193e088d4b1c6c28abe5a63ef67de679cfeb894dd64238810d456e7505bae78224e2c330860f177deff8bf834fab0a1c9abdca4e2cafd81e5463b
-  data.tar.gz: 2755a9885f3242017dce04a91680f4499b5cd8907f1043f9bab41d46651ec234ebe4c0f03886b72a0dac421a8787f56923da884b6d5112f85c409392dbfea969
+  metadata.gz: efc0e7b9a1b23eeec3b3ba91ab65d94d2454bec0554cdd8e36ab6d1286b9c208de2e1ea24fec1c19f73d01dc044097df6e2ac004a0de2565bc6e6b4965af1d85
+  data.tar.gz: e9fca34118e8a1b10107807e1243f946ad6148f7af8e92d23c3c9bfc20f10f2d91c6db0c4b285996f8267b6511593417a11a7f6c1002b9d8dd2a9f32f5793860

data/app/assets/stylesheets/completion_kit/application.css CHANGED Viewed

@@ -345,6 +345,176 @@ form.button_to {
   grid-template-columns: repeat(2, minmax(0, 1fr));
 }
+.ck-grid--cards-3 {
+  grid-template-columns: repeat(3, minmax(0, 1fr));
+}
+/* ── Dashboard: workspace stat ribbon ─────────────────────────────────
+   Replaces the old oversized count cards. One thin instrument strip,
+   four navigable segments split by hairline dividers. */
+.ck-statbar {
+  display: grid;
+  grid-template-columns: repeat(4, minmax(0, 1fr));
+  margin-top: 1.5rem;
+  border: 1px solid var(--ck-line);
+  border-radius: var(--ck-radius-lg);
+  background: var(--ck-surface);
+  overflow: hidden;
+}
+.ck-statbar__item {
+  display: flex;
+  flex-direction: column;
+  gap: 0.25rem;
+  padding: 0.95rem 1.3rem;
+  text-decoration: none;
+  border-left: 1px solid var(--ck-line);
+  transition: background 0.15s ease;
+}
+.ck-statbar__item:first-child { border-left: 0; }
+.ck-statbar__item:hover { background: var(--ck-surface-hover); }
+.ck-statbar__label {
+  font-family: var(--ck-mono);
+  font-size: 0.68rem;
+  letter-spacing: 0.14em;
+  text-transform: uppercase;
+  color: var(--ck-dim);
+}
+.ck-statbar__value {
+  font-family: var(--ck-mono);
+  font-size: 1.65rem;
+  line-height: 1;
+  color: var(--ck-text);
+  transition: color 0.15s ease;
+}
+.ck-statbar__item:hover .ck-statbar__value { color: var(--ck-accent); }
+/* ── Dashboard: pulse cards (activity / worst metric / failed reviews) ── */
+.ck-pulse-grid { margin-top: 0.75rem; }
+.ck-stat-card {
+  display: flex;
+  flex-direction: column;
+  min-height: 10.5rem;
+}
+.ck-stat-card .ck-kicker { margin-bottom: auto; }
+.ck-stat-card__foot {
+  margin-top: auto;
+  padding-top: 0.85rem;
+  font-family: var(--ck-mono);
+  font-size: 0.78rem;
+  color: var(--ck-muted);
+}
+.ck-stat-card__figure { color: var(--ck-text); }
+.ck-stat-card__body {
+  display: flex;
+  align-items: baseline;
+  gap: 0.6rem;
+  margin: 0.9rem 0 0.3rem;
+}
+.ck-stat-card__metric {
+  font-size: 1.2rem;
+  line-height: 1.25;
+  color: var(--ck-text);
+}
+.ck-stat-card__metric--empty { color: var(--ck-dim); }
+.ck-stat-card__score { align-self: center; }
+.ck-stat-card__count {
+  font-family: var(--ck-mono);
+  font-size: 2.6rem;
+  line-height: 1;
+}
+.ck-stat-card__count.is-clean { color: var(--ck-success, #4ade80); }
+.ck-stat-card__count.is-danger { color: var(--ck-danger, #f87171); }
+/* Dashboard activity sparkline — fixed-height row of bars, height set
+   inline per day. Bars hug the bottom; quiet days collapse to a sliver.
+   The busiest day(s) get the bright accent so the peak reads instantly. */
+.ck-sparkline {
+  display: flex;
+  align-items: flex-end;
+  gap: 3px;
+  height: 3.5rem;
+  margin: 0.9rem 0 0.3rem;
+  border-bottom: 1px solid var(--ck-line);
+  padding-bottom: 1px;
+}
+.ck-sparkline__bar {
+  flex: 1;
+  min-height: 2px;
+  background: var(--ck-line-strong);
+  border-radius: 2px 2px 0 0;
+  transition: background 0.15s ease;
+}
+.ck-sparkline__bar.is-peak { background: var(--ck-accent); }
+.ck-sparkline__bar:hover { background: var(--ck-accent-hover); }
+/* One orchestrated page-load reveal — the dashboard "boots up". */
+@keyframes ck-rise {
+  from { opacity: 0; transform: translateY(8px); }
+  to   { opacity: 1; transform: translateY(0); }
+}
+.ck-rise {
+  animation: ck-rise 0.32s ease both;
+  animation-delay: var(--rise-delay, 0ms);
+}
+@media (prefers-reduced-motion: reduce) {
+  .ck-rise { animation: none; }
+}
+/* ── Dashboard: prompt improvements list ──────────────────────────────
+   One row per family that improved version-over-version. Name takes the
+   slack; version transition, score transition, and delta sit to the right. */
+.ck-improvements {
+  list-style: none;
+  margin: 0.85rem 0 0;
+  padding: 0;
+}
+.ck-improvement {
+  display: flex;
+  align-items: baseline;
+  gap: 1.1rem;
+  padding: 0.7rem 0;
+  border-top: 1px solid var(--ck-line);
+  font-family: var(--ck-mono);
+  font-size: 0.85rem;
+}
+.ck-improvement:first-child { border-top: 0; }
+.ck-improvement__name {
+  flex: 1;
+  min-width: 0;
+  overflow: hidden;
+  text-overflow: ellipsis;
+  white-space: nowrap;
+}
+.ck-improvement__versions {
+  color: var(--ck-dim);
+  font-size: 0.78rem;
+  white-space: nowrap;
+}
+.ck-improvement__scores {
+  display: inline-flex;
+  align-items: baseline;
+  gap: 0.4rem;
+  color: var(--ck-muted);
+  white-space: nowrap;
+}
+.ck-improvement__arrow { color: var(--ck-dim); }
+.ck-improvement__to { color: var(--ck-text); }
+.ck-improvement__delta {
+  min-width: 5rem;
+  text-align: right;
+}
+.ck-improvement__delta.is-gain { color: var(--ck-success); }
+.ck-improvement__delta.is-loss { color: var(--ck-danger); }
+.ck-improvements__empty {
+  margin: 0.85rem 0 0;
+  max-width: 46rem;
+  color: var(--ck-muted);
+  font-size: 0.85rem;
+  line-height: 1.6;
+}
 .ck-grid--spaced,
 .ck-card--spaced,
 .ck-empty--spaced {
@@ -608,15 +778,18 @@ tr:hover .ck-chip--publish {
   max-width: 380px;
 }
+/* Login brand lockup — the standard puzzle logo + two-tone wordmark,
+   stacked and centred above the sign-in form. */
 .ck-login__brand {
-  font-family: var(--ck-mono);
-  font-size: 1.1rem;
-  font-weight: 700;
-  color: var(--ck-accent);
-  text-transform: uppercase;
-  letter-spacing: 0.04em;
-  text-align: center;
-  margin: 0 0 2rem;
+  display: flex;
+  flex-direction: column;
+  align-items: center;
+  gap: 0.45rem;
+  margin: 0 auto 2rem;
+}
+.ck-login__brand .ck-brand__name {
+  padding-top: 0;
+  font-size: 1.4rem;
 }
 .ck-login__form {

data/app/services/completion_kit/dashboard_stats.rb ADDED Viewed

@@ -0,0 +1,99 @@
+module CompletionKit
+  # Read-only aggregate queries powering the standalone dashboard cards.
+  # Each method is a small, scoped query — nothing here writes or caches.
+  class DashboardStats
+    # Runs per calendar day for the trailing `days` window, oldest first.
+    # Always returns one entry per day (count 0 for quiet days) so callers
+    # can render a fixed-width sparkline.
+    def self.activity(days: 14)
+      since = (days - 1).days.ago.to_date
+      counts = Run.where("created_at >= ?", since.beginning_of_day)
+                  .group("DATE(created_at)")
+                  .count
+      (0...days).map do |offset|
+        date = since + offset
+        { date: date, count: counts[date] || counts[date.to_s] || 0 }
+      end
+    end
+    # The metric with the lowest average judge score across succeeded reviews
+    # in the window — the prompt-engineering target. Returns nil when there
+    # are no scored reviews. `response` is the single worst-scoring response
+    # for that metric, for a deep link.
+    def self.worst_metric(since:)
+      averages = scored_reviews_since(since).group(:metric_name).average(:ai_score)
+      return nil if averages.empty?
+      name, avg = averages.min_by { |_, value| value }
+      # averages is non-empty, so at least one review carries this
+      # metric_name — worst is always present here.
+      worst = scored_reviews_since(since)
+              .where(metric_name: name)
+              .order(:ai_score)
+              .first
+      {
+        name: name,
+        avg: avg.to_f.round(2),
+        response: worst.response,
+        score: worst.ai_score.to_f
+      }
+    end
+    # Reviews that terminally failed in the window — parse failures, judge
+    # truncations, provider errors. Invisible on the dashboard otherwise.
+    def self.failed_review_count(since:)
+      Review.where(status: "failed").where("created_at >= ?", since).count
+    end
+    # The most recent measurable change per prompt family — gains and
+    # regressions both. For each family the comparison is:
+    #   * latest scored version vs the published version, when a draft sits
+    #     ahead of what's live ("is my work-in-progress better?")
+    #   * published vs the previous scored version, when the latest version
+    #     IS the published one ("did my last publish help?")
+    # Biggest movement first. Empty until something has been iterated and
+    # re-judged on both sides of the comparison.
+    def self.prompt_changes(limit: 5)
+      scores = Review.joins(response: :run)
+                     .where(status: "succeeded")
+                     .where.not(ai_score: nil)
+                     .group("completion_kit_runs.prompt_id")
+                     .average(:ai_score)
+      return [] if scores.empty?
+      Prompt.where(id: scores.keys).group_by(&:family_key).filter_map do |_key, versions|
+        scored = versions.select { |v| scores[v.id] }.sort_by(&:version_number)
+        next if scored.size < 2
+        candidate = scored.last
+        published = versions.find(&:current?)
+        baseline =
+          if published && published != candidate && scores[published.id]
+            published
+          else
+            scored[-2]
+          end
+        delta = (scores[candidate.id] - scores[baseline.id]).to_f.round(2)
+        next if delta.zero?
+        {
+          prompt: candidate,
+          from_version: baseline.version_number,
+          to_version: candidate.version_number,
+          from_score: scores[baseline.id].to_f.round(2),
+          to_score: scores[candidate.id].to_f.round(2),
+          delta: delta
+        }
+      end.sort_by { |row| -row[:delta].abs }.first(limit)
+    end
+    def self.scored_reviews_since(since)
+      Review.joins(:response)
+            .where(status: "succeeded")
+            .where("completion_kit_reviews.created_at >= ?", since)
+            .where.not(ai_score: nil)
+    end
+    private_class_method :scored_reviews_since
+  end
+end

data/lib/completion_kit/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module CompletionKit
-  VERSION = "0.5.18"
+  VERSION = "0.5.19"
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: completion-kit
 version: !ruby/object:Gem::Version
-  version: 0.5.18
+  version: 0.5.19
 platform: ruby
 authors:
 - Damien Bastin
@@ -281,6 +281,7 @@ files:
 - app/services/completion_kit/anthropic_client.rb
 - app/services/completion_kit/api_config.rb
 - app/services/completion_kit/csv_processor.rb
+- app/services/completion_kit/dashboard_stats.rb
 - app/services/completion_kit/judge_service.rb
 - app/services/completion_kit/llm_client.rb
 - app/services/completion_kit/mcp_dispatcher.rb