RubyGems - prompt_engine - Versions diffs - 1.0.0 - Mend

prompt_engine 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (97) hide show

checksums.yaml +7 -0
data/MIT-LICENSE +20 -0
data/README.md +67 -0
data/Rakefile +22 -0
data/app/assets/stylesheets/prompt_engine/application.css +22 -0
data/app/assets/stylesheets/prompt_engine/buttons.css +124 -0
data/app/assets/stylesheets/prompt_engine/cards.css +63 -0
data/app/assets/stylesheets/prompt_engine/comparison.css +244 -0
data/app/assets/stylesheets/prompt_engine/components/_test_runs.css +144 -0
data/app/assets/stylesheets/prompt_engine/dashboard.css +343 -0
data/app/assets/stylesheets/prompt_engine/evaluations.css +124 -0
data/app/assets/stylesheets/prompt_engine/forms.css +198 -0
data/app/assets/stylesheets/prompt_engine/foundation.css +182 -0
data/app/assets/stylesheets/prompt_engine/layout.css +75 -0
data/app/assets/stylesheets/prompt_engine/loading.css +229 -0
data/app/assets/stylesheets/prompt_engine/notifications.css +78 -0
data/app/assets/stylesheets/prompt_engine/overrides.css +42 -0
data/app/assets/stylesheets/prompt_engine/prompts.css +237 -0
data/app/assets/stylesheets/prompt_engine/sidebar.css +90 -0
data/app/assets/stylesheets/prompt_engine/tables.css +250 -0
data/app/assets/stylesheets/prompt_engine/utilities.css +52 -0
data/app/assets/stylesheets/prompt_engine/versions.css +370 -0
data/app/clients/prompt_engine/open_ai_evals_client.rb +135 -0
data/app/controllers/prompt_engine/admin/base_controller.rb +7 -0
data/app/controllers/prompt_engine/application_controller.rb +4 -0
data/app/controllers/prompt_engine/dashboard_controller.rb +24 -0
data/app/controllers/prompt_engine/eval_runs_controller.rb +23 -0
data/app/controllers/prompt_engine/eval_sets_controller.rb +200 -0
data/app/controllers/prompt_engine/evaluations_controller.rb +32 -0
data/app/controllers/prompt_engine/playground_controller.rb +57 -0
data/app/controllers/prompt_engine/playground_run_results_controller.rb +41 -0
data/app/controllers/prompt_engine/prompts_controller.rb +70 -0
data/app/controllers/prompt_engine/settings_controller.rb +28 -0
data/app/controllers/prompt_engine/test_cases_controller.rb +231 -0
data/app/controllers/prompt_engine/versions_controller.rb +90 -0
data/app/helpers/prompt_engine/application_helper.rb +4 -0
data/app/jobs/prompt_engine/application_job.rb +4 -0
data/app/mailers/prompt_engine/application_mailer.rb +6 -0
data/app/models/prompt_engine/application_record.rb +5 -0
data/app/models/prompt_engine/eval_result.rb +19 -0
data/app/models/prompt_engine/eval_run.rb +40 -0
data/app/models/prompt_engine/eval_set.rb +97 -0
data/app/models/prompt_engine/parameter.rb +126 -0
data/app/models/prompt_engine/parameter_parser.rb +39 -0
data/app/models/prompt_engine/playground_run_result.rb +20 -0
data/app/models/prompt_engine/prompt.rb +192 -0
data/app/models/prompt_engine/prompt_version.rb +72 -0
data/app/models/prompt_engine/setting.rb +45 -0
data/app/models/prompt_engine/test_case.rb +29 -0
data/app/services/prompt_engine/evaluation_runner.rb +258 -0
data/app/services/prompt_engine/playground_executor.rb +124 -0
data/app/services/prompt_engine/variable_detector.rb +97 -0
data/app/views/layouts/prompt_engine/admin.html.erb +65 -0
data/app/views/layouts/prompt_engine/application.html.erb +17 -0
data/app/views/prompt_engine/dashboard/index.html.erb +230 -0
data/app/views/prompt_engine/eval_runs/show.html.erb +204 -0
data/app/views/prompt_engine/eval_sets/compare.html.erb +229 -0
data/app/views/prompt_engine/eval_sets/edit.html.erb +111 -0
data/app/views/prompt_engine/eval_sets/index.html.erb +63 -0
data/app/views/prompt_engine/eval_sets/metrics.html.erb +371 -0
data/app/views/prompt_engine/eval_sets/new.html.erb +113 -0
data/app/views/prompt_engine/eval_sets/show.html.erb +235 -0
data/app/views/prompt_engine/evaluations/index.html.erb +194 -0
data/app/views/prompt_engine/playground/result.html.erb +58 -0
data/app/views/prompt_engine/playground/show.html.erb +129 -0
data/app/views/prompt_engine/playground_run_results/index.html.erb +99 -0
data/app/views/prompt_engine/playground_run_results/show.html.erb +123 -0
data/app/views/prompt_engine/prompts/_form.html.erb +224 -0
data/app/views/prompt_engine/prompts/edit.html.erb +9 -0
data/app/views/prompt_engine/prompts/index.html.erb +80 -0
data/app/views/prompt_engine/prompts/new.html.erb +9 -0
data/app/views/prompt_engine/prompts/show.html.erb +297 -0
data/app/views/prompt_engine/settings/edit.html.erb +93 -0
data/app/views/prompt_engine/shared/_form_errors.html.erb +16 -0
data/app/views/prompt_engine/test_cases/edit.html.erb +72 -0
data/app/views/prompt_engine/test_cases/import.html.erb +92 -0
data/app/views/prompt_engine/test_cases/import_preview.html.erb +103 -0
data/app/views/prompt_engine/test_cases/new.html.erb +79 -0
data/app/views/prompt_engine/versions/_version_card.html.erb +56 -0
data/app/views/prompt_engine/versions/compare.html.erb +82 -0
data/app/views/prompt_engine/versions/index.html.erb +96 -0
data/app/views/prompt_engine/versions/show.html.erb +98 -0
data/config/routes.rb +61 -0
data/db/migrate/20250124000001_create_eval_tables.rb +43 -0
data/db/migrate/20250124000002_add_open_ai_fields_to_evals.rb +11 -0
data/db/migrate/20250125000001_add_grader_fields_to_eval_sets.rb +8 -0
data/db/migrate/20250723161909_create_prompts.rb +17 -0
data/db/migrate/20250723184757_create_prompt_engine_versions.rb +24 -0
data/db/migrate/20250723203838_create_prompt_engine_parameters.rb +20 -0
data/db/migrate/20250724160623_create_prompt_engine_playground_run_results.rb +30 -0
data/db/migrate/20250724165118_create_prompt_engine_settings.rb +14 -0
data/lib/prompt_engine/engine.rb +25 -0
data/lib/prompt_engine/version.rb +3 -0
data/lib/prompt_engine.rb +33 -0
data/lib/tasks/active_prompt_tasks.rake +32 -0
data/lib/tasks/eval_demo.rake +149 -0
metadata +293 -0

data/app/views/prompt_engine/eval_sets/metrics.html.erb ADDED Viewed

@@ -0,0 +1,371 @@
+<% content_for :head do %>
+  <script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.0/dist/chart.umd.js"></script>
+<% end %>
+<div class="admin-header">
+  <div>
+    <h1>Evaluation Metrics</h1>
+    <p class="text-muted">Performance insights for <%= @eval_set.name %></p>
+  </div>
+  <div class="btn-group">
+    <%= link_to "Back to Eval Set", prompt_eval_set_path(@prompt, @eval_set),
+        class: "btn btn--secondary btn--medium" %>
+    <% if @eval_runs.any? %>
+      <%= link_to "Compare Runs", prompt_eval_set_path(@prompt, @eval_set),
+          class: "btn btn--secondary btn--medium" %>
+    <% end %>
+  </div>
+</div>
+<!-- Summary Cards -->
+<div class="metrics-summary">
+  <div class="metrics-card">
+    <div class="metrics-card__icon">
+      <svg viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2">
+        <path d="M9 11l3 3L22 4"></path>
+        <path d="M21 12v7a2 2 0 01-2 2H5a2 2 0 01-2-2V5a2 2 0 012-2h11"></path>
+      </svg>
+    </div>
+    <div class="metrics-card__content">
+      <h3 class="metrics-card__label">Total Test Cases</h3>
+      <p class="metrics-card__value"><%= @total_test_cases %></p>
+    </div>
+  </div>
+  <div class="metrics-card">
+    <div class="metrics-card__icon">
+      <svg viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2">
+        <path d="M12 8v4l3 3m6-3a9 9 0 11-18 0 9 9 0 0118 0z"></path>
+      </svg>
+    </div>
+    <div class="metrics-card__content">
+      <h3 class="metrics-card__label">Total Runs</h3>
+      <p class="metrics-card__value"><%= @total_runs %></p>
+    </div>
+  </div>
+  <div class="metrics-card">
+    <div class="metrics-card__icon">
+      <svg viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2">
+        <path d="M13 7h8m0 0v8m0-8l-8 8-4-4-6 6"></path>
+      </svg>
+    </div>
+    <div class="metrics-card__content">
+      <h3 class="metrics-card__label">Overall Pass Rate</h3>
+      <p class="metrics-card__value"><%= number_to_percentage(@overall_pass_rate, precision: 1) %></p>
+    </div>
+  </div>
+</div>
+<% if @eval_runs.any? %>
+  <!-- Charts Row 1 -->
+  <div class="chart-grid">
+    <div class="card">
+      <div class="card__header">
+        <h3 class="card__title">Success Rate Trend</h3>
+      </div>
+      <div class="card__body">
+        <div class="chart-container">
+          <canvas id="successRateTrendChart"></canvas>
+        </div>
+      </div>
+    </div>
+    <div class="card">
+      <div class="card__header">
+        <h3 class="card__title">Success Rate by Version</h3>
+      </div>
+      <div class="card__body">
+        <div class="chart-container">
+          <canvas id="successRateByVersionChart"></canvas>
+        </div>
+      </div>
+    </div>
+  </div>
+  <!-- Charts Row 2 -->
+  <div class="chart-grid">
+    <div class="card">
+      <div class="card__header">
+        <h3 class="card__title">Test Results Distribution</h3>
+      </div>
+      <div class="card__body">
+        <div class="chart-container chart-container--small">
+          <canvas id="testDistributionChart"></canvas>
+        </div>
+      </div>
+    </div>
+    <div class="card">
+      <div class="card__header">
+        <h3 class="card__title">Average Evaluation Duration</h3>
+      </div>
+      <div class="card__body">
+        <div class="chart-container">
+          <canvas id="durationTrendChart"></canvas>
+        </div>
+      </div>
+    </div>
+  </div>
+  <!-- Recent Activity -->
+  <div class="card">
+    <div class="card__header">
+      <h3 class="card__title">Recent Evaluation Activity</h3>
+    </div>
+    <div class="card__body">
+      <div class="table-container">
+        <table class="table table--simple">
+          <thead>
+            <tr>
+              <th>Date</th>
+              <th>Version</th>
+              <th>Success Rate</th>
+              <th>Duration</th>
+              <th class="table__actions">Actions</th>
+            </tr>
+          </thead>
+          <tbody>
+            <% @recent_activity.each do |run| %>
+              <tr>
+                <td>
+                  <div class="table__primary">
+                    <%= run.created_at.strftime("%b %d, %Y %I:%M %p") %>
+                  </div>
+                </td>
+                <td>
+                  <span class="table__badge table__badge--info">v<%= run.prompt_version.version_number %></span>
+                </td>
+                <td>
+                  <% success_rate = run.total_count > 0 ? (run.passed_count.to_f / run.total_count * 100) : 0 %>
+                  <div class="table__metric">
+                    <span class="table__metric-value
+                      <%= success_rate >= 80 ? 'text-success' : success_rate >= 60 ? 'text-warning' : 'text-danger' %>">
+                      <%= number_to_percentage(success_rate, precision: 1) %>
+                    </span>
+                  </div>
+                </td>
+                <td>
+                  <% if run.completed_at && run.started_at %>
+                    <span class="table__secondary">
+                      <%= distance_of_time_in_words(run.started_at, run.completed_at) %>
+                    </span>
+                  <% else %>
+                    <span class="table__secondary text-muted">—</span>
+                  <% end %>
+                </td>
+                <td class="table__actions">
+                  <%= link_to "View", prompt_eval_run_path(@prompt, run),
+                      class: "table__action" %>
+                </td>
+              </tr>
+            <% end %>
+          </tbody>
+        </table>
+      </div>
+    </div>
+  </div>
+  <script>
+    // Chart.js configuration
+    Chart.defaults.font.family = 'system-ui, -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, sans-serif';
+    Chart.defaults.color = '#374151';
+    // Success Rate Trend Chart
+    const successRateTrendCtx = document.getElementById('successRateTrendChart').getContext('2d');
+    new Chart(successRateTrendCtx, {
+      type: 'line',
+      data: {
+        labels: <%= @success_rate_trend.map { |d| d[:date] }.to_json.html_safe %>,
+        datasets: [{
+          label: 'Success Rate (%)',
+          data: <%= @success_rate_trend.map { |d| d[:rate] }.to_json.html_safe %>,
+          borderColor: '#3b82f6',
+          backgroundColor: 'rgba(59, 130, 246, 0.1)',
+          borderWidth: 2,
+          pointRadius: 4,
+          pointHoverRadius: 6,
+          tension: 0.1
+        }]
+      },
+      options: {
+        responsive: true,
+        maintainAspectRatio: false,
+        plugins: {
+          legend: {
+            display: false
+          },
+          tooltip: {
+            callbacks: {
+              afterLabel: function(context) {
+                const index = context.dataIndex;
+                const version = <%= @success_rate_trend.map { |d| d[:version] }.to_json.html_safe %>[index];
+                return 'Version: ' + version;
+              }
+            }
+          }
+        },
+        scales: {
+          y: {
+            beginAtZero: true,
+            max: 100,
+            ticks: {
+              callback: function(value) {
+                return value + '%';
+              }
+            }
+          }
+        }
+      }
+    });
+    // Success Rate by Version Chart
+    const successRateByVersionCtx = document.getElementById('successRateByVersionChart').getContext('2d');
+    new Chart(successRateByVersionCtx, {
+      type: 'bar',
+      data: {
+        labels: <%= @success_rate_by_version.map { |d| d[:version] }.to_json.html_safe %>,
+        datasets: [{
+          label: 'Success Rate (%)',
+          data: <%= @success_rate_by_version.map { |d| d[:rate] }.to_json.html_safe %>,
+          backgroundColor: '#10b981',
+          borderColor: '#059669',
+          borderWidth: 1
+        }]
+      },
+      options: {
+        responsive: true,
+        maintainAspectRatio: false,
+        plugins: {
+          legend: {
+            display: false
+          },
+          tooltip: {
+            callbacks: {
+              afterLabel: function(context) {
+                const index = context.dataIndex;
+                const runs = <%= @success_rate_by_version.map { |d| d[:runs] }.to_json.html_safe %>[index];
+                return 'Runs: ' + runs;
+              }
+            }
+          }
+        },
+        scales: {
+          y: {
+            beginAtZero: true,
+            max: 100,
+            ticks: {
+              callback: function(value) {
+                return value + '%';
+              }
+            }
+          }
+        }
+      }
+    });
+    // Test Distribution Chart
+    const testDistributionCtx = document.getElementById('testDistributionChart').getContext('2d');
+    const totalPassed = <%= @eval_runs.sum(&:passed_count) %>;
+    const totalFailed = <%= @eval_runs.sum(&:failed_count) %>;
+    new Chart(testDistributionCtx, {
+      type: 'doughnut',
+      data: {
+        labels: ['Passed', 'Failed'],
+        datasets: [{
+          data: [totalPassed, totalFailed],
+          backgroundColor: ['#10b981', '#ef4444'],
+          borderWidth: 0
+        }]
+      },
+      options: {
+        responsive: true,
+        maintainAspectRatio: false,
+        plugins: {
+          legend: {
+            position: 'bottom'
+          },
+          tooltip: {
+            callbacks: {
+              label: function(context) {
+                const total = totalPassed + totalFailed;
+                const percentage = ((context.parsed / total) * 100).toFixed(1);
+                return context.label + ': ' + context.parsed + ' (' + percentage + '%)';
+              }
+            }
+          }
+        }
+      }
+    });
+    // Duration Trend Chart
+    const durationTrendCtx = document.getElementById('durationTrendChart').getContext('2d');
+    const durationData = <%= @duration_trend.to_json.html_safe %>;
+    new Chart(durationTrendCtx, {
+      type: 'line',
+      data: {
+        labels: durationData.map(d => d.date),
+        datasets: [{
+          label: 'Duration (seconds)',
+          data: durationData.map(d => d.duration),
+          borderColor: '#8b5cf6',
+          backgroundColor: 'rgba(139, 92, 246, 0.1)',
+          borderWidth: 2,
+          pointRadius: 4,
+          pointHoverRadius: 6,
+          tension: 0.1
+        }]
+      },
+      options: {
+        responsive: true,
+        maintainAspectRatio: false,
+        plugins: {
+          legend: {
+            display: false
+          },
+          tooltip: {
+            callbacks: {
+              afterLabel: function(context) {
+                const index = context.dataIndex;
+                const version = durationData[index].version;
+                return 'Version: ' + version;
+              },
+              label: function(context) {
+                const value = context.parsed.y;
+                const minutes = Math.floor(value / 60);
+                const seconds = value % 60;
+                if (minutes > 0) {
+                  return minutes + 'm ' + seconds + 's';
+                }
+                return seconds + ' seconds';
+              }
+            }
+          }
+        },
+        scales: {
+          y: {
+            beginAtZero: true,
+            ticks: {
+              callback: function(value) {
+                return value + 's';
+              }
+            }
+          }
+        }
+      }
+    });
+  </script>
+<% else %>
+  <div class="card">
+    <div class="card__body">
+      <div class="table-empty">
+        <p class="text-muted">No evaluation runs completed yet.</p>
+        <p class="text-muted">Run some evaluations to see metrics and insights.</p>
+        <%= link_to "Back to Eval Set", prompt_eval_set_path(@prompt, @eval_set),
+            class: "btn btn--primary btn--medium mt-md" %>
+      </div>
+    </div>
+  </div>
+<% end %>

data/app/views/prompt_engine/eval_sets/new.html.erb ADDED Viewed

@@ -0,0 +1,113 @@
+<div class="admin-header">
+  <div>
+    <h1>New Evaluation Set</h1>
+    <p class="text-muted">Create a new evaluation set for <%= @prompt.name %></p>
+  </div>
+</div>
+<div class="card">
+  <div class="card__body">
+    <%= form_with model: [@prompt, @eval_set], url: prompt_eval_sets_path(@prompt), local: true do |form| %>
+      <%= render 'prompt_engine/shared/form_errors', object: @eval_set %>
+      <div class="form__group">
+        <%= form.label :name, class: "form__label" %>
+        <span class="form__required">*</span>
+        <%= form.text_field :name,
+            class: "form__input",
+            placeholder: "e.g., Customer Support Responses",
+            required: true,
+            minlength: 3,
+            maxlength: 255,
+            pattern: "[A-Za-z0-9 _-]+",
+            title: "Name can contain letters, numbers, spaces, hyphens, and underscores" %>
+        <p class="form__help">A descriptive name for this evaluation set (3-255 characters)</p>
+      </div>
+      <div class="form__group">
+        <%= form.label :description, class: "form__label" %>
+        <%= form.text_area :description, class: "form__input", rows: 3,
+            placeholder: "e.g., Tests various customer support scenarios to ensure consistent and helpful responses" %>
+        <p class="form__help">Optional description of what this evaluation set tests</p>
+      </div>
+      <div class="form__group">
+        <%= form.label :grader_type, "Grader Type", class: "form__label" %>
+        <span class="form__required">*</span>
+        <%= form.select :grader_type,
+            options_for_select(PromptEngine::EvalSet::GRADER_TYPES.map { |k, v| [v, k] }, @eval_set.grader_type || 'exact_match'),
+            { include_blank: false },
+            { class: "form__input", id: "grader-type-select",
+              data: { controller: "grader-config", action: "change->grader-config#toggleConfig" } } %>
+        <p class="form__help">Select how the expected output should be compared to the actual output</p>
+      </div>
+      <div id="grader-config-fields" class="form__group" style="display: none;">
+        <label class="form__label">Grader Configuration</label>
+        <div id="regex-config" class="grader-config-section" style="display: none;">
+          <%= form.label :grader_config_pattern, "Regular Expression Pattern", class: "form__label" %>
+          <span class="form__required">*</span>
+          <%= text_field_tag "eval_set[grader_config][pattern]",
+              @eval_set.grader_config&.dig('pattern'),
+              class: "form__input",
+              placeholder: "e.g., ^Hello.*world$",
+              data: { grader_config_field: "regex" } %>
+          <p class="form__help">Enter a valid regular expression pattern to match against the output</p>
+        </div>
+        <div id="json-schema-config" class="grader-config-section" style="display: none;">
+          <%= form.label :grader_config_schema, "JSON Schema", class: "form__label" %>
+          <span class="form__required">*</span>
+          <%= text_area_tag "eval_set[grader_config][schema]",
+              @eval_set.grader_config&.dig('schema')&.to_json,
+              rows: 8,
+              class: "form__input",
+              placeholder: '{ "type": "object", "properties": { "name": { "type": "string" } }, "required": ["name"] }',
+              data: { grader_config_field: "json_schema" } %>
+          <p class="form__help">Note: Currently validates exact JSON match. Full schema validation coming soon.</p>
+        </div>
+      </div>
+      <div class="form__actions">
+        <%= form.submit "Create Evaluation Set", class: "btn btn--primary btn--medium",
+            data: { disable_with: "Creating..." } %>
+        <%= link_to "Cancel", prompt_eval_sets_path(@prompt), class: "btn btn--secondary btn--medium" %>
+      </div>
+    <% end %>
+  </div>
+</div>
+<script>
+  document.addEventListener('DOMContentLoaded', function() {
+    const graderTypeSelect = document.getElementById('grader-type-select');
+    const graderConfigFields = document.getElementById('grader-config-fields');
+    const regexConfig = document.getElementById('regex-config');
+    const jsonSchemaConfig = document.getElementById('json-schema-config');
+    function toggleGraderConfig() {
+      const selectedGrader = graderTypeSelect.value;
+      // Hide all config sections first
+      regexConfig.style.display = 'none';
+      jsonSchemaConfig.style.display = 'none';
+      // Show appropriate config section based on grader type
+      if (selectedGrader === 'regex') {
+        graderConfigFields.style.display = 'block';
+        regexConfig.style.display = 'block';
+      } else if (selectedGrader === 'json_schema') {
+        graderConfigFields.style.display = 'block';
+        jsonSchemaConfig.style.display = 'block';
+      } else {
+        graderConfigFields.style.display = 'none';
+      }
+    }
+    // Add event listener
+    graderTypeSelect.addEventListener('change', toggleGraderConfig);
+    // Initialize on page load
+    toggleGraderConfig();
+  });
+</script>