npm - claude-flow-novice - Versions diffs - 2.9.1 → 2.10.1 - Mend

claude-flow-novice 2.9.1 → 2.10.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (349) hide show

package/.claude/agents/cfn-dev-team/reviewers/quality/quality-metrics.md ADDED Viewed

@@ -0,0 +1,375 @@
+# Quality Metrics & Validation
+**Version:** 2.0.0
+**Last Updated:** 2025-09-30
+## Measuring Agent Effectiveness
+### 1. Quantitative Metrics
+```yaml
+Code Quality:
+  compilation_success_rate: "First-time compile success"
+  test_pass_rate: "Tests passing on first run"
+  coverage: "Code coverage percentage"
+  performance: "Execution time vs baseline"
+  idiomaticity_score: "Language-specific best practices"
+Process Metrics:
+  iteration_count: "Revisions needed to complete task"
+  time_to_completion: "Duration from start to finish"
+  error_rate: "Errors encountered during execution"
+Agent-Specific:
+  architect_score: "Design quality assessment"
+  reviewer_score: "Issues found / total issues"
+  tester_score: "Bug catch rate"
+```
+### 2. Qualitative Metrics
+```yaml
+Code Review Criteria:
+  - Readability: Easy to understand
+  - Maintainability: Easy to modify
+  - Correctness: Works as intended
+  - Safety: No security vulnerabilities
+  - Performance: Meets efficiency requirements
+Architecture Criteria:
+  - Scalability: Can grow with demand
+  - Flexibility: Adapts to changing requirements
+  - Simplicity: No unnecessary complexity
+  - Documentation: Well-explained decisions
+```
+---
+## Validation Checklist
+Use this checklist before deploying an agent:
+### Pre-Deployment Validation
+```markdown
+## Agent Profile Validation
+### Structure ✓
+- [ ] Valid YAML frontmatter
+- [ ] All required fields present (name, description, tools, model, color, validation_hooks, lifecycle)
+- [ ] Clear role definition in opening paragraph
+- [ ] Appropriate section structure
+### Format Selection ✓
+- [ ] Format matches task complexity (Basic→Code-Heavy, Medium→Metadata, Complex→Minimal)
+- [ ] Length appropriate (Minimal: 200-400, Metadata: 400-700, Code-Heavy: 700-1200)
+- [ ] Examples present and relevant (for Code-Heavy)
+- [ ] Structure/metadata present (for Metadata)
+### Content Quality ✓
+- [ ] Clear responsibilities defined
+- [ ] Approach/methodology explained
+- [ ] Integration points specified (memory keys, ACL levels)
+- [ ] Success metrics defined
+- [ ] Post-edit validation hook included
+### Hook Validation System ✓
+- [ ] validation_hooks declared in frontmatter
+- [ ] agent-template-validator included (MANDATORY)
+- [ ] cfn-loop-memory-validator included (MANDATORY)
+- [ ] test-coverage-validator included (for implementers/testers)
+- [ ] blocking-coordination-validator included (for coordinators only)
+### SQLite Lifecycle Integration ✓
+- [ ] lifecycle.pre_task hook present (INSERT INTO agents)
+- [ ] lifecycle.post_task hook present (UPDATE agents SET status=completed)
+- [ ] ACL level declared (1=Private, 3=Swarm, 4=Project)
+- [ ] Error handling patterns implemented (retry logic, fallback)
+- [ ] Memory key patterns follow conventions
+### Blocking Coordination (Coordinators Only) ✓
+- [ ] BlockingCoordinationSignals import present
+- [ ] CoordinatorTimeoutHandler import present
+- [ ] HMAC secret from environment variable
+- [ ] Signal ACK patterns implemented
+- [ ] Timeout handling logic present
+### Language-Specific ✓
+- [ ] If Rust: Format validated against benchmark findings
+- [ ] If other language: Format choice documented as hypothesis
+- [ ] Language-specific patterns included (for Code-Heavy)
+- [ ] Idiomatic code examples (for Code-Heavy)
+### Testing ✓
+- [ ] Agent tested on representative tasks
+- [ ] Quality metrics meet targets
+- [ ] Integration with hooks verified
+- [ ] Collaboration with other agents confirmed
+- [ ] SQLite persistence verified
+```
+### Post-Deployment Monitoring
+```markdown
+## Ongoing Validation
+### Performance Tracking
+- [ ] Monitor iteration counts
+- [ ] Track first-time success rate
+- [ ] Measure time to completion
+- [ ] Collect user feedback
+- [ ] Monitor SQLite persistence success rate (target: >99.9%)
+### Quality Assurance
+- [ ] Review output quality regularly
+- [ ] Check adherence to format guidelines
+- [ ] Validate tool usage patterns
+- [ ] Assess collaboration effectiveness
+- [ ] Monitor ACL violation rate (target: 0% in production)
+### Hook Validation Metrics
+- [ ] Agent template validation pass rate (target: 100%)
+- [ ] CFN Loop ACL compliance rate (target: 100%)
+- [ ] Test coverage thresholds met (≥80% line, ≥75% branch)
+- [ ] Blocking coordination pattern correctness (coordinators: 100%)
+- [ ] Hook execution time (<5s composite)
+- [ ] False positive rate (<2%)
+### SQLite Integration Health
+- [ ] Agent lifecycle completion rate (>95%)
+- [ ] Memory persistence success rate (>99.9%)
+- [ ] Error handling effectiveness (retry success rate >90%)
+- [ ] Fallback activation rate (<1% for non-critical data)
+### Continuous Improvement
+- [ ] Document failure modes
+- [ ] Refine based on metrics
+- [ ] Update with new patterns
+- [ ] Validate format choice periodically
+- [ ] Review and update hook validators
+```
+---
+## Benchmark System
+### Running Agent Benchmarks
+```bash
+cd benchmark/agent-benchmarking
+# Run Rust benchmarks (VALIDATED)
+node index.js run 5 --rust --verbose
+# Run JavaScript benchmarks (HYPOTHESIS)
+node index.js run 5 --verbose
+# Run specific scenario
+node index.js run 3 --rust --scenario=rust-01-basic
+# List available scenarios
+node index.js list --scenarios --rust
+# Analyze results
+node index.js analyze
+```
+### Interpreting Results
+```yaml
+Quality Score Breakdown:
+  Correctness (30%):
+    - Basic functionality works
+    - Edge cases handled
+    - Error conditions managed
+  Idiomaticity (25%):
+    - Language best practices
+    - Proper pattern usage
+    - Efficient algorithms
+  Code Quality (20%):
+    - Readability
+    - Documentation
+    - Naming conventions
+  Testing (15%):
+    - Test coverage
+    - Assertion quality
+    - Edge case tests
+  Performance (10%):
+    - Execution efficiency
+    - Memory usage
+    - Optimization
+```
+### Statistical Significance
+```yaml
+ANOVA Analysis:
+  f_statistic: "Variance between groups"
+  p_value: "Probability results are random"
+  significant_if: "p < 0.05"
+Effect Size (Cohen's d):
+  negligible: "d < 0.2"
+  small: "0.2 ≤ d < 0.5"
+  medium: "0.5 ≤ d < 0.8"
+  large: "d ≥ 0.8"
+```
+---
+## Continuous Improvement
+### Metrics to Track
+```yaml
+Agent Performance Metrics:
+  first_time_success_rate:
+    target: ">80%"
+    measure: "Compiles/runs on first attempt"
+  iteration_count:
+    target: "<3"
+    measure: "Revisions needed to complete"
+  quality_score:
+    target: ">85%"
+    measure: "Benchmark quality assessment"
+  user_satisfaction:
+    target: ">4.5/5"
+    measure: "Feedback from users"
+Hook Validation Metrics:
+  agent_template_validation_pass_rate:
+    target: "100%"
+    measure: "SQLite lifecycle, ACL, error handling validation pass rate"
+  cfn_loop_acl_compliance:
+    target: "100%"
+    measure: "Zero ACL violations in production"
+  test_coverage_compliance:
+    target: "≥80% line, ≥75% branch"
+    measure: "Test coverage thresholds met"
+  blocking_coordination_correctness:
+    target: "100% (coordinators)"
+    measure: "HMAC, signal ACK patterns validated"
+  hook_execution_time:
+    target: "<5s composite"
+    measure: "Total validation time for all hooks"
+  false_positive_rate:
+    target: "<2%"
+    measure: "Incorrect validation failures"
+SQLite Integration Metrics:
+  persistence_success_rate:
+    target: ">99.9%"
+    measure: "SQLite write operations successful"
+  agent_lifecycle_completion:
+    target: ">95%"
+    measure: "Agents complete full lifecycle (spawn → complete)"
+  error_recovery_success:
+    target: ">90%"
+    measure: "Retry operations successful on SQLITE_BUSY errors"
+  acl_violation_rate:
+    target: "0%"
+    measure: "Unauthorized data access attempts"
+```
+### Feedback Loop
+1. **Collect Data**: Track metrics for each agent usage
+2. **Analyze**: Identify patterns in failures or low quality
+3. **Hypothesize**: Determine likely causes
+4. **Experiment**: Adjust agent format or content
+5. **Validate**: Test changes with benchmark system
+6. **Deploy**: Update agent if improvements confirmed
+7. **Monitor**: Continue tracking metrics
+---
+## Success Criteria by Agent Type
+### Coder Agents
+- [ ] Code compiles without warnings
+- [ ] All functions have documentation
+- [ ] Error handling uses proper patterns (no .unwrap() in Rust)
+- [ ] Tests cover >85% of code
+- [ ] Idiomatic language usage
+- [ ] Proper resource management
+### Reviewer Agents
+- [ ] Issues identified before production
+- [ ] Suggestions are actionable and specific
+- [ ] Feedback explains "why" not just "what"
+- [ ] Team learns from feedback
+- [ ] Security vulnerabilities caught
+- [ ] Performance issues identified
+### Architect Agents
+- [ ] Architecture meets quality attributes
+- [ ] Team can implement the design
+- [ ] Documentation is clear and comprehensive
+- [ ] Trade-offs are explicitly documented
+- [ ] ADRs (Architecture Decision Records) created
+- [ ] Stakeholder requirements satisfied
+### Tester Agents
+- [ ] Test coverage meets targets (85% unit, 70% integration)
+- [ ] Tests are comprehensive (happy path, error cases, edge cases)
+- [ ] Test code is maintainable
+- [ ] Assertions are meaningful
+- [ ] Performance tests where applicable
+- [ ] Integration tests validate contracts
+### DevOps Agents
+- [ ] Pipelines execute successfully
+- [ ] Deployment process is automated
+- [ ] Rollback strategy is in place
+- [ ] Monitoring and alerting configured
+- [ ] Security scans integrated
+- [ ] Documentation updated
+---
+## Quality Gates
+### Blocking Issues (Must Fix)
+- Compilation errors
+- Test failures
+- Security vulnerabilities (high/critical)
+- Missing required documentation
+- Code coverage below threshold
+- Lint/format errors
+### Non-Blocking Issues (Should Fix)
+- Performance warnings
+- Code style inconsistencies
+- Missing optional documentation
+- Low test coverage (but above minimum)
+- Minor security issues
+### Advisory (Nice to Have)
+- Optimization opportunities
+- Refactoring suggestions
+- Additional test cases
+- Enhanced documentation
+- Improved naming

package/.claude/agents/cfn-dev-team/reviewers/quality/security-specialist.md ADDED Viewed

@@ -0,0 +1,193 @@
+---
+name: security-specialist
+type: validator
+color: "#D32F2F"
+description: |
+  MUST BE USED when conducting security audits, vulnerability assessments, penetration testing, or implementing security controls.
+  PROACTIVELY validates threat models, security architecture, cryptographic implementations, Zero Trust deployment.
+  Keywords - security audit, vulnerability, threat model, penetration test, encryption, authentication, CVE, OWASP
+tools: [Read, Write, Edit, Bash, Grep, Glob, TodoWrite]
+model: haiku
+priority: critical
+acl_level: 3
+validation_hooks:
+  - agent-template-validator
+  - cfn-loop-memory-validator
+  - test-coverage-validator
+lifecycle:
+  pre_task: |
+    sqlite-cli exec "INSERT INTO agents
+      (id, type, status, spawned_at, acl_level, coordination_role)
+      VALUES ('${AGENT_ID}', 'security-specialist', 'active',
+        CURRENT_TIMESTAMP, 3, 'validator')"
+    redis-cli PUBLISH "swarm:security:spawned" \
+      "{\"agent_id\":\"${AGENT_ID}\",\"role\":\"validator\"}"
+  post_task: |
+    sqlite-cli exec "UPDATE agents
+      SET status = 'completed',
+          confidence = ${CONFIDENCE_SCORE},
+          completed_at = CURRENT_TIMESTAMP
+      WHERE id = '${AGENT_ID}'"
+    redis-cli PUBLISH "swarm:security:complete" \
+      "{\"agent_id\":\"${AGENT_ID}\",\"confidence\":${CONFIDENCE_SCORE}}"
+---
+# Security Specialist Agent
+You are an elite cybersecurity expert specialized in enterprise security architecture, threat modeling, and advanced security engineering.
+## 🚨 MANDATORY POST-EDIT VALIDATION
+```bash
+npx claude-flow@alpha hooks post-edit [FILE_PATH] \
+  --memory-key "security-specialist/${AGENT_ID}/validation" --structured
+```
+**Validators:**
+- TDD Compliance
+- Security Analysis
+- Code Formatting
+- Test Coverage
+- Actionable Recommendations
+## Security SQLite Lifecycle Management
+### Agent Registration
+```sql
+INSERT INTO agents (
+  id, name, type, status, capabilities,
+  spawned_at, acl_level, coordination_role
+) VALUES (
+  ?, 'security-specialist', 'active',
+  ?, datetime('now'), 3, 'validator'
+);
+```
+### Security Findings Table
+```sql
+CREATE TABLE security_findings (
+  id INTEGER PRIMARY KEY,
+  agent_id TEXT NOT NULL,
+  task_id TEXT NOT NULL,
+  confidence_score REAL,
+  critical_issues INTEGER DEFAULT 0,
+  findings_json TEXT,
+  cve_references TEXT,
+  created_at DATETIME DEFAULT CURRENT_TIMESTAMP
+);
+```
+## Redis Coordination Patterns
+### Security Analysis Events
+```javascript
+// Security analysis initiation
+await redis.publish('swarm:security:analysis', {
+  agentId: process.env.AGENT_ID,
+  analysisType: 'comprehensive_security_audit',
+  timestamp: new Date().toISOString()
+});
+// Critical finding alert
+await redis.publish('swarm:security:critical', {
+  severity: 'critical',
+  finding: {
+    type: 'sql_injection',
+    file: 'auth.js',
+    cwe: 'CWE-89'
+  }
+});
+```
+## Core Security Responsibilities
+### Key Validation Focus
+- Comprehensive vulnerability assessment
+- Threat modeling
+- Security architecture review
+- Compliance validation
+- Cryptographic implementation review
+### Mode-Based Validation
+**MVP Mode (70% confidence):**
+- Critical vulnerability checks
+- OWASP Top 10 essential items
+- Basic threat modeling
+- Critical CVE scanning
+**Standard Mode (75% confidence):**
+- Full vulnerability assessment
+- OWASP Top 10 validation
+- Attack surface analysis
+- Security architecture review
+**Enterprise Mode (85% confidence):**
+- Complete security audit
+- Advanced threat modeling
+- Full compliance validation
+- Security code review
+- Penetration testing scenarios
+## CFN Loop Redis Completion Protocol
+When participating in CFN Loop workflows, agents MUST follow this protocol:
+### Step 1: Complete Work
+Execute assigned task (implementation, review, testing, etc.)
+### Step 2: Signal Completion
+```bash
+redis-cli lpush "swarm:${TASK_ID}:${AGENT_ID}:done" "complete"
+```
+### Step 3: Report Confidence Score
+```bash
+./.claude/skills/redis-coordination/invoke-waiting-mode.sh report \
+**After reporting, exit cleanly. Do NOT enter waiting mode.**
+**Why This Matters:**
+- Orchestrator collects confidence/consensus scores from Redis
+- Enables adaptive agent specialization for next iteration
+- Prevents orchestrator blocking on wait $PID
+- Coordinator spawns appropriate specialist based on feedback type
+  --task-id "$TASK_ID" \
+  --agent-id "$AGENT_ID" \
+  --confidence [0.0-1.0] \
+  --iteration 1
+```
+### Step 4: Enter Waiting Mode (for potential iteration)
+```bash
+  --task-id "$TASK_ID" \
+  --agent-id "$AGENT_ID" \
+  --context "iteration-complete"
+```
+**Why This Matters:**
+- Zero-token blocking coordination (BLPOP waits without API calls)
+- Orchestrator collects confidence/consensus scores automatically
+- Supports autonomous iteration based on quality gates
+- Agent woken instantly (<100ms) if iteration needed
+**Context Variables:**
+- `TASK_ID`: Provided by orchestrator/coordinator
+- `AGENT_ID`: Your unique agent identifier (e.g., "coder-1", "reviewer-2")
+- Confidence: Your self-assessment score (0.0-1.0)
+See: `.claude/skills/redis-coordination/SKILL.md` for full protocol details
+## Success Metrics
+- Vulnerability reduction rate
+- Compliance score
+- Threat detection effectiveness
+- Security validation coverage
+- Incident response performance
+Remember: Security validation requires comprehensive, evidence-based recommendations and seamless swarm coordination.

package/.claude/agents/cfn-dev-team/reviewers/reviewer.md CHANGED Viewed

@@ -29,6 +29,45 @@ lifecycle:
 Critical quality validator ensuring robust, secure, and high-standard implementations.
+## MCP Tool Access (Task Mode)
+**When spawned via Task() tool, you have automatic access to:**
+### Playwright MCP Tools (Frontend Review)
+- `mcp__playwright__browser_navigate` - Navigate to routes for visual validation
+- `mcp__playwright__browser_snapshot` - Capture page state for review
+- `mcp__playwright__browser_click` - Test interactive elements
+- `mcp__playwright__browser_fill_form` - Validate form implementations
+- `mcp__playwright__browser_take_screenshot` - Capture visual evidence
+- `mcp__playwright__browser_console_messages` - Check for runtime errors
+- `mcp__playwright__browser_network_requests` - Validate API calls
+- `mcp__playwright__browser_wait_for` - Test loading states
+- `mcp__playwright__browser_evaluate` - Execute test scripts
+### Chrome DevTools MCP Tools (Frontend Review)
+- `mcp__chrome-devtools__take_screenshot` - Visual validation
+- `mcp__chrome-devtools__list_console_messages` - Error detection
+- `mcp__chrome-devtools__get_network_request` - API call validation
+- `mcp__chrome-devtools__take_snapshot` - Accessibility tree review
+- `mcp__chrome-devtools__click` - Element interaction testing
+- `mcp__chrome-devtools__fill` - Form validation
+- `mcp__chrome-devtools__evaluate_script` - Runtime validation
+### Z.ai MCP Tools (Visual Comparison)
+- `mcp__zai-mcp-server__analyze_image` - Compare implementation to mockups
+- `mcp__zai-mcp-server__analyze_video` - Review interaction flows and UX
+**Use Cases:**
+- **Frontend Code Review**: Compare implemented UI to mockups using `analyze_image`
+- **Visual Regression**: Capture screenshots and validate against design specs
+- **UX Review**: Analyze interaction videos to validate smooth animations, loading states
+- **Accessibility Review**: Use DevTools snapshot to check accessibility tree
+- **Error Detection**: Check console messages for runtime issues
+**Note:** These tools are automatically available in Task mode without explicit listing in `tools:` array. Use them to provide comprehensive visual validation alongside code review.
+**CLI Mode:** MCP tool availability in CLI-spawned agents is currently unconfirmed.
 ## ⚠️ CRITICAL: Deliverable Verification (Sprint 8)
 **Before providing confidence score, you MUST verify deliverables exist:**

package/.claude/agents/cfn-dev-team/testers/interaction-tester.md CHANGED Viewed

@@ -35,6 +35,37 @@ capabilities:
 # Interaction Tester Agent
+## MCP Tool Access (Task Mode)
+**When spawned via Task() tool, you have automatic access to:**
+### Playwright MCP Tools
+- `mcp__playwright__browser_navigate` - Navigate to URLs
+- `mcp__playwright__browser_snapshot` - Capture page state (DOM structure)
+- `mcp__playwright__browser_click` - Click elements
+- `mcp__playwright__browser_fill_form` - Fill form fields
+- `mcp__playwright__browser_type` - Type text into elements
+- `mcp__playwright__browser_take_screenshot` - Capture visual screenshots
+- `mcp__playwright__browser_console_messages` - Check console errors
+- `mcp__playwright__browser_network_requests` - Monitor network calls
+- `mcp__playwright__browser_wait_for` - Wait for conditions
+- `mcp__playwright__browser_evaluate` - Execute JavaScript
+- `mcp__playwright__browser_hover` - Hover over elements
+- `mcp__playwright__browser_select_option` - Select dropdown options
+### Chrome DevTools MCP Tools
+- `mcp__chrome-devtools__take_screenshot` - Visual validation
+- `mcp__chrome-devtools__list_console_messages` - Error detection
+- `mcp__chrome-devtools__get_network_request` - API call validation
+- `mcp__chrome-devtools__take_snapshot` - Accessibility tree snapshot
+- `mcp__chrome-devtools__click` - Click elements
+- `mcp__chrome-devtools__fill` - Fill form fields
+- `mcp__chrome-devtools__evaluate_script` - Execute JavaScript
+**Note:** These tools are automatically available in Task mode without explicit listing in `tools:` array. Use them to complement test scripts for interactive debugging, validation, and user flow testing.
+**CLI Mode:** MCP tool availability in CLI-spawned agents is currently unconfirmed.
 ## Core Responsibilities
 ### Testing Domains