npm - agentic-qe - Versions diffs - 2.1.1 → 2.2.0 - Mend

agentic-qe 2.1.1 → 2.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (167) hide show

package/CHANGELOG.md +213 -0
package/README.md +37 -11
package/dist/agents/index.d.ts.map +1 -1
package/dist/agents/index.js +5 -1
package/dist/agents/index.js.map +1 -1
package/dist/core/MemoryManager.d.ts.map +1 -1
package/dist/core/MemoryManager.js +4 -0
package/dist/core/MemoryManager.js.map +1 -1
package/dist/core/di/AgentDependencies.d.ts +127 -0
package/dist/core/di/AgentDependencies.d.ts.map +1 -0
package/dist/core/di/AgentDependencies.js +251 -0
package/dist/core/di/AgentDependencies.js.map +1 -0
package/dist/core/di/DIContainer.d.ts +149 -0
package/dist/core/di/DIContainer.d.ts.map +1 -0
package/dist/core/di/DIContainer.js +333 -0
package/dist/core/di/DIContainer.js.map +1 -0
package/dist/core/di/index.d.ts +11 -0
package/dist/core/di/index.d.ts.map +1 -0
package/dist/core/di/index.js +22 -0
package/dist/core/di/index.js.map +1 -0
package/dist/core/index.d.ts +1 -0
package/dist/core/index.d.ts.map +1 -1
package/dist/core/index.js +11 -1
package/dist/core/index.js.map +1 -1
package/dist/core/memory/RuVectorPatternStore.d.ts +5 -1
package/dist/core/memory/RuVectorPatternStore.d.ts.map +1 -1
package/dist/core/memory/RuVectorPatternStore.js +43 -1
package/dist/core/memory/RuVectorPatternStore.js.map +1 -1
package/dist/learning/ExperienceSharingProtocol.d.ts +243 -0
package/dist/learning/ExperienceSharingProtocol.d.ts.map +1 -0
package/dist/learning/ExperienceSharingProtocol.js +538 -0
package/dist/learning/ExperienceSharingProtocol.js.map +1 -0
package/dist/learning/LearningEngine.d.ts +101 -1
package/dist/learning/LearningEngine.d.ts.map +1 -1
package/dist/learning/LearningEngine.js +330 -3
package/dist/learning/LearningEngine.js.map +1 -1
package/dist/learning/QLearning.d.ts +38 -125
package/dist/learning/QLearning.d.ts.map +1 -1
package/dist/learning/QLearning.js +46 -267
package/dist/learning/QLearning.js.map +1 -1
package/dist/learning/QLearningLegacy.d.ts +154 -0
package/dist/learning/QLearningLegacy.d.ts.map +1 -0
package/dist/learning/QLearningLegacy.js +337 -0
package/dist/learning/QLearningLegacy.js.map +1 -0
package/dist/learning/algorithms/AbstractRLLearner.d.ts +162 -0
package/dist/learning/algorithms/AbstractRLLearner.d.ts.map +1 -0
package/dist/learning/algorithms/AbstractRLLearner.js +300 -0
package/dist/learning/algorithms/AbstractRLLearner.js.map +1 -0
package/dist/learning/algorithms/ActorCriticLearner.d.ts +201 -0
package/dist/learning/algorithms/ActorCriticLearner.d.ts.map +1 -0
package/dist/learning/algorithms/ActorCriticLearner.js +447 -0
package/dist/learning/algorithms/ActorCriticLearner.js.map +1 -0
package/dist/learning/algorithms/PPOLearner.d.ts +207 -0
package/dist/learning/algorithms/PPOLearner.d.ts.map +1 -0
package/dist/learning/algorithms/PPOLearner.js +490 -0
package/dist/learning/algorithms/PPOLearner.js.map +1 -0
package/dist/learning/algorithms/QLearning.d.ts +68 -0
package/dist/learning/algorithms/QLearning.d.ts.map +1 -0
package/dist/learning/algorithms/QLearning.js +116 -0
package/dist/learning/algorithms/QLearning.js.map +1 -0
package/dist/learning/algorithms/SARSALearner.d.ts +107 -0
package/dist/learning/algorithms/SARSALearner.d.ts.map +1 -0
package/dist/learning/algorithms/SARSALearner.js +252 -0
package/dist/learning/algorithms/SARSALearner.js.map +1 -0
package/dist/learning/algorithms/index.d.ts +29 -0
package/dist/learning/algorithms/index.d.ts.map +1 -0
package/dist/learning/algorithms/index.js +44 -0
package/dist/learning/algorithms/index.js.map +1 -0
package/dist/learning/index.d.ts +3 -0
package/dist/learning/index.d.ts.map +1 -1
package/dist/learning/index.js +15 -1
package/dist/learning/index.js.map +1 -1
package/dist/learning/types.d.ts +2 -0
package/dist/learning/types.d.ts.map +1 -1
package/dist/mcp/handlers/advanced/index.d.ts +3 -2
package/dist/mcp/handlers/advanced/index.d.ts.map +1 -1
package/dist/mcp/handlers/advanced/index.js +4 -5
package/dist/mcp/handlers/advanced/index.js.map +1 -1
package/dist/mcp/handlers/analysis/coverageAnalyzeSublinear.d.ts +1 -0
package/dist/mcp/handlers/analysis/coverageAnalyzeSublinear.d.ts.map +1 -1
package/dist/mcp/handlers/analysis/coverageAnalyzeSublinear.js +3 -0
package/dist/mcp/handlers/analysis/coverageAnalyzeSublinear.js.map +1 -1
package/dist/mcp/handlers/analysis/coverageGapsDetect.d.ts +1 -0
package/dist/mcp/handlers/analysis/coverageGapsDetect.d.ts.map +1 -1
package/dist/mcp/handlers/analysis/coverageGapsDetect.js +3 -0
package/dist/mcp/handlers/analysis/coverageGapsDetect.js.map +1 -1
package/dist/mcp/handlers/analysis/index.d.ts +0 -2
package/dist/mcp/handlers/analysis/index.d.ts.map +1 -1
package/dist/mcp/handlers/analysis/index.js +2 -3
package/dist/mcp/handlers/analysis/index.js.map +1 -1
package/dist/mcp/handlers/analysis/performanceMonitorRealtime.d.ts +1 -0
package/dist/mcp/handlers/analysis/performanceMonitorRealtime.d.ts.map +1 -1
package/dist/mcp/handlers/analysis/performanceMonitorRealtime.js +3 -0
package/dist/mcp/handlers/analysis/performanceMonitorRealtime.js.map +1 -1
package/dist/mcp/handlers/prediction/flaky-test-detect.d.ts.map +1 -1
package/dist/mcp/handlers/prediction/flaky-test-detect.js +2 -0
package/dist/mcp/handlers/prediction/flaky-test-detect.js.map +1 -1
package/dist/mcp/handlers/prediction/index.d.ts +0 -2
package/dist/mcp/handlers/prediction/index.d.ts.map +1 -1
package/dist/mcp/handlers/prediction/index.js +2 -3
package/dist/mcp/handlers/prediction/index.js.map +1 -1
package/dist/mcp/handlers/security/index.d.ts +0 -30
package/dist/mcp/handlers/security/index.d.ts.map +1 -1
package/dist/mcp/handlers/security/index.js +5 -31
package/dist/mcp/handlers/security/index.js.map +1 -1
package/dist/mcp/lazy-loader.d.ts +156 -0
package/dist/mcp/lazy-loader.d.ts.map +1 -0
package/dist/mcp/lazy-loader.js +327 -0
package/dist/mcp/lazy-loader.js.map +1 -0
package/dist/mcp/server-instructions.d.ts +18 -0
package/dist/mcp/server-instructions.d.ts.map +1 -0
package/dist/mcp/server-instructions.js +133 -0
package/dist/mcp/server-instructions.js.map +1 -0
package/dist/mcp/server.d.ts.map +1 -1
package/dist/mcp/server.js +236 -49
package/dist/mcp/server.js.map +1 -1
package/dist/mcp/tool-categories.d.ts +105 -0
package/dist/mcp/tool-categories.d.ts.map +1 -0
package/dist/mcp/tool-categories.js +463 -0
package/dist/mcp/tool-categories.js.map +1 -0
package/dist/mcp/tools.d.ts +3 -19
package/dist/mcp/tools.d.ts.map +1 -1
package/dist/mcp/tools.js +260 -647
package/dist/mcp/tools.js.map +1 -1
package/dist/memory/DistributedPatternLibrary.d.ts +159 -0
package/dist/memory/DistributedPatternLibrary.d.ts.map +1 -0
package/dist/memory/DistributedPatternLibrary.js +370 -0
package/dist/memory/DistributedPatternLibrary.js.map +1 -0
package/dist/memory/PatternQualityScorer.d.ts +169 -0
package/dist/memory/PatternQualityScorer.d.ts.map +1 -0
package/dist/memory/PatternQualityScorer.js +327 -0
package/dist/memory/PatternQualityScorer.js.map +1 -0
package/dist/memory/PatternReplicationService.d.ts +187 -0
package/dist/memory/PatternReplicationService.d.ts.map +1 -0
package/dist/memory/PatternReplicationService.js +392 -0
package/dist/memory/PatternReplicationService.js.map +1 -0
package/dist/providers/ClaudeProvider.d.ts +98 -0
package/dist/providers/ClaudeProvider.d.ts.map +1 -0
package/dist/providers/ClaudeProvider.js +418 -0
package/dist/providers/ClaudeProvider.js.map +1 -0
package/dist/providers/ILLMProvider.d.ts +287 -0
package/dist/providers/ILLMProvider.d.ts.map +1 -0
package/dist/providers/ILLMProvider.js +33 -0
package/dist/providers/ILLMProvider.js.map +1 -0
package/dist/providers/LLMProviderFactory.d.ts +154 -0
package/dist/providers/LLMProviderFactory.d.ts.map +1 -0
package/dist/providers/LLMProviderFactory.js +426 -0
package/dist/providers/LLMProviderFactory.js.map +1 -0
package/dist/providers/RuvllmProvider.d.ts +107 -0
package/dist/providers/RuvllmProvider.d.ts.map +1 -0
package/dist/providers/RuvllmProvider.js +417 -0
package/dist/providers/RuvllmProvider.js.map +1 -0
package/dist/providers/index.d.ts +31 -0
package/dist/providers/index.d.ts.map +1 -0
package/dist/providers/index.js +69 -0
package/dist/providers/index.js.map +1 -0
package/dist/utils/IntervalRegistry.d.ts +110 -0
package/dist/utils/IntervalRegistry.d.ts.map +1 -0
package/dist/utils/IntervalRegistry.js +190 -0
package/dist/utils/IntervalRegistry.js.map +1 -0
package/dist/utils/index.d.ts +1 -0
package/dist/utils/index.d.ts.map +1 -1
package/dist/utils/index.js +5 -1
package/dist/utils/index.js.map +1 -1
package/docs/reference/agents.md +33 -0
package/docs/reference/usage.md +60 -0
package/package.json +2 -2

package/dist/learning/QLearningLegacy.d.ts ADDED Viewed

@@ -0,0 +1,154 @@
+/**
+ * QLearning - Phase 2 (Milestone 2.2)
+ *
+ * Implements standard Q-learning algorithm for reinforcement learning.
+ * Provides epsilon-greedy policy, Q-table updates, and value function estimation.
+ */
+import { TaskState, AgentAction, TaskExperience } from './types';
+/**
+ * Q-learning algorithm configuration
+ */
+export interface QLearningConfig {
+    learningRate: number;
+    discountFactor: number;
+    explorationRate: number;
+    explorationDecay: number;
+    minExplorationRate: number;
+    useExperienceReplay: boolean;
+    replayBufferSize: number;
+    batchSize: number;
+}
+/**
+ * Q-learning action-value pair
+ */
+interface QValue {
+    state: string;
+    action: string;
+    value: number;
+    updateCount: number;
+    lastUpdated: number;
+}
+/**
+ * QLearning - Standard Q-learning implementation
+ *
+ * Implements the classic Q-learning algorithm with:
+ * - Epsilon-greedy exploration policy
+ * - Temporal difference (TD) learning
+ * - Q-table for state-action values
+ * - Optional experience replay for stability
+ */
+export declare class QLearning {
+    private readonly logger;
+    private config;
+    private qTable;
+    private replayBuffer?;
+    private stepCount;
+    private episodeCount;
+    constructor(config?: Partial<QLearningConfig>);
+    /**
+     * Select action using epsilon-greedy policy
+     * With probability ε, select random action (exploration)
+     * Otherwise, select action with highest Q-value (exploitation)
+     */
+    selectAction(state: TaskState, availableActions: AgentAction[]): AgentAction;
+    /**
+     * Get best action based on current Q-values
+     */
+    getBestAction(state: TaskState, availableActions: AgentAction[]): AgentAction;
+    /**
+     * Update Q-value using Q-learning update rule
+     * Q(s,a) ← Q(s,a) + α[r + γ·max(Q(s',a')) - Q(s,a)]
+     */
+    update(experience: TaskExperience): void;
+    /**
+     * Perform batch update using experience replay
+     * Samples random batch from replay buffer and updates Q-values
+     */
+    batchUpdate(): void;
+    /**
+     * Get Q-value for a state-action pair
+     */
+    getQValue(state: TaskState, action: AgentAction): number;
+    /**
+     * Get all Q-values for a state
+     */
+    getStateValues(state: TaskState): Map<string, number>;
+    /**
+     * Get value of a state (max Q-value over all actions)
+     * V(s) = max_a Q(s,a)
+     */
+    getStateValue(state: TaskState): number;
+    /**
+     * Decay exploration rate (epsilon)
+     * Called after each episode to gradually reduce exploration
+     */
+    decayExploration(): void;
+    /**
+     * Mark end of episode
+     */
+    endEpisode(): void;
+    /**
+     * Encode state to string key for Q-table
+     */
+    private encodeState;
+    /**
+     * Encode action to string key for Q-table
+     */
+    private encodeAction;
+    /**
+     * Get current exploration rate (epsilon)
+     */
+    getExplorationRate(): number;
+    /**
+     * Get total number of learning steps
+     */
+    getStepCount(): number;
+    /**
+     * Get total number of episodes
+     */
+    getEpisodeCount(): number;
+    /**
+     * Get Q-table size (number of state-action pairs)
+     */
+    getTableSize(): number;
+    /**
+     * Get statistics about learning progress
+     */
+    getStatistics(): {
+        steps: number;
+        episodes: number;
+        tableSize: number;
+        explorationRate: number;
+        avgQValue: number;
+        maxQValue: number;
+        minQValue: number;
+    };
+    /**
+     * Reset Q-table and learning state
+     */
+    reset(): void;
+    /**
+     * Export Q-table and state for persistence
+     */
+    export(): {
+        qTable: Record<string, Record<string, QValue>>;
+        config: QLearningConfig;
+        stepCount: number;
+        episodeCount: number;
+    };
+    /**
+     * Import Q-table and state from persistence
+     */
+    import(state: {
+        qTable: Record<string, Record<string, QValue>>;
+        config: QLearningConfig;
+        stepCount: number;
+        episodeCount: number;
+    }): void;
+    /**
+     * Get memory usage estimate in bytes
+     */
+    getMemoryUsage(): number;
+}
+export {};
+//# sourceMappingURL=QLearningLegacy.d.ts.map

package/dist/learning/QLearningLegacy.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"QLearningLegacy.d.ts","sourceRoot":"","sources":["../../src/learning/QLearningLegacy.ts"],"names":[],"mappings":"AAAA;;;;;GAKG;AAGH,OAAO,EAAE,SAAS,EAAE,WAAW,EAAE,cAAc,EAAE,MAAM,SAAS,CAAC;AAGjE;;GAEG;AACH,MAAM,WAAW,eAAe;IAC9B,YAAY,EAAE,MAAM,CAAC;IACrB,cAAc,EAAE,MAAM,CAAC;IACvB,eAAe,EAAE,MAAM,CAAC;IACxB,gBAAgB,EAAE,MAAM,CAAC;IACzB,kBAAkB,EAAE,MAAM,CAAC;IAC3B,mBAAmB,EAAE,OAAO,CAAC;IAC7B,gBAAgB,EAAE,MAAM,CAAC;IACzB,SAAS,EAAE,MAAM,CAAC;CACnB;AAgBD;;GAEG;AACH,UAAU,MAAM;IACd,KAAK,EAAE,MAAM,CAAC;IACd,MAAM,EAAE,MAAM,CAAC;IACf,KAAK,EAAE,MAAM,CAAC;IACd,WAAW,EAAE,MAAM,CAAC;IACpB,WAAW,EAAE,MAAM,CAAC;CACrB;AAED;;;;;;;;GAQG;AACH,qBAAa,SAAS;IACpB,OAAO,CAAC,QAAQ,CAAC,MAAM,CAAS;IAChC,OAAO,CAAC,MAAM,CAAkB;IAChC,OAAO,CAAC,MAAM,CAAmC;IACjD,OAAO,CAAC,YAAY,CAAC,CAAyB;IAC9C,OAAO,CAAC,SAAS,CAAS;IAC1B,OAAO,CAAC,YAAY,CAAS;gBAEjB,MAAM,GAAE,OAAO,CAAC,eAAe,CAAM;IAmBjD;;;;OAIG;IACH,YAAY,CAAC,KAAK,EAAE,SAAS,EAAE,gBAAgB,EAAE,WAAW,EAAE,GAAG,WAAW;IAe5E;;OAEG;IACH,aAAa,CAAC,KAAK,EAAE,SAAS,EAAE,gBAAgB,EAAE,WAAW,EAAE,GAAG,WAAW;IA2B7E;;;OAGG;IACH,MAAM,CAAC,UAAU,EAAE,cAAc,GAAG,IAAI;IA4CxC;;;OAGG;IACH,WAAW,IAAI,IAAI;IAcnB;;OAEG;IACH,SAAS,CAAC,KAAK,EAAE,SAAS,EAAE,MAAM,EAAE,WAAW,GAAG,MAAM;IAaxD;;OAEG;IACH,cAAc,CAAC,KAAK,EAAE,SAAS,GAAG,GAAG,CAAC,MAAM,EAAE,MAAM,CAAC;IAgBrD;;;OAGG;IACH,aAAa,CAAC,KAAK,EAAE,SAAS,GAAG,MAAM;IAWvC;;;OAGG;IACH,gBAAgB,IAAI,IAAI;IAOxB;;OAEG;IACH,UAAU,IAAI,IAAI;IAUlB;;OAEG;IACH,OAAO,CAAC,WAAW;IAcnB;;OAEG;IACH,OAAO,CAAC,YAAY;IAIpB;;OAEG;IACH,kBAAkB,IAAI,MAAM;IAI5B;;OAEG;IACH,YAAY,IAAI,MAAM;IAItB;;OAEG;IACH,eAAe,IAAI,MAAM;IAIzB;;OAEG;IACH,YAAY,IAAI,MAAM;IAQtB;;OAEG;IACH,aAAa,IAAI;QACf,KAAK,EAAE,MAAM,CAAC;QACd,QAAQ,EAAE,MAAM,CAAC;QACjB,SAAS,EAAE,MAAM,CAAC;QAClB,eAAe,EAAE,MAAM,CAAC;QACxB,SAAS,EAAE,MAAM,CAAC;QAClB,SAAS,EAAE,MAAM,CAAC;QAClB,SAAS,EAAE,MAAM,CAAC;KACnB;IA0BD;;OAEG;IACH,KAAK,IAAI,IAAI;IAab;;OAEG;IACH,MAAM,IAAI;QACR,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;QAC/C,MAAM,EAAE,eAAe,CAAC;QACxB,SAAS,EAAE,MAAM,CAAC;QAClB,YAAY,EAAE,MAAM,CAAC;KACtB;IAkBD;;OAEG;IACH,MAAM,CAAC,KAAK,EAAE;QACZ,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;QAC/C,MAAM,EAAE,eAAe,CAAC;QACxB,SAAS,EAAE,MAAM,CAAC;QAClB,YAAY,EAAE,MAAM,CAAC;KACtB,GAAG,IAAI;IAkBR;;OAEG;IACH,cAAc,IAAI,MAAM;CAKzB"}

package/dist/learning/QLearningLegacy.js ADDED Viewed

@@ -0,0 +1,337 @@
+"use strict";
+/**
+ * QLearning - Phase 2 (Milestone 2.2)
+ *
+ * Implements standard Q-learning algorithm for reinforcement learning.
+ * Provides epsilon-greedy policy, Q-table updates, and value function estimation.
+ */
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.QLearning = void 0;
+const Logger_1 = require("../utils/Logger");
+const ExperienceReplayBuffer_1 = require("./ExperienceReplayBuffer");
+/**
+ * Default Q-learning configuration
+ */
+const DEFAULT_CONFIG = {
+    learningRate: 0.1,
+    discountFactor: 0.95,
+    explorationRate: 0.3,
+    explorationDecay: 0.995,
+    minExplorationRate: 0.01,
+    useExperienceReplay: true,
+    replayBufferSize: 10000,
+    batchSize: 32
+};
+/**
+ * QLearning - Standard Q-learning implementation
+ *
+ * Implements the classic Q-learning algorithm with:
+ * - Epsilon-greedy exploration policy
+ * - Temporal difference (TD) learning
+ * - Q-table for state-action values
+ * - Optional experience replay for stability
+ */
+class QLearning {
+    constructor(config = {}) {
+        this.logger = Logger_1.Logger.getInstance();
+        this.config = { ...DEFAULT_CONFIG, ...config };
+        this.qTable = new Map();
+        this.stepCount = 0;
+        this.episodeCount = 0;
+        // Initialize experience replay buffer if enabled
+        if (this.config.useExperienceReplay) {
+            this.replayBuffer = new ExperienceReplayBuffer_1.ExperienceReplayBuffer({
+                maxSize: this.config.replayBufferSize,
+                minSize: this.config.batchSize,
+                prioritized: false
+            });
+        }
+        this.logger.info('QLearning initialized', { config: this.config });
+    }
+    /**
+     * Select action using epsilon-greedy policy
+     * With probability ε, select random action (exploration)
+     * Otherwise, select action with highest Q-value (exploitation)
+     */
+    selectAction(state, availableActions) {
+        if (availableActions.length === 0) {
+            throw new Error('No available actions to select from');
+        }
+        // Exploration: random action
+        if (Math.random() < this.config.explorationRate) {
+            const randomIndex = Math.floor(Math.random() * availableActions.length);
+            return availableActions[randomIndex];
+        }
+        // Exploitation: best action based on Q-values
+        return this.getBestAction(state, availableActions);
+    }
+    /**
+     * Get best action based on current Q-values
+     */
+    getBestAction(state, availableActions) {
+        const stateKey = this.encodeState(state);
+        const stateActions = this.qTable.get(stateKey);
+        if (!stateActions || stateActions.size === 0) {
+            // No Q-values yet, return random action
+            const randomIndex = Math.floor(Math.random() * availableActions.length);
+            return availableActions[randomIndex];
+        }
+        // Find action with highest Q-value
+        let bestAction = availableActions[0];
+        let bestValue = -Infinity;
+        for (const action of availableActions) {
+            const actionKey = this.encodeAction(action);
+            const qValue = stateActions.get(actionKey);
+            if (qValue && qValue.value > bestValue) {
+                bestValue = qValue.value;
+                bestAction = action;
+            }
+        }
+        return bestAction;
+    }
+    /**
+     * Update Q-value using Q-learning update rule
+     * Q(s,a) ← Q(s,a) + α[r + γ·max(Q(s',a')) - Q(s,a)]
+     */
+    update(experience) {
+        const stateKey = this.encodeState(experience.state);
+        const actionKey = this.encodeAction(experience.action);
+        const nextStateKey = this.encodeState(experience.nextState);
+        // Get or initialize state-action map
+        if (!this.qTable.has(stateKey)) {
+            this.qTable.set(stateKey, new Map());
+        }
+        const stateActions = this.qTable.get(stateKey);
+        // Get current Q-value
+        const currentQValue = stateActions.get(actionKey);
+        const currentQ = currentQValue?.value ?? 0;
+        // Get max Q-value for next state (for all possible actions)
+        const nextStateActions = this.qTable.get(nextStateKey);
+        const maxNextQ = nextStateActions && nextStateActions.size > 0
+            ? Math.max(...Array.from(nextStateActions.values()).map(qv => qv.value))
+            : 0;
+        // Q-learning update rule
+        // Q(s,a) = Q(s,a) + α * [r + γ * max(Q(s',a')) - Q(s,a)]
+        const tdTarget = experience.reward + this.config.discountFactor * maxNextQ;
+        const tdError = tdTarget - currentQ;
+        const newQ = currentQ + this.config.learningRate * tdError;
+        // Update Q-value
+        stateActions.set(actionKey, {
+            state: stateKey,
+            action: actionKey,
+            value: newQ,
+            updateCount: (currentQValue?.updateCount ?? 0) + 1,
+            lastUpdated: Date.now()
+        });
+        // Add to experience replay buffer
+        if (this.replayBuffer) {
+            this.replayBuffer.add(experience, Math.abs(tdError)); // Priority based on TD error
+        }
+        this.stepCount++;
+    }
+    /**
+     * Perform batch update using experience replay
+     * Samples random batch from replay buffer and updates Q-values
+     */
+    batchUpdate() {
+        if (!this.replayBuffer || !this.replayBuffer.canSample(this.config.batchSize)) {
+            return;
+        }
+        const batch = this.replayBuffer.sample(this.config.batchSize);
+        for (const experience of batch) {
+            this.update(experience);
+        }
+        this.logger.debug(`Performed batch update with ${batch.length} experiences`);
+    }
+    /**
+     * Get Q-value for a state-action pair
+     */
+    getQValue(state, action) {
+        const stateKey = this.encodeState(state);
+        const actionKey = this.encodeAction(action);
+        const stateActions = this.qTable.get(stateKey);
+        if (!stateActions) {
+            return 0;
+        }
+        const qValue = stateActions.get(actionKey);
+        return qValue?.value ?? 0;
+    }
+    /**
+     * Get all Q-values for a state
+     */
+    getStateValues(state) {
+        const stateKey = this.encodeState(state);
+        const stateActions = this.qTable.get(stateKey);
+        if (!stateActions) {
+            return new Map();
+        }
+        const values = new Map();
+        for (const [actionKey, qValue] of stateActions.entries()) {
+            values.set(actionKey, qValue.value);
+        }
+        return values;
+    }
+    /**
+     * Get value of a state (max Q-value over all actions)
+     * V(s) = max_a Q(s,a)
+     */
+    getStateValue(state) {
+        const stateKey = this.encodeState(state);
+        const stateActions = this.qTable.get(stateKey);
+        if (!stateActions || stateActions.size === 0) {
+            return 0;
+        }
+        return Math.max(...Array.from(stateActions.values()).map(qv => qv.value));
+    }
+    /**
+     * Decay exploration rate (epsilon)
+     * Called after each episode to gradually reduce exploration
+     */
+    decayExploration() {
+        this.config.explorationRate = Math.max(this.config.minExplorationRate, this.config.explorationRate * this.config.explorationDecay);
+    }
+    /**
+     * Mark end of episode
+     */
+    endEpisode() {
+        this.episodeCount++;
+        this.decayExploration();
+        // Perform batch update if using experience replay
+        if (this.config.useExperienceReplay) {
+            this.batchUpdate();
+        }
+    }
+    /**
+     * Encode state to string key for Q-table
+     */
+    encodeState(state) {
+        // Create normalized feature vector
+        const features = [
+            state.taskComplexity,
+            state.requiredCapabilities.length / 10, // normalize
+            state.previousAttempts / 5, // normalize
+            state.availableResources,
+            state.timeConstraint ? Math.min(state.timeConstraint / 300000, 1) : 1 // normalize to 5 min
+        ];
+        // Round to reduce state space (discretization)
+        return features.map(f => Math.round(f * 10) / 10).join(',');
+    }
+    /**
+     * Encode action to string key for Q-table
+     */
+    encodeAction(action) {
+        return `${action.strategy}:${action.parallelization.toFixed(1)}:${action.retryPolicy}`;
+    }
+    /**
+     * Get current exploration rate (epsilon)
+     */
+    getExplorationRate() {
+        return this.config.explorationRate;
+    }
+    /**
+     * Get total number of learning steps
+     */
+    getStepCount() {
+        return this.stepCount;
+    }
+    /**
+     * Get total number of episodes
+     */
+    getEpisodeCount() {
+        return this.episodeCount;
+    }
+    /**
+     * Get Q-table size (number of state-action pairs)
+     */
+    getTableSize() {
+        let size = 0;
+        for (const stateActions of this.qTable.values()) {
+            size += stateActions.size;
+        }
+        return size;
+    }
+    /**
+     * Get statistics about learning progress
+     */
+    getStatistics() {
+        let totalQValue = 0;
+        let count = 0;
+        let maxQ = -Infinity;
+        let minQ = Infinity;
+        for (const stateActions of this.qTable.values()) {
+            for (const qValue of stateActions.values()) {
+                totalQValue += qValue.value;
+                maxQ = Math.max(maxQ, qValue.value);
+                minQ = Math.min(minQ, qValue.value);
+                count++;
+            }
+        }
+        return {
+            steps: this.stepCount,
+            episodes: this.episodeCount,
+            tableSize: count,
+            explorationRate: this.config.explorationRate,
+            avgQValue: count > 0 ? totalQValue / count : 0,
+            maxQValue: count > 0 ? maxQ : 0,
+            minQValue: count > 0 ? minQ : 0
+        };
+    }
+    /**
+     * Reset Q-table and learning state
+     */
+    reset() {
+        this.qTable.clear();
+        this.stepCount = 0;
+        this.episodeCount = 0;
+        this.config.explorationRate = DEFAULT_CONFIG.explorationRate;
+        if (this.replayBuffer) {
+            this.replayBuffer.clear();
+        }
+        this.logger.info('QLearning reset to initial state');
+    }
+    /**
+     * Export Q-table and state for persistence
+     */
+    export() {
+        const serializedQTable = {};
+        for (const [state, actions] of this.qTable.entries()) {
+            serializedQTable[state] = {};
+            for (const [action, qValue] of actions.entries()) {
+                serializedQTable[state][action] = qValue;
+            }
+        }
+        return {
+            qTable: serializedQTable,
+            config: { ...this.config },
+            stepCount: this.stepCount,
+            episodeCount: this.episodeCount
+        };
+    }
+    /**
+     * Import Q-table and state from persistence
+     */
+    import(state) {
+        this.qTable.clear();
+        for (const [stateKey, actions] of Object.entries(state.qTable)) {
+            const actionMap = new Map();
+            for (const [actionKey, qValue] of Object.entries(actions)) {
+                actionMap.set(actionKey, qValue);
+            }
+            this.qTable.set(stateKey, actionMap);
+        }
+        this.config = { ...state.config };
+        this.stepCount = state.stepCount;
+        this.episodeCount = state.episodeCount;
+        this.logger.info(`Imported Q-table with ${this.getTableSize()} state-action pairs`);
+    }
+    /**
+     * Get memory usage estimate in bytes
+     */
+    getMemoryUsage() {
+        const qTableSize = JSON.stringify(this.export().qTable).length;
+        const bufferSize = this.replayBuffer?.getMemoryUsage() ?? 0;
+        return qTableSize + bufferSize;
+    }
+}
+exports.QLearning = QLearning;
+//# sourceMappingURL=QLearningLegacy.js.map

package/dist/learning/QLearningLegacy.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"QLearningLegacy.js","sourceRoot":"","sources":["../../src/learning/QLearningLegacy.ts"],"names":[],"mappings":";AAAA;;;;;GAKG;;;AAEH,4CAAyC;AAEzC,qEAAkE;AAgBlE;;GAEG;AACH,MAAM,cAAc,GAAoB;IACtC,YAAY,EAAE,GAAG;IACjB,cAAc,EAAE,IAAI;IACpB,eAAe,EAAE,GAAG;IACpB,gBAAgB,EAAE,KAAK;IACvB,kBAAkB,EAAE,IAAI;IACxB,mBAAmB,EAAE,IAAI;IACzB,gBAAgB,EAAE,KAAK;IACvB,SAAS,EAAE,EAAE;CACd,CAAC;AAaF;;;;;;;;GAQG;AACH,MAAa,SAAS;IAQpB,YAAY,SAAmC,EAAE;QAC/C,IAAI,CAAC,MAAM,GAAG,eAAM,CAAC,WAAW,EAAE,CAAC;QACnC,IAAI,CAAC,MAAM,GAAG,EAAE,GAAG,cAAc,EAAE,GAAG,MAAM,EAAE,CAAC;QAC/C,IAAI,CAAC,MAAM,GAAG,IAAI,GAAG,EAAE,CAAC;QACxB,IAAI,CAAC,SAAS,GAAG,CAAC,CAAC;QACnB,IAAI,CAAC,YAAY,GAAG,CAAC,CAAC;QAEtB,iDAAiD;QACjD,IAAI,IAAI,CAAC,MAAM,CAAC,mBAAmB,EAAE,CAAC;YACpC,IAAI,CAAC,YAAY,GAAG,IAAI,+CAAsB,CAAC;gBAC7C,OAAO,EAAE,IAAI,CAAC,MAAM,CAAC,gBAAgB;gBACrC,OAAO,EAAE,IAAI,CAAC,MAAM,CAAC,SAAS;gBAC9B,WAAW,EAAE,KAAK;aACnB,CAAC,CAAC;QACL,CAAC;QAED,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,uBAAuB,EAAE,EAAE,MAAM,EAAE,IAAI,CAAC,MAAM,EAAE,CAAC,CAAC;IACrE,CAAC;IAED;;;;OAIG;IACH,YAAY,CAAC,KAAgB,EAAE,gBAA+B;QAC5D,IAAI,gBAAgB,CAAC,MAAM,KAAK,CAAC,EAAE,CAAC;YAClC,MAAM,IAAI,KAAK,CAAC,qCAAqC,CAAC,CAAC;QACzD,CAAC;QAED,6BAA6B;QAC7B,IAAI,IAAI,CAAC,MAAM,EAAE,GAAG,IAAI,CAAC,MAAM,CAAC,eAAe,EAAE,CAAC;YAChD,MAAM,WAAW,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,MAAM,EAAE,GAAG,gBAAgB,CAAC,MAAM,CAAC,CAAC;YACxE,OAAO,gBAAgB,CAAC,WAAW,CAAC,CAAC;QACvC,CAAC;QAED,8CAA8C;QAC9C,OAAO,IAAI,CAAC,aAAa,CAAC,KAAK,EAAE,gBAAgB,CAAC,CAAC;IACrD,CAAC;IAED;;OAEG;IACH,aAAa,CAAC,KAAgB,EAAE,gBAA+B;QAC7D,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAE/C,IAAI,CAAC,YAAY,IAAI,YAAY,CAAC,IAAI,KAAK,CAAC,EAAE,CAAC;YAC7C,wCAAwC;YACxC,MAAM,WAAW,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,MAAM,EAAE,GAAG,gBAAgB,CAAC,MAAM,CAAC,CAAC;YACxE,OAAO,gBAAgB,CAAC,WAAW,CAAC,CAAC;QACvC,CAAC;QAED,mCAAmC;QACnC,IAAI,UAAU,GAAG,gBAAgB,CAAC,CAAC,CAAC,CAAC;QACrC,IAAI,SAAS,GAAG,CAAC,QAAQ,CAAC;QAE1B,KAAK,MAAM,MAAM,IAAI,gBAAgB,EAAE,CAAC;YACtC,MAAM,SAAS,GAAG,IAAI,CAAC,YAAY,CAAC,MAAM,CAAC,CAAC;YAC5C,MAAM,MAAM,GAAG,YAAY,CAAC,GAAG,CAAC,SAAS,CAAC,CAAC;YAE3C,IAAI,MAAM,IAAI,MAAM,CAAC,KAAK,GAAG,SAAS,EAAE,CAAC;gBACvC,SAAS,GAAG,MAAM,CAAC,KAAK,CAAC;gBACzB,UAAU,GAAG,MAAM,CAAC;YACtB,CAAC;QACH,CAAC;QAED,OAAO,UAAU,CAAC;IACpB,CAAC;IAED;;;OAGG;IACH,MAAM,CAAC,UAA0B;QAC/B,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,UAAU,CAAC,KAAK,CAAC,CAAC;QACpD,MAAM,SAAS,GAAG,IAAI,CAAC,YAAY,CAAC,UAAU,CAAC,MAAM,CAAC,CAAC;QACvD,MAAM,YAAY,GAAG,IAAI,CAAC,WAAW,CAAC,UAAU,CAAC,SAAS,CAAC,CAAC;QAE5D,qCAAqC;QACrC,IAAI,CAAC,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,EAAE,CAAC;YAC/B,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,EAAE,IAAI,GAAG,EAAE,CAAC,CAAC;QACvC,CAAC;QACD,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAE,CAAC;QAEhD,sBAAsB;QACtB,MAAM,aAAa,GAAG,YAAY,CAAC,GAAG,CAAC,SAAS,CAAC,CAAC;QAClD,MAAM,QAAQ,GAAG,aAAa,EAAE,KAAK,IAAI,CAAC,CAAC;QAE3C,4DAA4D;QAC5D,MAAM,gBAAgB,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,YAAY,CAAC,CAAC;QACvD,MAAM,QAAQ,GAAG,gBAAgB,IAAI,gBAAgB,CAAC,IAAI,GAAG,CAAC;YAC5D,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,GAAG,KAAK,CAAC,IAAI,CAAC,gBAAgB,CAAC,MAAM,EAAE,CAAC,CAAC,GAAG,CAAC,EAAE,CAAC,EAAE,CAAC,EAAE,CAAC,KAAK,CAAC,CAAC;YACxE,CAAC,CAAC,CAAC,CAAC;QAEN,yBAAyB;QACzB,yDAAyD;QACzD,MAAM,QAAQ,GAAG,UAAU,CAAC,MAAM,GAAG,IAAI,CAAC,MAAM,CAAC,cAAc,GAAG,QAAQ,CAAC;QAC3E,MAAM,OAAO,GAAG,QAAQ,GAAG,QAAQ,CAAC;QACpC,MAAM,IAAI,GAAG,QAAQ,GAAG,IAAI,CAAC,MAAM,CAAC,YAAY,GAAG,OAAO,CAAC;QAE3D,iBAAiB;QACjB,YAAY,CAAC,GAAG,CAAC,SAAS,EAAE;YAC1B,KAAK,EAAE,QAAQ;YACf,MAAM,EAAE,SAAS;YACjB,KAAK,EAAE,IAAI;YACX,WAAW,EAAE,CAAC,aAAa,EAAE,WAAW,IAAI,CAAC,CAAC,GAAG,CAAC;YAClD,WAAW,EAAE,IAAI,CAAC,GAAG,EAAE;SACxB,CAAC,CAAC;QAEH,kCAAkC;QAClC,IAAI,IAAI,CAAC,YAAY,EAAE,CAAC;YACtB,IAAI,CAAC,YAAY,CAAC,GAAG,CAAC,UAAU,EAAE,IAAI,CAAC,GAAG,CAAC,OAAO,CAAC,CAAC,CAAC,CAAC,6BAA6B;QACrF,CAAC;QAED,IAAI,CAAC,SAAS,EAAE,CAAC;IACnB,CAAC;IAED;;;OAGG;IACH,WAAW;QACT,IAAI,CAAC,IAAI,CAAC,YAAY,IAAI,CAAC,IAAI,CAAC,YAAY,CAAC,SAAS,CAAC,IAAI,CAAC,MAAM,CAAC,SAAS,CAAC,EAAE,CAAC;YAC9E,OAAO;QACT,CAAC;QAED,MAAM,KAAK,GAAG,IAAI,CAAC,YAAY,CAAC,MAAM,CAAC,IAAI,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC;QAE9D,KAAK,MAAM,UAAU,IAAI,KAAK,EAAE,CAAC;YAC/B,IAAI,CAAC,MAAM,CAAC,UAAU,CAAC,CAAC;QAC1B,CAAC;QAED,IAAI,CAAC,MAAM,CAAC,KAAK,CAAC,+BAA+B,KAAK,CAAC,MAAM,cAAc,CAAC,CAAC;IAC/E,CAAC;IAED;;OAEG;IACH,SAAS,CAAC,KAAgB,EAAE,MAAmB;QAC7C,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,SAAS,GAAG,IAAI,CAAC,YAAY,CAAC,MAAM,CAAC,CAAC;QAE5C,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAC/C,IAAI,CAAC,YAAY,EAAE,CAAC;YAClB,OAAO,CAAC,CAAC;QACX,CAAC;QAED,MAAM,MAAM,GAAG,YAAY,CAAC,GAAG,CAAC,SAAS,CAAC,CAAC;QAC3C,OAAO,MAAM,EAAE,KAAK,IAAI,CAAC,CAAC;IAC5B,CAAC;IAED;;OAEG;IACH,cAAc,CAAC,KAAgB;QAC7B,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAE/C,IAAI,CAAC,YAAY,EAAE,CAAC;YAClB,OAAO,IAAI,GAAG,EAAE,CAAC;QACnB,CAAC;QAED,MAAM,MAAM,GAAG,IAAI,GAAG,EAAkB,CAAC;QACzC,KAAK,MAAM,CAAC,SAAS,EAAE,MAAM,CAAC,IAAI,YAAY,CAAC,OAAO,EAAE,EAAE,CAAC;YACzD,MAAM,CAAC,GAAG,CAAC,SAAS,EAAE,MAAM,CAAC,KAAK,CAAC,CAAC;QACtC,CAAC;QAED,OAAO,MAAM,CAAC;IAChB,CAAC;IAED;;;OAGG;IACH,aAAa,CAAC,KAAgB;QAC5B,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAE/C,IAAI,CAAC,YAAY,IAAI,YAAY,CAAC,IAAI,KAAK,CAAC,EAAE,CAAC;YAC7C,OAAO,CAAC,CAAC;QACX,CAAC;QAED,OAAO,IAAI,CAAC,GAAG,CAAC,GAAG,KAAK,CAAC,IAAI,CAAC,YAAY,CAAC,MAAM,EAAE,CAAC,CAAC,GAAG,CAAC,EAAE,CAAC,EAAE,CAAC,EAAE,CAAC,KAAK,CAAC,CAAC,CAAC;IAC5E,CAAC;IAED;;;OAGG;IACH,gBAAgB;QACd,IAAI,CAAC,MAAM,CAAC,eAAe,GAAG,IAAI,CAAC,GAAG,CACpC,IAAI,CAAC,MAAM,CAAC,kBAAkB,EAC9B,IAAI,CAAC,MAAM,CAAC,eAAe,GAAG,IAAI,CAAC,MAAM,CAAC,gBAAgB,CAC3D,CAAC;IACJ,CAAC;IAED;;OAEG;IACH,UAAU;QACR,IAAI,CAAC,YAAY,EAAE,CAAC;QACpB,IAAI,CAAC,gBAAgB,EAAE,CAAC;QAExB,kDAAkD;QAClD,IAAI,IAAI,CAAC,MAAM,CAAC,mBAAmB,EAAE,CAAC;YACpC,IAAI,CAAC,WAAW,EAAE,CAAC;QACrB,CAAC;IACH,CAAC;IAED;;OAEG;IACK,WAAW,CAAC,KAAgB;QAClC,mCAAmC;QACnC,MAAM,QAAQ,GAAG;YACf,KAAK,CAAC,cAAc;YACpB,KAAK,CAAC,oBAAoB,CAAC,MAAM,GAAG,EAAE,EAAE,YAAY;YACpD,KAAK,CAAC,gBAAgB,GAAG,CAAC,EAAE,YAAY;YACxC,KAAK,CAAC,kBAAkB;YACxB,KAAK,CAAC,cAAc,CAAC,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,KAAK,CAAC,cAAc,GAAG,MAAM,EAAE,CAAC,CAAC,CAAC,CAAC,CAAC,CAAC,CAAC,qBAAqB;SAC5F,CAAC;QAEF,+CAA+C;QAC/C,OAAO,QAAQ,CAAC,GAAG,CAAC,CAAC,CAAC,EAAE,CAAC,IAAI,CAAC,KAAK,CAAC,CAAC,GAAG,EAAE,CAAC,GAAG,EAAE,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,CAAC;IAC9D,CAAC;IAED;;OAEG;IACK,YAAY,CAAC,MAAmB;QACtC,OAAO,GAAG,MAAM,CAAC,QAAQ,IAAI,MAAM,CAAC,eAAe,CAAC,OAAO,CAAC,CAAC,CAAC,IAAI,MAAM,CAAC,WAAW,EAAE,CAAC;IACzF,CAAC;IAED;;OAEG;IACH,kBAAkB;QAChB,OAAO,IAAI,CAAC,MAAM,CAAC,eAAe,CAAC;IACrC,CAAC;IAED;;OAEG;IACH,YAAY;QACV,OAAO,IAAI,CAAC,SAAS,CAAC;IACxB,CAAC;IAED;;OAEG;IACH,eAAe;QACb,OAAO,IAAI,CAAC,YAAY,CAAC;IAC3B,CAAC;IAED;;OAEG;IACH,YAAY;QACV,IAAI,IAAI,GAAG,CAAC,CAAC;QACb,KAAK,MAAM,YAAY,IAAI,IAAI,CAAC,MAAM,CAAC,MAAM,EAAE,EAAE,CAAC;YAChD,IAAI,IAAI,YAAY,CAAC,IAAI,CAAC;QAC5B,CAAC;QACD,OAAO,IAAI,CAAC;IACd,CAAC;IAED;;OAEG;IACH,aAAa;QASX,IAAI,WAAW,GAAG,CAAC,CAAC;QACpB,IAAI,KAAK,GAAG,CAAC,CAAC;QACd,IAAI,IAAI,GAAG,CAAC,QAAQ,CAAC;QACrB,IAAI,IAAI,GAAG,QAAQ,CAAC;QAEpB,KAAK,MAAM,YAAY,IAAI,IAAI,CAAC,MAAM,CAAC,MAAM,EAAE,EAAE,CAAC;YAChD,KAAK,MAAM,MAAM,IAAI,YAAY,CAAC,MAAM,EAAE,EAAE,CAAC;gBAC3C,WAAW,IAAI,MAAM,CAAC,KAAK,CAAC;gBAC5B,IAAI,GAAG,IAAI,CAAC,GAAG,CAAC,IAAI,EAAE,MAAM,CAAC,KAAK,CAAC,CAAC;gBACpC,IAAI,GAAG,IAAI,CAAC,GAAG,CAAC,IAAI,EAAE,MAAM,CAAC,KAAK,CAAC,CAAC;gBACpC,KAAK,EAAE,CAAC;YACV,CAAC;QACH,CAAC;QAED,OAAO;YACL,KAAK,EAAE,IAAI,CAAC,SAAS;YACrB,QAAQ,EAAE,IAAI,CAAC,YAAY;YAC3B,SAAS,EAAE,KAAK;YAChB,eAAe,EAAE,IAAI,CAAC,MAAM,CAAC,eAAe;YAC5C,SAAS,EAAE,KAAK,GAAG,CAAC,CAAC,CAAC,CAAC,WAAW,GAAG,KAAK,CAAC,CAAC,CAAC,CAAC;YAC9C,SAAS,EAAE,KAAK,GAAG,CAAC,CAAC,CAAC,CAAC,IAAI,CAAC,CAAC,CAAC,CAAC;YAC/B,SAAS,EAAE,KAAK,GAAG,CAAC,CAAC,CAAC,CAAC,IAAI,CAAC,CAAC,CAAC,CAAC;SAChC,CAAC;IACJ,CAAC;IAED;;OAEG;IACH,KAAK;QACH,IAAI,CAAC,MAAM,CAAC,KAAK,EAAE,CAAC;QACpB,IAAI,CAAC,SAAS,GAAG,CAAC,CAAC;QACnB,IAAI,CAAC,YAAY,GAAG,CAAC,CAAC;QACtB,IAAI,CAAC,MAAM,CAAC,eAAe,GAAG,cAAc,CAAC,eAAe,CAAC;QAE7D,IAAI,IAAI,CAAC,YAAY,EAAE,CAAC;YACtB,IAAI,CAAC,YAAY,CAAC,KAAK,EAAE,CAAC;QAC5B,CAAC;QAED,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,kCAAkC,CAAC,CAAC;IACvD,CAAC;IAED;;OAEG;IACH,MAAM;QAMJ,MAAM,gBAAgB,GAA2C,EAAE,CAAC;QAEpE,KAAK,MAAM,CAAC,KAAK,EAAE,OAAO,CAAC,IAAI,IAAI,CAAC,MAAM,CAAC,OAAO,EAAE,EAAE,CAAC;YACrD,gBAAgB,CAAC,KAAK,CAAC,GAAG,EAAE,CAAC;YAC7B,KAAK,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,IAAI,OAAO,CAAC,OAAO,EAAE,EAAE,CAAC;gBACjD,gBAAgB,CAAC,KAAK,CAAC,CAAC,MAAM,CAAC,GAAG,MAAM,CAAC;YAC3C,CAAC;QACH,CAAC;QAED,OAAO;YACL,MAAM,EAAE,gBAAgB;YACxB,MAAM,EAAE,EAAE,GAAG,IAAI,CAAC,MAAM,EAAE;YAC1B,SAAS,EAAE,IAAI,CAAC,SAAS;YACzB,YAAY,EAAE,IAAI,CAAC,YAAY;SAChC,CAAC;IACJ,CAAC;IAED;;OAEG;IACH,MAAM,CAAC,KAKN;QACC,IAAI,CAAC,MAAM,CAAC,KAAK,EAAE,CAAC;QAEpB,KAAK,MAAM,CAAC,QAAQ,EAAE,OAAO,CAAC,IAAI,MAAM,CAAC,OAAO,CAAC,KAAK,CAAC,MAAM,CAAC,EAAE,CAAC;YAC/D,MAAM,SAAS,GAAG,IAAI,GAAG,EAAkB,CAAC;YAC5C,KAAK,MAAM,CAAC,SAAS,EAAE,MAAM,CAAC,IAAI,MAAM,CAAC,OAAO,CAAC,OAAO,CAAC,EAAE,CAAC;gBAC1D,SAAS,CAAC,GAAG,CAAC,SAAS,EAAE,MAAM,CAAC,CAAC;YACnC,CAAC;YACD,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,EAAE,SAAS,CAAC,CAAC;QACvC,CAAC;QAED,IAAI,CAAC,MAAM,GAAG,EAAE,GAAG,KAAK,CAAC,MAAM,EAAE,CAAC;QAClC,IAAI,CAAC,SAAS,GAAG,KAAK,CAAC,SAAS,CAAC;QACjC,IAAI,CAAC,YAAY,GAAG,KAAK,CAAC,YAAY,CAAC;QAEvC,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,yBAAyB,IAAI,CAAC,YAAY,EAAE,qBAAqB,CAAC,CAAC;IACtF,CAAC;IAED;;OAEG;IACH,cAAc;QACZ,MAAM,UAAU,GAAG,IAAI,CAAC,SAAS,CAAC,IAAI,CAAC,MAAM,EAAE,CAAC,MAAM,CAAC,CAAC,MAAM,CAAC;QAC/D,MAAM,UAAU,GAAG,IAAI,CAAC,YAAY,EAAE,cAAc,EAAE,IAAI,CAAC,CAAC;QAC5D,OAAO,UAAU,GAAG,UAAU,CAAC;IACjC,CAAC;CACF;AAlYD,8BAkYC"}

package/dist/learning/algorithms/AbstractRLLearner.d.ts ADDED Viewed

@@ -0,0 +1,162 @@
+/**
+ * AbstractRLLearner - Base class for Reinforcement Learning algorithms
+ *
+ * Provides common functionality for all RL algorithms including:
+ * - Epsilon-greedy exploration policy
+ * - State/action encoding
+ * - Q-table management
+ * - Experience replay integration
+ * - Statistics tracking
+ */
+import { Logger } from '../../utils/Logger';
+import { TaskState, AgentAction, TaskExperience } from '../types';
+import { ExperienceReplayBuffer } from '../ExperienceReplayBuffer';
+/**
+ * Base configuration for RL algorithms
+ */
+export interface RLConfig {
+    learningRate: number;
+    discountFactor: number;
+    explorationRate: number;
+    explorationDecay: number;
+    minExplorationRate: number;
+    useExperienceReplay: boolean;
+    replayBufferSize: number;
+    batchSize: number;
+}
+/**
+ * Q-value with metadata
+ */
+export interface QValue {
+    state: string;
+    action: string;
+    value: number;
+    updateCount: number;
+    lastUpdated: number;
+}
+/**
+ * Abstract base class for RL algorithms
+ */
+export declare abstract class AbstractRLLearner {
+    protected readonly logger: Logger;
+    protected config: RLConfig;
+    protected qTable: Map<string, Map<string, QValue>>;
+    protected replayBuffer?: ExperienceReplayBuffer;
+    protected stepCount: number;
+    protected episodeCount: number;
+    constructor(config: RLConfig);
+    /**
+     * Select action using epsilon-greedy policy
+     * With probability ε, select random action (exploration)
+     * Otherwise, select action with highest Q-value (exploitation)
+     */
+    selectAction(state: TaskState, availableActions: AgentAction[]): AgentAction;
+    /**
+     * Get best action based on current Q-values (greedy policy)
+     */
+    getBestAction(state: TaskState, availableActions: AgentAction[]): AgentAction;
+    /**
+     * Abstract method: Update Q-value with algorithm-specific rule
+     * Must be implemented by subclasses (Q-Learning, SARSA, etc.)
+     */
+    abstract update(experience: TaskExperience, nextAction?: AgentAction): void;
+    /**
+     * Get Q-value for a state-action pair
+     */
+    getQValue(state: TaskState, action: AgentAction): number;
+    /**
+     * Set Q-value for a state-action pair (protected for subclass use)
+     */
+    protected setQValue(stateKey: string, actionKey: string, value: number): void;
+    /**
+     * Get all Q-values for a state
+     */
+    getStateValues(state: TaskState): Map<string, number>;
+    /**
+     * Get value of a state (max Q-value over all actions)
+     * V(s) = max_a Q(s,a)
+     */
+    getStateValue(state: TaskState): number;
+    /**
+     * Perform batch update using experience replay
+     * Samples random batch from replay buffer and updates Q-values
+     */
+    batchUpdate(): void;
+    /**
+     * Decay exploration rate (epsilon)
+     * Called after each episode to gradually reduce exploration
+     */
+    decayExploration(): void;
+    /**
+     * Mark end of episode
+     */
+    endEpisode(): void;
+    /**
+     * Encode state to string key for Q-table
+     * Creates normalized feature vector and discretizes for generalization
+     */
+    protected encodeState(state: TaskState): string;
+    /**
+     * Encode action to string key for Q-table
+     */
+    protected encodeAction(action: AgentAction): string;
+    /**
+     * Get current exploration rate (epsilon)
+     */
+    getExplorationRate(): number;
+    /**
+     * Get total number of learning steps
+     */
+    getStepCount(): number;
+    /**
+     * Get total number of episodes
+     */
+    getEpisodeCount(): number;
+    /**
+     * Get Q-table size (number of state-action pairs)
+     */
+    getTableSize(): number;
+    /**
+     * Get statistics about learning progress
+     */
+    getStatistics(): {
+        steps: number;
+        episodes: number;
+        tableSize: number;
+        explorationRate: number;
+        avgQValue: number;
+        maxQValue: number;
+        minQValue: number;
+    };
+    /**
+     * Reset Q-table and learning state
+     */
+    reset(): void;
+    /**
+     * Get default exploration rate (for reset)
+     */
+    protected abstract getDefaultExplorationRate(): number;
+    /**
+     * Export Q-table and state for persistence
+     */
+    export(): {
+        qTable: Record<string, Record<string, QValue>>;
+        config: RLConfig;
+        stepCount: number;
+        episodeCount: number;
+    };
+    /**
+     * Import Q-table and state from persistence
+     */
+    import(state: {
+        qTable: Record<string, Record<string, QValue>>;
+        config: RLConfig;
+        stepCount: number;
+        episodeCount: number;
+    }): void;
+    /**
+     * Get memory usage estimate in bytes
+     */
+    getMemoryUsage(): number;
+}
+//# sourceMappingURL=AbstractRLLearner.d.ts.map

package/dist/learning/algorithms/AbstractRLLearner.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"AbstractRLLearner.d.ts","sourceRoot":"","sources":["../../../src/learning/algorithms/AbstractRLLearner.ts"],"names":[],"mappings":"AAAA;;;;;;;;;GASG;AAEH,OAAO,EAAE,MAAM,EAAE,MAAM,oBAAoB,CAAC;AAC5C,OAAO,EAAE,SAAS,EAAE,WAAW,EAAE,cAAc,EAAE,MAAM,UAAU,CAAC;AAClE,OAAO,EAAE,sBAAsB,EAAE,MAAM,2BAA2B,CAAC;AAEnE;;GAEG;AACH,MAAM,WAAW,QAAQ;IACvB,YAAY,EAAE,MAAM,CAAC;IACrB,cAAc,EAAE,MAAM,CAAC;IACvB,eAAe,EAAE,MAAM,CAAC;IACxB,gBAAgB,EAAE,MAAM,CAAC;IACzB,kBAAkB,EAAE,MAAM,CAAC;IAC3B,mBAAmB,EAAE,OAAO,CAAC;IAC7B,gBAAgB,EAAE,MAAM,CAAC;IACzB,SAAS,EAAE,MAAM,CAAC;CACnB;AAED;;GAEG;AACH,MAAM,WAAW,MAAM;IACrB,KAAK,EAAE,MAAM,CAAC;IACd,MAAM,EAAE,MAAM,CAAC;IACf,KAAK,EAAE,MAAM,CAAC;IACd,WAAW,EAAE,MAAM,CAAC;IACpB,WAAW,EAAE,MAAM,CAAC;CACrB;AAED;;GAEG;AACH,8BAAsB,iBAAiB;IACrC,SAAS,CAAC,QAAQ,CAAC,MAAM,EAAE,MAAM,CAAC;IAClC,SAAS,CAAC,MAAM,EAAE,QAAQ,CAAC;IAC3B,SAAS,CAAC,MAAM,EAAE,GAAG,CAAC,MAAM,EAAE,GAAG,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;IACnD,SAAS,CAAC,YAAY,CAAC,EAAE,sBAAsB,CAAC;IAChD,SAAS,CAAC,SAAS,EAAE,MAAM,CAAC;IAC5B,SAAS,CAAC,YAAY,EAAE,MAAM,CAAC;gBAEnB,MAAM,EAAE,QAAQ;IAmB5B;;;;OAIG;IACH,YAAY,CAAC,KAAK,EAAE,SAAS,EAAE,gBAAgB,EAAE,WAAW,EAAE,GAAG,WAAW;IAe5E;;OAEG;IACH,aAAa,CAAC,KAAK,EAAE,SAAS,EAAE,gBAAgB,EAAE,WAAW,EAAE,GAAG,WAAW;IA2B7E;;;OAGG;IACH,QAAQ,CAAC,MAAM,CAAC,UAAU,EAAE,cAAc,EAAE,UAAU,CAAC,EAAE,WAAW,GAAG,IAAI;IAE3E;;OAEG;IACH,SAAS,CAAC,KAAK,EAAE,SAAS,EAAE,MAAM,EAAE,WAAW,GAAG,MAAM;IAaxD;;OAEG;IACH,SAAS,CAAC,SAAS,CAAC,QAAQ,EAAE,MAAM,EAAE,SAAS,EAAE,MAAM,EAAE,KAAK,EAAE,MAAM,GAAG,IAAI;IAgB7E;;OAEG;IACH,cAAc,CAAC,KAAK,EAAE,SAAS,GAAG,GAAG,CAAC,MAAM,EAAE,MAAM,CAAC;IAgBrD;;;OAGG;IACH,aAAa,CAAC,KAAK,EAAE,SAAS,GAAG,MAAM;IAWvC;;;OAGG;IACH,WAAW,IAAI,IAAI;IAcnB;;;OAGG;IACH,gBAAgB,IAAI,IAAI;IAOxB;;OAEG;IACH,UAAU,IAAI,IAAI;IAUlB;;;OAGG;IACH,SAAS,CAAC,WAAW,CAAC,KAAK,EAAE,SAAS,GAAG,MAAM;IAc/C;;OAEG;IACH,SAAS,CAAC,YAAY,CAAC,MAAM,EAAE,WAAW,GAAG,MAAM;IAInD;;OAEG;IACH,kBAAkB,IAAI,MAAM;IAI5B;;OAEG;IACH,YAAY,IAAI,MAAM;IAItB;;OAEG;IACH,eAAe,IAAI,MAAM;IAIzB;;OAEG;IACH,YAAY,IAAI,MAAM;IAQtB;;OAEG;IACH,aAAa,IAAI;QACf,KAAK,EAAE,MAAM,CAAC;QACd,QAAQ,EAAE,MAAM,CAAC;QACjB,SAAS,EAAE,MAAM,CAAC;QAClB,eAAe,EAAE,MAAM,CAAC;QACxB,SAAS,EAAE,MAAM,CAAC;QAClB,SAAS,EAAE,MAAM,CAAC;QAClB,SAAS,EAAE,MAAM,CAAC;KACnB;IA0BD;;OAEG;IACH,KAAK,IAAI,IAAI;IAab;;OAEG;IACH,SAAS,CAAC,QAAQ,CAAC,yBAAyB,IAAI,MAAM;IAEtD;;OAEG;IACH,MAAM,IAAI;QACR,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;QAC/C,MAAM,EAAE,QAAQ,CAAC;QACjB,SAAS,EAAE,MAAM,CAAC;QAClB,YAAY,EAAE,MAAM,CAAC;KACtB;IAkBD;;OAEG;IACH,MAAM,CAAC,KAAK,EAAE;QACZ,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;QAC/C,MAAM,EAAE,QAAQ,CAAC;QACjB,SAAS,EAAE,MAAM,CAAC;QAClB,YAAY,EAAE,MAAM,CAAC;KACtB,GAAG,IAAI;IAkBR;;OAEG;IACH,cAAc,IAAI,MAAM;CAKzB"}