npm - agentic-qe - Versions diffs - 2.1.2 → 2.2.0 - Mend

agentic-qe 2.1.2 → 2.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (100) hide show

package/CHANGELOG.md +123 -0
package/README.md +1 -1
package/dist/agents/index.d.ts.map +1 -1
package/dist/agents/index.js +5 -1
package/dist/agents/index.js.map +1 -1
package/dist/core/di/AgentDependencies.d.ts +127 -0
package/dist/core/di/AgentDependencies.d.ts.map +1 -0
package/dist/core/di/AgentDependencies.js +251 -0
package/dist/core/di/AgentDependencies.js.map +1 -0
package/dist/core/di/DIContainer.d.ts +149 -0
package/dist/core/di/DIContainer.d.ts.map +1 -0
package/dist/core/di/DIContainer.js +333 -0
package/dist/core/di/DIContainer.js.map +1 -0
package/dist/core/di/index.d.ts +11 -0
package/dist/core/di/index.d.ts.map +1 -0
package/dist/core/di/index.js +22 -0
package/dist/core/di/index.js.map +1 -0
package/dist/core/index.d.ts +1 -0
package/dist/core/index.d.ts.map +1 -1
package/dist/core/index.js +11 -1
package/dist/core/index.js.map +1 -1
package/dist/learning/ExperienceSharingProtocol.d.ts +243 -0
package/dist/learning/ExperienceSharingProtocol.d.ts.map +1 -0
package/dist/learning/ExperienceSharingProtocol.js +538 -0
package/dist/learning/ExperienceSharingProtocol.js.map +1 -0
package/dist/learning/LearningEngine.d.ts +101 -1
package/dist/learning/LearningEngine.d.ts.map +1 -1
package/dist/learning/LearningEngine.js +330 -3
package/dist/learning/LearningEngine.js.map +1 -1
package/dist/learning/QLearning.d.ts +38 -125
package/dist/learning/QLearning.d.ts.map +1 -1
package/dist/learning/QLearning.js +46 -267
package/dist/learning/QLearning.js.map +1 -1
package/dist/learning/QLearningLegacy.d.ts +154 -0
package/dist/learning/QLearningLegacy.d.ts.map +1 -0
package/dist/learning/QLearningLegacy.js +337 -0
package/dist/learning/QLearningLegacy.js.map +1 -0
package/dist/learning/algorithms/AbstractRLLearner.d.ts +162 -0
package/dist/learning/algorithms/AbstractRLLearner.d.ts.map +1 -0
package/dist/learning/algorithms/AbstractRLLearner.js +300 -0
package/dist/learning/algorithms/AbstractRLLearner.js.map +1 -0
package/dist/learning/algorithms/ActorCriticLearner.d.ts +201 -0
package/dist/learning/algorithms/ActorCriticLearner.d.ts.map +1 -0
package/dist/learning/algorithms/ActorCriticLearner.js +447 -0
package/dist/learning/algorithms/ActorCriticLearner.js.map +1 -0
package/dist/learning/algorithms/PPOLearner.d.ts +207 -0
package/dist/learning/algorithms/PPOLearner.d.ts.map +1 -0
package/dist/learning/algorithms/PPOLearner.js +490 -0
package/dist/learning/algorithms/PPOLearner.js.map +1 -0
package/dist/learning/algorithms/QLearning.d.ts +68 -0
package/dist/learning/algorithms/QLearning.d.ts.map +1 -0
package/dist/learning/algorithms/QLearning.js +116 -0
package/dist/learning/algorithms/QLearning.js.map +1 -0
package/dist/learning/algorithms/SARSALearner.d.ts +107 -0
package/dist/learning/algorithms/SARSALearner.d.ts.map +1 -0
package/dist/learning/algorithms/SARSALearner.js +252 -0
package/dist/learning/algorithms/SARSALearner.js.map +1 -0
package/dist/learning/algorithms/index.d.ts +29 -0
package/dist/learning/algorithms/index.d.ts.map +1 -0
package/dist/learning/algorithms/index.js +44 -0
package/dist/learning/algorithms/index.js.map +1 -0
package/dist/learning/index.d.ts +3 -0
package/dist/learning/index.d.ts.map +1 -1
package/dist/learning/index.js +15 -1
package/dist/learning/index.js.map +1 -1
package/dist/learning/types.d.ts +2 -0
package/dist/learning/types.d.ts.map +1 -1
package/dist/memory/DistributedPatternLibrary.d.ts +159 -0
package/dist/memory/DistributedPatternLibrary.d.ts.map +1 -0
package/dist/memory/DistributedPatternLibrary.js +370 -0
package/dist/memory/DistributedPatternLibrary.js.map +1 -0
package/dist/memory/PatternQualityScorer.d.ts +169 -0
package/dist/memory/PatternQualityScorer.d.ts.map +1 -0
package/dist/memory/PatternQualityScorer.js +327 -0
package/dist/memory/PatternQualityScorer.js.map +1 -0
package/dist/memory/PatternReplicationService.d.ts +187 -0
package/dist/memory/PatternReplicationService.d.ts.map +1 -0
package/dist/memory/PatternReplicationService.js +392 -0
package/dist/memory/PatternReplicationService.js.map +1 -0
package/dist/providers/ClaudeProvider.d.ts +98 -0
package/dist/providers/ClaudeProvider.d.ts.map +1 -0
package/dist/providers/ClaudeProvider.js +418 -0
package/dist/providers/ClaudeProvider.js.map +1 -0
package/dist/providers/ILLMProvider.d.ts +287 -0
package/dist/providers/ILLMProvider.d.ts.map +1 -0
package/dist/providers/ILLMProvider.js +33 -0
package/dist/providers/ILLMProvider.js.map +1 -0
package/dist/providers/LLMProviderFactory.d.ts +154 -0
package/dist/providers/LLMProviderFactory.d.ts.map +1 -0
package/dist/providers/LLMProviderFactory.js +426 -0
package/dist/providers/LLMProviderFactory.js.map +1 -0
package/dist/providers/RuvllmProvider.d.ts +107 -0
package/dist/providers/RuvllmProvider.d.ts.map +1 -0
package/dist/providers/RuvllmProvider.js +417 -0
package/dist/providers/RuvllmProvider.js.map +1 -0
package/dist/providers/index.d.ts +31 -0
package/dist/providers/index.d.ts.map +1 -0
package/dist/providers/index.js +69 -0
package/dist/providers/index.js.map +1 -0
package/package.json +1 -1

package/dist/learning/QLearning.d.ts CHANGED Viewed

@@ -1,154 +1,67 @@
 /**
- * QLearning - Phase 2 (Milestone 2.2)
+ * QLearning - Off-policy TD(0) Reinforcement Learning
  *
  * Implements standard Q-learning algorithm for reinforcement learning.
- * Provides epsilon-greedy policy, Q-table updates, and value function estimation.
+ * Key differences from SARSA:
+ * - Off-policy: learns optimal Q-values regardless of policy being followed
+ * - Uses max Q-value for next state, not actual next action
+ * - Update rule: Q(s,a) ← Q(s,a) + α[r + γ·max(Q(s',a')) - Q(s,a)]
+ * - More aggressive than SARSA, finds optimal policy faster
  */
-import { TaskState, AgentAction, TaskExperience } from './types';
+import { AbstractRLLearner, RLConfig } from './algorithms/AbstractRLLearner';
+import { TaskExperience, AgentAction } from './types';
 /**
- * Q-learning algorithm configuration
+ * Q-learning configuration (same as base RL config)
  */
-export interface QLearningConfig {
-    learningRate: number;
-    discountFactor: number;
-    explorationRate: number;
-    explorationDecay: number;
-    minExplorationRate: number;
-    useExperienceReplay: boolean;
-    replayBufferSize: number;
-    batchSize: number;
-}
-/**
- * Q-learning action-value pair
- */
-interface QValue {
-    state: string;
-    action: string;
-    value: number;
-    updateCount: number;
-    lastUpdated: number;
-}
+export type QLearningConfig = RLConfig;
 /**
  * QLearning - Standard Q-learning implementation
  *
  * Implements the classic Q-learning algorithm with:
  * - Epsilon-greedy exploration policy
- * - Temporal difference (TD) learning
+ * - Off-policy temporal difference (TD) learning
  * - Q-table for state-action values
  * - Optional experience replay for stability
+ *
+ * Update Rule:
+ * Q(s,a) ← Q(s,a) + α[r + γ·max_a'(Q(s',a')) - Q(s,a)]
+ *
+ * Key characteristics:
+ * - Off-policy: learns about optimal policy while following exploration policy
+ * - Uses max Q-value (greedy) for bootstrapping
+ * - Converges to optimal Q* under certain conditions
+ * - More sample-efficient than on-policy methods
  */
-export declare class QLearning {
-    private readonly logger;
-    private config;
-    private qTable;
-    private replayBuffer?;
-    private stepCount;
-    private episodeCount;
-    constructor(config?: Partial<QLearningConfig>);
-    /**
-     * Select action using epsilon-greedy policy
-     * With probability ε, select random action (exploration)
-     * Otherwise, select action with highest Q-value (exploitation)
-     */
-    selectAction(state: TaskState, availableActions: AgentAction[]): AgentAction;
-    /**
-     * Get best action based on current Q-values
-     */
-    getBestAction(state: TaskState, availableActions: AgentAction[]): AgentAction;
+export declare class QLearning extends AbstractRLLearner {
+    private readonly defaultConfig;
+    constructor(config?: Partial<RLConfig>);
     /**
      * Update Q-value using Q-learning update rule
      * Q(s,a) ← Q(s,a) + α[r + γ·max(Q(s',a')) - Q(s,a)]
+     *
+     * @param experience The transition experience (s, a, r, s')
+     * @param nextAction Ignored in Q-learning (uses max Q-value instead)
      */
-    update(experience: TaskExperience): void;
+    update(experience: TaskExperience, nextAction?: AgentAction): void;
     /**
-     * Perform batch update using experience replay
-     * Samples random batch from replay buffer and updates Q-values
+     * Get the default exploration rate for this algorithm
      */
-    batchUpdate(): void;
+    protected getDefaultExplorationRate(): number;
     /**
-     * Get Q-value for a state-action pair
+     * Get algorithm name
      */
-    getQValue(state: TaskState, action: AgentAction): number;
+    getAlgorithmName(): string;
     /**
-     * Get all Q-values for a state
+     * Get algorithm type (off-policy)
      */
-    getStateValues(state: TaskState): Map<string, number>;
+    getAlgorithmType(): 'on-policy' | 'off-policy';
     /**
-     * Get value of a state (max Q-value over all actions)
-     * V(s) = max_a Q(s,a)
+     * Get detailed statistics including Q-learning-specific metrics
      */
-    getStateValue(state: TaskState): number;
-    /**
-     * Decay exploration rate (epsilon)
-     * Called after each episode to gradually reduce exploration
-     */
-    decayExploration(): void;
-    /**
-     * Mark end of episode
-     */
-    endEpisode(): void;
-    /**
-     * Encode state to string key for Q-table
-     */
-    private encodeState;
-    /**
-     * Encode action to string key for Q-table
-     */
-    private encodeAction;
-    /**
-     * Get current exploration rate (epsilon)
-     */
-    getExplorationRate(): number;
-    /**
-     * Get total number of learning steps
-     */
-    getStepCount(): number;
-    /**
-     * Get total number of episodes
-     */
-    getEpisodeCount(): number;
-    /**
-     * Get Q-table size (number of state-action pairs)
-     */
-    getTableSize(): number;
-    /**
-     * Get statistics about learning progress
-     */
-    getStatistics(): {
-        steps: number;
-        episodes: number;
-        tableSize: number;
-        explorationRate: number;
-        avgQValue: number;
-        maxQValue: number;
-        minQValue: number;
+    getDetailedStatistics(): {
+        algorithm: string;
+        type: 'on-policy' | 'off-policy';
+        stats: ReturnType<AbstractRLLearner['getStatistics']>;
     };
-    /**
-     * Reset Q-table and learning state
-     */
-    reset(): void;
-    /**
-     * Export Q-table and state for persistence
-     */
-    export(): {
-        qTable: Record<string, Record<string, QValue>>;
-        config: QLearningConfig;
-        stepCount: number;
-        episodeCount: number;
-    };
-    /**
-     * Import Q-table and state from persistence
-     */
-    import(state: {
-        qTable: Record<string, Record<string, QValue>>;
-        config: QLearningConfig;
-        stepCount: number;
-        episodeCount: number;
-    }): void;
-    /**
-     * Get memory usage estimate in bytes
-     */
-    getMemoryUsage(): number;
 }
-export {};
 //# sourceMappingURL=QLearning.d.ts.map

package/dist/learning/QLearning.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"QLearning.d.ts","sourceRoot":"","sources":["../../src/learning/QLearning.ts"],"names":[],"mappings":"AAAA~~;;;;;GAKG~~;~~AAGH~~,OAAO,EAAE,~~SAAS~~,EAAE,~~WAAW~~,EAAE,~~cAAc,EAAE,~~MAAM,~~SAAS~~,CAAC;~~AAGjE;;GAEG;AACH~~,~~MAAM~~,~~WAAW,eAAe;IAC9B,YAAY,~~EAAE,~~MAAM,CAAC;IACrB,~~cAAc,EAAE,~~MAAM~~,~~CAAC;IACvB,eAAe,~~EAAE,MAAM,~~CAAC;IACxB,gBAAgB,EAAE,MAAM,CAAC;IACzB,kBAAkB,EAAE,MAAM,CAAC;IAC3B,mBAAmB,EAAE,OAAO,CAAC;IAC7B,gBAAgB,EAAE,MAAM,CAAC;IACzB,~~SAAS,~~EAAE,MAAM,~~CAAC;~~CACnB;AAgBD~~;;GAEG;AACH,~~UAAU,~~MAAM~~;IACd~~,~~KAAK,EAAE,~~MAAM,~~CAAC;IACd~~,~~MAAM~~,~~EAAE~~,~~MAAM,~~CAAC;~~IACf,KAAK,EAAE,MAAM,CAAC~~;~~IACd,WAAW,EAAE,MAAM,CAAC;IACpB,WAAW,EAAE,MAAM,CAAC;CACrB;AAED;;;;;;;;GAQG;~~AACH,qBAAa,~~SAAS;IACpB~~,~~OAAO~~,~~CAAC,QAAQ,CAAC,MAAM,CAAS~~;~~IAChC,OAAO,CAAC,MAAM,CAAkB;IAChC,OAAO,CAAC,MAAM,CAAmC;IACjD,OAAO,CAAC,YAAY,CAAC,CAAyB;~~IAC9C,OAAO,CAAC,~~SAAS~~,~~CAAS;IAC1B,OAAO,~~CAAC,~~YAAY~~,~~CAAS~~;~~gBAEjB~~,MAAM,GAAE,OAAO,CAAC,~~eAAe~~,CAAM;~~IAmBjD;;;;OAIG~~;IACH,~~YAAY~~,CAAC,~~KAAK~~,EAAE,~~SAAS~~,EAAE,~~gBAAgB~~,~~EAAE,WAAW,EAAE,GAAG,WAAW;IAe5E;;OAEG;IACH,aAAa,~~CAAC,~~KAAK,~~EAAE,~~SAAS,EAAE,gBAAgB,EAAE,~~WAAW,~~EAAE,~~GAAG,~~WAAW;IA2B7E;;;OAGG;IACH,MAAM,CAAC,UAAU,EAAE,cAAc,GAAG,~~IAAI;~~IA4CxC;;;OAGG;IACH,WAAW,IAAI,IAAI;IAcnB~~;;OAEG;IACH,SAAS,CAAC,~~KAAK~~,~~EAAE~~,~~SAAS,EAAE,~~MAAM~~,EAAE,WAAW,GAAG,MAAM~~;~~IAaxD~~;;OAEG;IACH,~~cAAc,CAAC,KAAK,EAAE,SAAS,GAAG,GAAG,CAAC,MAAM,EAAE,MAAM,CAAC;IAgBrD;;;OAGG;IACH,aAAa,CAAC,KAAK,EAAE,SAAS,GAAG,MAAM;IAWvC;;;OAGG;IACH,~~gBAAgB,IAAI,~~IAAI~~;~~IAOxB~~;;OAEG;IACH,~~UAAU~~,IAAI,~~IAAI;IAUlB;;OAEG;IACH,OAAO,CAAC,~~WAAW~~;IAcnB;;OAEG;IACH~~,~~OAAO~~,~~CAAC,~~YAAY;~~IAIpB~~;;OAEG;IACH,~~kBAAkB~~,IAAI~~,MAAM~~;~~IAI5B;;OAEG;IACH~~,~~YAAY,IAAI,MAAM;IAItB;;OAEG;IACH,eAAe,IAAI,MAAM;IAIzB;;OAEG;IACH,YAAY,IAAI,MAAM;IAQtB;;OAEG;IACH,aAAa,IAAI;QACf,KAAK,EAAE,MAAM,CAAC;QACd,QAAQ,EAAE,MAAM,CAAC;QACjB,~~SAAS,EAAE,MAAM,CAAC;QAClB,~~eAAe,EAAE,MAAM,CAAC;QACxB,SAAS,EAAE,MAAM,CAAC;QAClB,SAAS,EAAE,MAAM,CAAC;QAClB,SAAS,EAAE,MAAM,CAAC;KACnB;IA0BD;;OAEG;IACH,KAAK,~~IAAI,~~IAAI;IAab;;OAEG;IACH,MAAM,IAAI;QACR,MAAM,~~EAAE,~~MAAM~~,~~CAAC~~,~~MAAM,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;QAC/C,MAAM,EAAE,eAAe,CAAC;QACxB,SAAS,EAAE,MAAM,CAAC;QAClB,~~YAAY,~~EAAE,MAAM,~~CAAC;~~KACtB;IAkBD;;OAEG;IACH~~,~~MAAM,CAAC,~~KAAK,EAAE~~;QACZ~~,~~MAAM~~,~~EAAE,MAAM,~~CAAC,~~MAAM~~,~~EAAE,MAAM,~~CAAC,~~MAAM,EAAE,MAAM,CAAC,CAAC,CAAC;QAC/C,MAAM,EAAE,~~eAAe,CAAC~~;QACxB~~,~~SAAS,EAAE,MAAM,~~CAAC~~;QAClB~~,~~YAAY,EAAE,MAAM,~~CAAC;~~KACtB,GAAG,IAAI~~;~~IAkBR;;OAEG;IACH,cAAc,IAAI,MAAM;CAKzB~~"}
1	+ {"version":3,"file":"QLearning.d.ts","sourceRoot":"","sources":["../../src/learning/QLearning.ts"],"names":[],"mappings":"AAAA;;;;;;;;;GASG;AAEH,OAAO,EAAE,iBAAiB,EAAE,QAAQ,EAAE,MAAM,gCAAgC,CAAC;AAC7E,OAAO,EAAE,cAAc,EAAE,WAAW,EAAE,MAAM,SAAS,CAAC;AAEtD;;GAEG;AACH,MAAM,MAAM,eAAe,GAAG,QAAQ,CAAC;AAgBvC;;;;;;;;;;;;;;;;;GAiBG;AACH,qBAAa,SAAU,SAAQ,iBAAiB;IAC9C,OAAO,CAAC,QAAQ,CAAC,aAAa,CAAW;gBAE7B,MAAM,GAAE,OAAO,CAAC,QAAQ,CAAM;IAO1C;;;;;;OAMG;IACH,MAAM,CAAC,UAAU,EAAE,cAAc,EAAE,UAAU,CAAC,EAAE,WAAW,GAAG,IAAI;IAiClE;;OAEG;IACH,SAAS,CAAC,yBAAyB,IAAI,MAAM;IAI7C;;OAEG;IACH,gBAAgB,IAAI,MAAM;IAI1B;;OAEG;IACH,gBAAgB,IAAI,WAAW,GAAG,YAAY;IAI9C;;OAEG;IACH,qBAAqB,IAAI;QACvB,SAAS,EAAE,MAAM,CAAC;QAClB,IAAI,EAAE,WAAW,GAAG,YAAY,CAAC;QACjC,KAAK,EAAE,UAAU,CAAC,iBAAiB,CAAC,eAAe,CAAC,CAAC,CAAC;KACvD;CAOF"}

package/dist/learning/QLearning.js CHANGED Viewed

@@ -1,14 +1,17 @@
 "use strict";
 /**
- * QLearning - Phase 2 (Milestone 2.2)
+ * QLearning - Off-policy TD(0) Reinforcement Learning
  *
  * Implements standard Q-learning algorithm for reinforcement learning.
- * Provides epsilon-greedy policy, Q-table updates, and value function estimation.
+ * Key differences from SARSA:
+ * - Off-policy: learns optimal Q-values regardless of policy being followed
+ * - Uses max Q-value for next state, not actual next action
+ * - Update rule: Q(s,a) ← Q(s,a) + α[r + γ·max(Q(s',a')) - Q(s,a)]
+ * - More aggressive than SARSA, finds optimal policy faster
  */
 Object.defineProperty(exports, "__esModule", { value: true });
 exports.QLearning = void 0;
-const Logger_1 = require("../utils/Logger");
-const ExperienceReplayBuffer_1 = require("./ExperienceReplayBuffer");
+const AbstractRLLearner_1 = require("./algorithms/AbstractRLLearner");
 /**
  * Default Q-learning configuration
  */
@@ -27,85 +30,42 @@ const DEFAULT_CONFIG = {
  *
  * Implements the classic Q-learning algorithm with:
  * - Epsilon-greedy exploration policy
- * - Temporal difference (TD) learning
+ * - Off-policy temporal difference (TD) learning
  * - Q-table for state-action values
  * - Optional experience replay for stability
+ *
+ * Update Rule:
+ * Q(s,a) ← Q(s,a) + α[r + γ·max_a'(Q(s',a')) - Q(s,a)]
+ *
+ * Key characteristics:
+ * - Off-policy: learns about optimal policy while following exploration policy
+ * - Uses max Q-value (greedy) for bootstrapping
+ * - Converges to optimal Q* under certain conditions
+ * - More sample-efficient than on-policy methods
  */
-class QLearning {
+class QLearning extends AbstractRLLearner_1.AbstractRLLearner {
     constructor(config = {}) {
-        this.logger = Logger_1.Logger.getInstance();
-        this.config = { ...DEFAULT_CONFIG, ...config };
-        this.qTable = new Map();
-        this.stepCount = 0;
-        this.episodeCount = 0;
-        // Initialize experience replay buffer if enabled
-        if (this.config.useExperienceReplay) {
-            this.replayBuffer = new ExperienceReplayBuffer_1.ExperienceReplayBuffer({
-                maxSize: this.config.replayBufferSize,
-                minSize: this.config.batchSize,
-                prioritized: false
-            });
-        }
-        this.logger.info('QLearning initialized', { config: this.config });
-    }
-    /**
-     * Select action using epsilon-greedy policy
-     * With probability ε, select random action (exploration)
-     * Otherwise, select action with highest Q-value (exploitation)
-     */
-    selectAction(state, availableActions) {
-        if (availableActions.length === 0) {
-            throw new Error('No available actions to select from');
-        }
-        // Exploration: random action
-        if (Math.random() < this.config.explorationRate) {
-            const randomIndex = Math.floor(Math.random() * availableActions.length);
-            return availableActions[randomIndex];
-        }
-        // Exploitation: best action based on Q-values
-        return this.getBestAction(state, availableActions);
-    }
-    /**
-     * Get best action based on current Q-values
-     */
-    getBestAction(state, availableActions) {
-        const stateKey = this.encodeState(state);
-        const stateActions = this.qTable.get(stateKey);
-        if (!stateActions || stateActions.size === 0) {
-            // No Q-values yet, return random action
-            const randomIndex = Math.floor(Math.random() * availableActions.length);
-            return availableActions[randomIndex];
-        }
-        // Find action with highest Q-value
-        let bestAction = availableActions[0];
-        let bestValue = -Infinity;
-        for (const action of availableActions) {
-            const actionKey = this.encodeAction(action);
-            const qValue = stateActions.get(actionKey);
-            if (qValue && qValue.value > bestValue) {
-                bestValue = qValue.value;
-                bestAction = action;
-            }
-        }
-        return bestAction;
+        const fullConfig = { ...DEFAULT_CONFIG, ...config };
+        super(fullConfig);
+        this.defaultConfig = fullConfig;
+        this.logger.info('QLearning initialized with off-policy TD(0)', { config: fullConfig });
     }
     /**
      * Update Q-value using Q-learning update rule
      * Q(s,a) ← Q(s,a) + α[r + γ·max(Q(s',a')) - Q(s,a)]
+     *
+     * @param experience The transition experience (s, a, r, s')
+     * @param nextAction Ignored in Q-learning (uses max Q-value instead)
      */
-    update(experience) {
+    update(experience, nextAction) {
         const stateKey = this.encodeState(experience.state);
         const actionKey = this.encodeAction(experience.action);
         const nextStateKey = this.encodeState(experience.nextState);
-        // Get or initialize state-action map
-        if (!this.qTable.has(stateKey)) {
-            this.qTable.set(stateKey, new Map());
-        }
+        // Get current Q-value Q(s,a)
         const stateActions = this.qTable.get(stateKey);
-        // Get current Q-value
-        const currentQValue = stateActions.get(actionKey);
-        const currentQ = currentQValue?.value ?? 0;
-        // Get max Q-value for next state (for all possible actions)
+        const currentQ = stateActions?.get(actionKey)?.value ?? 0;
+        // Q-Learning: Get max Q-value for next state (greedy)
+        // This is the key difference from SARSA (which uses actual next action)
         const nextStateActions = this.qTable.get(nextStateKey);
         const maxNextQ = nextStateActions && nextStateActions.size > 0
             ? Math.max(...Array.from(nextStateActions.values()).map(qv => qv.value))
@@ -116,222 +76,41 @@ class QLearning {
         const tdError = tdTarget - currentQ;
         const newQ = currentQ + this.config.learningRate * tdError;
         // Update Q-value
-        stateActions.set(actionKey, {
-            state: stateKey,
-            action: actionKey,
-            value: newQ,
-            updateCount: (currentQValue?.updateCount ?? 0) + 1,
-            lastUpdated: Date.now()
-        });
-        // Add to experience replay buffer
+        this.setQValue(stateKey, actionKey, newQ);
+        // Add to experience replay buffer if enabled
         if (this.replayBuffer) {
             this.replayBuffer.add(experience, Math.abs(tdError)); // Priority based on TD error
         }
         this.stepCount++;
     }
     /**
-     * Perform batch update using experience replay
-     * Samples random batch from replay buffer and updates Q-values
-     */
-    batchUpdate() {
-        if (!this.replayBuffer || !this.replayBuffer.canSample(this.config.batchSize)) {
-            return;
-        }
-        const batch = this.replayBuffer.sample(this.config.batchSize);
-        for (const experience of batch) {
-            this.update(experience);
-        }
-        this.logger.debug(`Performed batch update with ${batch.length} experiences`);
-    }
-    /**
-     * Get Q-value for a state-action pair
-     */
-    getQValue(state, action) {
-        const stateKey = this.encodeState(state);
-        const actionKey = this.encodeAction(action);
-        const stateActions = this.qTable.get(stateKey);
-        if (!stateActions) {
-            return 0;
-        }
-        const qValue = stateActions.get(actionKey);
-        return qValue?.value ?? 0;
-    }
-    /**
-     * Get all Q-values for a state
-     */
-    getStateValues(state) {
-        const stateKey = this.encodeState(state);
-        const stateActions = this.qTable.get(stateKey);
-        if (!stateActions) {
-            return new Map();
-        }
-        const values = new Map();
-        for (const [actionKey, qValue] of stateActions.entries()) {
-            values.set(actionKey, qValue.value);
-        }
-        return values;
-    }
-    /**
-     * Get value of a state (max Q-value over all actions)
-     * V(s) = max_a Q(s,a)
-     */
-    getStateValue(state) {
-        const stateKey = this.encodeState(state);
-        const stateActions = this.qTable.get(stateKey);
-        if (!stateActions || stateActions.size === 0) {
-            return 0;
-        }
-        return Math.max(...Array.from(stateActions.values()).map(qv => qv.value));
-    }
-    /**
-     * Decay exploration rate (epsilon)
-     * Called after each episode to gradually reduce exploration
+     * Get the default exploration rate for this algorithm
      */
-    decayExploration() {
-        this.config.explorationRate = Math.max(this.config.minExplorationRate, this.config.explorationRate * this.config.explorationDecay);
+    getDefaultExplorationRate() {
+        return this.defaultConfig.explorationRate;
     }
     /**
-     * Mark end of episode
+     * Get algorithm name
      */
-    endEpisode() {
-        this.episodeCount++;
-        this.decayExploration();
-        // Perform batch update if using experience replay
-        if (this.config.useExperienceReplay) {
-            this.batchUpdate();
-        }
-    }
-    /**
-     * Encode state to string key for Q-table
-     */
-    encodeState(state) {
-        // Create normalized feature vector
-        const features = [
-            state.taskComplexity,
-            state.requiredCapabilities.length / 10, // normalize
-            state.previousAttempts / 5, // normalize
-            state.availableResources,
-            state.timeConstraint ? Math.min(state.timeConstraint / 300000, 1) : 1 // normalize to 5 min
-        ];
-        // Round to reduce state space (discretization)
-        return features.map(f => Math.round(f * 10) / 10).join(',');
-    }
-    /**
-     * Encode action to string key for Q-table
-     */
-    encodeAction(action) {
-        return `${action.strategy}:${action.parallelization.toFixed(1)}:${action.retryPolicy}`;
-    }
-    /**
-     * Get current exploration rate (epsilon)
-     */
-    getExplorationRate() {
-        return this.config.explorationRate;
-    }
-    /**
-     * Get total number of learning steps
-     */
-    getStepCount() {
-        return this.stepCount;
-    }
-    /**
-     * Get total number of episodes
-     */
-    getEpisodeCount() {
-        return this.episodeCount;
-    }
-    /**
-     * Get Q-table size (number of state-action pairs)
-     */
-    getTableSize() {
-        let size = 0;
-        for (const stateActions of this.qTable.values()) {
-            size += stateActions.size;
-        }
-        return size;
+    getAlgorithmName() {
+        return 'Q-Learning';
     }
     /**
-     * Get statistics about learning progress
+     * Get algorithm type (off-policy)
      */
-    getStatistics() {
-        let totalQValue = 0;
-        let count = 0;
-        let maxQ = -Infinity;
-        let minQ = Infinity;
-        for (const stateActions of this.qTable.values()) {
-            for (const qValue of stateActions.values()) {
-                totalQValue += qValue.value;
-                maxQ = Math.max(maxQ, qValue.value);
-                minQ = Math.min(minQ, qValue.value);
-                count++;
-            }
-        }
-        return {
-            steps: this.stepCount,
-            episodes: this.episodeCount,
-            tableSize: count,
-            explorationRate: this.config.explorationRate,
-            avgQValue: count > 0 ? totalQValue / count : 0,
-            maxQValue: count > 0 ? maxQ : 0,
-            minQValue: count > 0 ? minQ : 0
-        };
-    }
-    /**
-     * Reset Q-table and learning state
-     */
-    reset() {
-        this.qTable.clear();
-        this.stepCount = 0;
-        this.episodeCount = 0;
-        this.config.explorationRate = DEFAULT_CONFIG.explorationRate;
-        if (this.replayBuffer) {
-            this.replayBuffer.clear();
-        }
-        this.logger.info('QLearning reset to initial state');
+    getAlgorithmType() {
+        return 'off-policy';
     }
     /**
-     * Export Q-table and state for persistence
+     * Get detailed statistics including Q-learning-specific metrics
      */
-    export() {
-        const serializedQTable = {};
-        for (const [state, actions] of this.qTable.entries()) {
-            serializedQTable[state] = {};
-            for (const [action, qValue] of actions.entries()) {
-                serializedQTable[state][action] = qValue;
-            }
-        }
+    getDetailedStatistics() {
         return {
-            qTable: serializedQTable,
-            config: { ...this.config },
-            stepCount: this.stepCount,
-            episodeCount: this.episodeCount
+            algorithm: this.getAlgorithmName(),
+            type: this.getAlgorithmType(),
+            stats: this.getStatistics()
         };
     }
-    /**
-     * Import Q-table and state from persistence
-     */
-    import(state) {
-        this.qTable.clear();
-        for (const [stateKey, actions] of Object.entries(state.qTable)) {
-            const actionMap = new Map();
-            for (const [actionKey, qValue] of Object.entries(actions)) {
-                actionMap.set(actionKey, qValue);
-            }
-            this.qTable.set(stateKey, actionMap);
-        }
-        this.config = { ...state.config };
-        this.stepCount = state.stepCount;
-        this.episodeCount = state.episodeCount;
-        this.logger.info(`Imported Q-table with ${this.getTableSize()} state-action pairs`);
-    }
-    /**
-     * Get memory usage estimate in bytes
-     */
-    getMemoryUsage() {
-        const qTableSize = JSON.stringify(this.export().qTable).length;
-        const bufferSize = this.replayBuffer?.getMemoryUsage() ?? 0;
-        return qTableSize + bufferSize;
-    }
 }
 exports.QLearning = QLearning;
 //# sourceMappingURL=QLearning.js.map

package/dist/learning/QLearning.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"QLearning.js","sourceRoot":"","sources":["../../src/learning/QLearning.ts"],"names":[],"mappings":";AAAA~~;;;;;GAKG~~;;;AAEH,~~4CAAyC~~;~~AAEzC,qEAAkE;AAgBlE~~;;GAEG;AACH,MAAM,cAAc,~~GAAoB~~;~~IACtC~~,YAAY,EAAE,GAAG;IACjB,cAAc,EAAE,IAAI;IACpB,eAAe,EAAE,GAAG;IACpB,gBAAgB,EAAE,KAAK;IACvB,kBAAkB,EAAE,IAAI;IACxB,mBAAmB,EAAE,IAAI;IACzB,gBAAgB,EAAE,KAAK;IACvB,SAAS,EAAE,EAAE;CACd,CAAC;~~AAaF;;;;;;;;GAQG~~;AACH,MAAa,~~SAAS~~;~~IAQpB~~,YAAY,~~SAAmC~~,EAAE;~~QAC/C~~,~~IAAI,CAAC,~~MAAM,~~GAAG~~,~~eAAM,CAAC,WAAW,EAAE,CAAC;QACnC,IAAI,CAAC,MAAM,~~GAAG,EAAE,GAAG,cAAc,EAAE,GAAG,MAAM,EAAE,CAAC;~~QAC/C~~,~~IAAI~~,CAAC,~~MAAM~~,~~GAAG,IAAI,GAAG,EAAE,~~CAAC~~;QACxB~~,~~IAAI,~~CAAC~~,SAAS,GAAG,CAAC,CAAC~~;~~QACnB~~,IAAI,CAAC,~~YAAY~~,GAAG,~~CAAC~~,CAAC;~~QAEtB~~,~~iDAAiD;QACjD,~~IAAI,~~IAAI,~~CAAC,MAAM,CAAC,~~mBAAmB,EAAE,CAAC;YACpC,~~IAAI,CAAC,~~YAAY~~,~~GAAG,IAAI,+CAAsB,CAAC;gBAC7C,OAAO,~~EAAE,~~IAAI,CAAC,MAAM,CAAC,gBAAgB;gBACrC,OAAO,~~EAAE,~~IAAI,CAAC,~~MAAM,~~CAAC,SAAS;gBAC9B,WAAW,~~EAAE,~~KAAK;aACnB~~,~~CAAC,CAAC;QACL,CAAC;QAED,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,uBAAuB,~~EAAE,~~EAAE,MAAM,EAAE,IAAI,~~CAAC,~~MAAM,EAAE,~~CAAC~~,CAAC~~;~~IACrE~~,CAAC;IAED~~;;;;OAIG~~;IACH,~~YAAY~~,CAAC,~~KAAgB~~,EAAE,~~gBAA+B~~;~~QAC5D,IAAI,gBAAgB,CAAC,MAAM,KAAK,CAAC,EAAE,CAAC;YAClC,MAAM,IAAI,KAAK,CAAC,qCAAqC,CAAC,CAAC;~~QACzD,~~CAAC;QAED,6BAA6B;QAC7B,IAAI,IAAI,CAAC,~~MAAM,EAAE,GAAG,IAAI,CAAC,MAAM,CAAC,eAAe,EAAE,CAAC;YAChD,MAAM,WAAW,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,MAAM,EAAE,GAAG,gBAAgB,CAAC,MAAM,CAAC,CAAC;YACxE,OAAO,gBAAgB,CAAC,WAAW,CAAC,CAAC;QACvC,CAAC;QAED,8CAA8C;QAC9C,OAAO,IAAI,CAAC,aAAa,CAAC,KAAK,EAAE,gBAAgB,CAAC,CAAC;IACrD,CAAC;IAED;;OAEG;IACH,aAAa,CAAC,KAAgB,EAAE,gBAA+B;QAC7D,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAE/C,IAAI,CAAC,YAAY,IAAI,YAAY,CAAC,IAAI,KAAK,CAAC,EAAE,CAAC;YAC7C,wCAAwC;YACxC,MAAM,WAAW,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,MAAM,EAAE,GAAG,gBAAgB,CAAC,MAAM,CAAC,CAAC;YACxE,OAAO,gBAAgB,CAAC,WAAW,CAAC,CAAC;QACvC,CAAC;QAED,mCAAmC;QACnC,IAAI,UAAU,~~GAAG,gBAAgB,~~CAAC,~~CAAC,CAAC,CAAC;QACrC,IAAI,SAAS,GAAG,CAAC,QAAQ,CAAC;QAE1B,~~KAAK,~~MAAM,MAAM,IAAI,gBAAgB,EAAE,~~CAAC~~;YACtC~~,~~MAAM,SAAS,GAAG,IAAI,~~CAAC~~,YAAY,CAAC,MAAM,CAAC,CAAC~~;YAC5C,MAAM,MAAM,GAAG,YAAY,CAAC,GAAG,CAAC,SAAS,CAAC,CAAC;YAE3C,IAAI,MAAM,IAAI,MAAM,CAAC,KAAK,GAAG,SAAS,EAAE,CAAC;gBACvC,SAAS,GAAG,MAAM,CAAC,KAAK,CAAC;gBACzB,UAAU,GAAG,MAAM,CAAC;YACtB,CAAC;QACH,CAAC;QAED,OAAO,UAAU,CAAC;IACpB,CAAC;IAED;;;OAGG;IACH,MAAM,CAAC,UAA0B;QAC/B,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,UAAU,CAAC,KAAK,CAAC,CAAC;QACpD,MAAM,SAAS,GAAG,IAAI,CAAC,YAAY,CAAC,UAAU,CAAC,MAAM,CAAC,CAAC;QACvD,MAAM,YAAY,GAAG,IAAI,CAAC,WAAW,CAAC,UAAU,CAAC,SAAS,CAAC,CAAC;QAE5D,~~qCAAqC~~;~~QACrC~~,~~IAAI,CAAC,IAAI,CAAC,~~MAAM,~~CAAC~~,GAAG,~~CAAC,QAAQ,CAAC,EAAE,CAAC;YAC/B,~~IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,~~EAAE,IAAI,GAAG,EAAE,~~CAAC,CAAC;~~QACvC~~,~~CAAC;QACD,~~MAAM,~~YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,~~QAAQ,~~CAAE,CAAC;QAEhD,sBAAsB;QACtB,MAAM,aAAa,~~GAAG,YAAY,~~CAAC~~,GAAG,CAAC,SAAS,CAAC,~~CAAC;QAClD,MAAM,QAAQ,GAAG,aAAa,~~EAAE,KAAK,IAAI,CAAC,CAAC;~~QAE3C~~,~~4DAA4D~~;~~QAC5D~~,MAAM,gBAAgB,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,YAAY,CAAC,CAAC;QACvD,MAAM,QAAQ,GAAG,gBAAgB,IAAI,gBAAgB,CAAC,IAAI,GAAG,CAAC;YAC5D,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,GAAG,KAAK,CAAC,IAAI,CAAC,gBAAgB,CAAC,MAAM,EAAE,CAAC,CAAC,GAAG,CAAC,EAAE,CAAC,EAAE,CAAC,EAAE,CAAC,KAAK,CAAC,CAAC;YACxE,CAAC,CAAC,CAAC,CAAC;QAEN,yBAAyB;QACzB,yDAAyD;QACzD,MAAM,QAAQ,GAAG,UAAU,CAAC,MAAM,GAAG,IAAI,CAAC,MAAM,CAAC,cAAc,GAAG,QAAQ,CAAC;QAC3E,MAAM,OAAO,GAAG,QAAQ,GAAG,QAAQ,CAAC;QACpC,MAAM,IAAI,GAAG,QAAQ,GAAG,IAAI,CAAC,MAAM,CAAC,YAAY,GAAG,OAAO,CAAC;QAE3D,iBAAiB;QACjB,~~YAAY~~,CAAC,~~GAAG~~,CAAC,~~SAAS,EAAE;YAC1B,KAAK,EAAE,~~QAAQ~~;YACf~~,~~MAAM,~~EAAE,SAAS~~;YACjB~~,~~KAAK,~~EAAE,IAAI~~;YACX~~,~~WAAW,EAAE,~~CAAC,~~aAAa,EAAE,WAAW,IAAI,~~CAAC~~,CAAC,GAAG,CAAC~~;~~YAClD~~,~~WAAW,EAAE,IAAI,CAAC,GAAG,EAAE~~;~~SACxB~~,~~CAAC,CAAC;QAEH,kCAAkC;QAClC,~~IAAI,IAAI,CAAC,YAAY,EAAE,CAAC;YACtB,IAAI,CAAC,YAAY,CAAC,GAAG,CAAC,UAAU,EAAE,IAAI,CAAC,GAAG,CAAC,OAAO,CAAC,CAAC,CAAC,CAAC,6BAA6B;QACrF,CAAC;QAED,IAAI,CAAC,SAAS,EAAE,CAAC;IACnB,CAAC;IAED;;;OAGG;IACH,WAAW;QACT,IAAI,CAAC,IAAI,CAAC,YAAY,IAAI,CAAC,IAAI,CAAC,YAAY,CAAC,SAAS,CAAC,IAAI,CAAC,MAAM,CAAC,SAAS,CAAC,EAAE,CAAC;YAC9E,OAAO;QACT,CAAC;QAED,MAAM,KAAK,GAAG,IAAI,CAAC,YAAY,CAAC,MAAM,CAAC,IAAI,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC;QAE9D,KAAK,MAAM,UAAU,IAAI,KAAK,EAAE,CAAC;YAC/B,IAAI,CAAC,MAAM,CAAC,UAAU,CAAC,CAAC;QAC1B,CAAC;QAED,IAAI,CAAC,MAAM,CAAC,KAAK,CAAC,+BAA+B,KAAK,CAAC,MAAM,cAAc,CAAC,CAAC;IAC/E,CAAC;IAED;;OAEG;~~IACH~~,~~SAAS,CAAC,KAAgB,EAAE,MAAmB~~;~~QAC7C~~,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,SAAS,GAAG,IAAI,CAAC,YAAY,CAAC,MAAM,CAAC,CAAC;QAE5C,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAC/C,IAAI,CAAC,YAAY,EAAE,CAAC;YAClB,OAAO,~~CAAC,CAAC;QACX,CAAC;QAED,MAAM,MAAM,GAAG,YAAY,CAAC,GAAG,CAAC,SAAS,CAAC,CAAC;QAC3C,OAAO,MAAM,EAAE,KAAK,~~IAAI,CAAC,CAAC;IAC5B,CAAC;IAED;;OAEG;IACH,cAAc,CAAC,KAAgB;QAC7B,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAE/C,IAAI,CAAC,YAAY,EAAE,CAAC;YAClB,OAAO,IAAI,GAAG,EAAE,CAAC;QACnB,CAAC;QAED,MAAM,MAAM,GAAG,IAAI,GAAG,EAAkB,CAAC;QACzC,KAAK,MAAM,CAAC,SAAS,EAAE,MAAM,CAAC,IAAI,YAAY,CAAC,OAAO,EAAE,EAAE,CAAC;YACzD,MAAM,CAAC,GAAG,CAAC,SAAS,EAAE,MAAM,CAAC,KAAK,CAAC,CAAC;QACtC,CAAC;QAED,OAAO,MAAM,CAAC;IAChB,CAAC;IAED;;;OAGG;IACH,aAAa,CAAC,KAAgB;QAC5B,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,KAAK,CAAC,CAAC;QACzC,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAE/C,IAAI,CAAC,YAAY,IAAI,YAAY,CAAC,IAAI,KAAK,CAAC,EAAE,CAAC;YAC7C,OAAO,CAAC,CAAC;QACX,CAAC;QAED,OAAO,IAAI,CAAC,GAAG,CAAC,GAAG,KAAK,CAAC,IAAI,CAAC,YAAY,CAAC,MAAM,EAAE,CAAC,CAAC,GAAG,CAAC,EAAE,CAAC,EAAE,CAAC,EAAE,CAAC,KAAK,CAAC,CAAC,CAAC;IAC5E,CAAC;IAED;;;OAGG;IACH,gBAAgB;QACd,IAAI,CAAC,MAAM,CAAC,eAAe,~~GAAG,IAAI,~~CAAC~~,GAAG,CACpC,IAAI,CAAC,MAAM,CAAC,kBAAkB,EAC9B,IAAI,CAAC,MAAM,CAAC,eAAe,GAAG,IAAI,CAAC,MAAM,CAAC,gBAAgB,CAC3D,CAAC~~;~~IACJ~~,CAAC;IAED;;OAEG;IACH,~~UAAU;QACR,IAAI,CAAC,YAAY,EAAE,CAAC;QACpB,IAAI,CAAC,~~gBAAgB~~,EAAE,CAAC~~;~~QAExB~~,kDAAkD;QAClD,IAAI,IAAI,CAAC,MAAM,CAAC,mBAAmB,EAAE,CAAC;YACpC,IAAI,CAAC,WAAW,EAAE,CAAC;QACrB,CAAC;IACH,CAAC;IAED;;OAEG;IACK,WAAW,CAAC,KAAgB;QAClC,mCAAmC;QACnC,MAAM,QAAQ,GAAG;YACf,KAAK,CAAC,cAAc;YACpB,KAAK,CAAC,oBAAoB,CAAC,MAAM,GAAG,EAAE,EAAE,YAAY;YACpD,KAAK,CAAC,gBAAgB,GAAG,CAAC,EAAE,YAAY;YACxC,KAAK,CAAC,kBAAkB;YACxB,KAAK,CAAC,cAAc,CAAC,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,KAAK,CAAC,cAAc,GAAG,MAAM,EAAE,CAAC,CAAC,CAAC,CAAC,CAAC,CAAC,CAAC,qBAAqB;SAC5F,CAAC;QAEF,+CAA+C;QAC/C,OAAO,~~QAAQ,CAAC,GAAG,CAAC,CAAC,CAAC,EAAE,CAAC,IAAI,CAAC,KAAK,CAAC,CAAC,GAAG,EAAE,CAAC,GAAG,EAAE,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,CAAC;IAC9D,CAAC;IAED;;OAEG;IACK,~~YAAY,CAAC~~,MAAmB~~;~~QACtC~~,~~OAAO,GAAG,MAAM,~~CAAC~~,QAAQ,IAAI,MAAM,CAAC,eAAe,CAAC,OAAO,CAAC,CAAC,CAAC,IAAI,MAAM,CAAC,WAAW,EAAE,CAAC~~;~~IACzF,CAAC;~~IAED;;OAEG;IACH,~~kBAAkB~~;~~QAChB~~,OAAO,~~IAAI,CAAC,MAAM,CAAC,eAAe,CAAC;IACrC,CAAC;IAED;;OAEG;IACH,~~YAAY~~;QACV~~,~~OAAO,IAAI,~~CAAC~~,SAAS,CAAC~~;~~IACxB~~,CAAC;IAED;;OAEG;IACH,~~eAAe~~;~~QACb~~,OAAO~~,IAAI,CAAC,YAAY,CAAC~~;IAC3B,CAAC;IAED;;OAEG;IACH,YAAY;QACV,IAAI,IAAI,GAAG,CAAC,CAAC;QACb,KAAK,MAAM,YAAY,IAAI,IAAI,CAAC,MAAM,CAAC,MAAM,EAAE,EAAE,CAAC;YAChD,IAAI,IAAI,YAAY,CAAC,IAAI,CAAC;QAC5B,CAAC;QACD,OAAO,IAAI,CAAC;IACd,CAAC;IAED;;OAEG;IACH,aAAa;QASX,IAAI,WAAW,GAAG,CAAC,CAAC;QACpB,IAAI,KAAK,GAAG,CAAC,CAAC;QACd,IAAI,IAAI,GAAG,CAAC,QAAQ,CAAC;QACrB,IAAI,IAAI,GAAG,QAAQ,CAAC;QAEpB,KAAK,MAAM,YAAY,IAAI,IAAI,CAAC,MAAM,CAAC,MAAM,EAAE,EAAE,CAAC;YAChD,KAAK,MAAM,MAAM,IAAI,YAAY,CAAC,MAAM,EAAE,EAAE,CAAC;gBAC3C,WAAW,IAAI,MAAM,CAAC,KAAK,CAAC;gBAC5B,IAAI,GAAG,IAAI,CAAC,GAAG,CAAC,IAAI,EAAE,MAAM,CAAC,KAAK,CAAC,CAAC;gBACpC,IAAI,GAAG,IAAI,CAAC,GAAG,CAAC,IAAI,EAAE,MAAM,CAAC,KAAK,CAAC,CAAC;gBACpC,KAAK,EAAE,CAAC;YACV,CAAC;QACH,CAAC;QAED,OAAO;YACL,~~KAAK,EAAE,IAAI,CAAC,~~SAAS~~;YACrB~~,~~QAAQ,~~EAAE,IAAI,CAAC,~~YAAY;YAC3B~~,~~SAAS,~~EAAE~~,KAAK~~;~~YAChB~~,~~eAAe,EAAE,~~IAAI,~~CAAC,MAAM,CAAC,eAAe;YAC5C,SAAS,~~EAAE,~~KAAK,GAAG,CAAC,CAAC,CAAC,CAAC,WAAW,GAAG,KAAK,CAAC,CAAC,CAAC,CAAC;YAC9C,SAAS,EAAE,KAAK,GAAG,CAAC,CAAC,CAAC,CAAC,~~IAAI,CAAC,CAAC,CAAC,CAAC;YAC/B,SAAS,EAAE,KAAK,GAAG,CAAC,CAAC,CAAC,CAAC,IAAI,CAAC,CAAC,CAAC,CAAC;SAChC,CAAC;IACJ,CAAC;IAED;;OAEG;IACH,KAAK;QACH,IAAI,CAAC,MAAM,CAAC,KAAK,EAAE,CAAC;QACpB,IAAI,CAAC,SAAS,GAAG,CAAC,CAAC;QACnB,IAAI,CAAC,YAAY,GAAG,CAAC,CAAC;QACtB,IAAI,CAAC,MAAM,CAAC,eAAe,GAAG,cAAc,CAAC,eAAe,CAAC;QAE7D,IAAI,IAAI,CAAC,YAAY,EAAE,CAAC;YACtB,IAAI,CAAC,YAAY,CAAC,KAAK,EAAE,CAAC;QAC5B,CAAC;QAED,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,kCAAkC,CAAC,CAAC;IACvD,CAAC;IAED;;OAEG;IACH,MAAM;QAMJ,MAAM,gBAAgB,~~GAA2C,~~EAAE~~,CAAC~~;~~QAEpE,KAAK,MAAM,CAAC,KAAK,EAAE,OAAO,CAAC,IAAI,IAAI,CAAC,MAAM,CAAC,OAAO,EAAE,EAAE,CAAC;YACrD,gBAAgB,CAAC,KAAK,CAAC,GAAG,EAAE,CAAC;~~YAC7B,KAAK,~~MAAM,CAAC,MAAM,~~EAAE,~~MAAM,CAAC,~~IAAI,~~OAAO,~~CAAC,~~OAAO~~,EAAE~~,EAAE,CAAC~~;~~gBACjD~~,~~gBAAgB,~~CAAC~~,KAAK,CAAC,CAAC,MAAM,CAAC,GAAG,MAAM,CAAC~~;~~YAC3C,CAAC;QACH,CAAC;QAED,OAAO;YACL,MAAM,EAAE,gBAAgB;YACxB,MAAM,EAAE,EAAE,GAAG,IAAI,CAAC,MAAM,EAAE;YAC1B,SAAS,EAAE,IAAI,CAAC,SAAS;YACzB,YAAY,EAAE,IAAI,CAAC,YAAY;SAChC,CAAC;~~IACJ,CAAC;IAED;;OAEG;IACH,MAAM,CAAC,KAKN;QACC,IAAI,CAAC,MAAM,CAAC,KAAK,EAAE,CAAC;QAEpB,KAAK,MAAM,CAAC,QAAQ,EAAE,OAAO,CAAC,IAAI,MAAM,CAAC,OAAO,CAAC,KAAK,CAAC,MAAM,CAAC,EAAE,CAAC;YAC/D,MAAM,SAAS,GAAG,IAAI,GAAG,EAAkB,CAAC;YAC5C,KAAK,MAAM,CAAC,SAAS,EAAE,MAAM,CAAC,IAAI,MAAM,CAAC,OAAO,CAAC,OAAO,CAAC,EAAE,CAAC;gBAC1D,SAAS,CAAC,GAAG,CAAC,SAAS,EAAE,MAAM,CAAC,CAAC;YACnC,CAAC;YACD,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,EAAE,SAAS,CAAC,CAAC;QACvC,CAAC;QAED,IAAI,CAAC,MAAM,GAAG,EAAE,GAAG,KAAK,CAAC,MAAM,EAAE,CAAC;QAClC,IAAI,CAAC,SAAS,GAAG,KAAK,CAAC,SAAS,CAAC;QACjC,IAAI,CAAC,YAAY,GAAG,KAAK,CAAC,YAAY,CAAC;QAEvC,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,yBAAyB,IAAI,CAAC,YAAY,EAAE,qBAAqB,CAAC,CAAC;IACtF,CAAC;IAED;;OAEG;IACH,cAAc;QACZ,MAAM,UAAU,GAAG,IAAI,CAAC,SAAS,CAAC,IAAI,CAAC,MAAM,EAAE,CAAC,MAAM,CAAC,CAAC,MAAM,CAAC;QAC/D,MAAM,UAAU,GAAG,IAAI,CAAC,YAAY,EAAE,cAAc,EAAE,IAAI,CAAC,CAAC;QAC5D,OAAO,UAAU,GAAG,UAAU,CAAC;IACjC,CAAC;CACF;~~AAlYD~~,~~8BAkYC~~"}
1	+ {"version":3,"file":"QLearning.js","sourceRoot":"","sources":["../../src/learning/QLearning.ts"],"names":[],"mappings":";AAAA;;;;;;;;;GASG;;;AAEH,sEAA6E;AAQ7E;;GAEG;AACH,MAAM,cAAc,GAAa;IAC/B,YAAY,EAAE,GAAG;IACjB,cAAc,EAAE,IAAI;IACpB,eAAe,EAAE,GAAG;IACpB,gBAAgB,EAAE,KAAK;IACvB,kBAAkB,EAAE,IAAI;IACxB,mBAAmB,EAAE,IAAI;IACzB,gBAAgB,EAAE,KAAK;IACvB,SAAS,EAAE,EAAE;CACd,CAAC;AAEF;;;;;;;;;;;;;;;;;GAiBG;AACH,MAAa,SAAU,SAAQ,qCAAiB;IAG9C,YAAY,SAA4B,EAAE;QACxC,MAAM,UAAU,GAAG,EAAE,GAAG,cAAc,EAAE,GAAG,MAAM,EAAE,CAAC;QACpD,KAAK,CAAC,UAAU,CAAC,CAAC;QAClB,IAAI,CAAC,aAAa,GAAG,UAAU,CAAC;QAChC,IAAI,CAAC,MAAM,CAAC,IAAI,CAAC,6CAA6C,EAAE,EAAE,MAAM,EAAE,UAAU,EAAE,CAAC,CAAC;IAC1F,CAAC;IAED;;;;;;OAMG;IACH,MAAM,CAAC,UAA0B,EAAE,UAAwB;QACzD,MAAM,QAAQ,GAAG,IAAI,CAAC,WAAW,CAAC,UAAU,CAAC,KAAK,CAAC,CAAC;QACpD,MAAM,SAAS,GAAG,IAAI,CAAC,YAAY,CAAC,UAAU,CAAC,MAAM,CAAC,CAAC;QACvD,MAAM,YAAY,GAAG,IAAI,CAAC,WAAW,CAAC,UAAU,CAAC,SAAS,CAAC,CAAC;QAE5D,6BAA6B;QAC7B,MAAM,YAAY,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,QAAQ,CAAC,CAAC;QAC/C,MAAM,QAAQ,GAAG,YAAY,EAAE,GAAG,CAAC,SAAS,CAAC,EAAE,KAAK,IAAI,CAAC,CAAC;QAE1D,sDAAsD;QACtD,wEAAwE;QACxE,MAAM,gBAAgB,GAAG,IAAI,CAAC,MAAM,CAAC,GAAG,CAAC,YAAY,CAAC,CAAC;QACvD,MAAM,QAAQ,GAAG,gBAAgB,IAAI,gBAAgB,CAAC,IAAI,GAAG,CAAC;YAC5D,CAAC,CAAC,IAAI,CAAC,GAAG,CAAC,GAAG,KAAK,CAAC,IAAI,CAAC,gBAAgB,CAAC,MAAM,EAAE,CAAC,CAAC,GAAG,CAAC,EAAE,CAAC,EAAE,CAAC,EAAE,CAAC,KAAK,CAAC,CAAC;YACxE,CAAC,CAAC,CAAC,CAAC;QAEN,yBAAyB;QACzB,yDAAyD;QACzD,MAAM,QAAQ,GAAG,UAAU,CAAC,MAAM,GAAG,IAAI,CAAC,MAAM,CAAC,cAAc,GAAG,QAAQ,CAAC;QAC3E,MAAM,OAAO,GAAG,QAAQ,GAAG,QAAQ,CAAC;QACpC,MAAM,IAAI,GAAG,QAAQ,GAAG,IAAI,CAAC,MAAM,CAAC,YAAY,GAAG,OAAO,CAAC;QAE3D,iBAAiB;QACjB,IAAI,CAAC,SAAS,CAAC,QAAQ,EAAE,SAAS,EAAE,IAAI,CAAC,CAAC;QAE1C,6CAA6C;QAC7C,IAAI,IAAI,CAAC,YAAY,EAAE,CAAC;YACtB,IAAI,CAAC,YAAY,CAAC,GAAG,CAAC,UAAU,EAAE,IAAI,CAAC,GAAG,CAAC,OAAO,CAAC,CAAC,CAAC,CAAC,6BAA6B;QACrF,CAAC;QAED,IAAI,CAAC,SAAS,EAAE,CAAC;IACnB,CAAC;IAED;;OAEG;IACO,yBAAyB;QACjC,OAAO,IAAI,CAAC,aAAa,CAAC,eAAe,CAAC;IAC5C,CAAC;IAED;;OAEG;IACH,gBAAgB;QACd,OAAO,YAAY,CAAC;IACtB,CAAC;IAED;;OAEG;IACH,gBAAgB;QACd,OAAO,YAAY,CAAC;IACtB,CAAC;IAED;;OAEG;IACH,qBAAqB;QAKnB,OAAO;YACL,SAAS,EAAE,IAAI,CAAC,gBAAgB,EAAE;YAClC,IAAI,EAAE,IAAI,CAAC,gBAAgB,EAAE;YAC7B,KAAK,EAAE,IAAI,CAAC,aAAa,EAAE;SAC5B,CAAC;IACJ,CAAC;CACF;AArFD,8BAqFC"}