npm - discoclaw - Versions diffs - 1.2.4 → 2.0.0 - Mend

discoclaw 1.2.4 → 2.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (87) hide show

package/.context/voice.md +30 -2
package/.env.example +7 -3
package/.env.example.full +13 -32
package/README.md +1 -1
package/dist/cli/dashboard.js +7 -1
package/dist/cli/dashboard.test.js +0 -4
package/dist/cli/init-wizard.js +4 -8
package/dist/cli/init-wizard.test.js +4 -10
package/dist/config.js +5 -38
package/dist/config.test.js +8 -72
package/dist/cron/executor.js +72 -1
package/dist/dashboard/api/metrics.js +7 -0
package/dist/dashboard/api/metrics.test.js +16 -0
package/dist/dashboard/api/traces.js +14 -0
package/dist/dashboard/api/traces.test.js +40 -0
package/dist/dashboard/page.js +187 -8
package/dist/dashboard/server.js +82 -19
package/dist/dashboard/server.test.js +123 -10
package/dist/discord/actions.js +112 -6
package/dist/discord/actions.test.js +117 -1
package/dist/discord/deferred-runner.js +306 -219
package/dist/discord/help-command.js +1 -1
package/dist/discord/message-coordinator.js +4 -36
package/dist/discord/models-command.js +1 -1
package/dist/discord/reaction-handler.js +83 -5
package/dist/discord/reaction-handler.test.js +55 -0
package/dist/discord/verify-push.js +31 -36
package/dist/discord/verify-push.test.js +34 -6
package/dist/discord/voice-command.js +1 -31
package/dist/discord/voice-command.test.js +21 -259
package/dist/discord/voice-status-command.js +3 -22
package/dist/discord/voice-status-command.test.js +16 -124
package/dist/discord-followup.test.js +133 -0
package/dist/health/config-doctor.js +5 -27
package/dist/health/config-doctor.test.js +1 -4
package/dist/index.js +15 -28
package/dist/observability/trace-store.js +56 -0
package/dist/observability/trace-utils.js +31 -0
package/dist/runtime/codex-cli.js +3 -2
package/dist/runtime/codex-cli.test.js +33 -0
package/dist/runtime/model-tiers.js +1 -1
package/dist/runtime/model-tiers.test.js +9 -0
package/dist/runtime/openai-tool-schemas.js +17 -0
package/dist/runtime-overrides.js +2 -3
package/dist/runtime-overrides.test.js +27 -193
package/dist/tasks/store.js +10 -6
package/dist/tasks/store.test.js +44 -0
package/dist/tasks/task-action-executor.test.js +162 -50
package/dist/tasks/task-action-mutations.js +22 -2
package/dist/tasks/task-action-read-ops.js +7 -1
package/dist/tasks/task-action-runner-types.js +19 -1
package/dist/voice/audio-pipeline.js +183 -96
package/dist/voice/audio-receiver.js +8 -0
package/dist/voice/audio-receiver.test.js +16 -0
package/dist/voice/conversation-buffer.js +16 -6
package/dist/voice/providers/gemini-live-provider.js +481 -0
package/dist/voice/providers/gemini-live-provider.test.js +834 -0
package/dist/voice/providers/gemini-live-responder.js +267 -0
package/dist/voice/providers/gemini-live-responder.test.js +615 -0
package/dist/voice/providers/gemini-live-token-estimator.js +100 -0
package/dist/voice/providers/gemini-live-token-estimator.test.js +160 -0
package/dist/voice/providers/gemini-live-types.js +32 -0
package/dist/voice/providers/gemini-tool-mapper.js +91 -0
package/dist/voice/providers/gemini-tool-mapper.test.js +253 -0
package/dist/voice/providers/index.js +3 -0
package/dist/voice/voice-prompt-builder.js +26 -17
package/dist/voice/voice-prompt-builder.test.js +16 -1
package/docs/configuration.md +4 -9
package/docs/official-docs.md +6 -9
package/docs/runtime-switching.md +1 -1
package/package.json +1 -1
package/dist/voice/audio-pipeline.test.js +0 -619
package/dist/voice/stt-deepgram.js +0 -154
package/dist/voice/stt-deepgram.test.js +0 -275
package/dist/voice/stt-factory.js +0 -42
package/dist/voice/stt-factory.test.js +0 -45
package/dist/voice/stt-openai.js +0 -156
package/dist/voice/stt-openai.test.js +0 -281
package/dist/voice/tts-cartesia.js +0 -169
package/dist/voice/tts-cartesia.test.js +0 -228
package/dist/voice/tts-deepgram.js +0 -84
package/dist/voice/tts-deepgram.test.js +0 -220
package/dist/voice/tts-factory.js +0 -52
package/dist/voice/tts-factory.test.js +0 -53
package/dist/voice/tts-openai.js +0 -70
package/dist/voice/tts-openai.test.js +0 -138
package/dist/voice/types.test.js +0 -84

package/.context/voice.md CHANGED Viewed

@@ -29,10 +29,16 @@ Two native npm packages power the Discord voice integration:
 | `src/voice/transcript-mirror.ts` | Posts user transcriptions and bot responses to a text channel |
 | `src/voice/voice-action-flags.ts` | Restricted action subset for voice invocations (messaging + tasks + memory only) |
 | `src/voice/conversation-buffer.ts` | Per-guild conversation ring buffer (10 turns) — stores user/model exchanges in memory; backfills from voice-log channel on join |
+| `src/voice/providers/gemini-live-types.ts` | TypeScript interfaces for Gemini Live: `GeminiLiveOpts`, `GeminiLiveEvent`, `GeminiLiveState` |
+| `src/voice/providers/gemini-live-provider.ts` | Bidirectional WebSocket session wrapper for the Gemini Multimodal Live API — connect/disconnect, audio send/receive, reconnect with exponential backoff |
+| `src/voice/providers/gemini-live-responder.ts` | Bridges `GeminiLiveProvider` audio/text events to Discord `AudioPlayer` playback and `TranscriptMirror` logging |
+| `src/voice/providers/index.ts` | Barrel re-export for Gemini Live provider modules |
 | `src/discord/actions-voice.ts` | Discord action types: `voiceJoin`, `voiceLeave`, `voiceStatus`, `voiceMute`, `voiceDeafen` |
 ## Audio Data Flow
+### Default pipeline (`voiceProvider: 'pipeline'`)
 ```
 User speaks in Discord voice channel
   → @discordjs/voice receiver emits Opus packets per user
@@ -47,6 +53,23 @@ User speaks in Discord voice channel
                     → AudioPlayer → Discord voice connection
 ```
+### Gemini Live (`voiceProvider: 'gemini-live'`)
+Bypasses separate STT/TTS/AI stages — Gemini handles speech recognition, reasoning, and speech synthesis in a single bidirectional WebSocket session.
+```
+User speaks in Discord voice channel
+  → @discordjs/voice receiver emits Opus packets per user
+    → AudioReceiver: allowlist gate → OpusDecoder (48 kHz stereo PCM)
+      → downsample to 16 kHz mono
+        → SttProvider shim → GeminiLiveProvider.sendAudio() (WebSocket)
+          → Gemini Live: STT + reasoning + TTS (server-side)
+            ← audio events (24 kHz mono PCM) + text events
+              → GeminiLiveResponder: upsampleToDiscord (48 kHz stereo)
+                → AudioPlayer → Discord voice connection
+              → onBotResponse callback → TranscriptMirror (text channel)
+```
 ## Key Patterns
 - **Allowlist gating** — `AudioReceiver` only subscribes to users in `DISCORD_ALLOW_USER_IDS`. Empty allowlist = ignore everyone (fail-closed).
@@ -56,6 +79,8 @@ User speaks in Discord voice channel
 - **Generation-based cancellation** — `VoiceResponder` increments a generation counter on each new transcription. If a newer transcription arrives mid-pipeline, the older one is silently abandoned.
 - **Barge-in** — Gated on a non-empty STT transcription result, not the raw VAD `speaking.start` event. Echo from the bot's own TTS leaking through the user's mic produces empty transcriptions and is ignored. Only when `VoiceResponder.handleTranscription()` receives a non-empty transcript while the player is active does it stop playback and advance the generation counter. This eliminates false positives from echo without relying on a static grace-period timeout.
 - **Conversation ring buffer** — `ConversationBuffer` maintains a per-guild 10-turn ring buffer of user/model exchanges that gets injected into the voice prompt as formatted conversation history. Turns are appended live during a session. On voice join, the buffer backfills from recent voice-log channel messages so context carries across disconnects. The buffer is cleared when the bot leaves the voice channel.
+- **`SttProvider` shim for Gemini Live** — In `gemini-live` mode, the pipeline still uses `AudioReceiver` for Opus decode and downsampling, but replaces the real STT provider with a lightweight shim object that implements the `SttProvider` interface. The shim's `feedAudio()` forwards PCM frames directly to `GeminiLiveProvider.sendAudio()`, while its `start()`/`stop()`/`onTranscription()` are no-ops. This reuses the existing audio-receive path without duplicating Opus decode or downsample logic.
+- **Session rotation timer** — `GeminiLiveProvider` starts a timer on each successful connection that fires at `DISCOCLAW_GEMINI_SESSION_ROTATION_MS` (default 13 min), proactively triggering a graceful reconnect before Gemini's ~15 min server-side session limit. The timer reuses the existing reconnect-with-resume-handle path (ws-039), so audio gap is minimal. The timer is cleared on disconnect and reset on each reconnect. Set to `0` to disable rotation (the server will eventually kill the session).
 - **Re-entrancy guard** — `AudioPipelineManager.startPipeline` uses a `starting` set because `VoiceConnection.subscribe()` synchronously fires a Ready state change.
 - **Error containment** — `VoiceConnectionManager` catches connection errors and destroys the connection to prevent process crashes (e.g. DAVE handshake failures).
 - **Deepgram TTS 2000-char limit** — Deepgram Aura REST TTS returns HTTP 413 (silent failure) for inputs exceeding ~2000 characters. `tts-deepgram.ts` truncates the input to 2000 chars before sending to prevent silent audio dropouts. If the AI response is unexpectedly long (e.g. from a missing `VOICE_STYLE_INSTRUCTION`), the user will still hear a truncated response rather than silence.
@@ -78,8 +103,9 @@ When `voiceEnabled=true`, the post-connect block in `src/index.ts` initializes t
 | `DISCOCLAW_VOICE_ENABLED` | `0` | Master switch |
 | `DISCOCLAW_DISCORD_ACTIONS_VOICE` | `0` | Enable voice action types |
 | `DISCOCLAW_VOICE_AUTO_JOIN` | `0` | Auto-join when allowlisted user enters |
-| `DISCOCLAW_STT_PROVIDER` | `deepgram` | STT backend |
-| `DISCOCLAW_TTS_PROVIDER` | `cartesia` | TTS backend (`cartesia`, `deepgram`, `openai`, `kokoro`) |
+| `DISCOCLAW_VOICE_PIPELINE_PROVIDER` | `pipeline` | Voice pipeline mode: `pipeline` (separate STT/AI/TTS stages) or `gemini-live` (single bidirectional Gemini WebSocket). Requires `GEMINI_API_KEY` when set to `gemini-live`. |
+| `DISCOCLAW_STT_PROVIDER` | `deepgram` | STT backend (used in `pipeline` mode only; ignored in `gemini-live` mode) |
+| `DISCOCLAW_TTS_PROVIDER` | `cartesia` | TTS backend (`cartesia`, `deepgram`, `openai`, `kokoro`) (used in `pipeline` mode only; ignored in `gemini-live` mode) |
 | `DISCOCLAW_VOICE_HOME_CHANNEL` | — | Voice audio channel name/ID used for prompt context (not transcript mirroring) |
 | `DISCOCLAW_VOICE_LOG_CHANNEL` | — | Text channel name/ID where `TranscriptMirror` posts user transcriptions and bot responses; falls back to bootstrap-provided `voiceLogChannelId` if unset |
 | `DISCOCLAW_VOICE_MODEL` | `capable` | AI model tier for voice responses |
@@ -89,5 +115,7 @@ When `voiceEnabled=true`, the post-connect block in `src/index.ts` initializes t
 | `DEEPGRAM_TTS_VOICE` | `aura-2-asteria-en` | Deepgram TTS voice name |
 | `DEEPGRAM_TTS_SPEED` | `1.3` | Deepgram TTS playback speed (range 0.5–1.5) |
 | `CARTESIA_API_KEY` | — | Required for cartesia TTS |
+| `DISCOCLAW_GEMINI_SESSION_ROTATION_MS` | `780000` (13 min) | Time before proactive session rotation in `gemini-live` mode. Must be less than Gemini's ~15 min server-side limit. Set to `0` to disable. |
+| `GEMINI_API_KEY` | — | Required when `DISCOCLAW_VOICE_PIPELINE_PROVIDER=gemini-live`. Authenticates the Gemini Multimodal Live WebSocket session. Also used by the `gemini-api` runtime adapter (see `runtime.md`). |
 | `ANTHROPIC_API_KEY` | — | Enables the Anthropic REST adapter; when set and voice is enabled, voice auto-wires to the direct Messages API path (zero CLI cold-start). See `runtime.md § Anthropic REST Runtime`. |
 | *(built-in)* | — | Telegraphic style instruction hardcoded into every voice AI invocation — front-loads the answer, strips preambles/markdown/filler, keeps responses short for TTS latency. Not an env var; not overridable by `DISCOCLAW_VOICE_SYSTEM_PROMPT`. |

package/.env.example CHANGED Viewed

@@ -90,7 +90,7 @@ DISCORD_GUILD_ID=
 # - PRIMARY_RUNTIME sets the default adapter the instance boots with.
 # - `!models set chat <runtime>` can live-switch the main runtime in memory, but chat runtime swaps do not persist.
 # - Persistent model-role defaults live in data/models.json.
-# - Persistent runtime-only overlays live in data/runtime-overrides.json (`voiceRuntime`, `fastRuntime`, `ttsVoice`).
+# - Persistent runtime-only overlays live in data/runtime-overrides.json (`voiceRuntime`, `fastRuntime`).
 # - `!models reset` writes startup-default model strings back into models.json and clears fast/voice runtime overlays;
 #   it does not rewrite PRIMARY_RUNTIME in .env.
 # Supported runtime-path notes:
@@ -191,8 +191,12 @@ DISCORD_GUILD_ID=
 # Voice — configure via `pnpm setup` or `discoclaw init`
 # ----------------------------------------------------------
 # Run `pnpm setup` or `discoclaw init` to enable voice interactively,
-# or set these vars manually to enable voice chat (STT/TTS via Deepgram).
+# or set these vars manually to enable Gemini Live voice chat.
 #DISCOCLAW_VOICE_ENABLED=0
+# Gemini Live requires GEMINI_API_KEY.
+# Gemini Live session rotation threshold (ms). The provider proactively reconnects
+# before Gemini's ~15 min session limit to minimize audio gap. Default: 780000 (13 min).
+#DISCOCLAW_GEMINI_SESSION_ROTATION_MS=780000
 # Text channel used for voice prompt context and actions (e.g. posting action results,
 # reading pinned notes). Required for full voice functionality when voice is enabled.
 #DISCOCLAW_VOICE_HOME_CHANNEL= # e.g. "voice"
@@ -200,7 +204,7 @@ DISCORD_GUILD_ID=
 # (the bot creates a "voice-log" text channel and stores its ID in system-scaffold.json).
 # Only set this to override the auto-discovered channel.
 #DISCOCLAW_VOICE_LOG_CHANNEL=
-#DEEPGRAM_API_KEY=
+#GEMINI_API_KEY=
 # Optional voice-only Anthropic runtime for voice responses.
 # `claude-api` is not a valid PRIMARY_RUNTIME and does not persist in models.json.
 # Use `!models set voice claude-api` to persist the voice runtime path in runtime-overrides.json.

package/.env.example.full CHANGED Viewed

@@ -703,32 +703,22 @@ DISCOCLAW_DISCORD_ACTIONS_IMAGEGEN=0
 # IMAGEGEN_GEMINI_API_KEY is set.
 # ----------------------------------------------------------
-# Voice (STT/TTS) — join voice channels, listen and respond
+# Voice — Gemini Live voice chat
 # ----------------------------------------------------------
-# Master switch — enables voice channel interaction (default: off).
-# When enabled, the bot can join Discord voice channels, transcribe speech via STT,
-# and respond with synthesized speech via TTS.
+# Master switch — enables Discord voice interaction (default: off).
+# Gemini Live handles speech recognition, reasoning, and speech synthesis in one session.
 #DISCOCLAW_VOICE_ENABLED=0
 # Enable voice Discord action category (voiceJoin, voiceLeave, voiceStatus, voiceMute, voiceDeafen).
 # Requires DISCOCLAW_VOICE_ENABLED=1 to take effect (default: off).
 #DISCOCLAW_DISCORD_ACTIONS_VOICE=0
 # Auto-join voice channels when a non-bot user joins, and auto-leave when the last
-# non-bot user leaves. Starts/tears down the audio pipeline (STT receiver) automatically.
-# Requires DISCOCLAW_VOICE_ENABLED=1 (default: off).
+# non-bot user leaves. Requires DISCOCLAW_VOICE_ENABLED=1 (default: off).
 #DISCOCLAW_VOICE_AUTO_JOIN=0
-# Speech-to-text provider: deepgram (Deepgram Nova-3 API) or whisper (whisper.cpp local).
-# deepgram requires DEEPGRAM_API_KEY; whisper runs locally with no API key.
-#DISCOCLAW_STT_PROVIDER=deepgram
-# Text-to-speech provider: cartesia | deepgram | kokoro | openai.
-# cartesia requires CARTESIA_API_KEY; deepgram reuses DEEPGRAM_API_KEY;
-# openai requires OPENAI_API_KEY; kokoro runs locally with no API key.
-#DISCOCLAW_TTS_PROVIDER=cartesia
-# Voice audio channel name or ID — the channel the bot joins for voice interaction.
-# Used as the prompt context source (root policy, PA files, channel context, durable memory).
+# Voice text channel name or ID — used for prompt context and voice-triggered actions.
 # The old env var DISCOCLAW_VOICE_TRANSCRIPT_CHANNEL is still accepted as a fallback.
 # Leave unset to skip voice channel context in prompts.
 #DISCOCLAW_VOICE_HOME_CHANNEL=  # e.g. "voice" if using the default scaffold
-# Text channel name or ID for posting voice transcripts (user STT and bot TTS responses).
+# Text channel name or ID for posting voice transcripts.
 # Optional — auto-discovered via bootstrap (the bot creates "voice-log" and stores its ID
 # in system-scaffold.json). Only set this to override the auto-discovered channel.
 # Leave unset to disable transcript mirroring.
@@ -741,20 +731,11 @@ DISCOCLAW_DISCORD_ACTIONS_IMAGEGEN=0
 # Custom system prompt prepended to voice AI invocations. Max 4000 chars.
 # Use this to set a conversational tone, brevity instructions, or persona for voice responses.
 #DISCOCLAW_VOICE_SYSTEM_PROMPT=
-# Anthropic API key for direct Messages API access (bypasses Claude CLI cold-start).
-# When set and voice is enabled, voice invocations use the Anthropic REST adapter
-# instead of the CLI subprocess, eliminating ~2-5s cold-start latency per response.
+# Gemini Live session rotation threshold (ms). The provider proactively reconnects
+# before Gemini's ~15 min session limit to minimize audio gap. Default: 780000 (13 min).
+#DISCOCLAW_GEMINI_SESSION_ROTATION_MS=780000
+# Google Gemini API key. Required when voice is enabled.
+#GEMINI_API_KEY=
+# Anthropic API key for the optional direct Messages API voice runtime.
+# When set, `!models set voice claude-api` can bypass CLI cold-start for voice responses.
 #ANTHROPIC_API_KEY=
-# API key for Deepgram Nova-3 STT. Required when DISCOCLAW_STT_PROVIDER=deepgram.
-#DEEPGRAM_API_KEY=
-# Deepgram STT model for voice transcription (default: nova-3-conversationalai).
-# See https://developers.deepgram.com/docs/models-languages-overview for available models.
-#DEEPGRAM_STT_MODEL=nova-3-conversationalai
-# Deepgram TTS voice for speech synthesis (default: aura-2-asteria-en).
-# See https://developers.deepgram.com/docs/tts-models for available voices.
-#DEEPGRAM_TTS_VOICE=aura-2-asteria-en
-# Deepgram TTS playback speed (range: 0.5–1.5, default: 1.3).
-# Values below 1.0 slow down speech; values above 1.0 speed it up.
-#DEEPGRAM_TTS_SPEED=1.3
-# API key for Cartesia Sonic-3 TTS. Required when DISCOCLAW_TTS_PROVIDER=cartesia.
-#CARTESIA_API_KEY=

package/README.md CHANGED Viewed

@@ -39,7 +39,7 @@ No gateways, no proxies, no web UI. Discord *is* the interface.
 ## Voice — the bot talks back
-Real-time voice with STT (Deepgram), TTS (Cartesia), barge-in, and transcript mirroring. Off by default. [Setup guide →](docs/voice.md)
+Real-time voice with Gemini Live, barge-in, tool calls, and transcript mirroring. Off by default. [Setup guide →](docs/voice.md)
 ## Self-management

package/dist/cli/dashboard.js CHANGED Viewed

@@ -146,7 +146,13 @@ function normalizeRuntimeName(value) {
     const trimmed = value?.trim().toLowerCase();
     if (!trimmed)
         return undefined;
-    const normalized = trimmed === 'claude_code' ? 'claude' : trimmed;
+    let normalized = trimmed === 'claude_code' ? 'claude' : trimmed;
+    if (normalized === 'claude-cli')
+        normalized = 'claude';
+    if (normalized === 'codex-cli')
+        normalized = 'codex';
+    if (normalized === 'claude' || normalized === 'codex')
+        return normalized;
     return KNOWN_RUNTIMES.has(normalized) ? normalized : undefined;
 }
 function trimEnvValue(value) {

package/dist/cli/dashboard.test.js CHANGED Viewed

@@ -591,7 +591,6 @@ describe('runDashboard', () => {
             runtimeOverrides: {
                 fastRuntime: 'openrouter',
                 voiceRuntime: 'anthropic',
-                ttsVoice: 'alloy',
             },
             envDefaults: {
                 ...makeDoctorContext().envDefaults,
@@ -628,7 +627,6 @@ describe('runDashboard', () => {
         expect(saveModelConfigMock).toHaveBeenCalledWith('/repo/data/models.json', {});
         expect(saveOverridesMock).toHaveBeenCalledWith('/repo/data/runtime-overrides.json', {
             voiceRuntime: 'anthropic',
-            ttsVoice: 'alloy',
         });
         expect(frames.some((frame) => frame.includes('Reset fast to default: capable. Cleared fastRuntime override. Changes take effect on next service restart.'))).toBe(true);
     });
@@ -638,7 +636,6 @@ describe('runDashboard', () => {
             runtimeOverrides: {
                 fastRuntime: 'openrouter',
                 voiceRuntime: 'anthropic',
-                ttsVoice: 'alloy',
             },
             envDefaults: {
                 ...makeDoctorContext().envDefaults,
@@ -675,7 +672,6 @@ describe('runDashboard', () => {
         expect(saveModelConfigMock).toHaveBeenCalledWith('/repo/data/models.json', {});
         expect(saveOverridesMock).toHaveBeenCalledWith('/repo/data/runtime-overrides.json', {
             fastRuntime: 'openrouter',
-            ttsVoice: 'alloy',
         });
         expect(frames.some((frame) => frame.includes('Reset voice to default: capable. Cleared voiceRuntime override. Changes take effect on next service restart.'))).toBe(true);
     });

package/dist/cli/init-wizard.js CHANGED Viewed

@@ -88,10 +88,8 @@ export function buildEnvContent(vals, now = new Date()) {
     // Voice
     const voiceKeys = [
         'DISCOCLAW_VOICE_ENABLED',
-        'DEEPGRAM_API_KEY',
+        'GEMINI_API_KEY',
         'DISCOCLAW_DISCORD_ACTIONS_VOICE',
-        'DISCOCLAW_STT_PROVIDER',
-        'DISCOCLAW_TTS_PROVIDER',
     ];
     const hasVoice = voiceKeys.some((k) => vals[k]);
     if (hasVoice) {
@@ -347,14 +345,12 @@ export async function runInitWizard() {
     }
     values.DISCOCLAW_DISCORD_ACTIONS = '1';
     // ── Voice setup ───────────────────────────────────────────────────────────
-    const enableVoice = await ask('\nEnable voice chat? (requires a Deepgram API key — you can skip this and enable later) [y/N] ');
+    const enableVoice = await ask('\nEnable voice chat? (requires a Gemini API key — you can skip this and enable later) [y/N] ');
     if (enableVoice.toLowerCase() === 'y') {
-        const deepgramKey = await askValidated('Deepgram API key: ', (val) => (val ? null : 'Deepgram API key is required'));
+        const geminiKey = await askValidated('Gemini API key: ', (val) => (val ? null : 'Gemini API key is required'));
         values.DISCOCLAW_VOICE_ENABLED = '1';
-        values.DEEPGRAM_API_KEY = deepgramKey;
+        values.GEMINI_API_KEY = geminiKey;
         values.DISCOCLAW_DISCORD_ACTIONS_VOICE = '1';
-        values.DISCOCLAW_STT_PROVIDER = 'deepgram';
-        values.DISCOCLAW_TTS_PROVIDER = 'deepgram';
     }
     // ── Write .env ────────────────────────────────────────────────────────────
     const envContent = buildEnvContent(values);

package/dist/cli/init-wizard.test.js CHANGED Viewed

@@ -155,16 +155,12 @@ describe('init wizard helpers', () => {
             DISCORD_TOKEN: 'a.b.c',
             DISCORD_ALLOW_USER_IDS: '1000000000000000001',
             DISCOCLAW_VOICE_ENABLED: '1',
-            DEEPGRAM_API_KEY: 'dg-key',
+            GEMINI_API_KEY: 'gm-key',
             DISCOCLAW_DISCORD_ACTIONS_VOICE: '1',
-            DISCOCLAW_STT_PROVIDER: 'deepgram',
-            DISCOCLAW_TTS_PROVIDER: 'deepgram',
         }, new Date('2026-02-26T00:00:00.000Z'));
         expect(content).toContain('# VOICE');
         expect(content).toContain('DISCOCLAW_VOICE_ENABLED=1');
-        expect(content).toContain('DEEPGRAM_API_KEY=dg-key');
-        expect(content).toContain('DISCOCLAW_STT_PROVIDER=deepgram');
-        expect(content).toContain('DISCOCLAW_TTS_PROVIDER=deepgram');
+        expect(content).toContain('GEMINI_API_KEY=gm-key');
     });
     it('omits voice section when no voice vars are provided', () => {
         const content = buildEnvContent({
@@ -555,7 +551,7 @@ describe('runInitWizard', () => {
             '5000000000000000001', // DISCORD_GUILD_ID
             '', // provider selection -> default (Claude)
             'y', // enable voice -> yes
-            'dg-test-key', // Deepgram API key
+            'gemini-test-key', // Gemini API key
         ];
         process.chdir(tmpDir);
         vi.mocked(createInterface).mockReturnValue(makeReadline(answers));
@@ -573,9 +569,7 @@ describe('runInitWizard', () => {
         const newEnv = fs.readFileSync(path.join(tmpDir, '.env'), 'utf8');
         expect(newEnv).toContain('# VOICE');
         expect(newEnv).toContain('DISCOCLAW_VOICE_ENABLED=1');
-        expect(newEnv).toContain('DEEPGRAM_API_KEY=dg-test-key');
-        expect(newEnv).toContain('DISCOCLAW_STT_PROVIDER=deepgram');
-        expect(newEnv).toContain('DISCOCLAW_TTS_PROVIDER=deepgram');
+        expect(newEnv).toContain('GEMINI_API_KEY=gemini-test-key');
         expect(newEnv).toContain('DISCOCLAW_DISCORD_ACTIONS_VOICE=1');
     });
 });

package/dist/config.js CHANGED Viewed

@@ -510,8 +510,7 @@ export function parseConfig(env) {
     const anthropicApiKey = parseTrimmedString(env, 'ANTHROPIC_API_KEY');
     const voiceEnabled = parseBoolean(env, 'DISCOCLAW_VOICE_ENABLED', false);
     const voiceAutoJoin = parseBoolean(env, 'DISCOCLAW_VOICE_AUTO_JOIN', false);
-    const voiceSttProvider = parseEnum(env, 'DISCOCLAW_STT_PROVIDER', ['deepgram', 'whisper', 'openai'], 'deepgram');
-    const voiceTtsProvider = parseEnum(env, 'DISCOCLAW_TTS_PROVIDER', ['cartesia', 'deepgram', 'kokoro', 'openai'], 'cartesia');
+    const geminiSessionRotationMs = parseNonNegativeInt(env, 'DISCOCLAW_GEMINI_SESSION_ROTATION_MS', 780_000);
     let voiceHomeChannel = parseTrimmedString(env, 'DISCOCLAW_VOICE_HOME_CHANNEL');
     if (!voiceHomeChannel) {
         const legacy = parseTrimmedString(env, 'DISCOCLAW_VOICE_TRANSCRIPT_CHANNEL');
@@ -521,20 +520,6 @@ export function parseConfig(env) {
         }
     }
     const voiceLogChannel = parseTrimmedString(env, 'DISCOCLAW_VOICE_LOG_CHANNEL');
-    const deepgramApiKey = parseTrimmedString(env, 'DEEPGRAM_API_KEY');
-    const deepgramSttModel = parseTrimmedString(env, 'DEEPGRAM_STT_MODEL') ?? 'nova-3-general';
-    const deepgramTtsVoice = parseTrimmedString(env, 'DEEPGRAM_TTS_VOICE') ?? 'aura-2-asteria-en';
-    const deepgramTtsSpeed = (() => {
-        const raw = parseTrimmedString(env, 'DEEPGRAM_TTS_SPEED');
-        if (raw == null)
-            return 1.3;
-        const n = parseFloat(raw);
-        if (!Number.isFinite(n) || n < 0.5 || n > 1.5) {
-            throw new Error(`DEEPGRAM_TTS_SPEED must be a number between 0.5 and 1.5, got "${raw}"`);
-        }
-        return n;
-    })();
-    const cartesiaApiKey = parseTrimmedString(env, 'CARTESIA_API_KEY');
     const voiceModelRaw = parseTrimmedString(env, 'DISCOCLAW_VOICE_MODEL');
     const voiceSystemPrompt = (() => {
         const raw = parseTrimmedString(env, 'DISCOCLAW_VOICE_SYSTEM_PROMPT');
@@ -545,24 +530,12 @@ export function parseConfig(env) {
         }
         return raw;
     })();
-    if (voiceEnabled && voiceSttProvider === 'deepgram' && !deepgramApiKey) {
-        warnings.push('DISCOCLAW_VOICE_ENABLED=1 with STT provider "deepgram" but DEEPGRAM_API_KEY is not set; voice STT will fail at runtime.');
-    }
-    if (voiceEnabled && voiceSttProvider === 'openai' && !openaiApiKey) {
-        warnings.push('DISCOCLAW_VOICE_ENABLED=1 with STT provider "openai" but OPENAI_API_KEY is not set; voice STT will fail at runtime.');
-    }
-    if (voiceEnabled && voiceTtsProvider === 'cartesia' && !cartesiaApiKey) {
-        warnings.push('DISCOCLAW_VOICE_ENABLED=1 with TTS provider "cartesia" but CARTESIA_API_KEY is not set; voice TTS will fail at runtime.');
-    }
-    if (voiceEnabled && voiceTtsProvider === 'deepgram' && !deepgramApiKey) {
-        warnings.push('DISCOCLAW_VOICE_ENABLED=1 with TTS provider "deepgram" but DEEPGRAM_API_KEY is not set; voice TTS will fail at runtime.');
-    }
-    if (voiceEnabled && voiceTtsProvider === 'openai' && !openaiApiKey) {
-        warnings.push('DISCOCLAW_VOICE_ENABLED=1 with TTS provider "openai" but OPENAI_API_KEY is not set; voice TTS will fail at runtime.');
-    }
     if (voiceEnabled && !voiceHomeChannel) {
         warnings.push('DISCOCLAW_VOICE_ENABLED=1 but DISCOCLAW_VOICE_HOME_CHANNEL is not set; voice actions will be disabled (no target channel for action execution).');
     }
+    if (voiceEnabled && !geminiApiKey) {
+        warnings.push('DISCOCLAW_VOICE_ENABLED=1 but GEMINI_API_KEY is not set; Gemini Live voice will fail at runtime.');
+    }
     const coldStorageEnabled = parseBoolean(env, 'DISCOCLAW_COLD_STORAGE_ENABLED', false);
     const coldStorageApiKey = parseTrimmedString(env, 'COLD_STORAGE_API_KEY') ?? openaiApiKey;
     const coldStorageProvider = parseEnum(env, 'COLD_STORAGE_PROVIDER', ['openai', 'openai-compat'], 'openai');
@@ -741,15 +714,9 @@ export function parseConfig(env) {
             voiceAutoJoin,
             voiceModel,
             voiceSystemPrompt,
-            voiceSttProvider,
-            voiceTtsProvider,
+            geminiSessionRotationMs,
             voiceHomeChannel,
             voiceLogChannel,
-            deepgramApiKey,
-            deepgramSttModel,
-            deepgramTtsVoice,
-            deepgramTtsSpeed,
-            cartesiaApiKey,
             forgeDrafterRuntime,
             forgeAuditorRuntime,
             openrouterApiKey,

package/dist/config.test.js CHANGED Viewed

@@ -1021,41 +1021,9 @@ describe('parseConfig', () => {
         expect(config.voiceEnabled).toBe(false);
     });
     it('parses DISCOCLAW_VOICE_ENABLED=1 as true', () => {
-        const { config } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DEEPGRAM_API_KEY: 'dg-key', CARTESIA_API_KEY: 'ca-key' }));
+        const { config } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', GEMINI_API_KEY: 'gm-key' }));
         expect(config.voiceEnabled).toBe(true);
     });
-    it('defaults voiceSttProvider to "deepgram"', () => {
-        const { config } = parseConfig(env());
-        expect(config.voiceSttProvider).toBe('deepgram');
-    });
-    it('parses DISCOCLAW_STT_PROVIDER=whisper', () => {
-        const { config } = parseConfig(env({ DISCOCLAW_STT_PROVIDER: 'whisper' }));
-        expect(config.voiceSttProvider).toBe('whisper');
-    });
-    it('parses STT provider case-insensitively', () => {
-        const { config } = parseConfig(env({ DISCOCLAW_STT_PROVIDER: 'Deepgram' }));
-        expect(config.voiceSttProvider).toBe('deepgram');
-    });
-    it('throws on invalid STT provider', () => {
-        expect(() => parseConfig(env({ DISCOCLAW_STT_PROVIDER: 'invalid' })))
-            .toThrow(/DISCOCLAW_STT_PROVIDER must be one of deepgram\|whisper/);
-    });
-    it('defaults voiceTtsProvider to "cartesia"', () => {
-        const { config } = parseConfig(env());
-        expect(config.voiceTtsProvider).toBe('cartesia');
-    });
-    it('parses DISCOCLAW_TTS_PROVIDER=kokoro', () => {
-        const { config } = parseConfig(env({ DISCOCLAW_TTS_PROVIDER: 'kokoro' }));
-        expect(config.voiceTtsProvider).toBe('kokoro');
-    });
-    it('parses TTS provider case-insensitively', () => {
-        const { config } = parseConfig(env({ DISCOCLAW_TTS_PROVIDER: 'Cartesia' }));
-        expect(config.voiceTtsProvider).toBe('cartesia');
-    });
-    it('throws on invalid TTS provider', () => {
-        expect(() => parseConfig(env({ DISCOCLAW_TTS_PROVIDER: 'elevenlabs' })))
-            .toThrow(/DISCOCLAW_TTS_PROVIDER must be one of cartesia\|deepgram\|kokoro\|openai/);
-    });
     it('parses DISCOCLAW_VOICE_HOME_CHANNEL when set', () => {
         const { config } = parseConfig(env({ DISCOCLAW_VOICE_HOME_CHANNEL: 'voice-log' }));
         expect(config.voiceHomeChannel).toBe('voice-log');
@@ -1085,33 +1053,13 @@ describe('parseConfig', () => {
         const { config } = parseConfig(env());
         expect(config.voiceLogChannel).toBeUndefined();
     });
-    it('parses DEEPGRAM_API_KEY when set', () => {
-        const { config } = parseConfig(env({ DEEPGRAM_API_KEY: 'dg-key' }));
-        expect(config.deepgramApiKey).toBe('dg-key');
+    it('warns when voice enabled but GEMINI_API_KEY is missing', () => {
+        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1' }));
+        expect(warnings.some((w) => w.includes('GEMINI_API_KEY'))).toBe(true);
     });
-    it('returns undefined for deepgramApiKey when unset', () => {
-        const { config } = parseConfig(env());
-        expect(config.deepgramApiKey).toBeUndefined();
-    });
-    it('parses CARTESIA_API_KEY when set', () => {
-        const { config } = parseConfig(env({ CARTESIA_API_KEY: 'ca-key' }));
-        expect(config.cartesiaApiKey).toBe('ca-key');
-    });
-    it('returns undefined for cartesiaApiKey when unset', () => {
-        const { config } = parseConfig(env());
-        expect(config.cartesiaApiKey).toBeUndefined();
-    });
-    it('warns when voice enabled with deepgram STT but DEEPGRAM_API_KEY missing', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', CARTESIA_API_KEY: 'ca-key' }));
-        expect(warnings.some((w) => w.includes('DEEPGRAM_API_KEY'))).toBe(true);
-    });
-    it('does not warn about DEEPGRAM_API_KEY when voice disabled', () => {
+    it('does not warn about GEMINI_API_KEY when voice disabled', () => {
         const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '0' }));
-        expect(warnings.some((w) => w.includes('DEEPGRAM_API_KEY'))).toBe(false);
-    });
-    it('does not warn about DEEPGRAM_API_KEY when STT provider is whisper', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DISCOCLAW_STT_PROVIDER: 'whisper', CARTESIA_API_KEY: 'ca-key' }));
-        expect(warnings.some((w) => w.includes('DEEPGRAM_API_KEY'))).toBe(false);
+        expect(warnings.some((w) => w.includes('GEMINI_API_KEY'))).toBe(false);
     });
     // --- voiceAutoJoin ---
     it('defaults voiceAutoJoin to false', () => {
@@ -1130,24 +1078,12 @@ describe('parseConfig', () => {
         const { config } = parseConfig(env({ DISCOCLAW_VOICE_AUTO_JOIN: '0' }));
         expect(config.voiceAutoJoin).toBe(false);
     });
-    it('warns when voice enabled with cartesia TTS but CARTESIA_API_KEY missing', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DEEPGRAM_API_KEY: 'dg-key' }));
-        expect(warnings.some((w) => w.includes('CARTESIA_API_KEY'))).toBe(true);
-    });
-    it('does not warn about CARTESIA_API_KEY when voice disabled', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '0' }));
-        expect(warnings.some((w) => w.includes('CARTESIA_API_KEY'))).toBe(false);
-    });
-    it('does not warn about CARTESIA_API_KEY when TTS provider is kokoro', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DISCOCLAW_TTS_PROVIDER: 'kokoro', DEEPGRAM_API_KEY: 'dg-key' }));
-        expect(warnings.some((w) => w.includes('CARTESIA_API_KEY'))).toBe(false);
-    });
     it('warns when voice enabled but DISCOCLAW_VOICE_HOME_CHANNEL is unset', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DEEPGRAM_API_KEY: 'dg-key', CARTESIA_API_KEY: 'ca-key' }));
+        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', GEMINI_API_KEY: 'gm-key' }));
         expect(warnings.some((w) => w.includes('DISCOCLAW_VOICE_HOME_CHANNEL'))).toBe(true);
     });
     it('does not warn about DISCOCLAW_VOICE_HOME_CHANNEL when both voice and home channel are set', () => {
-        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DISCOCLAW_VOICE_HOME_CHANNEL: '1000000000000000003', DEEPGRAM_API_KEY: 'dg-key', CARTESIA_API_KEY: 'ca-key' }));
+        const { warnings } = parseConfig(env({ DISCOCLAW_VOICE_ENABLED: '1', DISCOCLAW_VOICE_HOME_CHANNEL: '1000000000000000003', GEMINI_API_KEY: 'gm-key' }));
         expect(warnings.some((w) => w.includes('DISCOCLAW_VOICE_HOME_CHANNEL'))).toBe(false);
     });
     // --- cold storage ---