npm - kingkont - Versions diffs - 0.7.2 → 0.7.4 - Mend

kingkont 0.7.2 → 0.7.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/index.html CHANGED Viewed

@@ -1343,7 +1343,15 @@
         </div>
       </div>
     </label>
-    <label id="voiceRow" style="display: none;">Голос (ElevenLabs v3)
+    <label id="ttsModelRow" style="display: none;">Модель TTS
+      <div class="seg-control" style="flex-wrap:wrap;">
+        <button class="seg active" data-tts-model="qwen/qwen3-tts" type="button" title="Qwen TTS — мульти-язык, ready-голоса">Qwen TTS</button>
+        <button class="seg" data-tts-model="elevenlabs/v3" type="button" title="ElevenLabs v3 — лучший EN, тоны">ElevenLabs v3</button>
+        <button class="seg" data-tts-model="minimax/speech-02-hd" type="button" title="MiniMax Speech HD — клон-голоса">MiniMax Speech HD</button>
+        <button class="seg" data-tts-model="google/gemini-3.1-flash-tts-preview" type="button" title="Gemini 3.1 Flash TTS">Gemini Flash TTS</button>
+      </div>
+    </label>
+    <label id="voiceRow" style="display: none;">Голос
       <select id="genVoice"></select>
     </label>
     <label id="tonesRow" style="display: none;">Тоны
@@ -1729,6 +1737,7 @@ const state = {
   genKind: 'image',
   imageModel: 'nano-banana-2',  // 'nano-banana-2' | 'grok' | ...
   videoModel: localStorage.getItem('videoModel') || 'seedance-2',  // 'seedance-2' | 'kling-o1' | 'kling-3.0' | ...
+  ttsModel: localStorage.getItem('ttsModel') || 'qwen/qwen3-tts',  // qwen/elevenlabs/v3/minimax/speech-02-hd/gemini
   videoDuration: +(localStorage.getItem('videoDuration') || 5),
   videoResolution: localStorage.getItem('videoResolution') || '720p',
   videoAspect: localStorage.getItem('videoAspect') || '9:16',
@@ -3760,6 +3769,8 @@ async function openGenerateForRef(fromNode, clientX, clientY, forceKind) {
     $('videoModelRow').style.display = forceKind === 'video' ? '' : 'none';
     $('voiceRow').style.display      = forceKind === 'audio' ? '' : 'none';
+    $('ttsModelRow').style.display      = forceKind === 'audio' ? '' : 'none';
     $('tonesRow').style.display      = forceKind === 'audio' ? '' : 'none';
     const titleEl = $('genTitle');
     if (titleEl) {
@@ -5013,6 +5024,8 @@ async function regenerateNode(node) {
   $('videoModelRow').style.display = state.genKind === 'video' ? '' : 'none';
   $('voiceRow').style.display      = state.genKind === 'audio' ? '' : 'none';
+  $('ttsModelRow').style.display      = state.genKind === 'audio' ? '' : 'none';
   if (g.modelKey && state.genKind === 'image') {
     state.imageModel = g.modelKey;
     document.querySelectorAll('#genModal [data-img-model]').forEach(b =>
@@ -5028,7 +5041,9 @@ async function regenerateNode(node) {
     syncVideoModelActive();
   }
   if (state.genKind === 'audio') {
-    await loadVoices();
+    if (g.ttsModel) state.ttsModel = g.ttsModel;
+    syncTtsModelActive();
+    if (state.ttsModel === 'elevenlabs/v3') await loadVoices();
     if (g.voiceId) $('genVoice').value = g.voiceId;
     state.activeTones = (g.tones || []).slice();
     state.toneSuggestions = (g.tones || []).slice();
@@ -5175,6 +5190,7 @@ async function regenerateInto(node, kind, rawPrompt, opts = {}) {
   const seedGen = kind === 'audio'
     ? { kind, prompt: resolvedPrompt, rawPrompt, model: modelId, voiceId, voiceName,
+        ttsModel: state.ttsModel || node.generated?.ttsModel || 'qwen/qwen3-tts',
         tones: [...state.activeTones], state: 'submitting' }
     : { kind, prompt: resolvedPrompt, rawPrompt, modelKey, model: modelId,
         refs: refs ? refs.map(r => ({ name: r.name, type: r.type, file: r.file })) : [],
@@ -5961,6 +5977,8 @@ function openPhraseFor(charInfo) {
   $('videoModelRow').style.display = 'none';
   $('voiceRow').style.display = '';
+  $('ttsModelRow').style.display = '';
   $('tonesRow').style.display = '';
   loadVoices().then(() => {
     if (charInfo.voice) $('genVoice').value = charInfo.voice;
@@ -6142,6 +6160,8 @@ async function openGenModal(kind) {
   $('videoModelRow').style.display = kind === 'video' ? '' : 'none';
   $('voiceRow').style.display      = kind === 'audio' ? '' : 'none';
+  $('ttsModelRow').style.display      = kind === 'audio' ? '' : 'none';
   $('tonesRow').style.display      = kind === 'audio' ? '' : 'none';
   // Заголовок модалки = действие
   const title = $('genTitle');
@@ -6562,8 +6582,14 @@ document.querySelectorAll('#genModal [data-kind]').forEach(b => {
     $('videoModelRow').style.display = state.genKind === 'video' ? '' : 'none';
     $('voiceRow').style.display      = state.genKind === 'audio' ? '' : 'none';
+    $('ttsModelRow').style.display      = state.genKind === 'audio' ? '' : 'none';
     $('tonesRow').style.display      = state.genKind === 'audio' ? '' : 'none';
-    if (state.genKind === 'audio') { loadVoices(); renderTones(); }
+    if (state.genKind === 'audio') {
+      syncTtsModelActive();
+      if (state.ttsModel === 'elevenlabs/v3') loadVoices();
+      renderTones();
+    }
     const ph = state.genKind === 'audio'
       ? 'Текст, который надо озвучить...'
       : 'Что должно быть. Печатай @ чтобы вставить ссылку на ноду...';
@@ -6825,6 +6851,25 @@ document.querySelectorAll('#genModal [data-vid-model]').forEach(b => {
     localStorage.setItem('videoModel', state.videoModel);
   });
 });
+// Переключатель модели TTS
+document.querySelectorAll('#genModal [data-tts-model]').forEach(b => {
+  b.addEventListener('click', () => {
+    document.querySelectorAll('#genModal [data-tts-model]').forEach(x => x.classList.remove('active'));
+    b.classList.add('active');
+    state.ttsModel = b.dataset.ttsModel;
+    localStorage.setItem('ttsModel', state.ttsModel);
+    // voiceRow с ElevenLabs-голосами имеет смысл только для elevenlabs/v3.
+    const showVoice = state.ttsModel === 'elevenlabs/v3';
+    $('voiceRow').style.display = showVoice ? '' : 'none';
+  });
+});
+function syncTtsModelActive() {
+  document.querySelectorAll('#genModal [data-tts-model]').forEach(b =>
+    b.classList.toggle('active', b.dataset.ttsModel === state.ttsModel));
+  // Скрыть voiceRow если модель не elevenlabs (только для неё имеет смысл список).
+  const showVoice = state.ttsModel === 'elevenlabs/v3';
+  $('voiceRow').style.display = showVoice ? '' : 'none';
+}
 // Подсветить активную video-модель при открытии modal'а
 function syncVideoModelActive() {
   document.querySelectorAll('#genModal [data-vid-model]').forEach(b =>
@@ -6956,6 +7001,7 @@ $('genSubmit').addEventListener('click', async () => {
         kind: 'audio',
         prompt: finalText, rawPrompt,
         model: 'eleven_v3', voiceId, voiceName,
+        ttsModel: state.ttsModel || 'qwen/qwen3-tts',
         tones: [...state.activeTones],
       },
     };
@@ -7116,11 +7162,14 @@ async function runTTSJob(node, text, boardHandle, bKey, voiceId) {
       n.generated = { ...(n.generated || {}), state: 'submitting' };
     });
     const provider = await plannedProvider('tts');
-    logJob(node.id, `→ POST /api/tts → ${provider} (voice=${voiceId})`);
+    // ttsModel может быть сохранён в node.generated.ttsModel (при regenerate)
+    // или в текущем глобальном state.ttsModel (новая генерация).
+    const ttsModel = node.generated?.ttsModel || state.ttsModel || 'qwen/qwen3-tts';
+    logJob(node.id, `→ POST /api/tts → ${provider} (model=${ttsModel} voice=${voiceId || '—'})`);
     const r = await fetch('/api/tts', {
       method: 'POST',
       headers: { 'Content-Type': 'application/json' },
-      body: JSON.stringify({ text, voiceId, modelId: 'eleven_v3' }),
+      body: JSON.stringify({ text, voiceId, ttsModel }),
     });
     logJob(node.id, `← via ${r.headers.get('x-provider') || '?'} HTTP ${r.status}`);
     if (!r.ok) {
@@ -7785,6 +7834,8 @@ async function openGenAudioForTimeline(charInfo, track, time) {
   $('videoModelRow').style.display = 'none';
   $('voiceRow').style.display = '';
+  $('ttsModelRow').style.display = '';
   $('tonesRow').style.display = '';
   $('sourceRefRow').style.display = 'none';
   $('charsPickRow').style.display = 'none';

package/main.js CHANGED Viewed

@@ -415,8 +415,7 @@ ipcMain.handle('updates:check', async () => {
 //
 // Streamим stdout/stderr в renderer через 'updates:install-output' events.
 // На EACCES (нет прав на global install) renderer покажет команду для
-// ручного запуска с sudo.
-const { spawn } = require('child_process');
+// ручного запуска с sudo. spawn уже импортирован в начале файла.
 ipcMain.handle('updates:install', async (e, target = 'latest') => {
   return new Promise((resolve, reject) => {
     const shell = process.env.SHELL || '/bin/bash';

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "kingkont",
-  "version": "0.7.2",
+  "version": "0.7.4",
   "description": "KingKont · Chatium — нод-редактор сцен с AI-генерацией (картинки/видео/голос/SFX/музыка/текст)",
   "main": "main.js",
   "bin": {

package/server.js CHANGED Viewed

@@ -743,19 +743,62 @@ async function handleMusic(req, res) {
 }
 // ---------- /api/tts (Chatium ИЛИ ElevenLabs v3) ----------
+// Body клиента (всё опц. кроме text):
+//   {
+//     text,
+//     ttsModel?: 'qwen/qwen3-tts' | 'elevenlabs/v3' | 'minimax/speech-02-hd'
+//              | 'google/gemini-3.1-flash-tts-preview',
+//     voice?: string,           // voiceId/speaker зависит от модели
+//     voiceId?: string,         // legacy alias для voice (ElevenLabs)
+//     modelId?: string,         // legacy: 'eleven_v3' и т.д.
+//     // Любые per-provider параметры пробрасываются в Chatium как есть:
+//     stability, similarity_boost, style, speed, language_code,
+//     pitch, volume, emotion, sample_rate, audio_format, language_boost,
+//     mode, speaker, voice_description, style_instruction, ...
+//   }
+const TTS_PASSTHROUGH = new Set([
+  'voice', 'voiceId', 'voice_id', 'speaker',
+  'language', 'language_code', 'language_boost',
+  'speed', 'pitch', 'volume',
+  'stability', 'similarity_boost', 'style', 'style_instruction',
+  'audio_format', 'sample_rate', 'bitrate', 'channel', 'emotion',
+  'subtitle_enable', 'english_normalization',
+  'voice_description', 'reference_audio', 'reference_text', 'mode',
+  'previous_text', 'next_text',
+]);
 async function handleTts(req, res) {
-  const { text, voiceId = 'JBFqnCBsd6RMkjVDRZzb', modelId = 'eleven_v3' } = await readJson(req);
+  const body = await readJson(req);
+  const text = body.text;
   if (!text) return send(res, 400, { error: 'нужен text' });
   const s = getSettings();
+  // Chatium-путь — поддерживает 4 модели (Qwen TTS, ElevenLabs v3,
+  // MiniMax Speech HD, Gemini 3.1 Flash TTS — см. spaces/api/execAudioNode.ts).
   if (s.useChatium && s.chatium?.token && s.chatium?.base) {
-    return handleAudioViaChatium(res, s, { kind: 'tts', text, voice: voiceId, model: modelId });
+    const ttsBody = { kind: 'tts', text };
+    // Маппинг легаси `modelId` → `model` (старый клиент шлёт modelId='eleven_v3').
+    if (body.ttsModel) ttsBody.model = body.ttsModel;
+    else if (body.modelId === 'eleven_v3') ttsBody.model = 'elevenlabs/v3';
+    else if (body.modelId) ttsBody.model = body.modelId;
+    // voice: поддерживаем оба имени (voice или voiceId).
+    if (body.voice) ttsBody.voice = body.voice;
+    else if (body.voiceId) ttsBody.voice = body.voiceId;
+    // Per-model passthrough.
+    for (const k of Object.keys(body)) {
+      if (k === 'text' || k === 'voice' || k === 'voiceId' || k === 'ttsModel' || k === 'modelId') continue;
+      if (TTS_PASSTHROUGH.has(k)) ttsBody[k] = body[k];
+    }
+    return handleAudioViaChatium(res, s, ttsBody);
   }
+  // Прямой ElevenLabs (только eleven_v3, остальные модели только через Chatium).
   if (!s.useElevenlabs) {
     return send(res, 503, { error: 'Аудио-коннектор отключён. Включите Chatium или ElevenLabs.' });
   }
   const key = process.env.ELEVENLABS_API_KEY;
   if (!key) return send(res, 500, { error: 'ELEVENLABS_API_KEY не задан' });
+  const voiceId = body.voiceId || body.voice || 'JBFqnCBsd6RMkjVDRZzb';
+  const modelId = body.modelId || 'eleven_v3';
   logProviderCall('POST', 'ElevenLabs', `${ELEVEN_BASE}/v1/text-to-speech/${voiceId}`, `model=${modelId} text=${text.length}ch`);
   const r = await fetch(`${ELEVEN_BASE}/v1/text-to-speech/${voiceId}`, {
     method: 'POST',