@xdfnet/ispeak 1.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -0,0 +1,873 @@
1
+
2
+ :::warning
3
+ 您如果使用 V1 版本的训练接口,训练出的音色只能用于单个模型产品;而使用 V3 版本接口完成音色训练后,同一个音色可以同时在声音复刻 1.0、声音复刻 2.0、豆包端到端实时语音模型等多个模型产品上使用。[V1版本训练接口](https://www.volcengine.com/docs/6561/1305191?lang=zh)已停止迭代,不再建议使用。如果您需要从 V1 版本的训练接口迁移至 V3 版本,可参考相关[文档链接](https://www.volcengine.com/docs/6561/2227958?lang=zh#v1%E8%AE%AD%E7%BB%83%E6%8E%A5%E5%8F%A3%E8%BF%81%E7%A7%BB%E6%8C%87%E5%8D%97)。
4
+ :::
5
+ <span id="597da1a0"></span>
6
+ # 音色复刻训练接口
7
+ <span id="3f616aa6"></span>
8
+ ## 请求路径
9
+
10
+ * 服务使用的请求路径:`https://openspeech.bytedance.com/api/v3/tts/voice_clone`
11
+
12
+ <span id="91db8ac6"></span>
13
+ ## 建连&鉴权
14
+
15
+ * HTTP 请求头(Request Header 中)添加以下信息
16
+
17
+ 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
18
+
19
+ | | | | | | \
20
+ |**Key** |**说明** |**参数类型** |**是否必须** |**Value 示例** |
21
+ |---|---|---|---|---|
22
+ | | | | | | \
23
+ |Content-Type |固定值 |string |必须 |"application/json" |
24
+ | | | | | | \
25
+ |X-Api-Key |使用火山引擎控制台获取的API Key,可参考 [控制台API Key管理](https://www.volcengine.com/docs/6561/2119699?lang=zh#ew1HctnP) |string |必须 |"your-api-key" |
26
+ | | | | | | \
27
+ |X-Api-Request-Id |标识客户端请求ID,uuid随机字符串 |string |必须 |"67ee89ba-7050-4c04-a3d7-ac61a63499b3" |
28
+
29
+
30
+ ```Python
31
+ headers = {
32
+ "Content-Type": "application/json",
33
+ "X-Api-Key": "your-api-key",
34
+ "X-Api-Request-Id": "67ee89ba-7050-4c04-a3d7-ac61a63499b3",
35
+ }
36
+ ```
37
+
38
+ 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
39
+
40
+ | | | | | | \
41
+ |**Key** |**说明** |**参数类型** |**是否必须** |**Value 示例** |
42
+ |---|---|---|---|---|
43
+ | | | | | | \
44
+ |Content-Type |固定值 |string |必须 |"application/json" |
45
+ | | | | | | \
46
+ |X-Api-App-Key |使用火山引擎控制台获取的APP ID,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)(旧版控制台使用,新版控制台只需要X-Api-Key即可) |string |必须 |"123456789" |
47
+ | | | | | | \
48
+ |X-Api-Access-Key |使用火山引擎控制台获取的Access Token,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)(旧版控制台使用,新版控制台只需要X-Api-Key即可) |string |必须 |"your-access-key" |
49
+ | | | | | | \
50
+ |X-Api-Request-Id |标识客户端请求ID,uuid随机字符串 |string |必须 |"67ee89ba-7050-4c04-a3d7-ac61a63499b3" |
51
+
52
+ ```Python
53
+ headers = {
54
+ "Content-Type": "application/json",
55
+ "X-Api-App-Key": "123456789",
56
+ "X-Api-Access-Key": "your-access-key",
57
+ "X-Api-Request-Id": "67ee89ba-7050-4c04-a3d7-ac61a63499b3",
58
+ }
59
+ ```
60
+
61
+
62
+ * 在HTTP请求成功后,会返回这些 Response header
63
+
64
+
65
+ | | | | \
66
+ |**Key** |**说明** |**Value 示例** |
67
+ |---|---|---|
68
+ | | | | \
69
+ |X-Tt-Logid |服务端返回的 logid,建议用户获取和打印方便定位问题 |202407261553070FACFE6D19421815D605 |
70
+
71
+ <span id="6130e8a9"></span>
72
+ ## 请求参数
73
+
74
+ | | | | | | \
75
+ |**参数名称** |**层级** |**参数类型** |**是否必须** |**备注** |
76
+ |---|---|---|---|---|
77
+ | | | | | | \
78
+ |speaker_id |1 |string |必须 |唯一音色代号 |
79
+ | | | | | | \
80
+ |audio |\
81
+ | |1 |\
82
+ | | |object |必须 |\
83
+ | | | | |音频格式支持:wav、mp3、ogg、m4a、aac、pcm,其中pcm仅支持24k,单通道 |\
84
+ | | | | |目前限制文件上传最大10MB |
85
+ | | | | | | \
86
+ |data |2 |string |必须 |二进制音频字节,需对二进制音频进行base64编码 |
87
+ | | | | | | \
88
+ |format |2 |string |可选 |音频格式,pcm、m4a必传,其余可选 |
89
+ | | | | | | \
90
+ |text |\
91
+ | |2 |string |\
92
+ | | | |可选 |可以让用户按照该文本念诵,服务会对比音频与该文本的差异。若差异过大会返回45001109 WERError。 |
93
+ | | | | | | \
94
+ |language |1 |int |可选,建议设置 |建议进行以下设置,该设置会影响试听文本的语种。 |\
95
+ | | | | |使用当前接口注册的音色可在多个产品中使用,不同产品所支持的语种有所不同: |\
96
+ | | | | |**声音复刻 1.0**,支持以下语种: |\
97
+ | | | | | |\
98
+ | | | | |* `cn = 0`:中文(默认) |\
99
+ | | | | |* `en = 1`:英文 |\
100
+ | | | | |* `ja = 2`:日语 |\
101
+ | | | | |* `es = 3`:西班牙语 |\
102
+ | | | | |* `id = 4`:印尼语 |\
103
+ | | | | |* `pt = 5`:葡萄牙语 |\
104
+ | | | | |* `de = 6`:德语 |\
105
+ | | | | |* `fr = 7`:法语 |\
106
+ | | | | | |\
107
+ | | | | |**声音复刻 2.0**,支持以下语种: |\
108
+ | | | | | |\
109
+ | | | | |* `cn = 0`:中文(默认) |\
110
+ | | | | |* `en = 1`:英文 |\
111
+ | | | | | |\
112
+ | | | | |**豆包端到端实时语音模型**,支持以下语种: |\
113
+ | | | | | |\
114
+ | | | | |* `cn = 0`:中文(默认) |\
115
+ | | | | |* `en = 1`:英文 |
116
+ | | | | | | \
117
+ |extra_params |1 |object |可选 | |
118
+ | | | | | | \
119
+ |demo_text |\
120
+ | |2 |string |\
121
+ | | | |可选 |试听文本,长度在4和80字之间,如果指定了语种需要传入对应语种的文本,否则会合成失败。 |
122
+ | | | | | | \
123
+ |enable_audio_denoise |2 |bool |可选 |是否开启降噪,开启降噪可能会对声音细节有一定影响,**音频样本噪声较大的情况下建议开启降噪**,音频样本质量较好的情况下建议关闭降噪。如果不传`enable_audio_denoise`这个参数,声音复刻1.0,默认值为`true`,声音复刻2.0,默认值为`false`。 |\
124
+ | | | | |Python示例: |\
125
+ | | | | |`"extra_params": json.dumps({"enable_audio_denoise": False})` |
126
+ | | | | | | \
127
+ |enable_audio_denoise_with_snr |2 |bool |可选 |是否开启根据降噪检测阈值`denoise_max_snr_thresh`进行降噪,需要配合开启`enable_audio_denoise` |
128
+ | | | | | | \
129
+ |denoise_max_snr_thresh |2 |int |可选 |降噪检测阈值,默认为50。有效范围大于0,小于100。 |
130
+ | | | | | | \
131
+ |reject_min_snr_thresh |2 |float |可选 |信噪比低于该值拒绝复刻,当前默认值为5,会降低复刻成功率。有效范围大于0,小于100。 |
132
+ | | | | | | \
133
+ |voice_clone_denoise_model_id |2 |string |可选 |\
134
+ | | | | |人声美化模型选择,去除音频样本中的噪音等(可能会不同程度影响声音细节),复刻结果有明显噪声的情况下可以尝试切换不同的模型来测试不同效果。 |\
135
+ | | | | |默认为: `""` (空的时候默认是 `SpeechInpaintingV2`) |\
136
+ | | | | |可选值: |\
137
+ | | | | | |\
138
+ | | | | |* `SpeechInpaintingV2` (默认值) |\
139
+ | | | | |* `VocalDiffusionV2VocalDiffusionV2_44k` |
140
+ | | | | | | \
141
+ |voice_clone_enable_mss |2 |bool |可选 |是否使用音源分离去除音频样本中背景音,默认值:`false`。 |
142
+ | | | | | | \
143
+ |enable_crop_by_asr |2 |bool |可选 |\
144
+ | | | | |ASR 截断能避免单个字的发音被切开,核心原因是它能精准定位单个字在音频中的位置。默认的音频时长截断(时长 25s)则可能出现单个字发音被切开的情况。 |\
145
+ | | | | |默认值:`false` |
146
+ | | | | | | \
147
+ |enable_check_prompt_text_quality |2 |bool |可选 |是否开启音频ASR文本质量检测,会降低复刻成功率。 |
148
+ | | | | | | \
149
+ |enable_check_audio_quality |2 |bool |可选 |是否开启音频质量检测,会降低复刻成功率。 |
150
+
151
+ <span id="f6cfe46f"></span>
152
+ ## **请求示例**
153
+ ```JSON
154
+ {
155
+ "speaker_id": "S_*******", // (需从控制台获取,参考文档:声音复刻下单及使用指南)
156
+ "audio": {
157
+ "data": "base64编码后的音频",
158
+ "format": "wav"
159
+ },
160
+ "language": 0,
161
+ "extra_params": {
162
+ "voice_clone_denoise_model_id": ""
163
+ }
164
+ }
165
+ ```
166
+
167
+ <span id="8f420ddf"></span>
168
+ ## 返回参数
169
+
170
+ | | | | | | \
171
+ |**参数名称** |**层级** |**参数类型** |**是否必须** |**备注** |
172
+ |---|---|---|---|---|
173
+ | | | | | | \
174
+ |code |1 |int |可选 |训练失败时候HTTP返回非200,该字段返回详细错误码 |
175
+ | | | | | | \
176
+ |message |1 |string |可选 |训练失败时候HTTP返回非200,该字段返回详细错误信息 |
177
+ | | | | | | \
178
+ |available_training_times |1 |int |可选 |剩余训练次数 |
179
+ | | | | | | \
180
+ |create_time |1 |int |可选 |创建时间 |
181
+ | | | | | | \
182
+ |language |1 |\
183
+ | | |int |可选 |以下为语种对应的枚举值 |\
184
+ | | | | | |\
185
+ | | | | |* cn = 0 中文(默认) |\
186
+ | | | | |* en = 1 英文 |\
187
+ | | | | |* ja = 2 日语 |\
188
+ | | | | |* es = 3 西班牙语 |\
189
+ | | | | |* id = 4 印尼语 |\
190
+ | | | | |* pt = 5 葡萄牙语 |\
191
+ | | | | |* de = 6 德语 |\
192
+ | | | | |* fr = 7 法语 |
193
+ | | | | | | \
194
+ |speaker_id |1 |string |可选 |唯一音色代号 |
195
+ | | | | | | \
196
+ |status |\
197
+ | |1 |int |可选 |训练状态,状态为2或4时都可以调用tts |\
198
+ | | | | | |\
199
+ | | | | |* NotFound = 0 |\
200
+ | | | | |* Training = 1 |\
201
+ | | | | |* Success = 2 |\
202
+ | | | | |* Failed = 3 |\
203
+ | | | | |* Active = 4 |
204
+ | | | | | | \
205
+ |speaker_status |1 |object list |可选 |音色训练状态列表 |
206
+ | | | | | | \
207
+ |model_type |2 |int |\
208
+ | | | |可选 |\
209
+ | | | | |声音复刻1.0 查询出来可能是以下`model_type` |\
210
+ | | | | | |\
211
+ | | | | |* 1 为声音复刻ICL V1效果 |\
212
+ | | | | |* 2 为声音复刻DiT标准版效果(音色、不还原用户的风格) |\
213
+ | | | | |* 3 为声音复刻DiT还原版效果(音色、还原用户口音、语速等风格) |\
214
+ | | | | | |\
215
+ | | | | |声音复刻 2.0 查询出来可能是以下 `model_type` |\
216
+ | | | | | |\
217
+ | | | | |* 4 为声音复刻ICL V2效果 |\
218
+ | | | | |* 5 为声音复刻ICL V3效果 |
219
+ | | | | | | \
220
+ |demo_audio |2 |string |可选 |Success状态时返回,一小时有效,若需要,请下载后使用 |
221
+
222
+ <span id="277c02e7"></span>
223
+ ## **返回示例**
224
+ ```JSON
225
+ {
226
+ "available_training_times": 15,
227
+ "create_time": 1772026663000,
228
+ "language": 0,
229
+ "speaker_id": "S_*******",
230
+ "speaker_status": [
231
+ {
232
+ "demo_audio": "https://x.bytespeech.com/S_*******",
233
+ "model_type": 1
234
+ },
235
+ {
236
+ "demo_audio": "https://x.bytespeech.com/S_*******",
237
+ "model_type": 4
238
+ }
239
+ ],
240
+ "status": 2
241
+ }
242
+ ```
243
+
244
+ <span id="8bb6e10a"></span>
245
+ ## 调用示例
246
+
247
+ ```mixin-react
248
+ return (<Tabs>
249
+ <Tabs.TabPane title="Python调用示例" key="YIMFOgu0Ms"><RenderMd content={`<span id="58cb455d"></span>
250
+ ### 前提条件
251
+
252
+ * 调用之前,您需要获取以下信息:
253
+ * 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
254
+ * \`<api_key>\`:使用控制台获取的API Key,可参考[控制台API Key管理](https://www.volcengine.com/docs/6561/2119699?lang=zh#ew1HctnP)。
255
+ * 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
256
+ * \`<appid>\`:使用控制台获取的APP ID,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)。
257
+ * \`<access_token>\`:使用控制台获取的Access Token,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)。
258
+ * \`<speaker_id>\`:您预期使用的声音复刻音色ID,可参考 [获取声音复刻音色 ID](https://www.volcengine.com/docs/6561/1167802?lang=zh)。
259
+
260
+ <span id="9334aec2"></span>
261
+ ### Python环境
262
+
263
+ * Python:3.9版本及以上。
264
+ * Pip:25.1.1版本及以上。您可以使用下面命令安装。
265
+
266
+ \`\`\`Bash
267
+ python3 -m pip install --upgrade pip
268
+ \`\`\`
269
+
270
+ <span id="2872a7aa"></span>
271
+ ### 下载代码示例
272
+ <Attachment link="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/f0ccfe13ac54445d819837212dc36b25~tplv-goo7wpa0wc-image.image" name="volcengine_voice_clone_demo.tar.gz" ></Attachment>
273
+ <span id="d1de0122"></span>
274
+ ### 解压缩代码包,安装依赖
275
+ \`\`\`Bash
276
+ mkdir -p volcengine_voice_clone_demo
277
+ tar xvzf volcengine_voice_clone_demo.tar.gz -C ./volcengine_voice_clone_demo
278
+ cd volcengine_voice_clone_demo
279
+ python3 -m venv .venv
280
+ source .venv/bin/activate
281
+ python3 -m pip install --upgrade pip
282
+ pip3 install -e .
283
+ \`\`\`
284
+
285
+ <span id="dbcf4319"></span>
286
+ ### 发起调用
287
+
288
+ > * 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
289
+ > * \`<api_key>\`替换为您的API Key。
290
+ > * 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
291
+ > * \`<appid>\`替换为您的APP ID。
292
+ > * \`<access_token>\`替换为您的Access Token。
293
+ > * \`<speaker_id>\`:您预期使用的声音复刻音色ID,可参考 [获取声音复刻音色 ID](https://www.volcengine.com/docs/6561/1167802?lang=zh)。
294
+ > * \`<file_path>\`:您预期使用的复刻音频文件。
295
+
296
+ \`\`\`Bash
297
+ # 使用新版控制台时,推荐采用以下更简化的鉴权方式。
298
+ python3 examples/volcengine/voice_clone.py --api_key <api_key> --speaker_id S_example --file_path example.wav
299
+ # 若使用旧版控制台,鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
300
+ python3 examples/volcengine/voice_clone.py --appid <appid> --access_token <access_token> --speaker_id S_example --file_path example.wav
301
+ \`\`\`
302
+
303
+ `}></RenderMd></Tabs.TabPane></Tabs>);
304
+ ```
305
+
306
+ <span id="c2ffd552"></span>
307
+ # **音色复刻状态查询接口**
308
+ <span id="69649497"></span>
309
+ ## 请求路径
310
+
311
+ * 服务使用的请求路径:`https://openspeech.bytedance.com/api/v3/tts/get_voice`
312
+
313
+ <span id="2ebfe613"></span>
314
+ ## 建连&鉴权
315
+
316
+ * HTTP 请求头(Request Header 中)添加以下信息
317
+
318
+ 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
319
+
320
+ | | | | | | \
321
+ |**Key** |**说明** |**参数类型** |**是否必须** |**Value 示例** |
322
+ |---|---|---|---|---|
323
+ | | | | | | \
324
+ |Content-Type |固定值 |string |必须 |"application/json" |
325
+ | | | | | | \
326
+ |X-Api-Key |使用火山引擎控制台获取的API Key,可参考 [控制台API Key管理](https://www.volcengine.com/docs/6561/2119699?lang=zh#ew1HctnP) |string |必须 |"your-api-key" |
327
+ | | | | | | \
328
+ |X-Api-Request-Id |标识客户端请求ID,uuid随机字符串 |string |必须 |"67ee89ba-7050-4c04-a3d7-ac61a63499b3" |
329
+
330
+
331
+ ```Python
332
+ headers = {
333
+ "Content-Type": "application/json",
334
+ "X-Api-Key": "your-api-key",
335
+ "X-Api-Request-Id": "67ee89ba-7050-4c04-a3d7-ac61a63499b3",
336
+ }
337
+ ```
338
+
339
+ 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
340
+
341
+ | | | | | | \
342
+ |**Key** |**说明** |**参数类型** |**是否必须** |**Value 示例** |
343
+ |---|---|---|---|---|
344
+ | | | | | | \
345
+ |Content-Type |固定值 |string |必须 |"application/json" |
346
+ | | | | | | \
347
+ |X-Api-App-Key |使用火山引擎控制台获取的APP ID,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)(旧版控制台使用,新版控制台只需要X-Api-Key即可) |string |必须 |"123456789" |
348
+ | | | | | | \
349
+ |X-Api-Access-Key |使用火山引擎控制台获取的Access Token,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)(旧版控制台使用,新版控制台只需要X-Api-Key即可) |string |必须 |"your-access-key" |
350
+ | | | | | | \
351
+ |X-Api-Request-Id |标识客户端请求ID,uuid随机字符串 |string |必须 |"67ee89ba-7050-4c04-a3d7-ac61a63499b3" |
352
+
353
+ ```Python
354
+ headers = {
355
+ "Content-Type": "application/json",
356
+ "X-Api-App-Key": "123456789",
357
+ "X-Api-Access-Key": "your-access-key",
358
+ "X-Api-Request-Id": "67ee89ba-7050-4c04-a3d7-ac61a63499b3",
359
+ }
360
+ ```
361
+
362
+
363
+ * 在HTTP请求成功后,会返回这些 Response header
364
+
365
+
366
+ | | | | \
367
+ |**Key** |**说明** |**Value 示例** |
368
+ |---|---|---|
369
+ | | | | \
370
+ |X-Tt-Logid |服务端返回的 logid,建议用户获取和打印方便定位问题 |202407261553070FACFE6D19421815D605 |
371
+
372
+ <span id="db2e855d"></span>
373
+ ## **请求参数**
374
+
375
+ | | | | | | \
376
+ |**参数名称** |**层级** |**类型** |**是否必须** |**备注** |
377
+ |---|---|---|---|---|
378
+ | | | | | | \
379
+ |speaker_id |1 |string |必须 |唯一音色代号 |
380
+
381
+ <span id="a18adf8a"></span>
382
+ ## **请求示例**
383
+ ```JSON
384
+ {
385
+ "speaker_id": "S_*******" // (需从控制台获取,参考文档:声音复刻下单及使用指南)
386
+ }
387
+ ```
388
+
389
+ <span id="f244b905"></span>
390
+ ## 返回参数
391
+
392
+ | | | | | | \
393
+ |**参数名称** |**层级** |**参数类型** |**是否必须** |**备注** |
394
+ |---|---|---|---|---|
395
+ | | | | | | \
396
+ |code |1 |int |可选 |训练失败时候HTTP返回非200,该字段返回详细错误码 |
397
+ | | | | | | \
398
+ |message |1 |string |可选 |训练失败时候HTTP返回非200,该字段返回详细错误信息 |
399
+ | | | | | | \
400
+ |available_training_times |1 |int |可选 |剩余训练次数 |
401
+ | | | | | | \
402
+ |create_time |1 |int |可选 |创建时间 |
403
+ | | | | | | \
404
+ |language |1 |\
405
+ | | |int |可选 |以下为语种对应的枚举值 |\
406
+ | | | | | |\
407
+ | | | | |* cn = 0 中文(默认) |\
408
+ | | | | |* en = 1 英文 |\
409
+ | | | | |* ja = 2 日语 |\
410
+ | | | | |* es = 3 西班牙语 |\
411
+ | | | | |* id = 4 印尼语 |\
412
+ | | | | |* pt = 5 葡萄牙语 |\
413
+ | | | | |* de = 6 德语 |\
414
+ | | | | |* fr = 7 法语 |
415
+ | | | | | | \
416
+ |speaker_id |1 |string |可选 |唯一音色代号 |
417
+ | | | | | | \
418
+ |status |\
419
+ | |1 |int |可选 |训练状态,状态为2或4时都可以调用tts语音合成接口。 |\
420
+ | | | | | |\
421
+ | | | | |* NotFound = 0 |\
422
+ | | | | |* Training = 1 |\
423
+ | | | | |* Success = 2 |\
424
+ | | | | |* Failed = 3 |\
425
+ | | | | |* Active = 4 |
426
+ | | | | | | \
427
+ |speaker_status |1 |object list |可选 |音色训练状态列表 |
428
+ | | | | | | \
429
+ |model_type |2 |int |\
430
+ | | | |可选 |\
431
+ | | | | |声音复刻1.0 查询出来可能是以下`model_type` |\
432
+ | | | | | |\
433
+ | | | | |* 1 为声音复刻ICL V1效果 |\
434
+ | | | | |* 2 为声音复刻DiT标准版效果(音色、不还原用户的风格) |\
435
+ | | | | |* 3 为声音复刻DiT还原版效果(音色、还原用户口音、语速等风格) |\
436
+ | | | | | |\
437
+ | | | | |声音复刻 2.0 查询出来可能是以下 `model_type` |\
438
+ | | | | | |\
439
+ | | | | |* 4 为声音复刻ICL V2效果 |\
440
+ | | | | |* 5 为声音复刻ICL V3效果 |
441
+ | | | | | | \
442
+ |demo_audio |2 |string |可选 |Success状态时返回,一小时有效,若需要,请下载后使用 |
443
+
444
+ <span id="28224986"></span>
445
+ ## **返回示例**
446
+ ```JSON
447
+ {
448
+ "available_training_times": 15,
449
+ "create_time": 1772026663000,
450
+ "language": 0,
451
+ "speaker_id": "S_*******",
452
+ "speaker_status": [
453
+ {
454
+ "demo_audio": "https://x.bytespeech.com/S_*******",
455
+ "model_type": 1
456
+ },
457
+ {
458
+ "demo_audio": "https://x.bytespeech.com/S_*******",
459
+ "model_type": 4
460
+ }
461
+ ],
462
+ "status": 2
463
+ }
464
+ ```
465
+
466
+ <span id="ca02310d"></span>
467
+ ## 调用示例
468
+
469
+ ```mixin-react
470
+ return (<Tabs>
471
+ <Tabs.TabPane title="Python调用示例" key="E4fgX2N49w"><RenderMd content={`<span id="3a58fc02"></span>
472
+ ### 前提条件
473
+
474
+ * 调用之前,您需要获取以下信息:
475
+ * 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
476
+ * \`<api_key>\`:使用控制台获取的API Key,可参考[控制台API Key管理](https://www.volcengine.com/docs/6561/2119699?lang=zh#ew1HctnP)。
477
+ * 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
478
+ * \`<appid>\`:使用控制台获取的APP ID,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)。
479
+ * \`<access_token>\`:使用控制台获取的Access Token,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)。
480
+ * \`<speaker_id>\`:您预期使用的声音复刻音色ID,可参考 [获取声音复刻音色 ID](https://www.volcengine.com/docs/6561/1167802?lang=zh)。
481
+
482
+ <span id="bb71d42f"></span>
483
+ ### Python环境
484
+
485
+ * Python:3.9版本及以上。
486
+ * Pip:25.1.1版本及以上。您可以使用下面命令安装。
487
+
488
+ \`\`\`Bash
489
+ python3 -m pip install --upgrade pip
490
+ \`\`\`
491
+
492
+ <span id="361bb747"></span>
493
+ ### 下载代码示例
494
+ <Attachment link="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/d7a0704a30b44551b43fdb3c963f6248~tplv-goo7wpa0wc-image.image" name="volcengine_get_voice_demo.tar.gz" ></Attachment>
495
+ <span id="0a970b6c"></span>
496
+ ### 解压缩代码包,安装依赖
497
+ \`\`\`Bash
498
+ mkdir -p volcengine_get_voice_demo
499
+ tar xvzf volcengine_get_voice_demo.tar.gz -C ./volcengine_get_voice_demo
500
+ cd volcengine_get_voice_demo
501
+ python3 -m venv .venv
502
+ source .venv/bin/activate
503
+ python3 -m pip install --upgrade pip
504
+ pip3 install -e .
505
+ \`\`\`
506
+
507
+ <span id="8eea6eee"></span>
508
+ ### 发起调用
509
+
510
+ > * 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
511
+ > * \`<api_key>\`替换为您的API Key。
512
+ > * 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
513
+ > * \`<appid>\`替换为您的APP ID。
514
+ > * \`<access_token>\`替换为您的Access Token。
515
+ > * \`<speaker_id>\`:您预期使用的声音复刻音色ID,可参考 [获取声音复刻音色 ID](https://www.volcengine.com/docs/6561/1167802?lang=zh)。
516
+
517
+ \`\`\`Bash
518
+ # 使用新版控制台时,推荐采用以下更简化的鉴权方式。
519
+ python3 examples/volcengine/get_voice.py --api_key <api_key> --speaker_id S_example
520
+ # 若使用旧版控制台,鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
521
+ python3 examples/volcengine/get_voice.py --appid <appid> --access_token <access_token> --speaker_id S_example
522
+ \`\`\`
523
+
524
+ `}></RenderMd></Tabs.TabPane></Tabs>);
525
+ ```
526
+
527
+ <span id="ede50cef"></span>
528
+ # **升级复刻音色接口**
529
+ 支持将复刻音色升级成支持统一管理的音色。
530
+ <span id="48af06b7"></span>
531
+ ## 请求路径
532
+
533
+ * 服务使用的请求路径:`https://openspeech.bytedance.com/api/v3/tts/upgrade_voice`
534
+
535
+ <span id="8db1bdf7"></span>
536
+ ## 建连&鉴权
537
+
538
+ * HTTP 请求头(Request Header 中)添加以下信息
539
+
540
+ 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
541
+
542
+ | | | | | | \
543
+ |**Key** |**说明** |**参数类型** |**是否必须** |**Value 示例** |
544
+ |---|---|---|---|---|
545
+ | | | | | | \
546
+ |Content-Type |固定值 |string |必须 |"application/json" |
547
+ | | | | | | \
548
+ |X-Api-Key |使用火山引擎控制台获取的API Key,可参考 [控制台API Key管理](https://www.volcengine.com/docs/6561/2119699?lang=zh#ew1HctnP) |string |必须 |"your-api-key" |
549
+ | | | | | | \
550
+ |X-Api-Request-Id |标识客户端请求ID,uuid随机字符串 |string |必须 |"67ee89ba-7050-4c04-a3d7-ac61a63499b3" |
551
+
552
+
553
+ ```Python
554
+ headers = {
555
+ "Content-Type": "application/json",
556
+ "X-Api-Key": "your-api-key",
557
+ "X-Api-Request-Id": "67ee89ba-7050-4c04-a3d7-ac61a63499b3",
558
+ }
559
+ ```
560
+
561
+ 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
562
+
563
+ | | | | | | \
564
+ |**Key** |**说明** |**参数类型** |**是否必须** |**Value 示例** |
565
+ |---|---|---|---|---|
566
+ | | | | | | \
567
+ |Content-Type |固定值 |string |必须 |"application/json" |
568
+ | | | | | | \
569
+ |X-Api-App-Key |使用火山引擎控制台获取的APP ID,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)(旧版控制台使用,新版控制台只需要X-Api-Key即可) |string |必须 |"123456789" |
570
+ | | | | | | \
571
+ |X-Api-Access-Key |使用火山引擎控制台获取的Access Token,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)(旧版控制台使用,新版控制台只需要X-Api-Key即可) |string |必须 |"your-access-key" |
572
+ | | | | | | \
573
+ |X-Api-Request-Id |标识客户端请求ID,uuid随机字符串 |string |必须 |"67ee89ba-7050-4c04-a3d7-ac61a63499b3" |
574
+
575
+ ```Python
576
+ headers = {
577
+ "Content-Type": "application/json",
578
+ "X-Api-App-Key": "123456789",
579
+ "X-Api-Access-Key": "your-access-key",
580
+ "X-Api-Request-Id": "67ee89ba-7050-4c04-a3d7-ac61a63499b3",
581
+ }
582
+ ```
583
+
584
+
585
+ * 在HTTP请求成功后,会返回这些 Response header
586
+
587
+
588
+ | | | | \
589
+ |**Key** |**说明** |**Value 示例** |
590
+ |---|---|---|
591
+ | | | | \
592
+ |X-Tt-Logid |服务端返回的 logid,建议用户获取和打印方便定位问题 |202407261553070FACFE6D19421815D605 |
593
+
594
+ <span id="28b26137"></span>
595
+ ## **请求参数**
596
+
597
+ | | | | | | \
598
+ |**参数名称** |**层级** |**类型** |**是否必须** |**备注** |
599
+ |---|---|---|---|---|
600
+ | | | | | | \
601
+ |speaker_id |1 |string |必须 |唯一音色代号 |
602
+
603
+ <span id="37feaaa2"></span>
604
+ ## **请求示例**
605
+ ```JSON
606
+ {
607
+ "speaker_id": "S_*******" // (需从控制台获取,参考文档:声音复刻下单及使用指南)
608
+ }
609
+ ```
610
+
611
+ <span id="b7bb126e"></span>
612
+ ## 返回参数
613
+
614
+ | | | | | | \
615
+ |**参数名称** |**层级** |**参数类型** |**是否必须** |**备注** |
616
+ |---|---|---|---|---|
617
+ | | | | | | \
618
+ |code |1 |int |可选 |训练失败时候HTTP返回非200,该字段返回详细错误码 |
619
+ | | | | | | \
620
+ |message |1 |string |可选 |训练失败时候HTTP返回非200,该字段返回详细错误信息 |
621
+ | | | | | | \
622
+ |available_training_times |1 |int |可选 |剩余训练次数 |
623
+ | | | | | | \
624
+ |create_time |1 |int |可选 |创建时间 |
625
+ | | | | | | \
626
+ |language |1 |\
627
+ | | |int |可选 |以下为语种对应的枚举值 |\
628
+ | | | | | |\
629
+ | | | | |* cn = 0 中文(默认) |\
630
+ | | | | |* en = 1 英文 |\
631
+ | | | | |* ja = 2 日语 |\
632
+ | | | | |* es = 3 西班牙语 |\
633
+ | | | | |* id = 4 印尼语 |\
634
+ | | | | |* pt = 5 葡萄牙语 |\
635
+ | | | | |* de = 6 德语 |\
636
+ | | | | |* fr = 7 法语 |
637
+ | | | | | | \
638
+ |speaker_id |1 |string |可选 |唯一音色代号 |
639
+ | | | | | | \
640
+ |status |\
641
+ | |1 |int |可选 |训练状态,状态为2或4时都可以调用tts |\
642
+ | | | | | |\
643
+ | | | | |* NotFound = 0 |\
644
+ | | | | |* Training = 1 |\
645
+ | | | | |* Success = 2 |\
646
+ | | | | |* Failed = 3 |\
647
+ | | | | |* Active = 4 |
648
+ | | | | | | \
649
+ |speaker_status |1 |object list |可选 |音色训练状态列表 |
650
+ | | | | | | \
651
+ |model_type |2 |int |\
652
+ | | | |可选 |\
653
+ | | | | |声音复刻1.0 查询出来可能是以下`model_type` |\
654
+ | | | | | |\
655
+ | | | | |* 1 为声音复刻ICL V1效果 |\
656
+ | | | | |* 2 为声音复刻DiT标准版效果(音色、不还原用户的风格) |\
657
+ | | | | |* 3 为声音复刻DiT还原版效果(音色、还原用户口音、语速等风格) |\
658
+ | | | | | |\
659
+ | | | | |声音复刻 2.0 查询出来可能是以下 `model_type` |\
660
+ | | | | | |\
661
+ | | | | |* 4 为声音复刻ICL V2效果 |\
662
+ | | | | |* 5 为声音复刻ICL V3效果 |
663
+ | | | | | | \
664
+ |demo_audio |2 |string |可选 |Success状态时返回,一小时有效,若需要,请下载后使用 |
665
+
666
+ <span id="dc8a6a0b"></span>
667
+ ## 返回示例
668
+ ```JSON
669
+ {
670
+ "available_training_times": 15,
671
+ "create_time": 1772026663000,
672
+ "language": 0,
673
+ "speaker_id": "S_*******",
674
+ "speaker_status": [
675
+ {
676
+ "demo_audio": "https://x.bytespeech.com/S_*******",
677
+ "model_type": 1
678
+ },
679
+ {
680
+ "demo_audio": "https://x.bytespeech.com/S_*******",
681
+ "model_type": 4
682
+ }
683
+ ],
684
+ "status": 2
685
+ }
686
+ ```
687
+
688
+ <span id="981466d9"></span>
689
+ ## 调用示例
690
+
691
+ ```mixin-react
692
+ return (<Tabs>
693
+ <Tabs.TabPane title="Python调用示例" key="Rb98MvTOxL"><RenderMd content={`<span id="a01130c3"></span>
694
+ ### 前提条件
695
+
696
+ * 调用之前,您需要获取以下信息:
697
+ * 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
698
+ * \`<api_key>\`:使用控制台获取的API Key,可参考[控制台API Key管理](https://www.volcengine.com/docs/6561/2119699?lang=zh#ew1HctnP)。
699
+ * 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
700
+ * \`<appid>\`:使用控制台获取的APP ID,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)。
701
+ * \`<access_token>\`:使用控制台获取的Access Token,可参考 [控制台使用FAQ-Q1](https://www.volcengine.com/docs/6561/196768#q1%EF%BC%9A%E5%93%AA%E9%87%8C%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%8F%96%E5%88%B0%E4%BB%A5%E4%B8%8B%E5%8F%82%E6%95%B0appid%EF%BC%8Ccluster%EF%BC%8Ctoken%EF%BC%8Cauthorization-type%EF%BC%8Csecret-key-%EF%BC%9F)。
702
+ * \`<speaker_id>\`:您预期使用的声音复刻音色ID,可参考 [获取声音复刻音色 ID](https://www.volcengine.com/docs/6561/1167802?lang=zh)。
703
+
704
+ <span id="b0ebccf3"></span>
705
+ ### Python环境
706
+
707
+ * Python:3.9版本及以上。
708
+ * Pip:25.1.1版本及以上。您可以使用下面命令安装。
709
+
710
+ \`\`\`Bash
711
+ python3 -m pip install --upgrade pip
712
+ \`\`\`
713
+
714
+ <span id="53646bdd"></span>
715
+ ### 下载代码示例
716
+ <Attachment link="https://p9-arcosite.byteimg.com/tos-cn-i-goo7wpa0wc/0937d07c24304746b7c8243bcfe0c39c~tplv-goo7wpa0wc-image.image" name="volcengine_upgrade_voice_demo.tar.gz" ></Attachment>
717
+ <span id="6e8a3a74"></span>
718
+ ### 解压缩代码包,安装依赖
719
+ \`\`\`Bash
720
+ mkdir -p volcengine_upgrade_voice_demo
721
+ tar xvzf volcengine_upgrade_voice_demo.tar.gz -C ./volcengine_upgrade_voice_demo
722
+ cd volcengine_upgrade_voice_demo
723
+ python3 -m venv .venv
724
+ source .venv/bin/activate
725
+ python3 -m pip install --upgrade pip
726
+ pip3 install -e .
727
+ \`\`\`
728
+
729
+ <span id="b3158308"></span>
730
+ ### 发起调用
731
+
732
+ > * 使用[新版控制台](https://console.volcengine.com/speech/new)时,推荐采用以下更简化的鉴权方式。
733
+ > * \`<api_key>\`替换为您的API Key。
734
+ > * 若使用[旧版控制台](https://console.volcengine.com/speech/app),鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
735
+ > * \`<appid>\`替换为您的APP ID。
736
+ > * \`<access_token>\`替换为您的Access Token。
737
+ > * \`<speaker_id>\`:您预期使用的声音复刻音色ID,可参考 [获取声音复刻音色 ID](https://www.volcengine.com/docs/6561/1167802?lang=zh)。
738
+
739
+ \`\`\`Bash
740
+ # 使用新版控制台时,推荐采用以下更简化的鉴权方式。
741
+ python3 examples/volcengine/upgrade_voice.py --api_key <api_key> --speaker_id S_example
742
+ # 若使用旧版控制台,鉴权方式如下。建议尽快切换至新版,以体验更便捷的鉴权流程。
743
+ python3 examples/volcengine/upgrade_voice.py --appid <appid> --access_token <access_token> --speaker_id S_example
744
+ \`\`\`
745
+
746
+ `}></RenderMd></Tabs.TabPane></Tabs>);
747
+ ```
748
+
749
+ <span id="b68e8725"></span>
750
+ # 错误码
751
+ 您在调用API接口过程中,如果服务端返回结果报错,则表示操作失败。您可以通过返回结果中的错误码快速地定位问题,并根据对应的解决方案尝试修改代码或者反馈给终端用户加以解决。
752
+
753
+ | | | | | | \
754
+ |**参数名称** |**层级** |**参数类型** |**是否必须** |**备注** |
755
+ |---|---|---|---|---|
756
+ | | | | | | \
757
+ |code |1 |int |可选 |训练失败时候HTTP返回非200,该字段返回详细错误码 |
758
+ | | | | | | \
759
+ |message |1 |string |可选 |训练失败时候HTTP返回非200,该字段返回详细错误信息 |
760
+
761
+
762
+ | | | \
763
+ |**错误码分类** |**错误码表示** |
764
+ |---|---|
765
+ | | | \
766
+ |服务端报错 |8位错误码,以5开头,例如:50001201 |
767
+ | | | \
768
+ |客户操作错误导致的服务端报错 |8位错误码,以4开头,例如:40001101 |
769
+
770
+
771
+ | | | | | \
772
+ |**错误码code** |**状态信息message** |**原因** |**解决方案** |
773
+ |---|---|---|---|
774
+ | | | | | \
775
+ |45001001 |请求参数有误 |参数缺失/格式不对/不符合约束 |按接口校验规则修正参数;补齐必填字段;检查枚举值 |
776
+ | | | | | \
777
+ |45001101 |音频上传失败 |客户端上传到服务端失败/超时/网络问题 |重试上传;检查网络与超时;确认音频格式与大小满足限制 |
778
+ | | | | | \
779
+ |45001102 |ASR转写失败 |ASR 服务失败/超时/音频质量差导致无法转写 |重试;确认音频可识别(清晰、人声占比高);必要时更换音频 |
780
+ | | | | | \
781
+ |45001104 |声纹检测未通过 |触发敏感声纹/黑名单/相似度过高 |更换音频或更换说话人;避免使用敏感或疑似复刻目标音色的素材 |
782
+ | | | | | \
783
+ |45001105 |获取音频数据失败 |音频数据解码失败/下载失败/数据为空(如 base64 解码失败) |确认音频字段不为空;base64 是否合法;若是 URL 确认可访问;必要时重新上传 |
784
+ | | | | | \
785
+ |45001107 |SpeakerID未找到 |speaker_id 不存在/已被删除 |确认 speaker_id 正确;先查询列表;如已删除则重新创建 |
786
+ | | | | | \
787
+ |45001108 |音频转码失败 |输入音频格式不支持/数据损坏/转码工具失败 |确认音频格式与采样率;提供可解码音频;重试或更换音频 |
788
+ | | | | | \
789
+ |45001109 |wer检测错误 |WER 检测服务异常/输入不符合要求 |重试;检查prompt音频和提供的prompt文本是否对应 |
790
+ | | | | | \
791
+ |45001110 |音色删除失败 |删除流程失败/服务端异常/资源不存在 |重试;确认 speaker_id 存在 |
792
+ | | | | | \
793
+ |45001112 |SNR检测错误 |SNR 检测服务异常 |重试;更换音频(更高信噪比);检查音频采样率/格式 |
794
+ | | | | | \
795
+ |45001113 |降噪失败 |降噪服务异常/参数不支持/音频不适配 |重试;关闭降噪参数或换模型;更换音频 |
796
+ | | | | | \
797
+ |45001114 |音频质量较差 |音频质量差/背景噪声大/人声过弱 |建议更换音频 |
798
+ | | | | | \
799
+ |45001122 |asr未检测到人声 |音频无人声/人声过弱/噪声过大 |更换含清晰人声的音频;提高人声占比;减少背景噪声 |
800
+ | | | | | \
801
+ |45001123 |达到上传次数上限 |超过音色训练次数限制 |更换为还有训练次数的 speaker_id |
802
+ | | | | | \
803
+ |45001124 |asr文本审核拒绝 |ASR 识别文本触发审核策略 |更换音频内容;避免敏感内容;必要时走白名单/审核申诉流程 |
804
+ | | | | | \
805
+ |45001125 |demo文本审核拒绝 |demo 文本触发审核策略 |修改 demo 文本;避免敏感词;按合规要求调整 |
806
+ | | | | | \
807
+ |45001126 |demo文本长度错误 |demo 文本太短/太长/超出限制 |按长度限制调整文本;去掉多余字符或补充内容 |
808
+ | | | | | \
809
+ |45001127 |prompt音频审核拒绝 |prompt 音频触发审核策略 |更换音频;避免敏感内容/违规素材;确保音频来源合规 |
810
+ | | | | | \
811
+ |45001128 |prompt音频文本审核拒绝 |prompt 音频对应文本/识别结果触发审核 |更换音频或文本;避免敏感内容;必要时走白名单 |
812
+ | | | | | \
813
+ |55001301 |数据库查询失败 |DB 不可用/超时 |服务异常、可能需要重试 |
814
+ | | | | | \
815
+ |55001302 |数据库插入失败 |DB 不可用/超时 |服务异常、可能需要重试 |
816
+ | | | | | \
817
+ |55001303 |数据库更新失败 |DB 不可用/超时 |服务异常、可能需要重试 |
818
+ | | | | | \
819
+ |55001304 |数据库删除失败 |DB 不可用/超时 |服务异常、可能需要重试 |
820
+ | | | | | \
821
+ |55001305 |TOS上传失败 |对象存储不可用/超时 |服务异常、可能需要重试 |
822
+ | | | | | \
823
+ |55001306 |TOS下载失败 |对象存储不可用/超时 |服务异常、可能需要重试 |
824
+ | | | | | \
825
+ |55001307 |音色克隆失败 |voice clone 下游失败/超时/返回异常 |服务异常、可能需要重试 |
826
+
827
+ <span id="caf9cc55"></span>
828
+ # V1训练接口迁移指南
829
+ 当您从 V1 版本训练接口切换至 V3 版本时,请参照以下步骤完成相应修改。
830
+
831
+ | | | | \
832
+ |**参数字段变化** |**参数类型变化** |**备注** |
833
+ |---|---|---|
834
+ | | | | \
835
+ |audios变更为audio |[]object变更为object |老接口为数组但是只支持一个音频文件,新接口变更为单个文件 |
836
+ | | | | \
837
+ |audios[].audio_bytes变更为audio.data |string |字段定义不变,二进制音频字节,需对二进制音频进行base64编码 |
838
+ | | | | \
839
+ |audios[].audio_format变更为audio.format |string |字段定义不变,音频格式,pcm、m4a必传,其余可选 |
840
+ | | | | \
841
+ |model_type |不再使用 |直接去掉即可,V1 训练接口支持的`model_type=2/3` 不再推荐使用,建议使用声音复刻 2.0 版本效果。 |
842
+ | | | | \
843
+ |extra_params |jsonstring变更为object |简化使用 |
844
+
845
+ <span id="be6caddf"></span>
846
+ # 大模型语音合成接口
847
+ 音色训练成功后,您需要调用大模型语音合成 V3 版本接口,才能使用该音色将指定文本合成为音频。
848
+ :::warning
849
+ V3 版本的大模型语音合成接口通过 `X-Api-Resource-Id` 参数来选择不同的版本效果:
850
+
851
+ * `seed-icl-1.0` / `seed-icl-1.0-concurr`:对应声音复刻 ICL 1.0 版本效果
852
+ * `seed-icl-2.0`:对应声音复刻 ICL 2.0 版本效果
853
+
854
+ 同时,`X-Api-Resource-Id` 也决定了计费方式:
855
+
856
+ * `seed-icl-1.0`:对应计费商品为“声音复刻 ICL 1.0 字符版”
857
+ * `seed-icl-1.0-concurr`:对应计费商品为“声音复刻 ICL 1.0 并发版”
858
+ * `seed-icl-2.0`:对应计费商品为“声音复刻 ICL 2.0 字符版”
859
+ :::
860
+
861
+ | | | | | \
862
+ |**接口** |**推荐场景** |**接口功能** |**文档链接** |
863
+ |---|---|---|---|
864
+ | | | | | \
865
+ |`wss://openspeech.bytedance.com/api/v3/tts/bidirection ` |WebSocket协议,实时交互场景,支持文本实时流式输入,流式输出音频。 |语音合成、**声音复刻**、混音 |[V3 WebSocket双向流式文档](https://www.volcengine.com/docs/6561/1329505) |
866
+ | | | | | \
867
+ |`wss://openspeech.bytedance.com/api/v3/tts/unidirectional/stream` |WebSocket协议,一次性输入合成文本,流式输出音频。 |语音合成、**声音复刻**、混音 |[V3 WebSocket单向流式文档](https://www.volcengine.com/docs/6561/1719100) |
868
+ | | | | | \
869
+ |`https://openspeech.bytedance.com/api/v3/tts/unidirectional ` |HTTP Chunked协议,一次性输入全部合成文本,流式输出音频。 |语音合成、**声音复刻**、混音 |[V3 HTTP Chunked单向流式文档](https://www.volcengine.com/docs/6561/1598757?lang=zh#_2-http-chunked%E6%A0%BC%E5%BC%8F%E6%8E%A5%E5%8F%A3%E8%AF%B4%E6%98%8E) |
870
+ | | | | | \
871
+ |`https://openspeech.bytedance.com/api/v3/tts/unidirectional/sse` |HTTP SSE协议,一次性输入全部合成文本,流式输出音频。 |语音合成、**声音复刻**、混音 |[V3 Server Sent Events(SSE)单向流式文档](https://www.volcengine.com/docs/6561/1598757?lang=zh#_3-sse%E6%A0%BC%E5%BC%8F%E6%8E%A5%E5%8F%A3%E8%AF%B4%E6%98%8E) |
872
+
873
+