tencentcloud-sdk-nodejs-trtc 4.1.151 → 4.1.158

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/package.json CHANGED
@@ -1,6 +1,6 @@
1
1
  {
2
2
  "name": "tencentcloud-sdk-nodejs-trtc",
3
- "version": "4.1.151",
3
+ "version": "4.1.158",
4
4
  "description": "腾讯云 API NODEJS SDK",
5
5
  "main": "./tencentcloud/index.js",
6
6
  "module": "./es/index.js",
@@ -404,7 +404,7 @@ export interface STTConfig {
404
404
 
405
405
  语音转文本不同套餐版本支持的语言如下:
406
406
 
407
- **基础版**:
407
+ **基础语言引擎**:
408
408
  - "zh": 中文(简体)
409
409
  - "zh-TW": 中文(繁体)
410
410
  - "en": 英语
@@ -412,13 +412,13 @@ export interface STTConfig {
412
412
  - "16k_zh_medical":中文医疗
413
413
  - "16k_zh_court":中文法庭
414
414
 
415
- **标准版:**
415
+ **标准语言引擎:**
416
416
  - "8k_zh_large": 普方大模型引擎. 当前模型同时支持中文等语言的识别,模型参数量极大,语言模型性能增强,针对电话音频中各类场景、各类中文方言的识别准确率极大提升.
417
417
  - "16k_zh_large": 普方英大模型引擎. 当前模型同时支持中文、英文、多种中文方言等语言的识别,模型参数量极大,语言模型性能增强,针对噪声大、回音大、人声小、人声远等低质量音频的识别准确率极大提升.
418
418
  - "16k_multi_lang": 多语种大模型引擎. 当前模型同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别,可实现15个语种的自动识别(句子/段落级别).
419
419
  - "16k_zh_en": 中英大模型引擎. 当前模型同时支持中文、英语识别,模型参数量极大,语言模型性能增强,针对噪声大、回音大、人声小、人声远等低质量音频的识别准确率极大提升.
420
420
 
421
- **高级版:**
421
+ **高级语言引擎:**
422
422
  - "zh-dialect": 中国方言
423
423
  - "zh-yue": 中国粤语
424
424
  - "vi": 越南语
@@ -527,7 +527,7 @@ export interface VoiceCloneRequest {
527
527
  */
528
528
  VoiceName: string;
529
529
  /**
530
- * 声音克隆的参考音频,必须为16k单声道的wav的base64字符串, 长度在5秒~12秒之间
530
+ * 声音克隆的参考音频,必须为16k单声道的wav的base64字符串, 长度在10秒~180秒之间
531
531
  */
532
532
  PromptAudio: string;
533
533
  /**
@@ -2233,11 +2233,22 @@ export interface DescribeAIConversationResponse {
2233
2233
  */
2234
2234
  export interface AudioFormat {
2235
2235
  /**
2236
- * 生成的音频格式,默认pcm,目前支持的格式列表:流式:[pcm],非流式 [pcm,wav]
2236
+ * 生成的音频格式
2237
+
2238
+ - TextToSpeech流式接口
2239
+
2240
+ 支持 pcm, 默认: pcm
2241
+
2242
+ - TextToSpeech非流式接口
2243
+
2244
+ 支持 pcm,wav, 默认: pcm
2237
2245
  */
2238
2246
  Format?: string;
2239
2247
  /**
2240
- * 采样率,默认24000, 可选16000, 24000
2248
+ * 生成的音频采样率,默认24000
2249
+ 可选
2250
+ - 16000
2251
+ - 24000
2241
2252
  */
2242
2253
  SampleRate?: number;
2243
2254
  }
@@ -2668,6 +2679,14 @@ export interface StartStreamIngestRequest {
2668
2679
  * 音量,取值范围[0, 100],默认100,表示原音量。
2669
2680
  */
2670
2681
  Volume?: number;
2682
+ /**
2683
+ * 开启播放进度回调, 默认false,当开启后,播放进度会通过trtc custom data 回调给播放端
2684
+ */
2685
+ EnableProgress?: boolean;
2686
+ /**
2687
+ * 播放倍速,默认1.0,可取[0.5, 0.75, 1.0, 1.25, 1.5, 1.75, 2.0]
2688
+ */
2689
+ Tempo?: number;
2671
2690
  }
2672
2691
  /**
2673
2692
  * UpdateVoicePrint返回参数结构体
@@ -3453,7 +3472,7 @@ export interface RecognizeConfig {
3453
3472
 
3454
3473
  语音转文本不同套餐版本支持的语言如下:
3455
3474
 
3456
- **基础版**:
3475
+ **基础语言引擎**:
3457
3476
  - "zh": 中文(简体)
3458
3477
  - "zh-TW": 中文(繁体)
3459
3478
  - "en": 英语
@@ -3461,13 +3480,13 @@ export interface RecognizeConfig {
3461
3480
  - "16k_zh_medical":中文医疗
3462
3481
  - "16k_zh_court":中文法庭
3463
3482
 
3464
- **标准版:**
3483
+ **标准语言引擎:**
3465
3484
  - "8k_zh_large": 普方大模型引擎. 当前模型同时支持中文等语言的识别,模型参数量极大,语言模型性能增强,针对电话音频中各类场景、各类中文方言的识别准确率极大提升.
3466
3485
  - "16k_zh_large": 普方英大模型引擎. 当前模型同时支持中文、英文、多种中文方言等语言的识别,模型参数量极大,语言模型性能增强,针对噪声大、回音大、人声小、人声远等低质量音频的识别准确率极大提升.
3467
3486
  - "16k_multi_lang": 多语种大模型引擎. 当前模型同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别,可实现15个语种的自动识别(句子/段落级别).
3468
3487
  - "16k_zh_en": 中英大模型引擎. 当前模型同时支持中文、英语识别,模型参数量极大,语言模型性能增强,针对噪声大、回音大、人声小、人声远等低质量音频的识别准确率极大提升.
3469
3488
 
3470
- **高级版:**
3489
+ **高级语言引擎:**
3471
3490
  - "zh-dialect": 中国方言
3472
3491
  - "zh-yue": 中国粤语
3473
3492
  - "vi": 越南语
@@ -3879,23 +3898,23 @@ export interface DescribePictureRequest {
3879
3898
  PageNo?: number;
3880
3899
  }
3881
3900
  /**
3882
- * TTS的声音参数
3901
+ * TTS的声音参数配置
3883
3902
  */
3884
3903
  export interface Voice {
3885
3904
  /**
3886
- * TTS的声音的ID
3905
+ * 音色 ID,可从音色列表获取,或使用声音克隆生成的自定义音色 ID
3887
3906
  */
3888
3907
  VoiceId: string;
3889
3908
  /**
3890
- * 语速,范围 0.5-2.0,默认 1.0
3909
+ * 语速调节,0.5 为半速慢放,2.0 为两倍速快放,1.0 为正常语速,区间:[0.5, 2.0],默认1.0
3891
3910
  */
3892
3911
  Speed?: number;
3893
3912
  /**
3894
- * (0, 10] 默认值1.0
3913
+ * 音量调节,0 为静音,10 为最大音量,建议保持默认值 1.0,区间:[0, 10],默认1.0
3895
3914
  */
3896
3915
  Volume?: number;
3897
3916
  /**
3898
- * 取值[-12,12],默认0
3917
+ * 音高调节,负值声音更低沉,正值声音更尖锐,0 为原始音高,区间 [-12, 12], 默认0
3899
3918
  */
3900
3919
  Pitch?: number;
3901
3920
  }
@@ -4599,6 +4618,14 @@ export interface UpdateStreamIngestRequest {
4599
4618
  * 是否暂停,默认false表示不暂停。暂停期间任务仍在进行中仍会计费,暂停超过12小时会自动销毁任务, 建议主动调用停止任务接口。
4600
4619
  */
4601
4620
  IsPause?: boolean;
4621
+ /**
4622
+ * 是否开启播放进度回调, 默认false,当开启后,播放进度会通过trtc custom data 回调给播放端
4623
+ */
4624
+ EnableProgress?: boolean;
4625
+ /**
4626
+ * 播放倍速,默认1.0,可取[0.5, 0.75, 1.0, 1.25, 1.5, 1.75, 2.0]
4627
+ */
4628
+ Tempo?: number;
4602
4629
  }
4603
4630
  /**
4604
4631
  * TextToSpeechSSE请求参数结构体
@@ -4622,14 +4649,15 @@ export interface TextToSpeechSSERequest {
4622
4649
  AudioFormat?: AudioFormat;
4623
4650
  /**
4624
4651
  * TTS的API密钥
4652
+ * @deprecated
4625
4653
  */
4626
4654
  APIKey?: string;
4627
4655
  /**
4628
- * TTS的模型:flow_01_turbo,flow_01_ex
4656
+ * TTS的模型,当前固定为:flow_01_turbo
4629
4657
  */
4630
4658
  Model?: string;
4631
4659
  /**
4632
- * 语言参数,默认为空, 参考: (ISO 639-1)
4660
+ * 需要合成的语言(ISO 639-1),支持 zh(中文)、en(英文)、yue(粤语)、ja(日语)、ko(韩语),默认自动识别
4633
4661
  */
4634
4662
  Language?: string;
4635
4663
  }
@@ -4951,11 +4979,11 @@ export interface TextToSpeechRequest {
4951
4979
  */
4952
4980
  APIKey?: string;
4953
4981
  /**
4954
- * TTS的模型:flow_01_turbo,flow_01_ex
4982
+ * TTS的模型,当前固定为:flow_01_turbo
4955
4983
  */
4956
4984
  Model?: string;
4957
4985
  /**
4958
- * 语言参数,默认为空, 参考: (ISO 639-1)
4986
+ * 需要合成的语言(ISO 639-1),支持 zh(中文)、en(英文)、yue(粤语)、ja(日语)、ko(韩语),默认自动识别
4959
4987
  */
4960
4988
  Language?: string;
4961
4989
  }