tencentcloud-sdk-asr 3.0.651 → 3.0.653

Sign up to get free protection for your applications and to get access to all the features.
checksums.yaml CHANGED
@@ -1,7 +1,7 @@
1
1
  ---
2
2
  SHA1:
3
- metadata.gz: eaec1beb0978d739923bb85c75453a50563bf709
4
- data.tar.gz: 14cee5c1b0859c4cfbeca3a90e314c4bfddc44e3
3
+ metadata.gz: db084f0b3f53893571304f166ac710bd6776bcfd
4
+ data.tar.gz: e695fc4dcd013724bf173659170a69b9ab06d079
5
5
  SHA512:
6
- metadata.gz: 7e95db4d321c32fbeb59c75e2a22cb7115c2581a4c32a85f73c1098e8e26f17c23660a33693ccdb1e2cf9a412c820216a1c95e709e8ab53a4351068203e5e272
7
- data.tar.gz: d2df38fbfdb934360ce10115fa9efc263fd7d382d40e800681aacaad54df5781c931ac87d6ad3fa3cb57ad516188bf6658dd3b504dda8a6784ced2689a5beb1a
6
+ metadata.gz: c89699f98b98620071c0926b427c68152227f88178a1cc0085bf933d99bb5997fbc387cc88c6e0bb6f91cb5102c94d71abb3c933a3e06396f95985cb20ee554f
7
+ data.tar.gz: 88cb6ae0f7d4f8c472ae161edcd86201dc6035d5ef0b17581fa00951033072d2f7324a66717149adafdd0b36841639740675025f17b5de340d71709996541967
data/lib/VERSION CHANGED
@@ -1 +1 @@
1
- 3.0.651
1
+ 3.0.653
@@ -137,15 +137,16 @@ module TencentCloud
137
137
  raise TencentCloud::Common::TencentCloudSDKException.new(nil, e.inspect)
138
138
  end
139
139
 
140
- # 本接口服务对时长5小时以内的录音文件进行识别,异步返回识别全部结果。
141
- # • 支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。
142
- # • 支持wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac格式。
143
- # • 支持语音 URL 和本地语音文件两种请求方式。语音 URL 的音频时长不能长于5小时,文件大小不超过1GB。本地语音文件调用不能大于5MB。推荐使用 [ 腾讯云COS](https://cloud.tencent.com/document/product/436/38484) 来存储&生成URL提交任务,无外网&流量下行费用,节约成本、提升任务速度。(COS桶权限需要设置公有读私有写,或URL设置外部可访问)
144
- # • 提交录音文件识别请求后,在3小时内完成识别(大多数情况下1小时音频约3分钟以内完成识别,半小时内发送超过1000小时录音或者2万条识别任务的除外),识别结果在服务端可保存7天。
145
- # • 支持回调或轮询的方式获取结果,结果获取请参考[ 录音文件识别结果查询](https://cloud.tencent.com/document/product/1093/37822)
146
- # • 生成字幕场景可设置参数ResTextFormat为3,解析ResultDetail结构生成字幕,可参考 [生成字幕最佳实践](https://cloud.tencent.com/document/product/1093/84291)。
147
- # • 签名方法参考 [公共参数](https://cloud.tencent.com/document/api/1093/35640) 中签名方法v3。
148
- # • 默认接口请求频率限制:20次/秒。
140
+ # 本接口可对较长的录音文件进行识别。如希望直接使用带界面的语音识别产品,请访问[产品体验中心](https://console.cloud.tencent.com/asr/demonstrate)。产品计费标准请查阅 [计费概述(在线版)](https://cloud.tencent.com/document/product/1093/35686)
141
+ # • 接口默认限频:20次/秒。此处仅限制任务提交频次,与识别结果返回时效无关
142
+ # • 返回时效:异步回调,非实时返回。最长3小时返回识别结果,**大多数情况下,1小时的音频1-3分钟即可完成识别**。请注意:上述返回时长不含音频下载时延,且30分钟内发送超过1000小时录音或2万条任务的情况除外
143
+ # • 音频格式:wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac
144
+ # • 支持语言:在本页面上搜索 **EngineModelType**,或前往 [产品功能](https://cloud.tencent.com/document/product/1093/35682) 查看
145
+ # • 音频提交方式:本接口支持**音频 URL 、本地音频文件**两种请求方式。推荐使用 [腾讯云COS](https://cloud.tencent.com/document/product/436/38484) 来存储、生成URL并提交任务,此种方式将不产生外网和流量下行费用,可节约成本、提升任务速度(COS桶权限需要设置公有读私有写,或URL设置外部可访问)
146
+ # • 音频限制:音频 URL 时长不能大于5小时,文件大小不超过1GB;本地音频文件不能大于5MB
147
+ # • 如何获取识别结果:支持**回调或轮询**的方式获取结果,具体请参考 [录音文件识别结果查询](https://cloud.tencent.com/document/product/1093/37822)
148
+ # • 识别结果有效时间:在服务端保存7天
149
+ # • 签名方法参考 [公共参数](https://cloud.tencent.com/document/api/1093/35640) 中签名方法 v3
149
150
 
150
151
  # @param request: Request instance for CreateRecTask.
151
152
  # @type request: :class:`Tencentcloud::asr::V20190614::CreateRecTaskRequest`
@@ -463,7 +464,7 @@ module TencentCloud
463
464
  raise TencentCloud::Common::TencentCloudSDKException.new(nil, e.inspect)
464
465
  end
465
466
 
466
- # 本接口用于对60秒之内的短音频文件进行识别。<br>• 支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。<br>• 支持本地语音文件上传和语音URL上传两种请求方式,音频时长不能超过60s,音频文件大小不能超过3MB。<br>• 音频格式支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。<br>• 请求方法为 HTTP POST , Content-Type为"application/json; charset=utf-8"<br>• 签名方法参考 [公共参数](https://cloud.tencent.com/document/api/1093/35640) 中签名方法v3。<br>• 默认接口请求频率限制:30次/秒,如您有提高请求频率限制的需求,请[前往购买](https://buy.cloud.tencent.com/asr)。
467
+ # 本接口用于对60秒之内的短音频文件进行识别。<br>• 支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、印地语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。<br>• 支持本地语音文件上传和语音URL上传两种请求方式,音频时长不能超过60s,音频文件大小不能超过3MB。<br>• 音频格式支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。<br>• 请求方法为 HTTP POST , Content-Type为"application/json; charset=utf-8"<br>• 签名方法参考 [公共参数](https://cloud.tencent.com/document/api/1093/35640) 中签名方法v3。<br>• 默认接口请求频率限制:30次/秒,如您有提高请求频率限制的需求,请[前往购买](https://buy.cloud.tencent.com/asr)。
467
468
 
468
469
  # @param request: Request instance for SentenceRecognition.
469
470
  # @type request: :class:`Tencentcloud::asr::V20190614::SentenceRecognitionRequest`
@@ -162,6 +162,7 @@ module TencentCloud
162
162
  # • 16k_tr:土耳其语;
163
163
  # • 16k_ar:阿拉伯语;
164
164
  # • 16k_es:西班牙语;
165
+ # • 16k_hi:印地语;
165
166
  # @type EngineType: String
166
167
  # @param Url: 语音流地址,支持rtmp、rtsp等流媒体协议,以及各类基于http协议的直播流(不支持hls, m3u8)
167
168
  # @type Url: String
@@ -288,15 +289,19 @@ module TencentCloud
288
289
 
289
290
  # CreateRecTask请求参数结构体
290
291
  class CreateRecTaskRequest < TencentCloud::Common::AbstractModel
291
- # @param EngineModelType: 引擎模型类型。注意:非电话场景请务必使用16k的引擎。
292
- # 电话场景:
293
- # • 8k_zh:中文电话通用;
294
- # • 8k_en:英文电话通用;
295
-
296
- # 非电话场景:
297
- # • 16k_zh:中文通用;
298
- # • 16k_zh-PY:中英粤;
299
- # • 16k_zh_medical:中文医疗;
292
+ # @param EngineModelType: 引擎模型类型
293
+
294
+ # 电话通讯场景引擎:
295
+ # **注意:电话通讯场景,请务必使用以下8k引擎**
296
+ # • 8k_zh:中文电话通讯;
297
+ # • 8k_en:英文电话通讯;
298
+ # 如您有电话通讯场景识别需求,但发现需求语种仅支持16k,可将8k音频传入下方16k引擎,亦能获取识别结果。但**16k引擎并非基于电话通讯数据训练,无法承诺此种调用方式的识别效果,需由您自行验证识别结果是否可用**。
299
+
300
+ # 通用场景引擎:
301
+ # **注意:除电话通讯场景以外的其它识别场景,请务必使用以下16k引擎**
302
+ # • 16k_zh:中文普通话通用引擎,支持中文普通话和少量英语,使用丰富的中文普通话语料训练,覆盖场景广泛,适用于除电话通讯外的所有中文普通话识别场景;
303
+ # • 16k_zh-PY:中英粤混合引擎,使用一个引擎同时识别中文普通话、英语、粤语三个语言;
304
+ # • 16k_zh_dialect:中文普通话+多方言混合引擎,除普通话外支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
300
305
  # • 16k_en:英语;
301
306
  # • 16k_yue:粤语;
302
307
  # • 16k_ja:日语;
@@ -310,21 +315,46 @@ module TencentCloud
310
315
  # • 16k_tr:土耳其语;
311
316
  # • 16k_ar:阿拉伯语;
312
317
  # • 16k_es:西班牙语;
313
- # • 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
318
+ # • 16k_hi:印地语;
319
+ # • 16k_zh_medical:中文医疗引擎
314
320
  # @type EngineModelType: String
315
- # @param ChannelNum: 识别声道数。1:单声道(非电话场景,直接选择单声道即可,忽略音频声道数);2:双声道(仅支持8k_zh电话场景,双声道应分别对应通话双方)。注意:双声道的电话音频已物理分离说话人,无需再开启说话人分离功能。
321
+ # @param ChannelNum: 识别声道数
322
+ # 1:单声道(16k音频仅支持单声道,**请勿**设置为双声道);
323
+ # 2:双声道(仅支持8k电话音频,且双声道应分别为通话双方)
324
+
325
+ # 注意:
326
+ # • 16k音频:仅支持单声道识别,**需设置ChannelNum=1**
327
+ # • 8k电话音频:支持单声道、双声道识别,**建议设置ChannelNum=2,即双声道**。双声道能够物理区分说话人、避免说话双方重叠产生的识别错误,能达到最好的说话人分离效果和识别效果。设置双声道后,将自动区分说话人,因此**无需再开启说话人分离功能**,相关参数(**SpeakerDiarization、SpeakerNumber**)使用默认值即可
316
328
  # @type ChannelNum: Integer
317
- # @param ResTextFormat: 识别结果返回形式。0: 识别结果文本(含分段时间戳); 1:词级别粒度的[详细识别结果](https://cloud.tencent.com/document/api/1093/37824#SentenceDetail)(不含标点,含语速值);2:词级别粒度的详细识别结果(包含标点、语速值);3: 标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值)。4:【增值付费功能】对识别结果按照语义分段,并展示词级别粒度的详细识别结果,仅支持8k_zh、16k_zh引擎,需购买对应资源包使用(注意:如果账号后付费功能开启并使用此功能,将[自动计费](https://cloud.tencent.com/document/product/1093/35686))
329
+ # @param ResTextFormat: 识别结果返回形式
330
+ # 0: 识别结果文本(含分段时间戳);
331
+ # 1:词级别粒度的[详细识别结果](https://cloud.tencent.com/document/api/1093/37824#SentenceDetail)(不含标点,含语速值);
332
+ # 2:词级别粒度的详细识别结果(包含标点、语速值);
333
+ # 3: 标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值)
334
+ # 4:【增值付费功能】对识别结果按照语义分段,并展示词级别粒度的详细识别结果,仅支持8k_zh、16k_zh引擎,需购买对应资源包使用(注意:如果账号后付费功能开启并使用此功能,将[自动计费](https://cloud.tencent.com/document/product/1093/35686))
318
335
  # @type ResTextFormat: Integer
319
- # @param SourceType: 语音数据来源。0:语音 URL;1:语音数据(post body)。
336
+ # @param SourceType: 语音数据来源
337
+ # 0:语音 URL;
338
+ # 1:语音数据(post body)
320
339
  # @type SourceType: Integer
321
- # @param SpeakerDiarization: 是否开启说话人分离,0:不开启,1:开启(仅支持8k_zh/16k_zh,ChannelNum=1时可用),默认值为 0。
322
- # 注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离,如果设置了ChannelNum=1,后台会先转码成单声道,说话人分离结果可能产生偏差。
340
+ # @param SpeakerDiarization: 是否开启说话人分离
341
+ # 0:不开启;
342
+ # 1:开启(仅支持8k_zh/16k_zh,且ChannelNum=1时可用);
343
+ # 默认值为 0
344
+
345
+ # 注意:
346
+ # 8k双声道电话音频请按 **ChannelNum 识别声道数** 的参数描述使用默认值
323
347
  # @type SpeakerDiarization: Integer
324
- # @param SpeakerNumber: 说话人分离人数(需配合开启说话人分离使用),取值范围:0-10,0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为 0。
325
- # 注:此功能结果仅供参考,请根据您的需要谨慎使用。
348
+ # @param SpeakerNumber: 说话人分离人数
349
+ # **需配合开启说话人分离使用,不开启无效**,取值范围:0-10
350
+ # 0:自动分离(最多分离出20个人);
351
+ # 1-10:指定人数分离;
352
+ # 默认值为 0
353
+
354
+ # 注意:此功能结果仅供参考
326
355
  # @type SpeakerNumber: Integer
327
- # @param CallbackUrl: 回调 URL,用户自行搭建的用于接收识别结果的服务URL。如果用户使用轮询方式获取识别结果,则无需提交该参数。回调格式&内容详见:[录音识别回调说明](https://cloud.tencent.com/document/product/1093/52632)
356
+ # @param CallbackUrl: 回调 URL:用户自行搭建的用于接收识别结果的服务URL。回调格式和内容详见:[录音识别回调说明](https://cloud.tencent.com/document/product/1093/52632)
357
+ # 如果用户使用轮询方式获取识别结果,则无需提交该参数。
328
358
  # @type CallbackUrl: String
329
359
  # @param Url: 语音的URL地址,需要公网环境浏览器可下载。当 SourceType 值为 0 时须填写该字段,为 1 时不需要填写。注意:请确保录音文件时长在5个小时之内,否则可能识别失败。请保证文件的下载速度,否则可能下载失败。
330
360
  # @type Url: String
@@ -1117,6 +1147,7 @@ module TencentCloud
1117
1147
  # • 16k_tr:土耳其语;
1118
1148
  # • 16k_ar:阿拉伯语;
1119
1149
  # • 16k_es:西班牙语;
1150
+ # • 16k_hi:印地语;
1120
1151
  # • 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
1121
1152
  # @type EngSerViceType: String
1122
1153
  # @param SourceType: 语音数据来源。0:语音 URL;1:语音数据(post body)。
@@ -1164,12 +1195,12 @@ module TencentCloud
1164
1195
 
1165
1196
  attr_accessor :EngSerViceType, :SourceType, :VoiceFormat, :ProjectId, :SubServiceType, :Url, :UsrAudioKey, :Data, :DataLen, :WordInfo, :FilterDirty, :FilterModal, :FilterPunc, :ConvertNumMode, :HotwordId, :CustomizationId, :ReinforceHotword, :HotwordList, :InputSampleRate
1166
1197
  extend Gem::Deprecate
1167
- deprecate :ProjectId, :none, 2023, 8
1168
- deprecate :ProjectId=, :none, 2023, 8
1169
- deprecate :SubServiceType, :none, 2023, 8
1170
- deprecate :SubServiceType=, :none, 2023, 8
1171
- deprecate :UsrAudioKey, :none, 2023, 8
1172
- deprecate :UsrAudioKey=, :none, 2023, 8
1198
+ deprecate :ProjectId, :none, 2023, 9
1199
+ deprecate :ProjectId=, :none, 2023, 9
1200
+ deprecate :SubServiceType, :none, 2023, 9
1201
+ deprecate :SubServiceType=, :none, 2023, 9
1202
+ deprecate :UsrAudioKey, :none, 2023, 9
1203
+ deprecate :UsrAudioKey=, :none, 2023, 9
1173
1204
 
1174
1205
  def initialize(engservicetype=nil, sourcetype=nil, voiceformat=nil, projectid=nil, subservicetype=nil, url=nil, usraudiokey=nil, data=nil, datalen=nil, wordinfo=nil, filterdirty=nil, filtermodal=nil, filterpunc=nil, convertnummode=nil, hotwordid=nil, customizationid=nil, reinforcehotword=nil, hotwordlist=nil, inputsamplerate=nil)
1175
1206
  @EngSerViceType = engservicetype
metadata CHANGED
@@ -1,14 +1,14 @@
1
1
  --- !ruby/object:Gem::Specification
2
2
  name: tencentcloud-sdk-asr
3
3
  version: !ruby/object:Gem::Version
4
- version: 3.0.651
4
+ version: 3.0.653
5
5
  platform: ruby
6
6
  authors:
7
7
  - Tencent Cloud
8
8
  autorequire:
9
9
  bindir: bin
10
10
  cert_chain: []
11
- date: 2023-09-01 00:00:00.000000000 Z
11
+ date: 2023-09-06 00:00:00.000000000 Z
12
12
  dependencies:
13
13
  - !ruby/object:Gem::Dependency
14
14
  name: tencentcloud-sdk-common