产品简介
阿里通义千问团队在2025年9月9日正式推出了Qwen3-ASR-Flash语音识别模型。这款基于Qwen3基座模型的新一代ASR系统,经过数千万小时规模的语音数据训练,在多语言支持、噪声过滤和歌声识别等方面展现出显著优势。
与传统语音识别系统不同,Qwen3-ASR-Flash引入了创新的“上下文引导识别”机制,允许用户提供任意格式的背景文本来优化识别结果,大幅提升了专业术语和命名实体的识别准确率。
模型优势
- 多语种高精度识别:支持多语言高精度语音识别。
- 复杂环境适应:具备应对复杂声学环境的能力,支持自动语种检测与智能非人声过滤。
- 高精度歌唱识别:即使在伴随背景音乐(BGM)的情况下,也能实现整首歌曲的准确转写。
- 上下文增强:通过配置上下文提高识别准确率。参见上下文增强。
功能特性
- 接入方式:Java/Python SDK,HTTP API
- 多语言:中文、英文、日语、德语、韩语、俄语、法语、葡萄牙语、阿拉伯语、意大利语、西班牙语
- 上下文增强:通过请求参数text配置Context实现定制化识别
- 语种识别:将请求参数enable_lid设置为true可在识别结果中查看语种信息
- 指定待识别语种:若已知音频的语种,可通过请求参数language指定待识别语种,以提升识别准确率
- 歌唱识别
- 噪声拒识
- ITN(Inverse Text Normalization,逆文本规范化:将请求参数enable_itn设置为true即可开启,该功能仅适用于中文和英文音频
- 标点符号预测
- 音频输入方式
- 本地音频:传入本地音频文件绝对路径
- 在线音频:将音频文件上传至可公网访问的存储位置,并提供对应的URL
- 待识别音频格式:aac、amr、avi、aiff、flac、flv、m4a、mkv、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv
- 待识别音频声道:单声道
- 待识别音频采样率:16kHz
- 待识别音频大小:音频文件大小不超过10MB,且时长不超过3分钟
API接入参考
### HTTP API
curl --location --request POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
--header 'Authorization: Bearer $DASHSCOPE_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "qwen3-asr-flash",
"input": {
"messages": [
{
"content": [
{
"text": ""
}
],
"role": "system"
},
{
"content": [
{
"audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
}
],
"role": "user"
}
]
},
"parameters": {
"asr_options": {
"enable_lid": true,
"enable_itn": false
}
}
}'
上下文增强
Qwen3-ASR支持通过提供上下文(Context),对特定领域的专有词汇(如人名、地名、产品术语)进行识别优化,显著提升转写准确率。此功能远比传统的热词方案更灵活、强大。
- 长度限制:Context内容不超过 10000 Token。
- 用法:调用API时,通过System Message的text参数传入文本即可。
支持的文本类型:包括(但不限于)
- 热词列表(多种分隔符格式,如热词 1、热词 2、热词 3、热词 4)
- 任意格式与长度的文本段落或篇章
- 混合内容:词表与段落的任意组合
- 无关或无意义文本(包括乱码,对无关文本的容错性极高,几乎不会受到负面影响)
示例
某段音频正确识别结果应该为“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bulge Bracket,BB …”。
不使用上下文增强
未使用上下文增强时,部分投行公司名称识别有误,例如 “Bird Rock” 正确应为 “Bulge Bracket”。
识别结果:“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bird Rock,BB …”使用上下文增强
使用上下文增强,对投行公司名称识别正确。
识别结果:“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bulge Bracket,BB …”
体验地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...