Qwen3-ASR-Flash – 阿里通义录音文件识别模型

AI项目和框架4小时前发布 ai-tab
0 0

产品简介

阿里通义千问团队在2025年9月9日正式推出了Qwen3-ASR-Flash语音识别模型。这款基于Qwen3基座模型的新一代ASR系统,经过数千万小时规模的语音数据训练,在多语言支持、噪声过滤和歌声识别等方面展现出显著优势。
与传统语音识别系统不同,Qwen3-ASR-Flash引入了创新的“上下文引导识别”机制,允许用户提供任意格式的背景文本来优化识别结果,大幅提升了专业术语和命名实体的识别准确率。


模型优势

  • 多语种高精度识别:支持多语言高精度语音识别。
  • 复杂环境适应:具备应对复杂声学环境的能力,支持自动语种检测与智能非人声过滤。
  • 高精度歌唱识别:即使在伴随背景音乐(BGM)的情况下,也能实现整首歌曲的准确转写。
  • 上下文增强:通过配置上下文提高识别准确率。参见上下文增强。

功能特性

  1. 接入方式:Java/Python SDK,HTTP API
  2. 多语言:中文、英文、日语、德语、韩语、俄语、法语、葡萄牙语、阿拉伯语、意大利语、西班牙语
  3. 上下文增强:通过请求参数text配置Context实现定制化识别
  4. 语种识别:将请求参数enable_lid设置为true可在识别结果中查看语种信息
  5. 指定待识别语种:若已知音频的语种,可通过请求参数language指定待识别语种,以提升识别准确率
  6. 歌唱识别
  7. 噪声拒识
  8. ITN(Inverse Text Normalization,逆文本规范化:将请求参数enable_itn设置为true即可开启,该功能仅适用于中文和英文音频
  9. 标点符号预测
  10. 音频输入方式
    • 本地音频:传入本地音频文件绝对路径
    • 在线音频:将音频文件上传至可公网访问的存储位置,并提供对应的URL
  11. 待识别音频格式:aac、amr、avi、aiff、flac、flv、m4a、mkv、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv
  12. 待识别音频声道:单声道
  13. 待识别音频采样率:16kHz
  14. 待识别音频大小:音频文件大小不超过10MB,且时长不超过3分钟

API接入参考

### HTTP API

curl --location --request POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
--header 'Authorization: Bearer $DASHSCOPE_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
    "model": "qwen3-asr-flash",
    "input": {
        "messages": [
            {
                "content": [
                    {
                        "text": ""
                    }
                ],
                "role": "system"
            },
            {
                "content": [
                    {
                        "audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    }
                ],
                "role": "user"
            }
        ]
    },
    "parameters": {
        "asr_options": {
            "enable_lid": true,
            "enable_itn": false
        }
    }
}'

上下文增强

Qwen3-ASR支持通过提供上下文(Context),对特定领域的专有词汇(如人名、地名、产品术语)进行识别优化,显著提升转写准确率。此功能远比传统的热词方案更灵活、强大。

  • 长度限制:Context内容不超过 10000 Token。
  • 用法:调用API时,通过System Message的text参数传入文本即可。

支持的文本类型:包括(但不限于)

  • 热词列表(多种分隔符格式,如热词 1、热词 2、热词 3、热词 4)
  • 任意格式与长度的文本段落或篇章
  • 混合内容:词表与段落的任意组合
  • 无关或无意义文本(包括乱码,对无关文本的容错性极高,几乎不会受到负面影响)

示例

某段音频正确识别结果应该为“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bulge Bracket,BB …”。

  • 不使用上下文增强

    未使用上下文增强时,部分投行公司名称识别有误,例如 “Bird Rock” 正确应为 “Bulge Bracket”。
    识别结果:“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bird Rock,BB …”

  • 使用上下文增强

    使用上下文增强,对投行公司名称识别正确。
    识别结果:“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bulge Bracket,BB …”


体验地址

© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

头像
none
暂无评论...