Qwen3-ASR-Flash – 阿里通义录音文件识别模型

523 0

产品简介

阿里通义千问团队在2025年9月9日正式推出了Qwen3-ASR-Flash语音识别模型。这款基于Qwen3基座模型的新一代ASR系统，经过数千万小时规模的语音数据训练，在多语言支持、噪声过滤和歌声识别等方面展现出显著优势。
与传统语音识别系统不同，Qwen3-ASR-Flash引入了创新的“上下文引导识别”机制，允许用户提供任意格式的背景文本来优化识别结果，大幅提升了专业术语和命名实体的识别准确率。

模型优势

多语种高精度识别：支持多语言高精度语音识别。
复杂环境适应：具备应对复杂声学环境的能力，支持自动语种检测与智能非人声过滤。
高精度歌唱识别：即使在伴随背景音乐（BGM）的情况下，也能实现整首歌曲的准确转写。
上下文增强：通过配置上下文提高识别准确率。参见上下文增强。

功能特性

接入方式：Java/Python SDK，HTTP API
多语言：中文、英文、日语、德语、韩语、俄语、法语、葡萄牙语、阿拉伯语、意大利语、西班牙语
上下文增强：通过请求参数text配置Context实现定制化识别
语种识别：将请求参数enable_lid设置为true可在识别结果中查看语种信息
指定待识别语种：若已知音频的语种，可通过请求参数language指定待识别语种，以提升识别准确率
歌唱识别
噪声拒识
ITN（Inverse Text Normalization，逆文本规范化：将请求参数enable_itn设置为true即可开启，该功能仅适用于中文和英文音频
标点符号预测
音频输入方式
- 本地音频：传入本地音频文件绝对路径
- 在线音频：将音频文件上传至可公网访问的存储位置，并提供对应的URL
待识别音频格式：aac、amr、avi、aiff、flac、flv、m4a、mkv、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv
待识别音频声道：单声道
待识别音频采样率：16kHz
待识别音频大小：音频文件大小不超过10MB，且时长不超过3分钟

API接入参考

### HTTP API

curl --location --request POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
--header 'Authorization: Bearer $DASHSCOPE_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
    "model": "qwen3-asr-flash",
    "input": {
        "messages": [
            {
                "content": [
                    {
                        "text": ""
                    }
                ],
                "role": "system"
            },
            {
                "content": [
                    {
                        "audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    }
                ],
                "role": "user"
            }
        ]
    },
    "parameters": {
        "asr_options": {
            "enable_lid": true,
            "enable_itn": false
        }
    }
}'

上下文增强

Qwen3-ASR支持通过提供上下文（Context），对特定领域的专有词汇（如人名、地名、产品术语）进行识别优化，显著提升转写准确率。此功能远比传统的热词方案更灵活、强大。

长度限制：Context内容不超过 10000 Token。
用法：调用API时，通过System Message的text参数传入文本即可。

支持的文本类型：包括（但不限于）

热词列表（多种分隔符格式，如热词 1、热词 2、热词 3、热词 4）
任意格式与长度的文本段落或篇章
混合内容：词表与段落的任意组合
无关或无意义文本（包括乱码，对无关文本的容错性极高，几乎不会受到负面影响）

示例

某段音频正确识别结果应该为“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bulge Bracket，BB …”。

不使用上下文增强
未使用上下文增强时，部分投行公司名称识别有误，例如 “Bird Rock” 正确应为 “Bulge Bracket”。
识别结果：“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bird Rock，BB …”
使用上下文增强
使用上下文增强，对投行公司名称识别正确。
识别结果：“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bulge Bracket，BB …”

体验地址

huggingface demo地址：立即体验
魔搭社区 demo地址：立即体验
API地址：立即查看

文章版权归作者所有，未经允许请勿转载。

Qwen3-ASR-Flash – 阿里通义录音文件识别模型

产品简介

模型优势

功能特性

API接入参考

上下文增强

示例

体验地址

Seedream 4.0 - 字节跳动多模态4K图像生成模型｜免费AI创作工具

华为开源7B参数openPangu-Embedded-7B-v1.1

相关文章

谷歌AI科研编程系统 – 自动生成专家级科学软件

Gemini 2.5 Flash图像模型 – 实时视觉处理引擎

商汤“日日新V6”破局多模态推理｜MoE架构+长记忆技术重构AI生产力

多模态Agent革命｜拆解Gemini 2.0的MoE架构与Flash引擎如何重塑生产力

暂无评论

热门文章