首页 > 每日经济新闻 > 正文

豆包发布语音识别模型2.0，支持多模态视觉识别和13种海外语种识别

2025年12月05日 15:54

每经记者李宇彤每经编辑陈俊杰

每经北京12月5日电（记者李宇彤）12月5日，火山引擎正式发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），依托Seed混合专家大语言模型架构构建。

据官方介绍，2.0版本模型推理能力提升，可以通过深度理解上下文完成精准识别，上下文整体关键词召回率提升20%。支持多模态视觉识别，在听得懂的同时看得懂，可以通过单图和多图等视觉信息输入提升文字识别精准度。支持日语、韩语、德语、法语等13种海外语种的识别。并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。

责编陈俊杰

每经头条

Cover

AI催生生物医学科研危机？顶尖科学家差点被AI假文献蒙骗，每经独家对话亲历者、《柳叶刀》文章作者Maxim Topaz

猪价创17年新低，养猪的逻辑彻底变了！专家：猪周期已变形，“地板价”不会再现，反转拐点也不会来

高校严查论文AI率，帮学生“降写”成了火爆生意，单商家销量就超4000件

强劲非农引爆加息预期，美股踩“急刹车”！下周关注三大重磅：美国5月CPI+世界杯+史上最大IPO来袭！

每经热评

专题精选

专题 | 活力中国调研行

专题丨如何看待5月投资增速波动？国家统计局答每经问：是投资向质量提升转变的客观反映，增速虽下降但结构持续优化

专题 | 凯文·沃什将迎首次议息会议

专题 | 第23个“618”：当AI开始接管购物车

专题丨马斯克：到2030年SpaceX或实现近1万亿美元营收

Copyright© 2014 成都每日经济新闻社有限公司版权所有，未经许可不得转载使用，违者必究

互联网新闻信息服务许可证：51120190017

网站备案号：蜀ICP备19004508号-2

川公网安备 51019002002025号

新闻职业道德监督热线：400 889 0008 邮箱：zbb@nbd.com.cn