Copyright 2020-2025 我要98 版权所有 京ICP备18049689号
1月20日消息,豆包官方宣布其实时语音大模型正式推出,并在豆包App(版本号7.2.0新春版)全量开放。该模型实现了语音理解和生成一体化,支持端到端语音对话,具备低时延、对话中可随时打断等特性,中文对话能力在语音真实感和情绪表现上近乎达到“人机难辨”的效果。
豆包App更新的实时语音通话功能基于最新语音大模型开发,能够模仿不同声线、方言和英语对话,甚至部分歌曲演唱。该功能可以根据场景自动对节奏、儿化音、音量、气音等细节进行精准把控,还可与用户“说”悄悄话。
官方表示,更新后的对话能力在“逻辑思考”和“情绪感知”上有明显提升。豆包的全新语音能力基于端到端框架研发,使用原生方法深度融合语音与文本模态进行统一建模,可实现从多模态输入直接到多模态输出的效果,赋予AI语音对话“灵魂”。