消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型
最新 10 月 23 日消息,据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。
报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称,目前正有 10 人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。
资料显示,谭旭在离开微软研究院前担任首席研究经理,方向是生成式 AI、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。
谭旭加入月之暗面后的主要目标之一,可能即是帮助月之暗面打造“类似 GPT-4o”的语音体验。
最新注:OpenAI 今年 5 月发布多模态大模型 GPT-4o,基于端到端语音技术打造,具备更低延时、可随时打断等特性。随后,OpenAI 于 9 月 25 日面向 ChatGPT Plus 付费用户推送了高级语音功能。
此前,主流的语音方案是 ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成):输入端识别语音、转化成文本;大模型处理内容生成新文本;文本合成为语音、最终输出。
但上述方案的不足在于机器响应时间较长、人类无法随时打断,与人类的自然聊天状态存在差距。相比之下,端到端省去了“语音转文字再转语音”的中间过程,可以压缩机器响应时间,人类也可随时打断机器。同时,端到端还可帮助改善“幻觉”:用户可立即打断输出并给出新的提示词。
相关文章
- 消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面
- Anthropic 推出升级版 Claude 3.5 Sonnet 模型,可操控
- JetBrains 为开发者打造最强 AI 助手 Mellum:为编程而
- 开源文生图 AI 重磅选手上新:Stable Diffusion 3.5 最
- 对话《人类简史》作者尤瓦尔:我们需要防止人工智能失控
- 黄仁勋:英伟达已将 AI 应用于芯片设计、软件编写和供应
- 谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回
- 微软和 OpenAI 将向媒体提供 1000 万美元资助,推动其使
- 超万名文艺界人士联署警告 AI 公司:对生计造成不公正的
- 全球首次:AI 机器人画作首登苏富比拍卖,预估成交价 12~1