智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
最新 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。
据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。
Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。
目前 Emu3 已开源了关键技术和模型,最新附链接如下:
代码:https://github.com/baaivision/Emu3
项目页面:https://emu.baai.ac.cn/
模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
相关文章
- 微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU
- 微软连发 10 个 AI 智能体,纳德拉硬刚 Salesforce CEO
- 国内首个应用临床眼科大模型 “伏羲慧眼”发布,可检测
- 中国移动上海产业研究院:金融领域 AI 大模型渗透率过半
- 研究发现 AI 工具对学生来说是“双刃剑”,需谨慎使用
- 首发根据音频生成 4K 分辨率 1 小时长视频,复旦、百度
- 把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3
- 假装被马斯克裁员的整活鬼才,现在 AI 创业融资 500 万
- 微软与英国政府签署五年技术协议,将为公共部门提供 AI
- 机器狗“登上”泰山:可负重运输货物、清理垃圾