计算机教程网

您现在的位置是:首页 > 智能时代 > 人工智能

人工智能

智源研究院发布 Emu3 多模态模型

2024-10-25 06:50:15人工智能 卡饭网 夜夜
最新 10 月 24 日消息,智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测,无需复杂扩散模型或组合策略,即可实现文本、图像、视频等多种模态数据的全面理解和生成,图像、文本、视频处理能力整合。

最新 10 月 24 日消息,智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测,无需复杂扩散模型或组合策略,即可实现文本、图像、视频等多种模态数据的全面理解和生成,图像、文本、视频处理能力整合。

智源研究院发布 Emu3 多模态模型

在性能测试中,Emu3表现抢眼:在图像生成方面,经人类偏好评估,其性能超越了SD-1.5和SDXL模型;在视觉语言理解领域,Emu3在12项基准测试中的平均得分高于LlaVA-1.6;而在视频生成方面,根据VBench基准测试,Emu3同样优于OpenSora 1.2。

智源研究院发布 Emu3 多模态模型

Emu3的核心亮点之一是配备了一个高效的视觉tokenizer它能将视频和图像有效转化为离散token。这些视觉token与文本tokenizer产生的离散token共同作为模型的输入,进一步增强了模型的综合处理能力。