人工智能

智源研究院发布 Emu3 多模态模型

2024-10-25 06:50:15人工智能卡饭网夜夜

最新 10 月 24 日消息，智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测，无需复杂扩散模型或组合策略，即可实现文本、图像、视频等多种模态数据的全面理解和生成，图像、文本、视频处理能力整合。

最新 10 月 24 日消息，智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测，无需复杂扩散模型或组合策略，即可实现文本、图像、视频等多种模态数据的全面理解和生成，图像、文本、视频处理能力整合。

智源研究院发布 Emu3 多模态模型

在性能测试中，Emu3表现抢眼：在图像生成方面，经人类偏好评估，其性能超越了SD-1.5和SDXL模型;在视觉语言理解领域，Emu3在12项基准测试中的平均得分高于LlaVA-1.6;而在视频生成方面，根据VBench基准测试，Emu3同样优于OpenSora 1.2。

智源研究院发布 Emu3 多模态模型

Emu3的核心亮点之一是配备了一个高效的视觉tokenizer，它能将视频和图像有效转化为离散token。这些视觉token与文本tokenizer产生的离散token共同作为模型的输入，进一步增强了模型的综合处理能力。