智源研究院发布 Emu3 多模态模型
2024-10-25 06:50:15人工智能 卡饭网 夜夜
最新 10 月 24 日消息,智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测,无需复杂扩散模型或组合策略,即可实现文本、图像、视频等多种模态数据的全面理解和生成,图像、文本、视频处理能力整合。
最新 10 月 24 日消息,智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测,无需复杂扩散模型或组合策略,即可实现文本、图像、视频等多种模态数据的全面理解和生成,图像、文本、视频处理能力整合。
在性能测试中,Emu3表现抢眼:在图像生成方面,经人类偏好评估,其性能超越了SD-1.5和SDXL模型;在视觉语言理解领域,Emu3在12项基准测试中的平均得分高于LlaVA-1.6;而在视频生成方面,根据VBench基准测试,Emu3同样优于OpenSora 1.2。
Emu3的核心亮点之一是配备了一个高效的视觉tokenizer,它能将视频和图像有效转化为离散token。这些视觉token与文本tokenizer产生的离散token共同作为模型的输入,进一步增强了模型的综合处理能力。
赞一个! ()
相关文章
- 中兴通讯与腾讯音乐合作:手机预装 QQ 音乐中兴定制版,融
- 科大讯飞语音识别首次实现全国地级市方言全覆盖,星火大
- 科大讯飞星火 4.0 Turbo 大模型发布:七大能力全面超越
- 美国女子起诉聊天机器人平台 Character.AI:称其导致儿
- 科大讯飞首次发布汽车端侧 1.3B 星火大模型,四季度上车
- 科大讯飞联合华为,国产超大规模智算平台“飞星二号”启
- OpenAI 遭前研究员炮轰:违反版权法、ChatGPT 破坏互联
- 联合中国教科院打造,科大讯飞首发“高中数学智能教师系
- OpenAI 未来 AI 战略新变数,高级顾问 Miles Brundage
- 宝马与清华大学成立未来出行联合研究院,聚焦人工智能等