智源研究院发布 Emu3 多模态模型
2024-10-25 06:50:15人工智能 卡饭网 夜夜
最新 10 月 24 日消息,智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测,无需复杂扩散模型或组合策略,即可实现文本、图像、视频等多种模态数据的全面理解和生成,图像、文本、视频处理能力整合。
最新 10 月 24 日消息,智源研究院近日正式推出了原生多模态世界模型Emu3。此模型于仅依赖下一token预测,无需复杂扩散模型或组合策略,即可实现文本、图像、视频等多种模态数据的全面理解和生成,图像、文本、视频处理能力整合。
在性能测试中,Emu3表现抢眼:在图像生成方面,经人类偏好评估,其性能超越了SD-1.5和SDXL模型;在视觉语言理解领域,Emu3在12项基准测试中的平均得分高于LlaVA-1.6;而在视频生成方面,根据VBench基准测试,Emu3同样优于OpenSora 1.2。
Emu3的核心亮点之一是配备了一个高效的视觉tokenizer,它能将视频和图像有效转化为离散token。这些视觉token与文本tokenizer产生的离散token共同作为模型的输入,进一步增强了模型的综合处理能力。
赞一个! ()
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责