首发根据音频生成 4K 分辨率 1 小时长视频,复旦、百度联手打造 AI 开源模型 Hallo2
2024-10-22 16:34:22人工智能 IT之家 汪淼
项目页面介绍称,Hallo2 是第一种实现 4K 分辨率并生成长达 1 小时的音频驱动的人像图像动画的方法,并通过文本提示进行增强。
最新 10 月 21 日消息,复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型,该模型可以生成长达数小时的 4K 分辨率人物动画,现已在 GitHub 发布开源。
Hallo2 模型建立在 latent diffusion models 的基础上,相比上一代 Hallo 模型的效果更好,支持了长视频生成,通过引入数据增强方法如 patch-drop 和高斯噪声,有效提高了长时间视频的视觉一致性和时间连贯性。
Hallo2 还结合了向量量化生成对抗网络和时间对齐技术,保证了高分辨率视频的质量和流畅性。
此外,Hallo2 将可调整的语义文本标签的肖像表情作为条件输入。这超出了传统的音频提示,可以提高可控性并增加所生成内容的多样性。项目页面介绍称,Hallo2 是第一种实现 4K 分辨率并生成长达 1 小时的音频驱动的人像图像动画的方法,并通过文本提示进行增强。
最新附 Hallo2 项目地址如下:
https://fudan-generative-vision.github.io/hallo2/#/
赞一个! ()
相关文章
- 微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU
- 微软连发 10 个 AI 智能体,纳德拉硬刚 Salesforce CEO
- 国内首个应用临床眼科大模型 “伏羲慧眼”发布,可检测
- 中国移动上海产业研究院:金融领域 AI 大模型渗透率过半
- 研究发现 AI 工具对学生来说是“双刃剑”,需谨慎使用
- 首发根据音频生成 4K 分辨率 1 小时长视频,复旦、百度
- 把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3
- 假装被马斯克裁员的整活鬼才,现在 AI 创业融资 500 万
- 微软与英国政府签署五年技术协议,将为公共部门提供 AI
- 机器狗“登上”泰山:可负重运输货物、清理垃圾