中国移动联合研发 2D 数字人说话驱动系统:可生成 7 种情绪,用于 5G 新通话、AI 客服等
最新 12 月 9 日消息,中国移动 12 月 8 日宣布联合南京大学团队研发高保真 2D 数字人说话驱动系统。
作为拥有世界规模第一用户数的通信运营商,中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务,但依然不及人工客服面对面,一对一的星级服务体验。
针对实际业务存在的痛点,中国移动九天视觉团队联合南京大学邰颖团队,研发高保真 2D 数字人说话驱动系统,旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务,可应用于智能客服、教育培训、广告营销等场景。
据中国移动官方介绍,2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频,生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高,表情姿态自然,同时需要具有较高的实时性,能做到与语言大模型、音频合成能力有机整合,构建起人物数字替身。
中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统,在以下三方面开展了技术攻坚和方案创新:
第一,性能实时:相比以往数字人方法,在实时播报的口型生成技术上达到了学术界领先水平,支持中英文数字人口型驱动,在保持效果的情況下达到实时性能 30ms / 帧。
第二,效果领先:研发二阶段学习框架,将数字人说话驱动拆解成:从音频到口型系数和从口型系数到生成人像两部分,降低学习难度,实现更好的生成效果。
第三,情绪控制:引入情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力,赋予生成的播报人人文情感表达能力。
最新从中国移动官方获悉,数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能,并支持 512*512 人脸区域生成,同时具备高兴、悲伤等 7 种主流情绪控制生成能力。
在评测集 VoxCeleb 指标方面,该技术的口型准确性 LMD(LandMark Distance)达到 4.3,生成自然度 FID 达到 11.1。
中国移动官方表示,该研发成果应用前景广阔,有效降低了创作门槛,提升了生成人物的视觉质量,已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级。
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责