解决“佛跳墙、老婆饼”问题,联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”
最新 1 月 8 日消息,联通数据智能有限公司今日宣布开源首个完全在国产昇腾 AI 基础软硬件平台上实现训练和推理的中文原生文生图模型 —— 元景文生图模型。
在架构上,通过在 SDXL 架构中融合复合语言编码模块,实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解,对应图像的生成效果得到了极大提升。
在昇腾 AI 大规模算力集群上实现了中文原生文生图模型的训练和推理,并将模型和代码对业界开源,以推动文生图领域的国产化进程。
联通数据智能有限公司表示,当前的文生图主流模型以英文输入为主,中文原生的文生图模型研发则相对比较缓慢,这导致了模型对中文语义的理解能力不足,中文特色图片生成能力有限。
对此,元景文生图模型一方面将英文 CLIP 模型替换成中文 CLIP,使得模型中文短文本输入具有更好的理解能力;同时,引入复合语言编码架构,将基于 encoder-decoder 架构的语言模型引入了语言编码器部分,这使得模型能支持超过 CLIP 长度限制的长文本,实现更准确的中文语义理解和判断。
通过引入复合语言编码模块,元景文生图模型实现了原生中文语义理解,避免了传统的利用翻译插件等作为中介调用英文文生图模型的方法所带来的中文信息损失。
同时通过引入海量中文图文对数据进行预训练,模型对中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,都能够准确理解并生成对应的图片。
中国联通在国产昇腾 AI 基础软硬件平台上实现了元景文生图模型从微调训练到推理的一体化适配。在微调训练方面,用户可使用自定义数据集,实现从其它平台至昇腾的平滑切换;在模型推理方面,接口与 Diffusers 对齐,支持单卡和多卡,单卡推理支持 UNet Cache 加速。
联通数据智能有限公司透露,目前,元景文生图模型已在联通内外部多个项目中成功应用。
目前,元景文生图模型已在 GitHub、Hugging Face、魔搭、始智等社区全面开源,最新附开源地址如下:
GitHub:https://github.com/UnicomAI/UniT2IXL.git
HuggingFace:https://huggingface.co/UnicomAI/UniT2IXL
魔搭:https://www.modelscope.cn/UnicomAI/UniT2IXL.git
始智:https://wisemodel.cn/models/UnicomAI/UniT2IXL
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责