英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20
最新 10 月 22 日消息,科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。
nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。
传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。
这种几何结构有助于创造更稳定高效的学习过程:
减少训练步骤:nGPT 不再直接对模型权重应用权重衰减,而是依赖学习到的缩放参数,优化模型在训练中的调整方式。
简化过程:此方法消除了对 LayerNorm 或 RMSNorm 等归一化技术的需求,使训练过程更为简单和快速。
英伟达团队使用 OpenWebText 数据集进行测试,nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入,nGPT 所需的训练轮次远少于传统模型,显著缩短了训练时间。
nGPT 的一个关键优势是将归一化(normalization)和表示学习(representation learning)结合成一个统一框架,这种设计简化了模型架构,便于扩展和适应更复杂的混合系统。未来,nGPT 的方法可能被整合进其他类型的模型和架构,从而开发出更强大的 AI 系统。
最新附上参考地址
nGPT: Normalized Transformer with Representation Learning on the Hypersphere
相关文章
- 微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU
- 微软连发 10 个 AI 智能体,纳德拉硬刚 Salesforce CEO
- 国内首个应用临床眼科大模型 “伏羲慧眼”发布,可检测
- 中国移动上海产业研究院:金融领域 AI 大模型渗透率过半
- 研究发现 AI 工具对学生来说是“双刃剑”,需谨慎使用
- 首发根据音频生成 4K 分辨率 1 小时长视频,复旦、百度
- 把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3
- 假装被马斯克裁员的整活鬼才,现在 AI 创业融资 500 万
- 微软与英国政府签署五年技术协议,将为公共部门提供 AI
- 机器狗“登上”泰山:可负重运输货物、清理垃圾