Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备
最新 10 月 27 日消息,继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后,Meta 于 10 月 24 日发布了这两个模型的量化版本,量化后的模型大小平均减少了 56%,RAM 使用量平均减少了 41%,模型速度提高了 2 至 4 倍,同时降低了功耗,使这些模型能够部署到更多移动设备上。
最新注:模型量化(Model Quantization)就是通过各种训练方式将浮点模型转为定点模型,可以压缩模型参数,降低模型的复杂性,以便于在更轻量的平台运行。
Meta 表示,他们采用了量化感知训练(Quantization-Aware Training,QAT)和后训练量化(SpinQuant)两种方法对模型进行量化,其中“量化感知训练”更重视模型的准确性,而“后训练量化”更强调模型的可移植性。
据介绍,研究人员一共为 Llama 3.2 的 1B 和 3B 模型各推出了两款量化版本,分别为 Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA 和 Llama 3.2 3B SpinQuant。
Meta 声称,这些量化模型比非量化的 Llama BF16 模型速度更快,占用更少的 RAM,并且功耗更低,同时保持与 Llama BF16 版本几乎相同的精度。
尽管量化后的 Llama 3.2 1B 和 3B 模型仅支持 8000 个 Token 的上下文(原版模型支持 12.8 万个 Token),但 Meta 的测试发现,无论是 Llama QLoRA 还是 Llama SpinQuant 等量化版本的基准测试结果实际上与原来的 Llama BF16 版本相差不远。
目前,Meta 已在一加 12、三星 S24+/S22 及苹果 iOS 设备(未公布具体型号)等移动平台测试这些经过量化后模型,测试“运行结果良好”,研究人员未来还计划通过神经处理单元(NPU)提升这些量化模型的性能。
相关文章
- 可令 AI 助理同时进行快 / 慢速思考,谷歌 DeepMind 公
- 北京发布首份教育领域人工智能应用指南
- Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可
- Anthropic 为 Claude 推出 JavaScript 沙盒工具:可 AI
- 丹麦首台 AI 超级计算机 Gefion 推出,由 1528 个英伟达
- 谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成
- OpenAI 公布新型 AI 文生图方案“sCM”,号称效率是传统
- 抖音:严厉打击利用 AI 骗取老年人互动,下架违规视频、处
- 填补 AI 安全空白:谷歌上线安全人工智能框架风险评估工
- AI 竞赛愈发激烈,消息称谷歌计划 12 月发布 Gemini 2.0