亚马逊 AWS AI 训练芯片 Trainium2 实例全面可用,公布下代 3nm Trainium3
最新 12 月 4 日消息,亚马逊 AWS 今日宣布,基于其内部团队所开发 AI 训练芯片 Trainium2 的 Trn2 实例广泛可用,并推出了 Trn2 UltraServer 大型 AI 训练系统,同时还发布了下代更先进的 3nm 制程 Trainium3 芯片。
单个 Trn2 实例包含 16 颗 Trainium2 芯片,各芯片间采用超高速高带宽低延迟 NeuronLink 互联,可提供 20.8 petaflops 的峰值算力,适合数 B 参数大小模型的训练和部署。
亚马逊宣称 Trn2 实例与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比性价比提高了 30-40%。
而更大规模的 Trn2 UltraServer 则用 NeuronLink 聚合了 4 台 Trn2 服务器,总共包含 64 颗 Trainium2 芯片,算力峰值进一步线性扩展到 83.2 petaflops,能满足目前世界上最大规模模型的训练和部署需求。
亚马逊还正与其投资的 AI 模型企业 Anthropic 合作,共同构建一个名为 Project Rainier 的 EC2 UltraCluster 巨型计算集群,该集群包含大量 Trn2 UltraServer,总共拥有数十万颗 Trainium2 芯片。
最新获悉,该集群完成后有望成为迄今为止公开的最大 AI 计算集群,整体算力达 Anthropic 目前用于训练最先进 Claude 模型所需量的 5 倍以上。
亚马逊 AWS 还公布了下代 Trainium3 AI 训练芯片,这也是 AWS 首款采用 3nm 制程的芯片产品。亚马逊表示基于 Trainium3 的 UltraServer 性能可达 Trn2 UltraServer 的 4 倍,而首批基于 Trainium3 的实例预计将于 2025 年底推出。
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责