人工智能

马斯克：现实世界中用于训练 AI 模型的数据已经所剩无几

2025-01-10 08:34:20人工智能 IT之家清源

在周三晚间与Stagwell董事会主席马克·佩恩的直播对话中，马斯克表示：“我们现在基本上已经消耗掉了所有人类知识的积累……用于人工智能训练的数据。这个现象基本上是去年发生的。”

感谢最新网友咩咩洋的线索投递！

最新 1 月 9 日消息，据 TechCrunch 报道，马斯克与其他人工智能专家一致认为，现实世界中用于训练 AI 模型的数据几乎已经耗尽。

在周三晚间与 Stagwell 董事会主席马克・佩恩的直播对话中，马斯克表示：“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”

马斯克此番言论与前 OpenAI 首席科学家伊利亚・苏茨克弗（Ilya Sutskever）在去年 12 月的 NeurIPS 会议上的观点相似。苏茨克弗曾指出，AI 行业已经达到了所谓的“数据峰值”，并预测未来缺乏足够的训练数据，将迫使 AI 模型的开发方式发生改变。

马斯克认为，合成数据（最新注：即人工智能模型自我生成的数据）是未来的解决方案。“补充现实世界数据的唯一途径是通过合成数据，也就是让 AI 自己生成训练数据。AI 会进行自我评估，并通过这一自我学习的过程不断优化自己。”

目前，许多科技公司，包括微软、Meta、OpenAI 和 Anthropic 等，已经开始使用合成数据来训练他们的主力 AI 模型。据 Gartner 估计，到 2024 年，用于人工智能和数据分析项目的 60% 数据将是通过合成方式生成的。

使用合成数据的一个显著优势是降低成本。人工智能初创公司 Writer 表示，其 Palmyra X 004 模型几乎完全依赖合成数据进行开发，开发成本仅为 70 万美元，而一个规模相似的 OpenAI 模型的开发成本大约为 460 万美元。

然而，合成数据也存在一定的风险。研究表明，合成数据可能会导致模型性能下降，输出结果不仅缺乏创新性，而且可能变得更加偏颇，最终严重影响其功能性。因为模型是通过自己生成合成数据进行训练的，如果这些数据本身带有偏见或局限性，那么最终模型的输出也会受到这些因素的影响。