哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
2024-12-14 07:22:11人工智能 IT之家 清源
早在今年3月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在为AI提供“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和OpenAI的资金支持。
最新 12 月 13 日消息,据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍作为 AI 训练数据集。
AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍覆盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权已随时间过期。
虽然这个新数据集尚未公开,也不清楚具体的发布方式和时间,但它来源于谷歌的长期项目 —— 谷歌图书(Google Books)。因此,谷歌将参与这次“宝贵财富”的广泛发布。
据最新了解,早在今年 3 月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在为 AI 提供“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和 OpenAI 的资金支持。
IDI 的执行董事格雷格・莱佩特(Greg Leppert)表示,该数据集的目标是“让竞争环境更加公平”,通过向包括研究机构和 AI 初创公司在内的各类机构开放这一庞大的数据集,以帮助他们训练大型语言模型。
赞一个! ()
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责