谷歌新规引担忧:消息称外包人员被迫评估自己不擅长的 Gemini 回复
最新 12 月 19 日消息,据 TechCrunch 报道,谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整,引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样,因自身专业知识不足而跳过某些特定的评估任务,这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。
为了改进 Gemini,谷歌与其外包公司日立旗下的 GlobalLogic 合作,由后者雇佣的合同工负责评估人工智能生成的回复,评估标准包括“真实性”等因素。此前,如果评估员认为某个问题超出了自身专业领域,例如一个关于心脏病学的专业问题,而评估员本身并无相关科学背景,他们可以选择“跳过”该回应,从而避免评估针对该提示(prompt)的人工智能回复。
然而,上周 GlobalLogic 宣布了一项来自谷歌的变更:评估员不得再以缺乏专业知识为由跳过任何提示。内部通信显示,此前的指导方针是:“如果您没有评估此提示所需的关键专业知识(例如编码、数学),请跳过此任务。”而新的指导方针则改为:“您不应跳过需要特定领域知识的提示。”取而代之的是,评估员需要“评估您理解的提示部分”,并注明自己缺乏相关领域知识。
这项变更引发了人们对 Gemini 在某些主题上准确性的担忧,因为现在评估员有时需要评估一些他们完全不熟悉的、高度专业的技术性人工智能回复,例如关于罕见疾病的问题。一位合同工在内部通信中表示:“我原以为跳过的目的是通过将其交给更专业的人来提高准确性?”
根据新的指导方针,评估员现在只能在两种情况下跳过提示:一是提示或回复“完全缺失信息”,二是提示包含需要特殊同意书才能评估的有害内容。
这项新规的实施,意味着一些对专业性要求极高的领域,例如医疗健康等,将由缺乏相关背景知识的评估员进行评估,这无疑增加了 Gemini 输出不准确信息的风险。外界担忧,此举可能会对用户造成误导,尤其是在涉及健康等重要问题时,不准确的信息可能会带来严重后果。
截至最新发稿时,谷歌尚未回应相关报道。
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责