幻觉 - AI的目标可能更严重
该报纸近几个月来报道说,OpenAI和Google等技术公司的人工智能(AI)聊天机器人正在接受所谓的推理升级,以为人们提供更可靠的答案。但是最近的试验表明,有时它们比以前的模型差。聊天机器人犯的错误被称为“幻觉”,从出生起就一直是一个问题,现在看来人们可能不会摆脱它们。幻觉是大语言模型(LLM)犯错的一般术语。有时,他们将错误信息作为真实信息。幻觉 - 有时还意味着AI产生的答案是正确的,但与所提出的问题无关,或者无法在某种程度上遵循说明。 OpenAI评论的一份技术报告是最新的LLM,表明今年4月发布的O3和O4-Mini模型的幻觉速率高于2024年底发布的O1型号。此问题不限于去Openai。美国最近发布的guni -guni -guni -tuni率的排名表明,与以前开发的模型相比,某些识别模型的guni -tall速率增加了两倍。这种类型的模型在响应之前通过几个步骤显示了一系列理解过程。某些LLM潜在应用可能由于幻觉而失败。 AI公司首先声称该问题将随着时间的流逝而解决。实际上,该模型的幻觉往往会减少更新,但是HighGuni速率 - 最近的版本这一说法很复杂。 Vectara等级列表的排名是根据模型摘要中提供的文档的。 Vectara的Forrest Sheng Bao说,它表明:“至少在OpenAI和Google Systems中,识别模型的幻觉速率与非信息模型非常相似。但是,此排名可能不是比较AI模型的最佳方法。一个问题是混淆的问题。不同类型的幻觉。 Vectara团队指出,尽管中国的Deptseek -R1模型的幻觉率为14.3%,但其中大多数是“慈善的” - 这些答案得到了逻辑上的推理或常识的支持,但它们不仅存在于原始文本中。这个rankbok的另一个问题是基于文本的摘要,“在将LLM用于其他任务时无法解释错误的可能性”。他说,排名可能不是判断这一技术的最佳方法,因为LLM不是专门设计用于总结文本的。结果是人们可以与容易出错的AI一起出现。本德说,最好的办法是避免依靠AI聊天机器人提供的现实信息。 (Wenlele)