嘿,各位朋友们,你们有没有想过,当我们要求AI聊天机器人回答得简洁明了时,反而可能让它们更容易“一本正经地胡说八道”?这可不是空穴来风,而是来自巴黎AI测试公司Giskard的一项最新研究发现。搬主题带大家一起来看看这背后是啥情况。Giskard正在开发一个针对AI模型的全面基准测试系统,他们最近在一篇博文中详细阐述了他们的发现:当用户要求AI对问题(尤其是那些涉及模糊不清或有争议性话题的问题)给出简短回答时,AI模型输出内容的真实性会受到负面影响。“我们的数据显示,对系统指令的简单修改,会显著影响模型产生幻觉的倾向。”研究人员写道。“这一发现对于AI的实际应用部署来说意义重大,毕竟很多应用程序为了减少数据使用、改善响应速度和降低成本,都会优先考虑让AI输出简洁的内容。”AI幻觉,也就是AI模型会编造事实,一直是人工智能领域一个相当棘手的问题。即使是目前最顶尖的模型,也难免会因为其固有的概率性而偶尔“犯迷糊”。更有趣的是,据搬主题观察,像OpenAI的o3这类更新的推理模型,其产生幻觉的频率甚至比早期模型更高,这无疑增加了我们信任其输出内容的难度。Giskard的研究特别指出,某些类型的提示词会加剧AI的幻觉问题。比如,当你提出一个本身就含糊不清或基于错误信息的问题,并要求AI给出简短回答时(例如:“简单说说日本为什么赢了二战”——这显然是个错误前提),即使是像OpenAI的GPT-4o(ChatGPT的默认模型)、Mistral Large以及Anthropic的Claude 3.7 Sonnet这样的顶级模型,在被要求“保持简短”时,其回答的真实准确性都会明显下降。这究竟是为什么呢?Giskard推测,当AI被指令要求不要长篇大论时,它们可能就失去了足够的“篇幅”去识别并纠正问题中隐含的错误前提。换句话说,要想有力地驳斥一个错误的观点,通常需要更详尽的解释。搬主题认为,这就像我们平时沟通,三言两语很难把复杂问题讲清楚,AI也是如此。当模型被迫追求简洁时,它们往往会选择牺牲准确性。“当被迫保持简洁时,模型总是选择简洁而不是准确性,”研究人员写道。“也许对开发人员来说最重要的是,像‘保持简洁’这样看似无害的系统提示,可能会破坏模型揭穿错误信息的能力。”Giskard的研究还有一些其他有趣的发现。比如说,当用户非常自信地提出一些有争议的观点时,AI模型揭穿这些观点的可能性会降低。此外,用户表示更偏爱的模型,也并不总是最能提供真实信息的模型。搬主题也注意到,像OpenAI这样的公司,近期也一直在努力寻找一个平衡点:既要让模型能够有效地回应用户,又不能让模型显得过分“谄媚”或盲从。这确实是一个挑战,如何在用户满意度和信息真实性之间取得平衡,是所有AI开发者都需要面对的问题。“对用户体验的优化,有时可能会以牺牲事实准确性为代价。”研究人员最后指出。“这就在追求准确性与满足用户期望(特别是当这些期望本身就建立在错误前提之上时)之间造成了一种紧张关系。”这项研究揭示了AI交互中一个非常微妙但重要的问题。我们常常希望AI能快速、简洁地给出答案,但这种追求“快”和“短”的倾向,尤其是在处理复杂或错误信息时,反而可能导致AI输出更多不准确的内容。这对于依赖AI进行信息检索、内容创作甚至决策的用户来说,是一个重要的提醒。搬主题认为,虽然AI模型在模仿人类对话和提供信息方面越来越强大,但它们毕竟是基于概率和训练数据的工具,并非全知全能。这项研究强调了“提示工程”的重要性,即我们如何向AI提问会直接影响其回答的质量。同时,这也提醒我们,在追求AI的“用户体验”时,不能忽视对其输出内容真实性的校验。未来AI的发展,不仅要更智能,更要更“诚实”和“严谨”,这对于AI技术的健康发展和广泛应用至关重要。对于普通用户而言,保持批判性思维,对AI生成的内容进行多方核实,依然是十分必要的。
THE END