Meta、OpenAI、Anthropic和Cohere人工智能模型都在胡编乱造——哪个最糟糕?

CnBays.cn湾区中国 | 【睿问财讯-国际】
2023-08-18

《Meta、OpenAI、Anthropic和Cohere人工智能模型都在胡编乱造——哪个最糟糕?》

— CnBays.cn湾区中国 | 【睿问财讯-国际】


导读:

  • 根据周四的一份报告,Arthur AI 的研究人员测试了 Meta、OpenAI、Cohere 和Anthropic 的顶级人工智能模型,发现一些模型捏造事实或 "产生幻觉 "的程度明显高于其他模型。

  • 研究人员发现,Cohere 的人工智能产生的幻觉最多,而 Meta 的 Llama 2 产生的幻觉总体上多于 GPT-4 和 Claude 2。

  • 总的来说,GPT-4 在所有测试的模型中表现最好,研究人员发现它比之前的 GPT-3.5 版本产生的幻觉更少——例如,在数学问题上,它产生的幻觉减少了 33% 到 50%。

如果要给科技行业的顶级人工智能模型在各方面相互比个高下,那么微软支持的 OpenAI 的 GPT-4 是数学方面的佼佼者,Meta 的 Llama 2 是最综合的,Anthropic 的 Claude 2 最看得清自身实力,而 Cohere AI 则在给出胡说八道的答案时最为自信。

这是机器学习监控平台 Arthur AI 的研究人员周四发布的报告。

在2024年美国总统大选之前,生成式人工智能蓬勃发展,人工智能系统所产生的错误信息比以往任何时候都更容易引起人们的热议。

亚瑟公司联合创始人兼首席执行官亚当-文切尔告诉媒体,这是第一份“全面考察人工智能幻觉发生率的报告,而不仅仅是提供单一的数字,说明它们在LLM排行榜上的位置”。

大型语言模型(或称 LLM)完全捏造信息,却表现得好像它们在说出事实的现象,就是人工智能幻觉。这就是一个例子:今年 6 月,有消息称 ChatGPT 在纽约联邦法院的一份文件中引用了“假”案例,涉案的纽约律师可能面临制裁。

在一项实验中,亚瑟人工智能研究人员对人工智能模型进行了多个类别的测试,提出的问题“包含连让法律硕士都能犯错的关键因素:对信息进行多步推理的能力”。

总体而言,OpenAI的GPT-4在所有测试模型中表现最佳,研究人员发现它比之前的GPT-3.5版本产生的幻觉更少——例如,在数学问题上,它产生的幻觉减少了33%到50%不等。

另一方面,研究人员发现,Meta 的 Llama 2 比GPT-4 和 Anthropic 的 Claude 2 产生的幻觉更多。

在第二个实验中,研究人员测试了人工智能模型在回答问题时会在多大程度上使用警告短语来规避风险(例如:“作为一个人工智能模型,我不能提供意见”)。

在语言前后矛盾的方面,比起GPT-3.5,GPT-4语言前后矛盾的出现率增加了50%,这个研究“量化了来自用户的轶事证据,证明了GPT-4使用起来更令人沮丧”,研究人员写道。报告称,另一方面,Cohere 的人工智能模型在任何反应中都没有前后矛盾。研究表明,克劳德 2 在“自我认知”方面最为可靠,这意味着它能准确判断自己知道什么和不知道什么,并且只回答有训练数据支持的问题。

文切尔说,对用户和企业来说,最重要的启示是“在你的确切工作主题上进行测试。重要的是要了解它在你的任务中的表现。很多基准都只是在衡量LLM本身,但这实际上并不是它在现实世界中的使用方式。确保你真正了解 LLM 在实际使用中的表现方式才是关键所在。”


CnBays.cn湾区中国|【睿问财讯—国际】综合国内外权威财经资讯,部分国际内容由浦诺英英文精英翻译供稿,睿问财讯编辑整理。来源:网络;图源:网络

【声明】:Cnbays湾区中国 | 【睿问财讯】立足湾区,面向世界,关注产业,助力企业。本网站中英文及图片内容版权属原作者所有,本文转载、摘编、引用、翻译、编辑整理等均出于传播财经等信息之目的和需要,CnBays.cn湾区中国 | 【睿问财讯】刊发所有内容不代表本网任何观点,也不构成任何投资建议。有来源标注错误或文章侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢

联系:ReveMgt_Express@163.com

分享
下一篇:这是最后一篇
上一篇:这是第一篇