今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。
目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。
所以,SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对模型的说谎能力进行校准然后进行大幅度优化完善模型能力。
开源地址:https://github.com/openai/simple-evals
有网友表示,看了SimpleQA的测试数据才发现,o1-mini和o1-preview的性能差距这么大,o1-mini连GPT-4o都打不过。
令人惊讶的是,SimpleQA 被有意设计用来挑战像 GPT-4这样的高级模型,其中只包括至少有一次模型尝试失败的问题。这种对抗性的基准测试方法感觉像是一种大胆的转变,旨在揭示模型的局限性并推动模型的发展。
多整开源这是好事。别忘了你名字的初衷啊~
这很有趣,会看到更多的模型被测试,以及它们与我在提供的文本上进行的虚构/幻觉基准测试结果的比较。
很想看看o1模型的完整版测试。
完全同意事实性在人工智能中的重要性。SimpleQA 的引入可以显著提升我们对语言模型在这一领域表现的理解。这是一项及时的举措,准确的数据对于信任人工智能系统至关重要。期待看到这个基准测试的影响。
这很重要,因为确保大模型的事实性对于防止错误信息的传播至关重要,而 SimpleQA 提供了一种标准化的方法来评估和改进模型可靠性的这一关键方面。
很棒,重要的更新!
SimpleQA简单介绍
在数据收集阶段,SimpleQA的问题参考答案由两名独立的 AI 训练员确定,并且训练员在创建问题时被要求提供支持答案的网页链接,以确保答案有可靠的依据。
例如,对于 “谁是苹果公司的创始人之一” 这样常识性问题,训练员会根据历史资料和官方信息确定答案为 史蒂夫乔布斯等,并附上如苹果公司官方网站等相关链接作为证据。
同时,问题的设计使得预测答案易于评估,只允许有一个明确且无可争议的答案,避免了模糊性和歧义性。比如 “哪一年 iPhone 首次发布”,答案明确为“2007年”,而不是一个范围或模糊的表述。
SimpleQA的评估问题和答案都非常简短,这使得运行速度快且操作简单。在评估模型回答时,通过 OpenAI API进行评分也十分迅速。数据集中包含4326个问题,能够在一定程度上降低不同次运行之间的方差,使评估结果更加稳定可靠。
例如,在对多个模型进行测试时,不会因为数据集本身的不稳定性而导致结果出现较大波动,从而能够更准确地比较模型之间的性能差异。
SimpleQA的评估集非常多元化。涵盖历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性,能够全面地检验模型在不同知识领域的事实性回答能力。
另一个好处是它的校准测量功能。通过询问模型对其答案的信心,研究者可以了解模型是否知道它们知道什么,这是一个很重要的校准现象。如果一个模型能够准确地评估自己的信心水平,那么它就是一个校准良好的模型。
OpenAI通过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型进行了综合测试。结果显示,较大模型通常具有更高的性能,但即使是前沿模型在SimpleQA 上的表现也并非完美。
例如,GPT -4o 在回答一些问题时能够给出较高比例的正确答案,但仍有部分错误回答和未尝试回答的情况。同时,通过测量模型的校准情况,发现模型虽然有一定的信心概念,但普遍存在高估自己信心的问题,模型的信心水平与实际回答的准确性之间存在差距。
上一篇
已是最后文章
下一篇
已是最新文章
小存储容量手机,终于有救了?拍照晒图、录像Vlog,手机里的照片视频越来越多,存储空间总是告急。曾几何时,我们以为128GB就能用到天荒地老,但现在手机却动不动就提示存储空间不足,这都是社交APP的“功劳”。而在这其中,微信无疑是占用很多人手机存储空 ...
11月24日消息,性能遥遥领先,主板接口不换,这让Intel还怎么追? 锐龙7 9800X3D发布的时候,AMD将其称为世界上最好的游戏处理器,而锐龙9 9950X3D上市后,毫无疑问将更加强大。 最新消息显示,锐龙9 9950X3D 16核心、锐龙9; 9900X3D 12核心将于CES 2025 ...
11月24日消息,吉利汽车宣布,其全新车型吉利银河星舰7EM-i将于12月6日上市,先享提车价为10.98-14.28万元。
11月24日消息,汇顶科技近日宣布,公司正筹划通过发行股份及支付现金的方式购买云英谷科技股份有限公司的控制权,并拟发行股份募集配套资金。
11月24日消息,汽车博主小怡说车日前发文称,享界S9又救一命。 博主介绍,当时他们一行人正在进行享界S9智驾直播,车辆从隧道出来时,前方的车和从主路突然并过来的轿车发生了碰撞,停在了辅路上。 由于她当时正在给直播间的粉丝展示后排投影幕布,只感 ...
11月24日消息,在中国汽车流通协会会长肖政三在2024世界互联网大会乌镇咖荟·汽车夜话上发表了对当前行业降价促销的看法。
11月24日综合报道,英伟达CEO黄仁勋近日在接受媒体采访时透露,公司正在加速对三星电子的人工智能内存芯片——HBM(High Bandwidth Memory,高带宽内存)进行认证。这一消息引发了业界广泛关注。
11月24日消息,iCAR汽车官方宣布,iCAR V23 CYBERSPACE赛博版计划于2025年正式推出,目前该车型正在测试阶段。
11月24日消息,联想推出了YOGA Pro 14 锐龙 AI元启版笔记本电脑,首发8999元。 设计上,新款笔记本采用PUREBRIGHT珍宝工艺金属机身,运用了信风灰配色,屏幕配备14.5英寸LCD PURESIGHT Pro专业超感屏,屏占比为91.4%,显示比例为16:10,分辨率为3K,刷新 ...
11月24日消息,第九届复旦首席经济学家论坛于日前举行。 论坛上,天风证券股份有限公司董事、研究所所长赵晓光出席并演讲。 谈及新能源汽车行业时,赵晓光指出,正是因为特斯拉把电池专利全部免费开放,中国新能源汽车产业才可以做出来。如果要打专利的话 ...