大家好,今天小编来为大家解答【OpenAI o3是AGI吗?】这个问题,很多人还不知道,现在让我们一起来看看吧!
OpenAI公布了o3,相比o1实现了一次阶跃,在编程、数学、科学等一系列基准测试中成为学霸中的学霸。特别是在ARC-AGI的测试中取得了大幅度的突破。是否意味着2025年人类可以看到AGI的曙光?我们在这里编译了ARC-AGI测试标准的创始人撰写的o3测评的报告。原标题OpenAI o3 Breakthrough High Score on ARC-AGI-Pub。
正文如下:
OpenAI训练新o3系统,使用了ARC-AGI-1公共训练数据集,在我们的公开排行榜上,以$10k的计算成本限制,在半私密评估数据集上取得了突破性的75.7%得分。而高计算配置(172倍计算量)的o3系统则达到了87.5%的得分。
每次任务的成本,来源:ARC Prize
这标志着AI能力的一次重要的阶跃式提升,令人惊喜地展现了此前GPT系列模型从未具备的新型任务适应能力。相比之下,ARC-AGI-1从2020年的GPT-3的0%进步到2024年GPT-4o的5%,用了整整四年。为了o3,我们对AI能力的所有直觉都需要刷新。
ARC奖的使命不仅限于做第一个基准测试:它是通向AGI的北极星。我们很高兴明年能继续与OpenAI团队以及其他伙伴合作,共同设计下一代、可持续的AGI基准测试。
ARC-AGI-2(相同的测试格式——经验证对人类容易但对AI更难)将与2025年ARC奖同步推出。我们承诺将持续运行大奖赛,直到创造出一种高效的开源解决方案,得分达到85%。
下面请看完整测试报告。
OpenAI o3 ARC-AGI测试结果
我们对o3系统进行了两组ARC-AGI数据集的测试:
半私密评估:100个私密任务,用于评估过拟合情况
公开评估:400个公开任务
根据OpenAI的指示,我们在两种计算规模下进行了测试,用了不同的采样规模:6(高效率)和1024(低效率,计算量为172倍)。
以下是测试结果。
由于推理预算的差异,效率(例如计算成本)现在成为报告性能时的必需指标。我们记录了总成本和每个任务的成本,作为效率的初步衡量标准。整个行业需要共同探讨哪种指标最能体现效率,但以成本为起点是一个不错的选择。
在高效率模式下,得分75.7%符合ARC-AGI公共评估的预算规则(成本< $10k),因此在公共排行榜上获得了第一名!
在低效率模式下,得分87.5%尽管成本高昂,但依然表明性能在计算资源增加的情况下有所提升(至少到这一水平为止)。
尽管每个任务的成本显著,这些成绩并非仅仅是通过“暴力计算”达成的。OpenAI的新o3模型在AI适应新任务的能力上取得了重大飞跃。这不仅是渐进式的改进,而是一次真正的突破,标志着AI能力相较于之前的大语言模型实现了质的飞跃。o3是一个能够适应前所未见任务的系统,可以说在ARC-AGI领域接近了人类的表现水平。
当然,这种通用性需要付出高昂代价,目前尚未具备经济性:让人类解决ARC-AGI任务的成本大约为每个任务$5(是的,我们试过),而能源消耗仅需几美分。而o3在低计算模式下每个任务需要$17~20。不过,成本性能在未来几个月到几年内可能会显著改善,因此我们应预计这些能力将在较短的时间内与人类劳动竞争。
o3在GPT系列上的改进证明了架构的重要性。即便给GPT-4投入更多计算资源,也无法获得这样的结果。仅仅通过从2019年到2023年所采用的方法进行简单的扩展——例如采用相同架构,训练更大的版本,使用更多数据——已经不足以推动进一步的进展。未来的突破将依赖于全新的理念。
那么,o3是AGI吗?
ARC-AGI是一个关键的基准,用于检测AI的重大突破,特别是在泛化能力方面,这些是其他已经饱和或要求较低的基准无法展示的。然而,需要明确的是,ARC-AGI并不是AGI的“酸性测试”,这一点我们今年已经重复多次。它是一个研究工具,旨在将注意力集中在AI中最具挑战性的未解决问题上,并在过去五年里很好地履行了这一角色。
通过ARC-AGI并不等同于实现AGI。实际上,我认为o3还不是AGI。o3在一些非常简单的任务上仍然会失败,这表明它与人类智能存在根本性的差异。
此外,早期数据表明,即将推出的ARC-AGI-2基准对o3来说仍将是一个重大挑战,即使在高计算模式下,其得分可能会降至30%以下(而一个聪明的人类无需训练仍然可以获得95%以上的分数)。这表明我们仍然可以创建具有挑战性、未饱和的基准,而无需依赖专家领域知识。只有当设计那些对普通人类来说简单但对AI困难的任务变得完全不可能时,你才会知道AGI真正到来了。
o3与旧模型有何不同?
为什么o3的得分远高于o1?为什么o1的得分又远高于GPT-4o?我认为这一系列结果为AGI的研究提供了宝贵的数据点。
我对LLM的心理模型是,它们像是一个向量程序的存储库。输入提示后,它们会把提示映射的程序提取出来,并对依据前输入“执行”该程序。LLM通过被动接触人类生成内容来存储和操作化数百万个有用的小程序。
这种“记忆、提取、应用”范式在适当的训练数据支持下,可以在任意任务上达到相应水平的技能,但它无法适应新颖性或随时学习新技能(也就是说,它缺乏流体智能)。这一点在LLM在ARC-AGI基准上的表现不佳——GPT-3的得分为0,GPT-4接近0,GPT-4o达到5%。即使将这些模型扩展到极限,也无法使ARC-AGI的得分接近几年前基本的暴力枚举法所能达到的50%。
要适应新颖性,需要两个条件:首先是知识,即一组可重用的函数或程序,LLM已经具备足够多的这类知识。其次是能力,能够在面对新任务时将这些函数重新组合成一个全新的程序——即任务建模。这就是程序合成,而LLM长期以来缺乏这一特性。o系列模型解决了这一问题。
目前我们只能推测o3的具体工作机制。但核心机制似乎是在token空间的自然语言程序的搜索和执行:在测试阶段,模型会在可能的思维链(CoT)空间中搜索,描述解决任务所需的步骤,其方法可能与AlphaZero风格的蒙特卡洛树搜索类似。在o3的情况下,这种搜索似乎由某种评估模型引导。值得注意的是,哈萨比斯(Demis Hassabis)在2023年6月的采访中曾暗示DeepMind正在研究这一想法——这条研究路线已经酝酿许久。
因此,尽管单代的LLM在面对新任务时表现不佳,o3通过生成并执行自己的程序克服了这一障碍,在这里程序本身(CoT)成为知识重新组合的产物。虽然这并不是测试阶段知识重新组合的唯一可行方法(你还可以进行测试阶段的训练,或在潜在空间中搜索),但根据新的ARC-AGI数据,这代表了当前的最先进水平。
从本质上来说,o3代表了一种基于深度学习引导的程序搜索形式。该模型在测试时会在“程序空间”(在此案例中是指自然语言程序——描述解决当前任务步骤的思维链(CoTs)空间)中进行搜索,这一过程由深度学习先验(基础LLM)引导。解决一个ARC-AGI任务之所以可能需要数千万个tokens并花费数千美元,是因为这个搜索过程需要探索程序空间中的大量路径——包括回溯。
然而,这里发生的事情与我之前描述的“基于深度学习引导的程序搜索”作为通向AGI的最佳路径之间存在两个重要区别。关键在于,o3生成的程序是自然语言指令(由LLM“执行”),而不是可执行的符号化程序。这带来两个后果:
1. 这些程序无法通过直接执行和任务直接评估与现实接触——它们只能通过另一个模型来进行适应性评估,但这种评估由于缺乏直接的任务基础,可能在分布外操作时出错。
2. 系统无法自主获得生成和评估这些程序的能力(不像AlphaZero等系统可以通过自我学习掌握棋类游戏)。相反,它依赖于专家标注的人类生成的CoT数据。
目前尚不清楚这一新系统的具体局限性是什么,以及它的扩展能力有多大。我们需要进一步测试才能得出结论。不过,当前的性能代表了一项非凡的成就,也明确证明了直觉引导的测试时程序空间搜索是一种强大的范式,能够构建适应各种任务的AI系统。
接下来是什么?
首先,通过ARC奖竞赛在2025年促进o3的开源复现将是推动研究社区前进的关键。需要对o3的优势和局限性进行彻底分析,以理解其扩展行为、潜在瓶颈的性质,并预测未来发展可能解锁的能力。
此外,ARC-AGI-1现在已经接近饱和——除了o3的新得分,事实上,一个由低计算资源的Kaggle解决方案组成的大型集成体现在都可以在私密评估中达到81%的得分。
我们计划通过一个新版本提高标准,ARC-AGI-2自2022年开始研发,承诺对当前的最先进技术进行一次重置。我们的目标是通过难度大、信号强的评估推动AGI研究的边界,并突出AI的当前局限性。
ARC-AGI-2的早期测试表明,即使对o3来说,这也将是非常具有挑战性的。当然,ARC奖的目标是通过大奖赛生成一个高效的开源解决方案。我们目前计划在2025年ARC奖推出时同步发布ARC-AGI-2(预计在第一季度末发布)。
展望未来,ARC奖基金会将继续创建新的基准测试,以将研究人员的注意力集中在通往AGI的最难解决的问题上。我们已经开始研究第三代基准测试,该基准测试完全脱离了2019年ARC-AGI的格式,并融入了一些令人兴奋的新想法。
作者François Chollet曾在谷歌从事AI研究9年。2019年,他发布了通用人工智能抽象与推理语料库(ARC-AGI)基准,衡量人工智能系统解决新颖推理问题的能力。
以上就是【OpenAI o3是AGI吗?】相关内容,更多资讯请关注科技网
大家好,今天小编来为大家解答【这是目前最成功的AI广告,让苹果、可口可乐都落下风】这个问题,很多人还不知道,现在让我们一起来看看吧!给AI打广告要接地气给 AI 打广告,怎么让人不反感?本来觉得这不是个难事,但 Google、苹果接连翻车后,倒也叫人 ...
大家好,今天小编来为大家解答【Ulefone首款5G三防智能手机Armor X31 Pro发布,399.99美元】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 22 日消息,Ulefone 的首款 5G 三防智能手机 ——Armor X31 Pro 现已正式发布。该机搭载了天玑 ...
大家好,今天小编来为大家解答【李斌:蔚来ET9首发订单量超预期】这个问题,很多人还不知道,现在让我们一起来看看吧!凤凰网科技讯(作者/李金洋)12月22日,蔚来创始人、董事长兼首席执行官李斌在广州举行的媒体交流会上透露,ET9 首发版已售罄,其订单 ...
大家好,今天小编来为大家解答【秦力洪:汽车界应是百花齐放而非比排名】这个问题,很多人还不知道,现在让我们一起来看看吧!凤凰网科技讯(作者/李金洋)12月22日,在广州的媒体沟通会上,蔚来总裁秦力洪表示,蔚来很少去想着要比谁领先,以比较和排名 ...
大家好,今天小编来为大家解答【全球第三大车企要诞生了 本田与日产明天启动合并磋商】这个问题,很多人还不知道,现在让我们一起来看看吧!据报道,本田和日产汽车23日起将正式启动经营合并磋商,三菱汽车则在协调于明年年初决定是否参与合并,弄清以何 ...
大家好,今天小编来为大家解答【李斌:宁德时代要做1万座换电站,这是好事】这个问题,很多人还不知道,现在让我们一起来看看吧!凤凰网科技讯(作者/李金洋)12月22日,蔚来创始人、董事长兼首席执行官李斌在媒体交流会上被问及宁德时代大力推进换电业务 ...
大家好,今天小编来为大家解答【三股势力,强攻硅光】这个问题,很多人还不知道,现在让我们一起来看看吧!以ChatGPT为代表,从对话聊天到生成图片,愈来愈多的大模型正在深入至普通人的生活之中,而驱动这些大模型的数据中心也在迅速发展,更庞大的规模 ...
大家好,今天小编来为大家解答【3D芯片,成功研发】这个问题,很多人还不知道,现在让我们一起来看看吧!电子行业对计算机芯片表面可容纳的晶体管数量已接近极限。因此,芯片制造商正在寻求增加晶体管数量,而不是减少晶体管数量。业界不再将越来越小的晶 ...
大家好,今天小编来为大家解答【OpenAI最强推理模型o3发布!AGI测试能力暴涨,最难数学测试分数碾压同行】这个问题,很多人还不知道,现在让我们一起来看看吧!作者 | ZeR0 程茜编辑 | 漠影智东西12月21日报道,今日,OpenAI“连续12日圣诞发布”终于迎来激 ...
大家好,今天小编来为大家解答【吴恩达推出免费课程,带你玩转OpenAI推理模型o1】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 21 日消息,吴恩达(Andrew Ng)于 12 月 19 日在 LinkedIn 更新动态,宣布旗下 DeepLearning.AI 推出免 ...