清华团队重磅发现:机器人正迈向“ChatGPT时刻”今天被大家的关注度非常高,大家可以一起跟着小编来看看具体都是怎么回事吧。
如果将人工智能(AI)比作孩子,那么Scaling Law(以下简称“规模法则”)就是其重要的“成长密码”:只要“孩子”被给予足够的“营养”,即数据、模型和算力,他就能茁壮成长。
2020年,OpenAI发表论文《神经语言模型的规模法则》(Scaling Laws for Neural Language Models),提出“规模法则”,为大语言模型的出现奠定了语言基础。因此“规模法则”也被视为人工智能的基石。
如今,这一的“规模法则”也正在引领机器人领域开启新世界的大门。
来源:《机器人操作模仿学习中的数据规模法则》论文
清华大学交叉信息研究院(以下简称IIIS)研究团队近日在预印本网站arXiv发布的论文《机器人操作模仿学习中的数据规模法则》(Data Scaling Laws in Imitation Learning for Robotic Manipulation)显示,在“数据规模法则”下,机器人实现了真正的零样本泛化,无须进行任何微调就能泛化到全新的场景和物体,成功率高达90%。所谓泛化,指的是一个模型或算法在处理未曾见过的新数据时的表现能力。
团队的发现表明,只要有足够的数据,机器人就能像ChatGPT理解语言一样,自然地理解和适应物理世界。一时间,外界对人形机器人可能迎来“ChatGPT时刻”议论纷纷。
连Google DeepMind的机器人专家Ted Xiao都称,其对机器人大模型时代具有里程碑意义。
图片来源:X平台
针对这项最新研究,《每日经济新闻》记者于11月4日晚间专访了该论文的作者之一、清华大学IIIS四年级博士生胡英东。
胡英东博士重点研究嵌入式AI,这是机器学习、机器人和计算机视觉交叉的前沿领域。他研究了开发通用机器人系统的基本挑战,这些系统可以有效适应和概括他们在不同的、非结构化的现实世界环境中的学习行为。
胡英东 图片来源:预印本网站arXiv
清华团队重磅发现:“数据规模法制”也适用于机器人
火锅店倒水、公园叠毛巾、电梯内拔插头……在清华大学IIIS研究团队最新进行的研究中,便携式手持夹爪UMI在8种从未见过的环境中展现出来超强的适应能力。
IIIS团队机器人硬件设置 图片来源:《机器人操作模仿学习中的数据规模法则》论文截图
研究设计的任务 图片来源:《机器人操作模仿学习中的数据规模法则》论文截图
ChatGPT的问世验证了“规模法则”的“智能涌现”能力——规模越大,效果越优。要提升模型效果,就需要不断扩大参数规模、训练数据量、计算资源的规模。但机器人领域尚未建立全面的“规模法则”,因而未能取得深度学习领域那么快的发展。
为了探究上述三大要素之一——“数据规模法则”,清华大学IIIS研究团队设计了物体泛化、环境泛化及环境-物体组合泛化三大维度,通过系统调整训练数据规模,全面评估适当的数据规模能否产生可在任何环境下对几乎任何物体进行操作的机器人策略。
利用真实环境下收集的超过4万条人类演示数据,以及严格评估协议下进行的超15000次实机测试,该团队发现,策略的泛化性能与环境和训练时接触的物体数量呈现显著的幂律关系,意思是其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关。
图片来源:《机器人操作模仿学习中的数据规模法则》论文截图
而且,当环境多样性足够丰富时,在单一环境中过度采集不同操作物体的数据所带来的效用将变得微乎其微。而且,单个物体的演示数据很容易达到饱和,总演示数据达到800次时,性能就开始趋于稳定。该团队认为,每个物体有50次演示效果就基本能达到期望的泛化水平了。
最终的任务测试表明,在8种全新的场景中,机器人的成功率高达90%。这意味着机器人实现了真正的零样本泛化,可以无须进行任何微调就能泛化到全新的场景和物体。
也就是说,团队的发现表明,只要有足够的数据,机器人就能像 ChatGPT 理解语言一样,自然地理解和适应物理世界!而且,这也简化了数据收集工作,以前可能需要几个月才能完成,现在只需要几天甚至一个下午。
NBD:您能否分享一下,是什么促使团队去探索具身智能领域的“数据规模法则”?是否受到了大语言模型“规模法则”的影响?
胡英东:是的,我们对“数据规模法则”的探索确实部分受到大语言模型的启发。大模型中“规模法则”已经成为当今最基本的原则之一,它包括三个维度:数据、模型和算力。在探索模型和计算“规模法则”之前,理解“数据规模法则”是至关重要的。
NBD:能否用通俗的语言解释一下“数据规模法则”?
胡英东:我们发现,“数据规模法则”展示了机器人策略在新环境中的性能与训练中的环境和物体数量之间的幂律关系。简单地说,训练中包含的环境和物体数量越多,泛化性能越好。
NBD:论文中提到,“提高数据质量可能比盲目增加数据量更重要”。那么,您认为如何才能有效地提高数据质量呢?是否有具体的方法或策略?
胡英东:数据质量有很多方面,但我们主要关注数据的多样性。我们发现,在资源有限的情况下,在更广泛的环境和物体中收集人类演示比在特定环境中使用特定物体收集更多演示带来的效果更好。
叠毛巾;来源:《机器人操作模仿学习中的数据规模法则》论文
90%的成功率不足以实现商业化,至少要99.9%
尽管IIIS团队的研究表明,只需投入相对较少的时间和资源,就有可能学习到一种可在任何环境和对象中零距离部署的单任务策略。现实中,要完成洗衣服、叠衣服等一些在人类看来非常简单的任务,AI依然面临不小的难度。
论文也指出,目前的工作还有一些局限性,他们只关注了单任务策略的数据规模,并没有探索多任务的通用性,因为这需要从数千个任务中收集数据。除了数据规模,IIIS团队还在模型规模化方面有三个重要发现:视觉编码器必须经过预训练和完整的微调,缺一不可;扩大视觉编码器的规模能显著提升性能;扩大扩散模型的规模却没能带来明显的性能提升,这一现象最让人意外。
为了激励更多的研究人员就此进行探索,团队还公布了其代码、数据和模型,希望业界能最终开发出能够解决复杂问题的通用机器人。
IIIS团队在GitHub上开源的代码
IIIS团队在Hugging Face上公布的数据
NBD:你们的研究发现,通过适当的“规模法则”,单任务策略可以应用于任何新环境和同一类别中的任何新对象。这是否意味着一旦机器人掌握了足够的数据,它们就不需要进一步学习了?
胡英东:这并不意味着机器人不再需要学习。虽然目前有90%的成功率,也让人印象深刻,但对于商业化和家庭使用仍然不够,我们需要达到99.9%以上的成功率,毕竟你不会希望一个机器人在倒水的时候有10%的几率打破你的杯子。
NBD:机器人在学习大量数据后,能够适应各种环境。这是否预示着未来很可能会出现通用机器人?
胡英东:我相信我们将来会看到通用机器人,我不能准确预测是什么时候。我们的研究只探索了数据规模,正如我之前提到的,我们还没有完全研究模型和计算规模。仍有许多重要的研究问题需要解决。
来源:《机器人操作模仿学习中的数据规模法则》论文
“人形机器人的ChatGPT时刻”尚未到来
在学界的努力之外,企业界也在专注于将通用人工智能引入物理世界,旨在开发大规模人工智能模型和算法,为机器人提供动力。
OpenAI就是其中之一。11月4日,Meta增强现实眼镜“Orion”团队的负责人凯特林·卡林诺夫斯基在社交媒体上宣布,自己已经加盟OpenAI,领导机器人和消费者硬件团队。他在帖子中表示,这份新工作最初将关注OpenAI在机器人领域的工作以及相关的合作,帮助AI“进入物理世界”,解锁对人类的好处。
同日,OpenAI被曝还参与了机器人AI初创公司Physical Intelligence的4亿美元融资轮。本轮融资由亚马逊创始人Jeff Bezos、Thrive Capital和Lux Capital领投。
Physical Intelligence在博客文章中提到,过去八个月里,他们一直在为机器人开发一种“通用”的人工智能模型。Physical Intelligence希望这个模型能成为他们实现最终目标——开发人工通用智能(AGI)的第一步。AGI是指在各种任务上达到或超越人类智能的人工智能技术。
NBD:一些文章将你们最新的研究发现称为“人形机器人的ChatGPT时刻”,您对此有何看法?你认为这个时刻是否已经到来,还是需要更多的技术突破?
胡英东:我并不认为我们已经达到了“人形机器人的ChatGPT时刻”,尽管我们正在朝着这个目标快速前进。ChatGPT的一个关键特征是其非凡的泛化能力——它能够在几乎任何用户定义的任务中表现良好。虽然我们强调机器人对新环境和新物体的泛化能力,但主要的区别在于我们的模型还不是真正通用的,不能处理用户可能给出的各种各样的指令。
NBD:研究已经在多个现实场景中得到了验证,那么您认为这些实验结果有一天能转化为实际应用吗?
胡英东:我相信我们研究的这项技术最终会进入日常实际应用,例如,用于餐馆的服务机器人。更有意义的是,这样的机器人可以应用于养老院,以协助老年人护理,这将是特别有价值和影响的。
盖世小鸡超新星游戏手柄官方宣布,其支持精英软件GameSir Connect进行调参。这款手柄支持有线连接和2.4G模式连接精英软件。超新星手柄可以自定义设置按键、摇杆、体感等功能,包括可调节的死区/反死区、摇杆XY轴比例、方向反转等参数。此外,超新星手柄还 ...
微软近日推出了针对PC游戏优化的特殊浏览器版本Edge Game Assist,该版本能够与Windows 11系统的Game Bar无缝集成。这款工具可以自动识别正在玩游戏的玩家,并显示相关的提示和指导,大大简化了玩家在游戏过程中查找攻略的过程。此外,Edge Game Assist还 ...
官方推文近日发起了TGA各项大奖的投票暖场活动,邀请玩家分享他们认为最值得加入年度最佳名单的游戏。玩家们在评论区热烈讨论,但大多数人都同意《黄金树幽影》这款DLC不应该出现在提名名单上。许多网友认为,虽然有很多优秀作品亟待入选,但这只是一个不 ...
PS5 Pro已经正式发售,除了100多款支持增强的新游戏外,它还搭载了针对PS4游戏的图像增强功能。然而,目前来看,这一功能的效果有限,评价一般。外媒tech4gamers发文评论道:“它只是为了卖PS5 Pro的半成品功能——仅仅是图像锐化,并且应该是PS5基础款的标 ...
近日,《真三国无双:起源》官方推特发布了一则消息,透露了新加入的第46名角色——貂蝉的形象和相关信息。在这款游戏中,貂蝉将以一名极具魅力的女性形象亮相。她的声音由著名声优上田瞳配音,相信这样的合作将为游戏增添更多趣味。此外,《真三国无双:起 ...
近日,《无主之地3》的创意总监Paul Sage在接受采访时表示,合作游戏一直都没有得到足够的关注,这为他们新成立的工作室Ruckus Games提供了机会,可以吸引玩家的关注。Ruckus Games上周正式宣布,他们正在开发一款多人射击游戏,并承诺提供大量可玩角色和 ...
华为智能汽车解决方案BU董事长余承东在近日的一段视频中,向粉丝们展示了一款全新的智界新S7车型。这款车型拥有七种不同颜色的车身选择,包括碧波青、晴光蓝、大都会红、陶瓷白、幻影紫、鎏金黑和暖星云。每一款颜色都采用简洁的单色设计,展现出一种简约 ...
近日,著名专栏作家Tae Kim的新书《NVIDIA Way》曝光了NVIDIA与Intel之间长久以来的激烈竞争。这本书详细记录了黄仁勋在1997年的一次全体员工会议上公开表达的对Intel的敌意。当时,NVIDIA推出了一款核心代号为NV3的第三代显示芯片RIVA 128,这款产品后来 ...
近日,大唐(Maxtang)推出了一款全新的迷你主机MAX N100。这款主机提供了两种版本,分别为准系统版本和配备16GB+512G存储的版本,售价分别为549元和899元。MAX N100采用了Intel N100处理器,拥有4核4线程,并支持最高3.4GHz睿频。同时,用户可以根据需要 ...
微软已暂停在安装了某些育碧游戏的 PC 上提供 Windows 11 的 24H2 更新。根据微软的公告,安装 Windows 11 24H2 后,可能会遇到在启动、加载或进行游戏时无响应的问题。这些受影响的游戏包括《刺客信条:英灵殿》、《刺客信条:起源》、《刺客信条:奥德 ...