清华团队破解具身智能Scaling Law,GPT时刻在即!宁德时代联创终于出手

| 2024-11-11| 3

半年两次大融资后,这家具身智能黑马再次获得融资!作为柏睿资本首次投资的具身智能企业,千寻智能不仅拥有出身自伯克利系联创,在技术、硬件、商业化上,也让人极有信心。

最近,我们意外发现,具身智能领域的明星初创公司千寻智能,悄悄完成了工商变更。

根据工商信息显示,本轮融资由柏睿资本独家投资。至此,千寻智已经在半年多时间里获得了三次大额融资,一跃成为具身智能领域明星公司之一。

值得一提的是,柏睿资本是宁德时代联合创始人,副董事长李平创立的产业投资基金。

全国具身智能领域多家明星,为何首次下场便独独选中了千寻智能?

从下面这些demo中,便可窥见一斑。

仔细看,桌面上撒满了五颜六色形状各异的糖豆。如何将这些不同颜色和大小的物体进行分类,可不是件容易的事。

只见,在极其强大的识别和精准操作能力的加持下,千寻智能的机器人用灵巧的手指轻松地将糖豆捏起,并准确地放入指定的碗里。

(实拍原速)

不仅如此,它还可以一手拿起桌上透明的玻璃杯,一手从满满一筐鸡蛋中抓出一个并准确无误地放进杯中。

(实拍原速)

甚至,它还能接过手中的文件并进行装订,然后再交还给人类。

在这个过程中,AI基于视觉大模型的任务理解与规划,实现了人机交互及协同作业。

继续观看

清华团队破解具身智能Scaling Law,GPT时刻在即!宁德时代联创终于出手

具身智能行业,到底在卷什么

其实,如今的具身智能领域可谓是百花齐放,各种酷炫的演示demo层出不穷。但对于不懂的外行人来说,只能看个热闹,很难理解背后真正的技术边界是怎么样的。

同一个动作,是提前编程好的,还是机器人自主完成的?机器人只能在特定的某个位置、某个光照做一件事,还是能够真正泛化到各个条件、各个场景?

看似相差不多的demo下,背后的技术能力实则相差甚远。

不过,对于未来的技术走向,业界的认知正在逐渐清晰——最核心的还是大脑的能力。

随着时间的发展,可能再过一两年,竞争就会回到这个本质,因为唯有大脑,才能决定具身智能能在什么场景落地。

目前,大语言模型赛道已经接近后期,投资人开始关注回报的问题,但相比之下,机器人赛道可以说才刚刚开始。尤其涉及到软硬结合,以及整套系统的复杂度,赛道周期显然会更长。

在这样的背景下,柏睿资本的此次下场,显然是经过了深思熟虑。

宁德时代联创首次出手

自创立之初,柏睿资本就专注于人工智能、具身智能领域的发展,且一直非常看好这一技术将带来的一系列变革。

具体到千寻智能,柏睿资本看重的正是其团队在AI、硬件、商业化三个方面的综合优势。

首先,针对高阳在算法和模型方面的持续创新和产出能力,柏睿资本抱有极大的信心;其次,千寻智能的创始团队在硬件领域有着扎实的背景和积累;第三则是多达上百个场景、数万台机器人的商业化落地经验。

作为柏睿资本投资的首家具身智能企业,千寻智能将借助柏睿资本和背后的产投资源,快速切入市场化落地并进行具身智能泛化性作业验证,成为国内首家实现具身智能商业化的公司。

把水壶里的水倒进玻璃杯,并让水位达到指定的刻度(实拍原速)

纵观当下机器人领域的现状,各种技术的理论验证基本都已完成,但工程化却还在起步阶段。

怎样一条途径是最优方案,率先做到在工程上可行?

从Physical Intelligence、Skild AI等优秀的国外先行者身上,我们可以隐约窥见一条逼近真理的技术路径。

端到端就是下一个前沿

最近,成立仅8个月的初创Physical Intelligence(Pi)发布了一款通用机器人基础模型π0

这个在8个机器人平台上,完成训练的3B模型,能够执行各种灵巧的任务,包括洗衣服、收纳整理......

与LLM不同的是,π0跨越了视觉、语言、动作(VLA),并通过训练机器人的具身经验中,获得物理智能。

它基于3B VLM完成的预训练,随后又根据灵巧任务(洗衣服、组装盒子、桌面任务)进行了微调。

VLM的优势在于能够集成互联网规模的语义知识和视觉理解,有助于动作预测

Pi联创之一,也是UC伯克利副教授Sergey Levine看到,如今的机器人是一种狭隘的专家系统。比如,工业机器人通过编程,在装配线上同个地点进行重复的工作。

即便是这样简单的行为,也需要耗费大量的人工编程,更不用提在复杂环境(家庭等)中的应用了。

有了大模型,就很容易让机器人做到这点。然而这一切实现的前提是——数据。

就像人类可以凭借经验快速学习新技能一样,模型也仅需少量数据,就能适应新的任务。

这便是π0的核心思想。

另一家由CMU大牛Deepak Pathak(博士出身是UC伯克利)创立的Skild AI,也遵循了同样的技术路线。

他们打造出了一款能够泛化的机器人基础模型「Skild Brain」,背后用到的训练数据是竞争对手的1000倍,可以适用到任何机器人本体和任务中。

从以上伯克利系大牛们所做的研究来看,端到端架构已成为具身智能的主要技术路线。

无独有偶,国内的千寻智能也在技术路线上与这两家美国的具身智能顶尖初创,不谋而合。

在读博士、博士后期间,千寻智能团队的首席科学家高阳,还曾与Sergey Levine和Pieter Abbeel教授展开深入合作。

尤其是,他们的模型可以在训练过程中,同时利用监督微调、强化学习、模拟学习等技术,并将Sim2Real数据作为补充。

结果就是,刚成立半年多的千寻智能,就已经能实现业内Top的灵巧手操作了。

(实拍原速)

伯克利系称霸具身智能

毫不夸张地说,UC伯克利已被公认为是最近这波具身智能浪潮的主要发源地。而Sergey、Pieter这些教授,是当之无愧的机器人学习领域最近十年的领头人。

同时,出身伯克利系的高徒们,如今已经在各个相关领域散作满天星,不断推高业界前沿的技术水平。

比如,千寻智能联合创始人高阳在攻读计算机视觉博士学位期间,便是师从Trevor Darrell教授,和Deepak Pathak同组。

最近,高阳带领团队发现了具身智能领域的「圣杯」——Data Scaling Laws,堪称机器人的ChatGPT时刻。

而且,在CoRL2024上,这项研究荣获X-Embodiment workshop最佳论文奖!

这一方法让机器人实现了真正的零样本泛化,也就意味着无需任何微调,就能泛化到全新场景中,彻底改变了开发通用机器人的方式。

论文地址:https://arxiv.org/abs/2410.18647

就连谷歌DeepMind大牛Ted Xiao也对这项研究赞赏有加,称其对机器人大模型时代具有里程碑意义。

这位具身智能领域大咖,有着怎样的学术背景?

2014年,高阳获得了清华计算机科学本科学位,师从国内ML领域享有盛誉的著名学者朱军教授。

在大二的时候,也正是深度学习(2012年)爆发之际,高阳做的了很多关于传统ML的研究。

凭借出色的成绩,他成为了计算机系的第二位大神。

到了大三,高阳拿到了去斯坦福做交换的暑期学习资格,导师是David L. Dill教授。

本科毕业前,得益于老师的推荐信,以及自身各方面优异表现,高阳最终收获了美国多所顶尖高校的offer。

面对这些同样优秀的学府,他决定亲赴美国实地考察,做出最适合自己的选择。

在走访过程中,UC伯克利给他留下了深刻的印象。作为四大名校之一,这所学校具备了浓厚的学术氛围。

再加上,自身专攻机器学习领域的原因,UC伯克利最适合不过了。

作为一名机器学习领域的学生,他对UC伯克利格外青睐,很大程度上还因为引领ML时代技术的Michael Jordan教授的存在。

原本初到伯克利时,高阳计划跟随Michael Jordan开展研究。然而,再参加了几次他的组会,并与其学生交流后,他发现Michael研究方向与自己的与其有所差异。

因为,Michael Jordan的工作更加偏重数学理论,组会多围绕数学公式推导,这与高阳所期待的实践导向研究路径不尽相同。

在探索其他可能性过程中,他意外接触到了Trevor Darrell教授的研究组。

Trevor专注于计算机视觉领域,其魅力在于直观性——可以清晰看到输入的图片,观察神经网络训练过程,并得到可视化结果。

值得一提的是,当时深度学习的浪潮已经持续了大约2年的时间,业界也普遍认可了这项技术的卓越性。

也是基于这些原因,更加坚定了高阳在这一方向上深耕的原因。

在他的博士生涯初期,跟随Trevor教授做了很多在纯视觉领域的研究。

直到博士二年级下学期开始,高阳的研究兴趣发生了微妙的转变。

这一转变源于,实验室内部一系列关于人类智能起源的深度探讨。

而令他印象深刻的是CV圈里另一位大咖Jitendra Malik观点:他从进化角度提出,人类智能本质与灵巧的双手密不可分。

正是因为拥有了精细的手部动作能力,人类才得以完成更为复杂的任务,反过来推动了大脑的进化,使得智力水平得以适应更复杂的活动需求。

再到猫狗之间对于人类指令理解力的差别,说明了狗的群居特性,使得它们沟通协调力强于猫。

最终,他们在智能本质讨论中,逐渐达成共识:机器视觉的终极发展方向,应该由具身智能体驱动。

自然而然地,高阳开始将研究中心转向了具身智能领域。

他认为,具身智能与视觉、强化学习有着密切的联系,这种联系可以类比人类的认知过程。

即通过视觉感知环境,理解周围状况,继而做出相应的行为。

基于这种认识,高阳开始与Sergey Levine教授展开合作,深入去研究具身智能的形成机制。

得益于前期在计算机视觉领域的积累,在实际研究中,高阳能够很好地将CV技术与RL结合起来,并交出了硕果累累的成绩单。

在机器人研究领域的顶级学术会议CoRL2024中,团队更是连中了4篇论文。

论文地址:https://arxiv.org/abs/2310.02635

论文地址:https://arxiv.org/abs/2310.08809

论文地址:https://arxiv.org/abs/2401.11439

论文地址:https://arxiv.org/abs/2406.10615

回到北美,如今头部的具身智能创业公司,除了Figure AI之外,创始人都属于伯克利系。

比如,Physical Intelligence的联创Sergey Levine,便是UC伯克利电气工程与计算机科学系的副教授。

Pi的另一位联创Chelsea Finn,也是UC伯克利的博士。

Skild AI的联创Deepak Pathak,同样是在UC伯克利获得的博士学位,师从国际计算机视觉大师Trevor Darrell教授(曾培养了包括贾扬清在内的多位视觉领域知名学者)。

随后,Pathak继续在UC伯克利做博士后研究,导师是机器人学习领域的顶尖学者Pieter Abbeel——扩散模型(Sora、SD背后核心技术)的提出者之一。

爆火AI搜索初创Perplexity AI的创始人Aravind Srinivas,以及前OpenAI联创John Schulman,皆是他的学生。

博士研究期间,Pathak开发了一种向机器人灌输「好奇心」方法。具体做法是,当系统无法预测其行动结果时,系统反而会因未知结果而获得奖励。

这种方法驱使AI去探索更多场景,并收集更多数据。

论文地址:https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

其实回看2014到2016年这段时间,无论机器狗还是双足机器人,在业内的进展都比较缓慢。

虽然当时的人形机器人已经可以跑酷、跳桩,但其中使用的技术栈其实非常传统,是基于传统的MPC、WPC这类手工控制器去做的。

也就是说,并不是基于机器学习这条路线。

在2017年左右,Pieter Abbeel和三个学生一起创立了Covariant(原名Embodied Intelligence),可以说是体现了具身智能的缩影。

在当年,大语言模型并没有出现,因此即使这个公司早于时代,也依然像今天的非端到端自动驾驶一样,技术栈并没有特别大的进步。

而随后大模型的出现,才终于让具身智能的推理能力、多模态感知融合、自主学习和知识迁移能力等得到了显著提升,翻开了全新的篇章。

如今,具身智能技术已经走向了深度融合和迭代优化的新阶段。拥有技术领先性和应用场景积累的企业,将迎来大展拳脚的机会。

而千寻智能,恰恰有着清晰的端到端技术路线,有顶尖人才、有应用场景。

具身智能这盘大棋,接下来就看千寻智能如何交卷了。

上一篇

已是最后文章

下一篇

已是最新文章

相关推荐相关推荐

比亚迪否认收购蔚来汽车:严重不实,请大家不信谣不传谣

比亚迪否认收购蔚来汽车:严重不实,请大家不信谣不传谣

btna科技网 11 月 22 日消息,针对网传“比亚迪收购蔚来汽车”消息,比亚迪集团品牌及公关处总经理李云飞今日在微博回应称:网传的比亚迪与蔚来汽车相关的投资及合作信息,为严重不实信息!请大家不信谣,不传谣。此外,蔚来汽车品牌与传播助理副总裁马麟在 ...

数码 7 2024-11-23
小米汽车:HyperOS 1.4.3 版本新增车速过高提醒,每次车辆启动时默认开启、并不会进行动力限制

小米汽车:HyperOS 1.4.3 版本新增车速过高提醒,每次车辆启动时默认开启、并不会进行动力限制

btna科技网 11 月 22 日消息,小米汽车官方今晚发布答网友问(第九十九集),就新增的车速过高提醒功能进行详解。btna科技网汇总问答内容如下:最近小米 SU7 有新增「车速过快」的系统提示音,这是更新的新功能么?在刚刚推送的 Xiaomi HyperOS 1.4.3 版 ...

数码 3 2024-11-23
北汽享界汽车法务部正式起诉自媒体“袁启聪”

北汽享界汽车法务部正式起诉自媒体“袁启聪”

btna科技网 11 月 22 日消息,享界汽车法务部官博今日发布首条微博,宣布正式起诉自媒体“袁启聪”,btna科技网附公告内容如下:正式起诉自媒体“袁启聪”自媒体“袁启聪”及其相关矩阵账号在“新浪微博”“今日头条”“哔哩哔哩”等平台发布涉享界 S9 不客观、不严谨 ...

数码 4 2024-11-23
车评人袁启聪回应被北汽享界起诉:积极应诉,实事求是,相信法律

车评人袁启聪回应被北汽享界起诉:积极应诉,实事求是,相信法律

btna科技网 11 月 22 日消息,今天下午,享界汽车法务部宣布正式起诉自媒体“袁启聪”。随后,当事人 —— 车评人袁启聪转发了享界法务部的公告并回复称:“好的,积极应诉,实事求是,相信法律。”今天下午,享界汽车法务部官博今日发布首条微博,宣布正式起诉 ...

数码 4 2024-11-23
政府补贴小米京东专场上线:多品类立打 8 折,单笔至高立减 2000 元

政府补贴小米京东专场上线:多品类立打 8 折,单笔至高立减 2000 元

【政府以旧补贴无需旧物,可直接优惠下单】政府补贴小米京东专场现已上线,单笔至高立减 2000 元:点此查看。会场内不仅可领各地政府补贴,还有手机、电视、笔记本、空调、冰洗、扫地机器人、小家电等专场合集,有需求的小伙伴可以逛逛看。小米手机政府补 ...

数码 4 2024-11-23
余承东公布智界新 S7 七种车身颜色,华为 Mate70 Pro + 手机正面同时曝光

余承东公布智界新 S7 七种车身颜色,华为 Mate70 Pro + 手机正面同时曝光

btna科技网 11 月 22 日消息,华为常务董事、终端 BG 董事长,智能汽车解决方案 BU 董事长余承东今晚通过视频号平台更新了一段视频,主要介绍了智界新 S7 的 7 种颜色,同时也展示了手中的 Mate70 系列新机正面。余承东介绍,智界新 S7 提供碧波青、晴光 ...

数码 4 2024-11-23
REDMI 产品线调整:新 K 系列 Pro 机型承接小米数字涨价后空档,Turbo 系列定位“2-3K”档

REDMI 产品线调整:新 K 系列 Pro 机型承接小米数字涨价后空档,Turbo 系列定位“2-3K”档

btna科技网 11 月 22 日消息,小米 REDMI K80 系列手机将于 11 月 27 日晚 7 点发布,系列手机将迎来定位和规格升级。小米中国区市场部副总经理、REDMI 品牌总经理王腾今日发文就 REDMI 品牌产品线调整情况作出解释,他称新的 K 系列 Pro 机型价格档位会 ...

数码 6 2024-11-23
消息称英伟达 RTX 5090 显卡 GPU 尺寸比 RTX 4090 的大 22%,仅次于 TU102

消息称英伟达 RTX 5090 显卡 GPU 尺寸比 RTX 4090 的大 22%,仅次于 TU102

btna科技网 11 月 23 日消息,据MEGAsizeGPU 昨日爆料,英伟达 RTX 5090 显卡的芯片尺寸比 RTX 4090 的芯片尺寸大 22%。爆料称,RTX 5090 显卡搭载的 GB202 GPU 尺寸为 24*31mm,也就是744mm²。而目前英伟达 RTX 4090 搭载的AD102 GPU 尺寸为 608 mm²。如 ...

数码 4 2024-11-23
“时代旗舰”11 月 26 日登场,鸿蒙智行公布尊界 S800 豪华轿车官图

“时代旗舰”11 月 26 日登场,鸿蒙智行公布尊界 S800 豪华轿车官图

btna科技网 11 月 23 日消息,今天下午,鸿蒙智行官微公布了华为、江淮合作打造的“百万级”豪华轿车 —— 尊界 S800 的官图,海报上的宣传语为“时代旗舰”,该车将于 11 月26 日华为 Mate 70 系列手机发布会公开亮相。这张海报完整地展示了新车侧面和车尾部分 ...

数码 4 2024-11-23
史诗级更新,微信 PC 版 4.0.1 内测支持发布朋友圈

史诗级更新,微信 PC 版 4.0.1 内测支持发布朋友圈

btna科技网 11 月 23 日消息,据多位btna科技网小伙伴反馈,微信 PC 版近日迎来 4.0.1 更新内测,带来了发布朋友圈功能。可发表朋友圈;可查看朋友的朋友圈相册;可在“聊天文件”中管理所有聊天中的文件;增加通讯录管理;增加浮窗功能。此外,该版本相比 ...

数码 5 2024-11-23