天天滚动:北大清华等联合发布LLaVA-o1:首个自发性视觉AI模型,推理计算Scaling新思路

智趣 | 2024-11-19| 9

大家好,今天小编来为大家解答【北大清华等联合发布LLaVA-o1:首个自发性视觉AI模型,推理计算Scaling新思路】这个问题,很多人还不知道,现在让我们一起来看看吧!

IT之家 11 月 19 日消息,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性(Spontaneous,具体解释可参考文末)、类似于 GPT-o1 的系统性推理视觉语言模型。

LLaVA-o1 是一种新型的视觉语言模型(VLM),其设计目标是进行自主的多阶段推理。

LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。

该模型使用名为 LLaVA-o1-100k 的数据集进行微调,该数据集源自视觉问答(VQA)来源和由 GPT-4o 生成的结构化推理注释。

LLaVA-o1 采用了阶段级束搜索(stage-level beam search)的推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选取最佳答案。

该模型在处理复杂任务时具备较强的能力,在复杂视觉问答任务中,可以突破传统视觉语言模型的局限性。

与基础模型相比,LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能,超过了许多大型和闭源的竞争对手。

LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白,在多个基准测试中的优异表现,特别是在数学和科学视觉问题的推理领域,展示了结构化推理在视觉语言模型中的重要性。

自发性人工智能(Spontaneous AI)是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

以上就是【北大清华等联合发布LLaVA-o1:首个自发性视觉AI模型,推理计算Scaling新思路】相关内容,更多资讯请关注科技网

相关推荐相关推荐

每日热门:惊叹!iPhone 17 系列将采用横置摄像模组

每日热门:惊叹!iPhone 17 系列将采用横置摄像模组

大家好,今天小编来为大家解答【惊叹!iPhone 17 系列将采用横置摄像模组】这个问题,很多人还不知道,现在让我们一起来看看吧!知名数码博主@数码闲聊站今日发布消息,根据供应链物料信息透露,苹果iPhone 17系列手机将采用全新的横条形三摄布局设计。这 ...

智趣 4 2024-12-12
黄河时评|火星上的第一次坠机事件:NASA查明了机智号最后飞行中的问题

黄河时评|火星上的第一次坠机事件:NASA查明了机智号最后飞行中的问题

大家好,今天小编来为大家解答【火星上的第一次坠机事件:NASA查明了机智号最后飞行中的问题】这个问题,很多人还不知道,现在让我们一起来看看吧!这架无畏的火星直升机于2024年1月发生故障,NASA现在终于知道原因了。一年前,破纪录的机智号直升机折断 ...

智趣 3 2024-12-12
热点播报:首届中国创新影像大赛结果发布,获奖作品题材丰富样态多元

热点播报:首届中国创新影像大赛结果发布,获奖作品题材丰富样态多元

大家好,今天小编来为大家解答【首届中国创新影像大赛结果发布,获奖作品题材丰富样态多元】这个问题,很多人还不知道,现在让我们一起来看看吧!在2024年12月12日举行的北京国际视听大会开幕式及主题论坛上,中国电影电视技术学会理事长、中央广播电视总 ...

智趣 2 2024-12-12
全球速看:博主“徐里里Xll”回应被比亚迪起诉 回应:将积极应诉

全球速看:博主“徐里里Xll”回应被比亚迪起诉 回应:将积极应诉

大家好,今天小编来为大家解答【博主“徐里里Xll”回应被比亚迪起诉 回应:将积极应诉】这个问题,很多人还不知道,现在让我们一起来看看吧!快科技12月12日消息,日前,比亚迪法务部宣布将起诉博主“徐里里Xll”,并要求赔偿500万元。对此,“徐里里Xll”回应 ...

智趣 3 2024-12-12
【新浪热榜】我们和GSMA总裁斯寒聊了聊中国三大运营商和AI发展

【新浪热榜】我们和GSMA总裁斯寒聊了聊中国三大运营商和AI发展

大家好,今天小编来为大家解答【我们和GSMA总裁斯寒聊了聊中国三大运营商和AI发展】这个问题,很多人还不知道,现在让我们一起来看看吧!凤凰网科技讯 12月12日,全球移动通信系统协会(GSMA)总裁斯寒接受了凤凰网科技的采访。在谈到中国三大运营商时, ...

智趣 5 2024-12-12
当前动态:马化腾在《人民日报》撰文:相信民营企业一定会有光明的前景

当前动态:马化腾在《人民日报》撰文:相信民营企业一定会有光明的前景

大家好,今天小编来为大家解答【马化腾在《人民日报》撰文:相信民营企业一定会有光明的前景】这个问题,很多人还不知道,现在让我们一起来看看吧!12月12日出版的《人民日报》在第17版刊发了整版报道《全国政协委员、工商界人士接受本报采访表示:增强发 ...

智趣 3 2024-12-12
新华全媒+|LG同“黑眼豆豆”乐队成员will.i.am达成合作,CES 2025发布联名音频产品

新华全媒+|LG同“黑眼豆豆”乐队成员will.i.am达成合作,CES 2025发布联名音频产品

大家好,今天小编来为大家解答【LG同“黑眼豆豆”乐队成员will.i.am达成合作,CES 2025发布联名音频产品】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 12 日消息,LG 电子韩国当地时间 10 日宣布同经典说唱乐队“黑眼豆豆”(IT之家注: ...

智趣 9 2024-12-12
黄河时评|LG停止生产蓝光播放器,实体光盘前景堪忧

黄河时评|LG停止生产蓝光播放器,实体光盘前景堪忧

大家好,今天小编来为大家解答【LG停止生产蓝光播放器,实体光盘前景堪忧】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 12 日消息,据 FlatpanelsHD 报道,LG 已停止生产其蓝光播放器系列,包括 UBK80 和 UBK90 机型。目前库存有限 ...

智趣 8 2024-12-12
世界短讯|OpenAI ChatGPT全球范围内宕机,苹果iOS 18.2 Siri受牵连

世界短讯|OpenAI ChatGPT全球范围内宕机,苹果iOS 18.2 Siri受牵连

大家好,今天小编来为大家解答【OpenAI ChatGPT全球范围内宕机,苹果iOS 18.2 Siri受牵连】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 12 日消息,OpenAI 已证实其人工智能聊天机器人 ChatGPT 目前正经历全球范围的宕机,导致用户 ...

智趣 8 2024-12-12
【事件分析】Sora终于来了,但多模态AI呼唤实用主义

【事件分析】Sora终于来了,但多模态AI呼唤实用主义

大家好,今天小编来为大家解答【Sora终于来了,但多模态AI呼唤实用主义】这个问题,很多人还不知道,现在让我们一起来看看吧!1Sora的现实问题随着ChatGPT等大语言模型的问世,人工智能进入了一个全新的时代。在这股浪潮中,多模态AI技术成为业界竞相追逐 ...

智趣 8 2024-12-12