【新浪热榜】阿里通义千问开源视觉推理模型QVQ-72B-Preview:像物理学家一样思考

智趣 | 2024-12-25| 8

大家好,今天小编来为大家解答【阿里通义千问开源视觉推理模型QVQ-72B-Preview:像物理学家一样思考】这个问题,很多人还不知道,现在让我们一起来看看吧!

IT之家 12 月 25 日消息,阿里通义千问 Qwen 团队今天(12 月 25 日)发布博文,宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。

阿里通义千问团队在 4 个数据集上评估 QVQ-72B-Preview,IT之家附上相关介绍如下:

MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。

MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。

MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于 MathVista 具有更多的问题多样性和学科广度。

OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的 8,476 个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程。

测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

阿里通义千问 Qwen 团队也表示 QVQ-72B-Preview 是实验性研究模型,专注于增强视觉推理能力。尽管它的表现超出了预期,但仍有几个限制需要注意:

语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。

递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。

安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。

性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

以上就是【阿里通义千问开源视觉推理模型QVQ-72B-Preview:像物理学家一样思考】相关内容,更多资讯请关注科技网

相关推荐相关推荐

中青网评:华为比亚迪联手,投出一个IPO

中青网评:华为比亚迪联手,投出一个IPO

大家好,今天小编来为大家解答【华为比亚迪联手,投出一个IPO】这个问题,很多人还不知道,现在让我们一起来看看吧!东莞超级独角兽,要IPO了。12月23日,港交所披露易公示,中国首家技术领先的专业碳化硅外延片供应商广东天域半导体股份有限公司(简称: ...

智趣 3 2024-12-25
新闻早报:TikTok Shop东南亚狂奔一年:内容电商的加速与爆发

新闻早报:TikTok Shop东南亚狂奔一年:内容电商的加速与爆发

大家好,今天小编来为大家解答【TikTok Shop东南亚狂奔一年:内容电商的加速与爆发】这个问题,很多人还不知道,现在让我们一起来看看吧!作者 | 唐飞编辑 | 李小天在全球电商市场中,东南亚正在成为商家角逐的关键战场。2023年,东南亚电商市场的增速达 ...

智趣 5 2024-12-25
微评|5000块买大学生第一次?小红书算法下的隐秘皮肉生意

微评|5000块买大学生第一次?小红书算法下的隐秘皮肉生意

大家好,今天小编来为大家解答【5000块买大学生第一次?小红书算法下的隐秘皮肉生意】这个问题,很多人还不知道,现在让我们一起来看看吧!别忘了拉到最下面添加我们的粉丝群哦~5000块就能得到女大学生的第一次,不满意还能帮忙介绍隔壁学校学妹;找搭子 ...

智趣 6 2024-12-25
新华时评|跨境电商走向精细化,考验物流的时刻到了

新华时评|跨境电商走向精细化,考验物流的时刻到了

大家好,今天小编来为大家解答【跨境电商走向精细化,考验物流的时刻到了】这个问题,很多人还不知道,现在让我们一起来看看吧!作者 | 刘宇编辑 | 刘景丰不久前,号称史上最长促销季的2024年“黑五网一”大促落下帷幕。根据Adobe Analytics数据显示,今年 ...

智趣 5 2024-12-25
[看点]ASML CEO:美国造半导体光有钱不够

[看点]ASML CEO:美国造半导体光有钱不够

大家好,今天小编来为大家解答【ASML CEO:美国造半导体光有钱不够】这个问题,很多人还不知道,现在让我们一起来看看吧!快科技12月25日消息,据媒体报道,全球光刻机巨头阿斯麦ASML富凯(Christophe Fouquet)近期接受荷兰媒体访问时,谈到半导体产业的 ...

智趣 6 2024-12-25
辣评|荣耀Play 9T Pro手机采用“视觉四等窄边”设计,后置50MP镜头

辣评|荣耀Play 9T Pro手机采用“视觉四等窄边”设计,后置50MP镜头

大家好,今天小编来为大家解答【荣耀Play 9T Pro手机采用“视觉四等窄边”设计,后置50MP镜头】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 25 日消息,荣耀 Play 9T Pro 手机将于明日(12 月 26 日)开启预售,该款手机主打“轻薄抗摔 ...

智趣 5 2024-12-25
黄河时评|影视飓风2024年度相机颁奖:iPhone 16 Pro Max获最佳手机视频

黄河时评|影视飓风2024年度相机颁奖:iPhone 16 Pro Max获最佳手机视频

大家好,今天小编来为大家解答【影视飓风2024年度相机颁奖:iPhone 16 Pro Max获最佳手机视频】这个问题,很多人还不知道,现在让我们一起来看看吧!快科技12月25日消息,B站千万粉UP主“影视飓风”公布了2024年度相机颁奖。其中“最佳手机视频”的桂冠颁给了 ...

智趣 3 2024-12-25
本地头条:联想CES 2025多款新品曝光,含太阳能供电键盘、卷轴屏电脑等等

本地头条:联想CES 2025多款新品曝光,含太阳能供电键盘、卷轴屏电脑等等

大家好,今天小编来为大家解答【联想CES 2025多款新品曝光,含太阳能供电键盘、卷轴屏电脑等等】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 25 日消息,Evan Blass 今日曝光了一款联想为 CES 2025 准备的无线蓝牙键盘新品。据他介 ...

智趣 2 2024-12-25
头条资讯:罗永浩瞄准AI硬件!新品理念超前,能否一雪TNT前耻?

头条资讯:罗永浩瞄准AI硬件!新品理念超前,能否一雪TNT前耻?

大家好,今天小编来为大家解答【罗永浩瞄准AI硬件!新品理念超前,能否一雪TNT前耻?】这个问题,很多人还不知道,现在让我们一起来看看吧!罗永浩的“真还传”还未画上句号,“最后一次创业”已在进程中。2022年7月10日,罗永浩创立了细红线科技有限公司,最 ...

智趣 3 2024-12-25
环球热门:“深思熟虑”的AI:OpenAI提出全新安全对齐方法

环球热门:“深思熟虑”的AI:OpenAI提出全新安全对齐方法

大家好,今天小编来为大家解答【“深思熟虑”的AI:OpenAI提出全新安全对齐方法】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提 ...

智趣 3 2024-12-25