刚刚,沈向洋官宣通用视觉大模型!无需提示,就能识别万物

| 2024-11-23| 2

无需用户提示,AI就可以识别万物!

而且精度更高、速度更快。

刚刚,IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果:通用视觉大模型DINO-X

它实现视觉任务大一统,支持各种开发世界感知和目标理解任务,包括开放世界对象检测与分割、短语定位、视觉提示计数、姿态估计、无提示对象检测与识别、密集区域字幕等。

这背后得益于,他们构建了超过一亿高质量样本的大型数据集Grounding-100M。

与之前DINO家族中Grounding DINO1.5类似,DINO-X 也分为DINO-X Pro模型和DINO-X Edge模型。

前者可为各种场景提供更强的感知能力,后者经过优化,推理速度更快,更适合部署在边缘设备上。

实验结果表明,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零镜头物体检测基准测试中分别获得了56.0AP、59.8AP和52.4AP 的成绩。

尤其是在 LVIS-minival 和 LVIS-val 这两个罕见类别的基准测试中实现新SOTA——

分别获得了63.3AP 和56.5AP 的成绩,都比之前的SOTA性能提高了5.8AP。

这一结果表明,它在识别长尾物体方面的能力有了显著提高。

在开放世界,AI识别万物

总结来看,DINO-X主要有四个方面的特点。

首先就是全面检测,几乎可识别所有物体。DINO-X称得上目前业界检测最全的通用视觉模型,甚至无需用户提示。

然后是泛化和通用性。在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。

细粒度目标理解:DINO-X通过统一多个视觉任务,实现了多样化输出,包括边界框、分割掩码、关键点和描述文本,提升了模型在复杂场景下的理解能力。

多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。

跟之前的版本 GroundingDINO1.5Pro 和 Grounding DINO1.6Pro相比,此次通用视觉大模型DINO-X 进一步增强了语言理解能力,同时在密集物体检测场景中表现出色。

如何做到?

DINO-X可接受文本提示、视觉提示和自定义提示,并能同时生成从粗略的表示(如边框)到精细的细节(包括遮罩、关键点和对象标题)等各种输出。

DINO-X Pro的核心架构,与Grounding DINO1.5类似,利用预先训练好的 ViT 模型作为主要的视觉骨干,并在特征提取阶段采用了深度早期融合策略。

但不同的是,他们扩大了DINO-X Pro在输入阶段的提示支持,除了文本,还支持视觉提示和自定义提示,以满足包括长尾物体在内的各种检测需求。

而对于DINO-X Edge版本,他们利用 EfficientViT作为高效特征提取的骨干,并采用了类似Transformer编码器-解码器架构。

此外,为了提高 DINO-X Edge 模型的性能和计算效率,他们还对模型结构和训练技术做了几个方面的改进。

更强的文本提示编码器,采用了与pro模型相同的 CLIP 文本编码器。

知识提炼:从 Pro 模型中提炼知识,以提 Edge 模型的性能。具体来说,团队利用基于特征的蒸馏和基于响应的蒸馏,分别调整Edge模型和 Pro模型之间的特征和预测对数。

改进FP16推理:采用浮点乘法归一化技术,在不影响精度的情况下将模型量化为 FP16。

拥有了对开放世界的视觉感知

DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,可以轻松应对真实世界中的众多不确定性和开放环境。

IDEA研究院创院理事长沈向洋提到了具身智能、大规模多模态数据的自动标注、视障人士服务等这几个场景。

对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域,DINO-X使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会发展注入新的活力。

IDEA研究院一系列视觉大模型,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。

Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具

目前,IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。

一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法, 通过在物体级别的理解上加入语言模块优化大模型幻觉问题。

另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。

IDEA研究院通用视觉大模型行业平台架构

论文链接:https://arxiv.org/abs/2411.14347

官网链接:https://deepdataspace.com/home

Tags: , ,

上一篇

已是最后文章

下一篇

已是最新文章

相关推荐相关推荐

比亚迪否认收购蔚来汽车:严重不实,请大家不信谣不传谣

比亚迪否认收购蔚来汽车:严重不实,请大家不信谣不传谣

btna科技网 11 月 22 日消息,针对网传“比亚迪收购蔚来汽车”消息,比亚迪集团品牌及公关处总经理李云飞今日在微博回应称:网传的比亚迪与蔚来汽车相关的投资及合作信息,为严重不实信息!请大家不信谣,不传谣。此外,蔚来汽车品牌与传播助理副总裁马麟在 ...

数码 0 2024-11-23
小米汽车:HyperOS 1.4.3 版本新增车速过高提醒,每次车辆启动时默认开启、并不会进行动力限制

小米汽车:HyperOS 1.4.3 版本新增车速过高提醒,每次车辆启动时默认开启、并不会进行动力限制

btna科技网 11 月 22 日消息,小米汽车官方今晚发布答网友问(第九十九集),就新增的车速过高提醒功能进行详解。btna科技网汇总问答内容如下:最近小米 SU7 有新增「车速过快」的系统提示音,这是更新的新功能么?在刚刚推送的 Xiaomi HyperOS 1.4.3 版 ...

数码 0 2024-11-23
北汽享界汽车法务部正式起诉自媒体“袁启聪”

北汽享界汽车法务部正式起诉自媒体“袁启聪”

btna科技网 11 月 22 日消息,享界汽车法务部官博今日发布首条微博,宣布正式起诉自媒体“袁启聪”,btna科技网附公告内容如下:正式起诉自媒体“袁启聪”自媒体“袁启聪”及其相关矩阵账号在“新浪微博”“今日头条”“哔哩哔哩”等平台发布涉享界 S9 不客观、不严谨 ...

数码 0 2024-11-23
车评人袁启聪回应被北汽享界起诉:积极应诉,实事求是,相信法律

车评人袁启聪回应被北汽享界起诉:积极应诉,实事求是,相信法律

btna科技网 11 月 22 日消息,今天下午,享界汽车法务部宣布正式起诉自媒体“袁启聪”。随后,当事人 —— 车评人袁启聪转发了享界法务部的公告并回复称:“好的,积极应诉,实事求是,相信法律。”今天下午,享界汽车法务部官博今日发布首条微博,宣布正式起诉 ...

数码 0 2024-11-23
政府补贴小米京东专场上线:多品类立打 8 折,单笔至高立减 2000 元

政府补贴小米京东专场上线:多品类立打 8 折,单笔至高立减 2000 元

【政府以旧补贴无需旧物,可直接优惠下单】政府补贴小米京东专场现已上线,单笔至高立减 2000 元:点此查看。会场内不仅可领各地政府补贴,还有手机、电视、笔记本、空调、冰洗、扫地机器人、小家电等专场合集,有需求的小伙伴可以逛逛看。小米手机政府补 ...

数码 0 2024-11-23
余承东公布智界新 S7 七种车身颜色,华为 Mate70 Pro + 手机正面同时曝光

余承东公布智界新 S7 七种车身颜色,华为 Mate70 Pro + 手机正面同时曝光

btna科技网 11 月 22 日消息,华为常务董事、终端 BG 董事长,智能汽车解决方案 BU 董事长余承东今晚通过视频号平台更新了一段视频,主要介绍了智界新 S7 的 7 种颜色,同时也展示了手中的 Mate70 系列新机正面。余承东介绍,智界新 S7 提供碧波青、晴光 ...

数码 0 2024-11-23
REDMI 产品线调整:新 K 系列 Pro 机型承接小米数字涨价后空档,Turbo 系列定位“2-3K”档

REDMI 产品线调整:新 K 系列 Pro 机型承接小米数字涨价后空档,Turbo 系列定位“2-3K”档

btna科技网 11 月 22 日消息,小米 REDMI K80 系列手机将于 11 月 27 日晚 7 点发布,系列手机将迎来定位和规格升级。小米中国区市场部副总经理、REDMI 品牌总经理王腾今日发文就 REDMI 品牌产品线调整情况作出解释,他称新的 K 系列 Pro 机型价格档位会 ...

数码 0 2024-11-23
消息称英伟达 RTX 5090 显卡 GPU 尺寸比 RTX 4090 的大 22%,仅次于 TU102

消息称英伟达 RTX 5090 显卡 GPU 尺寸比 RTX 4090 的大 22%,仅次于 TU102

btna科技网 11 月 23 日消息,据MEGAsizeGPU 昨日爆料,英伟达 RTX 5090 显卡的芯片尺寸比 RTX 4090 的芯片尺寸大 22%。爆料称,RTX 5090 显卡搭载的 GB202 GPU 尺寸为 24*31mm,也就是744mm²。而目前英伟达 RTX 4090 搭载的AD102 GPU 尺寸为 608 mm²。如 ...

数码 0 2024-11-23
“时代旗舰”11 月 26 日登场,鸿蒙智行公布尊界 S800 豪华轿车官图

“时代旗舰”11 月 26 日登场,鸿蒙智行公布尊界 S800 豪华轿车官图

btna科技网 11 月 23 日消息,今天下午,鸿蒙智行官微公布了华为、江淮合作打造的“百万级”豪华轿车 —— 尊界 S800 的官图,海报上的宣传语为“时代旗舰”,该车将于 11 月26 日华为 Mate 70 系列手机发布会公开亮相。这张海报完整地展示了新车侧面和车尾部分 ...

数码 0 2024-11-23
史诗级更新,微信 PC 版 4.0.1 内测支持发布朋友圈

史诗级更新,微信 PC 版 4.0.1 内测支持发布朋友圈

btna科技网 11 月 23 日消息,据多位btna科技网小伙伴反馈,微信 PC 版近日迎来 4.0.1 更新内测,带来了发布朋友圈功能。可发表朋友圈;可查看朋友的朋友圈相册;可在“聊天文件”中管理所有聊天中的文件;增加通讯录管理;增加浮窗功能。此外,该版本相比 ...

数码 0 2024-11-23