微软开源多功能视觉模型Florence-2,分割、识别一切图片!

| 2024-11-16| 1

微软Azure AI 团队宣布开源视觉模型——Florence-2

据悉,Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。

例如,上传一张风景照片,让其解读一下图片的内容;或者上传一张超市货架的照片,让其精准找出牛奶的所在位置。

Florence-2一共有230M和770M两个版本,在多个知名基准测试中零样本的表现非常出色高于同类模型。目前,Florence-2的总下载量已超过120万非常火爆。

开源地址:https://huggingface.co/microsoft/Florence-2-large

在线demo:https://huggingface.co/spaces/gokaygokay/Florence-2

Florence-2之所以拥有如此多的视觉功能和强大的泛化能力,是因为使用了一个超大的数据集FLD-5B,包含1.26亿张图像和54亿个数据标注。

同时该数据集使用了自动化图像标注技术与模型迭代的结合,通过多个模型协作确保了数据的高质量和多样性。

模型架构方面,Florence-2基于Transformer并采用了序列到序列(seq2seq)的学习方法,模型的这一部分由编码器和解码器组成,编码器负责将图像转换为序列表示,而解码器则将这些表示转换为输出文本。

这种设计不仅提高了模型处理任务的灵活性,也使得模型能够以一种统一的方式来处理各种视觉任务。

其他关键模块包括:图像编码器,主要负责将输入图像转换为视觉token嵌入;Florence-2使用DaViT作为图像编码器,这种编码器通过注意力机制捕捉图像特征,为后续的处理提供了丰富的视觉信息。

多模态编码器-解码器,采用标准的Transformer架构,通过自注意力机制实现多模态信息的融合。这种融合使得模型能够更好地理解和生成与视觉内容相关的文本。

位置编码,为Florence-提供了区域级别的空间信息,在目标检测和分割等任务中尤为重要,使得模型能够识别图像中的具体区域。

统一表示则是Florence-2的一大创新亮点,可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等,整合到一个统一的框架中,帮助模型在不同的任务之间共享知识,提高学习效率。

为了评测Florence-2的性能,研究人员在COCO、ADE20K、Flickr30k Entities等知名基准测试平台进行了综合评估。

结果显示,Florence-2在零样本学习和微调学习设置下都展现出了卓越的性能,例如,在COCO目标检测和实例分割任务中,它超越了先前的最佳模型,显示了更强的识别精度和分割能力。

在ADE20K语义分割测试任务中,模型也展示了优越的表现,表明其不仅在高层语义理解上有出色表现,对于底层细节的捕捉同样精准。

尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美

Tags: , ,

上一篇

已是最后文章

下一篇

已是最新文章

相关推荐相关推荐

大饼轮毂+星河尾灯!华为首款百万级豪车尊界S800首张官图发布

大饼轮毂+星河尾灯!华为首款百万级豪车尊界S800首张官图发布

11月23日消息,刚刚,华为终端官方发布了尊界首款车型S800的后方45°官图,其实这张图昨晚已经偷跑过一次,不过偷跑的那张图画质比较低。

科技 7 2024-11-23
这是世界上最圆的物体!一个价值千万、可以改变世界

这是世界上最圆的物体!一个价值千万、可以改变世界

在地球上,哪一个物体最接近真正意义上的圆? 答案并非大自然的馈赠,而是人类科技的巅峰杰作——由超纯硅制成的球体。 图源:nist 有多圆?如果硅球有地球那么大,那么在这颗球上,最深沟壑的和最高的山峰之间只有 5 米近乎完美。 这颗球体不 ...

科技 5 2024-11-23
广电总局:已有超过2亿用户实现“一个遥控器看电视”

广电总局:已有超过2亿用户实现“一个遥控器看电视”

11月23日消息,近年来,众多用户纷纷反映遥控器操作非常复杂、家里为了看直播得两个遥控器常年来回切、设备之间不知如何切换等烦恼。

科技 7 2024-11-23
俄罗斯社区祝贺《黑神话》获奖:当之无愧 为中国鼓掌

俄罗斯社区祝贺《黑神话》获奖:当之无愧 为中国鼓掌

2024金摇杆奖年度游戏已公布,《黑神话:悟空》获年度游戏、最佳视觉设计奖。俄媒Playground第一时间进行了报道,称这是令人难以置信的成就。

科技 5 2024-11-23
REDMI Watch 5超大屏惊艳亮相 网友直呼小米手环9买早了

REDMI Watch 5超大屏惊艳亮相 网友直呼小米手环9买早了

11月23日消息,REDMI品牌总经理王腾今天分享了REDMI Watch 5的最新预热海报,宣布这款新品将与K80系列一同亮相。

科技 5 2024-11-23
22项核心数据 香山智能体脂秤新低:只要19元

22项核心数据 香山智能体脂秤新低:只要19元

【京东自营】香山智能体脂秤(升级 LED 全包底壳)官方售价 69.9 元,今年日常大促价 59.9 元。

科技 7 2024-11-23
男子打赏女主播630万 自己啃馒头充饥 只为听一声哥哥

男子打赏女主播630万 自己啃馒头充饥 只为听一声哥哥

11月23日消息,近日,浙江宁波发生一起令人吃惊的事件。 据报道,一名男子因沉迷于网络直播,多次在直播间豪掷千金,累计打赏女主播高达400多万元。 面对家人对其消费行为的限制,该男子并未收敛,反而走上了犯罪的道路。他竟然盗窃工厂财物达40余次之多 ...

科技 3 2024-11-23
特斯拉股价大涨助推 马斯克个人财富创下历史新高

特斯拉股价大涨助推 马斯克个人财富创下历史新高

凭借特斯拉股价近段时间的大幅上涨,世界首富埃隆·马斯克的身家水涨船高,其个人净资产创下了历史新高。

科技 3 2024-11-23
AI投毒第一案!GPT写的代码竟有后门 程序员被骗1.8万元

AI投毒第一案!GPT写的代码竟有后门 程序员被骗1.8万元

11月23日消息,随着AI大模型技术的不断进步,众多职业的工作效率得到了显著提升。 例如,在编程领域,这些先进的AI工具不仅能够协助程序员编写代码,还能高效地解决程序中的BUG,成为开发者们不可或缺的助手。 然而,近期发生的一起事件却引发了业界对AI ...

科技 6 2024-11-23
微信将14天后自动清理原图原视频 网友:很懂大家痛点

微信将14天后自动清理原图原视频 网友:很懂大家痛点

11月23日消息,微博话题微信将14天后自动清理原图原视频引发热议。 据报道,微信发布8.0.54正式版更新,多位用户发现微信正在小范围灰度测试一项清理原图、原视频的新功能。 该功能为原图、原视频14天自动清理,用户可在微信设置-通用-照片、视频、文件 ...

科技 4 2024-11-23