推广 热搜: 终于知道  2022  1*1  2023 

超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,横扫多项SOTA

   日期:2023-05-15     浏览:0    评论:0    
核心提示:【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。GPT-4看图聊天还
 【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。

GPT-4看图聊天还没上线,就已经被超越了。

近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。

BLIP家族中增加了一个新成员:InstructBLIP

据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。

比如,下图这一场景可能发生了什么?

InstructBLIP推理出,可能飓风,或者恶劣的天气因素造成的。

给我介绍下这幅画

进行多轮对话

研究人员表示,正是基于强大BLIP-2,才使得InstructBLIP「看」的更好。

最最重要的是,InstructBLIP在多个任务上实现了最先进的性能,甚至在图片解释和推理上表现优于GPT4。

为啥如此之强?

新王者:InstructBLIP

InstructBLIP的主要意义就在于解决视觉-语言指令微调中的挑战,并对模型未见过的数据和任务的改进泛化能力进行系统研究。

论文地址:https://arxiv.org/pdf/2305.06500.pdf

在论文中,研究人员首先介绍了指令微调数据的构建,然后则是具体的训练过程。

之后,分别从模型和数据的角度阐述了两种提高指令微调性能的技术。

为了保证指令微调数据的多样性,同时考虑到它们的可及性,研究人员收集了大量公开可用的视觉语言数据集,并将它们转化为指令微调格式。

下图中,研究人员最终收集的数据涵盖了11个任务类别和28个数据集。

其中包括图像字幕、带有阅读理解的图像字幕、视觉推理、图像问题回答、基于知识的图像问题回答,带阅读理解的图像问题回答,图像问题的生成(与QA数据集相反),视频问题回答,视觉对话问题回答,图像分类,以及LLaVA-Instruct-150K。

对于每一项任务,研究人员都会用自然语言制作10-15个不同的指令模板。这些模板是构建指令微调数据的基础,它阐明了任务并划定了目标。

对于固有的偏向于短反应的公共数据集,研究人员在一些相应的指令模板中使用较短的术语,以减少模型适应总是生成短回应的风险。

对于LLaVA-Instruct-150K数据集,研究人员没有加入额外的指令模板,因为它是自然结构的指令格式。

现有的零样本图像到文本的生成方法,包括BLIP-2,在提取视觉特征时采取了与指令并无关系的方法。

也就是说,LLM中的视觉输入是不知道指令的,这并不利于该模型在不同任务中的灵活性。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行

网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  苏ICP备19027764号-1