超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，横扫多项SOTA

日期：2023-05-15 浏览：0 评论：0

核心提示：【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。GPT-4看图聊天还

【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。

GPT-4看图聊天还没上线，就已经被超越了。

近来，华人团队开源了多模态基础模型InstructBLIP，是从BLIP2模型微调而来的模型。

BLIP家族中增加了一个新成员：InstructBLIP

据介绍，InstructBLIP模型更擅长「看」、「推理」和「说」，即能够对复杂图像进行理解、推理、描述，还支持多轮对话等。

比如，下图这一场景可能发生了什么？

InstructBLIP推理出，可能飓风，或者恶劣的天气因素造成的。

给我介绍下这幅画

进行多轮对话

研究人员表示，正是基于强大BLIP-2，才使得InstructBLIP「看」的更好。

最最重要的是，InstructBLIP在多个任务上实现了最先进的性能，甚至在图片解释和推理上表现优于GPT4。

为啥如此之强？

新王者：InstructBLIP

InstructBLIP的主要意义就在于解决视觉-语言指令微调中的挑战，并对模型未见过的数据和任务的改进泛化能力进行系统研究。

论文地址：https://arxiv.org/pdf/2305.06500.pdf

在论文中，研究人员首先介绍了指令微调数据的构建，然后则是具体的训练过程。

之后，分别从模型和数据的角度阐述了两种提高指令微调性能的技术。

为了保证指令微调数据的多样性，同时考虑到它们的可及性，研究人员收集了大量公开可用的视觉语言数据集，并将它们转化为指令微调格式。

下图中，研究人员最终收集的数据涵盖了11个任务类别和28个数据集。

其中包括图像字幕、带有阅读理解的图像字幕、视觉推理、图像问题回答、基于知识的图像问题回答，带阅读理解的图像问题回答，图像问题的生成（与QA数据集相反），视频问题回答，视觉对话问题回答，图像分类，以及LLaVA-Instruct-150K。

对于每一项任务，研究人员都会用自然语言制作10-15个不同的指令模板。这些模板是构建指令微调数据的基础，它阐明了任务并划定了目标。

对于固有的偏向于短反应的公共数据集，研究人员在一些相应的指令模板中使用较短的术语，以减少模型适应总是生成短回应的风险。

对于LLaVA-Instruct-150K数据集，研究人员没有加入额外的指令模板，因为它是自然结构的指令格式。

现有的零样本图像到文本的生成方法，包括BLIP-2，在提取视觉特征时采取了与指令并无关系的方法。

也就是说，LLM中的视觉输入是不知道指令的，这并不利于该模型在不同任务中的灵活性。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行