GPT-4看图聊天还没上线,就已经被超越了。
近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。
BLIP家族中增加了一个新成员:InstructBLIP
据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。
比如,下图这一场景可能发生了什么?
InstructBLIP推理出,可能飓风,或者恶劣的天气因素造成的。
给我介绍下这幅画
进行多轮对话
研究人员表示,正是基于强大BLIP-2,才使得InstructBLIP「看」的更好。
最最重要的是,InstructBLIP在多个任务上实现了最先进的性能,甚至在图片解释和推理上表现优于GPT4。
为啥如此之强?
新王者:InstructBLIP
InstructBLIP的主要意义就在于解决视觉-语言指令微调中的挑战,并对模型未见过的数据和任务的改进泛化能力进行系统研究。
论文地址:https://arxiv.org/pdf/2305.06500.pdf
在论文中,研究人员首先介绍了指令微调数据的构建,然后则是具体的训练过程。
之后,分别从模型和数据的角度阐述了两种提高指令微调性能的技术。
为了保证指令微调数据的多样性,同时考虑到它们的可及性,研究人员收集了大量公开可用的视觉语言数据集,并将它们转化为指令微调格式。
下图中,研究人员最终收集的数据涵盖了11个任务类别和28个数据集。
其中包括图像字幕、带有阅读理解的图像字幕、视觉推理、图像问题回答、基于知识的图像问题回答,带阅读理解的图像问题回答,图像问题的生成(与QA数据集相反),视频问题回答,视觉对话问题回答,图像分类,以及LLaVA-Instruct-150K。
对于每一项任务,研究人员都会用自然语言制作10-15个不同的指令模板。这些模板是构建指令微调数据的基础,它阐明了任务并划定了目标。
对于固有的偏向于短反应的公共数据集,研究人员在一些相应的指令模板中使用较短的术语,以减少模型适应总是生成短回应的风险。
对于LLaVA-Instruct-150K数据集,研究人员没有加入额外的指令模板,因为它是自然结构的指令格式。
现有的零样本图像到文本的生成方法,包括BLIP-2,在提取视觉特征时采取了与指令并无关系的方法。
也就是说,LLM中的视觉输入是不知道指令的,这并不利于该模型在不同任务中的灵活性。