视觉语言模型 (VLM) 是一种人工智能 (AI) 模型,其整合了计算机视觉和自然语言处理 (NLP) 功能。
VLM 学习映射文本数据与图像或视频等视觉数据之间的关系,从而允许这些模型从视觉输入生成文本或在视觉信息的上下文中理解自然语言提示。
VLM 也称为可视语言模型,它将大型语言模型 (LLM) 与视觉模型或视觉机器学习 (ML) 算法相结合。
作为多模式 AI 系统,VLM 以文本和图像或视频作为输入,并产生文本作为输出,通常以图像或视频描述的形式,回答有关图像的问题或识别图像的某些部分或视频中的对象。
视觉语言模型通常由两个关键组件组成:
语言编码器捕获单词和短语之间的语义和上下文关联,并将其转换为文本嵌入,以供 AI 模型处理。
大多数 VLM 使用一种特定的神经网络架构,称为转换器模型,作为其语言编码器。转换器的示例包括 Google 的 BERT(基于转换器的双向编码器表示),这是支持当今许多 LLM 的最早的基础模型之一,以及 OpenAI 的生成式预训练转换器 (GPT)。
以下是转换器架构的简要概述:
视觉语言模型的训练策略涉及对齐和融合来自视觉和语言编码器的信息,以便 VLM 可以学习如何将图像与文本关联起来,并综合这两种模式做出决策。
VLM 训练通常采用多种方法:
对比学习将来自两个编码器的图像和文本嵌入映射到联合或共享的嵌入空间。VLM 在图像-文本对的数据集上进行训练,并学习最小化匹配对嵌入之间的距离并最大化不匹配对的嵌入之间的距离。
一种常见的对比学习算法是 CLIP(对比语言-图像预训练)。CLIP 使用从互联网获取的 4 亿个图像-说明对进行训练,并表现出很高的零样本分类准确性。1
遮蔽是另一种训练技术,其中视觉语言模型学习预测输入文本或图像中随机遮挡的部分。在遮蔽语言建模中,VLM 学习填写给定的未遮蔽图像的文本说明中缺少的单词。
同时,在遮蔽的图像建模中,VLM 学习在给定未遮蔽文本说明的情况下重建图像中的隐藏像素。
FLAVA(基础语言和视觉对齐)就是使用遮蔽的模型的一个示例。FLAVA 采用视觉转换器作为图像编码器,并为语言编码器和多模态编码器采用转换器架构。
多模态编码器应用交叉注意力机制来集成文本和视觉信息。FLAVA 的训练包括遮蔽建模和对比学习。1
从头开始训练视觉语言模型可能需要大量资源且成本高昂,因此可以从预训练模型来构建 VLM。
可以使用预训练的 LLM 和预训练的视觉编码器,再加上一个映射网络层,将图像的视觉表示与 LLM 的输入空间对齐或投影。
LLaVA(大型语言和视觉助手)就是根据预训练模型开发的 VLM 的一个示例。该多模态模型使用 Vicuna LLM 和 CLIP ViT 作为视觉编码器,使用线性投影器将它们的输出合并到共享维度空间中。1
为 VLM 收集高质量的训练数据可能很繁琐,但一些现有的数据集可用于更具体下游任务的预训练、优化和微调。
例如,ImageNet 包含数百万张带注释的图像,而 COCO 则包含数千张带标签的图像,用于大规模字幕添加、对象检测和分割。同样,LAION 数据集由数十亿个多语言图像-文本对组成。
VLM 可以弥合视觉和语言信息之间的差距。以前每种模式需要 2 个独立的 AI 模型,现在可以合并为 1 个模型。
VLM 可用于一系列视觉语言任务:
视觉语言模型可以生成详细的图像字幕或描述。它们还可以汇总文档中的视频和视觉信息,例如医疗装置中的医学图像或制造设施中的设备维修图表。
DAL-E、Imagen、Midjourney 和 Stable Diffusion 等文本到图像生成器可以帮助创作与书面内容相匹配的美术作品或图像。企业还可以在设计和原型制作阶段使用这些工具,帮助可视化产品创意。
VLM 可以搜索大型图片库或视频数据库,并根据自然语言查询检索相关照片或视频。这可以改善电子商务网站上购物者的用户体验,例如,帮助他们查找特定商品或在庞大的目录中浏览。
视觉语言模型可以根据其从图像中学习到并提取的空间特征将图像划分为多个片段。然后,VLM 可以提供这些分段的文本描述。
它还可以生成边界框来定位对象,或提供其他形式的注释,如标签或彩色高亮,以指定与查询相关的图像部分。
这对于预测性维护非常有价值,例如,帮助分析工厂车间的图像或视频以实时检测潜在的设备缺陷。
视觉语言模型可以识别和分类图像中的对象,并提供上下文描述,例如对象相对于其他视觉元素的位置。
例如,物体检测可用于机器人技术,使机器人更好地了解其环境并理解视觉指令。
视觉语言模型正在迅速发展,有可能像当前先进的 LLM 一样普及。
以下是一些热门 VLM 的示例:
Gemini 2.0 Flash 是 Google Gemini 模型套件的一部分。输入模式包括音频、图像、文本和视频,输出纯文本。图像生成功能即将推出。
OpenAI 的 GPT-4o 是一个跨音频、视觉和文本数据进行端到端训练的单一模型。它可以接受音频、图像、文本和视频的混合输入,生成音频、图像和文本的任意组合输出;其由同一个神经网络处理所有输入和输出。
其较小的同类产品 GPT-4o mini 支持图像和文本输入,并生成文本输出。
Llama 3.2 开源模型包括 2 个 VLM,参数大小分别为 110 亿和 900 亿。输入可以是文本和图像的组合,输出为纯文本。3
根据 Meta 的说法,VLM 架构由 ViT 图像编码器、视频适配器和图像适配器组成。4单独训练的图像适配器有一系列交叉注意层,可将图像编码器表征输入预训练的 Llama 3.1 LLM。3
NVLM 是来自 NVIDIA 的多模态模型系列。NVLM-D 是一个仅解码器模型,它将图像词元直接输入 LLM 解码器。
NVLM-X 采用交叉注意力机制来处理图像词元,在处理高分辨率图像方面可以更高效。NVLM-H 采用一种混合架构,结合了仅解码器方法和交叉注意力方法,提高了计算效率和推理能力。5
Qwen 2.5-VL 是中国云计算公司阿里云的旗舰视觉语言模型。它有 30 亿、70 亿和 720 亿参数三种规模。
该模型使用 ViT 视觉编码器和 Qwen 2.5 LLM。它可以理解长度为一个小时以上的视频,并可以浏览桌面和智能手机界面。
与 LLM 一样,VLM 也有自己的基准。每个基准可能都有自己的排行榜,但也有独立的排行榜,例如 Hugging Face 上发布的 OpenVLM 排行榜,它们根据各种指标对开源视觉语言模型进行排名。
以下是视觉语言模型的一些常见基准:
对 VLM 进行基准测试可能非常耗时,但一些工具可以帮助简化该过程。VLMEvalKit 是一个开源评估工具包,允许对 VLM 进行单命令评估。另一个评估套件是 LMMs-Eval,它也提供了用于评估的命令行界面。
与任何 AI 系统一样,VLM 仍然需要应对 AI 的风险。企业在考虑将视觉语言模型集成到其内部工作流中或在商业应用中实施时必须牢记这一点。
以下是与 VLM 相关的一些挑战:
视觉语言模型可以从它们训练所使用的真实世界数据中或它们用作基础的预训练模型中可能存在的偏见中学习。使用多样的数据源并在整个过程中纳入人工监督有助于减少偏见。
视觉模型和语言模型本身已经很复杂了,因此合并它们会进一步增加它们的复杂性。这种复杂性导致需要更多计算资源,从而难以大规模部署 VLM。公司必须准备好投资开发、训练和部署这些模型所需的资源。
视觉语言模型可能容易产生 AI 幻觉。验证这些模型的结果是确保它们事实准确的关键步骤。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
所有链接均为 ibm.com 外部链接
1 An Introduction to Vision-Language Modeling, arXiv, 27 May 2024.
2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 December 2024.
3 Model Information, GitHub, 30 September 2024.
4 The Llama 3 Herd of Models , arXiv, 23 November 2024.
5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 October 2024.