什么是视觉语言模型 (VLM)?

什么是视觉语言模型 (VLM)?

视觉语言模型 (VLM) 是一种人工智能 (AI) 模型,其整合了计算机视觉自然语言处理 (NLP) 功能。

VLM 学习映射文本数据与图像或视频等视觉数据之间的关系,从而允许这些模型从视觉输入生成文本或在视觉信息的上下文中理解自然语言提示。

VLM 也称为可视语言模型,它将大型语言模型 (LLM) 与视觉模型或视觉机器学习 (ML) 算法相结合。

作为多模式 AI 系统,VLM 以文本和图像或视频作为输入,并产生文本作为输出,通常以图像或视频描述的形式,回答有关图像的问题或识别图像的某些部分或视频中的对象。

视觉语言模型的要素

视觉语言模型通常由两个关键组件组成:

  • 语言编码器

  • 视觉编码器

语言编码器

语言编码器捕获单词和短语之间的语义和上下文关联,并将其转换为文本嵌入,以供 AI 模型处理。

大多数 VLM 使用一种特定的神经网络架构,称为转换器模型,作为其语言编码器。转换器的示例包括 Google 的 BERT(基于转换器的双向编码器表示),这是支持当今许多 LLM 的最早的基础模型之一,以及 OpenAI 的生成式预训练转换器 (GPT)

以下是转换器架构的简要概述:

  • 编码器将输入序列转换为称为嵌入的数值表示,以捕捉输入序列中令牌的语义和位置。

  • 自我关注机制允许转换器“聚焦”于输入序列中最重要的令牌上,而无论其位置如何。

  • 解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

视觉编码器

视觉编码器从图像或视频输入中提取颜色、形状和纹理等重要视觉属性,并将它们转换为机器学习模型可以处理的向量嵌入

早期版本的 VLM 使用深度学习算法(例如卷积神经网络)进行特征提取。更现代的视觉语言模型采用视觉转换器 (ViT),它应用了基于转换器的语言模型元素。

ViT 将图像处理成图块并将它们视为序列,类似于语言转换器中的词元。然后,视觉转换器会在这些图块上执行自注意力机制,从而创建一个基于转换器的输入图像表征。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

训练视觉语言模型

视觉语言模型的训练策略涉及对齐和融合来自视觉和语言编码器的信息,以便 VLM 可以学习如何将图像与文本关联起来,并综合这两种模式做出决策。

VLM 训练通常采用多种方法:

  • 对比学习

  • 屏蔽

  • 生成式模型训练

  • 预训练模型

对比学习

对比学习将来自两个编码器的图像和文本嵌入映射到联合或共享的嵌入空间。VLM 在图像-文本对的数据集上进行训练,并学习最小化匹配对嵌入之间的距离并最大化不匹配对的嵌入之间的距离。

一种常见的对比学习算法是 CLIP(对比语言-图像预训练)。CLIP 使用从互联网获取的 4 亿个图像-说明对进行训练,并表现出很高的零样本分类准确性。1

屏蔽

遮蔽是另一种训练技术,其中视觉语言模型学习预测输入文本或图像中随机遮挡的部分。在遮蔽语言建模中,VLM 学习填写给定的未遮蔽图像的文本说明中缺少的单词。

同时,在遮蔽的图像建模中,VLM 学习在给定未遮蔽文本说明的情况下重建图像中的隐藏像素。

FLAVA(基础语言和视觉对齐)就是使用遮蔽的模型的一个示例。FLAVA 采用视觉转换器作为图像编码器,并为语言编码器和多模态编码器采用转换器架构。

多模态编码器应用交叉注意力机制来集成文本和视觉信息。FLAVA 的训练包括遮蔽建模和对比学习。1

生成式模型训练

VLM 的生成式模型训练要学习生成新数据。文本到图像的生成会从输入文本生成图像,而图像到文本的生成会从输入图像生成文本,例如字幕、图像描述或摘要。

流行的文本到图像模型的示例包括扩散模型,例如 Google 的 Imagen、Midjourney,OpenAI 的 DALL-E(从 DALL-E 2 开始)和 Stability AI 的 Stable Diffusion。

预训练模型

从头开始训练视觉语言模型可能需要大量资源且成本高昂,因此可以从预训练模型来构建 VLM。

可以使用预训练的 LLM 和预训练的视觉编码器,再加上一个映射网络层,将图像的视觉表示与 LLM 的输入空间对齐或投影。

LLaVA(大型语言和视觉助手)就是根据预训练模型开发的 VLM 的一个示例。该多模态模型使用 Vicuna LLM 和 CLIP ViT 作为视觉编码器,使用线性投影器将它们的输出合并到共享维度空间中。1

为 VLM 收集高质量的训练数据可能很繁琐,但一些现有的数据集可用于更具体下游任务的预训练、优化和微调

例如,ImageNet 包含数百万张带注释的图像,而 COCO 则包含数千张带标签的图像,用于大规模字幕添加、对象检测和分割。同样,LAION 数据集由数十亿个多语言图像-文本对组成。

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。

视觉语言模型用例

VLM 可以弥合视觉和语言信息之间的差距。以前每种模式需要 2 个独立的 AI 模型,现在可以合并为 1 个模型。

VLM 可用于一系列视觉语言任务:

  • 说明和摘要

  • 图片生成

  • 图片搜索和检索

  • 图片分割

  • 对象检测

  • 视觉问题解答 (VQA)

说明和摘要

视觉语言模型可以生成详细的图像字幕或描述。它们还可以汇总文档中的视频和视觉信息,例如医疗装置中的医学图像或制造设施中的设备维修图表。

图像生成

DAL-E、Imagen、Midjourney 和 Stable Diffusion 等文本到图像生成器可以帮助创作与书面内容相匹配的美术作品或图像。企业还可以在设计和原型制作阶段使用这些工具,帮助可视化产品创意。

图片搜索和检索

VLM 可以搜索大型图片库或视频数据库,并根据自然语言查询检索相关照片或视频。这可以改善电子商务网站上购物者的用户体验,例如,帮助他们查找特定商品或在庞大的目录中浏览。

图像分割

视觉语言模型可以根据其从图像中学习到并提取的空间特征将图像划分为多个片段。然后,VLM 可以提供这些分段的文本描述。

它还可以生成边界框来定位对象,或提供其他形式的注释,如标签或彩色高亮,以指定与查询相关的图像部分。

这对于预测性维护非常有价值,例如,帮助分析工厂车间的图像或视频以实时检测潜在的设备缺陷。

对象检测

视觉语言模型可以识别和分类图像中的对象,并提供上下文描述,例如对象相对于其他视觉元素的位置。

例如,物体检测可用于机器人技术,使机器人更好地了解其环境并理解视觉指令。

视觉问答 (VQA)

VLM 可以回答有关图像或视频的问题,展示视觉推理能力。这可以帮助进行图像或视频分析,甚至可以扩展到智能体式 AI 应用程序。

例如,在运输领域,AI 智能体的任务可以是分析道路检查视频和识别道路标志损坏、交通信号灯故障和路面坑洼等危险。

然后,可以提示它们制作一份维护报告,概述这些危险的位置和说明。

VLM 示例

视觉语言模型正在迅速发展,有可能像当前先进的 LLM 一样普及。

以下是一些热门 VLM 的示例:

  • DeepSeek-VL2

  • Gemini 2.0 Flash

  • GPT-4o

  • Llama 3.2

  • NVLM

  • Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 是中国 AI 初创公司 DeepSeek 的一个开源视觉语言模型,拥有 45 亿个参数。它由视觉编码器、视觉语言适配器和 DeepSeekMoE LLM 组成,后者采用混合专家 (MoE) 架构。

DeepSeek-VL2 有一个包含 10 亿个参数的小型变体和一个包含 28 亿个参数的小型变体。2

Gemini 2.0 Flash

Gemini 2.0 Flash 是 Google Gemini 模型套件的一部分。输入模式包括音频、图像、文本和视频,输出纯文本。图像生成功能即将推出。

GPT-4o

OpenAI 的 GPT-4o 是一个跨音频、视觉和文本数据进行端到端训练的单一模型。它可以接受音频、图像、文本和视频的混合输入,生成音频、图像和文本的任意组合输出;其由同一个神经网络处理所有输入和输出。

其较小的同类产品 GPT-4o mini 支持图像和文本输入,并生成文本输出。

Llama 3.2

Llama 3.2 开源模型包括 2 个 VLM,参数大小分别为 110 亿和 900 亿。输入可以是文本和图像的组合,输出为纯文本。3

根据 Meta 的说法,VLM 架构由 ViT 图像编码器、视频适配器和图像适配器组成。4单独训练的图像适配器有一系列交叉注意层,可将图像编码器表征输入预训练的 Llama 3.1 LLM。3

NVLM

NVLM 是来自 NVIDIA 的多模态模型系列。NVLM-D 是一个仅解码器模型,它将图像词元直接输入 LLM 解码器。

NVLM-X 采用交叉注意力机制来处理图像词元,在处理高分辨率图像方面可以更高效。NVLM-H 采用一种混合架构,结合了仅解码器方法和交叉注意力方法,提高了计算效率和推理能力。5

Qwen 2.5-VL

Qwen 2.5-VL 是中国云计算公司阿里云的旗舰视觉语言模型。它有 30 亿、70 亿和 720 亿参数三种规模。

该模型使用 ViT 视觉编码器和 Qwen 2.5 LLM。它可以理解长度为一个小时以上的视频,并可以浏览桌面和智能手机界面。

视觉语言模型基准

与 LLM 一样,VLM 也有自己的基准。每个基准可能都有自己的排行榜,但也有独立的排行榜,例如 Hugging Face 上发布的 OpenVLM 排行榜,它们根据各种指标对开源视觉语言模型进行排名。

以下是视觉语言模型的一些常见基准:

对 VLM 进行基准测试可能非常耗时,但一些工具可以帮助简化该过程。VLMEvalKit 是一个开源评估工具包,允许对 VLM 进行单命令评估。另一个评估套件是 LMMs-Eval,它也提供了用于评估的命令行界面。

VLM 的挑战

与任何 AI 系统一样,VLM 仍然需要应对 AI 的风险。企业在考虑将视觉语言模型集成到其内部工作流中或在商业应用中实施时必须牢记这一点。

以下是与 VLM 相关的一些挑战:

  • 偏见

  • 成本与复杂性

  • 泛化能力

  • 幻觉

偏见

视觉语言模型可以从它们训练所使用的真实世界数据中或它们用作基础的预训练模型中可能存在的偏见中学习。使用多样的数据源并在整个过程中纳入人工监督有助于减少偏见

成本和复杂性

视觉模型和语言模型本身已经很复杂了,因此合并它们会进一步增加它们的复杂性。这种复杂性导致需要更多计算资源,从而难以大规模部署 VLM。公司必须准备好投资开发、训练和部署这些模型所需的资源。

泛化能力

在泛化方面,即模型适应新的、从未见过的数据并做出准确预测的能力方面,VLM 可能会有所欠缺。

包含异常值或边缘情况并采用零样本学习的平衡数据集可以让 VLM 适应新概念或非典型的图像-文本组合。

IBM 的 LiveXiv 可视化文档理解任务基准测试也可以提供帮助。LiveXiv 是一个动态基准,每月自动更新,用于评估 VLM 针对可能从未见过的问题和图像的表现。

幻觉

视觉语言模型可能容易产生 AI 幻觉。验证这些模型的结果是确保它们事实准确的关键步骤。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
人工智能服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

所有链接均为 ibm.com 外部链接

1 An Introduction to Vision-Language Modeling, arXiv, 27 May 2024.

2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 December 2024.

3 Model Information, GitHub, 30 September 2024.

4 The Llama 3 Herd of Models , arXiv, 23 November 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 October 2024.