什么是视觉语言模型 (VLM)？

视觉语言模型 (VLM) 是一种人工智能 (AI) 模型，其整合了计算机视觉和自然语言处理 (NLP) 功能。

VLM 学习映射文本数据与图像或视频等视觉数据之间的关系，从而允许这些模型从视觉输入生成文本或在视觉信息的上下文中理解自然语言提示。

VLM 也称为可视语言模型，它将大型语言模型 (LLM) 与视觉模型或视觉机器学习 (ML) 算法相结合。

作为多模式 AI 系统，VLM 以文本和图像或视频作为输入，并产生文本作为输出，通常以图像或视频描述的形式，回答有关图像的问题或识别图像的某些部分或视频中的对象。

视觉语言模型的要素

视觉语言模型通常由两个关键组件组成：

语言编码器
视觉编码器

语言编码器

语言编码器捕获单词和短语之间的语义和上下文关联，并将其转换为文本嵌入，以供 AI 模型处理。

大多数 VLM 使用一种特定的神经网络架构，称为转换器模型，作为其语言编码器。转换器的示例包括 Google 的 BERT（基于转换器的双向编码器表示），这是支持当今许多 LLM 的最早的基础模型之一，以及 OpenAI 的生成式预训练转换器 (GPT)。

以下是转换器架构的简要概述：

编码器将输入序列转换为称为嵌入的数值表示，以捕捉输入序列中令牌的语义和位置。
自我关注机制允许转换器“聚焦”于输入序列中最重要的令牌上，而无论其位置如何。
解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

视觉编码器

视觉编码器从图像或视频输入中提取颜色、形状和纹理等重要视觉属性，并将它们转换为机器学习模型可以处理的向量嵌入。

早期版本的 VLM 使用深度学习算法（例如卷积神经网络）进行特征提取。更现代的视觉语言模型采用视觉转换器 (ViT)，它应用了基于转换器的语言模型元素。

ViT 将图像处理成图块并将它们视为序列，类似于语言转换器中的词元。然后，视觉转换器会在这些图块上执行自注意力机制，从而创建一个基于转换器的输入图像表征。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

训练视觉语言模型

视觉语言模型的训练策略涉及对齐和融合来自视觉和语言编码器的信息，以便 VLM 可以学习如何将图像与文本关联起来，并综合这两种模式做出决策。

VLM 训练通常采用多种方法：

对比学习
屏蔽
生成式模型训练
预训练模型

对比学习

对比学习将来自两个编码器的图像和文本嵌入映射到联合或共享的嵌入空间。VLM 在图像-文本对的数据集上进行训练，并学习最小化匹配对嵌入之间的距离并最大化不匹配对的嵌入之间的距离。

一种常见的对比学习算法是 CLIP（对比语言-图像预训练）。CLIP 使用从互联网获取的 4 亿个图像-说明对进行训练，并表现出很高的零样本分类准确性。¹

屏蔽

遮蔽是另一种训练技术，其中视觉语言模型学习预测输入文本或图像中随机遮挡的部分。在遮蔽语言建模中，VLM 学习填写给定的未遮蔽图像的文本说明中缺少的单词。

同时，在遮蔽的图像建模中，VLM 学习在给定未遮蔽文本说明的情况下重建图像中的隐藏像素。

FLAVA（基础语言和视觉对齐）就是使用遮蔽的模型的一个示例。FLAVA 采用视觉转换器作为图像编码器，并为语言编码器和多模态编码器采用转换器架构。

多模态编码器应用交叉注意力机制来集成文本和视觉信息。FLAVA 的训练包括遮蔽建模和对比学习。¹

生成式模型训练

VLM 的生成式模型训练要学习生成新数据。文本到图像的生成会从输入文本生成图像，而图像到文本的生成会从输入图像生成文本，例如字幕、图像描述或摘要。

流行的文本到图像模型的示例包括扩散模型，例如 Google 的 Imagen、Midjourney，OpenAI 的 DALL-E（从 DALL-E 2 开始）和 Stability AI 的 Stable Diffusion。

预训练模型

从头开始训练视觉语言模型可能需要大量资源且成本高昂，因此可以从预训练模型来构建 VLM。

可以使用预训练的 LLM 和预训练的视觉编码器，再加上一个映射网络层，将图像的视觉表示与 LLM 的输入空间对齐或投影。

LLaVA（大型语言和视觉助手）就是根据预训练模型开发的 VLM 的一个示例。该多模态模型使用 Vicuna LLM 和 CLIP ViT 作为视觉编码器，使用线性投影器将它们的输出合并到共享维度空间中。¹

为 VLM 收集高质量的训练数据可能很繁琐，但一些现有的数据集可用于更具体下游任务的预训练、优化和微调。

例如，ImageNet 包含数百万张带注释的图像，而 COCO 则包含数千张带标签的图像，用于大规模字幕添加、对象检测和分割。同样，LAION 数据集由数十亿个多语言图像-文本对组成。

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。

转到视频集

视觉语言模型用例

VLM 可以弥合视觉和语言信息之间的差距。以前每种模式需要 2 个独立的 AI 模型，现在可以合并为 1 个模型。

VLM 可用于一系列视觉语言任务：

说明和摘要
图片生成
图片搜索和检索
图片分割
对象检测
视觉问题解答 (VQA)

说明和摘要

视觉语言模型可以生成详细的图像字幕或描述。它们还可以汇总文档中的视频和视觉信息，例如医疗装置中的医学图像或制造设施中的设备维修图表。

图像生成

DAL-E、Imagen、Midjourney 和 Stable Diffusion 等文本到图像生成器可以帮助创作与书面内容相匹配的美术作品或图像。企业还可以在设计和原型制作阶段使用这些工具，帮助可视化产品创意。

图片搜索和检索

VLM 可以搜索大型图片库或视频数据库，并根据自然语言查询检索相关照片或视频。这可以改善电子商务网站上购物者的用户体验，例如，帮助他们查找特定商品或在庞大的目录中浏览。

图像分割

视觉语言模型可以根据其从图像中学习到并提取的空间特征将图像划分为多个片段。然后，VLM 可以提供这些分段的文本描述。

它还可以生成边界框来定位对象，或提供其他形式的注释，如标签或彩色高亮，以指定与查询相关的图像部分。

这对于预测性维护非常有价值，例如，帮助分析工厂车间的图像或视频以实时检测潜在的设备缺陷。

对象检测

视觉语言模型可以识别和分类图像中的对象，并提供上下文描述，例如对象相对于其他视觉元素的位置。

例如，物体检测可用于机器人技术，使机器人更好地了解其环境并理解视觉指令。

视觉问答 (VQA)

VLM 可以回答有关图像或视频的问题，展示视觉推理能力。这可以帮助进行图像或视频分析，甚至可以扩展到智能体式 AI 应用程序。

例如，在运输领域，AI 智能体的任务可以是分析道路检查视频和识别道路标志损坏、交通信号灯故障和路面坑洼等危险。

然后，可以提示它们制作一份维护报告，概述这些危险的位置和说明。

VLM 示例

视觉语言模型正在迅速发展，有可能像当前先进的 LLM 一样普及。

以下是一些热门 VLM 的示例：

DeepSeek-VL2
Gemini 2.0 Flash
GPT-4o
Llama 3.2
NVLM
Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 是中国 AI 初创公司 DeepSeek 的一个开源视觉语言模型，拥有 45 亿个参数。它由视觉编码器、视觉语言适配器和 DeepSeekMoE LLM 组成，后者采用混合专家 (MoE) 架构。

DeepSeek-VL2 有一个包含 10 亿个参数的小型变体和一个包含 28 亿个参数的小型变体。²

Gemini 2.0 Flash

Gemini 2.0 Flash 是 Google Gemini 模型套件的一部分。输入模式包括音频、图像、文本和视频，输出纯文本。图像生成功能即将推出。

GPT-4o

OpenAI 的 GPT-4o 是一个跨音频、视觉和文本数据进行端到端训练的单一模型。它可以接受音频、图像、文本和视频的混合输入，生成音频、图像和文本的任意组合输出；其由同一个神经网络处理所有输入和输出。

其较小的同类产品 GPT-4o mini 支持图像和文本输入，并生成文本输出。

Llama 3.2

Llama 3.2 开源模型包括 2 个 VLM，参数大小分别为 110 亿和 900 亿。输入可以是文本和图像的组合，输出为纯文本。³

根据 Meta 的说法，VLM 架构由 ViT 图像编码器、视频适配器和图像适配器组成。⁴单独训练的图像适配器有一系列交叉注意层，可将图像编码器表征输入预训练的 Llama 3.1 LLM。³

NVLM

NVLM 是来自 NVIDIA 的多模态模型系列。NVLM-D 是一个仅解码器模型，它将图像词元直接输入 LLM 解码器。

NVLM-X 采用交叉注意力机制来处理图像词元，在处理高分辨率图像方面可以更高效。NVLM-H 采用一种混合架构，结合了仅解码器方法和交叉注意力方法，提高了计算效率和推理能力。⁵

Qwen 2.5-VL

Qwen 2.5-VL 是中国云计算公司阿里云的旗舰视觉语言模型。它有 30 亿、70 亿和 720 亿参数三种规模。

该模型使用 ViT 视觉编码器和 Qwen 2.5 LLM。它可以理解长度为一个小时以上的视频，并可以浏览桌面和智能手机界面。

视觉语言模型基准

与 LLM 一样，VLM 也有自己的基准。每个基准可能都有自己的排行榜，但也有独立的排行榜，例如 Hugging Face 上发布的 OpenVLM 排行榜，它们根据各种指标对开源视觉语言模型进行排名。

以下是视觉语言模型的一些常见基准：

MathVista 是视觉数学推理的基准。
MMBench 包含一个涵盖多个评估维度的多项选择题集合，包括对象定位、光学字符识别 (OCR) 等。
大规模多学科多模态理解 (MMMU) 包含跨不同学科的多模态多项选择挑战，以衡量知识、感知和推理技能。
MM-Vet 评估不同 VLM 能力的整合，例如语言生成、空间意识等。
OCRBench 专注于 VLM 的 OCR 能力。它由 5 个组件组成：文档导向的 VQA、手写体数学表达式识别、关键信息提取、文本识别和以文本为中心的场景 VQA。
VQA 是最早的 VLM 基准测试之一。数据集包含有关图片的开放式问题。其他 VQA 衍生品包括 GQA（关于图片场景图的问答）、OK-VQA（需要外部知识进行视觉问答）、ScienceQA（科学问答）和 TextVQA（基于图片文本的视觉推理）。