我的 IBM

什么是多模态 AI？

2024 年 7 月 15 日

作者

Cole Stryker

Editorial Lead, AI Models

Gather

什么是多模态 AI？

多模态 AI 是指能够处理和整合多种模态或数据类型的信息的机器学习模型。这些模态可以包括文本、图像、音频、视频和其他形式的感官输入。

不同于传统 AI 模型通常只处理单一类型的数据，多模态 AI 能够结合并分析不同形式的数据输入，从而获得更全面的理解并生成更可靠的输出结果。

例如，多模态模型可以接收一张风景照片作为输入，并生成一份关于该地点特征的书面摘要。或者，它可以接收景观的书面概述，并根据描述生成图像。这种跨多种模式工作的能力为这些模型提供了强大的功能。

OpenAI 于 2022 年 11 月推出了 ChatGPT，使生成式 AI 声名鹊起。ChatGPT 是单模态 AI，旨在接收文本输入，并使用自然语言处理 (NLP) 生成文本输出。

多模态 AI 支持多种输入和输出类型，使生成式 AI 更加强大实用。例如，Dall-e 是 Open AI 对其 GPT 模型的初步多模态实现，但 GPT-4o 也为 ChatGPT 引入了多模态功能。

多模态 AI 模型可以结合来自各种数据源和媒体的信息，从而可以对数据实现更全面细致的理解。这使得 AI 能够做出更明智的决策并生成更准确的输出。

通过利用不同的模态，多模态 AI 系统在图像识别、语言翻译和语音识别等任务中可实现更高的准确性和稳健性。整合不同类型的数据有助于捕捉更多背景信息，减少歧义。多模态 AI 系统能够更好地处理噪声和数据缺失。如果一种模态不可靠或不可用，系统可以依靠其他模态来维持性能。

多模态 AI 可实现更自然、更直观的界面，带来更好的用户体验，从而增强人机交互。例如，虚拟助手可以理解和响应语音指令和视觉提示，从而使交互更顺畅、更高效。

想象一下，一款聊天机器人既可以与您谈论您的眼镜，还可以根据您分享的照片提出尺寸建议，或者一款鸟类识别应用程序既可以通过图像来识别特定鸟类，还可以通过“聆听”鸟叫声的音频剪辑来确认其种类。可跨多个感官维度运行的 AI 可以为用户提供更有意义的输出，以及更丰富的数据处理方式。

多模态 AI 的工作原理

人工智能是一个快速发展的领域，其中用于构建基础模型的训练算法的最新成果正在应用于多模态研究中。在深度学习和数据科学为生成式 AI 铺平道路之前，该学科就曾出现过一些多模态创新，包括视听语音识别和多媒体内容索引等。

如今，从业人员将多模态 AI 应用于各种用例中，从分析医疗保健领域的医学图像，到在 AI 驱动的自动驾驶汽车中使用计算机视觉和其他感官输入。

卡内基梅隆大学 2022 年发表的一篇论文描述了多模态 AI 的三个特征：异构性、连接性和交互性。¹ 异构性是指模态的不同品质、结构和表征。对某一事件的文字描述与同一事件的照片在质量、结构和表现形式上有着本质的区别。

连接指的是不同模式之间共享的互补信息。这些联系可能反映在统计相似性上，也可能反映在语义对应上。最后，交互是指不同模式在组合在一起时如何交互。

多模态 AI 的核心工程挑战在于有效地整合和处理各种类型的数据，以创建既能利用每种模态的优势又能克服其各自局限性的模型。论文作者还提出了几项挑战：表示、排列、推理、生成、转移和量化。

表征涉及如何表示和总结多模态数据，旨在反映模态之间的异质性和相互联系。从业者需要使用专门的神经网络（例如，用于图像的 CNN、用于文本的转换器）来提取特征，并采用联合嵌入空间或注意力机制进行表征学习。
对齐旨在确定各要素之间的联系和互动。例如，工程师在视频和音频数据中使用时间对齐技术，在图像和文本中使用空间对齐技术。
推理的目的是利用多模态证据构建知识，通常需要经过多个推理步骤。
生成包括学习生成过程，以产生反映跨模态交互、结构和连贯性的原始模态。
转移的目的是在各种模态之间传递知识。先进的传递学习技术和共享嵌入空间使知识得以跨模态传递。
量化包括实证和理论研究，旨在了解多模态学习，从而更好地评估其在多模态模型中的表现。

多模态模型为基于转换器的大型语言模型 (LLM) 增加了一层复杂性，而大型语言模型本身是建立在编码器-解码器架构上的，并带有一种注意力机制来高效处理数据。多模态 AI 利用数据融合技术来集成不同的模态。这种融合可分为早期融合（将各种模态编码到模型中以创建一个共同的表示空间）、中期融合（在不同的预处理阶段将各种模态结合起来）和后期融合（多个模型处理不同的模态并将输出结果结合起来）。

专家荟萃 | 播客

解码 AI：每周新闻摘要

加入我们的世界级专家团队，包括工程师、研究人员、产品负责人等，他们将穿透 AI 的喧嚣，为您带来最新的 AI 新闻和见解。

观看片段

多模态 AI 的发展趋势

多模态 AI 是一个快速发展的领域，其发展和应用有几个主要趋势。以下是一些值得注意的趋势：

统一模型

无论是 OpenAI 的 GPT-4 V(ision)、Google 的 Gemini 还是其他统一模型，都能在单一架构中处理文本、图像和其他数据类型。这些模型可以无缝理解并生成多模态内容。

增强跨模态互动

使用先进的注意力机制和转换器可以更好地调整和融合不同格式的数据，从而获得更加连贯且上下文更准确的输出。

实时多模态处理

例如，自动驾驶和增强现实 (AR) 领域的应用需要 AI 实时处理和集成来自各种传感器（摄像头、激光雷达等）的数据，以便做出即时决策。

多模态数据增强

研究人员将各种模态（例如，文本描述与相应图像）相结合生成合成数据，旨在增强训练数据集并提高模型性能。

开放源代码与协作

Hugging Face 和 Google AI 等项目提供了开源 AI 工具，为研究人员和开发人员推动该领域的发展营造了一个协作环境。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

资源

提升您的 ML 专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

AI 实际应用报告

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK，生成功能强大的 AI 解决方案。

深入了解 watsonx.ai

预约实时演示

脚注

¹ https://arxiv.org/abs/2209.03430，2022 年 9 月 7 日。

什么是多模态 AI？

2024 年 7 月 15 日

作者

Cole Stryker

什么是多模态 AI？

最新的 AI 新闻 + 洞察分析

多模态 AI 的工作原理

解码 AI：每周新闻摘要

多模态 AI 的发展趋势

统一模型

增强跨模态互动

实时多模态处理

多模态数据增强

开放源代码与协作

相关解决方案

资源

脚注