主页
Think
主题
多模态 AI
发布日期:2024 年 7 月 15 日
作者:Cole Stryker
多模态 AI 是指能够处理和整合多种模态或数据类型的信息的机器学习模型。这些模态可以包括文本、图像、音频、视频和其他形式的感官输入。
不同于传统 AI 模型通常只处理单一类型的数据,多模态 AI 能够结合并分析不同形式的数据输入,从而获得更全面的理解并生成更可靠的输出结果。
例如,多模态模型可以接收一张风景照片作为输入,并生成一份关于该地点特征的书面摘要。或者,它可以接收景观的书面概述,并根据描述生成图像。这种跨多种模式工作的能力为这些模型提供了强大的功能。
OpenAI 于 2022 年 11 月推出了 ChatGPT,迅速将生成式 AI 名声大噪。ChatGPT 是单模态 AI,旨在接收文本输入,并使用自然语言处理 (NLP) 生成文本输出。
多模态 AI 支持多种输入和输出类型,使生成式 AI 更加强大实用。例如,Dall-e 是 Open AI 对其 GPT 模型的初步多模态实现,但 GPT-4o 也为 ChatGPT 引入了多模态功能。
多模态 AI 模型可以结合来自各种数据源和媒体的信息,从而可以对数据实现更全面细致的理解。这使得 AI 能够做出更明智的决策并生成更准确的输出。
通过利用不同的模态,多模态 AI 系统在图像识别、语言翻译和语音识别等任务中可实现更高的准确性和稳健性。整合不同类型的数据有助于捕捉更多背景信息,减少歧义。多模态 AI 系统能够更好地处理噪声和数据缺失。如果一种模态不可靠或不可用,系统可以依靠其他模态来维持性能。
多模态 AI 可实现更自然、更直观的界面,带来更好的用户体验,从而增强人机交互。例如,虚拟助手可以理解和响应语音指令和视觉提示,从而使交互更顺畅、更高效。
想象一下,一款聊天机器人既可以与您谈论您的眼镜,还可以根据您分享的照片提出尺寸建议,或者一款鸟类识别应用程序既可以通过图像来识别特定鸟类,还可以通过“聆听”鸟叫声的音频剪辑来确认其种类。可跨多个感官维度运行的 AI 可以为用户提供更有意义的输出,以及更丰富的数据处理方式。
了解将数据湖仓一体策略集成到您的数据架构的强大功能,包括扩展 AI 的增强功能和成本优化机会。
人工智能是一个快速发展的领域,其中用于构建基础模型的训练算法的最新成果正在应用于多模态研究中。在深度学习和数据科学为生成式 AI 铺平道路之前,该学科就曾出现过一些多模态创新,包括视听语音识别和多媒体内容索引等。
如今,从业人员将多模态 AI 应用于各种用例中,从分析医疗保健领域的医学图像,到在 AI 驱动的自动驾驶汽车中使用计算机视觉和其他感官输入。
卡内基梅隆大学 2022 年发表的一篇论文描述了多模态 AI 的三个特征:异构性、连接性和交互性。1 异构性是指模态的不同品质、结构和表征。对某一事件的文字描述与同一事件的照片在质量、结构和表现形式上有着本质的区别。
连接指的是不同模式之间共享的互补信息。这些联系可能反映在统计相似性上,也可能反映在语义对应上。最后,交互是指不同模式在组合在一起时如何交互。
多模态 AI 的核心工程挑战在于有效地整合和处理各种类型的数据,以创建既能利用每种模态的优势又能克服其各自局限性的模型。论文作者还提出了几项挑战:表示、排列、推理、生成、转移和量化。
表征涉及如何表示和总结多模态数据,旨在反映模态之间的异质性和相互联系。从业者需要使用专门的神经网络(例如,用于图像的 CNN、用于文本的转换器)来提取特征,并采用联合嵌入空间或注意力机制进行表征学习。
对齐旨在确定各要素之间的联系和互动。例如,工程师在视频和音频数据中使用时间对齐技术,在图像和文本中使用空间对齐技术。
推理的目的是利用多模态证据构建知识,通常需要经过多个推理步骤。
生成包括学习生成过程,以产生反映跨模态交互、结构和连贯性的原始模态。
转移的目的是在各种模态之间传递知识。先进的传递学习技术和共享嵌入空间使知识得以跨模态传递。
量化包括实证和理论研究,旨在了解多模态学习,从而更好地评估其在多模态模型中的表现。
多模态模型为基于 转换器 的 大型语言模型 (LLM) 增加了一层复杂性,而大型语言模型本身是建立在编码器-解码器架构上的,并带有一种注意力机制来高效处理数据。多模态 AI 利用数据融合技术来集成不同的模态。这种融合可分为早期融合(将各种模态编码到模型中以创建一个共同的表示空间)、中期融合(在不同的预处理阶段将各种模态结合起来)和后期融合(多个模型处理不同的模态并将输出结果结合起来)。
多模态 AI 是一个快速发展的领域,其发展和应用有几个主要趋势。以下是一些值得注意的趋势:
无论是 OpenAI 的 GPT-4 V(ision)、Google 的 Gemini 还是其他统一模型,都能在单一架构中处理文本、图像和其他数据类型。这些模型可以无缝理解并生成多模态内容。
使用先进的注意力机制和转换器可以更好地调整和融合不同格式的数据,从而获得更加连贯且上下文更准确的输出。
例如,自动驾驶和增强现实 (AR) 领域的应用需要 AI 实时处理和集成来自各种传感器(摄像头、激光雷达等)的数据,以便做出即时决策。
研究人员将各种模态(例如,文本描述与相应图像)相结合生成合成数据,旨在增强训练数据集并提高模型性能。
Hugging Face 和 Google AI 等项目提供了开源 AI 工具,为研究人员和开发人员推动该领域的发展营造了一个协作环境。
我们的研究包括先进的计算机视觉技术,这些技术能够从多模态医疗图像中自动提取诊断相关特征。
目前,IBM 和 NASA 正在尝试使用模型架构和技术,将这些不同的时间和空间尺度整合到一个多模态模型中。
这项调查探讨了多模态 ML 的现状, 重点介绍其对医学影像分析和临床决策支持系统的深远影响。
深入了解我们的集中式 AI 研究中心,其范围涵盖从基本原理到新兴研究再到突出问题和进展。
了解 IBM 如何开发值得信赖、节能和便携的生成式基础模型。
初学者课程:在两小时内学习 AI 的基础知识,并使用 Python 和 scikit-learn 构建和测试第一个机器学习模型。
1 https://arxiv.org/abs/2209.03430 (链接位于 ibm.com 以外),2022 年 9 月 7 日。