多模态 AI 是指能够处理和整合多种模态或数据类型的信息的机器学习模型。这些模态可以包括文本、图像、音频、视频和其他形式的感官输入。
不同于传统 AI 模型通常只处理单一类型的数据,多模态 AI 能够结合并分析不同形式的数据输入,从而获得更全面的理解并生成更可靠的输出结果。
例如,多模态模型可以接收一张风景照片作为输入,并生成一份关于该地点特征的书面摘要。或者,它可以接收景观的书面概述,并根据描述生成图像。这种跨多种模式工作的能力为这些模型提供了强大的功能。
OpenAI 于 2022 年 11 月推出了 ChatGPT,使生成式 AI 声名鹊起。ChatGPT 是单模态 AI,旨在接收文本输入,并使用自然语言处理 (NLP) 生成文本输出。
多模态 AI 支持多种输入和输出类型,使生成式 AI 更加强大实用。例如,Dall-e 是 Open AI 对其 GPT 模型的初步多模态实现,但 GPT-4o 也为 ChatGPT 引入了多模态功能。
多模态 AI 模型可以结合来自各种数据源和媒体的信息,从而可以对数据实现更全面细致的理解。这使得 AI 能够做出更明智的决策并生成更准确的输出。
通过利用不同的模态,多模态 AI 系统在图像识别、语言翻译和语音识别等任务中可实现更高的准确性和稳健性。整合不同类型的数据有助于捕捉更多背景信息,减少歧义。多模态 AI 系统能够更好地处理噪声和数据缺失。如果一种模态不可靠或不可用,系统可以依靠其他模态来维持性能。
多模态 AI 可实现更自然、更直观的界面,带来更好的用户体验,从而增强人机交互。例如,虚拟助手可以理解和响应语音指令和视觉提示,从而使交互更顺畅、更高效。
想象一下,一款聊天机器人既可以与您谈论您的眼镜,还可以根据您分享的照片提出尺寸建议,或者一款鸟类识别应用程序既可以通过图像来识别特定鸟类,还可以通过“聆听”鸟叫声的音频剪辑来确认其种类。可跨多个感官维度运行的 AI 可以为用户提供更有意义的输出,以及更丰富的数据处理方式。
人工智能是一个快速发展的领域,其中用于构建基础模型的训练算法的最新成果正在应用于多模态研究中。在深度学习和数据科学为生成式 AI 铺平道路之前,该学科就曾出现过一些多模态创新,包括视听语音识别和多媒体内容索引等。
如今,从业人员将多模态 AI 应用于各种用例中,从分析医疗保健领域的医学图像,到在 AI 驱动的自动驾驶汽车中使用计算机视觉和其他感官输入。
卡内基梅隆大学 2022 年发表的一篇论文描述了多模态 AI 的三个特征:异构性、连接性和交互性。1 异构性是指模态的不同品质、结构和表征。对某一事件的文字描述与同一事件的照片在质量、结构和表现形式上有着本质的区别。
连接指的是不同模式之间共享的互补信息。这些联系可能反映在统计相似性上,也可能反映在语义对应上。最后,交互是指不同模式在组合在一起时如何交互。
多模态 AI 的核心工程挑战在于有效地整合和处理各种类型的数据,以创建既能利用每种模态的优势又能克服其各自局限性的模型。论文作者还提出了几项挑战:表示、排列、推理、生成、转移和量化。
表征涉及如何表示和总结多模态数据,旨在反映模态之间的异质性和相互联系。从业者需要使用专门的神经网络(例如,用于图像的 CNN、用于文本的转换器)来提取特征,并采用联合嵌入空间或注意力机制进行表征学习。
对齐旨在确定各要素之间的联系和互动。例如,工程师在视频和音频数据中使用时间对齐技术,在图像和文本中使用空间对齐技术。
推理的目的是利用多模态证据构建知识,通常需要经过多个推理步骤。
生成包括学习生成过程,以产生反映跨模态交互、结构和连贯性的原始模态。
转移的目的是在各种模态之间传递知识。先进的传递学习技术和共享嵌入空间使知识得以跨模态传递。
量化包括实证和理论研究,旨在了解多模态学习,从而更好地评估其在多模态模型中的表现。
多模态 AI 是一个快速发展的领域,其发展和应用有几个主要趋势。以下是一些值得注意的趋势:
无论是 OpenAI 的 GPT-4 V(ision)、Google 的 Gemini 还是其他统一模型,都能在单一架构中处理文本、图像和其他数据类型。这些模型可以无缝理解并生成多模态内容。
使用先进的注意力机制和转换器可以更好地调整和融合不同格式的数据,从而获得更加连贯且上下文更准确的输出。
例如,自动驾驶和增强现实 (AR) 领域的应用需要 AI 实时处理和集成来自各种传感器(摄像头、激光雷达等)的数据,以便做出即时决策。
研究人员将各种模态(例如,文本描述与相应图像)相结合生成合成数据,旨在增强训练数据集并提高模型性能。
Hugging Face 和 Google AI 等项目提供了开源 AI 工具,为研究人员和开发人员推动该领域的发展营造了一个协作环境。
学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。
了解如何自信地将生成式 AI 和机器学习融入您的业务中。
想要从 AI 投资中获得更好的回报吗?了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案,在关键领域扩展生成式人工智能来推动变革。
了解如何为您的用例选择最合适的 AI 基础模型。
1 https://arxiv.org/abs/2209.03430,2022 年 9 月 7 日。
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com