大型语言模型 (LLM) 是一类基础模型,经过大量数据训练,使其能够理解和生成自然语言和其他类型的内容,以执行各种任务。
LLM 这个名称已家喻户晓,这要归功于它们在将生成式 AI 带到公众利益最前沿方面所发挥的作用,以及组织专注于在众多业务职能和用例中采用人工智能的目标。
随着生成式 AI 的新发展,在企业环境之外,大语言模型 (LLM) 似乎突然出现。然而,包括 IBM 在内的许多公司多年来一直在不同层面实施 LLM,以增强自然语言理解 (NLU) 和自然语言处理 (NLP) 能力。这与机器学习、机器学习模型、算法、神经网络和为 AI 系统提供架构的变换器模型的进步同步发生。
LLM 是一类基础模型,它们经过大量数据训练,以提供推动多个用例和应用程序以及解决大量任务所需的基础功能。这与为每个用例单独构建和训练域特定模型的想法形成鲜明对比,这种想法在许多标准(最重要的是成本和基础架构)下令人望而却步,会抑制协同作用,甚至可能导致性能下降。
LLM 代表 NLP 和人工智能领域的重大突破,公众可以通过 Open AI 的 Chat GPT-3 和 GPT-4 等界面轻松访问,这些界面已获得 Microsoft 的支持。其他示例包括 Meta 的 Llama 模型以及来自 Transformer (BERT/RoBERTa) 和 PaLM 模型的 Google 双向编码器表示。IBM 最近还在 watsonx.ai 上推出了 Granite 模型系列,它已成为 watsonx Assistant 和 watsonx Orchestrate 等其他 IBM 产品的生成式 AI 支柱。
简而言之,LLM 旨在经过大量数据训练,像人类一样理解和生成文本以及其他形式的内容。这种模型有能力从环境中推断,生成连贯且与环境相关的响应,翻译成英语以外的语言,总结文本,回答问题(一般对话和常见问题解答),甚至协助完成创造性写作或代码生成任务。
它们之所以如此神通广大,是因为有数十亿个参数使模型能够捕获语言中的复杂模式并执行各种与语言相关的任务。LLM 正在彻底改变从聊天机器人和虚拟助理到内容生成、研究协助和语言翻译各个领域的应用程序。
随着 LLM 的不断发展和改进,LLM 将重塑我们与技术交互和获取信息的方式,使它们成为现代数字环境的关键部分。
浏览免费的 O'Reilly 电子书,以了解如何开始使用 Presto,一款用于数据分析的开源 SQL 引擎。
注册以获取有关 AI 数据存储的电子书
LLM 通过利用深度学习技术和大量文本数据来运行。这些模型通常基于转换器架构,如生成式预训练转换器,它擅长处理文本输入等顺序数据。LLM 由多层神经网络组成,每层神经网络的参数都可以在训练过程中进行微调,而被称为注意力机制的众多神经网络层则进一步增强了这些神经网络的功能,这些神经网络层可以对数据集的特定部分进行调整。
在训练过程中,这些模型学习根据前面单词提供的上下文来预测句子中的下一个单词。该模型通过将概率分数归因于重复的已标记单词(分解为较小的字符序列)来实现这一点。然后,这些标记被转换为嵌入,嵌入是该上下文的数字表示。
为了确保准确性,这个过程涉及在大量文本语料库(数十亿页)上训练 LLM,使 LLM 能够通过零样本和自我监督学习来学习语法、语义和概念关系。经过这些训练数据的训练后,LLM 就可以根据它们收到的输入自动预测下一个单词,并利用它们获得的模式和知识来生成文本。其结果是生成连贯且与上下文相关的语言,可用于广泛的 NLU 和内容生成任务。
还可以通过即时工程、即时调优、微调和其他策略来提高模型性能,例如基于人类反馈的强化学习 (RLHF),以消除偏见、仇恨言论和被称为“幻觉”的事实错误答案,这些通常是对如此多的非结构化数据进行训练的有害副产品。这是确保企业级 LLM 随时可用,不会使组织承担不必要的责任或对组织声誉造成损害的最重要的方面之一。
LLM 正在重新定义越来越多的业务流程,并已在各个行业的无数用例和任务中证明了它们的多功能性。LLM 可以增强聊天机器人和虚拟助理(例如 IBM watsonx Assistant 和 Google 的 BARD)中的会话式 AI,以增强支持卓越客户服务的交互,提供模仿与人工客服交互的情境感知响应。
LLM 还擅长内容生成,可以自动创建内容,包括博客文章、营销或销售资料以及其他写作任务。在研究和学术界,它们帮助从大量数据集中总结和提取信息,加速知识发现。LLM 在语言翻译中也发挥着至关重要的作用,通过提供准确且与上下文相关的翻译来打破语言障碍。它们甚至可以用来编写代码,或者在编程语言之间进行“翻译”。
此外,它们还通过提供文字转语音应用以及以无障碍格式生成内容等功能,帮助残障人员,为无障碍访问功能做出了贡献。从医疗保健到金融,LLM 正在通过简化流程、改善客户体验以及实现更高效和数据驱动的决策来推动行业发展和变革。
最令人兴奋的是,所有这些功能都很容易访问,在某些情况下,实际上只需 API 集成即可。
以下是 LLM 为组织带来益处的一些最重要的领域:
文本生成:语言生成能力,如根据提示撰写电子邮件、博客文章或其他中长篇内容,并加以提炼和润色。检索增强生成 (RAG) 就是一个很好的例子。
内容摘要:将长文章、新闻报道、研究报告、公司文档甚至客户历史记录汇总成根据输出格式定制长度的完整文本。
AI 助手:聊天机器人,可以回答客户询问、执行后端任务并以自然语言提供详细信息,作为集成式自助客户服务解决方案的一部分。
代码生成:帮助开发人员构建应用程序,查找代码中的错误并发现多种编程语言中的安全问题,甚至在它们之间进行“翻译”。
情感分析:分析文本,确定客户的语气,以便大规模了解客户反馈并帮助进行品牌声誉管理。
语言翻译:通过流畅的翻译和多语言功能,为各语言和地域的组织提供更广泛的覆盖范围。
LLM 将通过实现客户自助服务自动化、加快对越来越多任务的响应以及提高准确性、增强路由和智能上下文收集,影响从金融到保险、人力资源到医疗保健等各个行业。
组织需要在治理实践方面打下坚实的基础,以利用 AI 模型的潜力彻底改变他们的业务方式。这意味着需要提供值得信赖、透明、可靠和安全的 AI 工具和技术。AI 治理和可追溯性也是 IBM 为客户提供的解决方案的基本方面,旨在管理和监控涉及 AI 的活动,从而能够以始终可审计和可问责的方式追踪来源、数据和模型。
在 IBM 直接管理的以企业为中心的数据集上进行训练,以帮助减轻生成式 AI 带来的风险,从而以可靠的方式部署模型,并且需要最少的输入来确保它们为客户做好准备。
watsonx.ai 提供对 Hugging Face 开源模型、第三方模型以及 IBM 预训练模型系列的访问。例如,Granite 模型系列使用解码器架构来支持针对企业用例的各种生成式 AI 任务。
在每次互动中为客户、需要帮助的客户服务中心座席人员乃至需要信息的员工提供卓越体验。以基于业务内容的自然语言扩展答案,以推动以结果为导向的交互和快速、准确的响应。
自动执行任务并简化复杂的流程,使员工可以专注于更高价值的战略性工作。借助一套自动化和 AI 工具提升员工的生产力水平,通过对话界面即可完成所有操作。
有时,AI 和自动化的问题在于它们过于耗费劳动力。但是,借助预训练的开源基础模型,这一切都在改变。
Granite 模型由 IBM Research 开发,使用“解码器”架构,这是当今大型语言模型预测序列中下一个单词的能力的基础。
我们的数据驱动研究识别企业如何在不断发展扩大的生成式 AI 领域找到并抓住机会。
对话式搜索功能由我们的 IBM Granite 大型语言模型和企业搜索引擎 Watson Discovery 提供技术支持,旨在扩展基于业务内容的对话式答案。
尽管在企业范围内采用生成式 AI 仍然具有挑战性,但成功实施这些技术的组织可以获得显著的竞争优势。
如果“大辞职潮”真的是“大升级潮”呢——通过更好地利用员工的技能来吸引和留住员工?数字劳动力为员工承担繁重的工作,从而使得上述想法成为可能。