什么是大语言模型 (LLM)？| IBM

什么是 LLM？

大型语言模型 (LLM) 是一类基础模型，经过大量数据训练，使其能够理解和生成自然语言和其他类型的内容，以执行各种任务。

LLM 这个名称已家喻户晓，这要归功于它们在将生成式 AI 带到公众利益最前沿方面所发挥的作用，以及组织专注于在众多业务职能和用例中采用人工智能的目标。

随着生成式 AI 的新发展，在企业环境之外，大语言模型 (LLM) 似乎突然出现。然而，包括 IBM 在内的许多公司多年来一直在不同层面实施 LLM，以增强自然语言理解 (NLU) 和自然语言处理 (NLP) 能力。这与机器学习、机器学习模型、算法、神经网络和为 AI 系统提供架构的变换器模型的进步同步发生。

LLM 是一类基础模型，它们经过大量数据训练，以提供推动多个用例和应用程序以及解决大量任务所需的基础功能。这与为每个用例单独构建和训练域特定模型的想法形成鲜明对比，这种想法在许多标准（最重要的是成本和基础架构）下令人望而却步，会抑制协同作用，甚至可能导致性能下降。

LLM 代表 NLP 和人工智能领域的重大突破，公众可以通过 Open AI 的 Chat GPT-3 和 GPT-4 等界面轻松访问，这些界面已获得 Microsoft 的支持。其他示例包括 Meta 的 Llama 模型以及来自 Transformer (BERT/RoBERTa) 和 PaLM 模型的 Google 双向编码器表示。IBM 最近还在 watsonx.ai 上推出了 Granite 模型系列，它已成为 watsonx Assistant 和 watsonx Orchestrate 等其他 IBM 产品的生成式 AI 支柱。

简而言之，LLM 旨在经过大量数据训练，像人类一样理解和生成文本以及其他形式的内容。这种模型有能力从环境中推断，生成连贯且与环境相关的响应，翻译成英语以外的语言，总结文本，回答问题（一般对话和常见问题解答），甚至协助完成创造性写作或代码生成任务。

它们之所以如此神通广大，是因为有数十亿个参数使模型能够捕获语言中的复杂模式并执行各种与语言相关的任务。LLM 正在彻底改变从聊天机器人和虚拟助理到内容生成、研究协助和语言翻译各个领域的应用程序。

随着 LLM 的不断发展和改进，LLM 将重塑我们与技术交互和获取信息的方式，使它们成为现代数字环境的关键部分。

学习和操作 Presto

浏览免费的 O'Reilly 电子书，以了解如何开始使用 Presto，一款用于数据分析的开源 SQL 引擎。