O que são grandes modelos de linguagem de código aberto?

Grandes modelos de linguagem (LLMs) são modelos de base que usam inteligência artificial (IA), deep learning e conjuntos de dados maciços, incluindo sites, artigos e livros, para gerar texto, traduzir entre idiomas e escrever muitos tipos de conteúdo. Existem dois tipos desses modelos de IA generativa: os grandes modelos de linguagem proprietários e os grandes modelos de linguagem de código aberto.

Neste vídeo, Martin Keen explica brevemente sobre grandes modelos de linguagem, como se relacionam com modelos de base, como funcionam e como podem ser usados para lidar com diversos problemas de negócios.

LLMs proprietários são propriedade de uma empresa e só podem ser usados pelos clientes que compram uma licença. A licença pode restringir como o LLM pode ser usado. Por outro lado, os LLMs de código aberto são gratuitos e estão disponíveis para qualquer pessoa acessar, usar para qualquer finalidade, modificar e distribuir.

O termo "código aberto" refere-se ao código do LLM e à arquitetura subjacente acessíveis ao público, o que significa que os desenvolvedores e pesquisadores são livres para usar, melhorar ou modificar o modelo.

Quais são os benefícios dos LLMs de código aberto?

Anteriormente, parecia que quanto maior fosse um LLM, melhor, mas agora as empresas estão percebendo que ele pode ser proibitivamente caro em termos de pesquisa e inovação. Em resposta, um ecossistema de modelos de código aberto começou a se mostrar promissor e desafiar o modelo de negócios LLM.

Transparência e flexibilidade

As empresas que não possuem talentos internos de aprendizado de máquina podem usar LLMs de código aberto, que oferecem transparência e flexibilidade, em sua própria infraestrutura, seja na nuvem ou no local. Isso lhes dá controle total sobre seus dados e significa que as informações confidenciais permanecem em sua rede. Tudo isso reduz o risco de vazamento de dados ou acesso não autorizado.

Um LLM de código aberto oferece transparência em relação a como funciona, sua arquitetura, dados e metodologias de treinamento e como é utilizado. Ser capaz de inspecionar o código e ter visibilidade dos algoritmos permite mais confiança em uma empresa, auxilia em relação às auditorias e ajuda a garantir a conformidade ética e legal. Além disso, otimizar eficientemente um LLM de código aberto pode reduzir a latência e aumentar o desempenho.

Economia de custo

Eles geralmente são muito mais baratos a longo prazo do que os LLMs proprietários porque não estão envolvidos taxas de licenciamento. No entanto, o custo de operar um LLM inclui os custos de infraestrutura na nuvem ou no local e, normalmente, envolvem um custo inicial significativo.

Funcionalidades adicionadas e contribuições da comunidade

LLMs pré-treinados e de código aberto permitem o ajuste fino. As empresas podem adicionar funcionalidades ao LLM que beneficiem seu uso específico, e os LLMs também podem ser treinados em conjuntos de dados específicos. Fazer essas alterações ou especificações em um LLM proprietário envolve trabalhar com um fornecedor e custa tempo e dinheiro.

Enquanto LLMs proprietários significam que uma empresa deve depender de um único provedor, um de código aberto permite que a empresa aproveite as contribuições da comunidade, vários provedores de serviços e possivelmente equipes internas para lidar com atualizações, desenvolvimento, manutenção e suporte. O código aberto permite que as empresas experimentem e usem as contribuições de pessoas com perspectivas variadas. Isso pode resultar em soluções que permitem que as empresas permaneçam na vanguarda da tecnologia. Também oferece às empresas que usam LLMs de código aberto mais controle sobre sua tecnologia e decisões sobre como a usam.

Boletim informativo do setor

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Que tipos de projetos os modelos de LLMs de código aberto podem viabilizar?

As organizações podem usar modelos de LLMs de código aberto para criar praticamente qualquer projeto útil para seus funcionários ou, quando a licença de código aberto permitir, que podem ser oferecidos como produtos comerciais. Estes incluem:

Geração de texto

Os modelos de LLMs de código aberto permitem que você crie um aplicativo com habilidades de geração de linguagem, como escrever e-mails, post de blog ou histórias criativas. Um LLM como o Falcon-40B, oferecido sob uma licença Apache 2.0, pode responder a um prompt com sugestões de texto de alta qualidade que você pode então refinar e polir.

Geração de códigos

LLMs de código aberto treinados em código e linguagens de programação existentes podem ajudar os desenvolvedores a criar aplicações e encontrar erros e falhas relacionadas à segurança.

Tutoria virtual

Os LLMs de código aberto permitem criar aplicações que oferecem experiências de aprendizado personalizadas, que podem ser adaptadas e receber ajuste fino a estilos de aprendizado específicos.

Sumarização do conteúdo

Uma ferramenta de LLM de código aberto que resume artigos longos, notícias, relatórios de pesquisa e muito mais pode facilitar a extração de dados importantes.

Chatbots orientados por IA

Ela podem entender e responder a perguntas, oferecer sugestões e participar de conversas em linguagem natural.

Tradução de idiomas

Os LLMs de código aberto que treinam em conjuntos de dados multilíngues podem fornecer traduções precisas e fluentes em muitos idiomas.

Análise de sentimento

Os LLMs podem analisar o texto para determinar o tom emocional ou de sentimento, o que é valioso no gerenciamento da reputação da marca e na análise do feedback dos clientes.

Filtragem e moderação de conteúdo

Os LLMs podem ser valiosos na identificação e filtragem de conteúdo online inadequado ou prejudicial, o que é uma grande ajuda na manutenção de um ambiente online mais seguro.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Acessar o episódio

Que tipos de organizações usam LLMs de código aberto?

Uma ampla variedade de tipos de organizações usa LLMs de código aberto. Por exemplo, a IBM e a NASA desenvolveram um LLM de código aberto treinado com dados geoespaciais para ajudar os cientistas e suas organizações a combater a mudança climática.

Editores e jornalistas usam LLMs de código aberto internamente para analisar, identificar e resumir informações sem compartilhar dados proprietários fora da redação.

Algumas organizações de saúde usam LLMs de código aberto para software de saúde, incluindo ferramentas de diagnóstico, otimizações de tratamento e ferramentas para lidar com informações de pacientes, saúde pública e muito mais.

O LLM FinGPT de código aberto foi desenvolvido especificamente para o setor financeiro.

Alguns dos melhores LLMs selecionados de código aberto

A Open LLM Leaderboard tem como objetivo rastrear, classificar e avaliar LLMs e chatbots de código aberto em diferentes benchmarks.

Um LLM de código aberto com bom desempenho e uma licença que permite acordos para uso comercial é o LLaMa 2 da Meta AI, que engloba modelos de texto generativo pré-treinados e ajustados com 7 a 70 bilhões de parâmetros e está disponível nowatsonx.ai studio. Também está disponível por meio do ecossistema da Hugging Face e da biblioteca Transformers.
O Vicuna e o Alpaca foram criados com base no modelo LLaMa e, como o Bard do Google e o ChatGPT da OpenAI, receberam ajuste fino para seguir instruções. O Vicuna, que supera o desempenho do Alpaca, iguala o desempenho do GPT-4.
O Bloom (link externo a ibm.com) da BigScience é um modelo de linguagem multilíngue criado por mais de 1.000 pesquisadores de IA. É o primeiro LLM multilíngue treinado em total transparência.
O LLM Falcon (link externo a ibm.com) do Technology Innovation Institute (TII) pode ser usado com chatbots para gerar texto criativo, resolver problemas complexos e reduzir e automatizar tarefas repetitivas. Tanto o Falcon 6B quanto o 40B estão disponíveis como modelos brutos para ajuste fino ou como modelos já ajustados por instruções que podem ser usados como estão. O Falcon utiliza apenas cerca de 75% do orçamento de computação de treinamento do GPT-3 e supera seu desempenho consideravelmente.
O MPT-7B e o MPT-30B (link externo a ibm.com) são LLMs de código aberto licenciados para uso comercial da MosaicML (recentemente adquirida pela Databricks). O MPT-7B iguala o desempenho do LlaMA. O desempenho do MPT-30B supera o do GPT-3. Ambos são treinados com 1 T tokens.
O FLAN-T5, lançado pela IA do Google, consegue lidar com mais de 1.800 tarefas diversas.
O StarCoder (link externo a ibm.com) da Hugging Face é um assistente de codificação de LLM de código aberto treinado em código permissivo do GitHub.
O RedPajama-INCITE (link externo a ibm.com), licenciado sob o Apache-2, é um modelo de linguagem pré-treinada com 6,9 bilhões de parâmetros, desenvolvido pela Junto e líderes de várias instituições, incluindo a University of Montreal e o Stanford Center for Research on Foundation Models.
O Cerebras-GPT (link externo a ibm.com) do Cerebras é uma família de sete modelos GPT que variam de 111 milhões a 13 bilhões de parâmetros.
O StableLM é um LLM de código aberto da Stability AI, que criou o gerador de imagens de IA Stable Diffusion. Ele foi treinado em um conjunto de dados contendo 1,5 trilhão de tokens chamado "The Pile" e é ajustado com uma combinação de conjuntos de dados de código aberto da Alpaca, GPT4All (que oferece uma variedade de modelos baseados em GPT-J, MPT e LlaMa), Dolly, ShareGPT e HH.

Riscos associados a grandes modelos de linguagem

Embora as saídas dos LLMs pareçam fluentes e confiáveis, podem haver riscos que incluem a oferta de informações com base em alucinações, bem como problemas com viés, consentimento ou segurança. A educação sobre esses riscos é uma resposta para as questões de dados e IA.

Alucinações, ou falsidades, podem resultar do treinamento do LLM com dados incompletos, contraditórios ou imprecisos, ou da previsão da próxima palavra precisa com base no contexto sem entender o significado.
O viés acontece quando a fonte de dados não é diversificada ou representativa.
O consentimento se refere a se os dados de treinamento foram coletados com responsabilidade, o que significa que seguem processos de governança de IA que os tornam compatíveis com leis e regulamentos e oferece maneiras para as pessoas incorporarem feedback.
Os problemas de segurança podem incluir vazamento de PII, criminosos cibernéticos usando o LLM para tarefas maliciosas, como phishing e spam, e hackers que alteram a programação original.

Grandes modelos de linguagem de código aberto e IBM

Os modelos de IA, especialmente os LLMs, serão uma das tecnologias mais transformadoras da próxima década. Como as novas regulamentações sobre IA impondo diretrizes sobre o uso da IA, é crítico não apenas gerenciar e governar os modelos de IA, mas, igualmente importante, governar os dados inseridos na IA.

Para ajudar as organizações a lidar com essas necessidades e multiplicar o impacto da IA, a IBM oferece o watsonx, nossa plataforma de dados e IA pronta para empresas. Juntos, o watsonx oferece às organizações a capacidade de:

Treinar, ajustar e implementar a IA em sua empresa com o watsonx.ai
Escalar cargas de trabalho de IA, para todos os seus dados, em qualquer lugar com o watsonx.data
Possibilitar dados responsáveis, transparentes e explicáveis e fluxos de trabalho de IA com o watsonx.governance

A funcionalidade de pesquisa conversacional do IBM watsonx Assistant se baseia em suas integrações criadas previamente, seu framework de integrações de pouco código (link externo a ibm.com), e sua experiência de criação no-code. Desenvolvedores e usuários corporativos podem automatizar o envio de perguntas com a pesquisa conversacional, liberando-se para criar fluxos transacionais de maior valor e experiências digitais integradas com seus assistentes virtuais.

Além da busca conversacional, o watsonx Assistant Continuar a colaborar com a IBM Research e o watsonx para desenvolver LLMs personalizados do watsonx especializados em classificação, raciocínio, extração de informações, sumarização e outros caso de uso conversacionais. O watsonx Assistant já obteve grandes avanços em sua capacidade de entender os clientes com menos esforço utilizando grandes modelos de linguagem.

Autora

IBM Data and AI Team

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.

Modelos de linguagem de grande porte de código aberto: benefícios, riscos e tipos