O que é um modelo de transformador?

Um modelo de transformador é um tipo de modelo de deep learning que foi introduzido em 2017. Esses modelos rapidamente se tornaram fundamentais no processamento de linguagem natural (NLP) e foram aplicados em uma ampla gama de tarefas de aprendizado de máquina e inteligência artificial.

O modelo foi descrito pela primeira vez em um artigo de 2017 chamado "Attention is All You Need" por Ashish Vaswani, uma equipe do Google Brain e um grupo da Universidade de Toronto. O lançamento deste artigo é considerado um momento divisor de águas no campo, dada a ampla utilização dos transformadores agora em aplicações como o treinamento de LLMs.

Esses modelos podem traduzir texto e fala quase em tempo real Por exemplo, existem aplicativos que agora permitem que turistas se comuniquem com locais na rua em seu idioma primário. Eles ajudam pesquisadores a entender melhor o DNA e acelerar os projetos de drogas. Eles podem ajudar a detectar anomalias e prevenir fraudes em finanças e segurança. Transformadores de visão são usados de maneira semelhante para tarefas de visão computacional.

A popular ferramenta de geração de texto ChatGPT da OpenAI faz uso de arquiteturas de transformação para previsão, sumarização, resposta a perguntas e mais, porque permitem que o modelo foque nos segmentos mais relevantes do texto de input. O “GPT” visto nas várias versões da ferramenta (por exemplo, GPT-2, GPT-3) significa "transformador pré-treinado generativo". Ferramentas de IA generativa baseadas em texto como o ChatGPT se beneficiam de modelos de transformadores porque podem prever mais facilmente a próxima palavra em uma sequência de texto, baseadas em conjuntos de dados grandes e complexos.

O modelo BERT, ou Bidirectional Encoder Representations from Transformers, é baseado na arquitetura de transformação. A partir de 2019, o BERT foi usado para quase todos os resultados de buscas em inglês do Google e foi implementado em mais de 70 outros idiomas.¹

O armazenamento de dados para IA

Descubra o poder de integrar uma estratégia de data lakehouse na sua arquitetura de dados, incluindo melhorias para escalar a IA e oportunidades de otimização de custos.

Conteúdo relacionado

Registre-se para receber o ebook sobre IA generativa

Como os modelos de transformadores são diferentes

A principal inovação do modelo de transformador é não ter que depender de redes neurais recorrentes (RNNs) ou redes neurais convolucionais (CNNs), abordagens de rede neural que têm desvantagens significativas. Transformadores processam sequências de input em paralelo, tornando-os altamente eficientes para treinamento e inferência — porque você não pode simplesmente acelerar as coisas adicionando mais GPUs. Os modelos de transformadores precisam de menos tempo de treinamento do que as arquiteturas de redes neurais recorrentes anteriores, como long short-term memory (LSTM).

RNNs e LSTM remontam aos anos 1920 e 1990, respectivamente. Essas técnicas computam cada componente de um input em sequência (por exemplo, palavra por palavra), então o cálculo pode levar muito tempo. Além disso, ambas as abordagens encontram limitações na retenção de contexto quando a "distância" entre peças de informação em um input é longa.

Duas grandes inovações

Existem duas inovações principais que os modelos de transformadores oferecem. Considere essas duas inovações no contexto da previsão de texto.

Codificação posicional: em vez de olhar para cada palavra na ordem em que aparece em uma frase, um número único é atribuído a cada palavra. Isso fornece informações sobre a posição de cada token (partes do input, como palavras ou subpalavras em NLP) na sequência, permitindo que o modelo considere a informação sequencial da sequência.
Autoatenção : a atenção é um mecanismo que calcula pesos para cada palavra em uma frase conforme elas se relacionam com todas as outras palavras na frase, para que o modelo possa prever palavras que provavelmente serão usadas em sequência. Esse entendimento é aprendido ao longo do tempo conforme um modelo é treinado em grandes quantidades de dados. O mecanismo de autoatenção possibilita que cada palavra considere todas as outras palavras na sequência simultaneamente, avaliando a importância delas para o token presente. Dessa forma, pode-se dizer que os modelos de aprendizado de máquina podem "aprender" as regras de gramática, baseados nas probabilidades estatísticas de como as palavras são tipicamente usadas na linguagem.

Como os modelos de transformadores funcionam?

Modelos de transformadores funcionam processando dados de inputs, que podem ser sequências de tokens ou outros dados estruturados, por meio de uma série de camadas que contêm mecanismos de autoatenção e redes neurais feedforward. A ideia central por trás do funcionamento dos modelos de transformadores pode ser dividida em várias etapas importantes.

Vamos imaginar que você precisa converter uma frase em inglês para o francês. Estas são as etapas que você precisaria seguir para realizar essa tarefa com um modelo de transformador.

Incorporações de input: a frase de entrada é primeiro transformada em representações numéricas chamadas incorporações. Essas capturam o significado semântico dos tokens na sequência de input. Para sequências de palavras, essas incorporações podem ser aprendidas durante o treinamento ou obtidas de incorporações de palavras pré-treinadas.
Codificação posicional: a codificação posicional é tipicamente introduzida como um conjunto de valores ou vetores adicionais que são adicionados às incorporações de token antes de alimentá-los no modelo de transformador. Essas codificações posicionais possuem padrões específicos que codificam a informação de posição.
Atenção multiterminal: a autoatenção opera em múltiplas “cabeças de atenção” para capturar diferentes tipos de relações entre tokens. As funções softmax, um tipo de função de ativação, são usadas para calcular os pesos de atenção no mecanismo de autoatenção.
Normalização de camadas e conexões residuais: o modelo usa a normalização de camadas e conexões residuais para estabilizar e acelerar o treinamento.
Redes neurais feedforward: a produção da camada de autoatenção é passada através de camadas feedforward. Essas redes aplicam transformações não lineares às representações dos tokens, permitindo que o modelo capture padrões e relações complexas nos dados.
Camadas empilhadas: os transformadores normalmente consistem em várias camadas empilhadas umas sobre as outras. Cada camada processa a produção da camada anterior, refinando gradualmente as representações. Empilhar múltiplas camadas permite que o modelo capture características hierárquicas e abstratas nos dados.
Camada de produção: em tarefas de sequência para sequência como a tradução automática neural, um módulo decodificador separado pode ser adicionado no topo do codificador para gerar a sequência de produção.
Treinamento: os modelos de transformadores são treinados usando aprendizado supervisionado, onde aprendem a minimizar uma função de perda que quantifica a diferença entre as previsões do modelo e a verdade fundamental para a tarefa dada. O treinamento tipicamente envolve técnicas de otimização como Adam ou descida gradiente estocástica (SGD).
Inferência: após o treinamento, o modelo pode ser usado para inferência em novos dados. Durante a inferência, o input é passado pelo modelo pré-treinado e o modelo gera previsões ou representações para a tarefa em questão.

Soluções relacionadas

Dados e IA

Soluções de data warehouse

Escale análises e cargas de trabalho de IA de alto desempenho sempre ativas em dados governados por toda a sua organização.

Saiba mais sobre soluções de data warehouse

Dados e IA

IBM WATSONX.DATA

O IBM watsonx.data é um armazenamento de dados que se adequa à finalidade, criado na arquitetura open lakehouse e compatível com os formatos de consulta, governança e dados abertos para ajudar a acessar e compartilhar os dados.

Saiba mais sobre o IBM watsonx.data

Recursos relacionados

A IBM vai ajudar as empresas a dimensionar as cargas de trabalho de IA

Saiba mais sobre o IBM watsonx.data, um armazenamento de dados que ajuda as empresas a unificar e governar facilmente seus dados estruturados e não estruturados.

O potencial disruptivo das arquiteturas de open data lakehouse e o IBM watsonx.data

Explore a arquitetura open data lakehouse e descubra como ela combina a flexibilidade e as vantagens de custo dos data lakes com o desempenho dos data warehouses.

IBM watsonx.data: um armazenamento aberto e híbrido de dados governados

Descubra como o IBM watsonx.data ajuda as empresas a lidar com os desafios do complexo cenário de dados atual e a dimensionar a IA para atender às suas necessidades.

Presto: entenda todos os seus dados, de qualquer tamanho, em qualquer lugar

Veja como o Presto, um mecanismo de consulta SQL de código aberto rápido e flexível, pode ajudar a fornecer os insights que as empresas precisam.

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data

Agende uma demonstração em tempo real

Notas de rodapé

¹ Google's BERT Rolls Out Worldwide, Search Engine Journal (link fora de IBM.com), 9 de dezembro de 2019