O que é rotulagem de dados?

A rotulagem de dados, ou anotação de dados, faz parte da etapa de pré-processamento no desenvolvimento de um modelo de aprendizado de máquina (ML).

A rotulagem de dados envolve a identificação de dados brutos, como imagens, arquivos de texto ou vídeos, e a atribuição de um ou mais rótulos para especificar seu contexto para modelos de aprendizado de máquina. Esses rótulos ajudam os modelos a interpretar os dados corretamente, possibilitando que façam previsões precisas.

A rotulagem de dados fundamenta diferentes casos de uso de aprendizado de máquina e deep learning, incluindo visão computacional e processamento de linguagem natural (NLP).

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Como funciona a rotulagem de dados?

As empresas integram software, processos e anotadores de dados para limpar, estruturar e rotular dados. Esses dados de treinamento se tornam a base para os modelos de aprendizado de máquina. Esses rótulos permitem que os analistas isolem variáveis dentro de conjuntos de dados e esse processo, por sua vez, permite a seleção de preditores de dados ideais para modelos de ML. Os rótulos identificam os vetores de dados apropriados a serem utilizados no treinamento do modelo, onde o modelo, então, aprende a fazer as melhores previsões.

Junto com a assistência de máquinas, as tarefas de rotulagem de dados exigem a participação de "human-in-the-loop (HITL)". O HITL aproveita o julgamento de "rotuladores de dados" humanos para criar, treinar, ajustar e testar modelos de ML. Eles ajudam a orientar o processo de rotulagem de dados, alimentando os conjuntos de dados de modelos mais aplicáveis a um projeto.

Dados rotulados versus dados não rotulados

Os computadores usam dados rotulados e não rotulados para treinar modelos de ML, mas qual é a diferença?

Os dados rotulados são usados em aprendizado supervisionado, enquanto os dados não rotulados são usados em aprendizado não supervisionado.
Os dados rotulados são mais difíceis de adquirir e armazenar (isso é demorado e caro), enquanto os dados não rotulados são mais fáceis de adquirir e armazenar.
Os dados rotulados podem ser usados para determinar insights praticáveis (por exemplo, forecasting), enquanto os dados não rotulados têm utilidade mais limitada. Métodos de aprendizado não supervisionado podem ajudar a descobrir novos clusters de dados, permitindo novas categorizações durante a rotulagem.

Os computadores também podem usar dados combinados para aprendizado semissupervisionado, o que reduz a necessidade de dados rotulados manualmente, ao mesmo tempo em que fornece um grande conjunto de dados anotados.

AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Assista à série

Abordagens de rotulagem de dados

A rotulagem de dados é uma etapa crítica no desenvolvimento de um modelo de ML de alto desempenho. Embora a rotulagem pareça simples, ela não é necessariamente fácil de implementar. Como resultado, as empresas devem considerar múltiplos fatores e métodos para determinar a melhor abordagem para a rotulagem. Como cada método de rotulagem de dados tem seus prós e contras, é recomendada uma avaliação detalhada da complexidade da tarefa, bem como do tamanho, escopo e duração do projeto.

Aqui estão alguns caminhos para rotular seus dados:

Rotulagem interna: o uso de especialistas internos em ciência de dados simplifica o rastreamento, proporciona maior precisão e aumenta a qualidade. No entanto, essa abordagem normalmente requer mais tempo e favorece grandes empresas com recursos extensos.
Rotulagem sintética: essa abordagem gera novos dados do projeto a partir de conjuntos de dados preexistentes, o que melhora a qualidade dos dados e a eficiência de tempo. No entanto, a rotulagem sintética requer grande poder computacional, o que pode aumentar os preços.
Rotulagem programática: esse processo automatizado de rotulagem de dados usa scripts para reduzir o tempo e a necessidade de anotação humana. No entanto, a possibilidade de problemas técnicos exige que o HITL permaneça como parte do processo de garantia de qualidade (QA).
Terceirização: essa abordagem pode ser uma escolha ideal para projetos temporários de alto nível, mas desenvolver e gerenciar um fluxo de trabalho orientado para o freelancer também pode ser demorado. Embora as plataformas de freelancers forneçam informações abrangentes sobre os candidatos para facilitar o processo de análise, a contratação de equipes de rotulagem de dados gerenciados fornece uma equipe pré-selecionada e ferramentas de rotulagem de dados criadas previamente.
Crowdsourcing: essa abordagem é mais rápida e econômica devido a seu recurso de utilizar microtarefas e distribuição baseada na web. No entanto, a qualidade dos trabalhadores, QA e o gerenciamento do projeto variam entre as plataformas de crowdsourcing. Um dos exemplos mais famosos de rotulagem de dados com crowdsourcing é o reCAPTCHA. Esse projeto tinha duas vertentes, pois controlava bots e, ao mesmo tempo, melhorava a anotação de dados de imagens. Por exemplo, um prompt do reCAPTCHA pediria ao usuário que identificasse todas as fotos contendo um carro para provar que eram humanas. O programa pode, então, verificar sua precisão comparando os resultados com os dos outros usuários. As entradas desses usuários forneceram um banco de dados de rótulos para uma variedade de imagens.

Benefícios e desafios da rotulagem de dados

A desvantagem geral da rotulagem de dados é que, embora possa acelerar o processo de dimensionamento de uma empresa, muitas vezes tem um custo significativo. Dados mais precisos levam a melhores previsões de modelos, tornando a rotulagem de dados um investimento valioso, mas caro. Apesar de seu alto custo, as empresas acham que vale a pena devido à precisão aprimorada que proporciona.

Como a anotação de dados adiciona mais contexto aos conjuntos de dados, ela melhora o desempenho da análise exploratória de dados, aprendizado de máquina (ML) e aplicações de inteligência artificial (IA). Por exemplo, os dados rotulados contribuem para resultados de pesquisa mais relevantes em plataformas de mecanismos de pesquisa e melhores recomendações de produtos no comércio eletrônico. Vamos agora explorar outros principais benefícios e desafios mais detalhadamente.

Benefícios

A rotulagem de dados oferece a usuários, equipes e empresas maior contexto, qualidade e usabilidade. Mais especificamente, você pode esperar:

Previsões mais precisas: a rotulagem precisa de dados assegura uma melhor garantia de qualidade dentro dos algoritmos de aprendizado de máquina, permitindo que o modelo treine e produza a saída esperada. Caso contrário, como diz o velho ditado, "entra lixo, sai lixo". Dados devidamente rotulados fornecem a "verdade fundamental" (ou seja, como os rótulos refletem cenários do "mundo real") para testar e iterar modelos subsequentes.
Melhor usabilidade de dados: a rotulagem de dados também pode melhorar a usabilidade de variáveis de dados em um modelo. Por exemplo, você pode reclassificar uma variável categórica como uma variável binária para torná-la mais acessível para o modelo. Agregar dados dessa forma pode otimizar o modelo ao reduzir o número de variáveis ou permitir a inclusão de variáveis de controle. Quer você esteja usando dados para criar modelos de visão computacional (que estão colocando caixas delimitadoras ao redor de objetos) ou modelos NLP (que estão classificando texto para sentimento social), garantir dados de alta qualidade é uma prioridade máxima.

Desafios

A rotulagem de dados vem com seu próprio conjunto de desafios. Em particular, alguns dos desafios mais comuns são:

Custo elevado e tempo excessivo: embora a rotulagem de dados seja crítica para os modelos de aprendizado de máquina, pode ser dispendiosa tanto em termos de recursos quanto de tempo. Se uma empresa adotar uma abordagem mais automatizada, as equipes de engenharia ainda precisarão configurar pipelines de dados antes que o processamento de dados e a rotulagem manual normalmente sejam caros e demorados.
Propensas a erros humanos: essas abordagens de rotulagem também estão sujeitas a erros humanos (por exemplo, erros de codificação, erros de entrada manual), o que pode diminuir a qualidade dos dados. Esse processo, por sua vez, leva a um processamento de dados imprecisos e modelagem. Verificações de garantia de qualidade são essenciais para manter a qualidade dos dados.

Melhores práticas de rotulagem de dados

Independentemente da abordagem, as seguintes práticas recomendadas otimizam a precisão e eficiência da rotulagem de dados:

Interfaces de tarefas intuitivas e otimizadas minimizam a carga cognitiva e a troca de contexto para os rotuladores humanos.
Consenso: mede a taxa de concordância entre vários rotuladores (humanos ou máquinas). Uma pontuação de consenso é calculada dividindo a soma dos rótulos concordantes pelo número total de rótulos por ativo.
Auditoria de rótulos: verifica a precisão dos rótulos e os atualiza conforme necessário.
Aprendizado por transferência: pega um ou mais modelos pré-treinados de um conjunto de dados e os aplica a outro. Esse processo pode incluir o aprendizado multitarefas, no qual várias tarefas são aprendidas em conjunto.
Aprendizado ativo: uma categoria de algoritmos de ML e subconjunto de aprendizado semi-supervisionado que ajuda os humanos a identificar os conjuntos de dados mais apropriados. As abordagens de aprendizado ativo incluem:
- Síntese de consulta de associação - Gera uma instância sintética e solicita um rótulo para ela.
- Amostragem baseada em pool - Classifica todas as instâncias não rotuladas de acordo com uma medição de informatividade e seleciona as melhores consultas para anotação.
- Amostragem seletiva baseada em fluxo - Seleciona instâncias não rotuladas uma a uma e as rotula ou ignora, dependendo de sua informatividade ou incerteza.

Casos de uso da rotulagem de dados

Embora a rotulagem de dados possa aumentar a precisão, qualidade e usabilidade em diversos contextos e setores, seus casos de uso mais proeminentes incluem:

Computer vision: um campo da IA que utiliza dados de treinamento para construir um modelo de visão computacional que possibilita a segmentação de imagens, a automação de categorias, identifica pontos-chave em uma imagem e detecta a localização de objetos. A IBM oferece uma plataforma de computer vision chamada Maximo Visual Inspection, que permite que especialistas no assunto (SMEs) rotulem e treinem modelos de visão de deep learning. Esses modelos podem ser implementados na nuvem, em dispositivos de edge e em data centers locais. A computer vision é usada em vários setores, desde energia e serviços públicos a fabricação e automotivo. Até 2022, espera-se que esse campo em crescimento alcance um valor de mercado de US$ 48,6 bilhões.
Processamento de linguagem natural (NLP): um ramo da IA combina linguística computacional com modelos estatísticos, de aprendizado de máquina e deep learning para identificar e marcar seções importantes de texto. Essas seções identificadas geram dados de treinamento para análise de sentimento, reconhecimento de nome de entidade e reconhecimento óptico de caracteres. O NLP está sendo cada vez mais utilizado em soluções empresariais como detecção de spam, tradução automática, reconhecimento de fala, sumarização de textos, assistentes virtuais e chatbots, além de sistemas de GPS operados por voz. Esse avanço tornou o NLP um componente crítico na evolução dos processos de negócios de missão crítica.

Ciência de dados e MLOps para líderes de dados

Alinhe-se com outros líderes sobre as três principais metas de MLOps e IA confiável: confiança nos dados, confiança nos modelos e confiança nos processos.

O que é rotulagem de dados?