Início topics data labeling O que é rotulagem de dados?
Conheça os usos e os benefícios da rotulagem de dados, incluindo diferentes abordagens e melhores práticas
plano de fundo azul e preto
O que é rotulagem de dados?

A rotulagem de dados (ou anotação de dados) faz parte do estágio de pré-processamento ao desenvolver um modelo de machine learning (ML). Ela requer a identificação de dados brutos (ou seja, imagens, arquivos de texto, vídeos) e a inclusão de um ou mais rótulos nesses dados para especificar o contexto deles aos modelos de machine learning, a fim de permitir que esses modelos façam previsões precisas.

A rotulagem de dados sustenta diferentes casos de uso de machine learning e deep learning, incluindo visão computacional e processamento de linguagem natural (NLP).

Produtos em destaque

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

Como a rotulagem de dados funciona?

As empresas integram softwares, processos e anotadores de dados para limpar, estruturar e rotular dados. Esses dados de treinamento se tornam a base para os modelos de machine learning. Os rótulos permitem que os analistas isolem variáveis em conjuntos de dados e isso, por sua vez, permite a seleção de preditores de dados ideais para os modelos de ML. Os rótulos identificam os vetores de dados apropriados a serem extraídos para o treinamento dos modelos e, com isso, os modelos aprendem a fazer as melhores previsões.

Além da assistência de máquina, as tarefas de rotulagem de dados requerem a participação do processo “human-in-the-loop (HITL)”. O HITL aplica a capacidade de julgamento de “rotuladores de dados” humanos para criar, treinar, ajustar e testar os modelos de ML. Eles ajudam a orientar o processo de rotulagem de dados, alimentando os modelos com os conjuntos de dados mais aplicáveis a um determinado projeto.

Dados rotulados vs. dados não rotulados
 

Os computadores usam dados rotulados e não rotulados para treinar modelos de ML, mas  qual é a diferença entre eles?

  • Os dados rotulados são usados no  aprendizado supervisionado, enquanto os dados não rotulados são usados no  aprendizado não supervisionado. 
  • Diferentemente dos dados não rotulados, os dados rotulados são mais difíceis de adquirir e armazenar (ou seja, são demorados e caros).
  • Os dados rotulados podem ser usados para determinar insights acionáveis (por exemplo, tarefas de previsão), enquanto os dados não rotulados são mais limitados em sua utilidade. Os métodos de aprendizado não supervisionado podem ajudar a descobrir novos grupos de dados, permitindo novas categorizações ao realizar a rotulagem.

Os computadores também podem usar dados combinados para aprendizado semi-supervisionado, reduzindo a necessidade de dados rotulados manualmente e fornecendo um grande conjunto de dados anotados.

Abordagens de rotulagem de dados

A rotulagem de dados é uma etapa crítica no desenvolvimento de um modelo de ML de alto desempenho. Embora a rotulagem pareça simples, nem sempre ela é fácil de implementar. Devido a isso, as empresas devem considerar vários fatores e métodos para determinar a melhor abordagem de rotulagem. Como cada método de rotulagem de dados tem seus prós e contras, é recomendado realizar uma avaliação detalhada da complexidade da tarefa, bem como do tamanho, do escopo e da duração do projeto.

Veja a seguir algumas formas de rotular seus dados:

  • Rotulagem interna : ao empregar especialistas em ciência de dados internos, você simplifica o rastreamento, obtém maior precisão e aumenta a qualidade. No entanto, essa abordagem geralmente requer mais tempo e favorece grandes empresas com recursos extensos.
  • Rotulagem sintética : essa abordagem gera novos dados de projeto com base em conjuntos de dados preexistentes, melhorando a qualidade das informações e a eficiência de tempo. No entanto, a rotulagem sintética requer amplo poder de computação, o que pode aumentar os preços associados.
  • Rotulagem programática : este processo automatizado de rotulagem de dados usa scripts para reduzir o tempo e a necessidade de anotação humana. No entanto, a possibilidade de problemas técnicos requer que o HITL permaneça como parte do processo de garantia de qualidade (QA).
  • Terceirização : embora esta possa ser uma escolha ideal para projetos temporários de alto nível, o desenvolvimento e o gerenciamento de um fluxo de trabalho freelancer também pode consumir muito tempo. As plataformas de freelancers fornecem informações abrangentes sobre candidatos para facilitar o processo de verificação, no entanto, a contratação de equipes de rotulagem de dados gerenciadas resulta em uma equipe pré-selecionada e em ferramentas de rotulagem de dados predefinidas.
  • Crowdsourcing : esta abordagem é mais rápida e econômica devido à sua capacidade de microtarefas e distribuição baseada na web. No entanto, a qualidade do trabalhador, o controle de qualidade e o gerenciamento de projetos variam entre as plataformas de crowdsourcing. Um dos exemplos mais famosos de rotulagem de dados de crowdsourcing é o Recaptcha. Esse projeto controlava os robôs e, ao mesmo tempo, melhorava simultaneamente a anotação de dados das imagens. Por exemplo, um prompt do Recaptcha solicitaria a um usuário que ele identificasse todas as fotos contendo um carro para provar que era humano e, em seguida, verificaria a si mesmo com base nos resultados dos outros usuários. As informações concedidas por esses usuários forneciam um banco de dados de rótulos para uma matriz de imagens.
Benefícios e desafios da rotulagem de dados

A desvantagem geral da rotulagem de dados é que, embora ela possa diminuir o tempo de expansão de uma empresa, tende a ocorrer a um custo. Como dados mais precisos geralmente melhoram as previsões do modelo, apesar do alto custo, o valor fornecido pela rotulagem de dados geralmente vale o investimento. Como a anotação de dados fornece mais contexto aos conjuntos de dados, ela aprimora o desempenho da análise exploratória de dados e dos aplicativos de machine learning (ML) e inteligência artificial (IA). Por exemplo, a rotulagem de dados produz resultados mais relevantes em plataformas de mecanismos de procura e melhores recomendações de produtos em plataformas de e-commerce. Veja mais detalhes sobre outros benefícios e desafios importantes:

Benefícios
 

A rotulagem de dados proporciona aos usuários, às equipes e às empresas maior contexto, qualidade e usabilidade. Mais especificamente, é possível esperar o seguinte:

  • Previsões mais precisas:  uma rotulagem de dados precisa oferece melhor garantia de qualidade nos algoritmos de machine learning, o que permite que o modelo treine e produza a saída esperada. Isso significa que, quanto melhor for a qualidade dos dados que entram, melhor será a qualidade das informações resultantes. Dados rotulados adequadamente  fornecem a “verdade básica” (ou seja, como os rótulos refletem cenários “reais”) para testar e iterar modelos subsequentes.
  • Melhor usabilidade de dados:  a rotulagem de dados também pode melhorar a usabilidade das variáveis de dados em um modelo. Por exemplo, é possível reclassificar uma variável categórica como uma variável binária a fim de torná-la mais consumível para um modelo.  Agregar dados dessa maneira pode otimizar o modelo reduzindo o número de variáveis de modelo ou permitindo a inclusão de variáveis de controle. Utilizar dados de alta qualidade é sempre uma prioridade, esteja você usando dados para criar modelos de visão computacional (ou seja, colocar caixas delimitadoras em torno de objetos) ou modelos de NLP (ou seja, classificar texto para impressões sociais).

Desafios
 

A rotulagem de dados tem seus desafios. Em particular, alguns dos desafios mais comum são:

  • Caro e demorado:  embora a rotulagem de dados seja crítica para modelos de machine learning, ela pode ser cara tanto do ponto de vista de recursos quanto de tempo. Se uma empresa adotar uma abordagem mais automatizada, as equipes de engenharia ainda precisarão configurar pipelines de dados antes do processamento de dados, e a rotulagem manual quase sempre será cara e demorada.
  • Propensa a erros humanos:  essas abordagens de rotulagem também estão sujeitas a erros humanos (por exemplo, erros de codificação e erros de entrada manual), que podem diminuir a qualidade dos dados. Isso, por sua vez, leva a um processamento e uma modelagem de dados imprecisos. As verificações de garantia de qualidade são essenciais para manter a qualidade dos dados.
Melhores práticas de rotulagem de dados

Independentemente da abordagem, as melhores práticas a seguir otimizam a precisão e a eficiência da rotulagem de dados:

  • Interfaces de tarefas intuitivas e simplificadas  minimizam a carga cognitiva e a troca de contexto para os rotuladores humanos.
  • Consenso:  mede a taxa de concordância entre vários rotuladores (humanos ou máquinas). Uma pontuação de consenso é calculada dividindo a soma dos rótulos concordantes pelo número total de rótulos por ativo.
  • Auditoria de rótulos:  verifica a precisão dos rótulos e os atualiza conforme necessário.
  • Aprendizagem por transferência:  aplica um ou mais modelos pré-treinados de um conjunto de dados a outro conjunto. Isso pode incluir um aprendizado multitarefa, no qual várias tarefas são aprendidas em conjunto.
  • Aprendizado ativo:  uma categoria de algoritmos de ML e um subconjunto de aprendizado semissupervisionado que ajuda os humanos a identificar os conjuntos de dados mais apropriados. As abordagens de aprendizado ativo incluem:
    • Síntese de consulta de associação : gera uma instância sintética e solicita um rótulo para ela.
    • Amostragem baseada em conjunto : classifica todas as instâncias não rotuladas de acordo com a medição de informatividade e seleciona as melhores consultas para anotar.
    • Amostragem seletiva baseada em fluxo : seleciona instâncias não rotuladas uma a uma e as rotula ou as ignora dependendo de sua informatividade ou incerteza.
Casos de uso de rotulagem de dados

Embora a rotulagem de dados possa melhorar a precisão, a qualidade e a usabilidade em vários contextos em todos os setores, seus casos de uso mais proeminentes incluem:

  • Visão computacional:  um campo da IA que usa dados de treinamento para criar um modelo de visão computacional que permite a segmentação de imagens e a automação de categorias, identifica pontos importantes em uma imagem e detecta a localização de objetos. Na verdade, a IBM oferece uma plataforma de Computer Vision, o  Maximo Visual Inspection, que permite que especialistas no assunto (SMEs) rotulem e treinem modelos de visão de deep learning que podem ser implementados na cloud, em dispositivos de borda e em data centers locais. A Computer Vision é usada em vários setores, desde energia e utilidade pública até manufatura e automotivo. Até 2022, esperava-se que esse campo em expansão atingisse um valor de mercado de USD 48,6 bilhões.
  • Processamento de linguagem natural (NLP):  um ramo da IA que combina linguística computacional com modelos estatísticos, de machine learning e de deep learning para identificar e marcar seções importantes de texto que geram dados de treinamento para análise de impressões, reconhecimento de nome de entidade e reconhecimento óptico de caracteres. O NLP é cada vez mais usado em soluções corporativas, como detecção de spam, tradução automática,  reconhecimento de fala, resumo de texto, assistentes virtuais e chatbots, e sistemas de GPS operados por voz. Isso tornou o NLP um componente crítico na evolução dos processos de negócios críticos.
Soluções relacionadas
Natural Language Understanding

O serviço de processamento de linguagem natural (NLP) para análise avançada de texto

Conheça o IBM Watson Natural Language Understanding
Cloud Object Storage

Ofereça uma estrutura para as cargas de trabalho de IA e consolide o armazenamento principal e secundário de big data com um armazenamento de objetos local e líder de mercado

Conheça o IBM Cloud Object Storage
Inspeção visual

Veja, preveja e previna problemas com Computer Vision e monitoramento remotos, avançados e impulsionados por IA para ativos e operações

Conheça o IBM Maximo Application Suite Visual Inspection
Dê o próximo passo

A IBM oferece mais recursos para ajudar você a vencer os desafios da rotulagem de dados e maximizar sua experiência geral com ela. Não importa o tamanho ou cronograma do seu projeto, a IBM Cloud e o IBM Watson podem aprimorar seus processos de treinamento de dados, expandir seus esforços de classificação de dados e simplificar modelos de previsão complexos.

Conheça o Watson Natural Language Understanding