A rotulagem de dados (ou anotação de dados) faz parte do estágio de pré-processamento ao desenvolver um modelo de machine learning (ML). Ela requer a identificação de dados brutos (ou seja, imagens, arquivos de texto, vídeos) e a inclusão de um ou mais rótulos nesses dados para especificar o contexto deles aos modelos de machine learning, a fim de permitir que esses modelos façam previsões precisas.
A rotulagem de dados sustenta diferentes casos de uso de machine learning e deep learning, incluindo visão computacional e processamento de linguagem natural (NLP).
IBM Watson Natural Language Understanding
IBM Cloud Object Storage
As empresas integram softwares, processos e anotadores de dados para limpar, estruturar e rotular dados. Esses dados de treinamento se tornam a base para os modelos de machine learning. Os rótulos permitem que os analistas isolem variáveis em conjuntos de dados e isso, por sua vez, permite a seleção de preditores de dados ideais para os modelos de ML. Os rótulos identificam os vetores de dados apropriados a serem extraídos para o treinamento dos modelos e, com isso, os modelos aprendem a fazer as melhores previsões.
Além da assistência de máquina, as tarefas de rotulagem de dados requerem a participação do processo “human-in-the-loop (HITL)”. O HITL aplica a capacidade de julgamento de “rotuladores de dados” humanos para criar, treinar, ajustar e testar os modelos de ML. Eles ajudam a orientar o processo de rotulagem de dados, alimentando os modelos com os conjuntos de dados mais aplicáveis a um determinado projeto.
Os computadores usam dados rotulados e não rotulados para treinar modelos de ML, mas qual é a diferença entre eles?
Os computadores também podem usar dados combinados para aprendizado semi-supervisionado, reduzindo a necessidade de dados rotulados manualmente e fornecendo um grande conjunto de dados anotados.
A rotulagem de dados é uma etapa crítica no desenvolvimento de um modelo de ML de alto desempenho. Embora a rotulagem pareça simples, nem sempre ela é fácil de implementar. Devido a isso, as empresas devem considerar vários fatores e métodos para determinar a melhor abordagem de rotulagem. Como cada método de rotulagem de dados tem seus prós e contras, é recomendado realizar uma avaliação detalhada da complexidade da tarefa, bem como do tamanho, do escopo e da duração do projeto.
Veja a seguir algumas formas de rotular seus dados:
A desvantagem geral da rotulagem de dados é que, embora ela possa diminuir o tempo de expansão de uma empresa, tende a ocorrer a um custo. Como dados mais precisos geralmente melhoram as previsões do modelo, apesar do alto custo, o valor fornecido pela rotulagem de dados geralmente vale o investimento. Como a anotação de dados fornece mais contexto aos conjuntos de dados, ela aprimora o desempenho da análise exploratória de dados e dos aplicativos de machine learning (ML) e inteligência artificial (IA). Por exemplo, a rotulagem de dados produz resultados mais relevantes em plataformas de mecanismos de procura e melhores recomendações de produtos em plataformas de e-commerce. Veja mais detalhes sobre outros benefícios e desafios importantes:
A rotulagem de dados proporciona aos usuários, às equipes e às empresas maior contexto, qualidade e usabilidade. Mais especificamente, é possível esperar o seguinte:
A rotulagem de dados tem seus desafios. Em particular, alguns dos desafios mais comum são:
Independentemente da abordagem, as melhores práticas a seguir otimizam a precisão e a eficiência da rotulagem de dados:
Embora a rotulagem de dados possa melhorar a precisão, a qualidade e a usabilidade em vários contextos em todos os setores, seus casos de uso mais proeminentes incluem:
O serviço de processamento de linguagem natural (NLP) para análise avançada de texto
Ofereça uma estrutura para as cargas de trabalho de IA e consolide o armazenamento principal e secundário de big data com um armazenamento de objetos local e líder de mercado
Veja, preveja e previna problemas com Computer Vision e monitoramento remotos, avançados e impulsionados por IA para ativos e operações