O que é OCR (reconhecimento ótico de caracteres)?

O que é OCR?

O reconhecimento ótico de caracteres (OCR) é uma tecnologia que usa extração automatizada de dados para converter rapidamente imagens de texto em um formato legível por máquina.

Às vezes, o OCR é chamado de reconhecimento de texto. Um programa de OCR extrai e reutiliza dados de documentos digitalizados, imagens de câmera e PDFs somente com imagem. O software OCR identifica as letras na imagem, as junta em palavras e, em seguida, transforma as palavras em frases, permitindo assim o acesso e a edição do conteúdo original. Ele também elimina o esforço desperdiçado de inserção manual de dados redundante.

Os sistemas de OCR usam uma combinação de hardware e software para converter documentos físicos impressos em texto legível por máquina. O hardware, como um scanner ótico ou uma placa de circuito especializada, copia ou lê o texto, e o software normalmente lida com o processamento avançado.

O software de OCR pode aproveitar a inteligência artificial (IA) para implementar métodos mais avançados de reconhecimento inteligente de caracteres (ICR) para identificar idiomas ou manuscritos. As organizações geralmente usam o processo de OCR para transformar documentos legais ou históricos impressos em documentos PDF, para que os usuários possam editar, formatar e pesquisar os documentos como se tivessem sido fossem criados com um processador de texto.

Como escolher os modelos de base de IA corretos

Saiba como escolher a abordagem certa na preparação de conjuntos de dados e no emprego de modelos de IA, além de como usar o framework de seleção de modelos para equilibrar o custo de desempenho, os riscos e as necessidades de implementação.

A história do OCR

Em 1974, Ray Kurzweil fundou a Kurzweil Computer Products, Inc., cujo produto OCR omni-fonte pode reconhecer textos impressos em praticamente qualquer fonte. Ele decidiu que a melhor aplicação dessa tecnologia seria um dispositivo de aprendizado de máquina (ML) para pessoas com deficiência visual, então ele criou uma máquina de leitura que pode ler texto em voz alta no formato de conversão de texto em fala. Em 1980, Kurzweil vendeu sua empresa para a Xerox, que estava interessada em continuar comercializando a conversão de texto de papel para computador.

A tecnologia OCR tornou-se popular no início da década de 1990 durante a digitalização de jornais históricos. Desde então, a tecnologia passou por diversas melhorias. Hoje, os produtos podem oferecer uma precisão de OCR quase perfeita. Métodos avançados podem automatizar fluxos de trabalho complexos de processamento de documentos.

Antes da tecnologia OCR ser disponibilizada, a única opção para formatar digitalmente os documentos era redigitar o texto manualmente. O input redundante não só é demorado, como também vem com inevitáveis imprecisões e erros de digitação. Atualmente, os serviços de OCR estão amplamente disponíveis ao público. Por exemplo, o OCR do Google Cloud Vision pode ser usado para digitalizar e armazenar documentos no seu smartphone.

Como funciona o OCR?

O software de OCR usa um scanner para reprocessar a forma física de um documento em texto digital editável. O software OCR pode ser executado como um programa autônomo, uma interface de programação de aplicativos OCR ou serviço baseado na web.

Aquisição de imagem: todas as páginas do documento são copiadas e, em seguida, o mecanismo de OCR converte o documento digital em uma versão de duas cores ou em preto e branco. A imagem digitalizada ou bitmap é analisada quanto a partes claras e escuras. O programa então identifica as partes escuras como caracteres que precisam ser reconhecidos, enquanto as áreas claras são identificadas como fundo.

Pré -processamento: a imagem digital é limpa para remover pixels estranhos. Esse pré-processamento pode incluir o desalinhamento para corrigir o alinhamento incorreto da imagem durante a digitalização, a remoção de réguas gráficas e caixas que faziam parte da imagem impressa e a determinação da inclusão do texto do script.

Reconhecimento de texto: as partes escuras são processadas para localizar letras alfabéticas, dígitos numéricos ou símbolos. Esse estágio normalmente envolve direcionar um caractere, palavra ou bloco de texto de cada vez. Os caracteres são então identificados usando um dos dois algoritmos, reconhecimento de padrões ou reconhecimento de recursos.

Reconhecimento de padrões (ou correspondência de padrões): o programa de OCR já foi treinado com exemplos de texto de várias fontes e formatos para reconhecer os caracteres comparando com um modelo no documento digitalizado ou arquivo de imagem. Cada combinação única de forma, escala e fonte é chamada de glifo. Para que isso funcione, os caracteres devem estar em uma fonte na qual o programa de OCR já tenha sido treinado. Dado o número de fontes em todo o mundo e idiomas que usam caracteres diferentes, como árabe, chinês, inglês, francês, alemão, grego, japonês, coreano e espanhol, o treinamento em todas as combinações de fonte e idioma seria uma enorme perda de sistema.
Reconhecimento de recursos (detecção ou extração): usado quando o programa de OCR está analisando uma fonte na qual não foi treinado. O OCR aplica regras relativas aos recursos de uma letra ou número específico para reconhecer caracteres no documento digitalizado. Os recursos incluem o número de linhas angulares, as interseções de linha e loops ou curvas em um caractere. Por exemplo, a letra maiúscula "A" é armazenada como duas linhas diagonais que se encontram com uma linha horizontal no meio. Quando um caractere é identificado, ele é convertido em um código American Standard Code for Information Interchange (ASCII) que os sistemas de computador usam para lidar com outras manipulações.

Reconhecimento de layout: um programa de OCRmais completo também analisará a estrutura da imagem de um documento. Ele divide a página em elementos, como blocos de texto, tabelas ou imagens. As linhas são divididas em palavras e depois em caracteres. Depois que os caracteres são individualizados, o programa os compara com um conjunto de imagens padrão. Depois de processar todas as correspondências prováveis, o programa retorna o texto reconhecido.

Pós-processamento: as informações coletadas são armazenadas como um arquivo digital, em um formulário editável ou PDF. Alguns sistemas mantêm a imagem de input e as versões pós-OCR para facilitar a comparação e um gerenciamento de documentos mais completo.

Tipos de OCR

Existem 4 tipos de programas de OCR, com sofisticação crescente:

OCR simples: a análise é a correspondência de padrões caractere por caractere, comparando caracteres digitalizados com os glifos armazenados. Com tantas combinações possíveis de fontes e idiomas, os tipos de documentos que podem ser analisados são limitados.

Reconhecimento ótico de marcas (OMR): para identificar caixas marcadas e outras marcas, como bolinhas em pesquisas ou assinaturas em formulários, além de logotipos, símbolos e marcas d'água. Todos podem ser identificados por meio de correspondência com as imagens armazenadas, como acontece com o OCR simples.

Reconhecimento inteligente de caracteres (ICR): como mencionado anteriormente, o ICR traz o poder da IA. Ao usar ML ou deep learning, o programa de OCR aprende a ler exatamente como os humanos: por meio de prática e treinamento contínuos. Uma rede neural revisa o texto repetidamente em busca de atributos distintos: as localizações das curvas, interseções, linhas e loops.

Reconhecimento inteligente de palavras: essa é a evolução natural do reconhecimento ICR anterior, mas agora a IA foi treinada para reconhecer uma palavra em uma única imagem, tornando-a mais rápida.

Os benefícios do OCR

Os benefícios de empregar a tecnologia de OCR incluem a capacidade de:

Cortar custos reduzindo ou eliminando inputs manuais redundantes.

Simplificar os fluxos de trabalho com o input de documentos pré-impressos ou formulários escritos e acelerar a pesquisa com dados digitais pesquisáveis.
Automatizar o encaminhamento de documentos, o processamento de conteúdo e a preparação para a mineração de texto.
Economizar no custo de armazenar ainda mais registros em papel.
Centralizar e proteger conjuntos de dados para proteção contra incêndios, invasões e perda de documentos nos cofres bancários.
Permitir maior acesso aos dados para funcionários e clientes com deficiência visual.
Melhorar o serviço fornecendo aos funcionários as informações mais atualizadas e precisas.

Casos de uso do OCR

O caso de uso mais conhecido do OCR é a conversão de documentos impressos em papel em documentos de texto legíveis por máquina. Depois que um documento em papel digitalizado passa pelo processamento de OCR, o texto do documento pode ser editado com um processador de texto como o Microsoft Word ou o Google Docs. Vários casos de uso podem acelerar as cargas de trabalho em muitos setores, incluindo educação, finanças, saúde, logística e transporte, processamento e recuperação de documentos de empréstimo, registros de pacientes, formulários de seguro, etiquetas, faturas e recibos.

O OCR é frequentemente usado como uma tecnologia oculta e alimenta muitos sistemas e serviços conhecidos do nosso dia a dia. Casos de uso importantes, mas menos conhecidos, para a tecnologia de OCR incluem automação de entrada de dados, assistência a pessoas cegas e com deficiência visual e indexação de documentos para mecanismos de busca, como passaportes, placas de carros, faturas, extratos bancários, processamento e transcrição de cheques, cartões de visita e reconhecimento automático de placas numéricas.

O OCR permite a otimização da modelagem de big data, convertendo documentos em papel e imagens digitalizadas em arquivos PDF pesquisáveis e legíveis por máquina. O processamento e a recuperação de informações valiosas exigem primeiro a aplicação de OCR em documentos onde as camadas de texto ainda não estão presentes.

Com o reconhecimento de texto OCR, os documentos digitalizados podem ser integrados a um sistema de big data que é capaz de ler dados de clientes de extratos bancários, contratos e outros documentos impressos importantes. Em vez de fazer com que os funcionários examinem inúmeros documentos de imagem e alimentem manualmente os inputs em um fluxo de trabalho automatizado de processamento de big data, as organizações podem usar o OCR para automatizar esse processo na fase de input da mineração de dados. O software de OCR pode extrair um texto visto em imagens, salvar o arquivo de texto e ser compatível com vários formatos, incluindo jpg, jpeg, png, bmp, tiff e pdf.

Últimos avanços em OCR

O OCR avançou significativamente desde os primeiros sistemas empresariais de 1974 e o progresso continua. Programas de OCR superiores podem fornecer a extração de insights importantes de documentos em condições abaixo do ideal, como fontes irregulares, resolução insuficiente, iluminação ruim da captura móvel e várias cores e fundos. 

Ao incorporar visão computacional e processamento de linguagem natural, melhor representação de informações e otimização de modelos, as empresas agora podem desfrutar de uma compreensão documental de última geração. As melhorias podem incluir a análise do layout e a ordem de leitura em documentos complexos, entendendo os recursos visuais e representando-os como gráficos e diagramas. Alguns programas de OCR agora são impulsionados por IA generativa para ajudar a estruturar os dados do documento ainda mais rápido. Uma tecnologia "antiga" que continua aprendendo novos truques.

Soluções relacionadas

IBM Watson Discovery

Acelere as decisões e os processos de negócios com uma plataforma de análise de conteúdo e entendimento inteligente de documentos impulsionada por IA.

Explore o IBM Watson Discovery

IBM FileNet Capture

Digitalize ou importe arquivos para capturar e armazenar informações digitais e baseadas em papel em vários formatos.

Explore o IBM FileNet Capture

IBM Cloud Pak for Business Automation

Processos mais rápidos e tempos de espera do cliente mais curtos com automação impulsionada por IA.

Explore o IBM Cloud Pak for Business Automation

Recursos

O que é visão computacional?

Se a IA permite que os computadores pensem, a visão computacional permite que eles vejam, observem e entendam. 

O que é mineração de tarefas?

A mineração de tarefas analisa os dados de interação do usuário, também conhecidos como dados da área de trabalho, para avaliar a eficiência de uma tarefa em um processo maior.

O que é computação sem servidor?

O OCR pode ajudar no processamento de dados de texto estruturado, imagem e vídeo para tarefas como enriquecimento, transformação, validação e limpeza de dados.

Conheça a nova tecnologia de OCR da IBM

Avançando na compreensão de documentos de última geração, o OCR agora permite que os modelos analisem o layout e a ordem de leitura em documentos complexos, entendam elementos visuais e os representem, incluindo gráficos e diagramas.

Dê o próximo passo

Veja como o IBM Watson Discovery pode acelerar decisões e processos de negócios com uma plataforma inteligente de compreensão de documentos e análise de conteúdo impulsionada por IA.

Explore o IBM Watson Discovery