O que é reconhecimento ótico de caracteres (OCR)?

18 de abril de 2024

O que é OCR?

O reconhecimento ótico de caracteres (OCR) é uma tecnologia que usa extração automatizada de dados para converter rapidamente imagens de texto em um formato legível por máquina.

Às vezes, o OCR é chamado de reconhecimento de texto. Um programa de OCR extrai e reutiliza dados de documentos digitalizados, imagens de câmera e PDFs somente com imagem. O software OCR identifica as letras na imagem, as junta em palavras e, em seguida, transforma as palavras em frases, permitindo assim o acesso e a edição do conteúdo original. Ele também elimina o esforço desperdiçado de inserção manual de dados redundante.

Os sistemas de OCR usam uma combinação de hardware e software para converter documentos físicos impressos em texto legível por máquina. O hardware, como um scanner ótico ou uma placa de circuito especializada, copia ou lê o texto, e o software normalmente lida com o processamento avançado.

O software de OCR pode utilizar inteligência artificial (IA) para implementar métodos mais avançados de reconhecimento inteligente de caracteres (ICR) para identificar idiomas ou manuscritos. As organizações geralmente utilizam o processo de OCR para transformar documentos legais ou históricos impressos em documentos em PDF para os usuários poderem editar, formatar e pesquisar os documentos como se tivessem sido criados com um processador de texto.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

A história do OCR

Em 1974, Ray Kurzweil fundou a Kurzweil Computer Products, Inc., cujo produto OCR omni-font é capaz de reconhecer textos impressos em praticamente qualquer fonte. Ele decidiu que a melhor aplicação dessa tecnologia seria um dispositivo de aprendizado de máquina (ML) para pessoas com deficiência visual, assim criou uma máquina de leitura capaz de ler texto em voz alta na forma de conversão de texto em voz. Em 1980, Kurzweil vendeu sua empresa para a Xerox, que estava interessada em continuar comercializando a conversão de texto de papel para computador.

A tecnologia OCR popularizou-se no início da década de 1990 na digitalização de jornais históricos. Desde então, a tecnologia passou por diversas melhorias. Hoje, os produtos podem oferecer precisão de OCR quase perfeita. Métodos avançados podem automatizar fluxos de trabalho complexos de processamento de documentos.

Antes da tecnologia OCR ser disponibilizada, a única opção para formatar digitalmente os documentos era redigitar o texto manualmente. O input redundante não só é demorado, como também vem com inevitáveis imprecisões e erros de digitação. Atualmente, os serviços de OCR estão amplamente disponíveis ao público. Por exemplo, o OCR do Google Cloud Vision pode ser usado para digitalizar e armazenar documentos no seu smartphone.

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Como funciona o OCR?

O software de OCR utiliza um scanner para reprocessar a forma física de um documento em texto digital editável. O software de OCR pode ser executado como um programa independente, uma interface de programação de aplicações de OCR ou serviço baseado na web.

Aquisição de imagem: todas as páginas do documento são copiadas e, em seguida, o mecanismo de OCR converte o documento digital em uma versão em duas cores ou em preto e branco. A imagem digitalizada ou o bitmap é analisado em partes claras e escuras. O programa então identifica as partes escuras como caracteres que precisam ser reconhecidos, enquanto as áreas claras são identificadas como plano de fundo.

Processamento prévio: a imagem digital é limpa para remover pixels estranhos. Esse processamento prévio pode incluir a distorção para corrigir o alinhamento incorreto da imagem durante a digitalização, a remoção de linhas gráficas e caixas que faziam parte da imagem impressa e a determinação se houve a inclusão do texto manuscrito.

Reconhecimento de texto: as partes escuras são processadas para localizar letras alfabéticas, dígitos numéricos ou símbolos. Esse estágio normalmente envolve o tratamento de um caractere, uma palavra ou um bloco de texto de cada vez. Os caracteres são então identificados com um dos dois algoritmos, reconhecimento de padrões ou reconhecimento de recursos.

  • Reconhecimento de padrões (ou correspondência de padrões): o software de OCR foi previamente treinado em exemplos de texto em várias fontes e formatos para reconhecer caracteres por comparação com um modelo no documento ou arquivo de imagem digitalizado. Cada combinação única de forma, escala e fonte é chamada de glifo. Para que isso funcione, os caracteres devem estar em uma fonte na qual o programa de OCR já tenha sido treinado. Dado o número de fontes e idiomas do mundo que utilizam caracteres diferentes, como árabe, chinês, inglês, francês, alemão, grego, japonês, coreano ou espanhol, o treinamento em cada combinação de fonte e idioma seria um enorme dreno do sistema.

  • Reconhecimento de características (detecção ou extração): utilizado quando o programa de OCR analisa uma fonte na qual não foi treinado. O OCR aplica regras relacionadas às características de uma letra ou número específico para reconhecer caracteres no documento digitalizado. Os recursos incluem o número de linhas angulares, interseções de linhas, loops ou curvas de um caractere. Por exemplo, a letra maiúscula “A” é armazenada como duas linhas diagonais que se encontram com uma linha horizontal no meio. Quando um caractere é identificado, é convertido em um código ASCII (American Standard Code for Information Interchange) que os sistemas de computadores utilixam para lidar com manipulações posteriores.

Reconhecimento de layout: um programa de OCR mais completo também analisará a estrutura de uma imagem de documento. Ele divide a página em elementos, como blocos de texto, tabelas ou imagens. As linhas são divididas em palavras e depois em caracteres. Depois que os caracteres são identificados, o programa os compara com um conjunto de imagens padrão. Depois de processar todas as correspondências prováveis, o programa retorna o texto reconhecido.

Pós-processamento: as informações coletadas são armazenadas como um arquivo digital em um formulário editável ou PDF. Alguns sistemas mantêm a imagem de input e as versões pós-OCR para facilitar a comparação e um gerenciamento de documentos mais completo.

Tipos de OCR

Existem 4 tipos de programas de OCR, com sofisticação crescente:

OCR simples: a análise é a correspondência de padrões, caractere por caractere, comparando caracteres digitalizados com os glifos armazenados. Com tantas combinações possíveis de fontes e idiomas, os tipos de documentos que podem ser analisados são restritos.

Reconhecimento ótico de marcas(OMR): para identificar caixas marcadas e outras marcas, como bolinhas em pesquisas ou assinaturas em formulários, além de logotipos, símbolos e marcas d'água. Todos podem ser identificados por meio de correspondência com as imagens armazenadas, como acontece com o OCR simples.
 
Reconhecimento inteligente de caracteres (ICR): Como mencionado anteriormente, o ICR traz o poder da IA. Utilizando ML ou deep learning, o programa de OCR aprende a ler exatamente como os humanos: por meio de prática e treinamento constantes. Uma rede neural revisa o texto diversas vezes em busca de atributos distintos: as localizações das curvas, interseções, linhas e loops.

Reconhecimento inteligente de palavras: é a evolução natural do reconhecimento ICR anterior, mas agora a IA foi treinada para reconhecer uma palavra em uma única imagem, tornando-a mais rápida.

Os benefícios do OCR

Os benefícios de empregar a tecnologia de OCR incluem a capacidade de:

  • Cortar custos reduzindo ou eliminando inputs manuais redundantes.

  • Simplificar os fluxos de trabalho com o input de documentos impressos previamente ou formulários escritos e acelerar a pesquisa com dados digitais pesquisáveis.

  • Automatizar o encaminhamento de documentos, o processamento de conteúdo e a preparação para mineração de texto.

  • Economize o custo do armazenamento de mais registros em papel.

  • Centralizar e proteger conjuntos de dados para proteção contra incêndios, invasões e perda de documentos nos cofres bancários.

  • Permitir maior acesso aos dados a funcionários e clientes com deficiência visual.

  • Melhorar o serviço fornecendo aos funcionários as informações mais atualizadas e precisas.

Casos de uso do OCR

O caso de uso mais conhecido do OCR é a conversão de documentos impressos em papel em documentos de texto legíveis por máquina. Depois que um documento em papel digitalizado passa pelo processamento de OCR, o texto do documento pode ser editado com um processador de texto como o Microsoft Word ou o Google Docs. Vários casos de uso podem acelerar as cargas de trabalho em muitos setores, incluindo educação, finanças, saúde, logística e transporte, processamento e recuperação de documentos de empréstimo, registros de pacientes, formulários de seguro, etiquetas, faturas e recibos.

O OCR é frequentemente utilizado como tecnologia oculta e alimenta muitos sistemas e serviços conhecidos do nosso dia a dia. Casos de uso importantes, mas menos conhecidos, da tecnologia de OCR são automação de entrada de dados, assistência a pessoas cegas e com deficiência visual e indexação de documentos para mecanismos de busca, como passaportes, placas de carros, faturas, extratos bancários, processamento e transcrição de cheques, cartões de visita e reconhecimento automático de placas numéricas.

O OCR permite a otimização da modelagem de big data, convertendo documentos em papel e imagens digitalizadas em arquivos PDF pesquisáveis e legíveis por máquina. O processamento e a recuperação de informações valiosas exigem primeiro a aplicação de OCR em documentos onde as camadas de texto ainda não estão presentes.

Com o reconhecimento de texto por OCR, os documentos digitalizados podem ser integrados a um sistema de big data capaz de ler dados de clientes de extratos bancários, contratos e outros documentos impressos importantes. Em vez de fazer os funcionários examinarem inúmeros documentos de imagem e alimentarem os inputs de forma manual em um fluxo de trabalho automático de processamento de big data, as organizações podem utilizar OCR para automatizar esse processo na fase de input da mineração de dados. O software de OCR pode extrair um texto visto em imagens, salvar o arquivo de texto e ser compatível com vários formatos, incluindo jpg, jpeg, png, bmp, tiff e pdf.

Últimos avanços em OCR

O OCR avançou consideravelmente além dos primeiros sistemas empresariais de 1974 e o progresso continua. Programas de OCR superiores podem oferecer a extração de insights importantes de documentos em condições abaixo do ideal, como fontes irregulares, resolução insuficiente, iluminação ruim em capturas com dispositivos móveis e várias cores e fundos.

Ao incorporar visão computacional e processamento de linguagem natural, as empresas podem desfrutar de uma representação aprimorada de informações e otimização de modelos, além de uma compreensão documental de ponta. As melhorias podem incluir a análise do layout e a ordem de leitura em documentos complexos, entendendo os recursos visuais e representando-os como gráficos e diagramas. Alguns programas de OCR agora são impulsionados por IA generativa para ajudar a estruturar os dados do documento ainda mais rápido. Uma tecnologia "antiga" que continua aprendendo novos truques.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real