¿Qué es el reconocimiento óptico de caracteres (OCR)?

Autor

Staff Writer

IBM Think

¿Qué es OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología que utiliza la extracción automatizada de datos para convertir rápidamente imágenes de texto en un formato legible por máquina.

El OCR a veces se denomina reconocimiento de texto. Un programa de OCR extrae y reutiliza datos de documentos escaneados, imágenes de cámara y archivos PDF de solo imagen. El software OCR selecciona las letras de la imagen, las pone en palabras y luego las convierte en oraciones, lo que permite el acceso y la edición del contenido original. También elimina el esfuerzo desperdiciado de la entrada manual de datos redundante.

Los sistemas OCR utilizan una combinación de hardware y software para convertir documentos físicos impresos en texto legible por máquina. El hardware, como un escáner óptico o una placa de circuito especializada, copia o lee texto, luego el software generalmente maneja el procesamiento avanzado.

El software OCR puede aprovechar la inteligencia artificial (IA) para implementar métodos más avanzados de reconocimiento inteligente de caracteres (ICR) para identificar idiomas o escritura a mano. Las organizaciones a menudo utilizan el proceso de OCR para convertir documentos legales o históricos impresos en documentos PDF para que los usuarios puedan editar, formatear y buscar los documentos como si se hubieran creado con un procesador de textos.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

La historia del OCR

En 1974, Ray Kurzweil fundó Kurzweil Computer Products, Inc., cuyo producto OCR omnicanal podía reconocer texto impreso en prácticamente cualquier fuente. Decidió que la mejor aplicación de esta tecnología sería un dispositivo de machine learning (ML) para personas con problemas de visión, por lo que creó una máquina de lectura que podría leer texto en voz alta en un formato de texto a voz. En 1980, Kurzweil vendió su empresa a Xerox, que estaba interesada en seguir comercializando la conversión de texto de papel a ordenador.

La tecnología OCR se hizo popular a principios de la década de 1990 mientras digitalizaba periódicos históricos. Desde entonces, la tecnología ha sufrido varias mejoras. Hoy en día, los productos pueden ofrecer una precisión de OCR casi perfecta. Los métodos avanzados pueden automatizar complejos flujos de trabajo de procesamiento de documentos.

Antes de que la tecnología OCR estuviera disponible, la única opción para formatear digitalmente los documentos era volver a introducir manualmente el texto. La entrada redundante no solo lleva mucho tiempo, sino que también conlleva inevitables imprecisiones y errores de escritura. Hoy en día, los servicios de OCR están ampliamente disponibles para el público. Por ejemplo, el OCR de Google Cloud Vision se puede utilizar para escanear y almacenar documentos en su teléfono inteligente.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

¿Cómo funciona OCR?

El software OCR utiliza un escáner para reprocesar la forma física de un documento y convertirlo en texto digital editable. El software de OCR puede funcionar como un programa independiente, una interfaz de programación de aplicaciones de OCR o un servicio basado en web.

Adquisición de imágenes: se copian todas las páginas del documento y, a continuación, el motor de OCR convierte el documento digital en una versión en dos colores o en blanco y negro. La imagen escaneada o el mapa de bits se analizan en busca de partes claras y oscuras. A continuación, el programa identifica las partes oscuras como caracteres que deben reconocerse, mientras que las zonas claras se identifican como fondo.

Preprocesamiento: la imagen digital se limpia para eliminar los píxeles extraños. Este preprocesamiento puede incluir la corrección de la alineación incorrecta de la imagen durante el escaneado, la eliminación de reglas y cuadros gráficos que formaban parte de la imagen impresa y la determinación de si se incluye texto de guión.

Reconocimiento de texto: las partes oscuras se procesan para encontrar letras alfabéticas, dígitos numéricos o símbolos. Esta etapa suele consistir en centrarse en un carácter, una palabra o un bloque de texto cada vez. A continuación, los caracteres se identifican mediante uno de estos dos algoritmos: el reconocimiento de patrones o el reconocimiento de rasgos.

Reconocimiento de patrones (o coincidencia de patrones): el programa de OCR se ha formado anteriormente con ejemplos de texto en varias fuentes y formatos para reconocer los caracteres en comparación con una plantilla del documento o archivo de imagen escaneado. Cada combinación única de forma, escala y fuente se denomina glifo. Para que esto funcione, los caracteres deben estar en una fuente con la que el programa de OCR ya esté entrenado. Dada la cantidad de fuentes en todo el mundo y los idiomas que utilizan diferentes caracteres, como el árabe, el chino, el inglés, el francés, el alemán, el griego, el japonés, el coreano o el español, la formación en cada combinación de fuente e idioma sería una enorme pérdida de sistema.
Reconocimiento de funciones (detección o extracción): se utiliza cuando el programa de OCR analiza una fuente con la que no se ha entrenado. El OCR aplica las normas relativas a las características de una letra o un número específico para reconocer los caracteres del documento escaneado. Las características incluyen el número de líneas angulares, intersecciones de líneas, bucles o curvas de un personaje. Por ejemplo, la letra mayúscula "A" se almacena como dos líneas diagonales que se unen con una línea horizontal en el centro. Cuando se identifica un carácter, se convierte en un código ASCII (American Standard Code for Information Interchange) que los sistemas informáticos utilizan para realizar manipulaciones posteriores.

Reconocimiento de diseño: un programa de OCR más completo también analizará la estructura de la imagen de un documento. Divide la página en elementos, como bloques de texto, tablas o imágenes. Las líneas se dividen en palabras y luego en caracteres. Una vez seleccionados los caracteres, el programa los compara con un conjunto de imágenes de patrones. Después de procesar todas las coincidencias probables, el programa devuelve el texto reconocido.

Posprocesamiento: la información recopilada se almacena como un archivo digital, ya sea en forma editable o PDF. Algunos sistemas conservan tanto la imagen de entrada como las versiones posteriores al OCR para facilitar la comparación y una gestión más completa de los documentos.

Tipos de OCR

Existen 4 tipos de programas de OCR, cada vez más sofisticados:

OCR simple: el análisis consiste en la correspondencia de patrones carácter por carácter, comparando los caracteres escaneados con los glifos almacenados. Con tantas combinaciones potenciales de fuentes e idiomas, los tipos de documentos que se pueden analizar son limitados.

Reconocimiento óptico de marcas (OMR): para identificar las casillas marcadas y otras marcas, como burbujas en las encuestas o la firma de un formulario, además de logotipos, símbolos y marcas de agua. Todos se pueden identificar haciendo coincidir las imágenes almacenadas, como con el OCR simple.

Reconocimiento inteligente de caracteres (ICR): como se mencionó anteriormente, ICR aporta el poder de la IA. Al utilizar el ML o el deep learning, el programa OCR aprende a leer tal como lo hacen los humanos: mediante práctica y capacitación continuas. Una red neuronal revisa el texto repetidamente en busca de atributos distintivos: la ubicación de curvas, intersecciones, líneas y bucles.

Reconocimiento inteligente de palabras: esta es la evolución natural del anterior reconocimiento ICR, pero ahora la IA se ha entrenado para reconocer una palabra en una sola imagen y, en última instancia, hacerlo más rápido.

Los beneficios del OCR

Los beneficios de emplear la tecnología OCR incluyen la capacidad de:

Recorte costes mediante la reducción o la eliminación de las entradas manuales redundantes.
Optimice los flujos de trabajo con la introducción de documentos preimpresos o formularios escritos y acelere la investigación con datos digitales de búsqueda.
Automatice el enrutamiento de documentos, el procesamiento de contenido y la preparación para la minería de textos.
Ahorre el coste de almacenar aún más registros en papel.
Centralice y asegure los conjuntos de datos para protegerlos contra incendios, robos y documentos perdidos en las bóvedas de los bancos.
Permita un mayor acceso a los datos para el personal y los clientes con discapacidad visual.
Mejore el servicio proporcionando a los empleados la información más actualizada y precisa.

Casos de uso de OCR

El caso de uso más conocido para OCR es la conversión de documentos impresos en papel en documentos de texto legibles por máquina. Después de que un documento en papel escaneado pase por el procesamiento OCR, el texto del documento puede editarse con un procesador de textos como Microsoft Word o Google Docs. Múltiples casos de uso pueden acelerar las cargas de trabajo en muchos sectores, como la educación, las finanzas, la sanidad, la logística y el transporte, procesando y recuperando documentos de préstamos, historiales de pacientes, formularios de seguros, etiquetas, facturas y recibos.

El OCR se utiliza a menudo como una tecnología oculta, que impulsa muchos sistemas y servicios conocidos en nuestra vida diaria. Entre los casos de uso importantes, pero menos conocidos, de la tecnología OCR se encuentran la automatización de la entrada de datos, la asistencia a personas ciegas y con discapacidad visual e indexación de documentos para motores de búsqueda, como pasaportes, matrículas, facturas, extractos bancarios, procesamiento y transcripción de cheques, tarjetas de visita y reconocimiento automático de matrículas.

OCR permite la optimización del modelado de big data al convertir documentos en papel y de imágenes escaneadas en archivos PDF legibles por máquina y con capacidad de búsqueda. Procesar y recuperar información valiosa requiere primero aplicar OCR en documentos donde las capas de texto aún no están presentes.

Con el reconocimiento de texto OCR, los documentos escaneados se pueden integrar en un sistema de big data que luego puede leer los datos del cliente de extractos bancarios, contratos y otros documentos impresos importantes. En lugar de que los empleados examinen innumerables documentos de imagen e introduzcan manualmente las entradas en un flujo de trabajo automatizado de procesamiento de big data, las organizaciones pueden utilizar el OCR para automatizar ese proceso en la etapa de entrada de la minería de datos. El software OCR puede extraer el texto que aparece en las imágenes, guardar el archivo de texto y admitir varios formatos, como jpg, jpeg, png, bmp, tiff y pdf.

Últimos avances en OCR

OCR ha avanzado significativamente desde los primeros sistemas comerciales de 1974 y el progreso continúa. Los programas de OCR superiores pueden extraer información clave de documentos en condiciones subóptimas, como fuentes irregulares, resolución insuficiente, mala iluminación de la captura móvil y varios colores y fondos.

Al incorporar la visión artificial y el procesamiento del lenguaje natural, la representación de la información mejorada y la optimización del modelo, las empresas ahora pueden disfrutar de la comprensión de documentos de última generación. Las mejoras pueden incluir el análisis del diseño y el orden de lectura en documentos complejos, la comprensión de los elementos visuales y su representación como gráficos y diagramas. En la actualidad, algunos programas de OCR se basan en la IA generativa para ayudar a estructurar los datos de los documentos de forma aún más rápida. Una tecnología “vieja” sigue aprendiendo nuevos trucos.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.