¿Qué es el OCR (Reconocimiento Óptico de Caracteres)?

¿Qué es OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología que utiliza la extracción automatizada de datos para convertir rápidamente imágenes de texto en un formato legible por máquina.

El OCR a veces se denomina reconocimiento de texto. Un programa de OCR extrae y reutiliza datos de documentos escaneados, imágenes de cámara y archivos PDF de solo imagen. El software OCR selecciona las letras de la imagen, las pone en palabras y luego las convierte en oraciones, lo que permite el acceso y la edición del contenido original. También elimina el esfuerzo desperdiciado de la entrada manual de datos redundante.

Los sistemas OCR utilizan una combinación de hardware y software para convertir documentos físicos impresos en texto legible por máquina. El hardware, como un escáner óptico o una placa de circuito especializada, copia o lee texto, luego el software generalmente maneja el procesamiento avanzado.

El software OCR puede aprovechar la inteligencia artificial (IA) para implementar métodos más avanzados de reconocimiento inteligente de caracteres (ICR) para identificar idiomas o escritura a mano. Las organizaciones a menudo utilizan el proceso de OCR para convertir documentos legales o históricos impresos en documentos PDF para que los usuarios puedan editar, formatear y buscar los documentos como si se hubieran creado con un procesador de textos.

Cómo elegir el modelo fundacional de IA adecuado

Aprenda a elegir el enfoque adecuado en la preparación de conjuntos de datos y el empleo de modelos de IA, además de cómo utilizar el marco de selección de modelos para equilibrar el costo de rendimiento, los riesgos y las necesidades de implementación.

La historia del OCR

En 1974, Ray Kurzweil fundó Kurzweil Computer Products, Inc., cuyo producto OCR omnicanal podía reconocer texto impreso en prácticamente cualquier fuente. Decidió que la mejor aplicación de esta tecnología sería un dispositivo de machine learning (ML) para personas con problemas de visión, por lo que creó una máquina de lectura que podría leer texto en voz alta en un formato de texto a voz. En 1980, Kurzweil vendió su empresa a Xerox, que estaba interesada en seguir comercializando la conversión de texto de papel a ordenador.

La tecnología OCR se hizo popular a principios de la década de 1990 mientras digitalizaba periódicos históricos. Desde entonces, la tecnología ha sufrido varias mejoras. Hoy en día, los productos pueden ofrecer una precisión de OCR casi perfecta. Los métodos avanzados pueden automatizar complejos flujos de trabajo de procesamiento de documentos.

Antes de que la tecnología OCR estuviera disponible, la única opción para formatear digitalmente los documentos era volver a introducir manualmente el texto. La entrada redundante no solo lleva mucho tiempo, sino que también conlleva inevitables imprecisiones y errores de escritura. Hoy en día, los servicios de OCR están ampliamente disponibles para el público. Por ejemplo, el OCR de Google Cloud Vision se puede utilizar para escanear y almacenar documentos en su teléfono inteligente.

¿Cómo funciona OCR?

El software OCR utiliza un escáner para reprocesar la forma física de un documento en texto digital editable. El software OCR puede ejecutarse como un programa independiente, una interfaz de programación de aplicaciones OCR o un servicio basado en la web.

Adquisición de imágenes: se copian todas las páginas del documento y luego el motor OCR convierte el documento digital en una versión a dos colores o en blanco y negro. La imagen escaneada o el mapa de bits se analiza en busca de partes claras y oscuras. A continuación, el programa identifica las partes oscuras como caracteres que deben reconocerse, mientras que las áreas claras se identifican como fondo.

Preprocesamiento: la imagen digital se limpia para eliminar píxeles extraños. Este preprocesamiento puede incluir el enderezamiento para corregir la alineación incorrecta de la imagen durante el escaneo, la eliminación de reglas gráficas y cuadros que formaban parte de la imagen impresa y la determinación de si se incluye texto de script.

Reconocimiento de texto: las partes oscuras se procesan para encontrar letras alfabéticas, dígitos numéricos o símbolos. Esta etapa suele implicar apuntar a un carácter, palabra o bloque de texto a la vez. A continuación, los caracteres se identifican mediante uno de los dos algoritmos, ya sea el reconocimiento de patrones o el reconocimiento de características.

Reconocimiento de patrones (o coincidencia de patrones): el programa OCR ha sido entrenado previamente con ejemplos de texto en varias fuentes y formatos para reconocer caracteres en comparación con una plantilla en el documento escaneado o archivo de imagen. Cada combinación única de forma, escala y fuente se denomina glifo. Para que esto funcione, los caracteres deben estar en una fuente en la que el programa OCR ya haya sido entrenado. Dada la cantidad de fuentes en todo el mundo y los idiomas que utilizan diferentes caracteres , como el árabe, el chino, el inglés, el francés, el alemán, el griego, el japonés, el coreano o el español, la formación en todas las combinaciones de fuentes y lenguajes supondría una enorme pérdida de sistemas.
Reconocimiento de características (detección o extracción): se utiliza cuando el programa de OCR analiza una fuente para la que no ha sido entrenado. El OCRaplica reglas relativas a las características de una letra o un número concretos para reconocer los caracteres del documento escaneado. Las características incluyen el número de líneas angulosas, intersecciones de líneas, bucles o curvas en un carácter. Por ejemplo, la letra "A" mayúscula se almacena como dos líneas diagonales que se cruzan con una línea horizontal en medio. Cuando se identifica un carácter, se convierte en un código ASCII (American Standard Code for Information Interchange) que los sistemas informáticos utilizan para realizar manipulaciones posteriores.

Reconocimiento de diseño: un programa de OCRmás completo también analizará la estructura de la imagen de un documento. Divide la página en elementos, como bloques de texto, tablas o imágenes. Las líneas se dividen en palabras y luego en caracteres. Una vez que se han seleccionado los caracteres, el programa los compara con un conjunto de imágenes de patrones. Después de procesar todas las coincidencias probables, el programa devuelve el texto reconocido.

Posprocesamiento: la información recopilada se almacena como un archivo digital, ya sea en forma editable o PDF. Algunos sistemas conservan tanto la imagen de entrada como las versiones posteriores al OCR para facilitar la comparación y una gestión más completa de los documentos.

Tipos de OCR

Existen 4 tipos de programas de OCR, cada vez más sofisticados:

OCR simple: el análisis consiste en la correspondencia de patrones carácter por carácter, comparando los caracteres escaneados con los glifos almacenados. Con tantas combinaciones potenciales de fuentes e idiomas, los tipos de documentos que se pueden analizar son limitados.

Reconocimiento óptico de marcas (OMR): para identificar las casillas marcadas y otras marcas, como burbujas en las encuestas o la firma de un formulario, además de logotipos, símbolos y marcas de agua. Todas se pueden identificar haciendo coincidir con las imágenes almacenadas, como con un simple OCR.

Reconocimiento inteligente de caracteres (ICR): como se ha mencionado anteriormente, el ICR aporta el poder de la IA. Al utilizar ML o deep learning, el programa OCR aprende a leer tal como lo hacen los humanos: mediante práctica y capacitación continuas. Una red neuronal revisa el texto repetidamente en busca de atributos distintivos: la ubicación de curvas, intersecciones, líneas y bucles.

Reconocimiento inteligente de palabras: esta es la evolución natural del anterior reconocimiento ICR, pero ahora la IA se ha entrenado para reconocer una palabra en una sola imagen y, en última instancia, hacerlo más rápido.

Los beneficios del OCR

Los beneficios de emplear la tecnología OCR incluyen la capacidad de:

Recorte costes mediante la reducción o eliminación de las entradas manuales redundantes.

Optimice los flujos de trabajo con la introducción de documentos preimpresos o formularios escritos y acelere la investigación con datos digitales de búsqueda.
Automatice el enrutamiento de documentos, el procesamiento de contenido y la preparación para la minería de textos.
Ahorre el coste de almacenar aún más registros en papel.
Centralice y asegure los conjuntos de datos para protegerlos contra incendios, robos y documentos perdidos en las bóvedas de los bancos.
Permita un mayor acceso a los datos para el personal y los clientes con discapacidad visual.
Mejore el servicio proporcionando a los empleados la información más actualizada y precisa.

Casos de uso de OCR

El caso de uso más conocido para OCR es la conversión de documentos impresos en papel en documentos de texto legibles por máquina. Después de que un documento en papel escaneado pase por el procesamiento OCR, el texto del documento puede editarse con un procesador de textos como Microsoft Word o Google Docs. Múltiples casos de uso pueden acelerar las cargas de trabajo en muchos sectores, como la educación, las finanzas, la sanidad, la logística y el transporte, procesando y recuperando documentos de préstamos, historiales de pacientes, formularios de seguros, etiquetas, facturas y recibos.

El OCR se utiliza a menudo como una tecnología oculta, que impulsa muchos sistemas y servicios conocidos en nuestra vida diaria. Entre los casos de uso importantes, pero menos conocidos, de la tecnología OCR se encuentran la automatización de la entrada de datos, la asistencia a personas ciegas y con discapacidad visual e indexación de documentos para motores de búsqueda, como pasaportes, matrículas, facturas, extractos bancarios, procesamiento y transcripción de cheques, tarjetas de visita y reconocimiento automático de matrículas.

OCR permite la optimización del modelado de big data al convertir documentos en papel y de imágenes escaneadas en archivos PDF legibles por máquina y con capacidad de búsqueda. Procesar y recuperar información valiosa requiere primero aplicar OCR en documentos donde las capas de texto aún no están presentes.

Con el reconocimiento de texto OCR, los documentos escaneados se pueden integrar en un sistema de big data que luego puede leer los datos del cliente de extractos bancarios, contratos y otros documentos impresos importantes. En lugar de que los empleados examinen innumerables documentos de imagen e introduzcan manualmente las entradas en un flujo de trabajo automatizado de procesamiento de big data, las organizaciones pueden utilizar el OCR para automatizar ese proceso en la etapa de entrada de la minería de datos. El software OCR puede extraer el texto que aparece en las imágenes, guardar el archivo de texto y admitir varios formatos, como jpg, jpeg, png, bmp, tiff y pdf.

Últimos avances en OCR

OCR ha avanzado significativamente desde los primeros sistemas comerciales de 1974 y el progreso continúa. Los programas de OCR superiores pueden extraer información clave de documentos en condiciones subóptimas, como fuentes irregulares, resolución insuficiente, mala iluminación de la captura móvil y varios colores y fondos. 

Al incorporar la visión artificial y el procesamiento del lenguaje natural, la representación de la información mejorada y la optimización del modelo, las empresas ahora pueden disfrutar de la comprensión de documentos de última generación. Las mejoras pueden incluir el análisis del diseño y el orden de lectura en documentos complejos, la comprensión de los elementos visuales y su representación como gráficos y diagramas. En la actualidad, algunos programas de OCR se basan en la IA generativa para ayudar a estructurar los datos de los documentos de forma aún más rápida. Una tecnología “vieja” sigue aprendiendo nuevos trucos.

Soluciones relacionadas

IBM watsonx Discovery

Acelere los procesos y la toma de decisiones empresariales con una plataforma inteligente de comprensión de documentos y análisis de contenidos impulsada por IA

Explore IBM Watson Discovery

IBM FileNet Capture

Escanee o importe archivos para capturar y almacenar información digital y en papel en varios formatos

Explore IBM FileNet Capture

IBM Cloud Pak for Business Automation

Procesos más rápidos y tiempos de espera de clientes más cortos con la automatización impulsada por IA.

Explorar IBM Cloud Pak para la automatización empresarial

Recursos

¿Qué es la visión artificial?

Si la IA permite a los ordenadores pensar, la visión artificial les permite ver, observar y comprender. 

¿Qué es la minería de tareas?

La minería de tareas examina los datos de interacción de los usuarios, también conocidos como datos de escritorio, para evaluar la eficacia de una tarea dentro de un proceso más amplio.

¿Qué es la informática sin servidor?

OCR puede ayudar con el procesamiento de datos de texto estructurado, imágenes y videos para tareas como enriquecimiento, transformación, validación y limpieza de datos.

Explore la nueva tecnología OCR de IBM

El OCR, que supone un avance en la comprensión de documentos, permite ahora analizar la disposición y el orden de lectura en documentos complejos, así como comprender elementos visuales y representarlos, incluidos gráficos y diagramas.

Dé el siguiente paso

Descubra cómo IBM watsonx Discovery puede acelerar las decisiones y los procesos empresariales con una plataforma inteligente de análisis de contenido y comprensión de documentos impulsada por IA.

Explore IBM Watson Discovery