¿Qué es el reconocimiento óptico de caracteres (OCR)?

¿Qué es el OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología que emplea la extracción automatizada de datos para convertir rápidamente imágenes de texto en un formato legible por máquina.

El OCR a veces se denomina reconocimiento de texto. Un programa de OCR extrae y reutiliza datos de documentos escaneados, imágenes de cámara y PDF de solo imagen. El software de OCR selecciona letras en la imagen, las pone en palabras y luego pone las palabras en oraciones, lo que permite el acceso y la edición del contenido original. También elimina el esfuerzo desperdiciado de la entrada manual redundante de datos.

Los sistemas OCR emplean una combinación de hardware y software para convertir documentos físicos impresos en texto legible por máquina. El hardware, como un escáner óptico o una placa de circuito especializada, copia o lee el texto, y luego el software generalmente se encarga del procesamiento avanzado.

El software OCR puede aprovechar la inteligencia artificial (IA) para implementar métodos más avanzados de reconocimiento inteligente de caracteres (ICR) para identificar idiomas o escritura a mano. Las organizaciones suelen emplear el proceso de OCR para convertir documentos legales o históricos impresos en documentos PDF para que los usuarios puedan editar, formatear y buscar los documentos como si se crearan con un procesador de textos.

Cómo elegir el modelo fundacional de IA adecuado

Aprenda a elegir el enfoque adecuado en la preparación de conjuntos de datos y el empleo de modelos de IA, además de cómo usar el marco de selección de modelos para equilibrar el costo de rendimiento, los riesgos y las necesidades de despliegue.

La historia del OCR

En 1974, Ray Kurzweil fundó Kurzweil Computer Products, Inc., cuyo producto OCR omnifuente podría reconocer texto impreso en prácticamente cualquier fuente. Decidió que la mejor aplicación de esta tecnología sería un dispositivo aprendizaje automático (ML) para personas con problemas de visión, por lo que creó una máquina de lectura que pudiera leer texto en voz alta en un formato de texto a voz. En 1980, Kurzweil vendió su empresa a Xerox, que estaba interesada en comercializar aún más la conversión de texto de papel a computadora.

La tecnología OCR se hizo popular a principios de la década de 1990 al digitalizar periódicos históricos. Desde entonces, la tecnología experimentó varias mejoras. Hoy en día, los productos pueden ofrecer una precisión de OCR casi perfecta. Los métodos avanzados pueden automatizar flujos de trabajo complejos de procesamiento de documentos.

Antes de que la tecnología OCR estuviera disponible, la única opción para formatear documentos digitalmente era volver a ingresar el texto de forma manual. La entrada redundante no solo requiere mucho tiempo, sino que también conlleva imprecisiones y errores tipográficos inevitables. Hoy en día, los servicios OCR están ampliamente disponibles para el público. Por ejemplo, Google Cloud Vision OCR se puede emplear para escanear y almacenar documentos en su teléfono inteligente.

¿Cómo funciona el OCR?

El software OCR usa un escáner reprocesar la forma física de un documento a texto digital editable. El software de OCR puede ejecutarse como un programa independiente, interfaz de programación de aplicaciones OCR o servicio basado en la web.

Adquisición de imágenes: se copian todas las páginas del documento y luego el motor OCR convierte el documento digital en una versión en dos colores o en blanco y negro. La imagen o el mapa de bits escaneados se analizan en busca de partes claras y oscuras. Luego, el programa identifica las partes oscuras como caracteres que deben reconocerse, mientras que las zonas claras se identifican como fondo.

Preprocesamiento: la imagen digital se limpia para eliminar pixeles superfluos. Este preprocesamiento puede incluir corregir la alineación incorrecta de la imagen durante el escaneo, eliminar reglas gráficas y cuadros que formaban parte de la imagen impresa y determinar si se incluye texto script.

Reconocimiento de texto: las partes oscuras se procesan para encontrar letras alfabéticas, dígitos numéricos o símbolos. Esta etapa suele implicar apuntar a un carácter, palabra o bloque de texto a la vez. A continuación, los caracteres se identifican mediante uno de los dos algoritmos, ya sea el reconocimiento de patrones o el reconocimiento de características.

Reconocimiento de patrones (o coincidencia de patrones): el programa OCR se entrenó previamente con ejemplos de texto en varias fuentes y formatos para reconocer caracteres en comparación con una plantilla en el documento escaneado o archivo de imagen. Cada combinación única de forma, escala y fuente se denomina glifo. Para que esto funcione, los caracteres deben estar en una fuente en la que el programa OCR ya fue entrenado. Dada la cantidad de fuentes en todo el mundo y los idiomas que emplean diferentes caracteres, tales como árabe, chino, inglés, francés, alemán, griego, japonés, coreano o español,el entrenamiento en cada combinación de fuente e idioma supondría una enorme pérdida para el sistema.
Reconocimiento de características (detección o extracción): se emplea cuando el programa OCR está analizando una fuente en la que no fue entrenado. OCR aplica reglas con respecto a las características de una letra o número específico para reconocer caracteres en el documento escaneado. Las características incluyen el número de líneas angulares, intersecciones de líneas, bucles o curvas en un carácter. Por ejemplo, la letra mayúscula "A" se almacena como dos líneas diagonales que se encuentran con una línea horizontal en el medio. Cuando se identifica un carácter, se convierte en un código ASCII (American Standard Code for Information Interchange) que los sistemas informáticos emplean para manejar otras manipulaciones.

Reconocimiento de diseño: un programa de OCRmás completo también analizará la estructura de la imagen de un documento. Divide la página en elementos, como bloques de texto, tablas o imágenes. Las líneas se dividen en palabras y luego en caracteres. Una vez que se seleccionaron los caracteres, el programa los compara con un conjunto de imágenes de patrones. Luego de procesar todas las coincidencias probables, el programa devuelve el texto reconocido.

Posprocesamiento: la información recopilada se almacena como un archivo digital, ya sea en formato editable o PDF. Algunos sistemas conservan tanto la imagen de entrada como las versiones posteriores a OCR para una comparación más sencilla y una gestión de documentos más completa.

Tipos de OCR

Hay 4 tipos de programas de OCR, cada vez más sofisticados:

OCR simple: el análisis es una coincidencia de patrones carácter por carácter, comparando los caracteres escaneados con los glifos almacenados. Con tantas posibles combinaciones de fuentes e idiomas, los tipos de documentos que se pueden analizar son limitados.

Reconocimiento óptico de marcas (OMR): para identificar casillas marcadas y otras marcas, como burbujas en las encuestas o una firma en un formulario, más logotipos, símbolos y marcas de agua. Todo se puede identificar haciendo coincidir las imágenes almacenadas, como con un simple OCR.

Reconocimiento inteligente de caracteres (ICR): como se mencionó anteriormente, el ICR aporta el poder de la IA. Mediante el uso de ML o aprendizaje profundo, el programa de OCR aprende a leer tal como lo hacen los humanos: a través de la práctica y el entrenamiento continuos. Una red neuronal revisa el texto repetidamente en busca de atributos distintivos: la ubicación de curvas, intersecciones, líneas y bucles.

Reconocimiento inteligente de palabras: esta es la evolución natural del reconocimiento ICR anterior, pero ahora la IA fue entrenada para reconocer una palabra en una sola imagen, haciéndola más rápida.

Los beneficios del OCR

Los beneficios de emplear la tecnología OCR incluyen la capacidad de:

Recortar costos reduciendo o eliminando las entradas manuales redundantes.

Optimizar los flujos de trabajo con la entrada de documentos preimpresos o formularios escritos y acelerar la investigación con datos digitales que se pueden buscar.
Automatizar el enrutamiento de documentos, el procesamiento de contenido y la preparación para la minería de textos.
Ahorrar el costo de almacenar aún más registros en papel.
Centralizar y asegurar los conjuntos de datos para protegerlos contra incendios, robos y documentos perdidos en las bóvedas de los bancos.
Permitir un mayor acceso a los datos para el personal y los clientes con discapacidad visual.
Mejorar el servicio brindando a los empleados la información más actualizada y precisa.

Casos de uso de OCR

El caso de uso más conocido del OCR es la conversión de documentos impresos en papel en documentos de texto legibles por máquina. Después de que un documento en papel escaneado pase por el procesamiento OCR, el texto del documento puede editarse con un procesador de textos, como Microsoft Word o Google Docs. Múltiples casos de uso pueden acelerar las cargas de trabajo en muchos sectores, como la educación, las finanzas, la atención médica, la logística y el transporte, procesando y recuperando documentos de préstamos, historiales de pacientes, formularios de seguros, etiquetas, facturas y recibos.

El OCR se emplea a menudo como una tecnología oculta, que impulsa muchos sistemas y servicios conocidos en nuestra vida diaria. Entre los casos de uso importantes, pero menos conocidos, de la tecnología OCR se encuentran la automatización de la entrada de datos, la asistencia a personas ciegas y con discapacidad visual y la indexación de documentos para motores de búsqueda, como pasaportes, matrículas, facturas, extractos bancarios, procesamiento y transcripción de cheques, tarjetas de visita y reconocimiento automático de matrículas.

El OCR permite la optimización del modelado de big data convirtiendo documentos en papel e imágenes escaneadas en archivos PDF legibles por máquina y con capacidad de búsqueda. Procesar y recuperar información valiosa requiere primero aplicar OCR en documentos donde las capas de texto aún no están presentes.

Con el reconocimiento de texto OCR, los documentos escaneados se pueden integrar en un sistema de big data que luego puede leer los datos del cliente de extractos bancarios, contratos y otros documentos impresos importantes. En lugar de hacer que los empleados examinen innumerables documentos de imágenes e ingresen manualmente las entradas en un flujo de trabajo automatizado de procesamiento de big data, las organizaciones pueden usar OCR para automatizar ese proceso en la etapa de entrada de la minería de datos. El software OCR puede extraer el texto que se ve en las imágenes, almacenar el archivo de texto y admitir múltiples formatos, incluidos jpg, jpeg, png, bmp, tiff y pdf.

Últimos avances en OCR

El OCR ha avanzado significativamente más allá de los primeros sistemas empresariales en 1974 y el progreso continúa. Los programas de OCR superiores pueden proporcionar la extracción de información clave de documentos en condiciones que no son las óptimas, como fuentes irregulares, resolución insuficiente, mala iluminación de la captura móvil y varios colores y fondos. 

Al incorporar visión artificial y procesamiento de lenguaje natural, representación mejorada de la información y optimización de modelos, las empresas ahora pueden disfrutar de una comprensión de documentos de última generación. Las mejoras pueden incluir el análisis del diseño y el orden de lectura en documentos complejos, comprender los elementos visuales y representarlos como gráficos y diagramas. Algunos programas de OCR ahora están impulsados por IA generativa para ayudar a estructurar los datos de los documentos aún más rápido. Una tecnología “antigua” sigue aprendiendo nuevos trucos.

Soluciones relacionadas

IBM Watson Discovery

Acelere las decisiones y los procesos del negocio a través de una plataforma inteligente de análisis de contenido y comprensión de documentos.

Explore IBM watson Discovery

IBM FileNet Capture

Escanee o importe archivos para capturar y almacenar información digital en papel en varios formatos.

Explorar IBM FileNet Capture

IBM Cloud Pak for Business Automation

Procesos más rápidos y tiempos de espera de los clientes más cortos con la automatización impulsada por IA.

Explore IBM Cloud Pak for Business Automation

Recursos

¿Qué es la visión artificial?

Si la IA permite que las computadoras piensen, la visión artificial les permite ver, observar y comprender. 

¿Qué es la minería de tareas?

La minería de tareas revisa los datos de interacción del usuario, también conocidos como datos de escritorio, para evaluar la eficiencia de una tarea dentro de un proceso más grande.

¿Qué es la computación sin servidor?

El OCR puede ayudar con el procesamiento de datos de texto estructurado, imágenes y videos para tareas, como enriquecimiento, transformación, validación y limpieza de datos.

Conozca la nueva tecnología OCR de IBM

Al avanzar en la comprensión de documentos de última generación, el OCR ahora permite que los modelos analicen el diseño y el orden de lectura en documentos complejos, y comprendan las imágenes y las representen, incluidos gráficos, gráficos y diagramas.

Dé el siguiente paso

Vea cómo IBM® Watson Discovery puede acelerar las decisiones y los procesos empresariales con una plataforma inteligente de comprensión de documentos y análisis de contenido impulsada por IA.

Explore IBM watson Discovery