광학 문자 인식(OCR)은 자동화된 데이터 추출을 사용하여 텍스트 이미지를 기계가 읽을 수 있는 형식으로 빠르게 변환하는 기술입니다.
OCR은 텍스트 인식이라고도 합니다. OCR 프로그램은 스캔한 문서, 카메라 이미지 및 이미지 전용 PDF에서 데이터를 추출하고 용도를 변경합니다. OCR 소프트웨어는 이미지에서 글자를 골라 단어로 만든 다음, 단어를 문장으로 변환하여 원본 콘텐츠에 액세스하고 편집할 수 있도록 합니다. 또한 중복된 수동 데이터 입력으로 인해 노력이 낭비되지 않도록 합니다.
OCR 시스템은 하드웨어와 소프트웨어의 조합을 활용하여 인쇄된 실제 문서를 기계가 읽을 수 있는 텍스트로 변환합니다. 광학 스캐너 또는 특수 회로 기판과 같은 하드웨어가 텍스트를 복사하거나 읽은 다음, 소프트웨어가 일반적으로 고급 처리 작업을 합니다.
OCR 소프트웨어는 인공 지능(AI)을 활용하여 언어 또는 필기를 식별하기 위한 고급 지능형 문자 인식(ICR) 방식을 구현할 수 있습니다. 조직에서는 종종 OCR 프로세스를 활용하여 인쇄된 법률 문서 또는 과거 문서를 PDF 형식으로 변환하여 사용자가 워드 프로세서로 작성한 것처럼 문서를 편집하고 서식을 지정하며 검색할 수 있습니다.
데이터 세트를 준비하고 AI 모델을 도입할 때 올바른 접근 방식을 선택하는 방법과 모델 선택 프레임워크를 활용하여 성능 비용, 위험 및 배포 요구 사항의 균형을 맞추는 방법을 알아봅니다.
1974년, Ray Kurzweil은 Kurzweil Computer Products, Inc.를 설립하여 어떤 글꼴로 되어 있든 인쇄된 텍스트를 인식할 수 있는 옴니폰트 OCR 제품을 개발했습니다. 그는 이 기술을 가장 잘 적용할 수 있는 것은 시각 장애인을 위한 머신 러닝(ML) 디바이스라고 판단하여 텍스트 음성 변환 형식으로 텍스트를 소리내어 읽을 수 있는 판독기를 만들었습니다. 1980년, 커즈와일은 종이 문서에서 컴퓨터로의 텍스트 변환을 상용화하는 데 관심이 있던 Xerox에 회사를 매각했습니다.
OCR 기술은 1990년대 초에 과거의 신문을 디지털화하면서 대중화되었습니다. 그 이후로 이 기술은 몇 가지 개선이 이루어졌습니다. 오늘날의 제품은 완벽에 가까운 OCR 정확도를 제공할 수 있습니다. 고급 방식을 활용하면 복잡한 문서 처리 워크플로우를 자동화할 수 있습니다.
OCR 기술을 사용할 수 있게 되기 전에는 문서를 디지털 형식으로 변환하는 유일한 옵션은 텍스트를 수동으로 다시 입력하는 것이었습니다. 중복 입력은 시간이 많이 소요될 뿐만 아니라 불가피한 부정확성과 입력 오류가 발생하기도 합니다. 오늘날 OCR 서비스는 대중에게 널리 보급되어 있습니다. 예를 들어 Google Cloud Vision OCR을 이용하여 스마트폰에서 문서를 스캔하고 저장할 수 있습니다.
OCR 소프트웨어는 스캐너를 사용하여 문서의 물리적 형태를 편집 가능한 디지털 텍스트로 재처리합니다. OCR 소프트웨어는 독립형 프로그램, OCR 애플리케이션 프로그래밍 인터페이스 또는 웹 기반 서비스로 실행할 수 있습니다.
이미지 획득: 모든 문서 페이지를 복사한 다음 OCR 엔진이 디지털 문서를 2색 또는 흑백 버전으로 변환합니다. 스캔한 이미지 또는 비트맵에서 밝은 영역과 어두운 영역을 분석합니다. 그런 다음 프로그램에서 어두운 영역을 인식해야 하는 문자로 식별하고, 밝은 영역을 배경으로 식별합니다.
전처리: 디지털 이미지를 정리하여 외부 픽셀을 제거합니다. 이 전처리에는 스캔 중에 이미지가 잘못 정렬된 것을 수정하기 위한 기울기 보정, 인쇄된 이미지의 일부인 그래픽 규칙 및 상자 제거, 스크립트 텍스트 포함 여부 결정 등이 포함될 수 있습니다.
텍스트 인식: 어두운 영역은 알파벳 문자, 숫자 또는 기호를 찾기 위해 처리됩니다. 이 단계에는 일반적으로 한 번에 하나의 문자, 단어 또는 텍스트 블록을 대상으로 하는 작업이 포함됩니다. 그런 다음 문자는 패턴 인식 또는 기능 인식의 두 가지 알고리즘 중 하나를 사용하여 식별됩니다.
레이아웃 인식: 보다 완벽한 OCR 프로그램은 문서 이미지의 구조도 분석합니다. 페이지를 텍스트 블록, 표 또는 이미지와 같은 요소로 나눕니다. 선은 단어로 구분된 다음 문자로 구분됩니다. 문자가 선별되면 프로그램은 이를 일련의 패턴 이미지와 비교합니다. 일치할 가능성이 있는 모든 항목을 처리한 후 프로그램은 인식된 텍스트를 반환합니다.
후처리: 수집된 정보는 편집 가능한 형식 또는 PDF인 디지털 파일로 저장됩니다. 일부 시스템은 더 쉽게 비교하고 보다 완벽한 문서 관리를 위해 입력 이미지와 OCR 이후 버전을 모두 유지합니다.
OCR 프로그램에는 4가지 유형이 있으며 점점 더 정교해지고 있습니다.
단순 OCR: 분석은 문자별 패턴 일치로, 스캔한 문자를 저장된 글리프와 비교합니다. 잠재적인 글꼴 및 언어 조합이 너무 많기 때문에 분석할 수 있는 문서 유형이 제한됩니다.
광학 마크 인식(OMR): 체크 박스 및 기타 마크(예: 설문 조사의 말풍선 또는 양식의 서명, 로고, 기호 및 워터마크)를 식별하는 데 사용됩니다. 단순 OCR과 마찬가지로 모두 저장된 이미지와 일치시켜 식별할 수 있습니다.
지능형 문자 인식(ICR): 앞서 언급했듯이 ICR은 AI의 힘을 활용합니다. OCR 프로그램은 ML 또는 딥 러닝을 사용하여 지속적인 연습과 학습을 통해 인간처럼 읽는 법을 배웁니다. 신경망은 텍스트를 반복적으로 검토하여 곡선, 교차점, 선 및 루프의 위치와 같은 고유한 속성을 찾습니다.
지능형 단어 인식: 이것은 예전의 ICR 인식이 자연스럽게 진화한 방식이지만, 이제 AI는 단일 이미지에서 단어를 인식하도록 학습되어 궁극적으로 더 빨라졌습니다.
OCR 기술을 사용하면 다음과 같은 이점을 얻을 수 있습니다.
중복된 수동 입력을 줄이거나 제거하여 비용을 절감합니다.
OCR의 가장 잘 알려진 사용 사례는 인쇄된 종이 문서를 기계가 읽을 수 있는 텍스트 문서로 변환하는 것입니다. 스캔한 종이 문서가 OCR 처리를 거친 후, Microsoft Word 또는 Google Docs와 같은 워드 프로세서로 문서의 텍스트를 편집할 수 있습니다. 다양한 사용 사례를 통해 교육, 금융, 의료, 물류 및 운송, 그리고 대출 문서, 환자 기록, 보험 양식, 라벨, 청구서, 영수증의 처리 및 검색을 포함한 많은 분야에서 워크로드를 가속화할 수 있습니다.
OCR은 종종 숨겨진 기술로 활용되어 일상 생활에서 잘 알려진 많은 시스템과 서비스를 지원합니다. 중요하지만 잘 알려지지 않은 OCR 기술의 사용 사례로는 데이터 입력 자동화, 시각 장애인 지원, 여권, 번호판, 청구서, 은행 명세서, 수표의 처리 및 복사, 명함 및 자동차 번호판 인식과 같은 검색 엔진용 문서 인덱싱 등이 있습니다.
OCR을 사용하면 종이와 스캔한 이미지 문서를 기계가 읽을 수 있고 검색 가능한 PDF 파일로 변환하여 빅데이터 모델링을 최적화할 수 있습니다. 중요한 정보를 처리하고 검색하려면 먼저 텍스트 레이어가 아직 없는 문서에 OCR을 적용해야 합니다.
OCR 텍스트 인식을 통해 스캔한 문서를 빅데이터 시스템에 통합한 다음 은행 명세서, 계약서 및 기타 중요한 인쇄 문서에서 고객 데이터를 읽어낼 수 있습니다. 조직은 직원들이 수많은 이미지 문서를 검토하고 입력물을 자동화된 빅데이터 처리 워크플로우에 수동으로 입력하도록 하는 대신, OCR을 활용하여 데이터 마이닝의 입력 단계에서 해당 프로세스를 자동화할 수 있습니다. OCR 소프트웨어는 사진에 있는 텍스트를 추출하고 텍스트 파일을 저장하며 jpg, jpeg, png, bmp, tiff 및 pdf를 포함한 여러 형식을 지원할 수 있습니다.
OCR은 1974년 최초의 비즈니스 시스템을 현저히 뛰어넘었으며 발전은 계속되고 있습니다. 우수한 OCR 프로그램은 불규칙한 글꼴, 낮은 해상도, 모바일 캡처의 불리한 조명 상태, 다양한 색상 및 배경과 같은 최적이 아닌 조건의 문서에서 주요 인사이트를 추출할 수 있습니다.
기업은 컴퓨터 비전과 자연어 처리, 향상된 정보 표현 및 모델 최적화를 통합함으로써 이제 최첨단 문서 이해라는 이점을 누릴 수 있습니다. 개선 사항으로는 시각적으로 이해하고 이를 차트와 다이어그램으로 표현하는 복잡한 문서의 레이아웃 및 읽기 순서 분석이 있습니다. 일부 OCR 프로그램은 이제 생성형 AI로 구동되어 문서 데이터를 훨씬 더 빠르게 구조화할 수 있습니다. '오래된' 기술은 계속해서 새로운 요령을 학습합니다.
AI 기반 지능형 문서 이해 및 콘텐츠 분석 플랫폼을 통해 비즈니스 의사 결정 및 프로세스를 가속화합니다.
파일을 스캔하거나 가져와 디지털 및 종이 기반 정보를 다양한 형식으로 캡처 및 저장합니다.
AI 기반 자동화를 통해 프로세스를 가속화하고 고객의 대기 시간을 단축합니다.
AI가 컴퓨터가 생각할 수 있게 해준다면, 컴퓨터 비전은 컴퓨터가 보고 관찰하고 이해할 수 있게 해줍니다.
작업 마이닝은 데스크톱 데이터라고도 하는 사용자 상호 작용 데이터를 검토하여 더 큰 프로세스 내에서 작업의 효율성을 평가합니다.
OCR은 데이터 강화, 변환, 검증 및 정리와 같은 작업을 위한 구조화된 텍스트, 이미지 및 동영상의 데이터 처리를 지원할 수 있습니다.
문서 이해 분야의 최첨단 기술을 발전시킨 OCR을 통해 이제 모델은 복잡한 문서의 레이아웃과 읽기 순서를 분석하고 시각 자료를 이해하며 플롯, 차트 및 다이어그램을 포함하여 표현할 수 있습니다.