My IBM 로그인 구독하기

광학 문자 인식(OCR)이란 무엇인가요?

2024년 4월 18일

OCR이란 무엇인가요?

광학 문자 인식(OCR)은 자동화된 데이터 추출을 사용하여 텍스트 이미지를 기계가 읽을 수 있는 형식으로 빠르게 변환하는 기술입니다.

OCR은 텍스트 인식이라고도 합니다. OCR 프로그램은 스캔한 문서, 카메라 이미지 및 이미지 전용 PDF에서 데이터를 추출하고 용도를 변경합니다. OCR 소프트웨어는 이미지에서 글자를 골라 단어로 만든 다음, 단어를 문장으로 변환하여 원본 콘텐츠에 액세스하고 편집할 수 있도록 합니다. 또한 중복된 수동 데이터 입력으로 인해 노력이 낭비되지 않도록 합니다.

OCR 시스템은 하드웨어와 소프트웨어의 조합을 활용하여 인쇄된 실제 문서를 기계가 읽을 수 있는 텍스트로 변환합니다. 광학 스캐너 또는 특수 회로 기판과 같은 하드웨어가 텍스트를 복사하거나 읽은 다음, 소프트웨어가 일반적으로 고급 처리 작업을 합니다.

OCR 소프트웨어는 인공 지능(AI)을 활용하여 언어 또는 필기를 식별하기 위한 고급 지능형 문자 인식(ICR) 방식을 구현할 수 있습니다. 조직에서는 종종 OCR 프로세스를 활용하여 인쇄된 법률 문서 또는 과거 문서를 PDF 형식으로 변환하여 사용자가 워드 프로세서로 작성한 것처럼 문서를 편집하고 서식을 지정하며 검색할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

OCR의 역사

1974년, Ray Kurzweil은 Kurzweil Computer Products, Inc.를 설립하여 어떤 글꼴로 되어 있든 인쇄된 텍스트를 인식할 수 있는 옴니폰트 OCR 제품을 개발했습니다. 그리고 이 기술을 가장 잘 적용할 수 있는 것은 시각 장애인을 위한 머신 러닝(ML) 디바이스라고 판단하여 텍스트 음성 변환 형식으로 텍스트를 소리내어 읽을 수 있는 판독기를 만들었습니다. 1980년, Kurzweil은 종이 문서에서 컴퓨터로의 텍스트 변환을 상용화하는 데 관심이 있던 Xerox에 회사를 매각했습니다.

OCR 기술은 1990년대 초에 과거의 신문을 디지털화하면서 대중화되었습니다. 그 이후로 OCR 기술은 몇 가지 개선이 이루어졌습니다. 오늘날의 제품은 완벽에 가까운 OCR 정확도를 제공할 수 있습니다. 고급 방식을 활용하면 복잡한 문서 처리 워크플로를 자동화할 수 있습니다.

OCR 기술을 사용할 수 있게 되기 전에는 문서를 디지털 형식으로 변환하는 유일한 옵션은 텍스트를 수동으로 다시 입력하는 것이었습니다. 중복 입력은 시간이 많이 소요될 뿐만 아니라 불가피한 부정확성과 입력 오류가 발생하기도 합니다. 오늘날 OCR 서비스는 대중에게 널리 보급되어 있습니다. 예를 들어 Google Cloud Vision OCR을 이용하여 스마트폰에서 문서를 스캔하고 저장할 수 있습니다.

Mixture of Experts | 팟캐스트

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

OCR은 어떻게 작동하나요?

OCR 소프트웨어는 스캐너를 사용하여 문서의 물리적 형태를 편집 가능한 디지털 텍스트로 재처리합니다. OCR 소프트웨어는 독립형 프로그램, OCR 애플리케이션 프로그래밍 인터페이스 또는 웹 기반 서비스로 실행할 수 있습니다.

이미지 획득: 모든 문서 페이지를 복사한 다음 OCR 엔진이 디지털 문서를 2색 또는 흑백 버전으로 변환합니다. 스캔한 이미지 또는 비트맵에서 밝은 영역과 어두운 영역을 분석합니다. 그런 다음 프로그램에서 어두운 영역을 인식해야 하는 문자로 식별하고, 밝은 영역을 배경으로 식별합니다.

전처리: 디지털 이미지를 정리하여 외부 픽셀을 제거합니다. 이 전처리에는 스캔 중에 이미지가 잘못 정렬된 것을 수정하기 위한 기울기 보정, 인쇄된 이미지의 일부인 그래픽 규칙 및 상자 제거, 스크립트 텍스트 포함 여부 결정 등이 포함될 수 있습니다.

텍스트 인식: 어두운 영역은 알파벳 문자, 숫자 또는 기호를 찾기 위해 처리됩니다. 이 단계에는 일반적으로 한 번에 하나의 문자, 단어 또는 텍스트 블록을 대상으로 하는 작업이 포함됩니다. 그런 다음 문자는 패턴 인식 또는 기능 인식의 두 가지 알고리즘 중 하나를 사용하여 식별됩니다.

  • 패턴 인식(또는 패턴 매칭): OCR 프로그램은 스캔한 문서 또는 이미지 파일의 템플릿과 비교하여 문자를 인식할 수 있도록 다양한 글꼴과 형식의 텍스트 예시에 대해 학습되었습니다. 모양, 크기 및 글꼴의 고유한 각 조합을 글리프라고 합니다. 이 기능이 작동하려면 문자가 OCR 프로그램에서 이미 학습된 글꼴로 되어 있어야 합니다. 전 세계적으로 수많은 글꼴이 존재하고 아랍어, 중국어, 영어, 프랑스어, 독일어, 그리스어, 일본어, 한국어, 스페인어 등 다양한 문자를 사용하는 언어를 고려할 때, 모든 글꼴과 언어 조합에 대한 학습은 엄청난 시스템 소모가 될 것입니다.

  • 기능 인식(감지 또는 추출): OCR 프로그램이 학습되지 않은 글꼴을 분석할 때 사용됩니다. OCR은 스캔한 문서의 문자를 인식하기 위해 특정 문자 또는 숫자의 기능에 관한 규칙을 적용합니다. 기능에는 문자의 사선, 교차선, 루프 또는 곡선의 수가 포함됩니다. 예를 들어, 대문자 'A'는 중간을 가로지르는 수평선과 만나는 두 개의 대각선으로 저장됩니다. 문자가 식별되면 컴퓨터 시스템에서 추가 조작을 처리하는 데 사용하는 미국 정보 교환 표준 부호(ASCII) 코드로 변환됩니다.

레이아웃 인식: 보다 완벽한 OCR 프로그램은 문서 이미지의 구조도 분석합니다. 페이지를 텍스트 블록, 표 또는 이미지와 같은 요소로 나눕니다. 선은 단어로 구분된 다음 문자로 구분됩니다. 문자가 선별되면 프로그램은 이를 일련의 패턴 이미지와 비교합니다. 일치할 가능성이 있는 모든 항목을 처리한 후 프로그램은 인식된 텍스트를 반환합니다.

후처리: 수집된 정보는 편집 가능한 형식 또는 PDF인 디지털 파일로 저장됩니다. 일부 시스템은 더 쉽게 비교하고 보다 완벽한 문서 관리를 위해 입력 이미지와 OCR 이후 버전을 모두 유지합니다.

OCR의 유형

OCR 프로그램에는 4가지 유형이 있으며 점점 더 정교해지고 있습니다.

단순 OCR: 스캔한 문자를 저장된 글리프와 비교하여 문자별로 패턴을 매칭하는 분석 방식입니다. 잠재적인 글꼴 및 언어 조합이 너무 많기 때문에 분석할 수 있는 문서 유형이 제한됩니다.

광학 마크 인식(OMR): 체크 박스 및 기타 마크(예: 설문 조사의 말풍선 또는 양식의 서명, 로고, 기호 및 워터마크)를 식별하는 데 사용됩니다. 단순 OCR과 마찬가지로 모두 저장된 이미지와 일치시켜 식별할 수 있습니다. 
 
지능형 문자 인식(ICR): 앞서 언급했듯이 ICR은 AI의 힘을 활용합니다. OCR 프로그램은 ML 또는 딥 러닝을 사용하여 지속적인 연습과 학습을 통해 인간처럼 읽는 법을 배웁니다. 신경망은 텍스트를 반복적으로 검토하여 곡선, 교차점, 선 및 루프의 위치와 같은 고유한 속성을 찾습니다.

지능형 단어 인식: 이는 이전 ICR 인식에서 자연스럽게 진화한 방식으로, 이제 AI가 단일 이미지에서 단어를 인식하도록 학습되어 궁극적으로 더 빨라졌습니다.

OCR의 이점

OCR 기술을 사용하면 다음과 같은 이점을 얻을 수 있습니다.

  • 중복된 수동 입력을 줄이거나 제거하여 비용을 절감합니다.

  • 사전 인쇄된 문서 또는 서면 양식을 입력하여 워크플로를 간소화하고 검색 가능한 디지털 데이터로 검색 속도를 높입니다.

  • 문서 라우팅, 콘텐츠 처리 및 텍스트 마이닝 준비를 자동화합니다.

  • 많은 종이 문서 기록을 보관하는 데 드는 비용을 절약합니다.

  • 데이터 세트를 중앙 집중화하고 안전하게 관리하여 화재, 침입 및 은행 금고에서의 분실로부터 문서를 보호합니다.

  • 시각 장애가 있는 직원과 고객이 데이터에 더 많이 액세스할 수 있도록 지원합니다.

  • 직원에게 정확한 최신 정보를 제공하여 서비스를 개선합니다.

OCR 사용 사례

OCR의 가장 잘 알려진 사용 사례는 인쇄된 종이 문서를 기계가 읽을 수 있는 텍스트 문서로 변환하는 것입니다. 스캔한 종이 문서가 OCR 처리를 거친 후, Microsoft Word 또는 Google Docs와 같은 워드 프로세서로 문서의 텍스트를 편집할 수 있습니다. 다양한 사용 사례를 통해 교육, 금융, 의료, 물류 및 운송, 그리고 대출 문서, 환자 기록, 보험 양식, 라벨, 청구서, 영수증의 처리 및 검색을 포함한 많은 분야에서 워크로드를 가속화할 수 있습니다.

OCR은 종종 숨겨진 기술로 활용되어 일상 생활에서 잘 알려진 많은 시스템과 서비스를 지원합니다. 중요하지만 잘 알려지지 않은 OCR 기술의 사용 사례로는 데이터 입력 자동화, 시각 장애인 지원, 여권, 번호판, 청구서, 은행 명세서, 수표의 처리 및 복사, 명함 및 자동차 번호판 인식과 같은 검색 엔진용 문서 인덱싱 등이 있습니다.

OCR을 사용하면 종이와 스캔한 이미지 문서를 기계가 읽을 수 있고 검색 가능한 PDF 파일로 변환하여 빅데이터 모델링을 최적화할 수 있습니다. 중요한 정보를 처리하고 검색하려면 먼저 텍스트 레이어가 아직 없는 문서에 OCR을 적용해야 합니다.

OCR 텍스트 인식을 통해 스캔한 문서를 빅데이터 시스템에 통합한 다음 은행 명세서, 계약서 및 기타 중요한 인쇄 문서에서 고객 데이터를 읽어낼 수 있습니다. 조직은 직원들이 수많은 이미지 문서를 검토하고 입력물을 자동화된 빅데이터 처리 워크플로에 수동으로 입력하도록 하는 대신, OCR을 활용하여 데이터 마이닝의 입력 단계에서 해당 프로세스를 자동화할 수 있습니다. OCR 소프트웨어는 사진에 있는 텍스트를 추출하고 텍스트 파일을 저장하며 jpg, jpeg, png, bmp, tiff 및 pdf를 포함한 여러 형식을 지원할 수 있습니다.

OCR의 최신 발전

OCR은 1974년 최초의 비즈니스 시스템을 현저히 뛰어넘었으며 발전은 계속되고 있습니다. 우수한 OCR 프로그램은 불규칙한 글꼴, 낮은 해상도, 모바일 캡처의 불리한 조명 상태, 다양한 색상 및 배경과 같은 최적이 아닌 조건의 문서에서 주요 인사이트를 추출할 수 있습니다.

기업은 컴퓨터 비전자연어 처리, 향상된 정보 표현 및 모델 최적화를 통합함으로써 이제 최첨단 문서 이해라는 이점을 누릴 수 있습니다. 개선 사항으로는 시각적으로 이해하고 이를 차트와 다이어그램으로 표현하는 복잡한 문서의 레이아웃 및 읽기 순서 분석이 있습니다. 일부 OCR 프로그램은 이제 생성형 AI로 구동되어 문서 데이터를 훨씬 더 빠르게 구조화할 수 있습니다. '오래된' 기술은 계속해서 새로운 요령을 학습합니다.

관련 솔루션

관련 솔루션

IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기