光学的文字認識（OCR）とは

著者

Staff Writer

IBM Think

OCRとは

光学的文字認識（OCR）は、自動データ抽出を使用して、テキストの画像を機械で読み取り可能な形式にすばやく変換するテクノロジーです。

OCRは、テキスト認識と呼ばれることもあります。OCRプログラムは、スキャンされたドキュメント、カメラ画像、画像のみの PDF からデータを抽出して再利用します。OCRソフトウェアは、画像上の文字を選択して単語に変換し、その単語を文に変換して、元のコンテンツにアクセスして編集できるようにします。また、手動での冗長なデータ・インプットという無駄な労力も省くことができます。

OCRシステムは、ハードウェアとソフトウェアの組み合わせを使用して、物理的な印刷文書を機械で読み取り可能なテキストに変換します。光学スキャナーや特殊な回路基板などのハードウェアがテキストをコピーまたは読み取り、その後、通常はソフトウェアが高度な処理を行います。

OCRソフトウェアは、人工知能（AI）を活用して、言語や手書きを識別するためのより高度なインテリジェント文字認識（ICR）方法を実行できます。組織では、印刷された法的文書や歴史的文書をPDF文書に変換して、ワード・プロセッサーで作成したかのように文書を編集、初期化、検索できるようにするために、OCRをよく使用しています。組織では、印刷された法的文書や歴史的文書をPDF文書に変換して、ワード・プロセッサーで作成したかのように文書を編集、初期化、検索できるようにするために、OCRをよく使用しています。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

OCRの歴史

1974年、Ray Kurzweil氏がKurzweil Computer Products社を設立しました。同社のオムニフォントOCR製品は、事実上あらゆるフォントで印刷されたテキストを認識できるものでした。Kurzweil氏は、この技術の最適な応用は視覚障害者向けの機械学習（ML）デバイスであると判断し、テキストを音声合成形式で読み上げる読み取り機を開発しました。その後1980年になり、紙からコンピューターへのテキスト変換のさらなる商業化に興味を持っていたXerox社に会社を売却しました。

OCR技術は、1990年代初頭に古い新聞のデジタル化に伴い普及しました。以来、この技術はいくつかの改良を受けて進化してきました。現在、製品はほぼ完璧なOCR精度を実現しています。高度な方法により、複雑なドキュメント処理ワークフローを自動化できます。

OCR技術が利用可能になる前は、文書をデジタルフォーマットする唯一の選択肢は、手動でテキストを再入力することでした。入力する対象が膨大であれば時間がかかるだけでなく、不正確さや入力ミスも発生します。現在、OCRサービスは広く一般に提供されています。例えば、Google Cloud Vision OCRを使用すると、スマートフォンでドキュメントをスキャンして保存できます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

OCRの仕組み

OCR ソフトウェアは、スキャナーを使用して文書の物理的な形式を編集可能なデジタル・テキストに再処理します。OCRソフトウェアは、独立したプログラム、 OCRアプリケーション・プログラミング・インターフェース、または Webベースのサービスとして実行できます。

画像取得：すべての文書ページがコピーされ、 OCR エンジンがデジタル・ドキュメントを 2色または白黒に変換します。スキャンされた画像またはビットマップは、明るい部分と暗い部分が分析されます。次に、プログラムは暗い部分を認識する必要がある文字として識別し、明るい領域を背景として識別します。

前処理：デジタル画像は、不要なピクセルを削除するためにクリーニングされます。この前処理には、スキャン中に不適切に配置されていた画像を修正するための傾き補正、印刷された画像の一部であったグラフィックのルールとボックスの削除、スクリプト・テキストが含まれているかどうかの判断などが含まれます。

テキスト認識：暗い部分は、アルファベットの文字、数字、または記号を見つけるために処理されます。この段階では、通常、一度に1つの文字、単語、またはテキスト・ブロックをターゲットにします。次に、パターン認識または特徴認識の2つのアルゴリズムのいずれかを使用して、文字が識別されます。

パターン認識（またはパターン・マッチング）： OCRプログラムは、スキャンされたドキュメントまたは画像ファイル内のテンプレートと比較して文字を認識するために、さまざまなフォントと形式のテキストの例で事前にトレーニングされています。形状、スケール、フォントの一意の組み合わせはそれぞれ「グリフ」と呼ばれます。これが機能するには、文字がOCRプログラムで既にトレーニングされているフォントでなければなりません。世界中にさまざまなフォントがあり、言語ごとに異なる文字を使用しています。例えばアラビア語、中国語、英語、フランス語、ドイツ語、ギリシャ語、日本語、韓国語、スペイン語など、さまざまな言語が異なる文字を使用していることを考えると、フォントと言語のすべての組み合わせでトレーニングを行うと、システムに大きな負担がかかります。
特徴認識（検知または抽出）：これは、OCRプログラムがトレーニングされていないフォントを分析している場合に使用されます。OCRは、スキャンされたドキュメント内の文字を認識するために、特定の文字または数字の機能に関するルールを適用します。特徴には、文字内の斜めの線、線の交点、ループ、または曲線の数が含まれます。例えば、大文字の「A」は、中央を横切る水平線と交わる2本の対角線として格納されます。文字が識別されると、その文字は American Standard Code for Information Interchange（ASCII）コードに変換され、コンピューター・システムはそれ以降の操作を処理するためにこれが使用されます。

レイアウト認識：より完全なOCRプログラムは、ドキュメント画像の構造も分析します。ページをテキストのブロック、テーブル、画像などの要素に分割します。行は単語に分割され、次に文字に分割されます。文字が選ばれると、プログラムはそれらを一連のパターン画像と比較します。一致する可能性のあるすべての処理の後、プログラムは認識されたテキストを返します。

後処理：収集された情報は、編集可能な形式またはPDFのデジタルファイルとして保存されます。一部のシステムでは、比較を容易にし、より完全なドキュメント管理を実現するために、インプット画像とOCR後のバージョンの両方が保持されます。

OCRの種類

OCRプログラムには洗練度により4つの種類があります。

シンプルなOCR：解析は文字ごとのパターンマッチングで、スキャンした文字と保存されているグリフを比較します。フォントと言語の組み合わせは非常に多くの可能性があるため、分析できるドキュメントの種類は限られています。

光学的マーク認識（OMR）：チェックボックスやその他のマーク（アンケートのバブルやフォームの署名など）、ロゴ、記号、透かしを識別します。シンプルなOCR同様、保存された画像と照合することですべてを識別できます。

インテリジェントな文字認識（ICR）：前述のとおり、ICRではAIが駆使されています。機械学習やディープラーニングを使用することで、OCRプログラムは人間と同じように、継続的な練習とトレーニングを通じて読むことを学びます。ニューラル・ネットワークはテキストを繰り返しレビューして、曲線、交差点、線、ループの位置などの特徴的な属性を探します。

インテリジェントな単語認識：これは以前のICR認識の自然な進化ですが、AIは単一の画像内の単語を認識するようにトレーニングされたため、作業が高速化されました。

OCRのメリット

OCRテクノロジーを使用すると、次のようなメリットが得られます。

冗長な手入力による手間を削減または排除することでコストを削減。
印刷済みの文書や書面のフォームを入力してワークフローを合理化しながら、検索可能なデジタル・データを使用して調査にかかる時間を短縮。
ドキュメントのルーティング、コンテンツの処理、テキスト・マイニングの準備を自動化。
さらに多くの紙での記録を保管するコストを削減すること。
銀行金庫室での火災や文書紛失、金庫室への侵入などから保護するために、データ・セットを一元管理して保護すること。
視覚障害のあるスタッフや顧客がデータにアクセスしやすくすること。
従業員に最新かつ正確な情報を提供することでサービスを向上させること。

OCRのユースケース

OCRの一般的なユースケースは、印刷された紙の文書を機械で読み取り可能なテキスト文書に変換することです。スキャンした紙の文書をOCR処理した後、テキストをMicrosoft WordやGoogle Docsなどの文書編集用ソフトウェアで編集できるようにします。複数のユースケースにより、教育、金融、医療、物流、輸送、ローン文書、患者記録、保険フォーム、ラベル、請求書、領収書の処理と取得など、多くの業界のワークロードを高速化できます。

OCRは縁の下の力持ち的な存在のテクノロジーとしてよく使用され、私たちの日常生活でよく知られている多くのシステムやサービスに利用されています。OCRテクノロジーの重要であるのにもかかわらず、あまり知られていないユースケースとしては、データ入力の自動化、視覚障害者の支援、パスポート、ナンバープレート、請求書、銀行取引明細書、小切手処理と転記、名刺、自動ナンバープレート認識などの検索エンジン向けドキュメントのインデックス作成などがあります。

OCRは、紙やスキャンした画像文書を機械で読み取り、検索可能なPDFファイルに変換することで、ビッグデータのモデリングを最適化します。貴重な情報を処理および取得するには、まずテキスト・レイヤーが存在しないドキュメントをOCRにかける必要があります。

OCRテキスト認識を使用すると、スキャンされた文書をビッグデータのシステムに統合して、銀行取引明細書、契約書、その他の重要な印刷文書から顧客データを読み取ることができます。従業員が無数の画像ドキュメントを調べ、自動化されたビッグデータ処理ワークフローに手入力する代わりに、組織はOCRを使用して、データ・マイニングの入力段階でそのプロセスを自動化できます。OCRソフトウェアは、画像内のテキストを抽出し、テキスト・ファイルを保存することができます。jpg、jpeg、png、bmp、tiff、pdfなど、複数の形式に対応しています。

OCRの近年の進歩

OCRは、1974年に最初に商用システムが誕生して以来大幅に進歩し、今もなお、進化し続けています。優れたOCRプログラムは、不規則なフォント、不十分な解像度、モバイル・キャプチャーによる照明不良、さまざまな色や背景など、条件の悪いドキュメントでも、重要な洞察を抽出できます。

コンピューター・ビジョンと自然言語処理機能、改善された情報表現、モデルの最適化により、企業は最先端のドキュメント理解機能を活用できるようになります。これにより、複雑な文書のレイアウトと読み取り順序の分析、ビジュアルの理解、チャートや図表としての表現などのメリットが得られます。現在、一部のOCRプログラムは生成AI駆動型となっており、ドキュメント・データをさらに高速に構造化できます。「古い」テクノロジーは新しい技術を学び続けています。