コンピュータービジョンとは

コンピューター・ビジョンとは、コンピューターとシステムがデジタル画像、動画、その他の視覚データから意味のある情報を導き出し、その情報に基づいて対処し、推奨を行うことがきるようにする人工知能（AI）の分野のことです。 AIによってコンピューターが考えることができるようになるとすれば、コンピューター・ビジョンによって、コンピューターは確認し、観察し、理解することができるようになります。

コンピューター・ビジョンは、人間は有利にスタートを切ることができるという点を除けば、人間のビジョンとほとんど同じように機能します。人間の視覚には、オブジェクトを区別する方法、オブジェクト間の距離、オブジェクトが動いているかどうか、画像に何か問題があるかどうかを把握するためのコンテキストの学習の蓄積という利点があります。

コンピューター・ビジョンは、こうした機能を実行するように機械を訓練しますが、網膜、視神経、視覚野によるものではなく、カメラ、データ、アルゴリズムを使用して、はるかに短い時間で実行する必要があります。製品の検査や生産資産の監視を行うように訓練されたシステムは、数千の製品やプロセスを瞬時に分析し、知覚できない欠陥や問題を認識することができるため、人間の能力をすぐに超える可能性があります。

コンピューター・ビジョンは、エネルギーや電力・ガスから製造業や自動車に至るまでの業界で使用されており、市場は成長を続けています。 2022年までに486億米ドルに達すると予想されています。¹

コンピューター・ビジョンの仕組み

コンピューター・ビジョンには、大量のデータが必要です。特徴を識別し、最終的に画像を認識するまで、データの分析を繰り返し実行します。例えば、自動車のタイヤを認識するようにコンピューターをトレーニングするには、タイヤの画像とタイヤ関連のアイテムを大量に提供して、違いを学習し、タイヤ、特に欠陥のないタイヤを認識する必要があります。

これを実現するには、ディープ・ラーニングと呼ばれる機械学習の一種と、畳み込みニューラル・ネットワーク（CNN）の2つの重要なテクノロジーが使用されます。

機械学習は、アルゴリズム・モデルを使用し、視覚データのコンテキストについてコンピューターが自らに教え込ませることを可能にします。モデルを通じて十分なデータが提供されると、コンピューターはデータを「確認」して、ある画像と別の画像を区別するように自習します。アルゴリズムにより、誰かが画像を認識するようにプログラミングするのではなく、マシンがそれ自体で学習できるようになります。

CNNは、画像をタグまたはラベルが付けられたピクセルに分割することにより、機械学習またはディープ・ラーニング・モデルの「視覚化」をサポートします。ラベルを使用して畳み込み（2つの関数を使用して3番目の関数を生成する数学的演算）を実行し、「見ている」ものについて予測を行います。ニューラル・ネットワークは畳み込みを実行し、予測が可能になるまで、一連の反復で予測の精度をチェックします。次に、人間と同様の方法で画像を認識または表示します。

人間が離れた場所の画像を認識するのと同じように、CNNは最初にハード・エッジとシンプルな形状を識別し、次に予測を反復して実行しながら情報を埋め込んでいきます。 CNNは、単一の画像を理解するために使用されます。再帰型ニューラル・ネットワーク（RNN）は、動画アプリケーションでも同様の方法で使用され、一連のフレーム内の画像が互いにどのように関連しているかをコンピューターが理解できるようにします。

機械学習についての詳細はこちら

コンピューター・ビジョンの歴史

科学者やエンジニアは、約60年間、機械が視覚データを確認して理解する方法を開発しようとしてきました。実験は1959年に始まり、神経生理学者が猫に一連の画像を見せ、その脳の反応を相関させようとしました。彼らは脳が最初にハード・エッジや線に反応することを発見し、また科学的には、このことは画像処理がまっすぐなエッジのような単純な形から始まることを意味しています。^（2）

ほぼ同時に、最初のコンピューター画像スキャン技術が開発され、コンピューターが画像をデジタル化して取得できるようになりました。コンピューターが2次元画像を3次元形式に変換できるようになった1963年が別のマイルストーンでした。 1960年代に、AIは学術研究分野となり、人間の視覚の問題を解決するためのAIの探求の始まりとなりました。

1974年には、任意のフォントまたは書体で印刷されたテキストを認識できる光学式文字認識（OCR）テクノロジーが導入されました。^（3）同様に、インテリジェント文字認識（ICR）は、ニューラル・ネットワークを使用して手書きのテキストを解読できます。^（4）それ以来、OCRとICRは、文書や請求書の処理、車両プレート認識、モバイル決済、機械翻訳、その他の一般的なアプリケーションに適用されるようになりました。

1982年、神経科学者のDavid Marr氏は、ビジョンが階層的に機能することを明らかにし、エッジ、コーナー、カーブ、および同様の基本形状を検出するためのマシンのアルゴリズムを発表しました。同時に、コンピューター科学者の福島邦彦は、パターンを認識できるセルのネットワークを開発しました。ネオコグニトロンと呼ばれるネットワークには、ニューラル・ネットワークに畳み込み層が含まれていました。

2000年までの研究は主にオブジェクト認識を対象とし、2001年までに最初のリアルタイム顔認識アプリケーションが登場しました。視覚データ・セットのタグ付けと注釈付けの方法の標準化は、2000年代に登場しました。 2010年に、ImageNetデータ・セットが利用可能になりました。これには、1,000のオブジェクトクラスにわたる数百万のタグ付き画像が含まれており、今日使用されているCNNとディープ・ラーニング・モデルの基盤を提供します。 2012年、トロント大学のチームが「画像認識におけるCNN活用」コンテストに参加しました。 AlexNetと呼ばれるこのモデルによって、画像認識の誤差率が大幅に低下しました。このブレークスルーによって、誤差率はわずか数パーセントに低下しました。^（5）

コンピューター・ビジョンの研究

IBM Researchにおけるコンピューター・ビジョンとマルチメディア

動画、論文、ワークショップなどにアクセスできます。

コンピューター・ビジョンの応用

コンピューター・ビジョンの分野で多くの研究が行われていますが、単なる研究だけではありません。実世界の応用は、ビジネス、エンターテインメント、輸送、医療、および日常生活での取り組みにとって、コンピューター・ビジョンがいかに重要であるかを示しています。これらの応用の拡大の主な推進力は、スマートフォン、セキュリティ・システム、交通カメラ、その他の視覚計測デバイスからの大量の視覚情報です。このデータは、さまざまな業界の運用部門で主要な役割を果たす可能性がありますが、今日では使用されていません。この情報は、コンピューター・ビジョン・アプリケーションとランチパッドをトレーニングするテスト・ベッドを作成し、人間の活動範囲の一部となります。

IBMは、コンピューター・ビジョンを使用して、2018年マスターズ・ゴルフ・トーナメント用のMy Momentsを作りました。 IBM Watsonは、何百時間もの「マスターズ」の映像を見て、重要なショットの光景（および音）を特定することができました。これらの重要な瞬間を選別し、パーソナライズされたハイライト・リールとしてファンに提供しました。
Google翻訳を使用すると、ユーザーはスマートフォンのカメラを別の言語の符号に向けることで、ほぼ瞬時に選択した言語の翻訳を取得できます。⁽⁶⁾
自動運転車の開発は、車のカメラやその他のセンサーからの視覚データを解釈するコンピューター・ビジョンにかかっています。他の車、交通標識、車線マーカー、歩行者、自転車、および道路で遭遇するその他すべての視覚情報を特定することが不可欠です。
IBMは、Verizon社などのパートナーとコンピューター・ビジョン・テクノロジーを採用し、インテリジェントAIをエッジに導入し、自動車メーカーが工場出荷前の車両の品質欠陥を特定できるよう支援しています。

コンピューター・ビジョン

多くの組織には、コンピューター・ビジョン・ラボに資金を提供し、ディープ・ラーニング・モデルやニューラル・ネットワークを作り上げるためのリソースがありません。また、膨大な視覚データ・セットを処理するために必要なコンピューティング能力が不足している可能性もあります。 IBMなどの企業は、コンピューター・ビジョン・ソフトウェア開発サービスを提供して支援を行っています。これらのサービスは、クラウドから利用できる事前に構築された学習モデルを提供し、コンピューティング・リソースへの需要も緩和します。ユーザーは、アプリケーション・プログラミング・インターフェース（API）を使用してサービスに接続し、それらを使用してコンピューター・ビジョン・アプリケーションを開発します。

IBMはまた、開発とコンピューティング・リソースの両方の課題に対処するコンピューター・ビジョン・プラットフォームを導入しました。 IBM Maximo Visual Inspectionには、対象分野の専門家がコーディングやディープ・ラーニングの専門知識なしでディープ・ラーニング・ビジョン・モデルにラベルを付け、トレーニングし、導入できるようにするツールが含まれています。ビジョン・モデルは、ローカル・データ・センター、クラウド、およびエッジ・デバイスに導入できます。

コンピューター・ビジョン・アプリケーションを開発するためのリソースを入手するのは簡単になってきていますが、早い段階で「これらのアプリケーションは正確には何をするのか」という問いに答える必要があります。コンピューター・ビジョンの特定のタスクを理解して定義することで、プロジェクトとアプリケーションに焦点を当てて検証し、より簡単に開始できるようになります。

確立されたコンピューター・ビジョン・タスクの例を以下に示します。

画像の分類では、画像を見て、分類すること（犬、りんご、人の顔）ができます。より正確には、特定の画像が特定のクラスに属することを正確に予測できます。例えば、ソーシャル・メディア会社は、ユーザーがアップロードした好ましくない画像を自動的に識別して分離するために使用したい場合があります。
オブジェクト検出では、画像の分類を使用して特定のクラスの画像を識別し、画像または動画でそれらの外観を検出して表にまとめることができます。例としては、組み立てラインの損傷の検出や、保守が必要な機械の特定などがあります。
オブジェクト・トラッキングでは、オブジェクトが検出されると追尾または追跡します。このタスクは、多くの場合、シーケンスまたはリアルタイムの動画フィードで取り込まれた画像を使用して行われます。例えば、自動運転車は、歩行者、他の車両、道路インフラなどのオブジェクトを分類して検出するだけでなく、衝突を回避して交通法規に従うために、移動中のオブジェクトを追跡する必要があります。⁽⁷⁾
コンテンツ・ベースの画像検索では、コンピューター・ビジョンを使用して、画像に関連付けられたメタデータ・タグではなく、画像のコンテンツに基づいて、大規模なデータ・ストアから画像を参照、検索、取得します。このタスクには、手動の画像タグ付けに代わる自動画像注釈を組み込むことができます。これらのタスクは、ディジタル資産管理システムに使用でき、検索と取得の精度を高めることができます。

IBMソリューション

IBM Maximo Visual Inspection

ディープ・ラーニングの専門知識がなくても、検査自動化のためのコンピューター・ビジョンのパワーを迅速に引き出せます。

詳細はこちら

参考情報

IBM Researchのブログ

IBM Researchは、世界最大の企業研究所の1つです。業界横断的に行われている研究の詳細をご覧ください。

開発者向けリソース

視覚認識およびIBM Maximo Visual Inspectionの使用を開始する方法の詳細をご覧ください。開発者向けのリソースとコースをご覧ください。

出典:

1. https://www.forbes.com/sites/bernardmarr/2019/04/08/7-amazing-examples-of-computer-and-machine-vision-in-practice/#3dbb3f751018 （ibm.com外部へのリンク）

2.https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3 （ibm.com外部へのリンク）

3. Optical character recognition, Wikipedia （ibm.com外部へのリンク）

4. Intelligent character recognition, Wikipedia （ibm.com外部へのリンク）

5. A Brief History of Computer Vision (and Convolutional Neural Networks), Rostyslav Demush, Hacker Noon, February 27, 2019 （ibm.com外部へのリンク）

6. 7 Amazing Examples of Computer And Machine Vision In Practice, Bernard Marr, Forbes, April 8, 2019 （ibm.com外部へのリンク）

7. The 5 Computer Vision Techniques That Will Change How You See The World, James Le, Heartbeat, April 12, 2018 （リンクはibm.comの外部になります）