データサイエンスとは| IBM

データサイエンスとは？

データサイエンスとは、データに隠されている実用的な洞察を、専門知識、数学と統計、特殊プログラミング、高度な分析、人工知能（AI）、機械学習を組み合わせて明らかにすることです。得られた洞察は、意思決定と戦略計画策定の指針として活用できます。

近年データ・ソースとそれに伴って発生するデータの増加速度が速まっているため、データサイエンスは、あらゆる業界において最も急速に成長している分野の1つとなっています。そのため、データサイエンティストがHarvard Business Review（ibm.com外部へのリンク）で「21世紀で最もセクシーな職業」と呼ばれたのも不思議ではありません。ビジネスの結果を向上させるためのデータの解釈と実用的な推奨の提供に関して、データサイエンティストに頼る企業や組織はますます増加しています。

データサイエンスのライフサイクルには、さまざまな役割、ツール、プロセスが伴います。アナリストはこれらを使用して、実用的な洞察を収集できます。通常、データサイエンス・プロジェクトは、以下の段階を経て進行していきます。

データ取り込み：さまざまな手法を使用して、関連性のあるすべてのソースから、未加工の構造化データと非構造化データの両方を収集することから始まります。これらの手法とは、手動入力、Webスクレイピング、システムとデバイスから取得するリアルタイムのストリーミング・データなどです。そしてデータ・ソースには、顧客データなどの構造化データと、ログ・ファイル、動画、音声、写真、モノのインターネット（IoT）、ソーシャル・メディアなどの非構造化データが含まれます。

データ・ストレージとデータ処理：データにはさまざまな形式と構造があるため、取得する必要があるデータの種類に基づいて多様なストレージ・システムを検討しなければなりません。データ管理チームは、データ・ストレージと構造に関連する標準の設定を支援します。これらの標準により、分析、機械学習、ディープラーニングのモデルに関するワークフローが円滑化されます。この段階には、ETL（抽出、変換、ロード）ジョブまたはその他のデータ統合テクノロジーを使用したデータのクレンジング、重複排除、変換、およびデータの結合が含まれます。このようなデータ準備作業は、データウェアハウス、データレイク、またはその他のリポジトリーにデータをロードする前に、データ品質を向上させるために不可欠です。

データ分析：データサイエンティストはここで、予備的なデータ分析を実施し、データ内の値のバイアス、パターン、範囲、分布を調べます。この予備的なデータ分析の結果により、A/Bテストで使用する仮説の生成が促されます。この結果をデータ・アナリストは、予測分析、機械学習、ディープラーニングのモデリング作業で使用するためにデータとの関係性を判断できます。モデルの正確性によっては、組織はビジネス上の意思決定においてこれらの洞察に依存するようになり、より拡張性を高めることができます。

報告：最後に、洞察がレポートやその他の可視化されたデータとして提示されます。これらにより、ビジネス・アナリストとその他の意思決定者は、洞察とそれがビジネスに与える影響をより簡単に理解できるようになります。RやPythonなどのデータサイエンス・プログラミング言語には、可視化を生成するためのコンポーネントが含まれています。あるいは、データサイエンティストは専用の可視化ツールを使用することもできます。

失敗しないMLOps

MLOpsにおける適切なフィードバック・データの重要性と、それに基づく実践的なモデル運用を解説

関連情報

IBMの生成AIをお試しください。

ビジネスのためのAIへの行程

強力なデータ基盤でAIを拡張するための4つの戦略

ビジネスのためのAIを短時間で学習できる「AI Academy」

データサイエンスとデータサイエンティスト

データサイエンスは学術分野で、データサイエンティストはこの学術分野における実践者であると考えられています。データサイエンティストは必ずしも、データサイエンスのライフサイクルに伴うすべてのプロセスに直接的な責任を負うわけではありません。例えば、データ・パイプラインは通常、データ・エンジニアが処理します。しかし、データサイエンティストがどのような種類のデータが便利であるか、あるいは必要であるかについて提案する場合があります。データサイエンティストは機械学習モデルを構築できる一方、こうした取り組みを大規模なレベルで拡張するには、プログラムを最適化してより迅速に実行できるようにするためのソフトウェア・エンジニアリング・スキルがさらに求められます。そのため、データサイエンティストが機械学習エンジニアと協力して機械学習モデルを拡張するのは珍しいことではありません。

データサイエンティストの責任は通常、特に予備的なデータ分析とデータの可視化に関して、データ・アナリストの責任と重複します。ただし、データサイエンティストのスキルセットは通常、平均的なデータ・アナリストよりも広範囲に及びます。比較すると、データサイエンティストは、RやPythonなどの一般的なプログラミング言語を活用して、より多くの統計的推論とデータの可視化を行います。

これらのタスクを実行するために、データサイエンティストは、一般的なビジネス・アナリストやデータ・アナリスト以上のコンピューター・サイエンスと純粋な科学のスキルを必要とします。データサイエンティストは、自動車製造、eコマース、ヘルスケアなど、ビジネスの詳細も理解する必要があります。

つまり、データサイエンティストは次のことができる必要があります。

適切な質問をし、ビジネスの問題点を特定するために、ビジネスを十分に知る。
統計とコンピューター・サイエンスをビジネス感覚とともにデータ分析に適用する。
データの準備と抽出のために、データベースとSQL、データ・マイニング、データ統合の手法まで、あらゆるツールと手法を使用する。
予測分析と機械学習モデル、自然言語処理、ディープラーニングを含む人工知能（AI）を使用してビッグデータから洞察を抽出します。
データ処理と計算を自動化するプログラムを作成する。
あらゆる技術的な理解レベルを持つ意思決定者と利害関係者に対して、結果の意味を明確に伝えるためのストーリーを話し、説明する。
ビジネスの問題を解決するためにそれらの結果をどのように利用できるか、説明する。
データ・アナリスト、ビジネス・アナリスト、ITアーキテクト、データ・エンジニア、アプリケーション開発者など、他のデータサイエンス・チームのメンバーと協力する。

このようなスキルは需要が高いため、データサイエンスのキャリアに踏み出そうとしている多くの人が、教育機関が提供する認定プログラム、データサイエンス・コース、学位プログラムなど、さまざまなデータサイエンス・プログラムの受講を検討しています。

AI開発者向けのツールと機能群

AIモデルの学習、検証、調整、導入を行うAI開発者向けのスタジオである「IBM watsonx.ai」をご利用ください。

関連製品

Watson Studio

IBM Cloud Pak for Data

データサイエンスとビジネス・インテリジェンス

「データサイエンス」と「ビジネス・インテリジェンス」（BI）という用語はどちらも組織のデータとそのデータの分析に関連しているため、混同しやすいかもしれませんが、その焦点は異なります。

ビジネス・インテリジェンス（BI）は通常、データ準備、データ・マイニング、データ管理、データの可視化を実現するテクノロジーを示す包括的な用語です。ビジネス・インテリジェンスのツールとプロセスを使用すると、エンド・ユーザーが生データから実用的な情報を識別できるようになり、さまざまな業界の組織内でのデータ主導の意思決定が促進されます。データサイエンス・ツールはこの点において、多くの部分がビジネス・インテリジェンスと重複しますが、ビジネス・インテリジェンスでは過去のデータにより重点を置いており、BIツールから得られる洞察は実際、より説明的なものになります。BIは、データを使用して、行動の指針を示す前に起きたことを理解します。また、通常は構造化データである、静的（不変の）データに適合しています。データサイエンスは、説明的なデータを使用しながら、通常はそれらのデータを予測的な変数を判断するために活用します。これらの変数はその後、データの分類や予想の作成に使用されます。

データサイエンスとBIは相反するものではありません。デジタルに精通した組織は、データを完全に理解し、そこから価値を引き出すために両方を使用します。

データサイエンス・ツール

データサイエンティストは、予備的なデータ分析と統計的回帰を実施する際に、一般的なプログラミング言語を使用します。これらのオープンソース・ツールは、事前構築された統計モデリング、機械学習、グラフィックの各機能をサポートしています。一般的なプログラミング言語には以下が挙げられます（「Python vs. R: What's the Difference? 」をご覧ください）。

R Studio：統計の計算とグラフィックを開発するためのオープンソースのプログラミング言語および環境です。
Python：動的かつ柔軟なプログラミング言語です。Pythonには、NumPy、Pandas、Matplotlibなど迅速なデータ分析用の多数のライブラリーが含まれています。

コードやその他の情報を共有しやすくするために、データサイエンティストはGitHubやJupyter Notebookを使用する場合があります。

ユーザー・インターフェースを好むデータサイエンティストもいます。統計的分析向けの一般的なエンタープライズ・ツールとして次の2つがあります。

SAS：可視化と対話式ダッシュボードなど、分析、レポート作成、データ・マイニング、予測モデリング向けの包括的なツール・スイートです。
IBM SPSS：先進的な統計分析機能、大規模な機械学習アルゴリズムのライブラリー、テキスト分析、オープンソースの拡張性、ビッグデータとの統合、アプリケーションへのシームレスな導入機能を提供します。

データサイエンティストはまた、Apache Spark、オープンソース・フレームワークであるApache Hadoop、NoSQLデータベースなど、ビッグデータ処理プラットフォームの使用にも習熟しています。さらに、ビジネス用のプレゼンテーションやスプレッドシート・アプリケーション（Microsoft Excelなど）に付属するシンプルなグラフィックス・ツール、Tableau、IBM Cognosなどの専用の商業用可視化ツール、D3.js（対話式のデータの可視化作成用のJavaScriptライブラリー）、RAWGraphsのようなオープンソース・ツールなど、幅広いデータ視覚化ツールのスキルも持っています。機械学習モデルを構築する場合、データサイエンティストは高い頻度で、PyTorch、TensorFlow、MXNet、Spark MLibなど、複数のフレームワークを利用します。

データサイエンスの学習曲線が急勾配であるため、多くの企業はAIプロジェクトへの投資から利益を得るまでの時間を短縮することを求めています。こうした企業はしばしば、データサイエンス・プロジェクトの可能性をすべて実現するために必要な人材の雇用に苦労しています。企業はこのギャップに対応するために、マルチペルソナ・データサイエンス/機械学習（DSML）プラットフォームに注目し、「シチズン・データサイエンティスト」という役割を生み出しています。

マルチペルソナDSMLプラットフォームでは、自動化、セルフサービス・ポータル、ローコード/ノーコード・ユーザー・インターフェースが使用されるため、デジタル・テクノロジーまたは専門的なデータサイエンスの知識がない人でもデータサイエンスと機械学習を使用して、ビジネス価値を生み出すことができます。さらにより技術的なインターフェースも提供することで、データサイエンスの専門家もサポートできます。そのためこのプラットフォームを使用することで、全社的なコラボレーションが促進されます。

データサイエンスとクラウド・コンピューティング

クラウド・コンピューティングは、追加の処理能力、ストレージ、データサイエンス・プロジェクトに必要なその他のツールを利用できるようにすることで、データサイエンスを拡張します。

データサイエンスではしばしば大規模なデータ・セットを活用するため、特に時間的制約があるプロジェクトの場合、データのサイズに合わせて拡張できるツールが非常に重要です。データレイクなどのクラウド・ストレージ・ソリューションでは、簡単に大容量データの取り込みと処理を行えるストレージ・インフラストラクチャーを利用できます。これらのストレージ・システムでは、柔軟性が提供されるため、エンド・ユーザーは必要に応じて、大規模なクラスターをスピンアップできます。また、増分計算ノードを追加して、データ処理ジョブを迅速化できるため、企業は大規模かつ長期的な成果を得るために短期的なトレードオフを行うことができます。クラウド・プラットフォームには通常、利用当たりの料金やサブスクリプションなど、大企業であるか小規模なスタートアップ企業であるかに関わらず、エンド・ユーザーのニーズに対応するためにさまざまな料金体系モデルがあります。

データサイエンスのツール・セットには、オープンソース・テクノロジーが広く使われています。それらのツール・セットがクラウドでホストされている場合、チームはローカルでインストール、設定、保守、更新を行う必要がありません。IBM® Cloudなどのいくつかのクラウド・プロバイダーはまた、データサイエンティストがコーディングなしでモデルを構築できるようにする、事前にパッケージ化されたツールキットを提供し、テクノロジーのイノベーションとデータの洞察をさらに多くの人々が利用できるようにしています。