Inside of data science
データサイエンスに纏わる様々な視点を発信しています

データサイエンティスト トピック

データサイエンス(Data Science)とデータサイエンティスト(Data Scientist)

データミックスメディア編集長の藤田です。

今日は、基本に立ち返って「データサイエンス(Data Science)」とは何かを考えてみたいと思います。というのも、「データサイエンス」というワードを、データサイエンティストではない人からするとイメージが難しく、また、人と話していても「データサイエンス」という言葉に対し、相手が全く異なるものを想定しているな、と感じることが幾度もありました。

この記事によって、皆さんがデータサイエンスについて「自分なりの理解」を持っていただけたら幸いです。

ウィキペディアによるデータサイエンテスの定義

まずは、ウィキペディアによる定義を見てみましょう。以下のように書かれています。

「データサイエンス(data science)とは、データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことであり、その中でデータを扱う手法である情報科学、統計学、アルゴリズムなどを横断的に扱う。データサイエンスを、統計的、計算的、人間的視点から俯瞰することができよう。それぞれの視点がデータサイエンスを構成する本質的な側面であるが、これらの3つの視点の有機的結合こそがデータサイエンスという学問の神髄である。これまでのデータ解析における現場の知識の重要性に対する認識不足が、データサイエンスという学問に対する幅広い誤解の源泉であると考えられる」
引用元:https://ja.wikipedia.org/wiki/データサイエンス

???これはウィキペディアに無償で記事を提供されている筆者には大変心苦しいのですが、正直言葉が難しくて何を言っているのか、いまいち理解ができません…

データサイエンスの歴史的背景

まず、簡単にデータサイエンスという言葉が出てきた経緯を振り返ってみます。ご存知の方も多いかと思いますが、「データサイエンス」は比較的新しい言葉で、いくつかのバズワードを変遷してきた経緯があります。

デンマークのコンピュータ科学者であるピーターナウアが1974年に出版した「Concise Survey of Computer Methods」の中で「データサイエンス」という言葉を繰り返し使用したのが一般的なデータサイエンスの歴史の始まりとされています。

その後1980年代までは、データサイエンスという言葉の定義が議論されたり、研究により新たな手法が開発されたりしながら、徐々に一つの研究分野として確立していきます。

1990年代頃から、大規模化の進むデータセットからパターンを見つけるプロセスを表す用語として、「Knowledge Discovery(知識発見)」 や「Data Mining(データマイニング)」という用語がよく使われるようになりました。

機械学習のアプローチも知識駆動型のアプローチからデータ駆動型のアプローチへと移行するようになり、この頃から現在のデータサイエンスへと続く流れが見え始めてきます。

現在データ分析や機械学習などでよく利用されるプログラミング言語Pythonも1990年に誕生しました。

1994年にはBusinessWeek誌で「データベース・マーケティング」という言葉が表紙を飾り巻頭特集が組まれました。これがデータを活用する現代のマーケティングの初期の形のあらわれといわれています。

1990年代後半になるとデータマイニングへの注目はさらに高まり、

1996年に発表された論文で「データマイニング」という言葉の定義・基本機能・処理手順が提案されたことで、データマイニングという研究分野が明確に定義され、研究や活用がこれまで以上に盛んに行われるようになります。

1999年 Knowledge@Wharton誌に掲載された「従来の統計的手法は小さなデータセットではうまく機能するが、データマイニングではスケーラビリティが問題、ウェブサイトの意思決定に対処するために特別なデータマイニングツールを開発する必要がある」という発言は、2000年代以降のビッグデータ時代の到来を予感させます。

2000年代に入ると、

2001年にはWindows XPが発売され、SaaS(Software-as-a-Service)という言葉も誕生しました。

この頃から少しずつ、個人がパソコンを所有したり生活の中にインターネットやなどが入り込んでくるようになり、世界中でやり取りされるデータ量が増大していきます。

2006年、オートエンコーダを利用したディープラーニングが発明され、人工知能にとっての大きなブレイクスルーとなりました。

この年にはHadoopの最初のバージョンであるHadoop 0.1.0 がリリースされたり、

レコメンドエンジンの重要性に以前より注目していたNetflixがデータ解析コンペNetflix Prizeを開催するなど、現在のデータサイエンスブームへとつながる最初の一歩を踏み出した年といえるかもしれません。

人工知能の話で話題にあがる、2045年までにシンギュラリティ(技術的特異点:人口知能が人間の知能を超越する)を迎えるという説を「THE SINGURARITY IS NEAR(シンギュラリティは近い)」という本でレイ・カーツワイルが発表したのもこの頃です。

Webサービスにおいても2004年にFacebook、2005年にYoutube、2006年にTwitterがサービスを開始、2007年にはiPhoneが発売と、インターネットやITなど、広い範囲で現在の私達の生活の中で必要不可欠となっているものの多くがこの頃に誕生しました。これは同時にデータ量の増大も意味しています。

これまで以上にデータ分析やデータによる意思決定、データを活用したマーケティングなど、蓄積されたデータ活用の重要性が増して行きます。

2008年 当時データアナリティクス分野の業務をリードしていたDJ Patil(LinkedIn)とJeff Hammerbacher(Facebook)が「データサイエンティスト」という仕事の肩書きを名乗り始め、Googleなど他の企業で同様の仕事をしていた人達も自称するようになり、当時のバズワードにまでなりました。

2010年インターネットを流れるデータ転送量の増大を受けて、ビッグデータという用語が提唱されました。kaggleがサービスを開始したのもこの年です。

こういった流れを受けて、2011年にはデータサイエンティストの求人情報が15,000%も増加したといわれています。

そして大きな転機を迎えたのが2012年です。

2012年はデータサイエンスの歴史の中ではとても大きな転機を迎えます。

まず、ハーバード・ビジネス・レビュー誌が「データサイエンティストは21世紀で最もセクシーな職業(Data Scientist:The Sexiest Job of the 21st Century)」と題する記事を掲載したことで、2008年にバズワードになって以来注目の集まっていたデータサイエンティストという職業への注目はより一層高まり認知度も上がりました。

さらに、機械学習の記事でも少し触れましたが、この年に行われたILSVRCという画像認識の精度を競う大会で優勝したカナダのチームがディープラーニング(深層畳み込みニューラルネットワークを利用したもの)を採用して目覚ましい成果をあげたことで、ディープラーニングという技術に注目が集まり現在まで続くAIブームの始まりともなりました。

これ以降ディープラーニングに関する研究は加速し急速に普及していきます。

データサイエンスの活用の幅が広がりデータサイエンティストの需要も高まっていった事で、現在ではデータサイエンスと一言で言っても学ぶ内容は多様化し、データサイエンティストが業務上で求められるスキルも細分化されるようになりました。

Source: Google Trend

データサイエンティストの仕事から紐解く

データサイエンスとは何か。その一般的にも理解ができる説明をする為に、データサイエンスの専門家であるデータサイエンティストが行っているタスクから紐解いてみたいと思います。

彼らは日々何をしているのでしょうか。会社の規模や組織によって違いはあると思いますが、私はこれまで、アマゾンとツイッターでデータサイエンティストと働いた経験があります。その経験からは、データサイエンティストは以下のようなタスクをこなしています。

  1. ユーザーの行動や会社の取引などのログをデータとして蓄積・整理する
  2. 整理されたデータから必要な情報を抽出する
  3. データを可視化する
  4. データを分析する
  5. KPIや指標を定義する
  6. KPIや指標をトラッキングする
  7. データからの示唆(インサイト)を関係者に説明し、意思決定を促す
  8. プロダクトの機能のABテストや実験(Experimentation)を行う
  9. モデルを作り将来の取引量や指標を予測する
  10. プロダクトにレコメンドエンジンなどの自動最適化機能を実装する

比較的細かく書きましたが、まとめると、データサイエンティストは、会社がデータを作り出してから、それを利用し価値を実現するまでの一連の役割を担っていると言えると思います。

そして、データサイエンスは、データサイエンティストが上記役割を担うのに必要な理論・技術のことを意味しています。

会社の規模によるデータサイエンティストの役割の違い

上記でデータサイエンティストの仕事を「会社がデータを作り出してから、それを利用し価値を実現するまでの一連の役割を担っている」と表現しましたが、実際には、会社によってデータサイエンティストの仕事内容はかなり異なってきます。同じ仕事をしていても肩書きが会社によって違ったりします。したがって、これからデータサイエンティストとして転職したい人やデータサイエンティストを雇いたい人は注意が必要です。

下の図を見てください。

これは、上の1〜10のデータサイエンティストの仕事を4段階で整理したものです。

  • ジェネレーション:ユーザーがアプリケーションを使うことで生成されるデータやサイトアクセスログ、外部と連携しているデータなど。プロダクト自体の開発と密接に関係するため、ソフトウェアエンジニアが担当していることも多い。
  • ストレージ:データはログを取っているだけでは利用できないため、一言でいうとデータを使えるように蓄積し整える部分。
  • アナリティクス:データ分析やABテストなど、それほど高度な技術を用いないデータの利用。
  • アプリケーション:プロダクトへのレコメンドエンジンの搭載など、AIや機械学習・ディープラーニングを用いた高度なデータ利用。

さて、組織の規模や会社によって、以下のような違いが出てきます。

  1. スタートアップ
    • 規模が小さいスタートアップの場合、データサイエンティストはいても一人か数人です。その場合、データサイエンティストは上図のほぼすべてのタスクをこなしています。エンジニアが実質兼任していることも少なくないでしょう。あまりにもカバー範囲が広いため、アプリケーションの段階まではデータ利用が進んでいないことが多いのではないでしょうか。
  2. 中規模企業
    • 100人程度以上の中規模の企業では、リソースが増えてくるので、ソフトウェアエンジニアが「ジェネレーション」、データエンジニアが「ストレージ」、データサイエンティストが「アナリティクス・アプリケーション」という具合に分担が進んでいきます。データの利用度合いもスタートアップに比べると上がっていきます。
  3. 大規模企業
    • 十分なリソースを有する大規模な企業になると、さらに分担が進みます。ソフトウェアエンジニアが「ジェネレーション」、データエンジニアが「ストレージ」というところまでは、中規模企業と同じですが、アナリティクス・アプリケーションの部分が、いかにビジネスにインパクトを引き出せるか、に関わってくるので、担っている人の数が増え、組織も複雑化します。一例としては、データサイエンス・アナリティクスチームが「アナリティクス」をデータサイエンス・リサーチチームが「アプリケーション」を担当します。前者・後者ともデータサイエンティストという肩書きを持っていることもあれば、前者をデータアナリストとか、後者をリサーチャーと言ったりもします。また、機械学習エンジニアも、エンジニアですが、組織的にはデータサイエンス・リサーチチームに属します。

以上のように、「データサイエンティスト」という肩書きの人がやっている仕事は、会社や規模によってかなり異なります。参考になれば幸いです。

データサイエンスと他分野との関係による整理

さて、データサイエンスの定義について、言葉で説明を聞いてもいまいち分かりにくい人もいると思うので、他の分野との関係性で整理してみたいと思います。

冒頭で説明したように、データサイエンスは分野としては若く、以下の3分野と多くの部分で重複しています。

  • コンピューターサイエンス
    • データエンジニアリング(取引等のログ蓄積・整理)
    • プログラミング(分析やモデリングのためのコーディング)
  • 数学・統計学
    • モデリングの理論
    • 分析・検証の理論
  • 経営学(ビジネス)
    • ロジカルシンキング(課題設定と分析結果の解釈)
    • ビジネスモデルやドメイン知識
    • プレゼンテーション(分析結果の伝達)

図でまとめると以下のような感じです。この図で理解するのが一番分かりやすいかもしれませんね。

実際には、全てが得意な人は少なく、データサイエンティストの中でも、組織や役割、個性によって、使っているスキルに濃淡があるのが実情です。

データミックス のスクールでは、さらに詳しくデータサイエンスやデータサイエンティストについて説明しています。
気になる方は、説明会に遊びに来てみてください。

«
»

ブログ一覧