データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンス
2020.06.25
関連したオススメの記事:
「データサイエンス」という言葉を多くの人が初めて聞いたのは、おそらく2010年代に入ってからの事ではないでしょうか。
実際に世間的な注目が集まるようになったのは2010年代に入ってからですが、「データサイエンス」という言葉が誕生しその研究が始まったのは、実は50年近くも前の事でした。
この記事では、「データサイエンス」や「データサイエンティスト」について、これまでどのような歴史を経て現在へと至ったのかについて見ていきたいと思います。
1960年にピーターナウアが計算機科学を代替する言葉としてデータサイエンスという言葉を初めて使用したという話があるのですが、これについては正確な出典が不明であり現在確認する事が出来ません。
1974年に同じくピーターナウアが著書「Concise Survey of Computer Methods」の中で「データサイエンス」という言葉を繰り返し使用しており、一般的にはデータサイエンスの歴史の始まりは1974年のこの本とされています。
そして、この1974年と前後して、1970年にリレーショナルデータベースモデルが提唱され、1977年にはリレーショナル・データベースを管理するための言語としてSQL言語が開発されました。
また、同じく1977年にはジョン・テューキーが「Exploratory Data Analysis」という書籍を出版し探索的データ解析を確立しました。この書籍の中でテューキーが初めて箱ひげ図を使用したといわれています。
1970年代はデータサイエンスという言葉が誕生しただけでなく、データの取り扱い自体にも変化が起こり始めた時代といえるかもしれません。
データサイエンスという言葉の誕生よりも早い1956年、ダートマス会議で「人工知能」という言葉が使用されて以降で第一次人工知能ブームが巻き起こっていましたが、研究成果は思わしくなく、1973年のイギリスではAI研究は「壮大な目標」の達成に完全に失敗していると批判され(ライトヒル勧告)2大学を除いて補助金を打ち切られるなど、世界的にAI研究への公的資金提供は大幅に縮小されました。
ピーターナウアが「データサイエンス」という言葉を使いその歴史が始めの一歩を踏み出した頃、その一方で第一次人工知能ブームは終焉を迎え、1974年以降1980年まで人工知能研究は「冬の時代」を迎えます。
1980年代にはいると、AIプログラムの一形態であるエキスパートシステムが世界中の企業で採用されるようになり、日本でも1981年に通産省が第五世代コンピュータプロジェクトという国家プロジェクトを開始するなど世界的に第二次人工知能ブームが始まります。1986年には日本人工知能学会が設立されました。
また、1981年 IBMが最初のPCを発表、1983年 Appleがグラフィカルユーザーインターフェースを搭載した初のPCを発売、1984年 MacOS登場、1985年 Windows 1.01発売と1980年に入って各社がパーソナルコンピュータの販売を開始して以降その性能は徐々に向上していき、エキスパートシステム用のマシンを購入する必要がなくなりAI専用ハードウェアの市場は1987年に崩壊し、再度人工知能研究は冬の時代を迎えます。
1990年代頃から、大規模化の進むデータセットからパターンを見つけるプロセスを表す用語として、「Knowledge Discovery(知識発見)」 と「Data Mining(データマイニング)」という用語がよく使われるようになりました。
機械学習のアプローチも知識駆動型のアプローチからデータ駆動型のアプローチへと移行するようになり、この頃から現在のデータサイエンスへと続く流れが見え始めてきます。
現在データ分析や機械学習などでよく利用されているプログラミング言語Pythonも1990年に誕生、ワールドワイドウェブが構築され世界で最初のWebサイトが公開されたのも1990年でした。
IT革命・インターネットバブルなどと呼ばれITやインターネットの普及・活用が進み、1990年代には一般企業などでもデータ分析や機械学習などデータ活用の実用化が進んでいきます。
1994年BusinessWeek誌で「データベース・マーケティング」という言葉が表紙を飾り巻頭特集が組まれました。これがデータを活用した現代のマーケティングの初期の形のあらわれといわれています。
1996年に発表された論文で「データマイニング」という言葉の定義・基本機能・処理手順が提案されたことで、データマイニングという研究分野が明確に定義され、研究や活用がこれまで以上に盛んに行われるようになりました。
1997年にはデータマイニングの隔月ジャーナル誌「Data Mining and Knowledge Discovery」が創刊。
これまで「Data Mining」と「Knowledge Discovery」の2語が同時に使われる場合には「Knowledge Discovery」が先に来る事が一般的でしたが、この雑誌名で2つの言葉の順番が逆転し「Data Mining」が先に来たことで、データマイニングがより一般的になり注目が集まっていることが反映された、といわれています。
1999年 Knowledge@Whartonというペンシルベニア大学ウォートン校のサイト上に、「ますます大きくなるデータセットを可能な限り迅速に処理できる、より優れたアルゴリズムとモデルを開発することが重要な課題である。従来の統計的手法は小さなデータセットではうまく機能するが、データマイニングではスケーラビリティが問題。ウェブサイトでの意思決定に対処するためには特別なデータマイニングツールの開発が必要になるだろう」
などという内容の含まれた、大量のデータに対してデータマイニングを行う事に言及した記事が話題になります。
IT革命・インターネットの普及によりデータマイニングの必要性が高まる一方で、扱うデータ量の増加に対する新たなアプローチの必要性があるという主張は、2000年代以降のビッグデータ時代の到来を予感させます。
1990年代後半は、1995年にAmazonとebay、1996年にHotmail、1998年にはGoogle検索と、一般のユーザーに向けたインターネットサービスが広まり始めた頃でもあります。
2000年代に入ると、2001年にはWindows XPが発売され、SaaS(Software-as-a-Service)という言葉も誕生しました。
この頃から少しずつ、個人がパソコンを所有したり生活の中にインターネットが入り込んでくるようになり、世界中でやり取りされるデータ量は増大していきます。
2002年にはデータとデータベースの管理に関する論文を掲載する「データサイエンスジャーナル」が創刊されました。
この頃には既に、ジャーナル誌が発行される程度には「データサイエンス」と呼ばれる領域の研究が盛んに行われ、多数の論文が発表されるようになっていた事が分かります。
2006年、オートエンコーダを利用したディープラーニングが発明され、人工知能にとっての大きなブレイクスルーとなりました。
この年にはHadoopの最初のバージョンであるHadoop0.1.0 がリリースされたり、レコメンドエンジンの重要性に以前より注目していたNetflixがデータ解析コンペNetflix Prizeを開催するなど、現在のデータサイエンスブームへとつながる最初の一歩を踏み出した年といえるかもしれません。
人工知能の話で話題にあがる、2045年までにシンギュラリティ(技術的特異点:人口知能が人間の知能を超越する)を迎えるという説を「THE SINGURARITY IS NEAR(シンギュラリティは近い)」という本でレイ・カーツワイルが発表したのもこの頃です。
同時期には、2004年にFacebook、2005年にYoutube、2006年にTwitterがサービスを開始、2007年にはiPhoneが発売と、インターネットやITなど、広い範囲で現在の私達の生活の中で必要不可欠となっているものの多くがこの頃に誕生しました。これは同時にデータ量の増大も意味しています。
2008年、当時データアナリティクス分野の業務をリードしていたDJ Patil(LinkedIn)とJeff Hammerbacher(Facebook)が「データサイエンティスト」という仕事の肩書きを名乗り始め、Googleなど他の企業で同様の仕事をしていた人達も自称するようになり、当時のバズワードにまでなりました。
これ以降、「データサイエンティスト」という職業についてそのスキルや仕事内容、重要性などが盛んに議論されるようになっていきます。
2010年にはThe Economist誌「データサイエンティストは ソフトウェアプログラマー、統計学者、ストーリーテラー/芸術家のスキルを組み合わせて、山のようなデータの下に隠された金の塊を抽出する」という記事が掲載されました。
今ではデータサイエンティストなら知らない人はいないというほどに有名となったkaggleがサービスを開始したのも2010年のことです。
また、この年にはインターネットを流れるデータ転送量の増大を受けて「ビッグデータ」という用語が提唱されました。
2012年はデータサイエンスの歴史の中で非常に重要な年となりました。2008年以降、既にバズワードとなっていたデータサイエンティストという言葉はハーバード・ビジネス・レビュー誌が「データサイエンティストは21世紀で最もセクシーな仕事(Data Scientist: The Sexiest Job of the 21st Century)」とする記事を掲載したことで、より一層多くの人が注目する職業となりました。
そして、ILSVRCという画像認識の精度を競う大会で優勝したカナダのチームがディープラーニング(深層畳み込みニューラルネットワークによる)を採用して目覚ましい成果をあげたことで、ディープラーニングという技術に注目が集まりました。
Googleも同年にディープラーニングを用いたYouTube画像からの猫の認識に成功した事を発表するなど、再び世界各国でAI研究がに注目が集まり、現在まで続く第三次人工知能ブームが起こります。
2012年から現在まで続く人工知能ブームには、技術面での注目度の高さ以外にも、ハードウェア性能の進歩やGPUの低価格化、AWSやGoogle Cloud Platformなどのクラウドコンピューティングサービスの普及による計算リソースの低コスト化、インターネットの普及によるデータ収集の簡易化、などによって一般企業や個人の開発者でもディープラーニングの開発や実装が手軽に出来るようになった、という間接的な要因も非常に重要です。
また、結果としてディープラーニングだけでなくこれまで既に注目の集まっていたデータサイエンス全体やデータサイエンティストという職業に対する注目・需要は更に高まり、2012年以降「データサイエンス」の名を冠した学部を設立する大学や、データサイエンスの修士・博士号が取得出来る大学院も増加し、MBAかデータサイエンスかという議論が出るほどまでに現在ではデータサイエンスを学ぶ事の重要性は高くなりました。
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間