データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンティスト
2020.08.12
<半年でデータサイエンティストを目指す>
教育給付金で最大70%還付対象講座のご案内。
2020年6月、アスタミューゼ株式会社が 日本のデータサイエンティストの求人情報60万件を元にした「データサイエンティストの採用要件に関するレポート」を公開しました。
アメリカでも Data Science Jobs Report 2019という、2019年のアメリカのデータサイエンティストの求人要件を集計し可視化した記事が公開されています。
近年、データサイエンティストにはどんなスキル需要があるのか。日本とアメリカのデータサイエンティストの求人市場に何か違いがあるのか。
2つの記事を元にデータサイエンティストについて日米比較をレポートします。
データサイエンティストが求められる業種
データサイエンティストの需要がある業種を、日本から見てみましょう。
1位が「インターネット・広告・メディア」2位が「コンサルティング・リサーチ」3位が「IT・通信」となっています。1位の「インターネット・広告・メディア」(27.5%)と2位の「コンサルティング・リサーチ」(12.6%)とでは、数字に倍以上の開きがありデータサイエンティストが働く業種として「インターネット・広告・メディア」が圧倒的に多く、全体の4分の1以上を占めています。
アメリカの求人とどんな違いがあるか、みてみましょう。
1位がMarketing(マーケティング)、2位がFinancial(金融)、3位がConsulting(コンサルティング)となっています。
アメリカの集計は、求人サイトのテキストを抽出して分類したものを日本よりも単純に集計しているため、4位のFinance(金融)も2位のFinancial(金融)も同じ金融業界のことを指しています。詳細は省かれているため正確な数字は分かりませんが、2位と4位を足し合わせると、1位のマーケティングよりも金融業界の方が上位にくるかもしれません。
日本では金融業界の募集は5位(6.6%)であることを考えると、金融業界でのデータサイエンティストの需要が大きく異なることが分かります。
また、アメリカのデータを20位あたりまで見ていくと、5位HealthCare(ヘルスケア)、7位Pharmaceutical(医薬)、10位Oncology(腫瘍学)、12位Biopharmaceutical(バイオ医薬)、14位Biotech(バイオテック)、16位Biotechnology(バイオテクノロジー)など、医療系の単語が多く目につきます。
日本のデータで同様のものといえば、7位の医薬品・医療機器(4.4%)、14位の医療機器0.8%の2つでしょうか。医療系の分野にも日本とアメリカではデータサイエンティストの需要状況に違いがある事がみえます。
※Oncology(腫瘍学):腫瘍学は悪性腫瘍=癌についてなども取り扱っている学問
データサイエンティストに必要なスキル
次にデータサイエンティストとして求められるスキルに、どのようなものがあるか。日本から見てみましょう。
特徴は、2位がデータサイエンティストの専門的なスキルではなく「英語」というところです。それ以外は1位「SQL」、3位「Python」、4位「機械学習・深層学習・AI」5位「R」と、データサイエンティストとして一般的に必要な技術スキルが並びます。
アメリカはどうでしょうか?
1位 Python、2位R、3位SQL と、順番は違いますが、ここまでは日本の上位とそう変わりはありません。
ですが、 4位C、5位Java、6位C++、とコンピュータサイエンスの分野で有名なプログラミング言語が以降、並びます。元のデータ条件が違う可能性もありますが、日本の集計には出てこなかった傾向です。
一般的な統計解析や機械学習を行うには、PythonやRが向いています。結果から見ると、アメリカでのデータサイエンティストの業務内容には、コンピュータサイエンスの知識がプラスして求められそうです。
7位「Spark」8位「Hadoop」は、大規模データ向けの分散処理プラットフォームの名前で、数十~数百テラバイトもあるようなデータの処理にも利用されます。
日本では7位に「Excel」、9位に「Access」と、あまり大きくないデータを扱うためのソフトウェア(Accessは容量2ギガバイトが上限)がランクインしています。非常に対照的な結果といえます。
扱うデータの規模感の違いが、垣間みえます。
日本とアメリカでは、基本的に必要とされているスキルは変わらないものの、アメリカの方が大きなデータを扱い、コンピュータサイエンス寄りの仕事が多そうです。また、データサイエンティストが活躍する業界にも日本とアメリカではかなりの違いがあると分かりました。
どのように解釈するのかについては意見が分かれるところだと思います。国が違えば需要や必要とされる業界が違ってくるのは当然かもしれません。もしそうだった場合、違いは今後も大きく変わる事がないでしょう。
しかし、例えば需要に大きく差がある金融業界を例にとると、日本がFintechや金融包摂の推進といった金融業界の技術革新でグローバルから遅れをとっている一方、アメリカはシリコンバレーでFintechが誕生しその後大きなムーブメントともなった国です。そのアメリカで金融業界が2019年のデータサイエンティスト求人市場として上位に入っています。
背景を踏まえると、今後日本の金融業界の技術革新が進むことで、データサイエンティストの需要が金融業界で増加する可能性も十分に考えられます。
日本ではDX推進が叫ばれる最中にあります。そもそものデータ分析やデータによる意思決定を含む全体的なデータ活用自体がまだまだ進んでいません。
日本企業のデータ活用度合い24%止まりという調査結果(日経電子2020年7月記事)もあり、同調査によれば世界平均は32%で、アメリカは37%です。
金融業界だけに関わらず日本でも今後データ活用が進んでいくことによって、日本では需要の低い業界やスキルの需要が現在のアメリカ並の需要に成長する可能性は大いにあるでしょう。
日本とアメリカのランキングの違いや共通点などから、どのような仕事でどのようなスキルが使われているのか、また、どういうケースでそのスキルが必要とされるのかについて、いくつかピックアップしたプログラム言語を比較しながらみていきましょう。
PythonもRもデータ分析や機械学習を行う時に利用するプログラミング言語です。
データサイエンスを勉強するにあたって、PythonとRどちらを学んだ方が良いかと議論になることもあります。現在データサイエンティストを目指す上で学ぶべき言語としてPythonが有名になっていますが、どちらを学んだ方が良いと一概にいうことは出来ません。
Rは統計解析向けのプログラミング言語として古くから使用されていますが、大規模なデータの処理がPythonと比べると遅い傾向にあります。
大規模データの解析、データマイニング、機械学習などではPythonが好んで使われています。Pythonは汎用性が高く統計解析「も」得意とするプログラミング言語で、Webサービスの開発やゲームエンジンの開発など幅広く利用されています。
そのため、webサービスとして機械学習・AIを実装する場合などwebに関連した業務ではPythonが利用される比率が高くなります。
Rは統計解析に特化した言語で、金融工学や医療統計など応用統計の分野で特によく利用されています。Rの需要が日本よりもアメリカの方で高くなっているのも、データサイエンティストの需要が高い金融や医薬系の分野では、Rが使える人材の募集が多からと推察できそうです。
コンサルティング業界でも、金融工学や経営工学にまで踏み込んだ分析を行うケースではPythonよりもRの方が利用されている傾向があるようです。
Rが統計解析に特化した言語であるのに対して、Pythonは人気が非常に高く勉強する人が格段に多いプログラミング言語です。Web上には初心者から専門的な情報に至るまで日本語の情報がたくさんあり、書籍も数多く出ています。
多くのデータサイエンススクールでPythonを使った授業を行っている状況からも、Pythonの方がRに比べて学びやすい言語と言えます。
データサイエンティストである以上、データを扱うスキルが必要とされるのは当然のことです。
アメリカの集計の3位のSQL、7位のSpark、8位のHadoopがデータベースに関係した技術で、中でもSparkとHadoopは大規模データの分散処理プラットフォームとしてビッグデータを扱う際に使用されます。
(※14位のHiveと19位のMapReduceもHadoopに関連する技術です)
「SQL」はデータベースにあるデータを抽出したり操作する上で最もポピュラーな言語です。SQLサーバ、Oracle Database、MySQL、PostgreSQL、など一般的にデータベースと呼ばれるものであればほぼ同じSQL文を使ってデータベースからデータを抽出する事が可能です。
「Spark」や「Hadoop」はNoSQL(Not Only SQL)と呼ばれるもので、一般的にデータベースと呼ばれる上記のSQLを使用するリレーショナルデータベース(RDB)とは、データの構造やデータの操作・抽出方法などが異なります。
NoSQLが利用される事は増えてきているものの、現在でもデータを扱うにはSQLを使用するリレーショナルベースの方が主流な上、HadoopにはHQL、SparkにはSpark SQLという、SQLライクなメソッドが用意されていたりします。
そのため、SQLが理解出来ていればSparkやHadoopを始めとするNoSQLのデータを扱うことのハードルはそこまで高くありません。
データの構造や扱い方についても、リレーショナルデータベース(RDB)をまず学んだ上で、どこがどう違うのかと考える方が概念なども理解しやすくなります。
C、C++、Javaは様々なアプリケーションやシステム開発に利用されているプログラミング言語です。
C、C++やJava言語が必要とされるのはデータサイエンスよりも、コンピュータサイエンスやデータエンジニア領域です。
データ分析を行う前段階としてデータを蓄積するための仕組みづくりや分析基盤を独自に構築したり、データ解析ツールやBIツール、MAツールなどの開発に携わる場合、Python以外のプログラミング言語を使用することがあります。
統計解析ツールとしてRとPythonでは得意とするところが違うように、プログラミング言語もそれぞれ得意とする分野が異なります。
例えば、先程出てきたHadoopもSparkも、大規模データを高速に処理するための「分散処理」がJavaで書かれていたり、Pythonで統計解析や機械学習を行うために利用するパッケージの中身はC++で書かれていたり、とします。
C、C++やJava言語は組み込み系システムの開発として利用される言語でもあります。産業用機器や医療機器などからデータ(数値)を取得して分析や予測を行うようなケースでは、機器の制御がC、C++やJava言語と容易に想定されます。
例えば工場の機械の稼働率の最適化をする場合や自社開発の医療機器からデータを取得して個人の健康状態の把握を行う場合には、機器の制御に利用されているプログラミング言語が理解出来た方が業務は進めやすくなります。
少し未来を想像すると、ウェアラブルデバイスやスマートホーム、IoTなどで私達の身の回りに電子機器が増える事で、C、C++やJava需要はさらに増加する可能性があります。
C、C++やJavaなどのプログラミング言語を使用した業務はエンジニアの領域に足を踏み入れている部分ともいえ、データサイエンティストの必須スキルとして求められることはほとんどなく、こういったスキルもあると好ましいといった歓迎要件である事がほとんどです。
少なくともC、C++やJavaなどの高度なプログラミング言語が出来ないことで仕事がないことはほとんどないでしょう。将来、データサイエンティストとして何かもう一つスキルを身に着けたい時の選択肢として考えると良いレベルです。
出来なくて困ることはありませんが、出来るようになることで大きな差別化要素になる事も間違いないでしょう。
データサイエンティストにとっての必要なスキルとして、日本とアメリカのデータサイエンティストの求人市場でニーズが高いPythonかRのどちらかの習得やデータベースを扱う言語であるSQLを学ぶ事の重要性はしばらく変わりはなさそうです。
一方アメリカだけで需要のあったC、C++、Javaは、日本では現状必要なスキルとして現れなかったものの、現在ITエンジニアが不足していると言われているため、こういったエンジニア領域をカバー出来るスキルを身につけることが出来れば、転職には大いにプラスとなるでしょう。
日米のデータを見ていると、アメリカでデータサイエンティストの需要の大きい金融業界や医薬系などは、日本でもきっとデータサイエンティストが活躍できる業界になっていくと、我々も期待してしまいます。
現在アメリカでは具体的にどのような形でデータサイエンティストが携わりデータの活用が行われているのか、日本でも需要がありそうな分野か、などその違いについて詳しく調べると、今後の日本のデータサイエンティスト市場の動向が見えてきそうです。
教育給付金で最大約70%が還付されます。
無料体験講座も開催中。
データサイエンティスト育成講座
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間