Inside of data science
データサイエンスに纏わる様々な視点を発信しています

トピック

日本とアメリカの比較からみるデータサイエンティストの転職市場とは?

関連したオススメの記事:

先日、アスタミューゼ株式会社が 60万件の求人票データから紐解く「データサイエンティスト」の実態。 平均年収、必要条件(技術・スキル)、業種・業界から分かる採用要件とは? という日本のデータサイエンティストの求人要件を可視化し公開しました。

アメリカでも Data Science Jobs Report 2019という、2019年のアメリカのデータサイエンティストの求人市場について求人要件を集計し可視化した記事が、少し前の事ですが公開されています。

現在データサイエンティスト市場ではどういった需要があるのか、日本とアメリカのデータサイエンティスト市場には何か違いがあるのか、この2つの記事の内容を元に比較してみたいと思います。

日本とアメリカのデータサイエンティスト市場

業種

まずは業種です。日本から見てみましょう。

画像出典:https://prtimes.jp/main/html/rd/p/000000107.000007141.html

1位が「インターネット・広告・メディア」2位が「コンサルティング・リサーチ」3位が「IT・通信」となっています。1位の「インターネット・広告・メディア」(27.5%)と2位の「コンサルティング・リサーチ」(12.6%)とでは、数字に倍以上の開きがありデータサイエンティストが働く業種として「インターネット・広告・メディア」が圧倒的に多く、全体の4分の1以上を占めています。

アメリカの求人にはどれくらいの違いがあるでしょうか?

画像出典:https://www.thinkful.com/blog/insights-on-the-data-science-job-market-analyzing-7k-data-science-job-descriptions/

1位がMarketing(マーケティング)、2位がFinancial(金融)、3位がConsulting(コンサルティング)となっています。

アメリカの集計は、求人サイトのテキストを抽出して分類したものを日本よりも単純に集計しているため、4位のFinance(金融)も2位のFinancial(金融)も同じ金融業界のことを指しています。詳細は省かれているため正確な数字は分かりませんが、2位と4位を足し合わせると、1位のマーケティングよりも金融業界の方が上位にくるかもしれません。

日本では金融業界の募集は5位(6.6%)であることを考えると、金融業界の需要が大きく異なることが分かります。

また、アメリカの方のデータを20位あたりまでをざっと見ていくと、5位HealthCare(ヘルスケア)、7位Pharmaceutical(医薬)、10位Oncology(腫瘍学)、12位Biopharmaceutical(バイオ医薬)、14位Biotech(バイオテック)、16位Biotechnology(バイオテクノロジー)など、医療系の単語が多く目につきます。

日本のデータの方で同様のものといえば、7位の医薬品・医療機器(4.4%)、14位の医療機器0.8%の2つでしょうか。医療系の分野にも日本とアメリカでは需要に違いがある事が分かります。

※Oncology(腫瘍学)というのは聞き慣れない言葉ですが、腫瘍学は悪性腫瘍=癌についてなども取り扱っている学問のようです

スキル

では、次にデータサイエンティストとして求められるスキルにはどのようなものがあるのか、こちらもまずは日本を見てみましょう。

画像出典:https://prtimes.jp/main/html/rd/p/000000107.000007141.html

2位がデータサイエンティストの専門的なスキルではなく「英語」というところが少し意外ですが、それ以外は1位「SQL」、3位「Python」、4位「機械学習・深層学習・AI」5位「R」と、データサイエンティストとして一般的に必要なスキルと言われているものばかりで、妥当な結果という感じがします。

アメリカではどうでしょうか?

画像出典:https://www.thinkful.com/blog/insights-on-the-data-science-job-market-analyzing-7k-data-science-job-descriptions/

1位 Python、2位R、3位SQL と、順番は違いますが、ここまでは日本の上位とそう変わりはありません。

ですが、ここから先が 4位C、5位Java、6位C++、とコンピュータサイエンスの分野で有名なプログラミング言語が並びます。これらは日本の集計には出てきていません。

一般的な統計解析や機械学習を行うにはPythonやRの方が向いていて、このどちらかが使えれば十分な事を考えると、業務内容にコンピュータサイエンスの知識を求められる仕事がそれなりにあると考えるのが妥当でしょう。

また、その次の7位「Spark」8位「Hadoop」は、大規模データ向けの分散処理プラットフォームの名前で、数十~数百テラバイトもあるようなデータの処理にも利用されます。

日本では7位に「Excel」、9位に「Access」と、あまり大きくないデータを扱うためのソフトウェア(Accessは容量2ギガバイトが上限)がランクインしているのとは非常に対照的な結果といえます。

需要の違いはどこから?

日本とアメリカでは、基本的に必要とされているスキルは変わらないものの、アメリカの方がコンピュータサイエンス寄りの仕事が多そうであることや、データサイエンティストが活躍する業界にも違いがあるという事が分かりました。

これをどのように解釈するのかについては意見が分かれるところだと思います。国が違えば需要や必要とされる業界が違ってくるのは当然という意見もあるでしょう。もしそうだった場合、このような違いは今後も大きく変わる事がないといえます。

ですが、例えば需要に大きく差がある金融業界を例にとると、日本はFintechや金融包摂の推進といった金融業界の技術革新では世界的に遅れを取っている一方、アメリカはシリコンバレーでFintechが誕生しその後大きなムーブメントともなった国です。そのアメリカで金融業界が2019年のデータサイエンティスト求人市場として上位に入っています。

こういった背景を踏まえると、今後日本の金融業界でも技術革新が進むことで、データサイエンティストの需要が増加する可能性も考えられます。

また、日本ではそもそものデータ分析やデータによる意思決定を含む全体的なデータ活用自体がまだまだ進んでいないともいわれています。
日本企業のデータ活用度合い24%止まりという最近の調査結果があり、同調査によれば世界平均は32%で、アメリカは37%だそうです。

こういった現状を踏まえると、金融業界だけに関わらず日本でも今後データ活用が進んでいくことによって、現在アメリカでは需要があり日本では需要の低い業界やスキルの需要が増えていく可能性は大いにあるといえるかもしれません。

ではこれを踏まえて、日本とアメリカのランキングの違いや共通点などから、どのような仕事でどのようなスキルが使われているのか、また、どういうケースでそのスキルが必要とされるのかについて、いくつか比較しながらみていきましょう。

Python / R

PythonもRもデータ分析や機械学習を行う時に利用するプログラミング言語です。

データサイエンスを勉強するにあたって、PythonとRどちらを学んだ方が良いかという事が議論になることもあります。現在データサイエンティストを目指す上で学ぶべき言語としてはPythonの方が有名になっていますが、どちらを学んだ方が良いと一概にいうことは出来ません。

Rは統計解析向けのプログラミング言語として古くから使用されてきていますが、大規模なデータの処理が他のプログラミング言語やPythonと比べると遅い傾向にあります。

そのため、大規模データの解析、データマイニング、機械学習などではPythonの方が好んで使われています。また、Pythonは汎用性が高く統計解析「も」得意とするプログラミング言語で、Webサービスの開発やゲームエンジンの開発など幅広く利用されています。

そのため、webサービスとして機械学習・AIを実装する場合などwebに関連した業務ではPythonが利用される比率が高くなります。

Rは統計解析に特化した言語で、金融工学や医療統計など応用統計とよばれる分野で特によく利用されています。Rの需要が日本よりもアメリカの方で高くなっているのも、金融や医薬系の分野でのデータサイエンティストの需要が高く、この分野でRが使える人材の募集が多いと考えると辻褄が合います。

コンサルティング業界でも金融工学や経営工学のような部分にまで踏み込んだ分析を行うケースではPythonよりもRの方が利用されている傾向があるかもしれません。

Rが統計解析に特化した言語であるのに対して、Pythonはプログラミング言語としての人気も非常に高く勉強する人の数が多いため、Web上には初心者から専門的な情報に至るまで日本語の情報がたくさんあり、書籍も数多く出ています。
データサイエンススクールでも多くのところではPythonを使って授業を行うため、Pythonの方がRに比べて学びやすい言語であることは確かです。

SQL / NoSQL?

”データ”サイエンティストである以上、データを扱うスキルが必要とされるのは当然のことです。

アメリカの集計の3位のSQL、7位のSpark、8位のHadoopがデータベースに関係した技術で、中でもSparkとHadoopは大規模データの分散処理プラットフォームとしてビッグデータを扱う際に使用されます。
(※14位のHiveと19位のMapReduceもHadoopに関連する技術です)

「SQL」はデータベースにあるデータを抽出したり操作する上で最もポピュラーな言語です。SQLサーバ、Oracle Database、MySQL、PostgreSQL、など一般的にデータベースと呼ばれるものであればほぼ同じSQL文を使ってデータベースからデータを抽出する事が可能です。

「Spark」や「Hadoop」はNoSQL(Not Only SQL)と呼ばれるもので、一般的にデータベースと呼ばれる上記のSQLを使用するリレーショナルデータベース(RDB)とは、データの構造やデータの操作・抽出方法などが異なります。

NoSQLが利用される事は増えてきているものの、現在でもデータを扱うにはSQLを使用するリレーショナルベースの方が主流な上、HadoopにはHQL、SparkにはSpark SQLという、SQLライクなメソッドが用意されていたりします。
そのため、SQLが理解出来ていればSparkやHadoopを始めとするNoSQLのデータを扱うことのハードルはそこまで高くありません。

データの構造や扱い方についても、リレーショナルデータベース(RDB)をまず学んだ上で、どこがどう違うのかと考える方が概念なども理解しやすくなります。

C / C++ / Java

C、C++、Javaは様々なアプリケーションやシステム開発に利用されているプログラミング言語です。

これらの言語が必要とされるのはデータサイエンスよりも、コンピュータサイエンスやデータエンジニアといった領域です。

データ分析を行う前段階としてデータを蓄積するための仕組みづくりや分析基盤を独自に構築したり、データ解析ツールやBIツール、MAツールなどの開発に携わる場合、Python以外のプログラミング言語を使用することがあります。

統計解析ツールとしてRとPythonでは得意とするところが違うように、プログラミング言語もそれぞれ得意とする分野が異なるためです。
例えば、先程出てきたHadoopもSparkも、大規模データを高速に処理するための「分散処理」がJavaで書かれていたり、Pythonで統計解析や機械学習を行うために利用するパッケージの中身がC++で書かれていたりします。

また、これらの言語は組み込み系システムの開発として利用される言語でもあります。産業用機器や医療機器などからデータ(数値)を取得して分析や予測を行うようなケースでは、その機器の制御がこれらの言語で書かれている事があります。

例えば工場の機械の稼働率の最適化を行う場合や自社開発の医療機器からデータを取得して個人の健康状態の把握を行うといった場合には、機器の制御に利用されているプログラミング言語が理解出来た方が業務は進めやすくなります。
ウェアラブルデバイスやスマートホーム、IoTなどで私達の身の回りに電子機器が増える事でこの需要はさらに増加するかもしれません。

とはいってもこれらのプログラミング言語を使用した業務はエンジニアの領域に足を踏み入れている部分ともいえ、データサイエンティストの必須スキルとして求められることはほとんどなく、こういったスキルもあると好ましいといった歓迎要件である事がほとんどです。

少なくともこれらのプログラミング言語が出来ないことで仕事に困るようなことはまずないと考えて大丈夫です。将来、データサイエンティストとして何かもう一つスキルを身に着けたいと思った時の選択肢として頭に入れておくと良いかもしれません。

出来なくて困ることはありませんが、出来るようになることで大きな差別化要素になる事も間違いないでしょう。

日本とアメリカのデータサイエンティストの求人市場を比較しても、引き続きデータサイエンティストにとっての必要なスキルとして、PythonかRのどちらかを習得することやデータベースを扱う言語としてSQLを学ぶ事の重要性には変わりはなさそうです。

一方アメリカだけで需要のあったC、C++、Javaは、日本での集計には必要なスキルとして現れなかったものの、現在ITエンジニアが不足していると言われているため、こういったエンジニア領域をカバー出来るスキルを身につけることが出来れば、大いにプラスとなるでしょう。

需要に大きな差のあった金融業界や医薬系などは、もし興味があれば現在アメリカでは具体的にどのような形でデータサイエンティストが携わりデータの活用が行われているのか、日本でも潜在的な需要がありそうな分野なのか、などその違いについて詳しく調べると、今後の日本のデータサイエンティスト市場の動向が見えてくるかもしれません。

«
»

ブログ一覧