Inside of data science
データサイエンスに纏わる様々な視点を発信しています

スクール

データサイエンス入門 統計学のすすめ

2010年代に入って以降、ビジネスにおけるデータ活用はその重要性を増してきています。2017年には「ビジネス統計スペシャリスト」という一般のビジネスパーソンを対象とした資格試験が始まるなど、統計学の知識や実践的なスキルは専門家でなくても身につけておきたいものの一つとなっています。

なぜ統計学が重要なのかというと、データを分析して活用するためには正しい知識を持って正しくデータを扱う事が非常に重要だからです。
簡単な例を一つご紹介しましょう。

統計学

おおよその数字

例えば、ある会社でこれまでとは違う顧客層を対象に新商品を開発することになり、

商品の価格帯を決定するための材料として、ターゲットとなるユーザー層を対象に年収調査を行いました。
30人に調査した結果、回答がこのようになりました。

調査結果から回答者の「おおよそ」の年収を知るにはどのようにすれば良いでしょうか。

「おおよそ」を知る時に一番よく使われるのは平均値です。
このグループの平均値(平均年収)は計算すると515万になりました。
ですが、実際に515万よりも年収が高い人はたった1人で、その年収は515万の9倍以上の額です。
そしてそれ以外の全員は515万よりも年収が少なくなっています。
30人中の22人は年収が400万以下なので、3分の2以上の人の年収は平均値よりも100万円以上低くなっています。

平均値の515万という値は、調査した人たちの「おおよそ」の年収といえるでしょうか?

平均値・中央値、それとも?

では、なぜ平均が「おおよそ」を表す数字にならなかったのでしょう。
「おおよそ」の年収が知りたい場合には、どうすれば良いでしょうか?
データにはその広がりやばらつきを表す「分布」という言葉があります。

平均値が「おおよそ」の実態を表すのは、データが正規分布の時に限られます。正規分布はこのようにデータをグラフにした時に、左右対称に真ん中が一番高い山になるようなデータの事をいいます。

統計学

今回の結果をグラフにするとこのようになり、正規分布ではないことがわかります。

統計学

こういった場合には平均値は「おおよそ」の値として役立てることはできません。

平均値は全ての値を合計してデータの個数で割るため、今回のように極端に大きい数字が一つでもあると平均の値は一気に大きくなってしまいます。
この年収5000万というデータが異常なデータもしくは誤ったデータとして除外する場合、除外した残りのデータが正規分布であれば平均値は「おおよそ」の値として機能します。

この場合は5000万円を除外しても残りの部分が正規分布とはならないので、やはり平均値は「おおよそ」の値として使うべきではありません。

このような場合に平均以外に利用出来る主な値としては以下のようなものがあります。

中央値…データを小さい(大きい)順に並べた際に真ん中にくる値
最頻値…最も頻繁に現れる値
四分位数…データを順番に並べ4分割した際の

第一四分位数…下から25%に位置する値
第二四分位数…下から50%に位置する値(中央値と同義)
第三四分位数…下から75%に位置する値

今回のデータにあてはめてみると…

  • 中央値(真ん中の値)の年収は350万円。つまり50%の人は年収が350万円以下
  • 最頻値(回答者数の最も多い数値)は年収300万円
  • 第三四分位数(下から75%の値)は437.5万、つまり75%の人は年収が437.5万以下といった事が分かります。

※これらの値と平均値515万を比べることで、中央値よりも第三四分位数よりも平均値が大きい=このデータは正規分布ではない、ということがデータをグラフにしなくても把握する事が出来ます。

このような平均値・中央値・最頻値などデータの概要や分布が把握できる値のことを「要約統計量」もしくは「代表値」と呼びます。
統計学のごく初歩的な内容ですが、主要な要約統計量のそれぞれ意味や計算方法を知るだけで、同じデータからより多くのことをより的確に読み取れるようになります。

統計学でわかること

統計学

今回の回答者に一人だけずば抜けて大きい数字の年収5000万があるのは分かりやすくするための極端な例ですが、実際にビジネスの場で似たような状況に出くわす場合、データが正規分布でなくても平均値は「それっぽい値」になる事が多くあります。

例えば、先ほどの例も年収5000万のデータを抜いて代わりに年収が700~800万の人を数名追加すると、中央値の350万も最頻値の300万も値はそのままですが、平均値は400万円位になります。
気が付かないままに実態を表しているようで微妙にずれた「それっぽい値」を元に施策や戦略を立てる事で、失敗ではないものの思っていたほどの成果も出ないというような事が起こります。

だからこそ、正しい知識を持って正しくデータを扱う事が非常に重要なのです。どんなに詳細で正確なデータが目の前にあったとしても、そのデータの見方・使い方・活用の仕方が間違っていれば、そこから得られる答えや示唆するものは誤ったものになってしまいます。

また、今回例として回答者を30人としましたが、本来このような調査であればもっと多くの人を対象に調査を行うべきというのは感覚的にわかると思います。
ですが、どれ位の規模で調査を行うと信頼できるデータが取れるのかという数字を根拠をもって答えられる人は少ないでしょう。

統計学ではこれも根拠のある数値として求める事が出来ます。
どれくらいの人を対象として調査すれば十分な数のか、行った調査の人数は実態を表す数字としてどの程度信頼出来るのか、といった事を計算出来ます。
経験や勘ではなく、データという根拠に基づいた見解や答えを導き出せるのが統計学の一つの特徴です。
さらにもう少し統計学の知識があれば、データを分析するだけでなく、既にあるデータを元に予測することも可能になります。

統計学的な知識や手法が正しく使える事は、仕事をする上での非常に大きな武器となります。
ビジネスのために統計学を勉強することは仕事で使える武器を増やす事にほかなりません。

当社のビジネス統計は難解な理論の理解ではなく、多くのビジネスパーソンに必要なデータ分析や統計学の基礎を身につける内容です。
株価/販売実績などの実際のデータを用いてExcelで手を動かしながら学ぶことができます。是非気になる方は、ビジネス統計をご確認下さい。

ご興味のある方は、ぜひ資料をダウンロードいただけますと幸いです。
資料ダウンロードはこちらからお願いします。

«
»

ブログ一覧