統計学の基礎概念1

2020.02.14

スクール・講座

こんにちは、データミックスメディア編集部です。

今日は統計学の基礎概念を、なるべくシンプルな言葉で紹介していきます!

統計学とは

統計学とは、母集団からランダムに選んだサンプルを調査し、サンプル・平均や分散などの統計量から、母集団の傾向や性質を理解するための学問。

一般的な統計学の主な役割は以下の通り。

  • 推計する
    • 商品Aの購入意向を5点満点で評価してもらい、データの平均とその信頼度を求める
    • ウェブサイトのクリック率とその信頼度を求める
  • 比較し結論付ける
    • A案とB案の2種類のウェブサイトを作り、ランダムに表示させて、どちらの案のほうがクリック率が高まるかを結論付ける
  • 予測する
    • 広告予算をあと10%増加させたときに、どの程度の集客が見込める かを(レンジで)予測する

確率分布

Ï

サンプルの世界 ≠ 母集団の世界であるが、サンプルから母集団を推測したいときに、確率分布という概念が必要になる。

まず抑えたいキーワード:

  • 正規分布
  • パラメータ
  • 二項分布

正規分布

正規分布は、連続数値を取る左右対称の確率分布で、自 然現象をはじめとするノイズを表現するためによく使われる。統計学において最も重要な分布。

正規分布の式

この数式の意味は、

「確率変数Xは平均μ、標準偏差σの正規分布に従う」

である。

正規分布にまつわる2つの重要な理論

  • どんな正規分布も「正規化」すると平均0, 標準偏差1の正規分布(標準正規分布)に変換できる
  • どんな母集団でもランダムにサンプリングしたデー タの平均は、(サンプル数が十分大きければ)正規分布に従う。(中心極限定理

正規分布の正規化

平均μ, 標準偏差σの正規分布に従う確率変数Xについて、 以下の変換を行うと平均0, 標準偏差1の標準正規分布に変換することができる。正規化のメリットは、平均や標準偏差が違うデータでも、正規化することで相対化でき比較ができることである。

中心極限定理

中心極限定理とは、平均μ・標準偏差σを持つどんな母集団からのサンプルであっても、
サンプル数nが十分大きければ*「サンプルの平均x̄」は、平均µ・標準偏差(σ/√n)の正規分布に近似的に従う。

*nが30以上が一つの目安。


二項分布

コインの表/裏や成功/失敗など、結果が2通りの試行を何度か繰り返すときの、表や成功の結果が出る回数を確率変数とする確率分布のこと。以下のような場合が当てはまる。

  • n回のページビュー数のうち、確率pで広告がクリックされる回数
  • n人のユーザーのうち、確率pで契約解除する人数
  • n人の社員のうち、確率pで退職する人数

n,pが二項分布のパラメータである。


パラメータ

パラメータとは、確率分布の形を規定する変数のことである。

コインを投げた回数をn、表が出る確率をpとした二項分布で考えると、パラメータnとpによって分布の形状が以下のように変化する。