データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンス
2020.02.14
こんにちは、データミックスメディア編集部です。
今日は統計学の基礎概念を、なるべくシンプルな言葉で紹介していきます!
統計学とは、母集団からランダムに選んだサンプルを調査し、サンプル・平均や分散などの統計量から、母集団の傾向や性質を理解するための学問。
一般的な統計学の主な役割は以下の通り。
Ï
サンプルの世界 ≠ 母集団の世界であるが、サンプルから母集団を推測したいときに、確率分布という概念が必要になる。
まず抑えたいキーワード:
正規分布は、連続数値を取る左右対称の確率分布で、自 然現象をはじめとするノイズを表現するためによく使われる。統計学において最も重要な分布。
この数式の意味は、
「確率変数Xは平均μ、標準偏差σの正規分布に従う」
である。
平均μ, 標準偏差σの正規分布に従う確率変数Xについて、 以下の変換を行うと平均0, 標準偏差1の標準正規分布に変換することができる。正規化のメリットは、平均や標準偏差が違うデータでも、正規化することで相対化でき比較ができることである。
中心極限定理とは、平均μ・標準偏差σを持つどんな母集団からのサンプルであっても、
サンプル数nが十分大きければ*「サンプルの平均x̄」は、平均µ・標準偏差(σ/√n)の正規分布に近似的に従う。
*nが30以上が一つの目安。
コインの表/裏や成功/失敗など、結果が2通りの試行を何度か繰り返すときの、表や成功の結果が出る回数を確率変数とする確率分布のこと。以下のような場合が当てはまる。
n,pが二項分布のパラメータである。
パラメータとは、確率分布の形を規定する変数のことである。
コインを投げた回数をn、表が出る確率をpとした二項分布で考えると、パラメータnとpによって分布の形状が以下のように変化する。
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間