データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンス
2021.11.10
今回の記事では、
・統計が日常で使われている例が、比較的簡単な例で知りたい
・相関係数が日常でどう利用されているか知りたい
・糖尿病の検診でなんで空腹時血糖値を測るのか不思議
といった疑問・質問に答えるため、相関係数の身近で便利な実用例を紹介したいと思います。みなさんの日常の暮らしに身近な例を知ることで、データサイエンスへの興味・理解を深め、今後の勉強につなげていきましょう!
本記事では医療についての専門的な解説はいたしませんので、詳しく知りたい方は厚生労働省の以下の資料をご確認ください。
https://www.mhlw.go.jp/stf/shingi/2r9852000001f0mk-att/2r9852000001f0tj.pdf
さて、糖尿病の治療に相関係数が大活躍しているという話をしていきます。
厚生労働省の資料にもあるように、糖尿病の程度を測るためには HbA1c (ヘモグロビン・エーワンシー)という検査値を国際的に利用します。この HbA1c は、赤血球中のヘモグロビンという色素が糖と結合している程度を表します。高いほど糖尿病の危険があるということが資料に詳しく記載されています。
HbA1c は専用の装置を利用することで高い精度で測定することが可能です。しかし、逆に言い換えれば、高い制度で測定するためには「装置が必要」ということになります。医療機関であれば装置があるのですが、例えば患者自身が毎日の経過観察をしたいときに、測定のために毎日通しなければならないのは手間に思う人が多いのではないでしょうか?
そこで「空腹時血糖値」の出番となります。実は、空腹時血糖値と HbA1c には強い正の相関があります。実際のデータに基づいた図は資料のP6にありますので、そちらをご参照ください。
空腹時血糖値とHbA1cの間の(ピアソンの)相関係数は0.854という1に近い数値です。そのため、空腹時血糖値を測定すると、それを用いてHbA1cの値が予測できるのです。具体的には、資料のP6を参考にすると、
(HbA1c の予測値) = 1.869 + 0.0333 × (空腹時血糖値の実測値)
として、HbA1c の数値を予測することが出来ます。
例えば、空腹時血糖値が 150 だと、代入して計算することで、( HbA1cの予測値) = 6.864 となります。このように計算したのはあくまで予測値ですが、(HbA1c の予測値) と (HbA1cの本当の数値) が近い数値になることを保証しているのが、先に述べた相関係数が0.854であるという事実です。
相関係数とは、「直線で2つの関係を表したときに、直線で関係性を表せている度合い」と解釈できるので、相関係数が1 (か-1) に近いときは、直線の式を利用して予測値を用いても、高い精度であることが保証されます。
空腹時血糖値は、簡易的に自宅で測れるキットがありますので、これで病院に行って専用の装置を利用しなくても、自宅から経過観察が出来るということになります。
このように、( 知りたいけど測定しづらい数値) 、(測定しやすくて知りたいものと相関が強い数値)があるとき、測定しやすい数値を用いて、測定しづらい数値を予測することがしばしばあります。このときの、測定しやすい数値のことを、代理変数と呼びます。そして、代理変数として利用できるかどうかの指標の一つが、相関係数であるということです。
相関係数というと難しい印象を覚える人も多いかと思いますが、身近で糖尿病の治療にも役立っているので、理解すると視野が大きく広がる指標です。代理変数について興味を持たれた方は、「相関係数」「回帰直線」というキーワードについて学習しつつ、面白そうな代理変数の実用例を自分で探してみましょう!
データサイエンス全般について、実用例とともに学びたい方は、データサイエンスのスキル別に学べるトピック別講座、8週間で体系的に学べるデータサイエンス基礎講座、約半年間で高度な知識とスキルを身につけるデータサイエンティスト育成コース本講座の受講も是非ご検討ください。
東京大学理学部数学科を卒業。東京大学大学院数理科学研究科を修了。
大学受験の月刊誌「大学への数学」の執筆者であり、現在も不定期に同雑誌へ寄稿をしている。
大手生命保険会社での保険数理業務などを経て、2021年に株式会社データミックスに入社。主にデータサイエンスに関わるコンテンツの作成を担当。
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間