データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンス
2020.05.26
新型コロナウィルスの流行が続き、テレビやインターネットなど感染者数の新規感染者数、死亡者数、これまでの累計の感染者数といった数字が日々更新されるのを見ない日はないと言って良いでしょう。
こういった数字を目にしたとき、みなさんはそこからどのような状況を読み取っているでしょうか?
よく報じられているのは累計での感染者数ですが、人口が100万人の国での感染者1万人と、人口が数億人の国での感染者数1万人は感染者の数は同じでも、その国での感染の広まり具合を知りたいという時にはこのまま単純に比較する事は出来ません。こういった場合、”一般的には”1万人あたりの感染者数や10万人あたりの感染者数を算出し比較する事で、どちらの国の方がよりウィルスが蔓延しているかを確認出来ます。
ですが今回のケースでは、そもそも国によってウィルスに感染しているかの検査を行う基準が異なっているため、各国の10万人あたりの感染者数を算出してもなお単純に比較出来ないという問題があります。
希望者には誰でもPCR検査を行っている国と、感染が疑わしいと医師が判断した人にだけ検査を行っている国の一日の新規感染者の人数を同等に扱う事は出来ません。また、ウィルス感染ではない死因でなくなった人に対してどこまで検査を行うのか、という基準も異なるため、死亡者の数字も単純に比較する事は出来ません。
ではこのような場合には、どのような数値を使用すると各国の状況を平準化して比較出来るようになるでしょうか?
こういった場合に最も信頼出来る指標は「超過死亡(Excess Death)」といわれています。
超過死亡とは、各国それぞれの例年の同時期の死亡者数と今年(現在)の死亡者数を比較することでその国で感染が広まったことによる死者がどれくらいになるのかを推定する事に使用される指標です。
下の図はイギリスのイングランドとウェールズ地方の、2016年からの毎年この時期の死亡者数と過去10年の平均死亡者数をグラフにしたものです。
極端に死者数が急増を始める2020年13週目は3月の第4週、3月22日~3月28日にあたります。
イギリスのボリス・ジョンソン首相が「私たちの世代が経験する公衆衛生上最悪の危機だ」と宣言し、ロックダウン等は行わず集団免疫の方針を発表したのが10日前の11週目3月12日、(※イギリスはさらなる感染の拡大や専門家からの反対声明等を受け13週目からは社会隔離政策へと方針転換)です。感染から死亡までには8~12日前後といわれている事と照らし合わせると、超過死亡が発生する時期としてはあまり違和感のないものと言えます。
この指標によって、実際に医療機関を受診せずに亡くなりコロナウィルスに感染の確認がしていたか不明となってしまった人や、医療リソースの不足や医療崩壊などが原因で通常であれば助かったかもしれないものの、感染拡大の影響でで十分な医療が受けられずに亡くなった人など、間接的なものも含めた現在の状況に起因して死者がどの位出ているのかを、おおよそ把握する事が可能になります。
実際に既に超過死亡数を指標として各国の状況を検証する試みは各所で行われています。
イングランドを始め、感染の拡大が深刻なイタリアやスペイン、フランスなどでは超過死亡者数の数字も大きいことがわかります。
一方で感染者が日本と同じかそれよりも少ないイスラエルやノルウェー、南アフリカといった国では例年と比べて超過死亡は発生していない事もわかります。
感染者数が世界で最も多いアメリカの超過死亡数がヨーロッパほどでないのは少し意外かもしれませんが、アメリカは死亡者数は多いものの死亡率は欧州諸国よりも低く「全世界で最も死亡率が低い国の1つ」といわれているという報道をこの数字が裏付けていると解釈出来ます。
こういった点を踏まえて、日本の超過死亡者数はどうなっているでしょうか。国立感染症研究所の5月4日発表の情報では、日本の21大都市合計では現在のところ超過死亡の傾向は見られていないと発表されています。
Bloombergの東京都内の死亡者数、新型コロナ感染症拡大局面でも急増見られずという記事では東京都に限ったデータでの死亡者数の比較をしています。
日本で最も感染者数の多い東京都に限ったデータで見ても、超過死亡は発生していないことがわかります。
日本は他国に比べてると行動制限なども比較的緩く、死者数の半数を占める3大死因、悪性新生物(腫瘍)、心疾患(高血圧性を除く)、老衰、はこの状況下で劇的に死亡者数が減少する要因にもなり得ないでしょう。一方で医療崩壊が起こればこういった人は、本来受けられるはずだった医療措置を受けられずに亡くなってしまった場合には超過死亡数となって現れる数字という背景等も考慮に入れると、やはり疑り深く見ても日本では超過死亡は発生していないと結論づける事が出来ます。
データの分析を行う際には、利用するデータそれぞれが同様の基準や同じ定義で集められたデータでなければ比較や集計をして分析する事は出来ません。
目の前にあるデータがどのような定義で集められたデータなのか、それは何を知るために適したデータなのか、自分が知りたい事に利用する数値として適切なのか、もしそうでないならどのように計算や加工をすると適切な値として利用ようになるか、といった事をまず始めに考える必要があります。
日々ニュースなどで流れてくる新型コロナウイルスに関連する数字をただ見るだけではなく、そこから何が読み取れるのか、そのデータはどのような指標を見る際に有効なのか、逆にそのデータだけでは分からない事にはどんな事があるのか、一歩踏み込んでみるとデータ分析のトレーニングにもなりますし、これまでとは違った事が見えてくるかもしれません。
日本はPCR検査の数は諸外国と比べると少なく感染の状況が把握しきれていないのではないか、なかには感染者や死亡者の数を隠蔽しているのではないかとSNSで主張をしている人もいますが、「全員コロナ検査すべき」は、国民のデータサイエンスリテラシーが低いことの証左の記事同様、データリテラシーを高める事は、世の中で起きている事を冷静かつ客観的に把握し、何が正しいのかを自分で判断する上での非常に大きな助けとなります。
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間