Inside of data science
データサイエンスに纏わる様々な視点を発信しています

トピック

「全員コロナ検査すべき」は、国民のデータサイエンスリテラシーが低いことの証左

新型コロナウィルス(COVID-19)が世界的な話題になり始めてから既に1ヶ月以上が経ちました。

日本国内では感染者数の増加傾向が続いており、海外渡航歴や海外からの旅行者との濃厚接触もない、感染源不明の感染者の話が耳に入ってくる機会も増えています。

SNS上では、「新型コロナウィルスのような症状が出ていて感染しているかもしれないのに、病院で検査をお願いしたのに断られた」という内容の投稿がいくつもあり、拡散されて話題になっています。

確かに自分や身近な人に疑わしい症状があったら不安になり、一刻も早く検査をしてもらい結果を知りたい、もし感染しているのなら一刻も早く治療をしてほしい、と考える気持ちはとても良くわかります。

ですが、本当に全員すぐにでも検査を受けるべきなのでしょうか。データサイエンスを知っている立場から考えると、ちょっと冷静に立ち止まって考えてほしいと思っています。

この記事では、新型コロナウィルスの検査は希望者全員に行うべきなのか、本当に必要としている人だけ検査が出来ればよいのかという話題について、出来るだけ難しい言葉を使わずにデータサイエンスという観点から検証してみます。

検査について

話題となっている新型コロナウィルスの検査とはPCR検査の事を指しています。

PCR検査とは、鼻やのどを綿棒で拭った液の中に新型コロナウィルスの遺伝子が存在するかを確認する検査のことで、検査方法自体はインフルエンザと同じです。

新型コロナウィルスの場合は検査キットなどもまだなく、どこの病院でも検査が出来るようにはなってないため、検査の結果が出るまでには時間と人手がかかり1日に検査が出来る件数が限られてしまいます。

そして、新型コロナウィルスのウィルス量はインフルエンザの100~1000分の1であることなどを含むいくつかの理由で、インフルエンザの検査よりも精度が低くなってしまうという事情があるようです。

精度の問題は仕方がないとして、もっと簡単に検査が出来るようになりさえすれば希望者全員が検査を受けられるようになって問題は解決するでしょうか?直感的にはそのように思う人もいるかもしれませんが、この議論でより重要なのは検査の精度が低いという方にあります。

精度が低い検査を本来必要ではない人も受けるとどのような事が起こるのか、実際に具体的な数字を使って見ていきしょう。

コロナウィルスの検査を全員が受けると何が起こるか

日本の人口はおよそ1億2000万人といわれています。
少し極端な例かもしれませんが、もし仮に日本国民全員がこの新型コロナウィルスのPCR検査を受けるとどうなるでしょうか。
PCR検査の精度は、さほど高くないようですが、いったん99%の高精度だと仮定して、考えてみましょう。
(※ 検査の「精度」については、陽性の人を正しく陽性と判定する確率である「感度」と、陰性の人を正しく陰性と判定する「特異度」の2つがありますが、ここではどちらも99%と仮定します。)

有病者(感染者)数はNHKが公表しているこちらのサイトの3/6 AM10:00時点の1,057人という数字を使っています(クルーズ船やチャーター機の感染者を含む)。実際には、報道されていない感染者が他にもいるはずですが、以下の計算の重要な要素を考えるのに影響ないので、今判明している感染者数で計算しています。

国民1億2000万人が検査を受けた場合:

まず、感染者(図の上半分)を考えると、精度(感度)が99%なので、実際の感染者(陽性)の中で正しく陽性と判断される人は1,057人中1,046人。残りの1%の11人は、実際には陽性なのに、診断結果は陰性(偽陰性)となります。

次に、非感染者(図の下半分)については、こちらも精度(特異度)が99%なので、1億2000万人から感染者数を引いた数のうちの99%である約1億1900万人の人は実際に陰性であると判断されます。ですが、一方で確率としては1%とはいえ約120万人もの人が、実際には陰性なのに、診断結果は陽性と判断されてしまう事になります(偽陽性)。

問題なのは、この偽陽性の数です。検査で陽性=感染者というのが国民の大半の認識なので、メディアも両者をほぼ同一のものとして扱い報道すると思います。

今、感染者が1,000人と判明しているだけでトイレットペーパーやティッシュの買い占めが起きたりしているのに、「100万人以上の感染が判明」と報道されたらどうなるでしょうか。

しかも、この数字はPCR検査の精度が、99%とかなり正確だと仮定した場合の数字です。
実際には、新型コロナウィルスのPCR検査の感度は、70%程度だという専門家の方も多いようです。

当然ですが、精度が低いと、感染していないのに陽性扱いされる人が増えることになります。仮に精度が70%だとすると、「検査結果は陽性だが、本当は陰性」の人数は、今回のケースだと約1億1900万人×30%=3570万人となってしまいます。

以上のように、ソーシャルメディアなどで騒がれているように、広く遍く国民が検査を受けた場合、本当は陰性なのに陽性と判断扱いされる人が続出し、結果としてパニック行動が加速するものと考えられます。

普段のインフルエンザ検査を思い出してみてください。健康で何の症状も出ていない人は検査を受けないですよね?症状から推察してインフルエンザっぽい、陽性である可能性が高そうな人(事前確率が高い人)しか検査を受けないですよね?
検査は、事前確率が高い人を母集団として実施する時しか、意味をなさないんです。事前確率が高くない人まで検査を受けると、検査の精度が下がり、結果として陽性ではないのに陽性扱いされる人が増えます。それでも、皆さんは誰しもがちゃんと検査を受けるべき、と思いますか?

混同行列(Confusion Matrix)

データサイエンスのコンセプトに混同行列(Confusion Matrix)というものがあります。モデルによる推測(上の例では検査の結果)と真実(上の例では感染者か非感染者か)を縦横でマトリックスにしたものです。

実は、上の「国民1億2000万人が検査を受けた場合」という図は、混同行列になっています。データサイエンスでは、モデルの精度を確かめるために、混同行列をよく使います。
詳細は省きますが、この表からは、「正解率(Accuracy)」・「適合率(Precision)」・「再現率(Recall)」などの指標を確認できます。

このコンセプトを知っていれば、もっと国民は広く検査を受けるべき、という結論にはなりません。

現在、期間限定で混同行列についてのサンプルテキストを公開しています。興味ある方は見てみてください。

 

参考記事:

新型コロナ、なぜ希望者全員に検査をしないの?  感染管理の専門家に聞きました

【モーニングショー】新型肺炎PCR検査におけるバックファイア効果とダニング・クルーガー効果。

新型コロナウイルスに関するQ&A(医療機関・検査機関の方向け)

「すべての人を検査することの何がダメなのか」ヤンデル氏が分かりやすく解説

 

«
»

ブログ一覧