専門家コメント
ビッグデータを用いたインフルエンザ流行予測の精度向上について:専門家コメント
・これは、2015年1月29日にジャーナリスト向けに発行したサイエンス・アラートです。
・記事の引用は自由ですが、末尾の注意書きもご覧下さい。
<SMC発サイエンス・アラート>
ビッグデータを用いたインフルエンザ流行予測の精度向上ついて:専門家コメント
アメリカの研究者らが、「Google インフルトレンド」のデータと従来のインフルエンザの動向調査を組み合わせることにより、インフルエンザの流行予測精度を上げるという内容の研究を発表しました。論文は1月29日、Scientific Reports 誌に掲載されました。
論文リンク
Michael W. Davidson. et al. ‘Using Networks to Combine ‘‘Big Data’’and Traditional Surveillance to Improve Influenza Predictions’, Scientific Reports 5, Article number: 8154
http://www.nature.com/srep/2015/150129/srep08154/full/srep08154.html
斎藤 正也 特任助教
統計数理研究所 データ同化研究開発センター
Google Flu Trends (GFT)は、検索キーワードの集計データからインフルエンザの流行の概況をつかもうというものです。ただし、「必然的にインフルエンザへの人々の関心」が反映されるため、(関心の低い)流行初期は過小評価され、(関心の高い)拡大期は過大評価される傾向にあります。一方、GFTは「実験室において感染を確認した例数(実験室確定例数)」と、あまり相関しないこともわかっています。つまり、これまでのGFTは信頼性が十分とはいえませんでした。
本研究は、アメリカ合衆国保健福祉省が定める10地区を対象として、地域間のネットワークを考慮した重みづけによりGFTを補正する方法を提案しています。これらのネットワークは、前年の時系列の確定例数データにおいて「地域間の相関が高かったかどうか」を反映しています。つまり、互いに「ピークや終息へ向かう時期が近かった地域」ほど、結びつきが強くなっています。このように、予測したい年度の確定例数時系列を「正解」とし、従来のGTFを補正することで、有効性を高めたといえます。
今回の試みは、GFTのような「疫学データの代替指標」を医療政策で使えるレベルに向上させるものとして、興味深いと思います。また、航空網情報などの非疫学データに頼るのではなく、疫学データのみから地域間ネットワークを構成したことと、このようなネットワークが予測改善に寄与することを示した点にも新規性があるといえるでしょう。ただし、検証が十分とはいえません。たとえば、全体的に補正によって「ずれ(残差)」が小さくなることは示していますが、補正後にもずれは残っています。実際、2009年の9月から11月には、補正後の予測と実データとで大きな乖離があります。対策立案に役立つ資料を提供するには、このような点も解決される必要があると考えます。
西村 博 准教授
東京大学大学院 医学系研究科
これまでに、Googleにおいて、特定のインフルエンザに関連する検索語の使用頻度を時系列で検討すると、その検索頻度を用いた予測式によってインフルエンザ流行の発生を早期に探知することが可能であることが知られてきました。検索語の使用頻度を専門的に集計したのが「Googleインフルトレンド(GFT)」ですが、流行予測のための活用は未だ不十分で、2009年のパンデミックの予測がうまく行かなかったり、GFTによる確定患者の発生数の把握が(確定診断を受けていないインフルエンザ様疾患の予測よりも)難しいことが知られてきました。今回のアメリカでの研究により、GFTに加えてインフルエンザ発生に関する地理的な相関度を利用すると週別の確定患者の予測精度が向上することが明らかにされました。
著者らが巧妙であるのは、1年前の季節性インフルエンザの週別および地域別の確定患者発生数を利用して、現流行年の地域間の流行拡大を統計学的な「相互作用」としてモデル化した点です。アメリカをとても大雑把に合計10の地域に区分して、それぞれの地域の確定患者発生数がどれくらいの時間のずれを伴いつつ地域同士で影響し合っているかを推定し、著者はそれを「ネットワーク」と称しつつ、インフルエンザの予測モデルに利用しました。他の多くの研究では、相互作用を捉えるために航空機を利用したヒト移動ネットワークやワクチン接種率、気象パターンなどの地域差を取り込んだモデル化を実施しがちです。しかし著者はそれらデータは利用せず、むしろそれら全てを反映した帰結として過去のインフルエンザ流行のデータ自体から単純な相互相関係数だけを抽出しました。すると、予測が改善されたのです。
ただし、前年度のインフルエンザ流行情報とGFTデータを用いて予測を実施したため、本質的なGFTの予測における技術的問題として知られる突発的流行の予測には不向きであるという点は今後の課題として残ったままです。また、「予測可能性」と呼ばれる予測の妥当性(予測が正しいか否か)については、単純な相関分析で用いる決定係数などを用いてざっと検討したのみであって十分でありません。また、予測の運用上でより重視される「予測精度の各指標や地理的な流行拡大」を捉えられたかという点等も厳しく検討されていません。加えて、アメリカの地域に関しても大雑把な10の地域に分けただけの結果が提示されました。実践面で流行予報を提供するレベルの予測に至るまでの道のりはまだまだ長いのが実情です。
日本では、こういった検索語の使用やイベントに基づくサーベイランスなどは個別の研究者が独立してインフラ整備を行っている程度に留まっており、予測モデルの実装はまだ遠い状況です。一方、アメリカでは最近になって統計モデルの厳密性を余り恐れずに、思い切った予測モデルが複数提案されてきています。今後、日本でも同様のモデルをどんどん提案して実装すべきだと思います。現在、当研究室も検索語の有効活用を検討しているところです。
記事のご利用にあたって
マスメディア、ウェブを問わず、科学の問題を社会で議論するために継続して
メディアを利用して活動されているジャーナリストの方、本情報をぜひご利用下さい。
「サイエンス・アラート」「ホット・トピック」のコンセプトに関してはコチラをご覧下さい。記事の更新や各種SMCからのお知らせをメール配信しています。
サイエンス・メディア・センターでは、このような情報をメールで直接お送りいたします。ご希望の方は、下記リンクからご登録ください。(登録は手動のため、反映に時間がかかります。また、上記下線条件に鑑み、広義の「ジャーナリスト」と考えられない方は、登録をお断りすることもありますが御了承下さい。ただし、今回の緊急時に際しては、このようにサイトでも全ての情報を公開していきます)【メディア関係者データベースへの登録】 http://smc-japan.org/?page_id=588
記事について
○ 私的/商業利用を問わず、記事の引用(二次利用)は自由です。ただし「ジャーナリストが社会に論を問うための情報ソース」であることを尊重してください(アフィリエイト目的の、記事丸ごとの転載などはお控え下さい)。
○ 二次利用の際にクレジットを入れて頂ける場合(任意)は、下記のいずれかの形式でお願いします:
・一般社団法人サイエンス・メディア・センター ・(社)サイエンス・メディア・センター
・(社)SMC ・SMC-Japan.org○ この情報は適宜訂正・更新を行います。ウェブで情報を掲載・利用する場合は、読者が最新情報を確認できるようにリンクをお願いします。
お問い合わせ先
○この記事についての問い合わせは「御意見・お問い合わせ」のフォーム、あるいは下記連絡先からお寄せ下さい:
一般社団法人 サイエンス・メディア・センター(日本) Tel/Fax: 03-3202-2514