ニュースの不確かな統計をファクトチェックするための5つのルール

ニュースの不確かな統計をファクトチェックするための5つのルール

ニュースの不確かな統計をファクトチェックするための5つのルール

ワイヤード

読み書きができる国民なしに、機能する民主国家は成り立ちません。これは少なくともヴィクトリア朝中期から認識されていました。1867年の改革法は、多くの労働者階級の男性に選挙権を拡大しましたが、全員が読み書きができるわけではなく、エリート層はそれが国の運営を困難にすることを懸念していました。「将来の主人たちに文字を学ばせることは絶対に必要だ」とある政治家は言いました。こうした懸念が、1870年と1880年の教育法制定の推進力となり、初等教育を全国民に義務教育としました。つまり、有権者は新聞を読める必要があったのです。

しかし今日では、数字を理解できる国民なしには、機能的な民主国家は成り立ちません。私たちは文字だけでなく、数字も理解する必要があるのです。

特にこの12ヶ月間はそうでした。突然、私たちは皆、感染死亡率と症例死亡率が異なる理由、指数曲線とは何か、R値がなぜ重要なのかを知らなければならなくなったのです。しかし、それは常に真実です。政治家が犯罪率や貧困率が上がったとか下がったとか、NHSの予算が増額されたとか言っても、数字の読み方が分からなければ、彼らをどうして信頼できるでしょうか?

さらにもう一つ問題があります。ジャーナリスト自身が統計に必ずしも長けているわけではないのです。そのため、多くの数字は読者に届く頃には、すでにかなり歪められてしまっています。

新刊『数字の読み方:ニュースの統計ガイド(そしていつ信用すべきかを知る) 』では、経済学者のいとこデイビッドと私が、読者の皆様がメディアで報じられる数字をより深く理解できるよう、よくある間違いとその見分け方について解説します。ここでは、特に重要な5つのポイントをご紹介します。

それは大きい数字ですか?

ニュースでは、文脈なしに数字が提示されることがよくあります。そして、その数字は大きくて印象的であるように聞こえることがよくあります。非常に有名な例を挙げましょう。バスの側面に書かれた3億5000万ポンドという数字は、どうやら毎週EUに寄付されているようです。ご安心ください。この数字が正しいかどうかという議論を蒸し返すつもりはありません。私が問いたいのは、本当に大きな数字なのかということです。

もちろん、平均的な英国人の給与と比べればそうです。しかし、比較すべきはそこではありません。比較対象の一つとして、2020~2021年度の政府の年間予算総額が挙げられます。これは9280億ポンドと予想されていました。この3億5000万ポンドは約180億ポンドに相当し、9280億ポンドの約2%に相当します。

これは大きな金額でしょうか?ええ、決して無視できる額ではありません。(もし3億5000万ポンドという数字にまだ不満があるなら、還付後は約2億5000万ポンド、つまり予算の1.4%になります。)しかし、「私たちは毎年予算の2%をEUに寄付しています」という数字は、それほど劇的に聞こえなかったかもしれません。ニュースで「今年、X人がYという病気で亡くなりました!」という数字を見たら、自問してみてください。「これは大きな数字ですか? どうやって計算すればいいですか?」

何が原因ですか?

爽やかなファンタオレンジを一杯飲むと、誰かの顔にガラスをぶちまけたくなるかもしれません。新聞報道によると、そうかもしれません。2011年の見出しには、「炭酸飲料はティーンエイジャーを暴力的にする」とありました。

因果関係を示唆する表現に注目してください。炭酸飲料はティーンエイジャーをより暴力的にする、と。しかし、記事の元となった実際の研究では、そのようなことは述べられていません。炭酸飲料を飲むティーンエイジャーは暴力的になる可能性が高い、と述べられています。相関関係はありますが、それが因果関係であることを意味するわけではありません。

例えば、ある日にたくさんの人がアイスクリームを食べると、誰かが溺れる可能性が高くなります。しかし、これはアイスクリームが溺死の原因になるという意味ではありません。むしろ、暑い日にはアイスクリームを食べる人が増え、泳ぐ人が増え、そのうちの何人かが溺死するのです。

二つの数字が同時に増減する場合、例えば炭酸飲料の消費量と刺された人の数のように、AがBを引き起こしている可能性もあれば、BがAを引き起こしている可能性、あるいは第三の要因Cが両方を引き起こしている可能性もあります。ランダム化比較試験を行っていない限り、どちらがどちらなのかを見分けるのは非常に困難です。この研究は(人々のライフスタイルに関する他の多くの研究と同様に)ランダム化比較試験ではありませんでした。ですから、「炭酸飲料は暴力を引き起こす」「電子タバコは子供に薬物を摂取させる」といった因果関係を示す表現を目にした場合、多くの場合、その根拠がないことに注意しましょう。

何より50パーセント多いのですか?

これから親になる人にとって恐ろしい数字があります。数年前のニュースによると、45歳以上の父親から生まれた子供は、35歳未満の父親から生まれた子供に比べて、発作を起こす可能性が18%高いそうです。

それは恐ろしいですね。でも、どういう意味ですか?

そもそも何人の子供が発作を起こしているかを知らない限り、何が起こるかは分かりません。このように「相対リスク」、つまり以前と比べてどれだけリスクが上昇したかだけを知らされても、元々のリスクが絶対値でどれだけだったかを教えてもらえない限り、それがどれほど重要なのか理解できません。今回の研究では、若い父親から生まれた子供のうち、発作を起こす割合は約0.024%、年配の父親から生まれた子供では約0.028%であることが分かりました。実際には、10万人中24人ではなく28人の赤ちゃんが発作を起こすことになります。つまり、絶対リスクは10万人中約4人増加することになります。

よく見かけるでしょう。例えば、ベーコンを食べると「がんのリスクが20%上昇する」といったものです。しかし、絶対的なリスク(何より20%高いのか?)も知らされない限り、この情報はほぼ役に立ちません。

実際に何を測定しているのでしょうか?

過去半世紀で、自閉症の診断数は約100倍に増加しました。1960年代と1970年代には、自閉症の発症率は5,000人に1人と推定されていましたが、現在では54人に1人と推定されています。

一体何が起きたんだ?子育てのせい?水に農薬が混入したせい?ビル・ゲイツがワクチンにマイクロチップを埋め込んだせい?

いいえ。私たちが「自閉症」と呼ぶものが変化しただけです。自閉症の診断基準は何度か改訂されてきました。1980年までは独立した障害として認識されていませんでしたが、1987年、1994年、2000年に拡大され、2013年に再び拡大されました。基準は、後になって診断された子ども、症状がそれほど重くない子ども、以前は別の症状だった子どもも含まれるように拡大されました。現在私たちが「自閉症」と呼んでいる一連の特性の分布に変化はないのかもしれません。

「ヘイトクライムが5年で倍増」といった見出しを目にすると、同じようなことが起こっているのではないかと自問してみる価値はある。幸いなことに、おそらくそうなのだろう。国民の報告能力が向上し、警察もヘイトクライムの記録能力を向上させているのだ。犯罪調査によると、ヘイトクライムは近年、増加しているのではなく、むしろ減少しているようだ。私たちが測定しているものが変化したのかどうか、常に自問してみる価値がある。

その研究は何か良いものですか?

多くの場合、ニュースで報道される悪い数字についてジャーナリストを責めるのは公平ではありません。彼らは調査や研究論文から悪い数字を得ており、すべての研究が同じように生まれるわけではないからです。

例えば、昨年、新型コロナウイルス感染症の治療薬としてヒドロキシクロロキンに関する研究が行われ、効果があることが示され、注目を集めました。しかし、別の試験ではそのような効果は認められませんでした。読者やジャーナリストは、どちらの情報を信頼すべきか、どのように判断すべきでしょうか?

難しい質問ですね。今回の場合は答えは簡単です。1つ目は42人の患者を対象とした単純な観察研究、2つ目は1万1000人の患者を対象とした完全なランダム化比較試験でした。しかし、多くの場合、それを判断するのは難しいものです。しかし、経験則がいくつかあります。他の条件が同じであれば、小規模な試験は通常、大規模な試験よりも悪いです。ある研究が、他の研究の結果を代表しない予期せぬ結果をもたらした場合、その研究は悪い結果である可能性があります。また、事前に登録されている研究は、科学者が結果を恣意的に選び出すのが難しいため、そうでない研究よりも信頼性が高い傾向があります。

この記事はWIRED UKで最初に公開されました。