今日行われている科学的実験は、1920 年代のイギリスの紅茶味覚実験から発展した研究手法に基づいています。

写真:ゲッティイメージズ
WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。
1920年代初頭、イギリス、ハートフォードシャー州ロスザムステッド農業研究所で、3人の科学者が休憩を取っていました。そのうちの一人、統計学者のロナルド・フィッシャーは紅茶を注ぎ、同僚の藻類専門家ミュリエル・ブリストルに勧めました。彼女は後に、この植物に彼女の名を冠することになります。ブリストルは紅茶の前にミルクを入れるのが好きだったので、断りました。フィッシャーは懐疑的でした。「まさかミルクを入れても問題ないんじゃないの?」と彼女は言いました。「ええ、関係ありますよ。先にミルクを注いだ方が美味しいんです」。
「彼女を試してみよう」と、ブリストルの婚約者でもある3人目の科学者が口を挟んだ。すると、彼女の味覚能力をどう評価するかという問題が浮上した。公平な比較ができるよう、両方の種類のお茶を飲ませる必要がある。そこで、お茶とミルク、そして紅茶をそれぞれ何杯か注ぎ、ブリストルに1杯ずつ試飲してもらうことにした。しかし、まだいくつか問題があった。ブリストルは彼らが選んだ順番を予想しようとするかもしれないので、カップは完全にランダムな順番で用意する必要がある。また、たとえ順番がランダムだったとしても、偶然に正解することもあるだろう。そのため、そのような可能性が十分に低いと判断できるだけの十分な数のカップが必要になる。
フィッシャーは、もし彼女に6杯のミルク入りのカップを渡し、3杯は最初にミルク、3杯は2番目にミルクを入れたとしたら、カップの順序がランダムに決まる可能性は20通りあることに気づきました。したがって、彼女が単純に推測すれば、20回に1回は6杯すべて正解するでしょう。では、代わりに8杯を使ったらどうなるでしょうか?この状況では、フィッシャーは70通りの組み合わせがあると計算しました。つまり、彼女が運だけで正しい順序を当てられる確率は70回に1回、つまり1.4%です。これが、彼らがブリストルと行う実験でした。彼らは各種類を4杯ずつ、計8杯のミルクを注ぎ、彼女にランダムな順序で試してもらいました。彼女は好きな4杯と嫌いな4杯を挙げ、彼らは彼女の結論を実際のパターンと比較しました。彼女の答えは8杯すべて正解でした。
ブリストルの成功の理由は、究極的には化学の力によるものでした。2008年、英国王立化学協会は、紅茶にミルクを注ぐと、ミルクに焦げたような風味が加わると報告しました。「熱い紅茶にミルクを注ぐと、ミルクの粒がミルク全体から分離し、紅茶の高温に長時間触れることで、著しく変性します」と協会は指摘しています。「ミルクに熱湯を加えれば、このような現象ははるかに起こりにくくなります。」
フィッシャーは後に、1935年に出版した『実験計画法』というシンプルなタイトルの本で、このお茶のテイスティング実験について説明しています。その本には、とりわけ、ロスザムステッドのティールームで彼らが開拓した重要な手法がまとめられていました。その1つはランダム化の重要性です。カップの順番が何らかの形で予測可能であれば、ブリストルの能力を厳密にテストすることにはならなかったでしょう。もう1つは、科学的な結論に到達する方法です。フィッシャーの基本的な統計的レシピはシンプルでした。最初の理論(彼はそれを「帰無仮説」と呼びました)から始めて、それをデータに対してテストします。ロスザムステッドのティールームでは、フィッシャーの帰無仮説は、ブリストルは紅茶の後にミルクを入れるのとミルクの後に紅茶を入れるのとの違いがわからない、というものでした。結果としてブリストルが実験に成功したことで、フィッシャーは帰無仮説を捨てる十分な理由があることが示されました。
しかし、もし彼女が8問中7問しか正解していなかったらどうだっただろうか?あるいは6問、あるいは5問しか正解していなかったら?それは帰無仮説が正しく、彼女は全く違いが分からなかったことを意味するのだろうか?フィッシャーによれば、答えはノーだった。「帰無仮説は決して証明も確立もされず、実験の過程で反証される可能性はあるということに留意すべきだ」と彼は後に記している。「あらゆる実験は、事実が帰無仮説を反証する機会を与えるためだけに存在していると言えるだろう。」ブリストルが1問か2問間違えたとしても、必ずしも彼女の牛乳の順番を判別する能力が全くなかったということではない。それは単に、違いはないとフィッシャーが当初主張した見解を否定するのに十分な証拠を実験が提供できなかったことを意味するだけだった。
フィッシャーが帰無仮説に挑戦する実験を望んだ場合、どこに境界線を引くかを決める必要がありました。統計的知見は伝統的に、偶然に極端な結果を得る確率(すなわちp値)が5%未満である場合に「有意」とみなされてきました。しかし、なぜ5%というp値がこれほど一般的な閾値となったのでしょうか?
ミュリエル・ブリストルがそれらのカップを選んだとき、彼女がその数だけ正解する確率は1.4%でした。フィッシャーの目には、これは彼の帰無仮説が間違っていることを示す「有意な」証拠となりました。彼が後に述べたように、p値が5%を下回ることは「極めて稀な確率が発生したか、理論が誤っているかのどちらかを意味する」のです。
このティールーム実験で用いられた統計的比較は後に「フィッシャーの正確検定」として知られるようになるが、フィッシャーのアプローチが正しかったと誰もが確信していたわけではない。フィッシャーの実験における関心は、帰無仮説が誤っているかどうかを検定することであり、どの仮説が正しいかを判断することではなかった。ミュリエル・ブリストルが数杯間違えたとしよう。総合的に判断して、彼女は違いが分からなかったと結論づけるべきだろうか?それとも、分かったと結論づけるべきだろうか?これまで見てきたように、フィッシャーの検定はこの状況において選択を回避している。つまり、結論を導き出さないのだ。
統計学者のイェジー・ネイマンとエゴン・ピアソン(p値を初めて提唱したカール・ピアソンの息子)は、この方法では不十分だと考えました。例えば、人は2杯のお茶の違いを区別できるかどうかといった2つの仮説から始める場合、どちらか一方を選ぶことを拒否するような方法は望んでいなかったのです。ネイマンとピアソンによると、研究者はどちらの仮説を受け入れ、どちらを棄却するかを決定する方法を必要としているのです。
統計に対するこの意思決定に基づく姿勢は、訴訟におけるアプローチと類似しています。法的判断と同様に、ネイマンとピアソンのアプローチでは、立証責任について判断する必要があります。つまり、特定の証拠に直面したとき、私たちはどの程度懐疑的になるべきでしょうか?もし私たちが簡単に説得されてしまうなら、真偽に関わらず多くの仮説を受け入れてしまうでしょう。一方、証拠のハードルを非常に高く設定すると、誤った仮説のほとんどを捨て去り、真である仮説の多くも無視してしまうでしょう。
このトレードオフに対処するため、ネイマンとピアソンは、後に統計学を学ぶ学生を悩ませることになる2つの概念、すなわちタイプIの誤りとタイプIIの誤りを導入しました。タイプIの誤りは、誤った仮説を誤って受け入れた場合に発生し、タイプIIの誤りは、真の仮説を誤って棄却した場合に発生します。
ブラックストーン比を考えてみましょう。これは、1人の無実の人を投獄するよりも、10人の有罪者を誤って釈放する方が良いことを示しています。本質的には、この比は刑事司法において、タイプIの誤りの確率はタイプIIの誤りの確率の10分の1であるべきだと示唆しています。医学研究では、代わりに比4が一般的に用いられます。タイプIの誤りの一般的な閾値は5%(フィッシャーのおかげです)ですが、タイプIIの誤りの閾値は20%です。効果的な治療を見逃したくはありませんが、効果がないのに効果があると結論付けるのは絶対に避けたいものです。
フィッシャーはネイマンとピアソンの批判を快く受け止めず、彼らの手法を「幼稚」で「馬鹿げて学問的」だと非難した。特に、フィッシャーは、自身が提案したように利用可能な証拠の「有意性」を計算するのではなく、二つの仮説のどちらかを選択するという考え方に反対した。決定は最終的なものである一方、彼の有意性検定は暫定的な意見しか示さず、後で修正される可能性もあった。それでもなお、フィッシャーが科学的に開かれた思考を求めるという主張は、研究者は「有意」なp値を得るために5%のカットオフ値を用いるべきだと主張し、「このレベルに達しない結果はすべて完全に無視する」と主張したことで、いくぶん弱められた。
教科書がフィッシャーの帰無仮説検定とネイマンとピアソンの意思決定に基づくアプローチを徐々に混同するにつれ、激しい論争は数十年にわたる曖昧さへと取って代わられた。証拠の解釈方法に関する微妙な議論、統計的推論、実験計画法といった議論は、学生が従うべき固定された規則となってしまった。
主流の科学研究は、単純なp値の閾値と仮説の真偽判定に依存するようになりました。この役割学習の世界では、実験効果は存在するか存在しないかのどちらか、薬は効くか効かないかのどちらかでした。主要な医学雑誌がこうした慣習からようやく脱却し始めたのは、1980年代になってからでした。
皮肉なことに、この変化の多くは、ネイマンが 1930 年代初頭に生み出したアイデアにまで遡ることができます。大恐慌で経済が低迷する中、ネイマンは人々の生活に関する統計的な洞察への需要が高まっていることに気付きました。しかし残念ながら、政府がこれらの問題を研究するために利用できるリソースは限られていました。政治家は数か月、あるいは数週間で結果を求めていましたが、包括的な調査を行うには時間も資金も足りませんでした。その結果、統計学者は人口の小さなサブセットをサンプリングすることに頼らざるを得ませんでした。これは、いくつかの新しい統計的アイデアを開発する機会となりました。特定の値、たとえば子供を持つ人口の割合を推定したいとします。無作為に 100 人の成人をサンプリングし、そのうち誰も親でなかった場合、これは国全体について何を示唆するでしょうか。誰も子供を持たないと断言することはできません。別の 100 人の成人のグループをサンプリングすれば、親が見つかる可能性があるからです。したがって、推定値にどの程度の信頼を置くべきかを測定する方法が必要です。ここでネイマンの革新が生まれました。彼は、標本に対して「信頼区間」を計算できることを示しました。これは、真の母集団の値が特定の範囲に収まる頻度を示すものです。
信頼区間は、実世界の具体的なデータを解釈するために、他の多くの仮想サンプルが収集されていると想像する必要があるため、捉えにくい概念となり得ます。タイプIやタイプIIの過誤と同様に、ネイマンの信頼区間は重要な疑問に取り組んでいますが、その方法が学生や研究者をしばしば困惑させるという点が異なります。こうした概念的なハードルはあるものの、研究における不確実性を捉えることができる測定基準を持つことには価値があります。特にメディアや政治の世界では、単一の平均値に焦点を当てたくなることがよくあります。単一の値の方が信頼性が高く正確であるように感じられるかもしれませんが、結局のところ、それは幻想的な結論です。そのため、私と私の同僚は、一般向けの疫学分析の一部において、特定の値に誤って注目することを避けるため、信頼区間のみを報告することを選択しました。
1980年代以降、医学雑誌は、真偽を単独で主張するよりも、信頼区間に重点を置くようになりました。しかし、習慣を変えるのは難しいものです。信頼区間とp値の関係は、役に立たないのです。ある治療法の効果はゼロであるという帰無仮説を仮定しましょう。もし、その効果の推定95%信頼区間にゼロが含まれていない場合、p値は5%未満となり、フィッシャーのアプローチに基づいて帰無仮説を棄却します。その結果、医学論文は不確実性区間そのものよりも、そこに含まれる値、あるいは含まれない値に関心を寄せる傾向があります。医学はフィッシャーの理論を超えようとしているかもしれませんが、彼が恣意的に設定した5%のカットオフの影響は依然として残っています。
アダム・クチャースキー著『Proof: The Uncertain Science of Certainty』より抜粋。英国では2025年3月20日にProfile Booksより出版。