私たちは皆、今や「Pハッキング」をしている

私たちは皆、今や「Pハッキング」をしている

科学的な不正行為を表す内部用語がポップカルチャーに浸透しつつある。これは良いことなのだろうか?

科学ビーカー

写真:ユリア・レズニコフ/ゲッティイメージズ

アーバン・ディクショナリーにも掲載され、ジョン・オリバーのクイズ番組「Last Week Tonight」でも取り上げられ、カードゲーム「Cards Against Humanity」でも取り上げられ、そして今度はテレビのクイズ番組「Jeopardy」のヒントにも登場しました。メタサイエンスオタクの皆さん、おめでとうございます! 「p-ハッキング」という言葉が主流となりました。

研究結果は様々な方法で分析できますが、pハッキングとは、研究者が満足のいく結果をもたらす分析を選択する手法を指します。pはp値を指し、これは非常に複雑な統計量であり、基本的に、期待する効果がない場合に研究結果がどれほど驚くべきものになるかを測る指標です。

高血圧治療薬の試験をしているとします。その薬を服用した人の血圧が実際に低下したとします。p値とは、たとえその薬が効果がなく失敗に終わったとしても、測定結果と同程度以上の血圧低下が見られる確率です。p値が0.05であれば、その確率は5%しかないことを意味します。慣例的に、p値が0.05未満であれば、研究者は薬が「統計的に有意な」血圧低下をもたらしたと断言できます。

ジャーナルは一般的に統計的に有意な結果を発表することを好むため、科学者はp値が0.05未満になるようなデータの解析・分析方法を選択する傾向があります。これがpハッキングです。

「短くて、かわいくて、覚えやすくて、ちょっと面白い、素晴らしい名前です」と、フリーランスの科学ライターであり、アメリカ統計協会の統計コミュニケーション担当シニアアドバイザーを務めるレジーナ・ヌッツォ氏は言う。

カードを持っている手

カード・アゲインスト・ヒューマニティ提供 

Pハッキングという用語が使われるようになったのは、心理学をはじめとする科学分野が一種の存在的危機に陥っていた頃でした。画期的な研究結果が再現されず、不条理な結果(ESPは実在する!)が権威ある学術誌の査読を通過していました。文献に偽陽性が含まれていないか検証する取り組みが進められていましたが、結果は芳しくありませんでした。研究者たちは、この問題が長年にわたる基礎研究の慣行に根ざしている可能性に気づき始めました。

心理学者のユリ・シモンズ、ジョセフ・シモンズ、リーフ・ネルソンは、今や古典となった論文で、この問題を巧みに実証した。2011年に出版された「False-Positive Psychology(偽陽性心理学)」では、この分野で広く受け入れられている手法を用いて、ビートルズの曲「When I'm Sixty-Four(64歳になったら)」を聴くという行為が、人の年齢を1歳半若くする可能性があることを示した。これは、ある学会での夕食会で始まった。そこで研究者グループが、な​​かなか信じがたい発見について議論していたのだ。その後、シモンズ、シモンズ、ネルソンの3人は、p値が0.05未満のあり得ない結果をリバースエンジニアリングすることがいかに容易か試してみることにした。「私たちはブレインストーミングを始めました。真実ではない効果を示したい場合、何も偽ることなくその結果を得るための研究をどのように実施するか、と」とシモンズ氏は私に語った。

彼らは、いわゆる「研究者の自由度」を悪用することで、この不合理な結論を導き出した。これは、科学者が研究を設計し、データを収集・分析する際に行う小さな意思決定のことである。これらの選択には、どの観察を測定するか、どの変数を比較するか、どの要因を組み合わせるか、どの要因をコントロールするかといったことが含まれる。研究者が研究を事前登録して事前に方法論と分析計画を確定させない限り、実際には、これらの判断を研究の進行に合わせて自由に行う(あるいは変更することさえも)ことができる。

ビートルズの歌の実験が示したように、問題は、研究者がこのようないじくり回しによって、望む答えが得られるまで研究条件を操作できるということだ。これは、パジャマパーティーで子供たちがウィジャボードの板に圧力をかけ続け、求めている言葉が綴られるのを大人が再現するのと同じことだ。

1年後、研究チームはこの現象に新たな、より適切な名称をつけて公表しました。2012年の心理学会議で、シモンソン氏は講演を行い、「pハッキング」という用語を初めて使用しました。

「この一連の行動を説明するにはもっと短い言葉が必要で、『p-ダッシュ-何か』がぴったりだと思いました」とシモンズ氏は言う。「『研究者の自由度』よりも『p-ハッキング』の方が間違いなく適切な言葉でした。名詞としても形容詞としても使えるからです」

このフレーズは、チームが2014年に発表した論文で正式に登場しました。論文では、「pハッキングにより、研究者はほとんどの研究で、まったく無関係な変数間の重要な関係性を明らかにできるようになる」と書かれています。

研究者の自由度を科学者が悪用した場合に何が起こり得るかを特定したのは、彼らが初めてではありませんでした。しかし、シモンソン、シモンズ、そしてネルソンは「pハッキング」という用語を新たに考案することで、研究者たちにこの問題について議論するための言語を提供しました。「私たちの主な目標は、自分たちの研究を発表しやすくすることでした。そして、他の人々がこのテーマについて互いに議論しやすくなるという野心的な目標もありました」とネルソンは言います。「この用語が広く受け入れられたことは、当初の私たちの野望をはるかに上回りました。」

「これは素晴らしいマーケティングだ」と、オープンサイエンスセンターの共同創設者であるブライアン・ノセック氏は言う。「pハッキング」という用語は、方法論者が長らく望ましくないと認識してきた一連の行動をまとめ、名前を付け、その影響を明確にしていると彼は付け加える。ノセック氏は、この用語が研究者に「自らの行動が証拠の質にどのような影響を与えるかを整理し、考える」助けになっていると評価している。

心理学の分野で再現性に関する議論が広がるにつれ、pハッキングや関連する問題を説明する様々な方法にも注目が集まりました。コロンビア大学の統計学者アンドリュー・ゲルマンは、研究者が研究分析に着手する際に選択できる多様な選択肢を表現するために、「分岐する道の庭」という用語を用いました。データマイニング、フィッシング・エクスペディション、データ・ドレッジングなども、pハッキングという行為を説明する言葉として用いられてきました。

危険のヒント

写真: Jeopardy Productions, Inc. 

ゲルマンと彼の同僚であるエリック・ローケンは、これらの代替案を好ましく思わなかった。2013年、彼らは「『フィッシング』や『pハッキング』(さらには『研究者の自由度』)という用語の普及を遺憾に思う」と記した。なぜなら、これらの用語は「研究者が単一のデータセットに対して意識的に様々な分析を試しているという誤解を招く」からである。一方、「分岐する道の庭園」という言葉は、研究者がデータ分析に関わるあらゆる意思決定の中で迷い、自分が道に迷っていることにすら気づかない状況をより的確に表現している。

「Pハッキングという言葉を使うと、まるで誰かが不正行為をしているように聞こえます」とゲルマン氏は言う。「その裏返しとして、人々は自分が不正行為をしていないことを知っているので、何も悪いことをしていないと考えるのです。しかし、たとえ不正行為をしていなくても、結果が重要な問題に関するデータを誤って分析するのは道徳的な誤りです。」

シモンズ氏はこの批判に同情している。「『ハッキング』という言葉には意図が込められていることを、私たちは十分に考えていなかったのかもしれません」と彼は言う。「私たちが望んでいたよりも悪い響きに聞こえてしまうのです」。彼と彼の同僚たちは、pハッキングは必ずしも悪意のある行為ではなく、むしろ人間の行為であり、彼ら自身も犯したことがあると明確に主張してきた。pハッキングの本質は、確証バイアス、つまり自分が信じたいことを裏付ける証拠を探し求め、優先的に見つける一方で、自分が望む真実と矛盾する可能性のある事柄には目をつぶってしまうという人間の性向にある。

「ハッキング」という言葉が、まるで不道徳な行為のように聞こえてしまうため、役に立たない、とシモンズ氏は言う。「権力者は、pハッキングが安全策なしに避けられないことを理解していません。彼らはpハッキングは悪人が行うものだと考えています。そして、私たちは悪人ではないので、心配する必要はありません。」しかし、シモンズ氏はpハッキングは人間のデフォルトだと指摘する。「それは誰もが行うことであり、私も学習を事前登録していない間はずっと続けています。」彼は、安全策がなければpハッキングを避けるのはほぼ不可能だと指摘する。

それでも、「pハッキング」という用語には紛れもなく魅力的な何かがある。「誰かがデータを入手して、ガーデン・オブ・フォーク・パスしたとは言えません」とネルソン氏は付け加える。「私たちはそれを単一のアクション用語にしたかったのです。」

「pハッキング」という用語の誕生により、研究者が実際に研究の中で行っていた行動であるという事実を念頭に置いたことで、この現象を分野を超えて議論しやすくなりました。心理学者によって考案されたにもかかわらず、「pハッキング」という用語はすぐに医学、栄養学、生物学、遺伝学の分野で使われるようになりました、とネルソン氏は言います。「これらの分野にはそれぞれ独自のバージョンがあり、彼らは『素晴らしい!』と思いました。これで、自分たちのバージョンの半ば正当な統計的手法を表す用語ができたのです。」

pハッキングが科学の枠を超えてポップカルチャーにまで浸透したという事実は、科学に対する一般の理解における転換点、そして研究結果を額面通りに受け取るべきではないという認識の高まりを示していると言えるかもしれない。しかし、この用語が広くどのように理解されているかを正確に把握することは困難である。

pハッキングの普及によって、科学的プロセス自体が戯画化され、科学的方法に対する有害な考えが強化されている可能性さえある。「pハッキングの概念が、『統計は望むままに解釈できる』、あるいはもっとひどいことに『科学者は嘘つきだ』といったものに矮小化されることは嫌だ」と、サイエンスライターのヌッツォ氏は言う。「どちらも真実ではないのだから」

理想的な世界では、pハッキングとは研究者特有の悪い傾向や怠惰な習慣ではなく、どこにでもあるものだということを、より多くの人が理解してくれるはずです。私たちは皆、周囲の世界にある証拠を理解しようとするたびに、ある程度pハッキングを行っています。ここでの教訓は、科学は難しいということ、そして時には人間の弱点がそれをさらに難しくするということです。


WIREDのその他の素晴らしい記事

  • 天才プログラマーの奇妙な人生と謎の死
  • 2019年のウィッシュリスト:自分用に取っておきたくなる素敵なギフト52選
  • 気候危機がいかに私たちを殺しているのか、9つの警告グラフで示す
  • 私の友人がインスタグラムで食料品店を始めた理由
  • 健康とフィットネスのデータをロックダウンする方法
  • 👁 より安全にデータを保護する方法と、AIに関する最新ニュース
  • 🏃🏽‍♀️ 健康になるための最高のツールをお探しですか?ギアチームが選んだ最高のフィットネストラッカー、ランニングギア(シューズとソックスを含む)、最高のヘッドフォンをご覧ください。

クリスティ・アシュワンデン(@cragcrest)は、受賞歴のある科学ジャーナリストです。ニューヨーク・タイムズ紙のベストセラー『Good to Go: What the Athlete in All of Us Can Learn from the Strange Science of Recovery』(ノートン社)の著者であり、ポッドキャスト「Emerging Form」の共同ホストでもあります。…続きを読む

続きを読む