あなたのチャートは探偵小説ですか?それとも警察の報告書ですか?

あなたのチャートは探偵小説ですか?それとも警察の報告書ですか?

すべてのデータ視覚化はストーリーであり、解明すべきプロットですが、視覚化の中には他の視覚化よりもわかりやすいものもあります。

顕微鏡、虫眼鏡、さまざまなインフォグラフィックの画像のコラージュ

写真イラスト: サム・ホイットニー、ゲッティイメージズ

現代の統計データ表示(例えば相関関係を調べるための散布図のグリッド)は、透明性が高く、データの傾向を際立たせることで成功を収めています。対照的に、古典的なデータビジュアライゼーションは、逆説的に、やや不透明であること、つまり読者が解くパズルのような形で成功していることが多いのです。

情報デザイナーのウィル・バーティンが1951年に作成した視覚化図を考えてみましょう。これは、ペニシリン、ネオマイシン、ストレプトマイシンという3種類の抗生物質が13種類の細菌に及ぼす効果をまとめたものです。細菌種は円形に並べられ、それぞれの細菌感染症に対応する3本のバーは、その治療に必要な抗生物質の量を表しています。スケールが反転しているのは、バーが長いほど効果が高い抗生物質を表し、「大きいほど良い」という自然な解釈に合致するからです。また、バーの背後の陰影は、グラム染色検査の陽性と陰性に応じて細菌を2つの​​グループに整理しています。

画像にはプロットと図表が含まれている場合があります

データビジュアライゼーション:ウィル・バーティン

科学の世界では、私たちは思いがけない発見に喜びを感じ、それをすぐに体系化しようとします。視覚化においても同じことが言えます。新しく啓示的なグラフを見ると、それを分解して仕組みを知りたくなります。バーティンのサンバーストデザインは私たちの心を即座に捉え、マンダラのような形状の背後にある意図を理解したいという好奇心を掻き立てます。私たちは、それが暗示する科学的発見に参加し、さらには祝福するよう促されているように感じます。しかし、円形のデザインは、特定の感染症の治療に最適な抗生物質を見つけることや、細菌と治療法の関係性における構造を認識することを困難にしています。しかし、ほとんどの人にとって、これらの限界は後になって初めて明らかになるか、そもそも明らかになることさえありません。

この体験は物語に例えることができます。物語は、多くの偉大な(そしてそれほどでもない)芸術作品を解釈するレンズです。物語は、プロットと視点、出来事と解釈、ストーリーラインと登場人物の相互作用を伴います。同様に、科学の実践は、データとモデルの相互作用として捉えることができます。データは事実です。モデルは登場人物であり、その視点と仮定によって、物語から私たちが受け取るものが形作られます。最も単純なレベルでは、データをどのように視覚化するかという選択は、特定の比較を他の比較よりも優先させることで、視聴者のデータ体験を構造化します。それは登場人物の選択であり、モデルの選択なのです。

視覚化デザインをモデル選択の一形態として、そして特定の比較を強調するものとして理解することは、非常に有益です。既存の視覚化やグラフィカル表示手法をリバースエンジニアリングするのに役立ちます。また、より効果的な視覚化を開発し、ストーリーをより効果的に伝えることにも役立ちます。

バーティンのグラフが示唆する比較は、抗生物質が「特効薬」として当時大いに注目を集めていたことを考えると、おそらく驚くことではないが、あるシンプルな疑問に焦点を当てている。それは、抗生物質はどの細菌を治療できるのか、という問いだ。円の周囲をスキャンしながら、最も長いバーの色に注目することで、このグラフを用いて抗生物質の有効性を比較することができる。こうした意図された比較を発見するためには、見る者は、データを作成した科学者たちと似たような発見のプロセスに積極的に参加する必要がある。

映画を観る人の比較的受動的な関与から、連続テレビドラマを観る人のより能動的な関与、そしてある意味では頭の中で映画全体を作り上げなければならないような小説を読む人の経験まで、物語のさまざまな形式が読者をさまざまな方法で巻き込む方法については、多くのことが書かれてきました。

データビジュアライゼーションは、この連続線上の様々な位置に位置づけられます。中には、伝えるストーリーが非常に力強く明確であるため、視聴者にほとんど要求しないものもあれば、はるかに高度な要求を伴うものもあります。これは、観客にとって多少なりとも分かりやすい芸術作品に例えることができますが、理解しにくい芸術作品は意図的に曖昧に表現されていることが多いのに対し、難解なビジュアライゼーションは理解されることを意図しているという違いがあります。その意味で、ビジュアライゼーションは芸術や音楽というよりも、むしろビデオゲームに似ています。教育心理学者が研究する「アクティブラーニング」アプローチを彷彿とさせる、試行錯誤の体験を呼び起こします。

ビデオゲームと同様に、幅広い層の人々にとって、型破りな視覚表現が最も魅力的であることが多い。馴染みのないものはより挑戦的であり、美しい形状や対称性といった美的選択は、視聴者をパズルを解こうと誘うのに役立つ。

しかし、魅力的な視覚化は、バーティンの視覚的特徴ほど奇抜である必要はない。最近注目を集めた視覚化「曲線を平坦化」グラフを考えてみよう。この図は、シンプルなパズルで読者の注意を引く。水平線は基準を暗示し、見る側の目標は、この基準を満たす曲線とそれを上回る曲線の違いを見つけることだ。その過程で、ロックダウンの必要性が、グラフに込められた切実なメッセージとして浮かび上がってくる。科学者は、この視覚化では線の位置と2つの曲線の形状の推定がいかに不正確であるかが伝わらないのではないかと異議を唱えるかもしれないが、作成者はまさに自分たちが意図したストーリーを伝えている。アメリカ国民の行動がもたらす最も重要な結果に国民の目を向けさせるのに、これほど効果的な流通メディアは他にない。

2つのグラフ。赤いグラフは短時間で高いピークを示し、青いグラフは時間の経過に伴って小さなピークを示しています。

データ可視化: サム・ホイットニー、CDC

パンデミックの影響を示すもう1つの一般的な方法は、動くドットを使って感染拡大をシミュレートすることです。ワシントン・ポストのハリー・スティーブンスによるアニメーションは、予防措置なし(「無差別」)から「徹底的な距離戦略」まで、さまざまな条件下でのアウトブレイクの展開例を示しました。各シミュレーションが実行されると、そのすぐ上にある積み上げ面グラフが、各時点での感染者、非感染者、回復者の数に比例した色で塗りつぶされます。シミュレーションがリアルタイムで面グラフを「構築」するのを見るのは、誰かがジグソーパズルを解くのを見ているようなものです。ただし、ジグソーパズルの場合、最終的に作成されるイメージは、人がそれを解くプロセスとは関係ありません。視覚化パズルは異なります。データがイメージに変換される仕組みを理解して初めて意味を成します。

画像には紙のテキストとラグが含まれている可能性があります

データビジュアライゼーション:ハリー・スティーブンス/ワシントン・ポスト

何が刺激的で型破りであるかは、私たちの期待にも左右されます。音楽は、期待と驚きのバランスが取れているかどうかで人を惹きつけると言われています。ある音符が私たちの不意を突く時、それは興味深いものですが、同時に、展開していくにつれて、曲全体のパターンの中で意味を成すものでなければなりません。物語についても同じことが言えます。予想外の出来事の興奮は、既存の規範を参照し(そしてそれを覆すことで)、初めて生まれます。そして科学もまた、推測、反証、そして革命が絶えず変化するプロセス、つまり、紆余曲折に満ちた物語として機能します。

しかし、科学の世界では、観客はまず背景について知ることを期待しているので、混乱する前に期待を明確に伝えることができます。視覚化においては、このプロセスはしばしば暗黙的です。期待はまずデザイナーがモデルを選択することで生まれ、次に視聴者が目にするパターンの意味を独自に解釈することで生まれます。

デザイナーがモデルを選択することは、データセットの強調したい側面とその表現方法に反映されます。ヒストグラムでデータを提示すると、統計学の多くの応用で見られる対称的なベル曲線のような、馴染みのある参照図形との比較が促されます。人間の視覚システムは対称性からの逸脱を感知することに適応しているため、グラフィックスはモデルとの相違点を見つけるための優れた手段となります。

画像には建築物や橋が含まれている可能性があります

データ可視化: ジェシカ・ハルマン

どのデータを含めるか、どのように変換するかといった選択を通して、ビジュアライゼーションは、傾向や差異に対する視聴者の期待を形作ります。各国の新型コロナウイルス感染症の症例数や死亡者数を時系列で表した、これまでに作成された多くの折れ線グラフを考えてみましょう。データが変換されているかどうか(例えば対数を取るなど)に関わらず、軸の範囲と含まれる国のサブセットの組み合わせによって、データの解釈における空間的および時間的な文脈が形成されます。

最も効果的なグラフは、期待を予測し、それを形作ります。グラフがどれほど複雑であっても、同じ一般原則が当てはまります。グラフを作成する理由は2つあります。予期せぬことを学ぶため(統計用語では「探索的データ分析」)、そして発見を他の人に伝えるためです。探索的データ分析は、ほぼ定義どおりモデルに基づいて機能します。つまり、「予期せぬこと」は期待を通してのみ定義されるのです。コミュニケーションもまた、何か新しいことを伝えたり、「ニュース」を伝えたりすることを目的とするという点で、期待に左右されます。視覚化は空間的に行われ、音楽や物語は時間的に展開されますが、それらはすべて、期待と驚きのバランスという同じ力学に依存しています。最も従来的で退屈な視覚化、例えば世論調査のグラフでさえ、少なくとも予期せぬ何かが明らかになる可能性を示唆する必要があります。

バーティンがこの図を作成してから約30年後、彼が視覚化したデータセットは変化を遂げることになる。1984年までに、科学者たちは、試験した抗生物質に対する反応が肺炎球菌(図では約11時の方向)と連鎖球菌に非常に似ていることに気づき、2種類の細菌を再分類した。一方、糞便連鎖球菌(図では7時から8時の間)の反応は他の連鎖球菌と大きく異なっていた。当時、この図は高く評価されていたにもかかわらず、これらの誤りは視聴者には見過ごされていた。

当然、反事実的な疑問が生じます。もしバーティンがデータセットのより直接的な統計グラフ(グループ化された棒グラフなど)を作成していたなら、これらの科学的誤りはもっと早く発見されていたかもしれません。

これは、統計学者ハワード・ウェイナーとショーン・ライセンが示唆した疑問です。彼らは、ローレンス・ファイナーとクリスチャン・ライアンが最初に作成した、より一般的な散布図を2009年に発表し、この点を説明しています。バーティンは抗生物質の有効性の比較を強調することを選択しましたが、新しい設計では細菌同士の比較を優先しています。ストレプトマイシンの値は、ネオマイシンの値と密接に関連しているため省略されています。同じ属の細菌は同じ色で示されています。色の並置と他の細菌との近接性から、誤って分類された2つの細菌が容疑者として浮かび上がります。なぜ糞便細菌は他の連鎖球菌と共に左上隅にないのでしょうか?なぜ肺炎菌がそこにいるのでしょうか?

画像にはラベル、テキスト、ページ、プロットが含まれる場合があります

データビジュアライゼーション:ローレンス・ファイナー&クリスチャン・ライアン

バーティンのグラフは失敗作だと言いたくなる。形と色の美しいコントラストに夢中になりすぎて、データのより重要な変化を見落としているからだ。しかし、科学の進歩は試行錯誤や理論と経験主義の往復を通してのみ実現するものではない。科学者が人々の心を動かし、意思決定者や一般大衆とコミュニケーションをとる能力にも依存しているのだ。バーティンのグラフは不完全だったかもしれないが、ファイナーとライアンのグラフも不完全だ。これはまるで探偵小説と警察の報告書を比べるようなものだ。同じ出来事を描いているかもしれないが、その目的は異なる。

一つの視覚化で両方の機能を実現できるでしょうか?科学者は、あらゆる要件を満たす簡潔な解決策、つまり洗練された解決策に惹かれます。一方、視覚化のデザインにはトレードオフがつきものです。私たちの労力を最小限に抑えながらデータを分かりやすく提示してくれるグラフィックは、最初に私たちを困惑させ、好奇心を掻き立てるようなグラフィックとはなり得ません。

代わりに、データを伝達したい人は、自分の意図をよく考え、何を優先し、何が失われるのかを意識する必要があります。さらに良い方法は、探偵小説警察の報告書のすべてを、単一のインタラクティブなオンラインプレゼンテーションにまとめることです。私たちはこれを「クリックスルーソリューション」と呼んでいます。視聴者はまず、バーティン多様体の魅力的な視覚化を目にします。次にクリックして、1つまたは複数の統計グラフを表示し、もう一度クリックすると、すべてのデータとその説明が記載されたスプレッドシートとコードブックが表示されます。

これは、グラフを比較の手段として捉えるという私たちの考えに繋がります。グラフの閲覧、ひいては構成は、それが表す比較を理解することでより深く理解できます。科学者として、「データを表示する」という概念を超えて、提示したいモデル、そして暗黙的に比較対象となるデータを含む参照モデルについて考えることで、より良いグラフを作成できます。科学情報の消費者として、インフォグラフィックの機能は比較を通して物語を伝えることであり、その物語は私たち自身の積極的な参加を通して展開されることを認識することで、より良く読み解くことができます。


WIRED Opinionは、幅広い視点を代表する外部寄稿者による記事を掲載しています。その他のオピニオン記事はこちらでご覧いただけます。投稿ガイドラインはこちらをご覧ください。オピニオン記事の投稿は[email protected]までお願いいたします。

続きを読む