デジタル世界における社会調査の進化

デジタル世界における社会調査の進化

心理学者はソーシャルメディアのビッグデータの宝庫に参入したい

プリンストン大学の社会学者は、あなたのデジタルデータを活用して、社会科学における最も難しい研究課題のいくつかを解決したいと考えています。

画像にはテクスチャや水玉模様が含まれている場合があります

ホットリトルポテト

人間が人間らしい行動をとる仕組みを解明することは、心理学、社会学、経済学、人類学といった科学がなしうる最も刺激的な研究の一つである。同時に、最も困難な研究の一つでもある。現実世界の行動を実験変数へと抽出する、信頼性が高く有意義な手法は、いわば、これまでなかなか見つからなかった。統計的および方法論的な歪みによって一部の科学的知見の妥当性に懸念が生じる「再現性危機」が、いわゆるソフトサイエンスに最初に、そして最も大きな打撃を与えた理由の一つは、まさにそこにあるのかもしれない。

画像にはパンフレット、紙、広告、チラシ、ポスター、テキストが含まれている場合があります

プリンストン大学出版局

プリンストン大学の社会学者マット・サルガニック氏は、この難題の解決に挑んでいます。彼は、特に社会が介在する世界において、人間がどのように、そしてなぜ行動するのかを知りたいのです。そのために、サルガニック氏は筋金入りのデータオタクになりました。誰もがサーバーに残すデジタルの痕跡は、人間行動の科学にとって尽きることのない燃料であり、それらを賢く使うことを学ぶことで、科学が自らの実践において直面している様々な危機を解決できる可能性があると彼は言います。12月13日に発売されるサルガニック氏の新著『Bit by Bit: Social Research in the Digital Age』は、データと社会科学を融合させるための新しい(そしてそれほど新しくはない)ルールを提示しています。

WIRED:この本には興味深い起源の物語がありますね。

サルガニック:私の博士論文研究はオンライン実験でした。新しい音楽をダウンロードできるウェブサイトを作成しましたが、ユーザーが他の人の行動に関する情報をどの程度持つかは制御できました。これにより、社会的な流行を作り出し、テストすることができました。従来のキャンパス内のラボではなくウェブサイト上で行うことで、通常の100倍の参加者、つまり2万7000人を集めることができました。

論文は2006年11月に発表されました。それ以来、私はデジタル時代の技術を用いて研究を行い、学生に教えてきました。本書はその経験の成果です。他の人々がこの種の研究を始める手助けをしたい、そして既にある分野で研究を行っている人々が他の分野とのつながりに気付く手助けをしたいと考えました。

本書は従来の査読に回されると同時に、オンラインでのオープンレビューも並行して実施されました。私は本書を複数のウェブサイトにまとめ、誰でも閲覧・注釈付けできるようにしました。その結果、本書の出版に役立つ膨大なフィードバックを集めることができました。また、人々が実際に本書とどのように関わっているかについても、多くのデータを収集することができました。大手メディアやテクノロジー企業が用いるビッグデータ技術も、私たちも活用しました。そして今回、他の著者が利用できるオープンレビューツールキットを公開しました。

オープンレビューを通じて得たフィードバックは、より正式なピアレビューと大きく異なっていましたか?

査読で得たフィードバックは専門家からのもので、彼らはその本がどのように書かれるべきかについて意見を持っていることがよくありました。

はあ!

いいえ、いくつかは良いアイデアでした。参考になりました。オープンレビューから得たフィードバックは、専門家ではない人たちも含め、様々な意見がありました。私は自分の本を、専門家ではない人たちにも読みやすく、役立つものにしたいと思っています。ですから、それは文章の問題点を診断するのに非常に役立ちました。議論の中で私が手順を飛ばしたことについての注釈があり、それを見て「ああ、確かに手順を飛ばしていた」と思いました。査読者や私にとっては明らかな手順でしたが、専門家ではない人たちにとってはそうではありませんでした。

この本は誰が使えると思いますか?読者層は誰ですか?

幅広い読者層に読んでいただければ幸いです。社会科学分野の人々が、まさにこの一連の問題に直面しています。データサイエンス分野の人たちもそうです。大学以外にも、多くの企業でコンピュータサイエンス、エンジニアリング、統計学の訓練を受けたデータサイエンティストが、社会データを扱っています。彼らは本質的には社会科学者ですが、社会科学者のような訓練は全く受けていません。こうした方々に、本書が社会科学の考え方や社会科学者の仕事の進め方を紹介してくれることを願っています。私はマイクロソフトリサーチで長期休暇を取ったことがありますが、そこには社会科学についてあまり知らない、非常に洗練されたエンジニアが何人かいました。

いくつかの箇所で、データサイエンティストと社会科学者の違いについて言及されていますが、両者の文化はどこで異なるのでしょうか?

これらのコミュニティは、互いに学び合い、貢献し合うことがたくさんあると私は考えています。これまでの社会科学者は、一般的に研究目的のために特別に作成されたデータを扱ってきました。本書ではこれを「カスタムメイドデータ」と呼んでいます。一方、データサイエンティストは、もともとある目的のために作成され、研究のために再利用された「既製データ」を扱う傾向があります。例えば、社会科学者が世論を調査したい場合、まず研究者が他の研究者のために実施する一般社会調査(General Social Survey)のような調査を見るのが自然な流れでしょう。データサイエンティストなら、まずTwitterを見るかもしれません。

こうした違いの一部は、それぞれのコミュニティで何が重視されているかに起因しています。社会科学者にとっては、より大きな理論について経験的な発言ができることが重視されることが多いです。一方、データサイエンティストにとっては、データを用いて何か優れた、興味深い、あるいは斬新なことをすることの方が重視されることが多いです。こうした価値観の違いが、異なるアプローチを生み出す可能性があります。

また、訓練内容にも違いがあります。社会科学者は調査データの収集方法と分析方法について訓練を受けています。一方、データサイエンティストはこうした訓練を受けていないことが多いですが、大規模なデータセットの扱い方など、他の分野の訓練を受けています。つまり、社会科学はデータサイエンティストの技術や視点から多くを学ぶことができ、同様にデータサイエンティストも社会科学者から多くを学ぶことができます。世論を研究したい場合、一般的な社会調査がTwitterよりも優れていると言うのは理にかなっていません。どのデータソースが、私たちが抱えている疑問に最も役立つのかを自問する必要があります。

特に興味を引かれた章の一つは倫理に関するものでした。社会科学者は、生体実験の扱い方に関する倫理審査委員会の規則という、一見手に負えない官僚主義的な手続きに対処しなければならない時にしか倫理について考えないのに対し、データサイエンティストは基本的に倫理について全く考えていない、と書かれています。

私の発言は確かにかなり大雑把で大雑把なものでしたが、それは世界がどうあるべきかを述べたものではなく、現状を述べたものです。私が話を聞いた研究者の中で、非倫理的なことを望む人は誰もいません。しかし、アナログ時代の社会科学研究の多く、つまりキャンパスでの実験、アンケート調査、民族誌学といった研究における倫理は、多かれ少なかれ確立されています。一般的に、何ができて何ができないかについて合意が得られています。こうしたビッグデータ研究の多くが登場する以前、社会科学者が倫理にアプローチする方法は、いわばルーティン化していたと言えるでしょう。

そして今、私たちは全く異なることを行う可能性を秘めています。同意や認識なしに何百万人もの人々を観察し、同意や認識なしに人々を実験に参加させる能力。これらは私たちが行えるようになった新しい能力ですが、私たち研究者は、その力を責任ある形でどのように使うべきかをまだ理解していないと思います。産業界や政府でも同様の疑問が生じています。デジタル時代における私たちの大きな課題は、こうした機会を責任ある形でどのように活用するかを考えることです。本書では、人々がこのことについて考え、議論するのに役立つ、私たちが従うべきいくつかの原則を提示しようと努めています。

それは、人格の尊重、博愛、正義、そして法律と公共の利益の尊重です。

ええ、これらのアイデアは私が作ったものではありません。将来も役立つと確信している唯一の理由は、それらが長年にわたり生き続けているからです。私がこれらの原則の一部を引用したベルモント報告書は、40年以上前に発表されました。ルールベースのアプローチではなく、原則ベースのアプローチを採用する理由の一つは、私たちが持つ能力は変化していくと確信できるからです。こうした新しい能力について考えるには、ある程度抽象的な原則が必要です。

人々と協力する研究者のほとんどが話すのは、インフォームドコンセント、つまり、一緒に仕事をする人々が何に同意しているかを確実に理解することです。

これは私が提示した4つの原則の重要な部分です。これらは単なる同意にとどまらず、より広範なものです。現在、インフォームド・コンセントが非常に重視されており、それは明らかに重要ですが、私たちはその特定の点に重点を置きすぎて、インフォームド・コンセントの根底にある原則である、より広範な人格の尊重という概念に十分配慮していない可能性があります。

社会科学がデータに関する危機、つまりこの分野の主要な研究結果の一部に疑問を投げかける再現性の問題や統計操作に直面しているまさにその時に、あなたが社会科学者にデータ主導のアプローチを提案していることは興味深いです。

アナログ時代からデジタル時代への移行は、多くの新しいデータソースの原動力となっていますが、社会科学者にとって新たな研究手法の確立にもつながっていると言えるでしょう。データやコードの共有が容易になり、高額なジャーナルを購読している大学に通う幸運な人々だけでなく、誰もが研究にアクセスできるようになります。デジタル時代は、人々が期待し、受け入れ始めているような方法で、私たちの科学的研究手法を変革し、改善する可能性を秘めています。

デジタル時代への移行で具体的に何が変わったのでしょうか?

私が大学院に入学した頃、研究者が扱うデータは、一般的に研究者が研究者のために作成したものでした。それは良い点もありました。なぜなら、データは科学的に関心のあるテーマに関連していることが多く、他のすべての研究者が利用できるのが一般的だったからです。これは重要な点です。

現在、日々の行動の副産物として大量のデータが生成されています。これは「デジタルトレースデータ」または「デジタル排気ガス」と呼ばれています。多くの場合、その規模ははるかに大きく、多くの興味深い研究機会を生み出しますが、同時にいくつかの問題も伴います。データには、企業や政府の目的が組み込まれていることが多いのです。これは「アルゴリズム交絡」と呼ばれます。

それはどういう意味ですか?

Facebookのデータから人間の行動を学ぶことは、カジノにいる人々を観察することで人間の行動を学ぶことに似ています。カジノにいる人々を観察することで確かに学ぶことはできますが、カジノは特定の行動を促し、他の行動を抑制するように高度に設計された環境です。Facebookも同様です。人々はFacebookを見て、「ああ、これが人間の自然な行動だ」と考えます。しかし、それは全く真実ではありません。多くの場合、システム設計者の目標は研究者の目標と一致しないのです。

そして、アクセスの問題もあります。FacebookとTwitterは膨大な量のデータを保有しており、それらはすべての研究者が利用できるわけではありません。それには、倫理的、法的、そしてビジネス上の複雑な理由があります。しかし、一部の研究者だけがアクセスできる一方で、他の研究者だけがアクセスできないという状況が生じた場合、再現性、特定のプロジェクトを許可し他のプロジェクトを禁止する企業の役割、そして特定の種類の研究結果を促進する上で企業が果たす役割について懸念が生じる可能性があります。

私たち全員にとっての課題は、科学者や社会全体にとって有益なこのデータを、データを提供する人々と企業にとって安全な方法でどのように利用できるかを考えることです。

しかし、この科学は単なるソーシャル メディアをはるかに超えています。

8歳と4歳の子供たちは、Alexaと話しながら成長しています。彼らは私とは違う方法で世界と関わっていくでしょう。こうした心理的影響を観察し理解できるようになるまでにはしばらく時間がかかるでしょうが、すでに産業や社会関係に大きな変化が見られ始めています。

あらゆる種類の取引記録には、一般的に多くの可能性が秘められています。FacebookやTwitterのデータの多くは、人々が意図的に作成していますが、より暗黙的に作成されたデータにも大きな可能性があります。例えば、私の携帯電話が生成する位置情報データなどです。ビットコインもその好例です。経済取引の過程で、この台帳が作成されます。私の同僚は、研究者がビットコインの台帳で何が起こっているかを理解するためのツールを開発しています。

企業のプラットフォームや分散型ピアツーピアシステムを通じて、多くの人々が互いに交流することがますます容易になっています。そして、こうした交流がすべてデジタルで行われる限り、記録が作成されます。これらの記録は、研究者にとって非常に興味深いものです。

アダム・ロジャースは科学とその他オタク的な話題について執筆しています。WIREDに加わる前は、MITのナイト科学ジャーナリズムフェローであり、Newsweekの記者でもありました。ニューヨーク・タイムズの科学ベストセラー『Proof: The Science of Booze』の著者でもあります。…続きを読む

続きを読む