Facebookはニュースフィードの質を向上させるために何をしようとしているのか

Facebookはニュースフィードの質を向上させるために何をしようとしているのか

Facebookの幹部9人が、誤情報の量と拡散範囲を削減するための同社のツールについて語る。

画像には群衆、観客、人間、衣類、袖、アパレル、スピーチ、長袖、講義などが含まれている可能性があります

アダム・モッセリデビッド・ポール・モリス/ブルームバーグ/ゲッティイメージズ

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

月曜日、私はFacebookでフェイクニュース対策に携わるチームメンバー9名と面談しました。メンバーは、エドゥアルド・アリニョ・デ・ラ・ルビア氏、ジョン・ヘーゲマン氏、テッサ・ライオンズ氏、マイケル・マクナリー氏、アダム・モッセリ氏、ヘンリー・シルバーマン氏、サラ・スー氏、アントニア・ウッドフォード氏、ダン・ジグモンド氏です。ミーティングは、マーケティング&コミュニケーションチームのタッカー・バウンズ氏とリンジー・シェパード氏による自己紹介から始まりました。その後、Facebookの最近の製品変更や、フェイクニュース対策としてニュースフィードをどのように調整できるかについて、詳細に話し合いました。

ニコラス・トンプソン:早速始めましょう。2016年12月以降、皆さんはたくさんの施策を展開してきました。ファクトチェックの取り組み、疑わしい投稿の画像の縮小、ファクトチェック用の機械言語ツール、クリックベイトの見出し用の機械言語ツールなどです。導入してきた多くの施策の中で、最も効果があったものは何でしょうか?

ジョン・ヘーゲマン:これは特効薬がない分野だと思います。実際に効果があった対策を1つか2つ挙げることはできますが、いずれにしても、1つだけでは問題の一部しか解決できず、回避策は存在します。この問題の多くは、様々な要素がどのように組み合わさるかにかかっていると思います。より広い視点で考えると、私たちは必ずしもフェイクニュースだけをターゲットにしていたわけではありません。これは、品質や誠実性といった全般的な問題に関する幅広い取り組みの一環であり、フェイクアカウントをより積極的に削除したり、コミュニティの基準を厳格に適用したりといった活動を行っています。フェイクニュースなどを投稿する人と、その他のポリシーに違反する人の間には強い相関関係があります。つまり、ブロックと対処、そしてできる限り正確にルールを施行するという基本的な取り組みに尽きるのです。

テッサ・ライオンズ:ジョンの意見に賛成です。そして一つ付け加えたいのは、Facebookで目にする偽ニュースの多くが金銭目的であるという点です。こうした金銭的インセンティブを徹底的に追及し、真摯に阻止することが問題の大きな部分を占めていることは認識していました。だからこそ、この分野における私たちの取り組みは、様々な要素全てに影響を与えることに役立ってきたのです。

トンプソン:偽ニュースサイトを運営する人たちへのインタビューで、そのことを実感しました。2016年12月に広告ネットワークが遮断されたことは大きな影響がありました。偽ニュースを助長する経済的利益を断つために、他にどのような対策を講じましたか?

ライオンズ:私たちが行ったことの一つ、そしてあなたが言及されたことの一つは、あるパブリッシャーが偽ニュースを繰り返し共有していることが判明した場合、そのパブリッシャーの広告掲載や収益化を遮断したことです。しかし、それ以上に重要なのは、金銭目的の悪質な行為者がよく使う戦術を特定するための取り組みです。例えば、クリックベイトです。Facebookから自社のウェブサイトへユーザーを誘導しようとして、クリックベイトを頻繁に投稿している場合、私たちはその予測に基づいて、ニュースフィードにおけるコンテンツの配信を減らすよう支援します。これは、特定のコンテンツの配信を減らすという点だけでなく、インセンティブ構造全体を変えるという点でも価値があります。コンテンツが閲覧されなければ収益化されず、そもそもそのコンテンツを作成するインセンティブが変わってしまうのです。この取り組みは他の部分と同様に、敵対的なものであり、これで私たちの取り組みが終わり、チェックボックスにチェックを入れることができるわけではありません。しかし、それは私たちが多額の投資をした分野です。

トンプソン:他に何かありますか?何かを偽物とラベル付けし、ファクトチェッカーがフラグを立てたことが、皆の予想とは逆の効果をもたらし、あなたはそれを撤回したと承知しています。他に、予想よりも効果が薄かった、あるいは効果があったなど、意外な効果があったことはありますか?

マイケル・マクナリー:それについて一つコメントさせてください。必ずしもマイナス効果があったわけではなく、代わりに関連記事を表示した方が優れた効果があったということです。つまり、ある程度効果があったものから、より効率的に機能するものに切り替えたということです。

トンプソン:わかりました。他に驚くべき影響を与えたものはありますか?

ヘーゲマン:この分野で少し意外だったのは、何かの直接的な効果と、人々がシステムの新しいインセンティブに反応した後に現れる二次的な効果との間に、時折見られる違いです。その良い例がクリックベイトへの取り組みです。テッサがおっしゃったように、私たちが開発していた分類器の改良を導入した際にクリックベイトはいくらか減少しましたが、その後、出版社が「新しいポリシーが導入されたので、こうした手法を使った記事の掲載をやめ、見出しをもっとうまく書く方が効果的だ」と気付くようになってからは、さらに大きな減少が見られました。

トンプソン:パブリッシャーとして、パブリッシャーがFacebookのアナウンスにどのように適応しているかはよく知っています。皆さんがここで、そして動画でも簡単に触れていましたが、まだ高度な記事を目にしたことがないのが、ファクトチェックのための機械学習システムとクリックベイトを見分ける機械学習システムです。使用されたモデルについて少し説明していただけますか?どのようにトレーニングされ、どのような機能を果たすのでしょうか?

マクナリー氏:クリックベイトについては、まず方針声明として定義します。そして、評価者に大量のコンテンツを見てもらい、クリックベイトかどうかを判断してもらいます。さらに、テキスト自体を学習し、パターンを学習するディープニューラルネットワークを導入します。ソーシャルコネクションやユーザーの行動など、テキスト自体には含まれていない要素も考慮しますが、これらはすべて予測モデルの一部となります。こうして、クリックベイトである確率を算出します。

トンプソン:昨年9月に、Instagramが「みんなを親切にする」取り組みについて記事を書きました。これも似たような取り組みのように思えます。Instagramは人々をInstagramに呼び込み、コメントを評価しました。例えば、「これは意地悪だ」「これは残酷だ」といった具合です。そして、そのデータをDeepTextに入力し、公開できる状態になるまで何度も何度もトレーニングを繰り返しました。ここでも、ほぼ同じことをしたのですか?

マクナリー:はい、それは非常に一般的なプロセスです。ですから、私たちが行ったことはかなり似ています。

アダム・モッセリ:少し話を戻しましょう。どんな分類器でも、例えば「これは子猫の写真か?」とか「この記事の見出しはクリックベイトか?」といったことを分類しようとすると、いくつか条件があります。まず、「猫とは何か?」、あるいは今回の場合は「クリックベイトとは何か?」というポリシーや定義が必要です。次に、データのトレーニングセットが必要です。理想的には、肯定的なものも否定的なものも含め、数万、あるいは数十万の例が必要です。クリックベイトの場合、これはクリックベイト、これはそうではない、これはクリックベイト、これはそうではない、といった例を数万個も取得することになります。そして、様々な特徴、つまり注目すべき点も用意します。例えば写真であれば、形や色、質感などです。テキストの場合は、単語、単語の組み合わせなどです。次に、分類器をトレーニングし、結果の可能性を予測できるコードを作成します。この場合は、特徴に見られるパターンに基づいて、写真が猫である可能性や記事の見出しがクリックベイトである可能性を予測します。

ですから、まずはクリーンなデータセットを用意することが最も重要です。そうでなければ、何もしていないことになります。そして、そのデータセット(全く同じデータセットではなく、ラベル付けガイドライン)を使って、分類器の精度を確認することもできます。つまり、「トレーニングデータセットでは使用しなかったこの新しい見出しについて、アルゴリズムはおそらくクリックベイトだと判断しました。そして、実際にクリックベイトです。正解の頻度と不正解の頻度はどれくらいでしょうか?」と確認できるのです。これは、学習のためのトレーニングだけでなく、再現率(precision in recall)を評価する上でも貴重です。つまり、正解の頻度と正解率です。これは機械学習による分類の標準であり、何を分類するかは関係ありません。

トンプソン:そして、それを調整しますよね?そして、自分の気分次第で、クリックベイトの可能性が90%か95%か85%か、と言います。

モッセリ:そうです。新しい機能を追加したり、モデルを調整したり、こうしたことをすべて行うことで精度が向上します。これが予測精度と呼ばれます。しかし、調整できるのは、例えば、ある数値が得られたとして、例えば90%がクリックベイトだとすると、それをどうするかということです。つまり、ある閾値を超えたものを降格させるかどうかを決める必要があります。これらはすべて、より効果的なものにするために、時間をかけて調整していくものです。

サラ・スー:アダムの説明に付け加えると、これは誤情報とクリックベイトの分類における課題の一つを浮き彫りにしていると思います。そして、アルゴリズムと人間の組み合わせがなぜ非常に重要なのか、その理由も浮き彫りにしています。ほとんどの偽ニュースは本物のニュースに見せかけるように作られているため、事例に基づくトレーニングである程度は実現できますが、だからこそ最終的な判断には第三者機関のファクトチェッカーと連携することが重要なのです。テッサからそのプロセスについてもう少し詳しく説明していただき、ヘンリーから、これをどのようにスケールアップしていくかについても詳しくお話しいただけると思います。

ヘンリー・シルバーマン:重要なのは、このラベル付けの取り組みを継続していくということです。エコシステムが適応すれば私たちもそれに適応していくため、決して止めるつもりはありません。アダムがクリックベイトについて説明したように、私たちはクリックベイトのラベル付けを続けています。なぜなら、クリックベイトとは何かという原則を確立し、それに基づいてラベル付けしているからです。私たちのモデルは2017年のクリックベイトをある程度予測しているかもしれませんが、2018年にはクリックベイトが変化するかもしれません。私たちはそれを常に把握したいと考えています。そのため、私たちは常にこの分類器を現在のエコシステムと比較して評価しています。

トンプソン氏:ファクトチェックはもっと難しい問題ですよね? 見出しだけではなく、本文全体をチェックする必要があるからです。

ライオンズ:最初にクリックベイトについて話すのが有益だと思ったのは、いくつかの違いを明確にしておくのが有益だからです。違いの一つは、クリックベイトとキトゥン(偽情報)では、大量のトレーニングデータを作成できます。そして、そのトレーニングデータを迅速に作成するために人材を雇うことができます。誤情報を扱う分野における課題の一つは、「ここにあるものはすべて絶対に真実で、誰もが絶対に同意します。そして、ここにあるものはすべて絶対に偽で、誰もが絶対に同意します」と言えるようなデータベースが存在しないことです。そのため、モデルのトレーニングを開始するために、どのようにトレーニングデータを取得するかを決定することが課題の一つです。

そこで私たちは、ファクトチェッカーとのパートナーシップとファクトチェックから得られるデータを活用しました。現時点では、コンテンツそのものよりも、行動シグナルに焦点を当てた機能に重点を置いています。例えば、ニュースフィードに表示されるすべてのコンテンツについて、ユーザーはそれが偽ニュースであるというフィードバックを送信できます。これが私たちが得る情報の一つです。人々は他にもコメントを残し、読んでいる内容について意見を表明します。そして、不信感を表明するコメントは、偽ニュースの可能性を示唆する優れた指標になり得ることがわかりました。しかし、私たちはファクトチェッカーと協力し、他のシステムの調査も開始しながら、トレーニングデータの量を増やすための継続的な取り組みも行っています。また、利用できる機能やシグナルの数を増やすための取り組みも行っています。

トンプソン:つまり、実際にテキストを見て、Wikipediaと比較したり日付を確認したりしているわけではないということですね。コメントや見出し、ファクトチェックだけを見ているということですね?それとも記事本文を分析しているのですか?

ライオンズ:現在、記事本文を分析して、重複やほぼ重複しているものを特定しようとしています。私たちがこれまで目にしてきた、そして実際によく取り上げられている事例の一つは、一つのフェイクニュース記事が、多くの人々によってコピー&ペーストされ、ニュアンスの違いはあるものの、非常に似た記事が作られるということです。最近聞いたジョークは、「フェイクニュースを作るより安いのはフェイクニュースをコピーすることだけだ」というものです。こうした金銭的なインセンティブを考えると、最初の投稿だけでなく、すべての重複記事をターゲットにする必要があるのです。そこで、異なる記事間の類似性を予測するために、自然言語処理を多用しています。しかし、実際に個々のフェイクニュースを予測するには、人々からのシグナルや、コンテンツに関する行動シグナルに大きく依存しています。つまり、どのように拡散したのか、誰がシェアしたのか、その成長パターンはどのようなものなのか、そして過去に誰がこの種のコンテンツをシェアまたは報告したのかという予測因子も調べているのです。したがって、たとえば、偽のニュースを大量に共有してきた履歴を持つページによって何かが投稿された場​​合、それは明らかなシグナルです。

トンプソン:フェイクニュースには様々な種類があり、それぞれに社会的な重要性も異なりますね。ちょうどフェイクニュースのリストを見ていたのですが、「女性が遺体安置所で眠りにつき、火葬される」といったニュースは、アメリカの民主主義の機能に実際には影響を与えません。「トランプがオバマが恩赦を与えた七面鳥を全員処刑」といったニュースは政治的ではありますが、重要ではありません。「トランプが聖域都市の市長全員を逮捕」といったニュースは、実際には重要な意味を持つのでしょうか?皆さんは、こうしたニュースを重要視する際に、社会的な重要性をきちんと把握していますか?それとも、全て同じように考えているのですか?

ライオンズ:私たちが考えていることの一つは、個々のコンテンツにこだわると、常に後れを取ってしまうということです。ですから、個々のコンテンツのファクトチェックは重要な役割を担っており、私たちはそれを実行する必要があり、また、より迅速に行う必要があります。この点については後ほど詳しく説明します。しかし、私たちが本当に目指しているのは、インセンティブを変えることです。先ほど金銭的なインセンティブについてお話ししましたが、他にもインセンティブはあります。イデオロギー的な理由で視聴者を増やしたい場合でも、単に金儲けをしたい場合でも、インセンティブが何であれ、こうした様々なタイプのコンテンツは、視聴者を増やし、目指す目標を達成するのに役立つ可能性があります。したがって、些細な話は現実世界の出来事に関する話ほど重要ではないと思われるかもしれませんが、その話が虚偽であることを実際に知り、それを共有したページとその話がどのように広まったかを理解し、そのコンテンツだけでなく関係者全員に対して措置を講じることができることは、本当に深刻なものの拡散を阻止するためにも重要です。

トンプソン:なるほど。でも、機械学習アルゴリズムの重み付けをセグメントごとに変えることはできるんですよね?例えば、クリックベイトの可能性が97%くらいで、それがジョークだったら削除する。でも、政治に関するものが80%以上だったら削除する、みたいな。そういうことをするんですか?

マクナリー氏:別々のシグナルを加法的に組み合わせることは可能です。例えば、クリックベイトによる降格やペナルティ、広告ファームによる降格やペナルティ、誤情報リスクによる降格やペナルティなど、これらを何らかの形で加法的に組み合わせることが可能です。

モッセリ:ご質問に明確にお答えすると、コンテンツの種類ごとに異なる基準を設けているわけではありません。そうすることにはメリットとデメリットがあると思います。市民コンテンツだけが、実際に危害を及ぼすリスクがあるコンテンツだとは必ずしも思っていません。また、指標が複雑になり、成功の測定方法も複雑になり、チームの作業が遅れる可能性もあります。特に市民コンテンツに関心がある方にとって、良いニュースと悪いニュースは、クリックベイト、コンテンツの非公開、虚偽情報など、問題のあるコンテンツのほとんどに政治コンテンツが過剰に含まれていることです。政治において人々の感情に訴える戦術は、人々を煽動する最も効果的な方法の一つだからです。しかし、現時点では、コンテンツの種類ごとに異なる重み付けはしていません。将来的には検討するかもしれませんが、この種の誠実性に関する取り組みにおいては、まず基礎をしっかりと固め、そこで確実に進歩を遂げ、それから第二段階、第三段階としてより洗練されたものにしていくことが重要だと考えています。

トンプソン:皆さんが発表している学術分野についてお伺いします。これまで研究者に提供したことのない、どのようなデータを今後提供していく予定ですか?

ライオンズ:数週間前、私たちのグループはハーバード大学で世界中の誤情報研究の専門家と会合を持ちました。文字通り1日半かけて、どのようなデータが必要なのか、データセットを洗い出す作業を行いました。まず最初に、私たちが実際に答えを出さなければならない疑問は何か、という点から着手しました。そこで私たちが行ったのは、誤情報、偽ニュース、フェイクニュース、あるいは様々なカテゴリー(何と呼ぼうとも構いません)の定義について、学界全体でコンセンサスが得られていないという点です。また、定義が定まった後も、焦点を当てているもの、例えば何かを見た人の数や全体的な普及率などを測定する適切な方法についても、多くの議論があります。そこで、この選挙調査委員会との協力の一環として、誤情報に関して特に協力し、これらの疑問のいくつかに答えるためのデータを提供することが私たちの狙いでした。そして、そこからさらに多くの疑問に答えることができるようになるでしょう。プライバシー保護に配慮した方法で提供されるデータは、彼ら自身が分析を行えるようなデータです。例えばFacebook上のリンク、その閲覧数、その他のシグナルに関する情報が得られます。そして、それらのトピックに関連する様々な調査課題に回答できるようになります。

トンプソン:具体的にはどういうことですか?例えば、人々が求めているデータセットとは何でしょうか?

ライオンズ氏:データサイエンティストが実際にこの場にいないので、確認が必要です。順番を間違えて発言したくありませんが、外部の研究者として、偽ニュースドメインと特定した偽ドメインのサブセットの閲覧数を算出しようとすると、対象期間を問わず、それらのドメイン全てについて、Facebook上でどれだけの閲覧数があったかを特定する必要があることは想像に難くありません。現在、Facebook外部のデータを使ってこれを行おうとする多くの取り組みがあり、その多くは皆さんもご覧になったことがあると思います。インタラクティブデータや公開データを扱うサードパーティベンダーを利用しています。しかし、私たちは研究者と協力して、これらの様々な研究課題をより正確に理解したいと考えています。つまり、こうした種類のものも含める必要があるということです。

トンプソン:そのデータは入手しにくいのでしょうか?ロシアのデータはすべて削除されているので、実際にはロシアの広告に関するデータを取り戻すことはできません。

ライオンズ:広告業界については、データシステムについてよく理解していないのであまり詳しくは申し上げませんが、今回のケースでは非常に昔のデータを取得しようとすると、この委員会では確かに困難になるでしょう。しかし、委員会が抱える様々な疑問を測るために、どのようなデータポイントが必要なのかを伝えることはできます。プライバシーが保護された形でデータを提供できるよう委員会と協力し、どれくらい過去に遡れるのか、そしてそれが今後どのようなことを可能にするのか、その意味を解明していきます。

トンプソン:プライバシーを保護しながらそれを実現するにはどうすればいいのでしょうか?

エドゥアルド・アリニョ・デ・ラ・ルビア:本当に分かりやすいですね。URL、閲覧数、日付、もしくはURL、閲覧数、いいね数、日付です。私たちが提供していないのは、閲覧した人のユーザーIDといった個人情報です。それは共有すべき重要な情報ではありませんし、共有していません。

モッセリ:匿名化か集約化のどちらかですが、これも事実上は匿名化されます。例えば、このURLを見た100万人の人数は分からないかもしれませんが、100万人が見て、10万人が「いいね!」したということは分かります。

トンプソン:ニュースフィードには数百、いや数千ものシグナルがあります。私の見解では、その中にはパブリッシャーに高品質なコンテンツを提供する動機を与えるものもあります。例えば、記事の前後のシェア率は非常に良好で、読了時間も良好です。中には中立的なシグナルもあります。有意義なインタラクションはフィードを良い方向に押し上げます。しかし、「いいね!」やシェアのように、高品質な情報エコシステムの構築とは相関しないシグナルもあります。あるいは、相関が弱いかもしれません。偽情報やフェイクニュースに対抗するために、ニュースフィードの全体的な構造はどのように変化しましたか?ニュースフィードのコアアルゴリズムに施された変更のように、信頼性は当然のことながら一つであり、有意義なソーシャルインタラクションももう一つの要素です。では、他にはどのような要素があるのでしょうか?こうした問題に対抗するために、他の部分の比重を変更したことはありますか?

モッセーリ:少し話を戻しましょう。シグナルは数十万種類ありますが、予測はおそらく数十種類程度でしょう。念のため言っておきますが。シグナルとは、「今何時?」「インターネット接続の速度は?」「誰がこれを投稿したのか?」「人々は彼女の投稿に「いいね」やコメントをする傾向があるのか​​?」といったことです。予測とは、「あなたはどれくらい「いいね」をするか?」「どれくらいコメントするか?」「記事がクリックベイトになる可能性は?」といったことです。一般的に、ここ数年で私たちは価値モデルにおいて、クリックや「いいね」といった軽めのインタラクションから、動画をどれくらいの時間視聴するかといった、より重めの要素へと、ますます重みを増してきたと思います。あるいは、記事をどれくらいの時間読むか?「この記事はどれくらい有益か?」といった質問に、あなたは答えるでしょうか?あるいは、現在、私たちは幅広い信頼といったものに取り組んでいます。ですから、その方向に重点が移っているのがおわかりでしょうが、これは品質へとシフトする私たちのやり方だと私は思います。

しかし、これは本当に慎重になるべき分野だと思います。なぜなら、私たちが質の高いコンテンツに関与することが適切だと考える方法があるからです。ニュースにおいては、有益なコンテンツ、広く信頼されているコンテンツ、そして地域密着型のコンテンツに重点を置いています。一方で、不適切だと考える方法もあります。それは、「この人の文体が好きだ」と言うことです。あるいは、このイデオロギーの方が他のイデオロギーよりも重要だと考えているとか、この政治的見解に賛同するといったことです。ですから、これは業界で働く人々にとって共通の緊張関係であり、興味深い会話の話題でもあります。なぜなら、物事の進め方が大きく異なるからです。

エコシステムの品質向上を目指すなら、2つの方法があると思います。良い点をより多く育成し、悪い点により積極的に対処することです。そして、その両方を行う必要があります。しかし、よくある誤解を正すことが重要だと思います。それは、良い点を育成すれば、偽ニュースのような極めて深刻なエッジケースに対処できると思われがちですが、実際にはそうではありません。例えば、「幅広い信頼」です。私は、これがエコシステムにおける情報の質の向上に役立つと確信しています。しかし、デマが拡散する可能性を減らす効果はほとんど、あるいは全くないと考えています。なぜなら、デマは本質的にエッジケースであり、例外的なケースだからです。ちなみに、「幅広い信頼」は、十分なデータを持つパブリッシャーにのみ適用され、現在は米国のみで適用されています。そのため、深刻な問題に対処する必要がある場合、これに頼ることはできません。私たちは、より良いものをより多く育むために多くのことを行っています。私はその取り組みを誇りに思っており、今後もさらに努力していきます。まだ道のりは長いと思いますが、全体として、誠実性に関するいくつかの問題に対して、それほど大きな効果は得られていないと思います。これらの問題を実際に定義し、真正面から取り組む必要があります。

トンプソン:それは興味深いですね。どのようにして重いテーマ、あるいはシリアスなテーマに重点を移したのか、もう少し詳しく教えていただけますか?

モッセリ:こういった機能を追加してきました。例えば、以前は記事をどれくらいの時間読むかを予測したり、ドメインの信頼度を測ったり、動画をどれくらいの時間視聴するかを予測したりしていませんでした。私たちはこれらの機能を「p something」と呼んでいます。p comment、p informative(コメントする可能性、この記事を有益だと見なす可能性)などです。時間をかけてこれらの機能を追加していく中で、他の予測や結果も追加していくことで、より軽い要素からより重い要素へと重み付けがシフトしています。Local(ローカル)は1月にリリースした機能の一つです。

ヘーゲマン:彼が最後に指摘した、こうしたシグナルをもっと増やすという点は、本当に本当に重要だと思います。なぜなら、これらのシグナルを一つでも取り上げれば、それがうまくいかないケースを指摘できるからです。どれも時々はうまくいかないものですから。しかし、それぞれが全体像に貢献するのです。つまり、全体的な品質や人々がどれだけ何かを見たいのかという点について、よりニュアンスのある情報を加えるような予測因子をもっと増やしていく必要があるということです。

トンプソン:どれも完璧な指標ではありません。WIREDでは冗談で、「読者に記事を長く読んでもらうには、まずは綺麗で美しく、そして最後にひどい編集を施すのが一番だ」と言っています。そうすると読者は困惑してしまうのです。

[笑い]

モッセリ:ランキング作りの仕事と似ています。白黒はっきりしないからです。どんなアイデアでも、社外だけでなく社内でも、誰かが「これは裏目に出るユースケースだ」と言うでしょう。そして、あなたは「確かにそうだが、本当に機能するのか?問題を引き起こすよりも多くの価値をもたらすのか?問題がもたらすコストはそれほど高くないのか?」と自問自答しなければなりません。そして、毎日グレーゾーンと向き合うことになります。

トンプソン:最近、信頼できるニュースサイトが発表されて以来、最も好調なニュースサイトを示したグラフが出回っていました。フォックスがトップだったと思います。予想とは全く違っていました。このグラフは、A) 間違っていたのか、B) 正しくてなぜ正しいのか理解できないのか、C) 期待通りには機能していないことを示しているのか、どれでしょうか。

モッセリ:あのグラフは、信頼できる変化について言及していましたが、信頼できる変化そのものについてではありませんでした。パブリッシャーが今日と先日、それぞれどのようなトラフィックを獲得しているかを示したグラフです。

トンプソン:ああ、そうだね。つまり、信頼性よりもはるかに重要な要素があるかもしれないってことだよね。ここ3ヶ月で、彼らはより優秀なライターと編集者を抱えたってことだよね。

Su:私たちが絶えず追加している数千ものシグナルと数十もの予測に加えて、エコシステムには変動もあると思います。そのため、ある日はニュースが増えたり、人々がニュースにもっと関心を持つ日もあったりします。ジョンが先ほど触れたように、パブリッシャーが変化に反応するという、見方によっては悪循環にも好循環にもなり得ます。つまり、私たちがスナップショットを撮るのは非常に難しいということです。しかし、私たちはエドゥアルドが率いる非常に優秀なデータサイエンスチームに恵まれており、彼らが「私たちが行っている個々の変化がどのような貢献をしているのか、それらが互いにどのように相互作用しているのか、そしてエコシステムへの影響とどのように相互作用しているのか」を解明するのを助けてくれるのは本当に幸運です。

タッカー・バウンズ:追及するつもりはありませんが、これは3月と4月の比較です。1月と4月で全く同じ比較をすると、CNNは大きく上位にランクインします。

Mosseri:ですから、比較をする際には、常にこれらの点に注意する必要があります...

トンプソン:それはフェイクニュースだった。

[笑い]

モッセリ氏:いくつか標準的な点があります。例えば、2つの日付を比較する場合、その日付をきちんと確認する必要があります。一般的にエコシステムは非常に不安定なので、ピークや谷を誤って選択してしまい、伝えたいことによっては、非常に悪い状態や非常に良い状態に見える可能性があります。彼らが意図的にそうしたと言っているわけではありません。しかし、移動平均線や長期的なトレンドラインを必ず確認する必要があります。そうしないと、データの解釈を非常に簡単に誤ってしまう可能性があります。

アリニョ・デ・ラ・ルビア:データの誤解釈は文字通り常に起こります。例えば、任意の日付を選んで、そこにエイプリル・フールが含まれていたら、「ああ、こんなに嘘が広まっているんだ」と驚くでしょう。バレンタインデーが含まれていたら、「ああ、世界は恋に落ちているんだ」と思うでしょう。日付を選ぶのを難しくする、巨大なマクロトレンドがあるのです。

モッセリ:はい、2つの移動平均線を選びます。2ヶ月分を選んで比較したり、より長期的な傾向を見たりします。ちなみに、社内でも同じ間違いを犯しています。

Su:外部の方々に分析をしていただけることに、今でも本当に感謝しています。なぜなら、正しく分析するのは本当に難しいからです。社内外で様々な手法を試せば試すほど、正しく分析できる可能性が高まります。また、学術界とのパートナーシップについても触れますが、未知の要素を特定するために、独立した立場の方々の協力を得ることも非常に重要だと考えています。先ほど説明した、原則とガイドラインを特定し、それらのガイドラインに従ってデータをラベル付けし、分類器をトレーニングし、調整し、それを用いてランキングを変更するというプロセスでは、定義を把握し、何を探しているのかを把握している必要があるからです。敵は常に新しい試みを試みてきます。彼らは非常に創造的で、非常に意欲的です。ですから、多くの人々にこの分析結果を見てもらい、次に何をすべきかを見極める手助けをしていただく必要があるのです。

アリニョ・デ・ラ・ルビア:彼らにとって、対戦相手との優れた関係は存在そのもの。それほどまでに優れていなければならない。

トンプソン:ニュースフィードアルゴリズムにおいて、商業的関連性がどのようにシグナルとして機能しているのか、私には理解できません。Facebookは、コアアルゴリズムの仕組みを理解するために、商業的関連性をどのように利用しているのでしょうか?そして、それがこの問題に何らかの影響を与えているのでしょうか?

モッセーリ:商業的関連性とはどういう意味ですか?

トンプソン:投稿の横にある広告がクリックされそうな内容であれば、その投稿の心理的効果により、友人のフィードや私のページのフィードをフォローしている人々のフィードにその投稿がより頻繁に表示されるようになるのでしょうか?

複数人:いいえ。

ジグモンド:もし、広告がニュースフィードの横でうまく機能したために、人々がフィードに費やす時間が長くなり、その結果、より多くの人がニュースフィードを見て、インタラクションするようになった、といった奇妙なフィードバックがない限りは… つまり、非常に複雑で間接的な関係があるはずです。ニュースフィード内で私たちがやっているのは、広告用に一定のスペースを確保し、別のチームがそのスペースを埋める作業を行うだけです。

トンプソン:では、投稿が広告とどのように相互作用するかは関係ないということですか?

複数人:いいえ。

トンプソン: Facebook での会議に出席していて、そのことについて聞かされたと誰かが私に話しました。

ヘーゲマン:そこには少しニュアンスがあり、それを明らかにできるかもしれません。おそらく混乱が生じていたのでしょう。広告は、オーガニックな通常のニュースフィードに表示される投稿には影響を与えません。これは、人々が見たいものに基づいて、質の高い有益な投稿を見極めようとしているだけです。確かに、あなたが見ている投稿、つまり友達ページや友達の人たちから見る通常の投稿は、次にどの広告が表示されるか、あるいはその後にどの位置に表示されるかに、ある程度影響を与える可能性があります。ですから、細部まで考えてみると、その方向に何らかの影響を与える可能性はあると思います。もしかしたら、混乱の一部はそこから来ているのかもしれません…

モッセリ:あるいは、フィードとは異なる文脈ですね。例えば、関連動画などでは、確かに…フィードでは、私たちが行ったあらゆる調査から、人々はフィードを一つの場所としてではなく、スクロールしながら見ている様々な記事の集まりとして捉えていることが示唆されています。一方、インスタント記事や動画チャンネルに広告を表示する場合は、はるかに多くの…人々はそれを…あなたが提起している問題は、パブリッシャーよりも広告主から多く寄せられると考えています。ですから、彼らはニュースフィードとは異なる文脈について話していたのかもしれません。しかし、広告の大部分はニュースフィードに表示されています。

ジグモンド:具体的に言うと、記事のランキングは、どの広告が表示されるかがわかる前に決定されます。広告が表示されるのは二番目なので、因果関係がその方向に働くことはあり得ません。

ヘーゲマン氏:予測しているのはほんの一部です。これらの予測はどれも、その結果として次に表示される広告からどれだけの収益が増加するかを示すものではありません…

マクナリー:文字通り、違う人たちです。

ライオンズ:ジョンも彼らのうちの一人でした!

トンプソン:ええ、広告モデルを構築したのはあなたではないのですか?

ヘーゲマン:ええ、確かにいくつか類似点があります。広告システムも、人々が何を見たいのか、何が関連性があるかを考慮しようとします。これらは両方のシステムに共通する要素、原則、価値観です。しかし、だからといって両者が別個のものであるという事実は変わりません。

トンプソン:私の仮説の一つは、もしかしたら間違っているかもしれませんが、偽情報の多くはグループから発信されているということです。それは、同じ考えを持つ人々のグループから始まり、自ら選んだ人々、あるいはカスタムオーディエンスを使ってオーディエンスを構築し、事実上カスタムオーディエンスを中心としたグループを形成しているページから発信されます。そして、偽情報はグループ内で発信され、ニュースフィードのコア部分にまで広がっていきます。これを阻止する一つの方法として、核となるのはカスタムオーディエンスとセグメンテーションをブロックすることです。核心ではないもう一つの方法は、カスタムオーディエンスを制限し、偽情報が多く存在する可能性のあるセグメントのセグメンテーションを制限することです。皆さんはこれを実践していますか?このことについて考えたことはありますか?この分析のあらゆるレベルで、私の考えは間違っていますか?

モッセリ:グループとカスタムオーディエンス、そしてターゲティングを分けたいと思っています。テーマ的に関連していて、小文字の「g」で始まるグループがあるのは理解できますが、大文字の「G」で始まるグループはFacebook上では標準的な表現になっているので…

トンプソン:では、グループを分けてみましょう。グループの構成方法を調整して、グループ内での偽情報の拡散を抑制する方法はあるでしょうか?あるいは、グループを廃止すれば偽情報の拡散は止まるでしょうか?カスタムオーディエンスについても同じ質問です。

モッセーリ:グループを排除しても偽情報の拡散は止められません。

トンプソン:速度を落としてもらえますか?

モッセリ:ええ、そうかもしれませんね。でも、他の色々なことも遅くなってしまいますよ。

トンプソン:偽情報を広める可能性が高いグループや、偽情報を広める伝統があるグループを排除したらどうなるでしょうか?

モッセリ:でも、それが私たちのやり方です。[Facebookはグループから生まれ、ニュースフィードに表示される偽ニュースに対しては措置を講じますが、プラットフォームの利用規約やコミュニティ規定に違反しない限り、グループを削除することはありません。]「政治的な内容はすべて配信が減ります。あらゆる政治団体の配信も減ります」などとは言いたくありません。なぜなら、たった一つの偽ニュースの拡散をほんの少し減らすだけで言論を阻害し、健全な市民社会の議論全体も損なうことになるからです。そして、回避している問題よりも、むしろ多くの価値を失っていることになります。ちなみに、カスタムオーディエンスでも同じことが言えます。ターゲティングは実際にはフィード側ではなく、広告側に存在すると思います。しかし、これは非常に有用だと思います。子供がいない限り、おむつの広告は見たくないでしょう。ですから、これは実際には有用な機能なのです。問題を少しでも簡単にしようとして、突然、関連性の低い広告が表示されるようでは困りますよね。私たちは、具体的に対象を絞って対処する方がはるかに効果的だと考えています。そのため、特定のグループやページが誤情報やフェイクニュースを大量に共有していると判断した場合、その配信に直接的に対処します。

アリニョ・デ・ラ・ルビア:しかし、私はそれに異議を唱えたいのです。誤情報は様々な場所で生まれます。グループやページからだけ生まれるわけではありません。個人から生まれることもあれば、突然どこからともなく現れ、多くの人が同時に同じ、あるいは関連する誤情報を共有する瞬間もあります。まさにこれがここでの課題です。データを見て「特効薬はあるか?」と自問自答する時、それは違います。誤情報は敵対的なものであり、人間が触れるあらゆる場所から、そして人間は様々な場所に触れることができるのです。

トンプソン:確かに可能性はあります。でも、グループから来る方が多いのではないでしょうか?この件を調べた私の知る最も賢い人たちは皆、グループこそが問題の発端だと確信しています。ワクチン反対派のグループがあって、そこから「ワクチンが自閉症を引き起こす」といった情報が広まり始めるのです。そして、それが明るみに出るのです。

Mosseri:具体的には、大文字の「G」のグループのことをおっしゃっているのですか?

トンプソン:はい、大文字の「G」のグループです。

シルバーマン:私たちはそうした行為に対しては厳正に対処します。ただし、これはフェイクニュースだけを対象にしているわけではないことを明確にしておきたいと思います。これは誤報、クリックベイト、そして広告ファームにも当てはまります。ユーザーにとって価値が低いと私たちが判断するような行動を繰り返し取るページには、何らかの形で対処します。

ヘーゲマン:これも良い例だと思います。フェイクニュースには様々なニュアンスがあると思います。フェイクニュースには様々な意味があり、様々な種類があります。例えば、フェイクニュースの種類によっては、あなたがおっしゃっていることがある程度真実である可能性もあるでしょう。だからこそ、私たちはこのパートナーシップを通してこの問題を掘り下げ、これらの疑問に的確な答えを導き出したいと考えています。

モッセリ:しかし、偽ニュースのほとんどがページから発信されているからといって、すべてのページコンテンツの配信を減らすつもりはありません。そうすると、生み出す価値よりもはるかに多くの価値を失ってしまうように思えるからです。それに、どの出版社も私たちにそうすることを望んでいないでしょう。

トンプソン:さて、話題を変えましょう。アントニアさん、動画の中で動画はテキストよりも難しいと言っていたのはあなただったと思います。皆さんはこれを応用できるでしょうか?ウェブが動画化され、VR、そしてニューラルリンクのような技術が普及していく中で、誤情報操作を阻止するためのルールは今後も適用されていくのでしょうか?本当に、ウェブ上の偽情報は今まさにひどい状況です。もし私たちの脳が操作されたらどうなるのでしょうか?レジーナ・デューガン氏がかつて展開していたようなことが実現するとしても、それは4年ほど先の話です。これはOculusにも当てはまるのでしょうか?

シルバーマン:そうですね、これは先ほどテッサが私たちが用いるシグナルの種類について述べたことと関係があります。ですから、それらのシグナルの一部は、どちらのケースにも等しく適用されることになります。例えば、投稿にコメントして信じられないと言ったり、報告して虚偽だと言ったりする人々について考えてみましょう。これらは様々な種類のコンテンツに等しく適用され、私たちはそれに基づいてかなりの量の対策を講じることになります。

アントニア・ウッドフォード:短期的な対策と長期的な投資についてお話ししようと思っていました。短期的には、リンクの検証で既に提携しているファクトチェックパートナーと協力し、写真や動画を検証する機能を数カ国で試験的に導入しています。また、写真や動画に含まれる誤情報の予測についても、テッサが先ほどジョンも言及したような、現在既に使用しているのと同じシグナルを用いて試行しています。しかし、技術の発展に伴い、より高度なシグナルが出現することも認識しています。最近、ディープフェイク動画とその意味について多くの憶測が飛び交っていますが、人間の目で本物か偽物かを見分けるのは非常に難しい場合があります。そのため、社内の各部門の人工知能チームと連携し、こうしたトレンドに先手を打って、アルゴリズムで検出できるように全力で取り組んでいます。

トンプソン:では、皆さんのチームのメンバーは徐々にテキストからビデオ、そして VR へと移行していくのでしょうか?

マクナリー氏:ある意味では、私たちはすでに何人かの人材をそのスタックに沿って移動させています。

Mosseri:写真とビデオをもっと増やしてください。VR はまだ少し先の話だと思いますが...

トンプソン:これまでの成功を示す最も優れたデータについて教えていただけますか?多くのアカウントを削除したことは承知していますが、2016年8月と2018年5月を比較すると、Facebook上の虚偽コンテンツの割合はどれくらいですか?

ライオンズ:当初は少数だったことが分かっており、減少傾向にあることも分かっています。私が学術界とのこのコラボレーションに非常に期待を寄せている理由の一つは、2017年8月と2018年8月、あるいはあなたが選んだ時点において、誰が虚偽と定義しているのかが不明瞭なため、この数字を共有することが困難だったからです。ですから、私たちは普及データやリーチデータなど、学術界と協力して考案するあらゆる指標を共有することに尽力しています。これらの指標は、私たちの進捗状況だけでなく、インターネット全体、ソーシャルメディア全体におけるより広範な進捗状況を時系列で測定するための手段となるでしょう。これは非常に重要です。これは、進捗状況を示すだけでなく、急増している状況を把握し、より幅広い関係者を巻き込んでこれらの課題への取り組みを支援するためにも必要です。

ジグモンド:もう一つ言いたいのは、私はこの件にかなり取り組んできたということです。先ほどおっしゃったように、すべての誤情報が同じというわけではありません。現実世界への影響が大きいものもあれば、ほとんど影響がないものもあります。ですから、これは厳密に数字の問題ではありません。私たちの見解としては、どんな量でも多すぎるということです。ですから、10%、50%、あるいは99%でも削減できれば素晴らしいのですが、それでも漏れ出ているわずかな情報から害が生じる可能性は依然としてあります。

トンプソン:もしこれを90%削減できれば、他のプロジェクトに携わることのできるこれほど多くの優秀で重要な人材を投入する必要がなくなります。これは明らかに会社にとって非常に重要な課題です。11分間の動画ではなく、2分間の動画で済むはずです。

モッセリ氏:まだ新しい戦術があるでしょう?90%削減して作業をやめたら、また増えるだろうと想定すべきですからね。

アリニョ・デ・ラ・ルビア:もし90%の偽ニュースを削除したとしても、削除するのは社会的な影響を及ぼさない偽ニュースだけ、例えば有名人が亡くなったとかドーナツが好きだとか、真実ではない話だけであれば、残った10%が有害な10%であっても問題はありません。重要なのは数ではありません。数×潜在的危害×分布ベクトルなのです。

トンプソン:この件を考察した賢明な人たちの中には、フェイクニュースが一票でも変えたと考える人は馬鹿だと言う人がいるのは知っています。また、フェイクニュースがトランプ氏の勝利の理由だとする議論もあります。あなたはその点についてどうお考えですか?

モッセリ:重要なのは、選挙を完全に排除することだと思います。これは依然として問題であり、依然として重要であり、私たちが大切にしているもの、そして私たちの製品を使う人々が大切にしているもの全てを脅かしているので、私たちは対処しなければなりません。選挙に影響を与えたかどうかについては様々な議論がありますが、選挙には様々な要因が影響します。私は、その議論全体が単なる論点のすり替えであり、実際には…

トンプソン:これはレッド・ニシンよりも悪いかもしれない。なぜなら、これによってトランプ氏はフェイクニュースに反対するようになり、さらにメディアに反対するようになったからだ。

モッセリ:状況は急速に複雑化しました。しかし、正直に言って、私たちにとっては問題です。私たちのプラットフォーム上での偽ニュースの拡散を、人間の力で可能な限りゼロに近づける責任があり、私たちはそれを追求していきます。

トンプソン:話していないことで私が聞き逃したことはありますか?

ライオンズ:念頭に置いておくべき重要な点の一つは、これは世界的な課題であり、誤情報に関しては昔からそうであったということです。しかし、これは今日においても確かに当てはまります。この問題が世界的にどのように現れるか、そして世界規模でそれと戦うために私たちが持つ手段は、場合によっては異なります。そのため、私たちは皆、この会話で示されたよりもはるかに多くの時間を、こうした要素について考えることに費やしています。

トンプソン:選挙はありますか?皆さんは現在メキシコの選挙に注目していますか?

多くの声:来たる選挙すべて。

ライオンズ:選挙期間以外でも同様です。特に一部の国では、選挙期間外でも誤情報が他のあらゆるものと同じくらい有害になる可能性があるため、私たちは現在、非常にグローバルな視点で活動しています。

ジグモンド氏:世界中の20億人が私たちがこの問題を解決してくれることを期待しています。それは前回の選挙で何が起こったかに関わらず真実です。ですから、これは私たちにとって非常に重要なことであり、私たちは長い間この課題に取り組むことになると思います。

トンプソン:皆さん、ありがとうございました!とても興味深いお話でした!皆さんが時間を割いてくださって本当に嬉しいです。本当に寛大な気持ちです。