AIがFacebookのクリーンアップを開始したが、完了できるだろうか?

AIがFacebookのクリーンアップを開始したが、完了できるだろうか?

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

2017年8月25日早朝、ミャンマーのイスラム系少数民族ロヒンギャの武装勢力が同国北西部の軍拠点を襲撃し、12人を殺害した。治安部隊は直ちに報復措置として、数週間にわたる村の焼き討ちと大量虐殺を行った。ロヒンギャの死者が数千人に達する中、ミャンマー軍の指導者たちはFacebookでその状況を訴えた。

最高司令官は、ミャンマーのロヒンギャ族を蔑称で「ベンガル問題」の解決を誓う投稿をした。別の将軍は「地域の平和回復に向けた素晴らしい努力」を称賛し、「人種は地面に飲み込まれることはなく、別の人種に飲み込まれるしかない」と指摘した。国連の暴力に関する事実調査報告書は後に、最高司令官の投稿がジェノサイドを示唆していると指摘し、ミャンマーのロヒンギャ族に対する憎悪を煽るFacebook投稿の歴史を指摘した。ミッションの議長は記者団に対し、Facebookがこの危機において「決定的な役割」を果たしたと述べた。

4月、米国議会議事堂でジェフ・フレーク上院議員がフェイスブックCEOのマーク・ザッカーバーグ氏に、同社がどのようにしてそのような役割を回避できたのかと尋ねた。当時33歳だったザッカーバーグ氏は、ビルマ語を話す人材をもっと多く雇用していたと述べ、その後、お気に入りの話題である人工知能について詳しく説明した。「長期的には、AIツールの構築こそが、こうした有害コンテンツのほとんどを特定し、根絶するためのスケーラブルな方法となるだろう」と彼は述べた。2日間にわたる議会公聴会で、ザッカーバーグ氏はAIについて30回以上言及した。議員らに対し、AIはフェイクニュースと闘い、人種や性別を理由に差別する広告を防ぎ、テロリストのプロパガンダを阻止するだろうと述べた。

Facebookは過去1年間、目もくらむような一連の告発とスキャンダルに直面してきた。その中には、ロシアによる選挙介入や雇用差別を助長した容疑に加え、ミャンマーにおけるジェノサイドへの共犯も含まれている。月曜日に発表された上院報告書は、Facebookの関連サイトにおけるロシアの活動はこれまで知られていたよりもはるかに大規模であり、2016年の大統領選挙においてロシアのトロールがFacebookのサービスを利用して投票率を抑制したという主張を軽視することで、Facebookが議会を欺いたことを示唆した。

Facebookの謝罪の多くには共通のテーマが見られる。それは、AIが同社のプラットフォーム上で潜伏している問題の解決に役立つという点だ。同社の最高技術責任者(CTO)であるマイク・シュローファー氏は、この技術こそが、悪意ある人物によるサービスの悪用を防ぐ唯一の方法だと述べている。23億人の常連ユーザーがいる中で、すべてを人間が確認するのは法外な費用がかかるだけでなく、不気味な行為にもなりかねない。「ほとんどの人は、それに抵抗を感じると思います」とシュローファー氏は述べ、ユーザーが自分の投稿すべてをアルゴリズムで確認されることに不気味さを感じる可能性を否定した。「私にとって、AIはポリシーを実行するための最良のツールです。他に何があるのか​​、正直言って分かりません」

画像には照明、人物、衣服、アパレル、袖、ブライアン・スタン、群衆、指が含まれている可能性があります

Facebook CTO Mike Schroepferパトリシア・デ・メロ・モレイラ/AFP/ゲッティイメージズ

AIに頼るのは賭けだ。アルゴリズムはFacebookの取り締まりに役立つことが証明されているが、万能薬にはほど遠く、永遠にそうなることはないかもしれない。同社はポルノやヌードの検知とブロックに大きな成功を収めている。しかし、テキストを確実に解読できるようにソフトウェアをトレーニングするのは、画像を分類するよりもはるかに難しい。Facebookの広大なプラットフォーム全体で嫌がらせ、ヘイトスピーチ、危険な陰謀論を取り締まるため、同社は100以上の異なる言語の微妙なニュアンスを理解できるAIシステムを必要としている。不足分はすべてFacebookの約1万5000人の人間のレビュー担当者が見つけなければならないが、このソーシャルネットワークの規模を考えると、彼らの作業負荷がどの程度管理可能かは不透明だ。ミャンマーでの出来事が示したように、メンロパークからは小さく見える執行網の隙間も、Facebookによって世界が形作られている人々にとっては危険なほど大きく感じられることがある。

肉検出器

Facebookによるコンテンツモデレーションの自動化への取り組みは、オンライン言説の専門家ではなく、広告担当役員の主導で始まった。タントン・ギブスは2014年にエンジニアリングディレクターとして採用され、以前マイクロソフトとグーグルで勤務していたように広告技術に携わっていた。Facebookのモデレーションの課題を聞いた後、彼はよりアルゴリズム重視のアプローチを提案した。Facebookは、児童搾取に該当することが知られている画像をブロックするためにマイクロソフトとダートマス大学が開発したPhotoDNAというツールを採用していたが、画像分析ソフトウェアやAIをより広範囲に導入してはいなかった。「彼らはポルノ、ヘイトスピーチ、暴力描写などに関する報告の審査に、厳密に人間を使っていました」とギブスは言う。「私はそれを自動化すべきだと考えました」Facebookはギブスをシアトルに拠点を置く新しいチームの責任者に任命した。このチームは当初CareMLと呼ばれていた。

この新しいグループはすぐにその真価を証明した。ギブスと彼のエンジニアたちは、ディープラーニングと呼ばれる技術を採用した。これは、サンプルデータを用いてアルゴリズムを訓練する手法で、当時ははるかに強力になっていた。Googleは猫を認識するように学習するソフトウェアを開発し、この技術の威力を示した。ギブスのグループはより静かに、ディープラーニングアルゴリズムにポルノや裸の人間の認識を教え込んだ。当初、このソフトウェアはFacebookユーザーがフラグを付けた画像を審査していた。1年半後、ギブスは誰かが報告する前に、新たに投稿されたコンテンツに自分のシステムがフラグ付けする許可を得た。Facebookによると、現在では成人向け画像やヌード画像の96%が自動的に検出され、誰かが報告する前に削除されているという。

それでも、Facebookのアルゴリズムをすり抜けている裸の肉体は相当な数に上る。同社によると、2018年第3四半期にはヌードや性行為の画像と動画を3080万件削除した。つまり、アルゴリズムがそのような画像を130万件も捕捉できなかったということだ。実際、Facebookはヌードや性的なコンテンツを含む閲覧の割合が、9月までの12か月間でほぼ倍増し、閲覧1万回あたり約9回になったと推定している。「Facebookに投稿されるヌードが増え、当社のシステムはそれをすべて捕捉できず、閲覧数の増加を防げなかった」と、Facebookは最新のコミュニティ規定施行報告書で述べている。投稿され、見られながらも検知・報告されていないものがどれだけあるかは不明だ。

それでも、ポルノ撲滅におけるギブス氏のプロジェクトの成功は、Facebook幹部がAIによるサービス浄化の可能性を喧伝する際のお気に入りの話題となっている。これは、アルゴリズムによる免疫システムがFacebookユーザーを有害コンテンツから、そしてFacebook自身を有害コンテンツ配信の悪影響から守るのに役立つという考え方を実証するものだ。Facebookによると、直近3ヶ月間にプラットフォームから削除されたヘイトスピーチの半分強は、アルゴリズムによって最初にフラグ付けされたもので、これは今年初めの2倍以上に上る。いじめを理由に削除された投稿の約15%は、誰かが報告する前に特定され削除されている。しかし、いずれの場合もアルゴリズムが投稿を削除するわけではない。プログラムは投稿にフラグを付け、人間が確認できるようにするのだ。

Facebookの課題は、サービスが利用されている100以上の国と言語において、約1万5000人の人間の審査員が確実に不足分を補えるよう、自社の技術をうまく機能させることです。ヘイトスピーチやいじめの検出機能を、ポルノフィルターの有効性と自律性に近づけることは特に困難です。

ディープラーニングのアルゴリズムは、画像を猫か車か、ポルノかそうでないかといったカテゴリーに分類するのに非常に優れています。また、コンピューターの言語処理能力も向上させ、Alexaのようなバーチャルアシスタントの実現や自動翻訳の精度の飛躍的な向上に貢献しました。しかし、比較的単純なテキストでさえ人間のように理解できるようになるには、まだ程遠い状況です。

言語の解読

「お前を殴ってやる」という投稿が脅迫なのか友好的な冗談なのかを理解するために、人間のレビュー担当者なら、近所のバスケットコートの画像が添えられているかどうかや、以前のメッセージの言い回しやトーンなどを難なく考慮に入れるかもしれない。テキサスA&M大学の教授、ルイホン・フアン氏は「モデルがそのような方法で文脈を利用できる方法が理解されていない」と語る。同氏は今秋、言語処理研究の世界トップクラスの会議で、オンライン虐待対策にアルゴリズムを使用するという学術ワークショップの企画に携わった。参加者数と論文数は、このイベントが初めて開催された2017年と比べてほぼ倍増したが、研究者が勝利の匂いを嗅ぎつけたからではない。「多くの企業や学界の人々は、これが重要な課題であり問題であると認識しつつあるが、これまでのところ進歩は満足のいくものではない」とフアン氏は言う。「要するに、現在のモデルはそれほど賢くない。それが問題だ」

Facebookの応用機械学習グループでエンジニアリングを率いるスリニヴァス・ナラヤナン氏も同意見だ。彼は、チームがポルノやヘイトスピーチを大規模にスキャンできるシステムの開発に取り組んだ成果を誇りに思っているが、人間レベルの精度とニュアンスまで理解できるかどうかは、まだ遠い希望だ。「そこまで深く理解できるようになるには、まだ遠い道のりだと思います」と彼は言う。「機械はいずれできるようになるでしょうが、ただ、その方法がまだわからないだけです。」

Facebookには、長期的な基礎研究に取り組んでいる大規模な多国籍AI研究所があり、将来この謎を解く糸口となる可能性があります。ジャーナリスト、議員、市民社会団体、そして国連でさえ、FacebookのAI研究は現状の改善を期待しています。FacebookのAIチームは、次のスキャンダルが起こる前に、有意義な進歩をもたらす技術を開発する必要があります。

実用的な新しいAIツールへの取り組みの成果として、今年発表された「Rosetta」と呼ばれるシステムが挙げられる。これは画像や動画に埋め込まれたテキストを読み取り、ヘイトスピーチ検出器に入力できるようにするものだ(一部のオンライン荒らしが既にこれを欺く方法を試行しているという証拠もある)。別のプロジェクトでは、Instagramユーザーの数十億ものハッシュタグを用いてFacebookの画像認識システムを改善した。FacebookはFacebook上のいじめ投稿の例を用いて、AI搭載のサイバーいじめっ子を訓練し、テキスト生成器を生成してモデレーションアルゴリズムの改善を図っている。同社はWIREDに対し、その出力結果のサンプルを提供することを拒否した。

こうしたプロジェクトの大きな課題は、今日の機械学習アルゴリズムを限定的で具体的なデータで訓練しなければならないことだ。Facebookは今夏、一部のモデレーターの働き方を変更し、ヘイトスピーチに関するより有用な訓練データを生成することを狙った。ヘイトスピーチのフラグが付けられた投稿を削除するかどうかを、Facebookのルールに関する知識を使って判断するのではなく、モデレーターは一連のより限定的な質問に答えるようになった。投稿には中傷的な表現が使われていたか?保護対象のカテゴリーに言及していたか?そのカテゴリーがこの投稿で攻撃されていたか?その後、レビュアーはすべての回答に目を通し、最終判断を下す。これらの回答は、アルゴリズムが中傷などを自ら見つけられるように訓練するための有用な情報源でもある。「このきめ細かいラベル付けにより、分類器を構築するための非常に有益な生の訓練データが得られる」と、コンテンツモデレーションプロセスの開発チームを率いるアーシン・ゴータムは語る。Facebookはこの新モデルを恒久的なものにすることを検討しており、最初はヘイトスピーチ向けに、その後は禁止コンテンツの他のカテゴリーにも適用する可能性もある。

一方、Facebookはトレーニングデータの問題を回避しようと試みている。ミャンマーでの悲劇的な出来事から得られた教訓の一つは、異なる市場の言語と文化を理解するために、人間とソフトウェアの配置をより効果的にする必要があるということだと、グローバルオペレーションを担当する副社長のジャスティン・オソフスキー氏は述べている。

複数の言語でテキストを解読するアルゴリズムを学習させる従来のアプローチは、Facebookにとって非常にコストがかかります。英語の誕生日の挨拶やヘイトスピーチを検出するには、数千、できれば数百万の例文が必要です。新しい言語に拡張するたびに、新しいデータセットが必要になります。これはFacebookのような規模の企業にとって大きな課題です。

解決策として、Facebookは英語やスペイン語などの共通言語向けに構築されたシステムを、ルーマニア語やマレー語などのあまり一般的でない言語でも使えるように適応させている。その方法の一つが自動翻訳を使うことだ。Facebookは投稿を英語に変換し、米国のコンテンツでトレーニングしたクリックベイト検出機能に入力することで、ハンガリー語やギリシャ語などの言語でのクリックベイトを抑制できている。また、英語の言語を翻訳することで、あまり一般的でない言語用の新しいトレーニングセットも作り出している。別のプロジェクトでは、言語間の深い類似性に基づいて準備された多言語システムを作成する。つまり、一度英語でタスクをトレーニングすれば、イタリア語でも即座に同じことができるようになる。「こうした多言語アプローチは、言語間の整合性の問題にAIを適用する私たちの能力を本当に加速させるのに役立っています」とNarayanan氏は言う。

このプロジェクトは、Facebookが直面する課題の大きさを浮き彫りにする。これまでのところ、同社の多言語対応策は、ビルマ語など、同社が比較的データセットの少ない言語では機能していない。同じ課題は、西アフリカのハウサ語にも存在する。ハウサ語は反イスラム教のヘイトスピーチ運動で使用されており、地元警察は先月BBCに対し、このヘイトスピーチが10件以上の殺人事件につながったと述べている。Facebookは、ナイジェリアのファクトチェック機関やNGOとの関係を拡大し、ヘイトスピーチや暴力的な画像へのフラグ付けに機械学習を活用していると述べている。

将来を見据えるよう促されたFacebookの最高技術責任者、シュローファー氏は、このような事件を未然に防ぐことは不可能だと認めている。「私がよく自問するのは、同等の複雑さを持つ他の事業で、100%の安全記録を持つものは何かということです」と彼は言う。「思い浮かびません。航空機、自動車、宇宙旅行、法執行機関。犯罪率がゼロの都市、あるいはその方向に向かっている都市をご存知ですか?」

それでも、彼はFacebookの行く末について楽観的な見方を崩さず、Facebookのアルゴリズムが非常に効果的になり、いじめやヘイトスピーチが事実上消滅する日を想像している。「2年後、3年後、あるいは5年後には、Facebookからいじめやヘイトスピーチがほとんどなくなり、Facebookが世界に大きな影響を与えていると主張するのは馬鹿げていると思うようになることを願っています」とシュローファー氏は言う。技術屋は夢を見ることができるのだ。


WIREDのその他の素晴らしい記事

  • 南極大陸で最も恐ろしい氷河を理解するための競争
  • アストンマーティンの300万ドルのヴァルキリーにV12エンジン搭載
  • CIAがスパイを訓練して人目につかないようにする方法
  • Facebookの汚い手口はテクノロジー業界では目新しいものではない
  • Apple Watchの新しい心拍数機能の使い方
  • 👀 最新のガジェットをお探しですか?おすすめ商品、ギフトガイド、お得なセールなど、一年を通してチェックしてみてください
  • 📩 次のお気に入りのトピックについてさらに詳しく知りたいですか?Backchannelニュースレターにご登録ください