AIと汚い言葉、いたずらな言葉、卑猥な言葉、その他悪い言葉のリスト

コメディアンのジョージ・カーリンはテレビで言ってはいけない7つの言葉のリストを公開していました。インターネットの一部では、402個の禁止語と絵文字「🖕」のリストが公開されています。

Slackは、GitHubで公開されているオープンソースの「汚い言葉、わいせつな言葉、卑猥な言葉、その他不適切な言葉のリスト」を使用して、検索候補の精度向上に役立てています。オープンソースの地図作成プロジェクトであるOpenStreetMapは、このリストを使用して地図編集のサニタイズを行っています。Googleの人工知能研究者は最近、言語理解のための強力な新システムのトレーニングに使用されたデータセットから、これらの言葉を含むウェブページを削除しました。

LDNOOBWは、ご存知の通り、長年目立たないユーティリティでしたが、最近になって注目を集めるようになりました。ブロックリストは、ソフトウェアの機械的なロジックと人間の行動や言語の有機的な矛盾との間の溝を埋めようとします。しかし、このようなリストは必然的に不完全であり、意図しない結果をもたらす可能性があります。一部のAI研究者は、GoogleによるLDNOOBWの使用は、同社のソフトウェアが人間性について知っていることを狭めていると批判しています。また、同様のオープンソースの「不適切な」言葉のリストが原因で、チャットソフトウェアRocket.Chatは「Queer in AI」というイベントの参加者に対し、「queer」という言葉の使用を検閲しました。

下品、わいせつ、卑猥、その他不適切な言葉のリストは、2012年にストックフォトサイトShutterstockの従業員によって作成されました。同社のエンジニアリングチームを率いていたダン・マコーミック氏は、サイトの検索ボックスのオートコンプリート機能の安全策として、卑猥または不快な言葉のリストを作成したいと考えていました。マコーミック氏はユーザーが好きな言葉を入力することには賛成でしたが、オープンオフィスで突然表示されるのを見て驚くような言葉をサイトが積極的に提案するのは望んでいませんでした。「誰かがBと入力した時に、最初に表示される言葉が「おっぱい」だったら困りますよね」と、2015年にShutterstockを去ったマコーミック氏は言います。

彼と同僚たちは、カーリンの『七つの言葉』を手掛かりに、脳の奥底を探り、Googleを使って、時に難解な性行為に関するスラングを習得した。彼らは最初の342件のエントリをGitHubに投稿し、投稿を募るメッセージと「次のスクラブルゲームに彩りを添えるかもしれない :)」という提案を添えた。

Googleの人工知能（AI）研究者たちは最近、LDNOOBWに新たな名声と悪評をもたらした。2019年、同社の研究者たちは、このリストを用いて、ウェブから収集された数十億語の単語コレクション「Colossal Clean Crawled Corpus（大規模クリーンクロールコーパス）」に含まれるウェブページをフィルタリングしたと報告した。この検閲されたコレクションは、同社が公開した中で最大規模の言語AIシステムを構築した最近のGoogleプロジェクトの基盤となり、読解問題や映画レビューの文章に肯定的または否定的なタグを付けるといったタスクで優れた結果を示した。

同様のプロジェクトでは、驚くほど流暢なテキストを生成するソフトウェアが開発されている。しかし、一部のAI研究者は、GoogleがLDNOOBWを用いてAI入力をフィルタリングしていることに疑問を呈し、多くの知識が除外されていると指摘している。猥褻語、人種差別的中傷、解剖学用語、あるいは「性別」という言葉を含むページを文脈に関係なく削除すれば、フォーラムへの中傷的な投稿だけでなく、教育・医学関連の資料、性政治に関するニュース報道、オオハナドリ科の鳴鳥に関する情報も大量に削除されることになる。Googleは研究論文の中でこの副作用について言及していない。

「リストに載っている言葉は、多くの場合非常に不快な意味で使われていますが、文脈や個人のアイデンティティによっては適切な場合もあります」と、ワシントン大学の機械学習研究者ウィリアム・アグニュー氏は述べています。彼はコミュニティグループ「Queer in AI」の共同設立者で、AI分野における多様性の促進に関する同団体のウェブページは、AI人材の多様性向上に関するページで「sex」という言葉を使用しているため、GoogleのAI入門書から除外される可能性が高いでしょう。LDNOOBWには「gay sex（ゲイセックス）」や「homoerotic（同性愛者）」といった単語が含まれており、同性愛関係を非難してきた歴史的な傾向を反映しているようだとアグニュー氏は言います。

アグニュー氏は、こうしたシステムの予期せぬ結果を身をもって体験してきた。昨年、Queer in AIが主要なAI研究会議でワークショップを開催した際、バーチャル参加者がRocket.Chatサービス上の会議用バーチャルハングアウトの利用時に問題に遭遇した。Rocket.Chatのオプションコンテンツフィルターは、別のGitHubリスト「badwords」に基づいているが、当時このリストには「レズビアン」や「クィア」といった単語が含まれていた。「ワークショップの名前さえ入力できなかったんです」とアグニュー氏は語る。

問題のリストはその後更新されましたが、作成者はWIREDの取材を拒否しました。Rocket.Chatの広報担当者は、フィルタリング機能について調査とアップデートを進めており、「『クィア』がブロックされないようにし、当社の価値観や多様性と包括性への取り組みに反する可能性のある他の『制限』語がないことを確認する」と述べました。

記事画像

超スマートなアルゴリズムがすべての仕事をこなせるわけではありませんが、これまで以上に速く学習し、医療診断から広告の提供まであらゆることを行っています。

アグニュー氏がGoogleのLDNOOBWの使用に疑問を呈したことを受け、先月発表された研究論文でこの慣行が批判され、近年のAI研究における倫理的な問題点を警告しました。この論文は、著名な研究者ティムニット・ゲブル氏がGoogleを突然退社するきっかけとなりました。「もし私たちが疎外された集団の言説をフィルタリングしてしまうと、差別的な表現を正し、疎外されたアイデンティティを肯定的に描写する訓練データを提供することができなくなります」と論文は述べています。

ゲブル氏は、上司から論文から名前を削除するか、論文を出版前に撤回するよう求められたが、これを拒否したためGoogleから解雇されたと述べている。Googleは、ゲブル氏が辞職し、論文の質を批判したと述べている。一部の研究者がLDNOOBWを問題の神託として利用しているという件について、同社はコメント要請に応じなかった。

プライバシー関連スタートアップ企業UnifyIDのチーフサイエンティストで、アルゴリズムの偏りを研究するヴィナイ・プラブ氏は、AIモデルに何が入力されているかについて、業界全体がより透明性を高めるべきだと述べる一方、Googleの影響力を考えると、同社には特別な責任があるという。「Googleが行うあらゆる特異な行為が、業界標準になるのです」とプラブ氏は言う。

マコーミック氏は、WIREDの取材を受けるまで、Googleが自身の作品に興味を示していることを知らなかった。彼は現在勤めているConstructor.ioで、意図せず目を引くような検索候補が表示されないようにするために、このリストを今でも使っている。同社は、美容ブランドのセフォラを含むオンラインストアに検索技術を提供している。しかし、AIシステムの世界観をフィルタリングするのにこのリストが適しているかどうかは疑問だ。「世界には明らかにいくつかの異なるバージョンが必要だ」と彼は言う。「次は自分がそれを始めるべきかもしれない」

WIREDのその他の素晴らしい記事