YouTubeアカウント「Rob the Robot - Learning Videos For Children」には、約40万人が登録しています。2020年に公開されたある動画では、このロボットとその仲間たちがスタジアムをテーマにした惑星を訪れ、ヘラクレスにインスパイアされた技に挑戦します。彼らの冒険は小学生向けですが、YouTubeの自動字幕をオンにすれば、幼い読者の語彙が広がるかもしれません。ある場面では、YouTubeのアルゴリズムが「勇敢な」という言葉を聞き間違え、登場人物が「ヘラクレスのように強く、レイプする」ことを目指すという字幕を付けています。

スクリーンショット: Rob The Robot - 子供向け学習ビデオ(WIREDスタッフ提供)
YouTubeの子供向け動画における字幕アルゴリズムに関する新たな調査では、字幕テキストが時に非常に大人向けの言葉遣いに偏向するケースが報告されている。上位24の子供向けチャンネルから7,000本以上の動画をサンプルとして分析したところ、40%の動画の字幕に、罵り言葉に関する研究結果に基づく1,300語の「タブー」語リストに含まれる単語が含まれていた。また、約1%の動画の字幕には16語の「極めて不適切」な用語リストに含まれる単語が含まれており、YouTubeのアルゴリズムによって「ビッチ」「ろくでなし」「ペニス」といった単語が追加される可能性が最も高かった。
3,000万人以上の登録者数を誇る人気キッズチャンネル「Ryan's World」に投稿された動画の中には、この問題を如実に表しているものもある。ある動画では、「トウモロコシも買うべきだ」というフレーズが、字幕では「ポルノも買うべきだ」と誤訳されている。他の動画では、「ビーチタオル」が「ビッチタオル」と誤訳されているほか、「バスター」が「ろくでなし」に、「カニ」が「クソ」に誤訳されている。モンスターをテーマにしたドールハウスの作り方を解説した動画には、「ペニス用ベッド」が登場している。

スクリーンショット:WIREDスタッフによるRyan's World
「驚きと不安を覚えます」と、ハイデラバードのインド経営大学院のクリティカ・ラメシュ氏とスミート・クマール氏の協力者とともにこの問題を研究したロチェスター工科大学のアシク・クダブクシュ助教授は言う。
自動字幕は、子供向けYouTube Kidsでは利用できません。しかし、多くの家庭ではYouTubeの標準バージョンを利用しており、そこでは自動字幕を見ることができます。ピュー・リサーチ・センターの2020年の報告によると、11歳以下の子供を持つ親の80%が、子供がYouTubeのコンテンツを視聴していると回答し、50%以上の子供が毎日視聴しています。
クダ・ブクシュ氏は、この研究が、テクノロジー企業や研究者からほとんど注目されていない現象、つまり「不適切コンテンツ幻覚」と呼ばれる現象に注目を集めることを望んでいる。これは、アルゴリズムが元のコンテンツには存在しない不適切なコンテンツを追加する現象だ。スマートフォンのオートコンプリート機能は、成人向けの言葉を非常に迷惑なほどフィルタリングすることが多いという、よく知られた観察結果の裏返しだと考えてほしい。
YouTubeの広報担当者ジェシカ・ギビー氏は、13歳未満のお子様には自動字幕が表示されないYouTube Kidsの利用を推奨していると述べています。YouTubeの標準バージョンでは、この機能によってアクセシビリティが向上するとギビー氏は述べ、「自動字幕の改善とエラーの削減に継続的に取り組んでいます」と付け加えました。ライアンズ・ワールドのコンテンツを配信している子供向けエンターテイメントスタジオPocket.watchの広報担当者アラフェア・ホール氏は声明の中で、「YouTubeなどのプラットフォームパートナーと緊密かつ迅速に連携し、誤った動画字幕の修正に努めています」と述べています。ロブ・ザ・ロボットチャンネルの運営者にはコメントを求めたが、連絡が取れませんでした。
不適切な幻覚は、YouTubeや動画のキャプションに限った話ではありません。WIREDの記者は、スタートアップ企業Trintが処理した通話記録で、ペルシャ語由来の女性名「Negar」がNワードの変形として翻訳されていたことを発見しました。人間の耳には明らかに異なる響きであるにもかかわらずです。TrintのCEO、ジェフリー・コフマン氏によると、このサービスには「ごく少数の単語」を自動的に削除する冒涜フィルターが搭載されています。WIREDの記録に現れた特定の綴りはそのリストにはなかったものの、今後追加される予定とのことです。
「音声テキスト変換の利点は否定できないが、こうしたシステムには盲点があり、チェックとバランスが必要になる可能性がある」とKhudaBukhsh氏は言う。
こうした盲点は、人間のように、言葉の意味や文脈をより広い意味で理解することで会話を理解している人間にとっては驚くべきものかもしれません。アルゴリズムは言語処理能力を向上させてきましたが、より深く理解する能力は依然として不足しており、これがテキスト処理に機械を頼っている他の企業にとって問題となっています。あるスタートアップ企業は、アドベンチャーゲームに未成年者を巻き込んだ性的な描写が含まれていることが判明し、ゲームを改良せざるを得ませんでした。
機械学習アルゴリズムは、大量のトレーニングデータ(この場合は音声ファイルとそれに対応する書き起こし)を処理することでタスクを「学習」します。クダ・ブクシュ氏によると、YouTubeのシステムが時折、卑猥な言葉を挿入するのは、トレーニングデータに主に大人の発言が含まれており、子供の発言が少ないためだと考えられます。研究者が字幕内の不適切な言葉の例を手作業で確認したところ、子供や英語を母国語としていないと思われる人の発言に多く見られました。過去の研究で、Googleなどの大手テクノロジー企業の書き起こしサービスは、米国の方言と比較して、非白人話者に対してはエラーが多く、標準的なアメリカ英語に対してはエラーが少ないことが分かっています。
以前の研究の一つを共同執筆した言語学者のレイチェル・タットマン氏は、子供向けYouTube動画で使用してはいけない単語の簡単なブロックリストを作成すれば、今回の研究で見つかった最悪の例の多くに対処できると述べている。「どうやらそのようなブロックリストが存在しないのは、技術的な見落としのようです」と彼女は言う。
ブロックリストも不完全な解決策だとタットマン氏は言う。不適切なフレーズは、個々には無害な単語を組み合わせて作られる可能性がある。より洗練されたアプローチとしては、子供向けコンテンツを扱う際に字幕システムを調整し、大人向けの言葉遣いを避けるという方法もあるが、タットマン氏によれば、それも完璧ではないという。言語を扱う機械学習ソフトウェアは、統計的に特定の方向に誘導することはできるが、人間には明白に見える文脈を尊重するようにプログラムするのは容易ではない。「言語モデルは精密なツールではない」とタットマン氏は言う。
KhudaBbukhsh氏と共同研究者たちは、書き起こしからタブー語を修正するシステムを考案し、テストしたが、YouTubeの書き起こしでは、最も優れたシステムでさえ正しい単語を挿入できたのは全体の3分の1にも満たなかった。彼らは今月開催される人工知能(AI)振興協会の年次会議でこの研究を発表し、他の人々がこの問題を研究するのに役立つよう、研究データを公開した。
研究チームは、子供向けYouTube動画の音声をAmazonが提供する自動文字起こしサービスにかけた。このサービスにも、時折、コンテンツに過激な印象を与えるミスが見られた。Amazonの広報担当者ニーナ・リンジー氏はコメントを控えたものの、開発者向けに不要な単語を修正またはフィルタリングする方法を説明したドキュメントへのリンクを提供した。研究結果は、子供向けコンテンツの文字起こしにおいては、こうしたオプションが賢明な選択となる可能性を示唆している。例えば、「ふわふわ」という言葉がおもちゃに関する動画の文字起こしでFワードになったり、ある動画の司会者が視聴者に「工作のアイデア」ではなく「くだらないアイデア」を送るよう求めたりした。