ジョン・レジェンドがあなたの新しいGoogleアシスタントに!ぜひ聞いてみてください

ジョン・レジェンドがあなたの新しいGoogleアシスタントに!ぜひ聞いてみてください

Googleは今月、異例の人工知能(AI)実験を開始しました。Siri風のバーチャルアシスタントに「レジェンドのように話せ」と指示すると、グラミー賞受賞のクルーナー歌手、ジョン・レジェンドの滑らかな歌声を模倣した音声で話します。レジェンドは、AIの有望ながらも議論の余地のあるユースケースを実証するのに貢献しました。

人の声を真似できるソフトウェアは、コンピューターとの会話をより楽しくする可能性がある。しかし、悪用されれば、いわゆる「ディープフェイク」と呼ばれる、人を騙すための動画の作成に利用される可能性がある。音声クローン技術は現在どれほど進歩しているのだろうか?Googleのプロジェクトは、その一端を示している。

WIREDは、Googleアシスタントアプリの録音と、レコーディングスタジオでのレジェンドの映像を含む企業ビデオを使って、本物と偽物のレジェンドを比較する音声クリップをいくつか作成しました。これは「The Voice: AIgorithmic Edition」のようなものだと考えてください。

ソフトウェアの音声はレジェンドに似ています。サンフランシスコの「a」や「o」のような母音の発音で最もよく聞き取れます。しかし、これらの動画は、AIの音声がまだ人間の声に匹敵していないことをも浮き彫りにしています。

Googleの偽レジェンドは確かに優れているが、コンピューター合成音声特有のかすれた音が残っている。電話詐欺対策ソフトウェアを開発するセキュリティスタートアップ企業Pindropは、WIREDのためにサンプルを分析し、この技術の長所と短所を解説した。

Pindropの研究者、エリー・クーリー氏が、合成レジェンドのサンプルを自身の偽物検出ソフトウェアに入力したところ、ソフトウェアは騙されませんでした。このクリップは100点満点中98.9996点で合成であると判定されました。

Pindropは、本物の声と偽物の声をどのように見分けるのか、詳細は明らかにしていない。しかし、Khoury氏は、声のリズムや「f」と「s」の発音に注目するなど、ボットを見分けるためのヒントをいくつか提供した。

Googleアシスタントの他の音声と同様に、Legendの音声はWaveNetと呼ばれる音声合成技術を用いて作られています。これは、2016年後半にアルファベット傘下のロンドンに拠点を置くAI研究部門DeepMindによって開発されました。コーリー氏は、これは合成音声の進化における飛躍的な進歩だと述べています。Googleは2017年、Googleアシスタントの音声をアップグレードし、この技術を数百万台のポケットに搭載しました。WaveNetは、レストランの予約を行う同社の電話ボット「Duplex」にも採用されています。

WaveNetの音声は、機械学習アルゴリズムをテキストコレクションと、同じテキストを読み上げる音声の録音で学習させることで生成されます。Khoury氏によると、このプロセスは従来の方法よりも音声波形のキャプチャに優れているとのことです。学習後、このソフトウェアはあらゆるテキストから驚くほど滑らかな音声を生成できます。DeepMindが投稿したこれらの音声サンプルでその実力を確認できます。

DeepMindによると、ブラインドリスニングテストの結果、この新技術は、音声ライブラリから断片的に文章を合成する従来の方法と比較して、本物の声と偽物の声の知覚差を半分以上低減したという。これはAppleのSiriの話し方と同じだ。

Googleアシスタントのデフォルト音声や、新たに登場したレジェンドの物まね音声など、WaveNet音声にはロボットらしさがまだ感じられます。その特徴の一つは、奇妙な抑揚です。偽レジェンドには、本物のレジェンドのような心地よいリズムがありません。ボットだとわかるもう一つの兆候は、子音、特に「f」「v」「s」などの摩擦音です。これらの音は、気道を狭めて空気の摩擦が聞こえるようにすることで発音されます。合成音声は、人間の周波数帯域の上限に近いこれらの音を再現するのに常に苦労してきました。これらの音は人間の声の周波数帯域の上限に近いため、通常は切り取っても人間の言っている意味は失われません。

スペクトログラム

スペクトログラムには、Google の合成ジョン・レジェンドの声 (上) が「サンフランシスコ」と言っているのと、本物の歌手が「セモリナ」と言っているのが表示されている。

ピンドロップ

この限界は、レジェンドが「サンフランシスコ」と発音した時のシミュレーションと、レジェンドが「セモリナ」と発音した時の実際のスペクトログラムを並べてみると明らかになります。図は、音のエネルギーが様々な周波数にわたってどのように分布しているかを示しています。画像の左側にある最初の赤い領域(それぞれ「s」の音を表しています)を比較すると、実際のレジェンドの方が高い周波数に達していることがわかります。

偽レジェンドの子音には、奇妙なクリック音など、人間が発声した場合には自然には発生しない音も含まれていると、コウリー氏は言う。これは合成音声によくある限界だ。音声を波形の連続として扱うため、声帯の大きさや口の形や位置を素早く変える能力といった解剖学的な制約により、人間には発声できない音を作り出すことがあるのだ。

音声や動画を偽造するAIソフトウェアの近年の進歩により、一部の研究者、法学者、政策立案者の間で、この技術の悪用を懸念する声が上がっています。12月には、ベン・サッセ上院議員(ネブラスカ州選出、共和党)が、危害を加える目的で偽の音声や動画を作成または配布することを刑事犯罪とする法案を提出しました。活発なオンラインサブカルチャーでは、既に機械学習を用いて人物をポルノ動画に編集しています。

Googleアシスタントのデザインは、たとえ音声がよりリアルになったとしても、犯罪の共犯者になることを想像しにくい。ソフトウェアに何を言うかを指示することはできず、Googleがどのような質問に答えるかを制御している。

PindropのCEO、ビジェイ・バラスブラマニアン氏は、脅威はアルファベットが研究論文で公開している基盤技術を他社が採用することから生じると述べている。Pindropは既に、音声改変ソフトウェアを使って企業を騙し、例えば男性が女性になりすまして金融口座にアクセスするような詐欺行為を摘発しているとバラスブラマニアン氏は述べている。

Googleのような技術は、一体どこまで優れたものになるのだろうか?バラスブラマニアン氏によると、レジェンドの音声は、同社のWaveNet技術で聴いた中で最高のものではないという。DeepMindが2016年にリリースしたサンプル音声は、レジェンドよりも多くの音声をスピーカーに録音させることができたためか、ユーザーの質問に応じてリアルタイムで生成する必要がなかったためか、より高品質に聞こえる。

ジョン・レジェンドとGoogleアシスタントアプリ

グーグル

DeepMindは、これらの音声を作成するために25時間分の音声を使用したと述べています。今月公開された音声を作成するために、Googleがレジェンド氏から何時間分の録音を収集したかは不明です。

歌手はPeople誌に対し、約10日間連続でレコーディングスタジオに通い、様々なイントネーションで単語やフレーズを口にしたと語った。広報担当者はWIREDの問い合わせに回答せず、Googleも偽レジェンドの制作に何時間分の音声を使用したかについては回答を差し控えた。Googleの著名なエンジニアであるヨハン・シャルクウィック氏はメールで、これは「大規模なデータセット」であり、あらゆる音や話し方のパターンを網羅するために台本を慎重に編集する必要があったと説明した。

凡例には「顎下腺、下顎の下にある一対の唾液腺のうちのどちらか」といったフレーズが書かれていた。シャルクウィク氏は、グーグルが偽の凡例の正確性や説得力の度合いをどのようにテストしたかについては明かさなかった。

下のクリップは、電話での通話では人間と見分けられるハードルが低いことを示しています。歴史的な制約により、通常は高周波数帯域がカットされているためです。その抑制効果により、本物のレジェンドと偽のレジェンドのコントラストが弱められています。

Googleアシスタントに嘘をつくことがあるか尋ねようとスマートフォンを手に取ると、歌手の声で返答が返ってきた。「私はいつも真実を話すようにしています。正直であることは大切にしています。」


WIREDのその他の素晴らしい記事

  • FBIはiPhoneのバックドアを要求した。ティム・クックは拒否した。
  • ピンボールの歴史をフリッパー1つ1つ大切に守り続ける
  • 気候変動が氷の道路を脅かす。衛星が助けになるかもしれない
  • ステレオタイプ的な色分けされた子供時代の進化
  • ウイルス犯罪、遺伝学的証拠、そして困惑する陪審員
  • ✨ロボット掃除機からお手頃価格のマットレス、スマートスピーカーまで、Gear チームのおすすめ商品で家庭生活を最適化しましょう。
  • 📩 もっと知りたいですか?毎日のニュースレターに登録して、最新の素晴らしいストーリーを見逃さないでください