Googleアシスタントの未来はすぐそこに

長年にわたり、私たちはコンピューターの未来が約束されてきました。未来では、タップや入力、スワイプではなく、音声でコマンドを入力するのです。この約束には当然ながら利便性が組み込まれています。音声コンピューティングはハンズフリーであるだけでなく、非常に便利で、ほとんど無駄になりません。

しかし、それは必ずしもうまくいっているとは言えません。近年、スマートフォンやスマートホームのユーザーがデバイスに搭載されたAIを積極的に利用（あるいは、場合によっては誤って「起動」）するようになったため、音声アシスタントの利用は増加しています。しかし、ほとんどの人にこれらのアシスタントを何に使うのか尋ねると、音声制御の未来は、天気予報やディナータイマーといった、ほとんど原始的なものに聞こえてしまうでしょう。私たちは無限の知能を約束されたはずなのに、現実には「ベビーシャーク」の繰り返しを聞かされているだけなのです。

Googleは今、自然言語処理とAIタスクを処理するように設計されたチップの進歩の組み合わせにより、音声コンピューティングの新しい時代の始まりにいると述べています。カリフォルニア州マウンテンビューで本日開催された年次開発者会議I/Oで、GoogleのGoogleアシスタント責任者であるシシー・シャオ氏は、バーチャルアシスタントに関する同社の長期計画の一部である新機能について強調しました。シャオ氏によると、約束された利便性はすべて、今や現実に近づいているとのことです。I/O開始前のインタビューで、彼女は、仕事からの帰宅途中に「ねえ、先週の金曜の夜のピザを注文して」のように声でピザを素早く注文する例を挙げました。アシスタントはより会話的になっています。そして、あのぎこちないウェイクワード、つまり「ねえ、Google」は徐々になくなりつつあります。ただし、音声コントロールのロックを解除するために自分の顔を使う意思があればの話ですが。

これは音声認識に関する野心的なビジョンであり、プライバシー、実用性、そしてGoogleの収益化の最終目的といった疑問を提起する。そして、これらの機能のすべてが現在、あるいはすべての言語で利用できるわけではない。これらは「長い道のりの一部」だとHsiao氏は言う。

「人々が興奮する音声テクノロジーの時代は、これが初めてではありません。人々が何度も繰り返すような音声クエリの種類の市場適合性を見出したのです」とシャオ氏は語る。今後は、はるかに複雑なユースケースが待ち受けている。「3、4、5年前までは、コンピューターが人間が人間だと認識するような方法で人間に話しかけることができたでしょうか？私たちには、それがどのように可能かを示す能力がありませんでした。しかし今ならできるのです。」

えーと、中断しました

同じ言語を話す二人が常に理解し合えるかどうかは、おそらく結婚カウンセラーに尋ねるのが最善の質問であり、技術者に尋ねるのが最善でしょう。言語学的に言えば、「えー」やぎこちない間、頻繁な中断があっても、二人の人間は理解し合えます。私たちは能動的な聞き手であり、通訳者です。コンピューターはそうではありません。

シャオ氏によると、Googleの目標は、アシスタントが人間の発話におけるこうした不完全さをより良く理解し、よりスムーズに応答できるようにすることだ。「フローレンス・アンド・ザ・マシーンの新曲を再生して」とシャオ氏はI/Oのステージで実演した。アシスタントは彼女がフローレンス・アンド・ザ・マシーンのことを言っていることを理解した。これは短いデモだったが、音声と言語モデルに関する長年の研究の成果だ。Googleは既に音声処理の一部をデバイス上で行うことで音声品質を向上させており、現在では大規模な言語モデルアルゴリズムも導入している。

大規模言語学習モデル（LLM）は、巨大なテキストベースのデータセットに基づいて構築される機械学習モデルであり、テクノロジーが人間のようなインタラクションを認識、処理、そして実行することを可能にします。この研究に取り組んでいるのはGoogleだけではありません。おそらく最もよく知られているLLMは、OpenAIのGPT3とその姉妹画像ジェネレーターであるDALL-Eでしょう。そしてGoogleは最近、非常に技術的なブログ記事で、PaLM（Pathways Language Model）の計画を発表しました。同社は、このモデルが「複数ステップの計算や常識的な推論を必要とする」コンピューティングタスクにおいて画期的な進歩を遂げたと主張しています。Pixelやスマートホームディスプレイ上のGoogleアシスタントにはまだこのような賢さはありませんが、チューリングテストに見事合格する未来を垣間見ることができます。

シャオ氏はまた、「Look and Talk」と呼ばれる機能のデモも行いました。この機能を使うと、Nest Hub Maxスマートディスプレイに「OK Google」と話しかける必要がなくなります（ただし、Googleがデバイス内蔵カメラを使って顔をスキャンすることに同意している場合）。キッチンに入って蛇口の水漏れに気づいたら、理論的にはNest Hub Maxに視線を向けるだけで、近くの配管工のリストを表示するように指示できます。

これは、Googleが「Hey Google」と言わなくても済むようにするための、より広範な取り組みの一環です。昨年秋、同社はPixel 6スマートフォンを発表した際に、「クイックフレーズ」のサポートを開始しました。これにより、「Hey Google」と言わなくても、電話に出たり拒否したり、タイマーやアラームを停止したりできるようになりました。そして今回、Nest Hub Maxでは、「寝室の電気をつけて」といった短いコマンドをクイックフレーズとして登録できるようになりました。このフレーズは、実質的にウェイクワードとコマンドの両方として機能します。

Nest Hub Maxの顔スキャン機能は、おそらく眉をひそめるだろう（顔スキャン自体には影響しないと聞いている）。シャオ氏は、この機能は完全にオプトイン方式であること、当初はカメラを無効化する物理的なスイッチを備えたGoogleのNest Hub Maxホームディスプレイでのみ機能することを何度も述べている。また、このソフトウェアは他人の顔には対応していないため、その人がメインユーザーの代わりに問い合わせを行うことはできないとしている。プライバシー保護のため、顔スキャンはGoogleのクラウドではなく、デバイス本体で処理される。

それでも、すべてのバーチャルアシスタントは、現実のものも、そうでないものも、プライバシーリスクを伴います。音声を拾うマイク、動きを追跡する内蔵レーダーセンサー（第2世代Nest Hubなど）、顔を捉える本格的なカメラセンサーなどを活用しています。これらの使いやすさには、ユーザーを理解してくれるという約束が内包されています。私たちは利便性と引き換えに、多くの情報を犠牲にしています。この場合の利便性とは、「OK、Google」と声に出して言う必要がないことなのです。

OK Google、もう着く？

プライバシーの問題はさておき、シャオ氏が言及する技術の中には、彼女の言葉を借りれば、まだ研究段階から抜け出して一般消費者向け製品として市場に投入されていないものもある。完全な会話型AIは既に実現しているが、「ここに」はまだあなたの手元に届いていないかもしれない。

一例を挙げましょう。現在、Googleアシスタントにジョークを言ってもらうと、そのジョークはすべて生身の人間によって脚本が書かれ、精査されています。言語学習モデルは素晴らしい一方で、非常に不完全でもあります。詩を書くこともあれば、あからさまな人種差別をすることさえあります。そのため、Googleは仮想アシスタント製品の一部の要素に、今でも人間のコンテンツモデレーターを起用しています。しかし、人間は骨と皮ばかりの生き物で、考えや性癖があり、食事や睡眠などの必要性があり、ソフトウェアのように「スケーラブル」ではありません。音声アシスタント技術は、これまで以上に人間レベルの知能基準を満たしているかもしれませんが、最終的に数百万、数十億人の手に渡る可能性のある製品に適用し、すべてのユーザーが確実に使用できるようにすることは、途方もない作業です。

ガートナー・リサーチのバイスプレジデントで、ビジネス環境におけるバーチャルアシスタントの活用を研究するバーン・エリオット氏は、音声アシスタントは決して静的なものではないと述べています。「フローの改善、使いやすさの向上、そしてより高度で洗練されたユースケースへの動きが見られます」とエリオット氏は言います。ビジネス環境におけるインタラクティブな音声アシスタントはかつて、サービスの場合は1を押し、販売の場合は2を押すといった、非常に単純なものでした。しかし今では、はるかに複雑な会話に対応できるようになりました。

消費者市場はその方向に向かっているとエリオット氏は考えているが、それはまだ「『アレクサ、今何時？』とか『シリ、今日のカレンダーは？』といった、単発的なもの」だ。

広告と減算

Googleアシスタントが検索のための音声手段として存在するとすれば（例えばGoogleレンズが拡張現実（AR）を使って現実世界の商品を逆引きし、検索へと導くように）、音声インタラクションの次の必然は収益化となるだろう。Googleアシスタントはいつ広告を配信するのだろうか？Googleで16年近く勤務するベテランであるシャオ氏は、アシスタントの責任者となる前、数年間、ディスプレイ広告、動画広告、モバイルアプリ広告部門で勤務していたことを考えると、無理もない話ではない。彼女は現在、数千人の従業員を統括しており、そのうち2,000人以上がGoogleのバーチャルアシスタント技術のさまざまな側面に取り組んでいる。

シャオ氏は、Googleアシスタントが最終的に広告を表示するようになるのは「避けられない」とは考えていないと述べた。音声は明白な広告チャネルではなく、「アシスタントの進化の方向性としては想定されていない」と付け加えた。

さらに、規模の問題もある。Googleによると、アシスタントの月間ユーザー数は2年前の5億人から7億人を超えているという。これは、人々が毎日Google検索ボックスに入力する数十億件の検索と比較すると、取るに足らないものだ（「小さなもの」を買い物リストに加えたいだろうか？）。シャオ氏は明確には言及しなかったが、Googleアシスタントの規模に関する彼女の発言は、少なくとも今のところ、邪魔になる可能性のある広告を表示するほど規模が大きくないことを示唆している。

私はシャオ氏にピザ配達の例についてさらに問い詰め、もし誰かが車で帰宅途中に音声検索を使ってピザを注文した場合、販売業者は音声検索結果の優先表示に料金を支払うことはできないのかと尋ねた。そして、それはつまり広告になるのだろうか？仮定の話だが、シャオ氏は「可能だ」と答えた。しかし、広告は収益化のモデルの一つではあるものの、必ずしも唯一のモデルではない。彼女は「この製品を人々にとって役立ち、会話的で、役立つものにすること」に注力していると主張した。

コンピューティングにおける多くの進化と同様に、音声アシスタントにおける最も重要な変化は徐々に起こるかもしれない。しかし、それは既に起こり始めている。基礎はすでに整っている。近い将来、Googleアシスタントのユーザーが目を覚まし、Nest Hub Maxを覗き込むと、Googleアシスタントが待機し、指示を待っているかもしれない。問題は、Googleの人工知能でさえ答えられないことだが、ユーザーが複雑な会話をGoogleに任せるのか、それともその日の天気予報を聞くだけなのか、ということだ。そして、その翌日も、その次の日も。