GoogleアシスタントがついにAI生成機能を搭載

GoogleアシスタントがついにAI生成機能を搭載

Google は、チャットボット「Bard」の AI 機能を Google アシスタントに追加し、仮想アシスタントが画像を理解し、文書や電子メール内のデータを利用できるようにしています。

アシスタントとバードと書かれたスクリーンの前でステージに立つシシー・シャオ

Google提供

Googleは5月、OpenAIのChatGPTに対する生成AIによる反撃を開始し、大胆な戦略を打ち出した。同社は自社の検索エンジンにAIによるテキスト生成機能を追加し、Android OSのAIカスタマイズ版を披露し、独自のチャットボット「Bard」を提供した。しかし、SiriやAlexaに対するGoogleの回答であるGoogleアシスタントだけは、生成AIを搭載していなかった。

本日、ニューヨークで開催されたPixelハードウェアイベントで、GoogleアシスタントがついにChatGPT時代に対応したアップグレードを迎えました。Googleの副社長兼Googleアシスタント担当ゼネラルマネージャーであるシシー・シャオ氏が、GoogleアシスタントとBardを組み合わせたAIアシスタントの新バージョンを公開しました。

シャオ氏によると、Googleはこの新しい「マルチモーダル」アシスタントを、音声による問い合わせだけでなく、画像の意味も理解できるツールとして構想しているという。「ToDoリストにある大きなタスクから小さなタスクまで、あらゆるタスクを処理できます。新しい旅行の計画から受信トレイの要約、写真に楽しいソーシャルメディアのキャプションを添えることまで、あらゆるタスクです」と、彼女は今週初めのWIREDのインタビューで語った。

Google提供

この新しい生成AI体験はまだ展開の初期段階にあるため、シャオ氏によると、まだ「アプリ」と呼ぶに値しないという。スマートフォン上でどのように表示されるのか詳細を尋ねたところ、Googleの担当者は最終的にどのような形になるのか、概ね明確な答えを返さなかった。(Googleはハードウェアイベントに合わせて発表を急いだのだろうか?おそらくその可能性は高いだろう。)

どのようなコンテナに表示されるかに関わらず、バード版Googleアシスタントは生成AIを用いてテキスト、音声、画像によるクエリを処理し、テキストまたは音声で応答します。利用期間は未定で、承認されたユーザーのみに提供され、スマートスピーカーではなくモバイル端末でのみ動作し、ユーザーのオプトインが必要です。Androidでは、現在のGoogleアシスタントと同様に、フルスクリーンアプリまたはオーバーレイとして動作する可能性があります。iOSでは、Googleアプリ内に表示される可能性が高いでしょう。

Googleアシスタントのジェネレーティブな進化は、AmazonのAlexaがより会話的になり、OpenAIのChatGPTもマルチモーダル化を進め、合成音声で応答したり、アプリで共有された画像の内容を説明したりできるようになったことに続くものだ。Googleのアップグレードされたアシスタントに特有の機能の一つは、ユーザーがスマートフォンで閲覧しているウェブページについて会話できる機能だ。

特にGoogleにとって、バーチャルアシスタントへの生成AIの導入は、この検索大手が自社の製品群で大規模言語モデルをどれだけ早く活用し始めるのかという疑問を提起する。これは、一部の言語モデルの仕組み、そしてGoogleの収益化方法を根本的に変える可能性がある。

機能獲得

Googleはここ数年、2016年にスマートフォンに初めて導入されたGoogleアシスタントの機能を、そしてここ数ヶ月はBardの機能を宣伝してきました。Bardは、同社が一種の会話型AI搭載コラボレーターと位置付けているものです。では、既存のアシスタントアプリ内でこれらを組み合わせることで、実際には何が起こるのでしょうか?

シャオ氏によると、この取り組みはアシスタントのパーソナライズされたサポートとBardの推論・生成能力を組み合わせたものだという。例えば、Bardは現在Googleの生産性向上アプリ内で動作するため、メールの検索や要約、仕事の文書に関する質問への回答などができる。これらの機能は理論的にはGoogleアシスタントからも利用可能になる。つまり、音声で文書やメールに関する情報をリクエストし、要約を読み上げてもらうことができるのだ。

バードとの新たな連携により、Googleアシスタントは画像を理解する新たな能力を獲得しました。Googleはすでに画像認識ツール「Googleレンズ」を提供しており、GoogleアシスタントまたはGoogleアプリからアクセスできます。しかし、絵画やスニーカーの写真を撮影してレンズに入力すると、レンズは絵画を識別するか、スニーカーを購入するためのリンクを表示して販売を試みるかのいずれかを行い、それ以上何もしません。

一方、バード版アシスタントは、ユーザーが共有した写真の内容を理解するようになるとシャオ氏は主張する。将来的には、他のGoogle製品との深い統合が可能になる可能性がある。「例えば、Instagramをスクロールしていて、素敵なホテルの写真を見つけたとします。ボタンをワンプッシュしてアシスタントを起動し、『このホテルの詳細情報を見せて。誕生日の週末に空室があるか教えて』と頼めばいいのです」と彼女は言う。「しかも、どのホテルかを特定するだけでなく、実際にGoogleホテルで空室状況を確認してくれるはずです」

同様のワークフローにより、新しいGoogleアシスタントは画像内の商品とオンラインストアを連携させることができれば、強力なショッピングツールとなる可能性があります。シャオ氏は、GoogleはまだBardの検索結果に商用商品リストを統合していないと述べましたが、将来的にはそうなる可能性を否定しませんでした。

「ユーザーが本当にそれを望み、Bardで買い物をしたいと考えているのであれば、検討の余地はあります」と彼女は述べた。「人々がBardでどのように買い物をしたいのかを深く掘り下げ、それを製品に組み込む必要があります」(シャオ氏はこれをユーザーが望むかもしれないこととして説明したが、Googleの広告事業にとって新たな機会をもたらす可能性もある)。

注意して進んでください

Googleが2016年に初めてアシスタントを発表した当時、AIの言語能力ははるかに低かった。言語の複雑さと曖昧さにより、コンピューターは単純なコマンド以上の応答をすることは不可能で、時にはそのコマンドでさえもうまく返答できなかった。

ここ数年で登場した大規模言語モデル(書籍、ウェブ、その他のソースから大量のテキストを学習した強力な機械学習モデル)は、AIの書き言葉と話し言葉の処理能力に革命をもたらしました。ChatGPTが複雑なクエリに優れた応答性で対応できるのと同じ進歩が、音声アシスタントがより自然な対話を行うことを可能にしています。

AI企業エレメンタル・コグニションのCEOで、かつてはIBMのWatsonプロジェクトのリーダーを務めていたデイビッド・フェルッチ氏は、言語モデルによって有用なアシスタント開発の複雑さが大幅に軽減されたと述べています。複雑なコマンドを解析するには、これまで言語の様々なバリエーションに対応するために膨大な量の手作業によるコーディングが必要で、完成したシステムはしばしば厄介なほど脆弱で、故障しやすいものでした。「大規模な言語モデルは大きな進歩をもたらします」とフェルッチ氏は言います。

しかし、フェルッチ氏は、言語モデルは正確で信頼性の高い情報を提供するのにあまり適していないため、音声アシスタントを本当に役立つものにするには、依然として多くの慎重なエンジニアリングが必要になると述べています。

より高性能でリアルな音声アシスタントは、ユーザーに微妙な影響を与える可能性があります。ChatGPTの圧倒的な人気は、その背後にある技術の性質と限界をめぐる混乱を伴っています。

カーネギーメロン大学でユーザーとAIヘルパーのインタラクションを研究するモタハレ・エスラミ助教授は、大規模な言語モデルは人々がデバイスを認識する方法を変える可能性があると指摘する。ChatGPTのようなチャットボットが示す驚くべき自信は、人々が必要以上に彼らを信頼してしまう原因になっているとエスラミ氏は指摘する。

エスラミ氏によると、人々は音声を持つ流暢なエージェントを擬人化する傾向が強く、それがテクノロジーの何ができて何ができないかという理解をさらに曖昧にする可能性があるという。また、音声アシスタントでは微妙な形で起こり得る、人種に関する有害な偏見を広めるアルゴリズムが存在しないことを確認することも重要だ。「私はこの技術のファンですが、限界や課題も伴います」とエスラミ氏は言う。

2010年にアップルが同名の音声アシスタント技術のために買収した新興企業Siriの共同創業者トム・グルーバー氏は、大規模言語モデルにより今後数年間で音声アシスタントの能力が大きく飛躍すると予想しているが、新たな欠陥も生み出す可能性があると述べている。

「最大のリスク、そして最大のチャンスは、個人データに基づくパーソナライゼーションです」とグルーバー氏は指摘する。ユーザーのメール、Slackメッセージ、音声通話、ウェブ閲覧履歴などのデータにアクセスできるアシスタントは、特にユーザーが自然な会話を交わせる場合、有用な情報を思い出したり、貴重な洞察を掘り起こしたりするのに役立つ可能性がある。しかし、こうしたパーソナライゼーションは、機密性の高い個人データを新たに蓄積する、潜在的に脆弱なリポジトリを生み出すことにもなりかねない。

「個人の記憶となり、これまでの経験をすべて記録し、認知能力を拡張するパーソナルアシスタントを開発するのは避けられません」とグルーバー氏は語る。「AppleとGoogleは信頼できるプラットフォームであり、この可能性は十分にありますが、かなり強力な保証をする必要があります。」

シャオ氏によると、彼女のチームはBardと生成AIの力を借りて、アシスタントをさらに進化させる方法を真剣に検討しているという。例えば、ユーザーのGmailでの会話などの個人情報を活用して、質問への回答をより個別化することなどが考えられる。また、レストランの予約や航空券の予約といったタスクをアシスタントがユーザーに代わって行うことも考えられる。

しかし、シャオ氏は、そのような機能の開発はまだ始まったばかりだと強調する。バーチャルアシスタントがユーザーに代わって複雑なタスクを実行し、クレジットカードを操作できるようになるまでには、まだしばらく時間がかかるだろうと彼女は言う。「おそらく数年後には、この技術が非常に進歩し、信頼性が高まり、人々が喜んでそうしてくれるようになるでしょう。しかし、私たちは試行錯誤を繰り返し、前進していく必要があります」と彼女は言う。

  • 受信箱に届く:ウィル・ナイトのAIラボがAIの進歩を探る

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む

ローレン・グッドはWIREDのシニア特派員で、人工知能、ベンチャーキャピタル、スタートアップ、職場文化、ベイエリアの注目人物やトレンドなど、シリコンバレーのあらゆる情報を網羅しています。以前はThe Verge、Recode、The Wall Street Journalで勤務していました。記事のネタ提供(PRの依頼はご遠慮ください)は…続きを読む

続きを読む