Googleが新しい音声アシスタントを展開し、チャットボットとリアルタイムで自然な会話ができるようになりました。その様子をご紹介します。

アルファベット社のデバイス・サービス担当上級副社長リック・オスターロー氏。2024年8月13日、カリフォルニア州マウンテンビューで開催された「Made By Google」発表イベントにて。写真:デビッド・ポール・モリス/ブルームバーグ、ゲッティイメージズ
Googleは今週、Pixel 9スマートフォンから新しいワイヤレスイヤホンまで、次々と新しいハードウェアを発表しました。これらの輝かしいガジェットを支えるのは、Googleの人工知能(AI)アシスタント「Gemini」です。このチャットボットは今年初めにリリースされ、Pixel 9シリーズのデフォルトアシスタントとして採用され、既に世界中の何百万台ものAndroidスマートフォンで利用可能です。そして今、このチャットボットと会話する新しい方法が登場しました。それが「Gemini Live」です。
これはOpenAIのGPT-4oに対するGoogleの回答であり、人間同士の通常の音声会話のように(少なくともそれが目標です)、アシスタントに自然に話しかける方法です。Gemini Advanced(月額20ドル)のサブスクリプションメンバー向けに英語版がリリースされており、Geminiアプリの右下にある小さな「Live」ボタンをタップすることでアクセスできます。iOSアプリおよび今後数週間で他の言語にも対応予定です。
GoogleのGeminiエクスペリエンス担当バイスプレジデント、シシー・シャオ氏はWIREDに対し、このチャットボットは単なるGoogleアシスタントの焼き直しではないと語った。生成AIを用いて完全に再構築されたインターフェースなのだ。「アシスタントの開発に長年携わってきましたが、ユーザーから繰り返し要望されてきたことが2つあります」とシャオ氏は語る。「1つ目は、より滑らかで自然なアシスタントを求めていることです。話し方を変えることなく、自然に話しかけられることを望んでいます。2つ目は、より高度な機能を求めていることです。単純なタスクだけでなく、生活上の問題の解決にも役立つようにしてほしいのです。」
Googleからライブ配信
Geminiを起動すると、画面が真っ白になり、下から幻想的な光が輝きます。スマートフォンがロックされていて画面がオフになっている場合でも、アシスタントに話しかけて会話を始めることができます。また、Googleの新しいワイヤレスイヤホン「Pixel Buds Pro 2」からもアクセスできるので、スマートフォンをバッグに入れたままハンズフリーで通話できます。10種類の音声から、様々なトーン、アクセント、スタイルからお選びいただけます。セッションを終了すると、会話全体の書き起こしが表示されます。この書き起こしは、Geminiアプリからいつでもアクセスできます。
従来の音声アシスタントとは異なり、Gemini Live では、全体的な体験を中断することなく会話を中断できます(Gemini はよく話す傾向があるため、これは特に便利です)。また、拡張機能を介して他のアプリと連携させることも想定されていますが、これらの多くはまだ利用できません。例えば、Gemini Live で Gmail にあるパーティーの招待状を表示して、時間と場所を尋ねることができます。自分で探し出す必要はありません。あるいは、レシピを検索して、Google Keep の買い物リストに材料を追加するように頼むこともできます。Google によると、Keep、ToDo リスト、ユーティリティ、カレンダー、YouTube Music などのアプリ向けのこれらの拡張機能は、今後数週間以内にリリースされる予定です。
Googleは今年後半、5月の開発者会議で発表したコンピュータービジョン技術「Project Astra」をGemini Liveに搭載する予定です。これにより、スマートフォンのカメラアプリを使って、現実世界で見ている物体についてリアルタイムでGeminiに質問できるようになります。コンサートのポスターの前を通りかかった時に、カレンダーに日付を保存したり、チケット購入のリマインダーを設定したりといったことを想像してみてください。
私に話して
これまでの音声アシスタントの使用経験は、主に取引的なものでした。そのため、Gemini Liveとチャットした際、ボットとの会話を始めるのが少しぎこちなく感じました。GoogleアシスタントやAlexaに天気予報を尋ねたり、ブラインドを開けてもらったり、犬にセロリを食べさせてもいいか尋ねたりするのとは大きく異なります。時折、フォローアップの質問はありますが、Gemini Liveのように会話の流れに沿って構築されていませんでした。
シャオさんは、仕事帰りの車の中でGemini Liveを使うのが楽しいと話してくれました。彼女はパリオリンピックと開会式でのセリーヌ・ディオンの歌唱について会話を始めました。「彼女が歌った曲について少し教えていただけますか?」とシャオさんは尋ねました。AIは曲の由来、作曲者、そして意味を答え、何度かやり取りした後、シャオさんはセリーヌ・ディオンが中国語で歌えることを知りました。
「本当に驚きました」と彼女は言う。「でも、これは単に、物事を見つける方法の一例に過ぎません。会話を通して好奇心や探究心を持ち、これまではできなかったテクノロジーとのインタラクションです。これは、ジェミニ・アシスタントで私たちが目指すもののほんの始まりに過ぎません。」
デモでは、Geminiに夕食に何を食べようか尋ねました。軽くてさっぱりしたものがいいか、それともしっかりした食事がいいかと聞かれました。私たちは何度もやり取りを繰り返し、Geminiがエビ料理を提案してきた時、私はエビアレルギーだと嘘をつきました。すると今度はサーモンを勧められました。私はサーモンは持っていないと答えました。「鶏の胸肉をグリルして、グリルサラダと軽いビネグレットドレッシングをかけたサラダに和えたらどうですか?」と。レシピを聞くと、手順を一つ一つ説明し始めました。途中で中断しましたが、後でGeminiアプリに戻ってレシピを探すことができます。
これから何か知りたいことがあれば、このアプローチを試してみるのもいいでしょう。Geminiが最初の質問に答えてくれた後も、会話を続けることができます。それでもまだ多くの懸念があります。なぜ表示される情報の出典や出典が明確に示されていないのでしょうか?Geminiが伝える内容の全てが正確だと信じていいのでしょうか?Hsaio氏によると、Gemini Liveを終了する際は、書き起こされたテキストの下にある小さな「G」アイコンをクリックして、書き起こしの精度を確認したり、Google検索を実行したりできるそうです。
でも、ますます、これが検索の未来なんじゃないかと思うようになってきました。質問すれば答えが返ってきて、さらに詳しく知りたいなら話しかけ続ける。問題は、Gemini が喋りすぎることです。返答が冗長なので、次に進むまでにしばらく待たされることがよくあります。もちろん、話を中断して先に進むこともできますが、音声アシスタントを邪魔するのは気まずいです。失礼な言い方になりたくないですからね!
Google アシスタントはどこにいるのでしょうか?
GeminiとGemini Liveに注目が集まっている中で、おそらく「Googleアシスタントはどこへ行ったの?」と疑問に思われるでしょう。Geminiアプリでプロフィールアイコンをタップすると、「Googleアシスタントに切り替える」オプションが表示され、以前のエクスペリエンスに戻れますが、このオプションがいつまで利用できるかは分かりません。現在、アシスタントでできてGeminiではできないことがいくつかあるため、アシスタント間で連携が取られています。「Geminiは今後、これらの操作を単独で実行できるようになるでしょう」とHsiao氏は述べています。
しかし今月初め、GoogleはNestの新製品を発表し、同時にGoogleアシスタントがより自然な音声に対応すること、そしてGeminiの大規模言語モデルによって一部の機能がアップグレードされることも発表しました。例えば、FedExの配達員が玄関先に来たかどうかを尋ねれば、ビデオドアベルのフィードからその状況を解析できるようになります。モーションアラートも、「人を検知しました」という単なる通知ではなく、より詳細な情報が表示されるようになるでしょう。
つまり、アシスタントが2つになったということですが、Googleは今のところこれを全く問題視していないようです。シャオ氏によると、Geminiはパーソナルアシスタントとなり、カレンダーの予定やメールの招待状など、個人データに基づいた情報を尋ねることができるようになります。家庭では、Googleアシスタントは「共同」アシスタントとなります。なぜなら、Googleアシスタントは家族で使うデバイスという側面が強いからです。「リビングルームのホームスピーカーで、ゲストが『ねぇGoogle、ジュリアンのメールには何が入ってるの?』と尋ねた時に、音声で個人のメールにアクセスされるのは、誰も望んでいません。」
これはブランド戦略の失敗を招きかねない。既に存在するGeminiのバリエーションをすべて把握するのは至難の業だ(しかも、昨年プレビュー版がリリースされた当時はGeminiは「Bard」だったことをお忘れなく)。さらに、ゲストにメールを覗き見されるのを防ぐため、使用デバイスに応じて特定の機能が制限される可能性もある。スマートフォンでGeminiにタスクを頼むのに慣れたのに、スマートフォンを別の部屋に置き忘れ、Nestスピーカーのアシスタントが何もしてくれなかったら、イライラしませんか?
「ブランディングはまだ模索中で、開発の初期段階です」とシャオ氏は語る。「ブランディングはさておき、個人のスマートフォンであれ自宅であれ、ユーザーが最も頼りになるアシスタントから望むものを確実に得られるようにし、ユーザーのユースケースを解決できるようにする必要があります。」
![]()
写真:ジュリアン・チョッカトゥ
グーグル
Pixel 9シリーズ
記事内のリンクから商品やサービスを購入された場合、手数料が発生する場合があります。これは私たちのジャーナリズムを支えるものです。詳細はこちらをご覧ください。
あなたの受信箱に:毎日あなたのために厳選された最大のニュース
