約10年前、GoogleはAndroid Marshmallowで「Now on Tap」という機能を発表しました。ホームボタンを長押しすると、画面に表示されている内容に関連する役立つコンテキスト情報が表示されます。友達とテキストメッセージで映画について話している場合、Now on Tapを使えば、メッセージアプリを離れることなく映画のタイトルの詳細を確認できます。Yelpでレストランを探している場合、タップするだけでOpenTableのおすすめが表示されるようになります。
大学を卒業したばかりの頃、これらの改良はワクワクするほど魅力的でした。画面に表示されているものを理解し、ユーザーが取りたい行動を予測する機能は、まさに未来を感じさせるものでした。Androidの中でも特に気に入っていた機能の一つです。その後、Googleアシスタントへと徐々に進化を遂げていきましたが、Googleアシスタント自体は素晴らしい機能でしたが、完全に同じではありませんでした。
本日、カリフォルニア州マウンテンビューで開催されたGoogle I/O開発者会議で、GoogleがAndroidオペレーティングシステムに搭載する新機能を宣伝している。まるで昔のNow on Tapのように、周囲の状況情報を活用してスマートフォンの操作を少し楽にしてくれる。ただし今回は、これらの機能は10年にわたる大規模言語モデルの進歩によって実現されている。
「今、本当にエキサイティングなアシスタントを開発できる技術が手に入ったことが一番嬉しいです」と、Androidエンジニアリング担当バイスプレジデントのデイブ・バーク氏はGoogle Meetのビデオ通話で語った。「見たものを理解するコンピューターシステムが必要ですが、当時はそれをうまく実現できる技術がなかったと思います。今はあります。」
私はバーク氏と、GoogleのAndroidエコシステム担当プレジデントであるサミール・サマット氏に、Androidの世界における最新情報、同社の新しいAIアシスタント「Gemini」、そしてこれらがOSの将来にどのような影響を与えるのかについて話す機会を得た。サマット氏はこれらのアップデートを「スマートフォンの可能性を再考し、Android全体を再考する、一世代に一度あるかないかの機会」と表現した。
サークルを検索…宿題
アップグレードされた Circle to Search の動作。
Google提供まずは「Circle to Search」から。これはGoogleのモバイル検索への新たなアプローチです。数ヶ月前にGoogleが発表した「Now on Tap」と同様に、「Circle to Search」は、検索ボックスに入力するだけの操作よりもインタラクティブです(画面上で検索したいものを文字通り丸で囲みます)。バーク氏は、「非常に直感的で、楽しく、現代的な検索方法です。使うのが楽しいので、若い世代にも人気があります」と述べています。
サマット氏によると、Googleは消費者から好意的なフィードバックを得ているという。しかし、「Circle to Search」の最新機能は、特に学生からのフィードバックに基づいている。ユーザーが物理や数学の問題を丸で囲むと、「Circle to Search」が使えるようになる。シラバスアプリを離れることなく、Googleが問題を解くための手順を段階的に表示する。
サマット氏は、Geminiは単に答えを提供するだけでなく、生徒に問題の解き方を示すことも明言しました。今年後半には、Circle to Searchは図やグラフといったより複雑な問題を解けるようになる予定です。これらはすべて、教育向けに最適化されたGoogleのLearnLMモデルによって実現されています。
Android で Gemini がよりコンテキスト重視に
GeminiはGoogleのAIアシスタントで、多くの点でGoogleアシスタントを凌駕しています。実際、最近のAndroidスマートフォンのほとんどでGoogleアシスタントを起動すると、Geminiに置き換えるオプションがあります。そこで当然のことながら、私はバーク氏とサマット氏に、これはアシスタントがGoogleの墓場に向かうことを意味するのかと尋ねました。
「Geminiは、電話でのオプトイン体験だと捉えています」とサマット氏は語る。「Geminiは明らかに、時間の経過とともに進化し、より高度な機能を備えていくでしょう。本日発表するものはありませんが、この新しいAI搭載アシスタントをオプトインしたい場合は、消費者に選択肢があります。試用版も提供しており、実際に試していただいている方々から多くの素晴らしいフィードバックをいただいています。」

今後のアップデートでは、AI が生成した画像を電子メールやメッセージにドラッグできるようになります。
Google提供I/Oで発表されたAndroid版Geminiのアップデートは、約10年前のNow on Tapのように、よりコンテキスト認識機能を強化するものです。今年後半には、Geminiで画像を生成し、GmailやGoogleメッセージなどのアプリにドラッグ&ドロップできるようになります。バーク氏は、ピックルボールをプレイしているという誰かのメッセージに返信するために、Geminiがピクルスとテニスの画像を生成する例を見せてくれました。メッセージアプリの上にオーバーレイとして表示されるGeminiに画像生成を指示し、それをチャットにドラッグ&ドロップする操作を、バーク氏は称賛しました。

Gemini にビデオから特定の情報を引き出すよう依頼できるようになります。
Google提供次に彼はピックルボールのルールに関するYouTube動画を表示しました。動画視聴中にGeminiを起動すると、「この動画について質問する」というプロンプトが表示されます。これにより、動画全体を自分で見なくても、Geminiを使えば動画内の特定の情報を検索できます(そんな時間がある人なんているでしょうか?)。バークがピックルボールの特定のルールについて質問すると、Geminiは動画に基づいて即座に回答を返しました。この「要約」機能は、PDF、動画、メモ、ニュース記事などを要約するなど、多くのAIツールの特徴となっています(やったー)。

ビデオのテキスト要約が役に立つかもしれません。
Google提供PDFといえば、まもなくGeminiにPDFを添付できるようになります(「このPDFについて質問する」というプロンプトが表示されます)。Geminiは具体的な情報を提供してくれるので、何ページもスクロールする必要がなくなります。バーク氏によると、これらの機能は今後数ヶ月かけて数百万台のデバイスに展開される予定ですが、PDF機能はGemini Advancedユーザー、つまりGoogleのAIモデルの最先端の機能にアクセスするために月額20ドルのサブスクリプションを支払っているユーザーのみが利用できます。
Geminiは、画面上の状況に基づいて、より「動的な提案」を表示するようになります。アシスタントを起動すると、これらの提案はGeminiオーバーレイのすぐ上にポップアップ表示されます。
ジェミニナノがアップグレード
Gemini Nanoは、Googleの大規模言語モデルであり、Pixel 8シリーズ、Samsung Galaxy S24シリーズ、そして最新のPixel 8aなど、一部のスマートフォンのデバイス内機能を支えています。これらの機能をデバイス内機能として実行することで、データをクラウドに送信する必要がなくなり、プライバシーが確保されます。さらに、オフラインでも動作します。
Nanoは現在、Googleレコーダーアプリの文字起こしを要約する「Summarize」や、一部のメッセージアプリでメッセージへの文脈に応じた自動返信を提供する「Smart Reply」などの機能に採用されています。Googleは、このモデルの最新版となる「Gemini Nano with Multimodality」を今年中にPixelスマートフォンから提供開始する予定です。少し長い名前ですが、Gemini Nanoはテキスト処理以上の機能を持つことを意味します。
「これは38億のパラメータを持つマルチモーダルモデルです。デバイスに組み込まれたマルチモーダルモデルとしてはこれが初めてです」とバーク氏は語る。「非常に強力です。学術的なベンチマークでは、Gemini 1.0の約80%の性能を達成しており、小型モデルとしては非常に驚異的です。」
Google のスクリーン リーダーは、画像をより適切に理解して説明できるようにアップグレードされます。
Google提供このモデルは、Android版Googleの既存のTalkBackスクリーンリーダー機能に搭載される予定で、視覚障碍者や弱視のユーザーが画面上の内容を理解するのに役立ちます。Gemini Nanoは、各画像の内容について、より豊かで正確な説明を提供するとされています。Googleによると、TalkBackユーザーは平均して「1日に90枚のラベルのない画像」を見ていますが、Geminiはユーザーがオフラインの場合でも画面上の画像を視覚化して理解し、説明できるため、このギャップを埋めることができます。
Googleはここ数年、ロボコールを制限するための通話スクリーニング技術の向上にAIの知見を注ぎ込んできた。そして、マルチモダリティ機能を搭載したGemini Nanoは、まもなくリアルタイムで電話詐欺を回避できるようになる。「Scam Detection(詐欺検出)」と呼ばれる新機能では、Geminiが通話を傍受し、相手側から特定のフレーズや要求を拾うと、詐欺電話の真っ最中である可能性が高いという警告を発する。Burke氏によると、このモデルはBanksNeverAskThat.comなどのウェブサイトからのデータを使ってトレーニングされ、銀行が尋ねないことや、詐欺師が一般的に尋ねる内容を学習したという。同氏によると、このリスニングと検出はすべてデバイス上で行われるため、プライバシーは確保される。この「オプトイン機能」については、今年後半に詳細が明らかになる予定だ。
Googleは異例なことに、今日の発表にすべての新機能を詰め込むのではなく、明日いくつかのAndroid新機能を発表する予定だと述べています。今後の発表にご期待ください。(追記:Androidの新機能の残りも発表されました。こちらにまとめがあります。)
スマートフォンの代替を狙うAIハードウェアガジェットの台頭や、アプリレスのジェネレーティブインターフェースの話題が広がる中、サマット氏にAndroidは今後5年間でどのように変化すると見ているか尋ねた。彼は、新興企業や既存企業が新しいことに挑戦するイノベーションに期待を寄せており、Google自身も「社内で多くのことを試している」と語った。しかし、サマット氏は自動車業界との類似性を強調した。
車を買うなら、ハンドルなど、ある程度の標準装備は当然期待するでしょう。しかしAIの登場で、そうした機能がなくなるのは大きな飛躍と言えるでしょう。ハンドルもインターフェースもなくなるのです。「これに興奮する人もいれば、そうでない人もいるでしょう」と彼は言います。彼は、スマートフォンで私たちが行う特定の機能は、AIの助けによってこれまで以上に補助的になるだろうと考えています。そして、一部の機能はAIによって置き換えられるだろうと予想しています。
「この取り組みが続けば、特定の領域においてUIを根本的に変革する機会が見つかるでしょう。そしてこれは私たち自身のテストでも既に確認されています。『なるほど、これは本当に補助的だ』という段階から、『実は、これをやるには全く新しい方法があるはずだ』という段階へと転換するのです。それが今、私たちの仕事が楽しく、ワクワクする理由です。この技術に取り組むには、まさに絶好の機会です。」