GoogleがI/O 2024で発表したすべてのもの:Gemini、検索、Project Astra、詐欺検出

GoogleがI/O 2024で発表したすべてのもの:Gemini、検索、Project Astra、詐欺検出

Googleの開発者向け基調講演は一日中AIに焦点が当てられていました。同社は、AIを搭載した新しいチャットボットツール、新しい検索機能、そしてAndroid向けの機械学習のアップグレードを多数披露しました。

Google CEOサンダー・ピチャイがGoogle IO開発者会議に登壇

写真:アンドレイ・ソコロウ/ゲッティイメージズ

Googleは本日、年次開発者会議「Google I/O」を開始しました。同社は通常、Google I/O基調講演で一連の新しいソフトウェアアップデートと、時折ハードウェアの発表を行っています。今年のI/Oではハードウェアの発表はありませんでした。Googleはすでに新型スマートフォン「Pixel 8a」を発表していましたが、本日のプレゼンテーションではAIソフトウェアアップデートの目玉が次々と発表され、ここ数年のAI生成ブームにおいてGoogleがいかに優位に立とうとしているかが如実に表れていました。

I/O 2024 の最大の発表は次のとおりです。

ジェミニがステップアップ

画像にはロゴとライトが含まれている場合があります

Google提供

Googleのオンデバイス型モバイル大規模言語モデル「Gemini Nano」が強化される。「Gemini Nano with Multimodality」という名称に変更され、Google CEOのサンダー・ピチャイ氏はステージ上で、この技術により「あらゆる入力をあらゆる出力に変換」できると述べた。つまり、テキスト、写真、音声、ウェブ、ソーシャル動画、そしてスマートフォンのカメラで撮影したライブ動画から情報を取得し、それらの入力を合成して内容を要約したり、ユーザーが抱く疑問に答えたりするのだ。Googleはこれを実演する動画を公開した。その動画では、棚にあるすべての本をカメラでスキャンし、タイトルをデータベースに記録して後で認識する様子が映し出されていた。

開発者は、他の LLM よりも多くのコンピューティング能力を Gemini で利用できるようになります。

開発者は、他の LLM よりも多くのコンピューティング能力を Gemini で利用できるようになります。

Google提供

Googleのより強力なクラウドベースAIシステム、Gemini 1.5 Proが、本日、世界中の開発者向けに公開されました。GoogleのAIへの野望について詳しくは、Wired誌のウィル・ナイトによる、Google DeepMindの共同創業者デミス・ハサビス氏へのインタビューをご覧ください。

写真のより良い検索

画像には電子機器、電話、携帯電話、人物の顔と頭が含まれている可能性があります

Ask Photos は、Google フォトにいくつかの新しい高度な検索機能をもたらします。

Google提供

GoogleはGoogleフォトに強力なビジュアル検索ツールを組み込みました。「Ask Photos」という新機能を使うと、Geminiに写真の検索を依頼し、これまでよりもきめ細かな結果を得ることができます。例えば、車のナンバープレートをGeminiに伝えると、文脈からあなたの車が検索されます。

Googleのブログ投稿で、Googleフォトのソフトウェアエンジニアであるジェレム・セリエ氏は、この機能は写真に関するデータを収集し、広告配信や他のGemini AIモデルのトレーニングに利用することはないと述べている(Googleフォトで使用されているものを除く)。「Ask Photos」は今夏にリリース予定。

ジェミニは仕事に行く

画像には人物、コンピューターハードウェア、電子機器ハードウェア、モニター、画面、ページ、テキストが含まれている可能性があります

Gmail!Gmailを覚えていますか?

写真:ジュリアン・チョッカトゥ

Googleは、オフィスツールスイート「Workplace」にもAIを組み込んでいます。本日より、Gmail、Googleドライブ、ドキュメント、スプレッドシート、スライドなど、多くのGoogleアプリのサイドパネルに、Google Gemini AIのオン/オフボタンが表示されます。Gemini AIは、質問に答えたり、メールや文書の作成をサポートしたり、長いドキュメントやメールのスレッドの要約を作成したりすることができます。

Googleは、これらがすべて事務作業だと思われないよう、保護者にとって魅力的な機能をいくつか公開しました。例えば、生徒の宿題を手伝ったり、欠席したPTAの会合の概要を教えてくれるAIチャットボットなどです。今年初めにリリースされたGoogleのCircle to Searchもアップグレードされ、数学の問題の解き方を詳しく教えてくれるなど、生徒の学業支援にも利用される予定です。

画像にはホワイトボード、人物、テキスト、コンピュータハードウェア、電子機器ハードウェア、モニター画面、コンピュータとラップトップが含まれる場合があります

本日の I/O 基調講演では、Gemini の Workspace 統合が大きな部分を占めました。

写真:ジュリアン・チョッカトゥ

ドキュメントやGmailなどのアプリには、Geminiを搭載したAI Teammateも組み込まれています。これは、同僚の生産性向上をサポートする相棒のようなもので、好きな名前を付けることができます(今日のデモではChipと名付けました)。AI Teammateは、同僚間のコミュニケーション調整、プロジェクトファイルの管理、ToDoリストの作成、課題のフォローアップなどに役立ちます。まるでターボチャージされたSlackbotのようです。

また、Gemsのデモも披露されました。これは、Geminiに定期的に実行させたいタスクを自動ルーティンとして設定できる新機能です。様々なデジタルタスクを管理するように設定し、音声コマンドやテキストプロンプトで実行できます。Googleはこれらのルーティンを、Geminiの名前にちなんで「Gems」と呼んでいます。

Android版Geminiの今後の大きな新機能について、Julian Chokkattuのストーリーでさらに詳しくご覧ください。AI TeammateとWorkspaceとの連携については、近日中にさらに詳しくお伝えします。

新しいジェミニモデル

画像にはアクセサリー、宝石、ジュエリーが含まれている場合があります

Google提供

Googleは、異なる種類のタスクに特化したGemini AIの2つの新しいモデルを発表しました。Gemini 1.5 Flashは、より高速で低レイテンシのモデルであり、素早さが求められるタスクに最適化されています。

事前に録画されたデモでは、Project Astra の視覚理解と、音声を使用して質問することで Project Astra が見ているものと対話する方法が紹介されています。

Project Astraはビジュアルチャットボットで、Google Lensの強化版といったところでしょうか。ユーザーはスマートフォンのカメラを起動し、カメラを向けることで周囲のあらゆるものについて質問することができます。Googleは、ユーザーが周囲の状況に基づいてAstraに様々な質問を次々と投げかける動画デモを公開しました。Astraは空間認識と文脈理解に優れており、Googleによると、ユーザーは自分が今いる町や、コンピューター画面上のコードの動作を理解したり、愛犬に素敵なバンド名をつけたりといった、世の中の様々なものを認識できるとのことです。デモでは、スマートフォンのカメラだけでなく、(正体不明の)スマートグラスに内蔵されたカメラを通して、Astraの音声によるインタラクションが披露されました。

ウィル・ナイトは本日早朝のニュース記事でアストラ計画についてさらに詳しく述べています。

創造性ツール

Google の AI への取り組みの創造的な側面が認められ、Google Labs の同社の実験的な AI 部門が開発した一連のツールのデモが披露されました。

申し訳ありませんが、これらのラマは本物ではありません。

Google提供

新機能は、Google DeepMindの動画生成ツールVeoをベースにした動画生成モデル「VideoFX」です。テキストプロンプトに基づいて1080pの動画を作成し、制作プロセスの柔軟性を向上します。Googleは高解像度画像生成ツール「ImageFX」も改良しました。Googleによると、従来の画像生成ツールよりも画像に不要なデジタルアーティファクトが生成される問題が少なくなったとのことです。また、ユーザーのプロンプトを分析してテキストを生成する機能も向上しています。

画像にはテキスト、電子機器、携帯電話、電話が含まれている可能性があります

DJモード始動。フレンチカフェの雰囲気を盛り上げよう!

Google提供

Google はまた、ミュージシャンがプロンプトに基づいて曲のループやサンプルを生成できる AI 音楽ジェネレーターである MusicFX の新しい DJ モードも披露しました。(DJ モードは、I/O 基調講演の冒頭で行われたミュージシャンの Mark Rebillet による風変わりで楽しいパフォーマンス中に披露されました。)

検索の進化

検索に特化した企業として謙虚にスタートしたG​​oogleは、今でも検索業界で最も有力な存在です(ただし、非常に優れた、ややプライバシー重視のオプションもいくつか存在します)。Googleの最新のAIアップデートは、同社の中核製品にとって大きな転換点となります。

新しいコンテキスト認識機能により、Google 検索はより関連性の高い結果を提供できるようになります。

Google提供

新しい機能には、AI で整理された検索が含まれます。これにより、検索結果がより整理されて読みやすく表示されるほか、長いクエリや写真を含む検索からより適切な応答を得られるようになります。

AI概要機能も確認されました。これは、検索ボックスに入力した質問に対する回答を複数の情報源から集めた短い要約です。これらの要約は検索結果の上部に表示されるため、ウェブサイトにアクセスしなくても、探している回答を得ることができます。この概要機能はすでに物議を醸しており、パブリッシャーやウェブサイトは、ユーザーがリンクをクリックすることなく質問に答えるGoogle検索は、そもそもGoogle検索結果に表示されるために多大な努力を払っているサイトにとって、破滅を意味するのではないかと懸念しています。しかしながら、この新たに強化されたAI概要機能は、本日から米国のすべてのユーザーに展開されます。

マルチステップ推論と呼ばれる新機能により、文脈の深い検索を行う際に、あるトピックに関する複数の階層の情報を得ることができます。Googleは旅行計画を例に挙げ、マップでの検索がホテル探しや交通機関の旅程設定にどのように役立つかを示しました。さらに、レストランの提案や、旅行中の食事計画のサポートも提供しました。さらに、特定の料理の種類やベジタリアン向けのオプションを検索することで、検索をさらに深めることができます。これらの情報はすべて整理された形で表示されます。

Lens での高度な視覚検索。

Google提供

最後に、Google Lensを使ってカメラを向けている対象に関する質問に答える方法の簡単なデモを見ました。(これはProject Astraの仕組みに似ていますが、Lensに組み込まれている機能は若干異なります。)デモでは、ある女性が「壊れた」ターンテーブルを修理しようと試みる場面がありましたが、Googleはレコードプレーヤーのトーンアームの調整が必要だと判断し、その方法について動画とテキストによる説明をいくつか提示しました。カメラを通してターンテーブルのメーカーとモデルまで正確に識別しました。

WIREDのローレン・グッドが、Googleの検索部門責任者リズ・リードと、Google検索に今後予定されているAIアップデートについて、そしてそれがインターネット全体にとって何を意味するかについて話を聞きました。

セキュリティと安全

Image may contain Text Business Card Paper and White Board

詐欺検出の実行中。

写真:ジュリアン・チョッカトゥ

基調講演で最後に注目すべき点の一つは、Android向けの新しい詐欺検出機能です。この機能は通話を盗聴し、詐欺師が使いそうな言葉遣い(例えば、別の口座への送金を勧めるなど)を検知します。騙されそうになると、通話を中断し、画面に切断を促すメッセージが表示されます。Googleによると、この機能はデバイス上で動作するため、通話内容がクラウドに送信されて分析されることはなく、プライバシーが強化されます。(WIREDによる、AI詐欺電話から自分や大切な人を守るためのガイドもご覧ください。)

Googleは、AIで作成されたメディアを識別するための透かしツール「SynthID」も拡張しました。これは、誤情報、ディープフェイク、フィッシングスパムの検出に役立ちます。このツールは肉眼では見えない微細な透かしを残しますが、画像内のピクセルレベルのデータを分析するソフトウェアによって検出可能です。今回のアップデートでは、Geminiアプリ、ウェブ、そしてVeoで生成された動画上のコンテンツをスキャンできる機能が追加されました。Googleは、SynthIDを今夏後半にオープンソースツールとしてリリースする予定だと発表しています。

  • あなたの受信箱に:毎日あなたのために厳選された最大のニュース

ブーン・アシュワースはWIRED Gearデスクのスタッフライターで、コネクテッドハードウェア、サステナビリティ、修理する権利について執筆しています。サンフランシスコ州立大学を卒業し、現在もサンフランシスコ在住。現在はVRDJを目指してトレーニング中です。…続きを読む

続きを読む

Wiredクーポン