GoogleがChatGPTへの待望の回答となるGeminiをリリース

GoogleがChatGPTへの待望の回答となるGeminiをリリース

人工知能(AI)の発展が危険なスピードで進むという議論が増えているが、事態の進展を遅らせることはまずない。OpenAIがChatGPTを立ち上げ、AI技術開発の新たな競争を引き起こしてから1年、Googleは本日、検索大手として再びAIの世界的リーダーの地位を確立することを目指すAIプロジェクトを発表した。

テキスト、画像、動画を扱える新しいタイプの AI モデルである Gemini は、検索エンジンを大衆の心に躍り出させ、巨大企業を生み出した PageRank に次ぐ、Google 史上最も重要なアルゴリズムとなる可能性がある。

Geminiの初期バージョンは、本日、Googleのチャットボット「Bard」の英語版で展開を開始します。170以上の国と地域で利用可能になります。Googleによると、Geminiは12月13日からGoogle Cloud APIを通じて開発者に提供される予定です。よりコンパクトなバージョンは、本日よりPixel 8スマートフォンのキーボードからメッセージ返信のサジェスト機能を提供します。Geminiは、生成検索、広告、Chromeなどの他のGoogle製品にも「今後数ヶ月」以内に導入される予定です。Googleによると、最も強力なGeminiバージョンは、「徹底的な信頼性と安全性のチェック」を経て、2024年にデビューする予定です。

「私たちにとって大きな瞬間です」と、Google DeepMindのCEO、デミス・ハサビス氏は本日の発表に先立ちWIREDに語った。「そのパフォーマンスには本当に興奮していますし、人々がこの技術を基に何を生み出すのかを見るのも楽しみです。」

大きな吹き出しの中に多色の吹き出しを入れた紙のコラージュ

ChatGPTのGoogleのライバルであるGeminiを無料でお試しいただけます。Bard内から簡単にアクセスできます。

ジェミニは、Googleによって「ネイティブにマルチモーダル」と表現されています。これは、近年の生成AIブームの中心となっている大規模言語モデルとは異なり、テキストだけでなく画像、動画、音声で学習されているためです。「これは当社最大かつ最も高性能なモデルであり、同時に最も汎用的なモデルでもあります」と、Google DeepMindの製品担当副社長であるイーライ・コリンズ氏は、ジェミニ発表の記者会見で述べました。

Google によれば、Gemini には 3 つのバージョンがある。最大で最も高性能な Ultra、大幅に小型でより効率的な Nano、そして中サイズで中程度の機能を持つ Pro である。

GoogleのChatGPTに類似したチャットボット「Bard」は、本日からGemini Proを搭載します。同社によると、この変更により、より高度な推論と計画が可能になるとのことです。現在、Gemini Proの専用バージョンが、Google DeepMindの「研究成果」であるコーディング生成ツール「AlphaCode」の新バージョンに組み込まれています。Geminiの最も強力なバージョンであるUltraは、Bardに搭載され、2024年にクラウドAPIを通じて利用可能になる予定です。

Googleのバイスプレジデント兼Bardゼネラルマネージャーであるシシー・シャオ氏は、このモデルのマルチモーダル機能によってBardは新たなスキルを獲得し、コンテンツの要約、ブレインストーミング、ライティング、プランニングといったタスクの精度が向上したと述べています。「これらは、Bardのリリース以来、最大の品質向上です」とシャオ氏は語ります。

新しいビジョン

Googleは、視覚情報に関する問題を処理するGeminiの能力を示すデモをいくつか披露しました。あるデモでは、AIモデルが、誰かが絵を描いたり、簡単なパズルを作ったり、世界地図を使ったゲームのアイデアを尋ねたりする動画に反応しました。また、2人のGoogle研究者は、グラフや数式を含む研究論文に関する質問に答えることで、Geminiが科学研究にどのように役立つかを示しました。

コリンズ氏によると、今週発表されるモデルである「Gemini Pro」は、AIソフトウェアの知性をテストするために一般的に使用される8つのベンチマークのうち6つで、ChatGPTに最初に搭載された「GPT-3.5」と呼ばれる以前のモデルを上回ったという。

Googleによると、来年デビューするモデル「Gemini Ultra」は、数学、米国の歴史、法律などのトピックに関する質問で言語モデルをテストするために学術研究者が開発した大規模マルチタスク言語理解(MMLU)ベンチマークで、GPT-4を含む他のどのモデルよりも高い90パーセントのスコアを獲得したという。

「Geminiは、機械学習研究コミュニティで広く使用されている32のベンチマークのうち30において、幅広いベンチマークで最先端の性能を誇ります」とコリンズ氏は述べた。「つまり、Geminiがあらゆる分野で新たな境地を切り開くと確信しています。」

ChatGPTの現在最も高性能なバージョンに搭載されているOpenAIのGPT-4は、今年3月のデビュー時に人々を驚かせました。同時に、AIが人間の知能の広範さに匹敵するようになる時期についての研究者の予想を見直すきっかけにもなりました。OpenAIはGPT-4をマルチモーダルと表現し、9月にはChatGPTを画像と音声処理に対応させるようにアップグレードしましたが、コアとなるGPT-4モデルがテキスト以外のものを直接学習したかどうかについては言及していません。ChatGPTは、DALL-E 2と呼ばれる別のOpenAIモデルの助けを借りて画像を生成することもできます。

Googleは本日、Geminiの内部動作に関する詳細を示す技術レポートを公開した。ただし、アーキテクチャの詳細、AIモデルの規模、トレーニングに使用されたデータの収集方法については明らかにされていない。

AI専門家によると、強力なコンピュータチップ上で大規模なAIモデルを学習させるには、長く費用のかかるプロセスが必要となるため、Geminiの開発には数億ドルの費用がかかった可能性があるという。Googleは、このモデルのために斬新な設計と新たな学習データの組み合わせを開発したとみられる。同社はAI技術のリリースを加速させ、OpenAIのChatGPTをめぐるノイズを消し去り、世界をリードするAI企業としての地位を再び確立すべく、複数の新たなAIプロジェクトにリソースを投入している。

「私たちは一種の報復合戦状態にあります」と、ワシントン大学名誉教授でアレンAI研究所の元CEOであるオーレン・エツィオーニ氏は語る。「これらのベンチマークにおいて、GeminiがGPT-4よりも優れた性能を発揮していることを疑う余地はありません。しかし、次期バージョンであるGPT-5は、GPT-4よりも優れた性能を発揮するでしょう。」

エツィオーニ氏によると、ジェミニのような巨大なモデルの構築には数億ドルの費用がかかると考えられているが、クラウドを通じたAI供給で優位に立つ同社は、最終的には数十億ドル、あるいは数兆ドルもの収益を獲得する可能性があるという。「これは捕虜を取らず、必ず勝たなければならない戦いだ」と彼は言う。

反撃する

GoogleはChatGPTで機能するいくつかの重要な技術を発明しましたが、OpenAIが約1年前に独自のチャットボット技術をリリースする前に、自社のチャットボット技術をリリースするのが遅れました。これは、不快な発言や危険な発言をする可能性があるという懸念があったためです。同社は、Geminiモデルのより汎用的な機能により、これまでで最も包括的な安全性テストを実施したと述べています。

ジェミニは、アレンAI研究所が開発した有害なモデルプロンプトのデータセットを用いてテストされました。コリンズ氏によると、同社は外部の研究者と協力して、モデルの「レッドチーム」をさらに強化し、不正な動作をさせて弱点を突き止めているとのことです。具体的な内容は明らかにしませんでしたが、コリンズ氏はジェミニの強力な機能により、Googleは「品質と安全性のチェック基準をさらに引き上げる必要がある」と述べました。

過去10年間で強力なAI研究能力を築き上げてきたGoogleとその親会社Alphabetにとって、新しいアルゴリズムには大きな期待が寄せられています。何百万人もの開発者がOpenAIのアルゴリズムを基盤として開発を進め、Microsoftもこの技術を自社のOSや生産性向上ソフトウェアに新機能を追加するために活用していることから、Googleはこれまで以上に自社の重点領域を再考せざるを得なくなっています。

Googleは5月のI/OカンファレンスでGeminiの開発に取り組んでいることを初めて発表しました。ChatGPTの人気と、OpenAIの技術がMicrosoftのBing検索エンジンを強化する可能性への脅威を回避するため、検索に生成AIを組み込むことに急いで取り組んでいたのです。Googleの世界の検索市場におけるシェアは推定で依然として90%を超えていますが、Geminiのリリースは、同社がChatGPTへの対応を強化し続けていることを示しているようです。

Geminiの開発を主導した部門であるGoogle DeepMindは、こうした状況への対応の一環として、Googleの主要なAI研究グループであるGoogle Brainとロンドンを拠点とするAI部門DeepMindを4月に統合して設立されました。しかし、Geminiプロジェクトはここ数ヶ月、Google社内の研究者やエンジニアの力を借りて進められてきました。AIモデルの学習には、Tensor Processing Unit(TPU)と呼ばれるGoogle独自のカスタムシリコンチップの最新版が利用されました。

ジェミニは、Google の 2 つの主要な AI 研究所の姉妹機関であることと、アポロ計画の月面着陸への道を開いた NASA のジェミニ計画にちなんで名付けられました。

AIの視覚機能を専門とするカリフォルニア大学バークレー校のアレクセイ・エフロス教授は、Googleのジェミニにおける全体的なアプローチは有望だと述べています。「他のモダリティを活用しているものは、間違いなく正しい方向への一歩です」と彼は言います。

エフロス氏は、ジェミニもGPT-4と同様に、現実世界の複雑さを理解する能力に依然として顕著な限界があると考えている。しかし、彼や他の研究者たちが、Googleの創造物について知りたいことすべてを知ることはおそらく不可能だろう。「それが、こうした独自モデルの問題点です」とエフロス氏は言う。「私たちは実際には、その内部に何があるのか​​を知らないのです。」

2023年12月6日午後3時15分(EST)更新:この記事の以前のバージョンでは、Sissie Hsiaoの名前のスペルが間違っていました。