Gemini AIを使ってYouTube動画を要約する方法

その一つとして、YouTube動画の要約が挙げられます。AIは既に、かなり信頼性の高い要約ツールとして機能できることが示されています（ただし、常にそうであるとは限りません）。15分や30分の動画シリーズから重要なポイントをいくつか抽出するだけであれば、節約できる時間はすぐに膨大になります。

Google Gemini は、Google 検索、Google マップ、YouTube などの Google アプリにプラグインできる新しい AI モデル「Gemini 2.0 Flash Thinking Experimental」を発表しました。このモデルは、有料版・無料版を問わずすべての Gemini ユーザーが利用可能で、私たちは Gemini のウェブインターフェースを使用して、いくつかのクリップでテストしました。

機能を見つける方法

ウェブ上でGeminiを開き、新しいチャットを開始して左上のモデルピッカーを開くと、「2.0 Flash Thinking（実験的）」というラベルのモデルが表示されます。これはGoogleアプリ接続が組み込まれたモデルですが、ほとんどの場合、使用するアプリを指定する必要があります（例えばGoogleマップで場所を検索する場合など）。

このモデルは、Android または iOS 用の Gemini アプリでも見つけるのは難しくありません。新しい会話の上部にあるドロップダウンメニュー (現在使用しているモデルのラベルが付いているはずです) をタップすると、選択可能な2.0 Flash Thinking (実験的)オプションが表示されます。

この機能はウェブ上で使う方が少し使いやすいでしょう。YouTubeのURLをブラウザのタブ間でドラッグして分析できるからです。モバイルでも利用できます。YouTube動画を分析するだけでなく、新しいコンテンツを検索することもできます。例えば、野球のハイライト動画や科学解説動画などを検索してみてください。

試合のハイライトをまとめる

画像にはファイル、ページ、テキスト、ウェブページ、コンピューターと電子機器が含まれている可能性があります

まず、昨年のスーパーボウルLIXのハイライト映像（約20分間の試合）をGeminiに提供し、AIがどのように解釈するかを検証しました。「この試合、何が起こっているの？」と尋ねるだけで、数秒でチームの詳細と優勝者（AIは正しく答えました）、そしていくつかの重要なハイライトが返ってきました。

最終スコアに関する追加の質問には正しく回答しましたが、ジェミニは最初のタッチダウンを決めた選手の名前を間違えました。AIはヨハン・ドットソンだと推測しました。ハイライト映像では、スコアが0-0の時にドットソンがタッチダウンを決めた様子が映し出されていましたが、これは除外されました。これは、AIが必ずしも細かいニュアンスを捉えられないことの一例です。

ジェミニはカンザスシティ・チーフスが最初の得点を挙げたタイミングを正確に特定し、YouTubeクリップ内のタッチダウンに直接リンクするタイムスタンプまで表示しました。得点者の名前も正確に表示しました。ジェミニはスポーツクリップの解説に大きく依存しているようですが、これは当然のことです。

ビデオの内容を要約する

次に、ウェス・アンダーソン監督の『グランド・ブダペスト・ホテル』の舞台裏映像をジェミニで試してみました。4分半の映像に対し、ジェミニはほぼ瞬時に反応を示しました。話題になっている映画のタイトルと、映像のストーリー展開の要点を的確に捉えていました。

しかし、これもすべて音声（またはトランスクリプト）に依存しており、実際の動画内容の分析は行われていないようです。AIは、動画に出演している人物の名前が画面に表示されているにもかかわらず、誰が出演しているのかを特定できませんでした。また、監督についても（動画の説明文には監督の名前が記載されていたにもかかわらず）特定できませんでした。

良い点としては、Geminiはビデオの音声を非常にうまくまとめてくれました。全体を通して言及されていた映画制作上の課題のいくつかを正確に特定し、それらにタイムスタンプを提供してくれました。グランド・ブダペストを再現するためのセット探しから、エキストラの配置まで、様々な課題が挙げられました。

インタビューの要約

最後に、Google Geminiでインタビューを試してみました。イギリスのChannel 4が、チャーリー・ブルッカーとシエナ・ケリーに「ブラック・ミラー」の最新シリーズについてインタビューしている様子です（AIに関する記事にはぴったりかもしれません）。Geminiは、動画全体を通して会話が中心ではありますが、トークポイントを抽出し、タイムスタンプを追加するなど、非常に優れた機能を発揮しました。

しかし、繰り返しになりますが、音声や書き起こし以外の文脈は一切提供されていません。Gemini AIは、インタビューがどこで行われたのか、参加者がどのように行動していたのか、動画の映像について何も知ることができませんでした。これは、実際にGemini AIを使う場合は留意しておくべき点です。

YouTube動画の音声やそのトランスクリプトに答えが載っている動画の場合、Geminiは要約と正確な回答を提供するのに非常に優れています（ただし、タッチダウンが無効と判断された場合と、タッチダウンが成立した場合の両方を解説者が言及していることが前提です）。視覚的な情報を得るには、やはり動画を自分で視聴する必要があります。