OpenAIのDall-E 3はChatGPTを搭載したアートジェネレーターです

OpenAIは、最新のAIアートツール「Dall-E 3」を発表しました。Dall-E 3は、OpenAIの大ヒットチャットボット「ChatGPT」を活用し、より複雑で緻密に構成されたアート作品の作成を支援します。これにより、ジェネレーターはより詳細で一貫性のある指示を得られるようになります。

Dall-E 3の新機能は、プログラムに入力されるテキストの調整に必要な複雑さ（いわゆる「プロンプトエンジニアリング」）の一部を排除し、ユーザーがChatGPTの会話型インターフェースを通じて調整を行えるようにした点です。この新しいツールは、洗練されたAIアート作品の生成ハードルを下げるのに役立つ可能性があり、優れたチャットボットの能力によってOpenAIが競争で優位に立つのに役立つ可能性があります。

たとえば、このジャガイモの王様の画像を例に挙げましょう。

このような風変わりなAI生成アートは、テキストプロンプトを視覚的な構成に変換するツールが数多く登場したおかげで、ソーシャルメディアでよく見られるようになりました。しかし、この作品はChatGPTの多大な芸術的支援を受けて作成されました。ChatGPTは短いプロンプトをより詳細なものに変換し、正しい構成方法の説明も添えました。

これはDall-Eだけでなく、生成AIアート全体にとって大きな前進です。ピクサーのキャラクター「ウォーリー」と芸術家サルバドール・ダリを組み合わせた造語であるDall-Eは、2021年に発表され、2022年にリリースされました。これは、Webやその他のソースから収集した大量のラベル付き画像を入力するアルゴリズムで構成されています。拡散モデルと呼ばれる手法を用いて、与えられたプロンプトに対して画像をどのようにレンダリングするかを予測します。十分な量のデータがあれば、複雑で一貫性があり、美的に魅力的な画像を生成することができます。Dall-E 3の特徴は、人間と機械の相互作用にあります。

Dall-E 3でレンダリングされたこの画像は、ChatGPTを使ってプロンプトを入力することで、より一貫性があり洗練された画像が生成される様子を示しています。通常、プロンプトエンジニアリングには膨大な作業が必要で、ユーザーは次第に複雑なプロンプトを試しながら、洗練されたものを作成していくことになります。しかし、Dall-E 3では、ChatGPTがより洗練されたプロンプトを作成する作業を引き受けます。

台座には「あなたの中に眠る宇宙を見つけよう」という文字が書かれた、壮大な宇宙を描いたハートの AI アート。

Dall-E 3号は、以下のお題に応えてこの画像を制作しました。「嵐の海の真ん中、台座の上に立つ半透明のガラスでできた人間の心臓のイラスト。太陽の光が雲を突き抜け、心臓を照らし、その中に小さな宇宙を浮かび上がらせています。『自分の中に宇宙を見つけよう』という言葉が、地平線に太字で刻まれています。」

Dall-E 3では、ユーザーはChatGPTを通じて、まるで本物のアーティストに変更を依頼しているかのように、作品に磨きをかけることができます。「長々とした指示に煩わされる必要はありません」と、Dall-Eチームの主任研究者兼責任者であるアディティア・ラメシュ氏は述べています。「まるで同僚と話しているかのように、ChatGPTとやり取りできるのです。」

Dall-Eチームの主任研究員であるガブリエル・ゴー氏は、WIREDに対し、Dall-E 3に架空の麺料理店の宣伝ポスターをいくつか作成するよう依頼し、その手法を実演した。いくつかの選択肢を提示された後、ゴー氏はChatGPTを通じてDall-E 3に、その中から一つを選び、レストランの外に掲げられた看板のイラストにするよう依頼した。

Dall-E 3 は現在、チャットボットの有料版である ChatGPT Plus を通じて入手可能です。

OpenAIはこの論争を受けて、アーティストが自身の作品を将来のトレーニング実行から除外できる機能を導入すると本日発表しました。Dall-E 3では、プロンプトに有名アーティストのスタイルが含まれているかどうかを検出することで、ユーザーが有名アーティストのスタイルで作品を生成しようとするのを阻止します。

OpenAIは、ユーザーがポルノや暴力的なグラフィックアート、あるいは著名人を描いた画像を生成することをブロックするための安全対策も講じている。OpenAIの政策研究者であるサンディニ・アガルワル氏によると、Dall-Eの新バージョンは、研究者がガードレールを破ろうとする「レッドチーム」と呼ばれる調査をさらに強化したという。「際どいコンテンツに対する非常に明確なリクエストは、分類装置を通さなければならず、拒否されます」とアガルワル氏は言う。もちろん、一部のプログラマーは、何の制限もないオープンソースの画像ジェネレーターを作成している。

AI生成アートのブームによる最も注目すべき成果の一つは、ソーシャルメディアに溢れかえったシュールな画像です。以下の画像は、ChatGPTの協力を得てDall-E 3で生成されたもので、次のようなプロンプトが付けられています。「様々な肉でできた広大な風景が、見る者の前に広がります。柔らかくジューシーなローストビーフの丘、チキンドラムスティックの木、ベーコンの川、そしてハムの巨石が、シュールでありながら食欲をそそる光景を作り出しています。空にはペパロニのような太陽とサラミのような雲が飾られています。」