ピクサーで最も著名なアニメーターの一人、リー・アンクリッチが中学1年生だった頃を想像してみてください。学校初のコンピューターの画面に映し出された機関車の画像を見つめています。「わあ!」と彼は思います。しかし、リーがその画像が単に「電車の絵」と頼んだだけでは現れなかったことを知った時、魔法のような感覚は薄れていきます。実際には、一生懸命働く人間によって、丹念にコーディングされ、レンダリングされた画像だったのです。
43年後、リーがDALL-Eに偶然出会ったところを想像してみてください。DALL-Eは、人間が入力した「電車の絵」といったシンプルな指示に基づいて、オリジナルのアート作品を生成する人工知能です。言葉を入力し、次々とイメージを描き出すにつれ、あの驚きが再び蘇ります。ただ、今回はその驚きが消えることはありません。「まるで奇跡のようです」と彼は言います。「結果が出た時は、息を呑み、涙が溢れました。本当に魔法のようでした。」
我々のマシンは限界を超えました。これまでずっと、コンピューターは真に創造的になることはできないと安心させられてきました。しかし、突如として、何百万もの人々が新しいタイプの AI を使って、これまでに見たこともないような素晴らしい画像を生み出しています。これらのユーザーのほとんどは、リー・アンクリッチのようなプロのアーティストではありませんが、そこが重要なのです。彼らはプロのアーティストである必要はありません。誰もが「トイ・ストーリー 3」や「リメンバー・ミー」のようなオスカー受賞作品の脚本、監督、編集ができるわけではありませんが、 AI 画像ジェネレーターを起動してアイデアを入力することは誰でもできます。画面に表示されるものは、そのリアリティと詳細さの深さにおいて驚くべきものです。そのため、誰もが「ワオ!」という反応を示します。Midjourney、Stable Diffusion、Artbreeder、DALL-E の 4 つのサービスだけでも、人間は AI と共同で 1 日に 2,000 万枚以上の画像を共同作成しています。絵筆を手に、人工知能は驚きを生み出すエンジンとなったのです。
これらの驚きを生み出すAIは、人間が作成した何十億枚もの画像から技術を学んでいるため、その出力は私たちが想像する画像とほぼ一致しています。しかし、彼らは異質なAIであり、その根源は作成者自身にとっても謎に包まれているため、人間が思いつかないような方法で画像を再構成し、ほとんどの人が想像する芸術性どころか、実行スキルさえ持ち合わせていないような細部まで埋め込んでいます。また、私たちが好きなもの、望むスタイルで、より多くのバリエーションを数秒で生成するように指示することもできます。これが最終的に、彼らの最大の強みです。つまり、親しみやすく理解しやすい、しかし同時に全く予想外の新しいものを作り出すことができるのです。
AIが生成したこれらの新しい画像は、実のところ予想外のものであり、その驚きの直後に静寂の畏敬の念が湧き上がり、目にしたほぼすべての人に別の考えが浮かぶ。人間が作り出す芸術はもはや終焉したに違いない。これらの機械のスピード、安さ、スケール、そしてもちろん、奔放な創造性に匹敵する者はいるだろうか?芸術もまた、ロボットに譲らなければならない人間の探求の1つなのだろうか?そして、当然の疑問が浮かぶ。コンピューターが創造力を発揮できるなら、これまでできないと言われてきたことを、コンピューターは他に何ができるのだろうか?
過去6ヶ月間、AIを使って何千枚もの印象的な画像を作成してきました。コードに隠されたもう一つの美しさを見つけるための終わりのない探求に、夜も眠れないほど費やしました。そして、これらのジェネレーターの開発者、パワーユーザー、そして他のアーリーアダプターたちにインタビューした結果、明確な予測を立てることができました。ジェネレーティブAIは、私たちのデザインのあり方をほぼすべて変えるでしょう。そして、この新しいテクノロジーによって職を失うアーティストは一人もいないでしょう。

AIの助けを借りて生成された画像を「共創」と呼ぶのは、決して誇張ではありません。この新たな力の驚くべき秘密は、その最良の応用が、単一のプロンプトを入力することではなく、人間と機械の間の非常に長い対話の結果であるということです。それぞれの画像の進歩は、幾度となく繰り返される反復、やり取り、迂回、そして何時間、時には何日にも及ぶチームワークによってもたらされます。これらはすべて、機械学習の長年の進歩の上に成り立っています。
AI画像生成器は、2つの異なる技術の融合から生まれました。1つは、一貫性のあるリアルな画像を生成できる、歴史あるディープラーニングニューラルネットワークの技術系、もう1つは、画像エンジンへのインターフェースとして機能する自然言語モデルです。この2つが融合され、言語駆動型画像生成器が誕生しました。研究者たちは、キャプションなどのテキストが隣接しているすべての画像をインターネットから収集し、数十億もの事例を用いて、視覚的な形と単語、そして単語と形を結び付けました。この新しい組み合わせにより、ユーザーは求める画像を説明する一連の単語(プロンプト)を入力するだけで、プロンプトはそれらの単語に基づいて画像を生成することができました。
Google の科学者たちは、今日の画像生成器の中核を成す拡散計算モデルを発明したが、同社は人々がそれをどのように利用するかについて非常に懸念しているため、独自の実験的な生成器である Imagen と Parti を未だに一般に公開していない (試用できるのは従業員のみで、リクエストできる内容には厳しいガイドラインがある)。したがって、現在最も人気のある画像生成器プラットフォーム 3 つが、守るべきレガシーのないスタートアップ 3 社であることは偶然ではない。Midjourney は、David Holz が立ち上げたブートストラッピングのスタートアップで、彼は新興のアーティスト コミュニティをこの生成器の基盤とした。AI へのインターフェースはノイズの多い Discord サーバーであり、すべての作業とプロンプトは最初から公開されていた。DALL-E は、Elon Musk らが資金提供している非営利団体 OpenAI の第 2 世代製品である。Stable Diffusion は、ヨーロッパの起業家 Emad Mostaque によって作成され、2022 年 8 月に登場した。これはオープンソースプロジェクトであり、誰でもソフトウェアをダウンロードして自分のデスクトップでローカルに実行できるという利点があります。Stable Diffusionは、他のプロジェクトよりもAI画像ジェネレーターを世に送り出しました。

芸術は人間です。
イラスト:アダム・ガルシア
アートはハイブリッドです。
イラスト:@auranova_ai + MIDJOURNEYなぜこれほど多くの人がこれらのAIと遊ぶことにこれほど興奮するのでしょうか?多くの画像が作られているのは、人間がこれまで多くの芸術作品を生み出してきたのと同じ理由からです。つまり、画像が美しく、私たちがそれを見たいからです。キャンプファイヤーの炎のように、光の模様は魅惑的です。同じものが繰り返されることはなく、何度も私たちを驚かせます。誰も見たことのない、あるいは想像もできない光景を描き出し、巧みに構成されています。それは、ビデオゲームの世界を探索したり、アートブックをめくったりするのと同じような喜びです。彼らの創造性には真の美しさがあり、私たちは美術館で素晴らしい美術展を鑑賞するのと同じように、AIの作品をじっと見つめます。実際、生成された画像の連続を見るのは、まるで個人美術館を訪れるようなものです。ただし、AIの場合は、壁一面が私たちが求める芸術作品で埋め尽くされています。そして、次の画像がもたらす絶え間ない新鮮さと驚きは、ほとんど衰えることはありません。ユーザーは発見した逸品を共有するかもしれませんが、現在毎日生成される2000万枚の画像の99%は、共同制作者であるたった一人の人間にしか見られないでしょう。
他の芸術と同様に、画像にも癒しの効果があります。人々が奇妙なAI画像を作るのに時間を費やすのは、日曜日に絵を描いたり、日記に落書きしたり、ビデオを撮影したりするのと同じ理由です。彼らはこれらのメディアを使って、自身の人生における何かを、他に言いようのない何かを解き明かそうとします。愛犬の死をきっかけに作られた、動物の天国を描いた画像も見ました。多くの画像は、無形の精神的な領域の表現を探求しており、おそらくそれらについて考えるための手段なのでしょう。「画像の利用の大部分は、基本的にアートセラピーです」と、Midjourneyの制作者であるホルツは言います。「これらの画像は、普遍的な意味で美的に魅力的というわけではありませんが、人々の人生で起こっていることという文脈の中で、非常に深い意味で訴えかけるものなのです。」これらのマシンは、あらゆる種類のファンタジーを生み出すために使用できます。ホスト型サービスではポルノやゴア表現は禁止されていますが、デスクトップ版ではPhotoshopのように何でも可能です。

この記事は2023年2月号に掲載されています。WIREDを購読するには、こちらをクリックしてください。写真:ピーター・ヤン
パワーユーザーを対象にした非公式のアンケート調査で、実用的な画像を探すのに費やす時間は全体の約40%に過ぎないことが分かりました。AI画像の多くは、以前は画像がなかった場所で使用されています。人間のアーティストが作成した画像に取って代わることは通常ありません。例えば、芸術的な才能のない人や、誰かを雇う時間と予算のない人が、テキストのみのニュースレターにイラストを描くために作成する場合もあります。1世紀前、機械写真が人間のイラストを駆逐するのではなく、画像が登場する場を大幅に拡大したように、AI画像ジェネレーターはより多くの芸術の可能性を切り開きます。メール、テキストメッセージ、ブログ、書籍、ソーシャルメディアなど、現在は空白になっている場所で、文脈に応じて生成された画像が主に見られるようになるでしょう。
この新しい芸術は、絵画と写真の中間に位置します。絵画やデッサンと同じくらい、人間の想像力と同じくらい広大な可能性の空間に存在します。しかし、あなたは写真家のようにその空間を移動し、発見を探し求めます。プロンプトを微調整すると、誰も訪れたことのない場所にたどり着くかもしれません。そこで、そのエリアをゆっくりと探索し、歩きながらスナップショットを撮ります。その領域は主題、ムード、またはスタイルである可能性があり、再び訪れる価値があるかもしれません。芸術とは、新しいエリアを見つけてそこに身を置き、捉えるものに優れたセンスと鋭いキュレーションの目を働かせる技術にあります。写真が初めて登場したとき、写真家はボタンを押すだけで済むかのようでした。同様に、素晴らしい AI 画像を得るために人がしなければならないことは、ボタンを押すだけのようです。どちらの場合も、画像が得られます。しかし、素晴らしい画像、真に芸術的な画像を得るには、まあ、それはまた別の話です。

AI画像生成器が登場してまだ1年も経っていないのに、AI画像作成が他の人よりはるかに上手い人がいることは明らかです。同じプログラムを使用しているにもかかわらず、アルゴリズムを何千時間も使い込んだ人は、魔法のように平均的な人の何倍も優れた画像を作り出すことができます。これらのマスターが作成した画像には、通常AIが生成する大量のディテールに圧倒されるような、驚くべき一貫性と視覚的な大胆さがあります。これはチームスポーツだからです。人間のアーティストと機械のアーティストはデュエットです。そして、有用なものを生み出すには、経験だけでなく、多くの時間と労力が必要です。まるでAIにスライダーバーがあるかのようです。片方の端には最大の驚きがあり、もう片方の端には最大の服従があります。AIに驚かせるのは非常に簡単です(そして、私たちがAIに求めるのはそれだけです)。しかし、AIに服従させるのは非常に困難です。 AI生成アート作品のNFT販売で生計を立てているマリオ・クリンゲマン氏は、「非常に具体的なイメージを頭の中で描いていると、まるで力場と対峙しているような感覚になります」と語る。「この部分を影で隠す」「この部分を強調する」「トーンを落とす」といった指示には、AIはしぶしぶ従うしかない。AIを説得する必要があるのだ。
DALL-E、Stable Diffusion、および Midjourney の現在のバージョンでは、プロンプトの長さは長いツイート程度に制限されています。これより長くなると、言葉がごちゃ混ぜになり、画像がぐちゃぐちゃになってしまいます。つまり、すべての素晴らしい画像の背後には、それを呼び出す短い魔法の呪文が隠されているということです。それは最初の呪文から始まります。どのように言うかが重要です。すぐに得られる結果は、4~9 枚の画像のグリッドとして具体化されます。その一連の画像から、子孫の画像を変化させ、突然変異させます。これで子孫のできあがりです。有望そうであれば、呪文を微調整して、より多くの世代の画像が誕生するにつれて、新しい方向に少しずつ導いていきます。最も説得力のある構成を探しながら、グループを何度も増殖させます。何十世代もかかっても絶望しないでください。AI のように考えて、どんなことを聞きたいでしょうか。過去にうまくいった指示をささやき、プロンプトに追加します。これを繰り返します。語順を変えて、AI がそれを気に入るかどうかを確認します。具体的にすることを忘れないでください。骨組みと可能性を秘めた画像が大量に集まるまで複製を繰り返します。そして、厳選した数枚を除いて全て淘汰します。容赦なく。最も有望な画像から、AIに画像を現在の境界線を越えて特定の方向に拡張するよう指示します。うまく機能していない部分は削除します。AIに呪文(インペインティング)を追加して置換することを提案します。AIがヒントを理解しない場合は、他のユーザーが使用している呪文を試してみましょう。AIが可能な限り処理を完了したら、最終的な調整のために画像をPhotoshopに移行します。特徴的な画像に50ステップもかかることは珍しくありませんが、何もしていないかのように提示します。
この新しい魔術の背後には、プロンプティングという技術があります。各アーティストやデザイナーは、プロンプトを進化させることで、AIが最大限のパフォーマンスを発揮するように促す方法を開発します。これらの新しいアーティストを、AIウィスパラー、プロンプトアーティスト、またはプロンプターと呼びましょう。プロンプターは、まるで監督のように、異星人の協力者たちの作業を統一されたビジョンへと導きます。AIから一流の絵を引き出すために必要な複雑なプロセスは、急速に美術技術として台頭しつつあります。プロンプティングをより簡単に、より良くするための新しいツールが、ほぼ毎日のように登場しています。PromptBaseは、絵文字、ロゴ、アイコン、アバター、ゲームの武器といったシンプルな画像を作成するプロンプトをプロンプターが販売するマーケットです。クリップアートのようなものですが、アートを販売するのではなく、アートを生成するプロンプトを販売します。固定されたクリップアートとは異なり、アートはニーズに合わせて簡単に変更・調整でき、複数のバージョンを何度でも抽出できます。こうしたプロンプトのほとんどは数ドルで販売されていますが、自分でプロンプトを磨くのがどれだけ大変かを考えると、妥当な価格です。
平均以上のプロンプトには、被写体だけでなく、照明、視点、喚起される感情、カラーパレット、抽象度、そして場合によっては模倣するための参照画像も説明されています。他の芸術的スキルと同様に、今では新進のプロンプターにプロンプトの細かい点をトレーニングするためのコースやガイドブックがあります。DALL-E 2のファンであるガイ・パーソンズは、驚きを超えて実際に使用できる画像を取得する方法についてのヒントが満載の無料のプロンプトブックを作成しました。一例を挙げると、プロンプトに「シグマ75mmカメラレンズ」などの具体的な用語が含まれている場合、パーソン氏によると、AIはレンズによって作られた特定の外観を作成するだけでなく、「より広く『レンズが説明に登場するような写真の種類』を暗示する」ため、よりプロフェッショナルになり、したがってより高品質の画像を生み出す傾向があります。このような多層的な熟練度によって素晴らしい結果が生まれます。
技術的な理由により、まったく同じプロンプトを繰り返しても、同じ画像が得られる可能性は低いです。各画像にはランダムに生成されたシードがあり、それがなければ統計的に複製することは不可能です。さらに、同じプロンプトを異なるAIエンジンに与えると、異なる画像が生成されます。Midjourneyはより絵画的で、DALL-Eは写真のようなリアリズムに最適化されています。それでも、すべてのプロンプト作成者が秘密を共有したがるわけではありません。特に素晴らしい画像を見たときの自然な反応は、「どんな呪文を使いましたか?」と尋ねることです。プロンプトは何でしたか?伝説のゲームMystの共同制作者であり、デジタルアーティストの先駆者であるロビン・ミラーは、AIが生成した画像を毎日投稿しています。「人々にどのプロンプトを使用したか尋ねられると、教えたくないことに驚きます。これには芸術があり、それもまた私を驚かせます。」クリンゲマンは自分のプロンプトを共有しないことで有名です。「すべての画像はすでに存在していると信じています」と彼は言います。 「作るのではなく、見つけるのです。巧みな誘導で辿り着くなら、なぜ他の皆をそこに招待したいのか、私にはわかりません。」
プロンプターが真の芸術を生み出していることは、私には明白に思えます。ヒッチコックや黒澤明のような、卓越した映画監督とは、俳優、アクション、シーン、アイデアをプロンプターのように操る存在に他なりません。優れた画像生成プロンプターも同様の技術を駆使しており、作品を美術館で販売したり、アートコンテストに出品したりするのも当然のことです。今年の夏、ジェイソン・アレンはコロラド州立フェアのファインアート・コンペティションのデジタルアート部門で、スペースオペラをテーマにした大型キャンバス作品で最優秀賞を受賞しました。作品には「Jason Allen via Midjourney」という署名が入っています。どんなツールを使ったとしても、制作には相当の労力が必要だったであろう、非常にクールな作品です。通常、デジタルアート部門の画像は、PhotoshopやBlenderのようなツールを用いて作成されます。これらのツールは、アーティストがデジタル化されたオブジェクト、テクスチャ、パーツのライブラリにアクセスし、それらをコラージュしてシーンを作り上げます。これらは手描きではありません。これらのデジタル画像は、紛れもなくテクノロジーの集合体なのです。コラージュは由緒ある芸術形式であり、AIを用いてコラージュを作り出すことは自然な進化と言えるでしょう。3Dレンダリングされたコラージュが芸術だとすれば、Midjourneyの写真もまさに芸術と言えるでしょう。アレンはVice誌のインタビューで、「特別なプロンプトを探求してきました。それを使って何百枚もの画像を作成し、何週間もかけて微調整とキュレーションを重ねた結果、最高の3枚を選び、キャンバスに印刷しました」と語っています。
もちろん、アレンのブルーリボンは警鐘を鳴らした。一部の批評家は、これは終末の兆し、芸術の終焉、そして人間の芸術家の終焉だと考えた。予想通りの嘆きが続き、多くの人が苦境に立たされた芸術家にとってどれほど不公平なことかを指摘した。AIは私たちを支配し、殺すだけでなく、どうやらそうしながら世界最高の芸術作品も生み出すらしい。

あらゆる新技術は誕生と同時に「テックパニックサイクル」を引き起こします。そのサイクルには7つの段階があります。
- そんなナンセンスで私を煩わせないで。絶対にうまくいかない。
- はい、それは起こっていますが、うまく機能しないので危険です。
- 待て、あまりにもうまく機能しすぎている。妨害する必要がある。何とかしろ!
- このツールは非常に強力なので、これにアクセスできない人にとっては不公平です。
- 今ではどこにでも蔓延していて、逃れる術はありません。不公平です。
- やめようと思います。1ヶ月間。
- 本当の問題、つまり次に起こる出来事に焦点を当てましょう。
現在、AI画像生成ツールに関しては、ハイテクに精通したアーティストや写真家の一団が、レベル3のパニック状態から抜け出そうと活動しています。彼らは、反応的で、第三者的な、仮説的な方法で、(自分自身ではなく)他人が職を失うかもしれないという恐怖を抱いています。デザインや編集用途のストックフォトやイラストを販売する大手エージェンシー、ゲッティイメージズは、既にAI生成画像を禁止しています。DeviantArtに作品を投稿する一部のアーティストも同様の禁止を求めています。AIアートにラベルを付け、「本物の」アートと区別するよう求める声は、善意から上がっています。
さらに、アーティストの中には、自分の作品がAIのトレーニングに使用されないように保証を求める人もいます。しかし、これはレベル3のパニックの典型であり、せいぜい見当違いです。アルゴリズムは、付随するテキスト付きの60億枚の画像にさらされています。影響力のあるアーティストでなければ、作品を削除しても何の違いもありません。生成された絵は、トレーニングセットにあなたの作品があってもなくてもまったく同じに見えます。しかし、たとえあなたが影響力のあるアーティストであっても、あなたの画像を削除しても問題はありません。あなたのスタイルは他の人の作品に影響を与えているため(影響力の定義)、画像が削除されてもあなたの影響力は残ります。トレーニングセットからゴッホの絵をすべて削除したらどうなるか想像してみてください。ゴッホのスタイルは、彼を模倣したり影響を受けたりした人々が作成した膨大な画像の海の中に依然として埋め込まれているでしょう。
スタイルは「ゴッホ風」のように、プロンプトによって呼び出されます。不満を抱くアーティストの中には、自分の名前が検閲され、プロンプトとして使用されないようにしてほしいと考える人もいます。そのため、たとえ彼らの影響を排除できなくても、名前が使えないため、その影響にたどり着くことができません。これまでの検閲の試みから分かるように、この種の言論規制は簡単に回避できます。名前を間違えたり、スタイルを言葉で説明したりすればいいのです。例えば、私はアンセル・アダムスの名前を一切使わずに、雄大な光と際立った前景を持つ、精緻な白黒の自然風景写真を作成できることに気付きました。
アーティストが自らAIから離れる動機は他にもあります。大企業が自分の作品で儲け、その貢献が報われないのではないかと恐れているのかもしれません。しかし、人間のアーティストが他の人間のアーティストに与える影響に対して報酬を支払うことはありません。最も高額な報酬を得ている現存アーティストの一人、デイヴィッド・ホックニーを例に挙げましょう。ホックニーは、他の現存アーティストが自身の作品に与えた多大な影響をしばしば認めています。社会として、私たちは彼(あるいは他の人々)が影響を与えた人々に小切手を切ることを期待していません。たとえ彼にはそれができたとしても。AIが影響を与えた人々に報酬を支払うべきだと考えるのは行き過ぎです。成功したアーティストが成功に対して支払う「税金」は、他者の成功に対する無償の影響なのです。
さらに、影響力の線はよく知られたように曖昧で、はかない、そして不正確です。私たちは皆、周囲のあらゆるものから、気づかないほど、そしてもちろん数値化できないほど影響を受けています。メモを書いたり、携帯電話で写真を撮ったりするとき、アーネスト・ヘミングウェイやドロシア・ラングから、直接的あるいは間接的に、どの程度影響を受けているのでしょうか?何かを創作する際に、私たちが受けた影響を解明することは不可能です。同様に、AI画像の世界における影響の糸を解明することも不可能です。理論上は、AIが獲得した報酬をトレーニングセット内のアーティストに支払うシステムを構築することは可能ですが、この報酬は恣意的に(不公平に)付与され、60億株のプールにおけるアーティスト一人あたりの実際の補償額はあまりにも取るに足らないものになり、無意味になることを認識する必要があります。
今後数年間、AI画像生成器内の計算エンジンは拡張と改良を続け、私たちの視覚活動のあらゆる中心ノードとなるでしょう。文字通りあらゆるものを見、あらゆるスタイルを知り、私たちが必要とするあらゆるものを描き、想像し、生成するでしょう。それは視覚検索エンジン、画像を理解するための視覚百科事典、そして最も重要な感覚である視覚を使う主要なツールとなるでしょう。現在、AIの深層で実行されるすべてのニューラルネットアルゴリズムは膨大な量のデータに依存しており、そのため、学習には数十億枚の画像が必要です。しかし、次の10年間には、学習に必要なサンプル数がはるかに少なく、おそらく1万枚程度で済む運用可能なAIが登場するでしょう。私たちは、既存の芸術作品を厳選した数千枚の画像を見せることで、さらに強力なAI画像生成器に絵の描き方を教えるでしょう。そしてその時が来れば、あらゆるバックグラウンドを持つアーティストが、トレーニングセットに含まれるために競い合うことになるでしょう。アーティストがメインプールに参加している場合、その影響は全員に共有され、感じられる一方、参加していないアーティストは、著作権侵害ではなく無名であることという、あらゆるアーティストにとっての最大の障害を克服しなければなりません。

2D生成アルゴリズムが誕生するやいなや、研究者たちは次なるものを模索し始めた。野心的なNvidiaの共同創業者であるジェンスン・フアン氏は、次世代チップがメタバース(彼曰く「次世代コンピューティングプラットフォーム」)のための3D世界を生成すると考えている。昨年9月のある1週間で、テキストから3D/動画を生成する3つの斬新な画像生成ツールが発表された。GET3D(Nvidia)、Make-A-Video(Meta)、DreamFusion(Google)。この拡張は、私が文章を書いているよりも速いペースで進んでいる。AIが生成するフレーム付き2D画像は驚異的だが、その制作をアウトソーシングしても世界を劇的に変えることはないだろう。私たちはすでに2Dのピークに達している。AI画像生成ツールが解き放つ真のスーパーパワーは、3D画像と動画の生成にあるだろう。
将来、3D エンジンに次のような指示が出されるかもしれません。「壁にポスターが貼られ、ベッドは整えられておらず、閉じたブラインドから午後の日差しが差し込む、散らかったティーンエイジャーの寝室を作りなさい。」すると、数秒で、クローゼットのドアが開いていて、汚れた服が床に散らばっている、完全に実現された部屋が完全な 3D で誕生します。次に、AI に次のように指示します。「冷蔵庫のマグネットがあり、パントリーにシリアルの箱がたくさんある 1970 年代のキッチンを作ってください。完全な立体的なディテールで。歩き回れるキッチン。または、ビデオで撮影できるキッチンです。」代替レンダリングされた世界でいっぱいのゲームや、衣装やセットで飾り立てた長編映画は、巨額の資金の力に支配され続ける個人アーティストには永遠に手の届かないものでした。AI は、ゲーム、メタバース、映画を、小説、絵画、歌と同じくらい速く制作できるようになります。ピクサー映画が一瞬でできるのです!何百万人ものアマチュアが自宅で何十億本もの映画と無限のメタバースを次々と生み出すようになれば、彼らはそれぞれの才能を活かして、バーチャル観光や空間ミームといった全く新しいメディアジャンルを生み出すでしょう。そして、巨額の資金とプロフェッショナルたちがこれらの新しいツールを手に入れれば、かつてないほど複雑なレベルの傑作が生まれるでしょう。
しかし、3D世界と動画の広大な宇宙でさえ、AI画像生成器が引き起こした混乱を封じ込めるほど広大ではありません。DALL-E、Midjourney、そしてStable Diffusionは、あらゆる種類の生成機械のほんの初期バージョンに過ぎません。それらの主要機能であるパターン認識は、人間の脳にとってほとんど反射的なものであり、意識的に考えることなく達成されます。これは、私たちが行うほぼすべてのことの核心です。もちろん、私たちの思考はパターン認識だけではありません。数十もの認知機能が脳を動かしています。しかし、機械によって合成されたこの単一の認知(そしてこれまでに私たちが合成した唯一の認知)は、当初考えていた以上に私たちを前進させ、おそらく現在私たちが考えている以上に進歩し続けるでしょう。
AI がパターンに気付くと、それを圧縮して保存します。丸い物体は「丸さ」の方向に、赤い物体は「赤さ」の方向に配置するなどです。おそらく AI は「木らしさ」や「食べ物らしさ」にも気付くでしょう。AI は数十億もの方向、つまりパターンを抽象化します。熟考、つまりトレーニングにより、これら 4 つの特性の重なりが「リンゴらしさ」という別の方向を生み出すことに気付きます。さらに、気付いたこれらの方向すべてを、特性が重なり合う可能性のある単語パターンと結び付けます。つまり、人間が「リンゴ」という言葉でリンゴの絵を要求すると、AI はそれら 4 つ (またはそれ以上) の特性を持つ画像を描画します。既存の画像の一部を組み立てているのではなく、適切な特性を持つ新しい画像を「想像」しているのです。存在しないが存在する可能性のある画像をある意味で記憶しているのです。
この同じ技術は、新薬の発見にも活用できます。実際、ごく初期の段階では既に活用されています。AIは、私たちが有効成分として知っているすべての分子のデータベースを用いて学習させ、それらの化学構造のパターンに注目します。そしてAIに、私たちが考えたこともない、効果のある分子に似ていると思われる分子を「記憶」、つまり想像するように指示します。驚くべきことに、それらの分子の中には実際に効果を発揮するものもあり、AIが想像上の果物の画像を提示すると、驚くほど果物に似ていることがあります。これこそが真の変革であり、まもなく同じ技術が自動車の設計、法律の起草、コードの記述、サウンドトラックの作曲、娯楽や教育のための世界の構築、そして私たちが仕事として行うものの共同創造に利用されるようになるでしょう。私たちはこれまでAI画像生成器から学んだ教訓を心に留めておくべきです。なぜなら、近い将来、生活のあらゆる領域でパターン探索型AIがさらに増えるからです。私たちが現在直面しているパニックサイクルは、来たる変化のための良いリハーサルに過ぎないのです。
AIジェネレータについてこれまでにわかっていることは、パートナーとして最も効果的に機能するということだけだ。暴走するAIが支配するという悪夢は、今のところ起こりそうにない。そのような見方は、歴史の根本的な誤読だ。過去において、テクノロジーが人間をやりたい仕事から直接奪うことはほとんどなかった。例えば、カメラと呼ばれる機械による写真の自動生成は、肖像画家たちの仕事を奪うことになるとして1800年代に恐れられた。しかし、歴史家ハンス・ローゼブームは、写真のせいで失業したと感じていた当時の肖像画家はたった一人しか見つけられなかった(実際、写真は19世紀後半の絵画復興のきっかけとなった)。現代に近ければ、スマートフォンが世界を席巻し、誰もが写真家となり、Instagramには1日9500万件もの投稿がアップロードされるようになり、写真関連の専門職は衰退すると予想されていたかもしれない。しかし、米国の写真専門家の数は、2002年(カメラ付き携帯電話が登場する前)の16万人から2021年には23万人へとゆっくりと増加している。
AIを恐れるのではなく、AIが私たちに何を教えてくれるのかを考える方が賢明です。そして、AI画像生成ツールが私たちに教えてくれる最も重要なことは、創造性は超自然的な力ではないということです。創造性は合成、増幅、そして操作できるものなのです。創造性を生み出すために知性を獲得する必要はなかったのです。創造性は私たちが考えていたよりも根源的なものであり、意識とは無関係です。ディープラーニングニューラルネットのような単純なものでも、創造性を生み出すことができます。膨大なデータとパターン認識アルゴリズムがあれば、私たちを驚かせ、絶えず助けてくれるプロセスを作り出すのに十分なようです。
創造性の研究者たちは、「大文字の創造性」と呼ばれるものに言及しています。大文字の創造性とは、画期的な進歩がもたらす、驚異的で、分野を一変させ、世界を一変させるような再編成です。特殊相対性理論、DNAの発見、ピカソのゲルニカなどを思い浮かべてみてください。大文字の創造性は、単に新しいというレベルを超えています。それは特別であり、稀有なものです。それは、エイリアンのAIが理解できる範囲をはるかに超えて、私たち人間の心に深く響きます。
人間と深くつながるには、常に創造性豊かな人間の存在が必要です。しかし、この高い創造性を、ほとんどの人間のアーティスト、デザイナー、発明家が日々生み出す創造性と混同してはいけません。ありふれた、ありふれた、小文字の創造性とは、素晴らしい新しいロゴデザインやクールな本の表紙、気の利いたデジタルウェアラブル、最新のマストハブファッション、お気に入りのSFシリーズの舞台デザインなどから得られるものです。過去も現在も、人間の芸術作品のほとんどは小文字です。そして、小文字の創造性こそが、AIジェネレーターが生み出すものなのです。
しかし、これは非常に大きなことです。歴史上初めて、人類は日常的な創造性をオンデマンドで、リアルタイムで、大規模に、そして安価に生み出せるようになったのです。合成創造性は今やコモディティ化しています。古代の哲学者たちは墓の中で身をよじるでしょうが、創造性を生み出す、つまり何か新しいものを生み出すには、適切なコードさえあれば十分だということが分かりました。私たちはそれを、今は機能していない小さなデバイスに組み込むことも、大規模な統計モデルに適用することも、創薬ルーチンに組み込むこともできます。合成創造性は他に何に活用できるのでしょうか?まるで「250頭の馬の力を指先に持てたらどうしますか?」と問われた中世の農民のような気分かもしれません。私たちには分かりません。これは並外れた贈り物です。確かなのは、今や私たちは創造性の容易なエンジンを手に入れ、これまで斬新さや革新性、あるいは創造的な変化の驚きを経験したことのない、陳腐な領域に狙いを定めることができるということです。あらゆるものが崩壊していく中で、この超能力は、私たちがその驚きを無限に広げていくのに役立つでしょう。適切に使用すれば、宇宙に小さな変化をもたらすことができます。

この記事は2月号に掲載されています。 今すぐ購読をお願いします。
この記事についてのご意見をお聞かせください。 [email protected]までお手紙をお送りください。