AIがアートを作るとき、人間が創造のひらめきを提供する

AIがアートを作るとき、人間が創造のひらめきを提供する

新製品には免責事項が付随することが多いが、人工知能企業OpenAIは4月にDALL-E 2という新サービスを発表した際に、異例の警告を発した。このシステムは、テキスト1行またはアップロードされた画像に反応して、鮮やかでリアルな写真、絵画、イラストを生成することができる。OpenAIのリリースノートには、「このモデルは写真編集やストックフォト制作といった一部のタスクの効率を向上させる可能性があり、デザイナー、写真家、モデル、編集者、アーティストの職を奪う可能性がある」と警告されていた。

今のところ、それは実現していない。DALL-Eの早期アクセスを許可された人々は、それが人間の創造性を時代遅れにするどころか、むしろ高めていることを実感している。インスタレーションや彫刻を制作するアーティスト、ベンジャミン・フォン・ウォン氏は、DALL-Eによって生産性が向上したと述べている。「絵が描けない私のような人間にとって、DALL-Eは素晴らしいツールです」とフォン・ウォン氏は語る。彼はこのツールを使って、後に物理的な芸術作品に落とし込む可能性のあるアイデアを探求している。「コンセプトをスケッチする必要はなく、様々なプロンプトフレーズを通して簡単に生み出せるんです」

DALL-Eは、画像生成のための数々の新しいAIツールの一つです。アーティスト兼デザイナーのアザ・ラスキン氏は、オープンソースソフトウェアを用いて、ミュージシャンのジア・コラのミュージックビデオを制作し、4月のTEDカンファレンスで披露しました。このプロジェクトを通して、画像生成AIが創造性の爆発的な高まりをもたらし、人類の視覚環境を永久に変えるだろうと確信しました。「視覚化できるものには、視覚化できるものがある」と彼は述べ、プロジェクトにどれだけの時間と労力が費やされたかを判断する人々の直感を覆す可能性を秘めています。「想像し、視覚化するのが難しかったものを、突然、簡単に実現できるツールが手に入ったのです。」

このような変革をもたらす技術が、イラストレーター、写真家、その他のクリエイティブな人々に最終的にどのような影響を与えるかはまだ分かりません。しかし現時点では、芸術的なAIツールがクリエイティブな仕事から労働者を奪うという考え(ロボットが工場労働者に取って代わると言われるように)は、過度に単純化されているように思われます。比較的単純で反復的な作業を行う産業用ロボットでさえ、その効果は様々です。一部の経済研究では、企業によるロボット導入は雇用と賃金全体の減少につながると示唆されていますが、特定の状況下ではロボットが雇用機会を増やすという証拠もあります。

「アート界には悲観的な見方が多すぎる」と、AIツールの使い方に関するYouTubeチュートリアルを投稿しているデジタルアーティスト、ノア・ブラッドリー氏は指摘する。ブラッドリー氏は、DALL-Eのようなソフトウェアが写真撮影に与えた影響は、スマートフォンが写真に与えた影響と似たものになると考えている。つまり、専門家に取って代わることなく、視覚的な創造性をより身近なものにするということだ。力強く、使いやすい画像を作成するには、最初に何かを生成した後も、依然として多くの慎重な調整が必要だと彼は言う。「アートの創造には、機械がまだ対応できない複雑な要素がたくさんあるのです。」

2021年1月に発表されたDALL-Eの最初のバージョンは、コンピューター生成アートにとって画期的なものでした。機械学習アルゴリズムが数千枚の画像を学習データとして入力することで、既存の画像の特徴を斬新かつ一貫性があり、美的に魅力的な方法で再現・再結合できることを示しました。

1年後、DALL-E 2は生成可能な画像品質を大幅に向上させました。また、様々なアートスタイルを確実に採用し、よりフォトリアリスティックな画像を生成できるようになりました。ベレー帽と黒のタートルネックを着た柴犬のスタジオ品質の写真が欲しいですか?それを入力するだけです。雲海に浮かぶ城を描いたスチームパンク風のイラストが欲しいですか?もちろんです。あるいは、19世紀風の独立宣言に署名する女性たちの絵画が欲しいですか?素晴らしいアイデアです!

DALL-Eや類似のAIツールを試用している人の多くは、それらを代替品というより、新しいタイプの芸術的アシスタントやミューズと表現しています。「まるで宇宙人と話しているような感じです」と、ここ2週間DALL-Eを使用している日本の写真家、作家、英語教師のデイビッド・R・マンソン氏は言います。「テキストプロンプトを理解し、見たものを私たちに伝えようとしますが、驚くべき方法で身をよじり、まったく予想もつかないものを生み出します。」

マンソン氏は、DALL-Eの指示に対する反応を、自分が教えている幼い子供たちが作り出す奇妙で驚くべき論理的つながりに例えています。彼はプログラムに「聖書を持った擬人化されたポットロースト」を作るように指示しました。目のあるシチュー鍋のようなものが出てくると想像していたのですが、実際には全く違うものができました。「奇妙な、ゴツゴツした肉男ができたんです」と彼は言います。マンソン氏はまた、DALL-Eを使って、1986年のスペースシャトル・チャレンジャー号の事故をテレビでニュースで見ていたという、幼少期の鮮明な記憶を再現しました。

画像には、インテリアデザイン、屋内、人間、電子機器、モニター、ディスプレイ、スクリーン、部屋、劇場などが含まれる場合があります。

デビッド・R・マンソン氏は、DALL-E 2 と呼ばれる AI ツールを使用して、1986 年のスペースシャトルチャレンジャー号の事故に関するテレビのニュース報道を見たときの記憶を再現しました。

デビッド・R・マンソン提供

DALL-Eの新バージョンは、強力な画像生成ツールという新たなカテゴリーの一例に過ぎません。Googleは最近、5月にImagen、6月にPartiという2つのツールを発表しました。Craiyonのような画像生成ツールは、ソーシャルメディアへのミーム投稿に利用され始め、先月話題になりましたが、オープンソースプロジェクトでも開発されています。

芸術的なAIツールを商業化する新しい企業が次々と登場しています。ウェブサイトとアプリ「Wombo」は、テキストプロンプトや既存の画像に応じて様々なスタイルの画像を生成し、その結果をプリントまたはNFTとして販売しています。独立系研究機関のMidjourneyは、ベータテスター向けに技術を提供しており、テキストプロンプトを鮮やかな、時には抽象的なイラストに変換することができます。

Midjourneyの創業者であり、以前は3Dコンピューターインターフェース企業Leap MotionのCTOを務めたDavid Holz氏は、自社のツールがアーティストと競合するとは考えていない。「私たちは想像力の本質を探求することに焦点を当てています」と彼は言う。「想像力は様々なことに使われます。時には芸術として、しかし多くの場合は単なる考察や遊びとして。私たちが作るものをAIアートと呼ぶつもりはありません。AIは単独では何も生み出さないからです。AIには意志も主体性もありません。」

MidjourneyはDiscordを運営しており、ベータテスターはそこで同社のアルゴリズムに動作させるためのプロンプトを送信できます。サービスのテストに参加している人の多くはアーティストだとホルツ氏は言います。「彼らは、この技術をワークフローの一部として活用することに、大きな自信と前向きな姿勢を感じています。」

DALL-Eをはじめとする多くのAIアートツールは、機械学習の近年の進歩に基づいて構築されており、テキストや画像を処理するアルゴリズムの規模と精度が大幅に向上しています。数年前、研究者たちは小説やインターネットから収集した膨大な量のテキストをこれらのアルゴリズムに入力することで、テキストの統計的パターンを捉える方法を発見しました。このトレーニングにより、システムは開始文を与えられるだけで非常に説得力のあるテキストを生成できるようになりました。

その後、同様のAIモデルが、音声やデジタル画像など、他のデータからパターンを捉え、再現することに長けていることが証明されてきました。これがDALL-Eの基盤です。しかし、これらの画像生成システムは世界を真に理解しておらず、不具合のある画像や意味不明な画像を生成する可能性があります。また、学習に使用したウェブ上の画像を複製するため、社会的な偏見を反映する可能性もあります。例えば、医師は常に男性として、客室乗務員は常に女性として表示されるなどです。さらに、このようなプログラムは、偽の写真を生成し、誤情報を拡散させるのに利用される可能性もあります。

OpenAIはこれらのリスクを認識しており、DALL-Eが不快または誤解を招く画像の作成に利用されることを防ぐための対策を講じたと述べています。これには、システムが特定の単語に反応して画像を生成するのを防ぐことや、有名人の顔画像の生成を制限することなどが含まれます。

AI画像生成器のエラーや不具合は、それ自体が芸術的なツールのように感じられることがあります。オリジナルのDALL-Eの性能を落としたクローンであるCraiyon(以前はDALL-E Miniと呼ばれていました)は、ユーザーがシュールで滑稽、あるいは不安を掻き立てるテキストプロンプトを入力する楽しさを発見したことで、先月話題になりました。ある美術評論家は、CaiyonのAIの限界が「オンライングロテスク」を生み出すと評しています。これは、インターネットの時代精神から引き出された奇妙で不穏な融合です。よく使われる例としては、「筋肉質のティーポット」「ゲーム用小便器」「デス・スターの性別披露」などがあります。

「人々の気の利いた提案は、少なくとも半分は楽しみの半分を占めます」と、アドビ研究所の主席科学者であり、ワシントン大学でコンピュテーショナルアートを研究する准教授でもあるアーロン・ハーツマン氏は語る。彼は、Craiyonなどの画像生成ツールが、創造性に内在する新たな探求を可能にしていると指摘する。そして、テキストを画像に変換するツールを、ソル・ルウィットやジョン・バルデッサレのようなコンセプチュアルアートに例える。コンセプチュアルアートでは、作品の背後にあるアイデアが最も重要な要素となり得るのだ。

AI画像生成ツールがもたらす最大の変化は、おそらく、アートやイラストを制作し、実験できる人の数が劇的に増えることでしょう。「楽観的に言えば、これはコミュニケーションにおける革命と言えるでしょう」と、ニュージーランドを拠点に人工知能を探求するアーティスト、トム・ホワイトは言います。芸術的才能のない人でも、こうしたツールを使えばクリエイティブな画像を生成・共有できるとホワイトは言います。これは、既にクレヨンミームで人々が実践していることです。「それは、私たちの繋がり方を変えるかもしれません。」

ホワイト氏の作品には、一般的な画像認識プログラムを欺くために綿密に作成された抽象的な画像が含まれており、彼はDALL-E 2をテストして、トレーニングデータに含まれる画像の特徴や、不快な画像の作成を防ぐためにシステムにどのような制限が課されているかを明らかにすることを楽しんでいると語る。時が経つにつれ、彼は特定のシステムが犯す失敗の中に、ある種の「個性」を見出すようになったという。

ホワイト氏は、DALL-E 2のようなツールは、様々な方法でインタラクションできるようになるにつれて、はるかに強力で興味深いものになるだろうと考えています。現在、DALL-Eが生成する画像を改良する唯一の方法は、プロンプトを書き直すか、画像を切り抜いて新しいアイデアのプロンプトとして使用することです。ホワイト氏は、クリエイティブAIツールを使用する人々が、画像に具体的な調整を依頼できるようになる日もそう遠くないと考えています。「DALL-Eが道の終着点ではありません」とホワイト氏は言います。

トム・シモナイト氏による追加レポート。