制限のないAI画像生成の喜びと恐怖

昼間は科学者として働くエル・シンプソン＝エディンさんは、ここ数カ月、妻とともに、今年後半に出版予定の小説を執筆中だ。シンプソン＝エディンさんはこの小説を「暗黒で奇妙なサイエンスファンタジー」と表現している。

本のプロモーション用ウェブサイトを準備する中で、シンプソン＝エディンは、テキストプロンプトに合わせて目を引く、あるいは写真のようにリアルな画像を作成できる、強力な最新のAI搭載アート制作ツールの一つを使って、本の内容をイラスト化する実験をすることにしました。しかし、こうした画像生成ツールのほとんどは、ポルノ、暴力、実在の人物の顔が映った画像など、ユーザーが描けるものを制限しています。彼女が試したどの選択肢も、あまりにも慎み深すぎました。「この本は暴力とセックスの描写がかなり多いので、流血やセックスが禁じられている環境でアートを制作するのは、現実的ではありません」とシンプソン＝エディンは言います。

シンプソン＝エディンにとって幸運だったのは、Unstable Diffusionを発見したことだ。これは、最近リリースされたオープンソースのAI画像ツール「Stable Diffusion」の無制限版を使っている人たちのためのDiscordコミュニティだ。ユーザーは、ポルノやホラーと捉えられかねないイラストやシミュレーション写真を共有している。また、ソフトウェアが人の体の本来の姿を理解していないためにグロテスクに加工された裸体画像も数多く共有している。

シンプソン＝エディン氏は、このフィルターなしのツールを使って、自身の著書にふさわしいエロティックで暴力的な画像をいくつか作成することができました。比較的穏やかでヌードも少ないものの、他の画像生成ツールでは到底作成できなかったでしょう。「Stable Diffusionの無修正版の大きなセールスポイントは、より自由な表現ができることです」とシンプソン＝エディン氏は言います。

世界で最も強力なAIプロジェクトは、依然として大手テクノロジー企業に閉じ込められており、企業はそれらのプロジェクトへの自由なアクセスを躊躇しています。その理由は、プロジェクトの価値が高すぎるか、悪用される可能性があるためです。しかし、ここ1年ほどで、一部のAI研究者が誰でも利用できる強力なツールを開発・公開し始めています。この傾向は、AI技術が様々な目的に悪用される可能性に対する懸念を引き起こしています。悪名高い画像掲示板4chanの一部のユーザーは、Stable Diffusionを利用して有名人のポルノを生成したり、政治家のディープフェイクを使って偽情報を拡散したりすることについて議論しています。しかし、実際にそのような取り組みが行われたかどうかは不明です。

AIアートのファンの中には、画像生成器からガードレールが撤廃されることの影響を懸念する声もある。AIアート専門のYouTubeチャンネルを運営するBakz T. Future氏は、Unstable Diffusionコミュニティが児童ポルノとみなされる可能性のあるコンテンツも作成していると主張している。「彼らはAI倫理学者ではありません」と彼は言う。「彼らはインターネットの闇の片隅にいて、いわば夢の鍵を与えられた人々なのです」

これらのキーの提供者は、英国出身の元ヘッジファンドマネージャーであるエマド・モスタケ氏です。同氏は、数多くのオープンソース AI プロジェクトに取り組んでいる Stability.Ai という団体と協力して Stable Diffusion を創設しました。

モスタケ氏によると、AI画像生成をより強力かつアクセスしやすいものにすることが目的だったという。彼はまた、この技術を商業化するために会社も設立した。「私たちはオープンソースのアート空間全体をサポートしており、誰でも開発でき、一般消費者向けハードウェアで使用できるものを作りたかったのです」と彼は述べ、Stable Diffusionの幅広い用途がすぐに見出されたことに驚いていると付け加えた。開発者たちは、PhotoshopやFigmaなどの既存のアプリケーションにAI画像生成機能を追加するプラグインを作成し、既存の画像に特定のアートスタイルを瞬時に適用するなどの新機能を追加している。

Stable Diffusion の公式バージョンには、ヌードや流血シーンの生成を防ぐためのガードレールが含まれていますが、AI モデルの完全なコードが公開されているため、他の人がそれらの制限を削除することが可能です。

モスタケ氏は、自身の創作物で作成された画像の中には不快なものもあるかもしれないが、このツールは既存の画像作成技術と何ら変わらないと述べている。「テクノロジーの使用は常に個人の責任に関わるものです」と彼は言う。「Photoshopを違法または非倫理的な用途に使用した場合、それは使用者の責任です。モデルが悪質なものを作成できるのは、ユーザーが意図的にそうさせた場合のみです。」

Stable Diffusionのような画像生成ツールは、人が想像できるほぼあらゆるものを、まるで本物の写真や手描きのイラストのように表現できます。これは、Webや画像データベースから取得した膨大な画像コレクションの特性と、それに対応するテキストラベルを関連付けるアルゴリズムによって可能になります。アルゴリズムは、画像にランダムノイズを追加したり除去したりするプロセスを通して、テキストプロンプトに一致する新しい画像をレンダリングすることを学習します。

Stable Diffusionのようなツールはウェブから収集した画像を使用するため、学習データにはポルノ画像が含まれることが多く、ソフトウェアが新たな性的に露骨な画像を生成できる可能性があります。また、このようなツールが、実在の人物が危険な行為をしているように見える画像、つまり誤情報を拡散する可能性のある画像の作成に利用される可能性も懸念されます。

AI生成画像の品質は、AI研究企業OpenAIが2021年1月にDALL-Eと呼ばれるシステムを発表して以来、過去1年半で飛躍的に向上しました。DALL-Eは、テキストプロンプトから画像を生成するモデルを普及させ、2022年4月にはより強力な後継システムであるDALL-E 2がリリースされ、現在は商用サービスとして利用可能です。

OpenAIは当初から、画像生成ツールへのアクセスを制限しており、リクエスト可能なものを絞り込むプロンプトを介してのみアクセスできるようにしています。今年7月にリリースされた競合サービス「Midjourney」も同様で、幅広いアクセスを提供することでAI制作アートの普及に貢献しました。

Stable Diffusionは、オープンソースのAIアートジェネレーターとしては初めてのものではありません。オリジナルのDALL-Eがリリースされて間もなく、ある開発者がDALL-E Miniというクローンを開発しました。これは誰でも利用できるようになり、たちまちミームの話題となりました。後にCraiyonとしてブランド名を変更したDALL-E Miniには、DALL-Eの正式版と同様のガードレールが今も搭載されています。Stable DiffusionやCraiyonを含む多くのオープンソースAIプロジェクトをホストするHuggingFaceのCEO、クレメント・デラング氏は、この技術が少数の大企業によって支配されることは問題だと指摘しています。

「技術の長期的な発展を考えると、よりオープンで、より協調的で、より包括的なものにすることが、安全性の観点から見て実際にはより良いのです」と彼は述べています。閉鎖的な技術は外部の専門家や一般の人々にとって理解しにくく、人種、性別、年齢といったバイアスの問題に対するモデルを外部の人が評価できる方が望ましいと彼は言います。さらに、他者が閉鎖的な技術の上に構築することはできないのです。総合的に見て、技術をオープンソース化することのメリットはリスクを上回ると彼は述べています。

デラング氏は、ソーシャルメディア企業がStable Diffusionを利用して、偽情報の拡散に利用されるAI生成画像を見分ける独自のツールを構築できると指摘する。開発者らは、Stable Diffusionで生成された画像に目に見えない透かしを追加して追跡を容易にするシステムや、モデルのトレーニングデータから特定の画像を検出して問題のある画像を削除するツールも開発しているとデラング氏は述べている。

シンプソン＝エディン氏はUnstable Diffusionに興味を持ち、Unstable Diffusion Discordのモデレーターになった。このサーバーでは、未成年者ポルノと解釈される可能性のある画像など、特定のコンテンツの投稿を禁止している。「人々が自分のマシンで何をするかをモデレートすることはできませんが、投稿内容については極めて厳格に管理しています」と彼女は言う。短期的には、AIによるアート制作の破壊的な影響を抑制することは、機械よりも人間に大きく依存することになるかもしれない。