インターネットで人気の人工知能ミームマシン、DALL-E Miniの内部

インターネットで人気の人工知能ミームマシン、DALL-E Miniの内部

6月6日、オープンソースの人工知能プロジェクトをホストする企業であるHugging Faceは、DALL-E Miniと呼ばれるAI画像生成ツールへのトラフィックが急増したことを確認した。

入力されたテキストに応じて9枚の画像を生成する、一見シンプルなこのアプリは、独立系開発者によって約1年前にリリースされました。しかし、最近の改良と数件のツイートの拡散を経て、シュールでユーモラス、そして悪夢のような、ありとあらゆる幻想を大雑把に描写する能力は、突如としてミームマジックへと変貌を遂げました。「ウォルマートで母親を探しているサノス」「モルドールをうろつく上半身裸の酔っ払い男たち」「ダース・ベイダーがブレイクダンスを踊る防犯カメラの映像」「ソンブレロをかぶったハムスターゴジラが東京を襲撃」といった、様々な画像をご覧ください。

TwitterやRedditでDALL-E Miniの画像を作成し共有する人が増え、新規ユーザーも増えるにつれ、Hugging Faceのサーバーはトラフィックで逼迫した状態になった。「エンジニアたちは最初の夜は眠れませんでした」と、Hugging FaceのCEO、クレマン・デラング氏はマイアミの自宅からのビデオ通話で語った。「こうしたモデルを大規模に提供するのは本当に大変で、すべてを修正しなければなりませんでした。」ここ数週間、DALL-E Miniは1日に約5万枚の画像を提供している。

DMVのPrompt DemogorgonからのAI生成画像

イラスト:WIREDスタッフ/ハグフェイス

DALL-E Miniのバイラル化は、ミームを作成するための新しい方法を予感させるだけではありません。注文に応じて画像を作成するAIツールが広く普及した場合に何が起こるかを早期に予見し、その潜在的な影響に関する不確実性を改めて認識させてくれます。カスタム写真やアートワークを生成するアルゴリズムは、芸術を変革し、企業のマーケティングに役立つ可能性がありますが、同時に、人々を操作し、誤解させる力も持つ可能性があります。DALL-E Miniのウェブページには、「社会的偏見を強化または悪化させる」、または「少数派グループに対するステレオタイプを含む画像を生成する」可能性があるという警告が記載されています。

DALL-E Miniは、AI研究会社OpenAIが2021年1月に発表した、より強力なAI画像作成ツールであるDALL-E(サルバドール・ダリとWALL-Eを組み合わせた造語)にインスピレーションを得ています。DALL-Eはより強力ですが、悪用される懸念があるため、一般公開されていません。

AI研究におけるブレークスルーが他の場所ですぐに、しばしば数か月以内に再現されることは一般的になっており、DALL-Eも例外ではありませんでした。テキサス州ヒューストンに拠点を置く機械学習コンサルタントのボリス・デイマ氏は、オリジナルのDALL-Eの研究論文に魅了されたと述べています。OpenAIはコードを公開していませんでしたが、デイマ氏は2021年7月にHugging FaceとGoogleが主催したハッカソンで、DALL-E Miniの最初のバージョンを作り上げました。最初のバージョンは認識が難しい低品質の画像を生み出しましたが、デイマ氏はそれ以来改良を続けています。先週、OpenAIからオリジナルのDALL-Eプロジェクトとの混同を避けるために名前の変更を要請されたことを受け、彼はプロジェクトをCraiyonにリブランドしました。新しいサイトには広告が表示され、デイマ氏は画像ジェネレーターのプレミアムバージョンも計画しています。

DALL-E Miniの画像は、異星人のような独特の外観をしています。物体は歪んだり汚れたりしていることが多く、人物の顔や体の一部が欠けていたり、歪んでいたりします。しかし、何を描こうとしているのかは大抵の場合理解でき、AIが時折見せる不安定な出力と元のプロンプトを比較するのは楽しいものです。

DALL-E Miniを支えるAIモデルは、約3000万枚のラベル付き画像を分析して得た統計パターンに基づき、単語とピクセルのつながりを抽出して画像を生成する。Daymaは、OpenAIが公開したものを含む、ウェブから収集した複数の公開画像コレクションからそのトレーニングデータを集めた。このシステムがミスを犯す理由の一つは、物体が物理世界においてどのように振る舞うべきかという真の理解が欠如していることにある。短いテキストの断片はしばしば曖昧であり、AIモデルは人間のようにその意味を理解できない。それでもDaymaは、ここ数週間で人々が彼の作品から引き出した成果に驚嘆している。「私が思いついた最も独創的なアイデアは『月面のエッフェル塔』でした」と彼は言う。「今では人々はクレイジーなことをします――そして、それがうまくいきます。」

AI generated images from prompt darth vader in the movie step brothers

イラスト:WIREDスタッフ/Craiyon

しかし、これらの独創的なプロンプトの中には、DALL-E Miniを疑わしい方向に導いたものもありました。このシステムは露骨な内容について学習されておらず、特定のキーワードをブロックするように設計されています。それでも、ユーザーは戦争犯罪、学校での銃乱射事件、世界貿易センタービルへの攻撃といったプロンプトの画像を共有しています。

AIを活用した画像操作、特にディープフェイクと呼ばれる実在の人物を模倣した画像は、AI研究者、議員、そしてオンラインハラスメント対策に取り組む非営利団体にとって懸念事項となっています。機械学習の進歩により、AI生成画像は様々な有益な用途に活用できるようになる一方で、嘘や憎悪を拡散するといった悪意のある用途にも利用される可能性があります。

OpenAIは今年4月、DALL-E 2を発表しました。この後継システムは、まるでプロのアーティストが描いたかのような写真やイラストを生成できます。OpenAIは、DALL-E 2ははるかに説得力のある画像を生成できるため、オリジナルシステムよりも問題が発生する可能性があると述べています。同社は、システムのトレーニングデータをフィルタリングし、望ましくない出力を生成する可能性のあるキーワードを制限することで、誤用のリスクを軽減していると説明しています。

OpenAIは、DALL-EとDALL-E 2へのアクセスを、アーティストやコンピューターサイエンティストなど、厳格なルールを遵守することを求められる選ばれたユーザーにのみ提供しており、同社はこのアプローチにより「技術の能力と限界を学ぶ」ことができると述べている。他の企業も驚くべきペースで独自の画像生成ツールを開発している。Googleは今年5月、DALL-E 2と同等の品質レベルの画像を生成できるとされるImagenという研究システムを発表した。また先週は、異なる技術的アプローチを採用したPartiという別のシステムを発表した。どちらも一般公開されていない。

OpenAIのより強力なDALL-E 2を利用できるアーティストの一人、ドン・アレン・スティーブンソン3世氏は、DALL-E 2を使ってアイデアを具体化し、新しいアート作品の制作をスピードアップさせています。その中には、人物を漫画風のロブスターに変身させるSnapchatフィルターや、Bored Ape風のイラストといった拡張現実コンテンツも含まれます。「全く新しい創作方法を学んでいるような気がします」と彼は言います。「何度も繰り返し作業できるため、アイデアにもっとリスクを負い、より複雑なデザインに挑戦できます。」

スティーブンソン氏は、OpenAIが特定のコンテンツの作成を阻止するためにプログラムした制限に遭遇したことがあるという。「ガードレールがあることを忘れてしまい、アプリからアクセスが取り消される可能性があるという警告で思い出さなければならないこともあります」。しかし、DALL-E 2はまだ研究プロジェクトであるため、彼はそれが自分の創造性を制限するとは考えていない。

Hugging Faceのデラング氏は、DALL-E Miniの作品がDALL-E 2のものよりもはるかに粗雑であることは良いことだと述べています。なぜなら、その不具合によって、画像が現実のものではなく、AIによって生成されたものであることが明らかになるからです。彼は、DALL-E Miniによって、これまでほとんど公開されていなかったAIの新たな画像操作能力を人々が直接学ぶことができるようになったと主張しています。「機械学習はテクノロジー構築の新たな標準的な方法になりつつありますが、企業が密室でこうしたツールを開発しているという現実との乖離があります」と彼は言います。

AI generated images from prompt a cat made out of jam

イラスト:WIREDスタッフ/Craiyon

DALL-E Miniのコンテンツが継続的に提供されたことで、同社は技術的な問題も解決できたとデラング氏は語る。ユーザーからは、性的に露骨な表現や出力結果の偏りといった問題が指摘されていた。例えば、ウェブ上の画像で学習したシステムは、特定の役割において、ある性別を他の性別よりも多く表示する傾向があり、これは根深い社会的な偏見を反映している。DALL-E Miniに「医者」を描くように指示すると、男性のような人物像が表示されるが、「看護師」を描くように指示すると、女性のような画像が表示される。

ハギング・フェイスでAI倫理に取り組んでいる研究科学者、サーシャ・ルッチオーニ氏は、DALL-Eミニのミームの急増によって、こうした新しいタイプのAIモデルにおける社会的バイアスを検出・測定できるツールの開発の重要性に気づいたと述べています。「こうしたバイアスが有害にも有益にもなり得ることは明らかです」と彼女は言います。

こうした危害の一部を抑制することは、ますます困難になるかもしれない。DALL-E Miniの開発者であるデイマ氏は、より広く普及している彼のようなツールが、よりフォトリアリスティックな画像を作成できるようになるのは時間の問題だと認めている。しかし、ここ数週間で広まっているAIが作成したミームは、そうした事態への備えに役立ったかもしれないと彼は考えている。「もちろん、いつかは来る」とデイマ氏は言う。「しかし、DALL-E Miniによって、画像を見たときにそれが必ずしも真実ではないと認識すべきだという意識が人々に広まればと思う」

2022年6月27日午前11時30分(東部標準時)更新:この記事の以前のバージョンでは、Sasha Luccioniの名前のスペルが間違っていました。