このAIは「アート」から自動運転車の操縦へと進化する可能性がある

スパゲッティでできた騎士がどんな姿をしているのか、おそらく考えたこともないだろう。だが、サンフランシスコの企業 OpenAI の新しい賢い人工知能プログラムのおかげで、ここに答えがある。

今月初めにリリースされたDALL-Eというプログラムは、アボカドのアームチェア、ロボットキリン、チュチュを着たラディッシュなど、実在しない奇妙なものの画像を作り出すことができる。OpenAIはWIREDの依頼を受け、スパゲッティナイトを含む複数の画像を生成した。

DALL-EはGPT-3の一種で、Webから収集したテキストで学習したAIモデルであり、驚くほど一貫性のあるテキストを生成できます。DALL-Eに画像とそれに伴う説明を入力すると、それに応じた適切なマッシュアップ画像を生成することができます。

いたずら好きの人たちは、DALL-Eの面白さにすぐに気づきました。例えば、DALL-Eはイギリス料理の新しい種類を想像できると指摘しました。しかし、DALL-EはAIを活用したコンピュータービジョンの重要な進歩に基づいて構築されており、真剣かつ実用的な応用が期待できます。

CLIP と呼ばれるこの技術は、脳の学習方法にヒントを得たアルゴリズムである巨大な人工ニューラルネットワークで構成されており、Web から取得した何億もの画像とそれに付随するテキストキャプションを入力し、画像の正しいラベルを予測するようにトレーニングされています。

OpenAI の研究者たちは、CLIP が、画像がラベルにきちんと対応付けられたキュレーションされたデータセットを使用して通常の方法でトレーニングされたアルゴリズムと同じくらい正確にオブジェクトを認識できることを発見しました。

その結果、CLIPはより多くのものを認識できるようになり、膨大な例を必要とせずに特定のものの外観を把握できるようになりました。CLIPはDALL-Eのアートワーク制作を支援し、生成した画像の中から最適な画像を自動的に選択しました。OpenAIはCLIPの仕組みを説明した論文と、生成されたプログラムの小型版を公開しています。DALL-Eに関する論文やコードはまだ公開されていません。

記事画像

超スマートなアルゴリズムがすべての仕事をこなせるわけではありませんが、これまで以上に速く学習し、医療診断から広告の提供まであらゆることを行っています。

DALL-EとCLIPはどちらも「非常に素晴らしい」と、プリンストン大学でコンピュータービジョンを専門とする助教授のカーティク・ナラシンハン氏は語る。CLIPは、画像とテキストを同時に用いて大規模なAIモデルを訓練するというこれまでの研究を基盤としつつ、前例のない規模で実現していると彼は言う。「CLIPは、より自然な形の監督、つまり私たちが物事について話す方法を用いることが可能なことを大規模に実証しています」と彼は言う。

CLIPは、ウェブ検索や動画分析に用いられる画像認識の精度向上から、ロボットや自律走行車のスマート化まで、様々な分野で商業的に活用できる可能性があると彼は述べている。CLIPは、ロボットが画像や取扱説明書などのテキストから学習するアルゴリズムの出発点として活用できる可能性があると彼は述べている。あるいは、自動運転車が未知の環境における歩行者や樹木を認識するのにも役立つかもしれない。

BMWで自動運転の開発に携わるエンジニア、ウラジミール・ハルタコフ氏は、しばらくの間、CLIPの小型版を試行錯誤してきた。同社では数百万キロに及ぶ自動運転の画像を収集してきたが、訓練に役立つ特定の画像を見つけるのが難しい場合もあると彼は言う。同氏は、このアルゴリズムはテキストプロンプトを使ってデータを検索するのに役立つだろうと語る。「探しているものを説明できることは、開発において非常に役立つでしょう」と彼は言う。

一部のAIプログラマーやハッカーは、OpenAIが公開したコードを使ってCLIPの実験を始めています。ディープラーニングコンサルタントであり、AIを使って人物写真を漫画風刺画に変換するアプリ「Toonify」の開発者でもあるジャスティン・ピンクニー氏は、このプログラムを「非常に印象的」で「極めて多用途」だと評しています。ピンクニー氏は、CLIPは特定のタスクのための画像データセットの構築に役立つ可能性があると述べ、画像を生成するAIシステムの制御に役立つかどうかを確認したいとしています。「有名人の外見や、様々な絵画スタイルやアーティストの特徴などを学習したように見えるのは、実に驚くべきことです」と彼は言います。

AIと芸術の融合に関心を持つ科学者、トラヴィス・ホッペ氏は、画像サイトUnsplashを利用して詩に添える画像を検索するツールをCLIPで構築した。彼はOpenAIがDALL-Eのコードも公開してくれることを期待しているが、「おそらくそうはならないだろう」と付け加えた。

OpenAIの主任科学者であるイリヤ・スツケバー氏は、商用利用の可能性はあるが、同社は現在研究に注力していると述べた。OpenAIは、どちらのプログラムの完全版をリリースするかについては未定である。

MIT（マサチューセッツ工科大学）の脳・心・機械センターでコンピュータービジョンとAIを研究する研究者、アンドレイ・バルブ氏は、CLIPが商用利用の現場で役立つ可能性があると考えています。特に、学習用に大量のラベル付き画像を作成することが現実的でない場合に有効だと述べています。

バルブ氏はまた、OpenAIがCLIPのフルバージョンやDALL-Eのコードをまだ公開していないことにも不満を抱いている。これは、著名な商用AI研究室の間でも見られる傾向だ。「研究者の視点からすると、少し厄介な状況です」とバルブ氏は言う。「素晴らしいものがたくさん出てくるのですが、それを実際に活用できる人は誰もいませんし、その上に何かを構築できる人もいません。ましてや再現することすらできないのです。」

WIREDのその他の素晴らしい記事

📩 テクノロジー、科学、その他の最新情報を知りたいですか？ニュースレターにご登録ください！
あなたの体、あなた自身、あなたの外科医、彼のインスタグラム
隔離生活を乗り切るための私の探求 ― 暖かい服を着て
法執行機関があなたの携帯電話の暗号化を回避する方法
このプログラムのAI搭載テキストは政府を騙す可能性がある
世界の帯水層の崩壊が進行中
🎮 WIRED Games: 最新のヒントやレビューなどを入手
🏃🏽‍♀️ 健康になるための最高のツールをお探しですか？ギアチームが選んだ最高のフィットネストラッカー、ランニングギア（シューズとソックスを含む）、最高のヘッドフォンをご覧ください