ニューラル ネットワークは、狭い範囲に焦点を絞った目標ではなく、オープンな探索を課せられたときに、その能力の飛躍的な向上を示しています。

踏み石原理は、人工知能に創造性を注入する方法の一つです。イラスト:Quanta Magazineのケビン・ホン
WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。
2007年、セントラルフロリダ大学のコンピュータ科学者ケネス・スタンリーは、学生たちと共同で制作したウェブサイト「Picbreeder」で遊んでいたところ、宇宙人がレーシングカーに変身し、彼の人生を変えてしまった。Picbreederでは、ユーザーは幾何学模様や渦巻き模様など、同じテーマに基づいた15枚の類似画像を閲覧できる。中には、蝶や顔など、実在の物体に似たものもある。ユーザーはその中から1枚を選ぶように求められ、通常は最も興味深いものをクリックする。クリックすると、画面には選択した画像に基づいた新たな画像群が表示される。こうした遊び心のある探求から、空想的なデザインのカタログが生まれた。
スタンリー氏は、ニューロエボリューションと呼ばれる人工知能分野の先駆者です。ニューロエボリューションは、生物進化の原理を応用してよりスマートなアルゴリズムを設計する分野です。Picbreederでは、各画像はニューラルネットワークに似た計算システムの出力でした。画像が生成されると、その基盤となるネットワークは15種類のわずかに異なるバリエーションに変異し、それぞれが新しい画像を生み出しました。スタンリー氏はPicbreederで何か特別なものを生成しようとは考えていなかったのです。彼はただ、自分自身、あるいは人々が進化、あるいは人工知能について何かを学べるかもしれないという予感を抱いていただけです。
ある日、スタンリーはサイト上でエイリアンの顔に似たものを見つけ、それを進化させ始めた。子供や孫などを選んでいくうちに、偶然にも丸い目が下の方に移動し、車のホイールのように見え始めた。スタンリーはそれに従い、かっこいいスポーツカーを進化させた。もしエイリアンからではなく、ゼロから車を進化させようとしていたら、きっと成功しなかっただろう、と彼は考え続け、問題に直接取り組むことの意味を考えた。「それは私の人生全体に大きな影響を与えました」と彼は言う。彼はPicbreederに現れた他の興味深い画像を見て、その系統を辿っていくと、ほとんどすべてが全く異なる何かを経て進化していることに気づいた。「その証拠を見たとき、私はただ圧倒されました」

Picbreederで生成されたエイリアンの顔(左)は、レースカーのようなものに変化した。イラスト:Picbreeder
スタンリーのこの認識は、彼が「踏み石原理」と呼ぶものにつながり、それによって、生物進化の無限の創造の可能性をより完全に取り込むアルゴリズムを設計する方法が生まれました。
進化的アルゴリズムは古くから存在しています。伝統的に、特定の問題を解決するために用いられてきました。各世代において、ある指標(例えば二足歩行ロボットの制御能力など)において最も優れた解が選択され、子孫が生み出されます。これらのアルゴリズムは一定の成功を収めていますが、近年爆発的に普及している「ディープラーニング」などの他のアプローチに比べて、計算負荷が高くなる場合があります。
踏み石原理は、従来の進化的アプローチを凌駕するものです。特定の目標に最適化するのではなく、あらゆる可能な解を創造的に探求することを重視します。その結果、画期的な成果がもたらされました。今年初め、踏み石原理に基づくあるシステムが、従来の機械学習手法では難解だった2つのビデオゲームを制覇しました。また、囲碁などの問題への深層学習の適用を先駆的に進めた人工知能企業DeepMindは、先週Nature誌に掲載された論文で、深層学習と多様な解の集団の進化を組み合わせることに成功したと報告しました。
この飛び石の可能性は、生物進化との類推で明らかです。自然界では、生命の樹形図には包括的な目標はなく、ある機能のために使われていた特徴が、全く異なる目的に利用されることもあります。例えば、羽毛は断熱材として進化し、後に飛行に役立つようになったと考えられます。
生物進化は、多くのAI研究者の究極の夢である人間の知能を生み出す唯一のシステムでもあります。生物学の実績から、スタンリーらは、人間と同じくらい容易に、あるいはそれ以上に物理世界と社会世界をナビゲートできるアルゴリズムが欲しいなら、自然の戦術を模倣する必要があると信じるようになりました。推論のルールをハードコーディングしたり、特定のパフォーマンス指標で高いスコアを獲得するようにコンピューターに学習させたりするのではなく、解決策の集団を開花させるべきだと彼らは主張します。歩く能力や話す能力ではなく、目新しさや面白さを優先させるのです。そうすれば、間接的な道筋、つまり一連の踏み石を発見し、直接的にそれらのスキルを追求した場合よりも上手く歩いたり話したりできるようになるかもしれません。
新しい、面白い、多様な
ピクブリーダーの後、スタンリー氏は、神経進化がそれに対する最も明白な反論を克服できることを証明しようと試みた。「何が生み出されるかわからないほど創造的なアルゴリズムを実行した場合、研究の観点からは非常に興味深いですが、商業的には売り込みにくくなります」と彼は言った。
彼は、興味深い方向へアイデアを追うだけで、アルゴリズムは多様な結果を生み出すだけでなく、問題を解決できることを示したかったのです。さらに大胆なことに、彼は目的を完全に無視することで、それを追求するよりも早く目的に到達できる可能性を示そうとしました。彼はこれを、新規性探索と呼ばれるアプローチを用いて実現しました。
このシステムはニューラルネットワークから始まりました。ニューロンと呼ばれる小さな計算要素が層状に接続された構造です。ある層のニューロンの出力は、様々な「重み」を持つ接続を介して次の層に渡されます。単純な例として、画像などの入力データをニューラルネットワークに入力するとします。画像からの情報が層から層へと渡されるにつれて、ネットワークはその内容に関する抽象的な情報を抽出していきます。最終的に、最終層で最高レベルの情報、つまり画像のラベルを計算します。

Uber AI Labsとセントラルフロリダ大学のコンピューター科学者、ケネス・スタンリー氏にとって、イノベーションは踏み石原理によって説明できる。写真:アサ・マサット
ニューロ進化では、まず層間の重みにランダムな値を割り当てます。このランダム性により、ネットワークは本来の機能をあまり発揮できません。しかし、この残念な状態から、ランダムな突然変異(重みがわずかに異なる子孫ニューラルネットワーク)のセットを作成し、その能力を評価します。最も優れたものを残し、さらに子孫を作り、これを繰り返します。(より高度なニューロ進化戦略では、ニューロンと接続の数と配置にも突然変異が導入されます。)ニューロ進化はメタアルゴリズム、つまりアルゴリズムを設計するためのアルゴリズムです。そして最終的に、アルゴリズムは本来の機能をかなりうまく発揮できるようになります。
ステッピングストーン原理を検証するため、スタンリーと彼の弟子ジョエル・レーマンは選択プロセスを微調整した。タスクで最も優れたパフォーマンスを発揮するネットワークを選択するのではなく、新規性探索は、自身の行動に最も類似した行動を示すネットワークとの相違度に基づいてネットワークを選択した。(Picbreederでは、人々は面白さを評価した。ここでは、面白さの代理として、新規性探索は新規性を評価していた。)
あるテストでは、仮想の車輪付きロボットを迷路に配置し、ロボットを制御するアルゴリズムを進化させ、いずれかのロボットが出口への道を見つけることを期待しました。彼らはこの進化を最初から 40 回実行しました。ロボットが出口にどれだけ近かったか (直線距離で) に基づいて選択される比較プログラムでは、40 回のうち 3 回しか勝利ロボットが進化しませんでした。各ボットが出口にどれだけ近かったかを完全に無視する新規性探索は、39 回成功しました。これは、ボットが行き止まりを回避することができたために成功しました。出口に直面して壁に頭をぶつけるのではなく、ボットは未知の領域を探索し、回避策を見つけ、偶然に勝利しました。「新規性探索が重要なのは、すべてをひっくり返し、基本的に、目的を持たないときに何が起こるかを尋ねたからです」とニューヨーク大学のコンピューター科学者であるジュリアン・トゲリウスは述べています。
スタンリーは、目標の追求が目標達成の妨げになり得るという主張を展開した後、新規性探索と具体的な目標を巧みに組み合わせる方法を模索しました。そして、彼とレーマンは自然界の進化的ニッチを模倣したシステムを構築するに至りました。このアプローチでは、アルゴリズムは自身に類似した他のアルゴリズムとのみ競合します。ミミズがクジラと競合しないのと同様に、このシステムはアルゴリズム上のニッチを個別に維持し、そこから様々な有望なアプローチが生まれる可能性があります。
局所的な競争を伴うこのような進化アルゴリズムは、ピクセル処理、ロボットアームの制御、そして(Natureの表紙に描かれているように)四肢を失った6本足ロボットが動物のように素早く歩行を適応させるのを支援するといった点で、優れた能力を示している。これらのアルゴリズムの重要な要素は、踏み石を育むことである。常に一つの全体的最善解を優先するのではなく、多様な活気あるニッチ群を維持し、そのどれか一つが勝者となる可能性がある。そして、最善解は、ニッチ間を飛び回ってきた系統から派生したものである可能性がある。
勝利のために進化
現在Uber AI Labsに所属するスタンリーにとって、この踏み石原理はイノベーションを説明するものだ。もし現代のコンピューターを持って過去に戻り、真空管を開発していた人々にそれを放棄してラップトップに集中するように言ったとしたら、私たちはどちらも持っていなかっただろう。また、この原理は進化も説明する。私たちは扁形動物から進化した。扁形動物は特に知能は高くなかったが、左右対称性を持っていた。「左右対称性の発見が知能と、ましてやシェイクスピアと何らかの関係があったかどうかは全く不明だ」とスタンリーは言う。「しかし、関係はある」
ニューロエボリューション自体は、過去10年間、予想外に回りくどい道を辿ってきました。長い間、他のAIの影に隠れていました。
テキサス大学オースティン校のコンピューター科学者で、スタンリーの元博士課程の指導教官でもあるリスト・ミッククライネン氏によると、ニューロエボリューションの最大の欠点の一つは、必要な計算量の大きさだという。従来の機械学習では、ニューラルネットワークを訓練していくと、徐々に性能が向上していく。一方、ニューロエボリューションでは重みがランダムに変化するため、ネットワークの性能は向上する前に低下してしまう可能性がある。
もう一つの欠点は、ほとんどの人が解決したい特定の問題を抱えているという基本的な事実です。興味深さを重視した検索戦略は、特定の問題に対する創造的な解決策にたどり着く可能性があります。しかし、正しい道へと導く前に、誤った方向に導いてしまう可能性もあります。
とはいえ、完璧な戦略など存在しません。ここ5年ほどで、深層学習や強化学習といったAI研究の様々な分野で研究が爆発的に進展しました。強化学習では、アルゴリズムが環境(ロボットが現実世界を移動したり、プレイヤーがゲームで対戦したりするなど)と相互作用し、試行錯誤を通して望ましい結果につながる行動を学習します。DeepMindは深層強化学習を用いて、囲碁で世界トップクラスのプレイヤーに勝利できるプログラムを開発しました。これは、多くの人がまだ数年、あるいは数十年先のことだと考えていました。
しかし、強化学習は行き詰まりに陥ることがあります。まばらな報酬や頻度の低い報酬では、アルゴリズムは目標に向かって進むのに十分なフィードバックを得ることができません。また、長期的な進歩を妨げる短期的な利益に対して与えられる欺瞞的な報酬は、アルゴリズムを行き詰まりに陥らせます。そのため、強化学習はスペースインベーダーやポンといった、得点が頻繁に発生し明確な目標を持つゲームでは人間に勝てますが、そうした特徴を持たない他の古典的なゲームでは、全く歯が立ちません。
過去 1 年間で、踏み石原理に基づく AI は、この分野における長年の課題のいくつかをようやく解決することに成功しました。

1984年に初リリースされたビデオゲーム『モンテスマの復讐』は、無限の探索を楽しめる。提供:アドリアン・エコフェット&ヨースト・ホイジンガ(Uber経由)
ゲーム「モンテスマの復讐」では、パナマ・ジョーは地下迷宮の部屋から部屋へと移動し、ドアを開ける鍵を集めながら、敵やヘビ、火床などの障害物を避けます。このゲームをクリアするために、Uber AI Labs で働くスタンリー、レーマン、ジェフ・クルーン、ジュースト・ホイジンガ、アドリアン・エコフェの 5 人は、パナマ・ジョーが基本的に歩き回り、さまざまなアクションをランダムに試すシステムを開発しました。ジョーは新しいゲーム状態 (新しい所有物のある新しい場所) に到達するたびに、そこに到達するために実行した一連のアクションとともに、その状態をメモリに保存します。その後、その状態へのより速いパスを見つけた場合は、古いメモリが置き換えられます。トレーニング中、パナマ・ジョーは保存された状態の 1 つを繰り返し選択し、しばらくランダムに探索し、見つけた新しい状態をメモリに追加します。
最終的に、これらの状態の一つがゲームに勝利する状態となります。そしてパナマ・ジョーは、そこに至るまでの行動をすべて記憶しています。彼はニューラルネットワークや強化学習を一切使わず、鍵を集めたり迷路の終わりに近づいたりしても報酬を与えず、ランダムな探索と飛び石を集めて繋げる巧妙な方法だけでこれを成し遂げました。このアプローチは、最高のアルゴリズムだけでなく、このゲームにおける人間の世界記録も破ることに成功しました。
研究者たちがGo-Exploreと呼ぶこの同じ手法は、ピットフォール・ハリーがワニや流砂を避けながらジャングルを進み、宝物を探すゲーム「ピットフォール!」で人間のエキスパートに勝利するためにも使用されました。他の機械学習AIは、0点以上のスコアを獲得していませんでした。
強化学習の巨人DeepMindでさえ、ニューロ進化への関心の高まりを表明している。1月には、同チームがAlphaStarを発表した。これは、2人の対戦者が軍隊を操作し、コロニーを構築してデジタル世界を支配する複雑なビデオゲーム「StarCraft II」でトッププロに勝利できるソフトウェアだ。AlphaStarは、互いに競い合い、学習し合うプレイヤー集団を進化させた。先週のNature誌掲載論文で、DeepMindの研究者たちは、AlphaStarのアップデート版が人気ゲームプラットフォーム上でアクティブなStarCraft IIプレイヤーの上位0.2%にランクインし、人気eスポーツで制限なくトップレベルに到達した初のAIとなったと発表した。

Uber AI Labsとワイオミング大学のコンピューター科学者、ジェフ・クルーネ氏は、オープンエンドの発見こそが人間のような人工知能を実現する最も早い方法であると主張している。写真:ウェイン・カニンガム/Uber
「AlphaStarエージェントは長い間、性能向上を続けてきましたが、常に悪用される可能性がありました」と、このプロジェクトに携わったDeepMindのコンピューターサイエンティスト、マックス・ジェイダーバーグ氏は述べた。「エージェントを訓練すると、平均的には非常に優れたパフォーマンスを発揮します。しかし、このエージェントに対抗する何かを訓練すると、必ずこのエージェントの弱点が見つかるのです。」
子供の遊びであるじゃんけんのように、StarCraft IIにも唯一最良のゲーム戦略は存在しません。そこでDeepMindは、エージェント集団に多様な戦略を進化させるよう促しました。これは、単なる足掛かりではなく、それ自体が目的です。AlphaStarが2人のプロプレイヤーを5対0でそれぞれ破った時、AlphaStarは集団内の5つの異なるエージェントの戦略を統合しました。5つのエージェントは、どの対戦相手の戦略に対しても、すべてが脆弱にならないように選ばれました。彼らの強みは、その多様性にありました。
AlphaStarは、進化アルゴリズムの主な用途の一つである、異なる解の集団を維持することを実証しています。DeepMindの最近の別のプロジェクトは、もう一つの用途、つまり単一の解を最適化することを実証しています。Alphabetの自動運転車プロジェクトであるWaymoと協力し、チームは歩行者を識別するアルゴリズムを進化させました。ある程度うまく機能しているものの、最善の戦略ではないアプローチに固執することを避けるため、彼らは「ニッチ」またはサブポピュレーションを維持しました。これにより、既存のトップクラスの解に打ち負かされる前に、斬新な解が開発される時間を確保しました。
近年、人口ベースアルゴリズムの人気が高まっている。その理由の一つは「現在私たちが持っているコンピューティング能力と相性が良い」ことだと、ディープマインドで研究科学者兼ロボティクス部門の責任者を務めるライア・ハドセル氏は述べた。ハドセル氏は、6月に開催される国際機械学習会議で、クルーン氏、レーマン氏、スタンリー氏を招き、2時間にわたる研究発表を行った。「これはAIにとって重要な研究分野だと思います。なぜなら、この分野を牽引してきたディープラーニングのアプローチを補完するものだからです」とハドセル氏は述べた。
AIを設計するAI
これまで議論してきたアルゴリズムはどれも創造性に限界があります。AlphaStarはStarCraft IIの新しい戦略しか生み出せません。新規性探索は、迷路を解くかロボットを歩かせるかといった、一度に1つの領域内でしか新規性を見つけることができません。
一方、生物の進化は際限のない新奇性を生み出します。私たちはバクテリア、昆布、鳥、そして人間を生きています。それは解決策が進化する一方で、問題も進化するからです。キリンは木の問題に対する答えです。人間の革新も同様に進化します。私たちは自ら問題を作り出し、――人を月に送ることはできるだろうか?――そしてそれを解決していくのです。
問題と解決策の間のこのオープンエンドの対話を反映するため、今年初め、スタンリー、クルーン、レーマン、そしてもう一人のウーバーの同僚であるルイ・ワンは、POET(Paired Open-Ended Trailblazer)と呼ばれるアルゴリズムをリリースした。アルゴリズムをテストするため、彼らは仮想の二足歩行ボットの集団を進化させた。また、丘、溝、木の切り株を備えたボットの障害物コースの集団も進化させた。ボットは時々お互いの場所を交換し、新しい地形に挑戦した。例えば、1 体のボットは膝を引きずりながら平坦な地形を横断することを学習した。次に、ランダムに短い切り株のある地形に変更され、そこでは直立歩行を学習しなければならなかった。最初の障害物コースに戻ると、はるかに速くクリアした。間接的なパスにより、1 つのパズルで学習したスキルを別のパズルに適用することで改善することができた。
POETは、自ら新たな課題を考案し、それを解決することで、新たな芸術形態をデザインしたり、科学的発見をしたりできる可能性があります。世界構築能力次第では、さらに先へ進むことも可能です。スタンリー氏は、10億年後でもまだ何か面白いことをできるようなアルゴリズムを構築したいと述べています。
進化は「視覚を発明し、光合成を発明し、人間レベルの知能を発明しました。これらすべてを、たった一度のアルゴリズムの実行で実現したのです」とスタンリー氏は述べた。「そのプロセスのほんのわずかな断片を捉えることができれば、信じられないほど大きな力を発揮できると思います。」
クルーンは最近の論文で、オープンエンドな発見こそが、人間のほぼ全ての能力を備えた機械、つまり汎用人工知能への最速の道であると主張している。AI分野の大部分は、様々なニューラルネットワークアーキテクチャや学習プロセスといった、知能機械の構成要素すべてを手作業で設計することに焦点を当てている。しかし、これらが最終的にどのように汎用知能へと統合されるのかは不明である。
クルーン氏は、AIを設計するAIにもっと注目するべきだと考えている。アルゴリズムは、POETのようなアプローチを用いて、ニューラルネットワークとその学習環境の両方を設計または進化させるだろう。このようなオープンエンドな探究は、私たちが予想もしなかった道筋を経て人間レベルの知能に到達するかもしれない。あるいは、知能全般について多くのことを教えてくれる、様々な異星人の知能につながるかもしれない。「数十年にわたる研究で、これらのアルゴリズムは常に私たちを驚かせ、出し抜くことが分かっています」と彼は述べた。「ですから、特にアルゴリズムがより強力になり、オープンエンドになるにつれて、これらのプロセスの結果がわかると考えるのは完全に傲慢です。」
研究者への過剰な統制も傲慢と言えるかもしれない。スタンリー氏のストーリーに皮肉なのは、彼がPicbreederを当初国立科学財団に売り込んだ際、助成金申請を却下されたことだ。財団は、その目的が明確でないとして却下した。しかし、このプロジェクトは論文、講演、書籍、そしてスタートアップ企業Geometric Intelligenceへと発展した。同社はUberに買収され、Uber AI Labsの中核を担うことになった。「私にとって本当に衝撃的で、もしかしたらクレイジーなことの一つは、私がここに至った経緯が、私をここに導いたアルゴリズムの洞察と基本的に同じだということです。この洞察に至った経緯は、実はその洞察自体によって説明できるのです」とスタンリー氏は語った。
オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、 シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。
WIREDのその他の素晴らしい記事
- 睡眠は脳から毒素を排出する
- ソ連崩壊後の国境地帯における怪しい暗号通貨ブーム
- 遠くの銀河?デス・スター?いや、これは爆発だ
- 車の死は誇張されていた
- ある安全なプラットフォームが二要素認証を採用しなかった理由
- 👁 ディープフェイク動画の時代に向けて準備しましょう。さらに、AIに関する最新ニュースもチェックしましょう。
- ✨ ロボット掃除機からお手頃価格のマットレス、スマートスピーカーまで、Gear チームのおすすめ商品で家庭生活を最適化しましょう。