何時間も試行錯誤を繰り返し、やっと歩けるようになった赤ちゃんを見て、「わかった、よくやった。でも、メダルでも欲しい?」と思うのは簡単でしょう。まあ、私のように子供がいない人間だけがそう思うのかもしれません。だから、褒めるべきところは褒めてあげましょう。私たちのような動物にとって、片足を前に出すという日常的な動作をこなすのは、極めて難しいことなのです。
ロボットに同じことをさせるのはさらに困難です。かつては、機械に歩かせるには、すべてのコマンドをハードコードするか、ロボットが学習するためのシミュレーション世界を構築する必要がありました。しかし最近、研究者たちは斬新な方法を実験しています。それは、赤ちゃんのように現実世界を歩き回りながら試行錯誤を繰り返し、ロボットに自ら歩行を学習させるというものです。
カリフォルニア大学バークレー校とGoogle Brainの研究者たちは、わずか2時間で歩行を自己学習させた四足歩行ロボットを開発し、その未来に向けて大きな一歩を踏み出しました(失礼ながら)。最初は少しぎこちなかったものの、実質的には自ら歩くことを発明したと言えるでしょう。それだけでなく、研究者たちはこのロボットを傾斜や障害物などの新しい環境に導入し、容易に適応させました。結果は魔法のようにも不器用にも思えますが、私たちが手伝うことなく世界を探索する機械の実現につながるかもしれません。
ここでの秘密は、最大エントロピー強化学習と呼ばれる手法です。ここでのエントロピーとは、ランダム性、それも大量のランダム性を意味します。研究者たちは、ロボットがランダムな行動をした結果、うまくいった場合にデジタル報酬を与えます。つまり、今回の場合、ロボットは前進速度を達成したこと、つまり新しいことに挑戦し、少しずつ前進していることに対して報酬を得ているのです。(ロボットの進捗状況は、研究室のモーションキャプチャシステムによって計算されました。)
しかし、問題があります。「この報酬を最大化する最良の方法は、最初はただ前に飛び込むことです」と、カリフォルニア大学バークレー校のコンピューター科学者で、このシステムを詳述した新しいプレプリント論文の筆頭著者であるトゥオマス・ハーノジャ氏は言います。「ですから、そのような行動にはペナルティを課す必要があります。なぜなら、ロボットはすぐに転倒してしまうからです。」
もう一つの問題があります。研究者がロボットに学習させたい場合、通常、この強化学習プロセスをまずシミュレーションで実行します。デジタル環境は現実世界の物理特性と材料を近似するため、ロボットのソフトウェアは高性能なコンピュータを用いて多数の試行を迅速に実行できます。
研究者たちは、特定の種類のシミュレーション環境でアルゴリズムを動作させるために「ハイパーパラメータ」を使用します。「これらのハイパーパラメータの様々なバリエーションを試してみて、実際に機能するものを選ぶだけです」とハーノジャ氏は言います。「しかし、現実世界のシステムを扱っている以上、これらのハイパーパラメータの様々な設定をテストする余裕はありません。」ここでの進歩は、ハーノジャ氏と彼の同僚がハイパーパラメータを自動的に調整する方法を開発したことです。「これにより、現実世界での実験がはるかに実現可能になりました。」

トゥオマス・ハーノヤ
現実世界ではなくソフトウェアシミュレーションで学習するとなると、はるかに時間がかかります。ロボットが倒れるたびに、ハーノジャ氏は四足ロボットを物理的に持ち上げてリセットする必要があり、2時間のトレーニングセッションでおそらく300回も繰り返しました。確かに面倒ではありますが、シミュレーションで学習した内容を現実世界の不完全な近似値として物理的なロボットでうまく動作させようとするほど面倒ではありません。
また、研究者がロボットを最初にシミュレーションで訓練する際には、そのデジタル環境がどのようなものかを明確に理解できます。一方、現実世界ははるかに予測しにくいものです。そこで、ハーノヤ氏と彼の同僚たちは、制御された実験室という現実の環境でロボットを訓練することで、環境の変化に対する機械の堅牢性を高めました。
さらに、このロボットは訓練中に小さな外乱にも対処する必要がありました。「バッテリーにはケーブルが接続されていますが、ケーブルが脚の下を通ってしまうこともありますし、手動でロボットをリセットする際に正しくリセットできないこともあります」とハーノジャ氏は言います。「ですから、ロボットはこうした外乱からも学習するのです。」シミュレーションでの訓練は高速ですが、現実世界のランダム性にはかないません。そして、ロボットが私たちの家や街路に自律的に適応できるようにするために、柔軟性が求められます。
「この研究は、深層強化学習のアプローチが実際のロボットに適用可能であることを説得力を持って示しているため、気に入っています」と、物体の操作を自己学習するロボットハンドを設計したOpenAIのエンジニア、マティアス・プラパート氏は語る。「平坦な地形でのみ学習させたにもかかわらず、この手法がこれまで見たことのない地形にも非常によく一般化していることも印象的です。」
「とはいえ、物理的なロボットでの学習には依然として多くの課題が伴います」と彼は付け加える。「より複雑な問題では、2時間の訓練ではおそらく不十分でしょう。」もう一つのハードルは、ロボットを現実世界で訓練すると怪我をする可能性があるため、研究者は慎重に進めなければならないことだ。
それでも、現実世界での訓練は、ロボットを不確実性に適応させる強力な手段です。これは、工場のロボットのような、一連の命令に従い、人間の同僚を部屋の向こうに投げ飛ばさないように孤立して働く野蛮な存在とは根本的に異なるものです。しかし、工場の外の多様で予測不可能な環境では、機械は自ら道を見つけなければなりません。
「ロボットを火星に送り込むとしたら、どんなことに直面するでしょうか?」と、オスロ大学のロボット工学者、トネス・ナイガード氏は問いかける。ナイガード氏自身の四足歩行ロボットは「進化」によって歩行を習得した。「ある程度は分かっていますが、すべてを知ることはできません。たとえ全てを知ることができたとしても、それぞれの状況に応じてあらゆる行動をハードコードするのは避けたいでしょう。」
さあ、小さな一歩を踏み出しましょう…宇宙へ!
WIREDのその他の素晴らしい記事
- ダークサイド(モード)に身を委ねる
- 人生を変える最高の自己最適化の魔法
- XR とは何ですか? どうすれば入手できますか?
- ニューヨークのLトレインを走り続けるシンプルなエンジニアリング
- 隠遁生活を送るトカゲが野生動物密輸業者の目玉になった
- 👀 最新のガジェットをお探しですか?おすすめ商品、ギフトガイド、お得なセールなど、一年を通してチェックしてみてください
- 📩 毎週配信されるBackchannelニュースレターで、さらに多くの内部情報を入手しましょう