思考を代弁する脳コンピュータインターフェースの長い探求

思考を代弁する脳コンピュータインターフェースの長い探求

鍵となるのは、脳のデータを用いてリアルタイムで音声を合成し、ユーザーが練習し、機械が学習できるようにすることです。新しい脳コンピューターインターフェースシステムは、その実現に近づいています。

女性の口

新たな研究は、脳コンピューターインターフェースの新たな用途、すなわち話すことができない人々に声を与えることに向けた驚くべき進歩を示している。写真:ハンス・ネレマン/ゲッティイメージズ

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

研究の仕組みは次の通り。女性がマイクにオランダ語を話し、プラチナとイリジウムでできた11本の小さな針が彼女の脳波を記録する。

20歳のボランティアはてんかんを患っており、医師たちは発作の原因部位を特定しようと、長さ2ミリの金属片(それぞれ最大18個の電極が埋め込まれている)を彼女の脳の前部と左側に挿入した。しかし、この神経微小鍼治療は、別の研究チームにとっても幸運な出来事だった。なぜなら、電極は彼女の脳内で発話と発音を司る部位に接触していたからだ。

すごいのはそこだ。女性が話した後(これは「顕在発話」と呼ばれる)、コンピューターがアルゴリズム的に音と脳の活動を関連付けた後、研究者たちは彼女にもう一度同じことをするように指示する。今度は彼女はかろうじてささやき、口、舌、顎を使って言葉を真似する。これが「意図された発話」だ。そして彼女はそれをもう一度繰り返す――ただし、全く動かずに。研究者たちは彼女に、言葉を発するところを想像するだけでいいと指示したのだ。

これは人間の話し方を逆順にしたものだ。現実の生活では、私たちは脳の一部で無言のアイデアをまとめ、別の部分でそれを言葉に変換し、そして別の部分が口、舌、唇、喉頭の動きを制御し、発話に適切な周波数の可聴音を生成する。今回の研究では、コンピューターが女性の思考を順番に飛ばした。コンピューターは彼女が考えながら話している(専門用語では「想像上の発話」)ことを認識し、彼女の脳から送られてくる補間信号から形成された可聴信号をリアルタイムで再生することができた。その音は言葉としては理解できなかった。9月末に発表されたこの研究はまだやや初期段階である。しかし、これらの音が思考と行動のミリ秒単位の速度で起こったという事実自体が、脳コンピューターインターフェースの新たな用途、つまり話すことができない人々に声を与えることに向けた驚くべき進歩を示している。

神経疾患や脳損傷によるこの無力感は「構音障害」と呼ばれます。これは衰弱性があり恐ろしい症状ですが、対処法はいくつかあります。構音障害の人は、直接話す代わりに、体の他の部分の動きを文字や単語に変換する機器を使うことがあります。ウィンクさえも効果があります。最近、閉じ込め症候群の患者の大脳皮質に脳コンピューターインターフェースを埋め込むことで、想像上の手書きを1分間に90文字の速度に変換できるようになりました。これは良いことですが、素晴らしいとは言えません。典型的な英語の会話は1分間に150語と、かなり速い速度です。

問題は、腕(あるいはカーソル)を動かすのと同じように、発話の構成と生成が非常に複雑だということです。これはフィードバック、つまり何かを発してから実際に自分が話しているのを聞くまでの50ミリ秒のループに依存しています。これが、人間が自分の発話のリアルタイムの品質管理を可能にしているのです。さらに言えば、人間がそもそも話すことを学ぶのもフィードバックによるものです。つまり、言語を聞き、音を出し、(耳と聴覚皮質という脳の全く別の部位を通して)自分がその音を出すのを聞き、自分がしていることと自分がしようとしていることを比較するのです。

問題は、最高のBCIやコンピューターでも、脳データから音を生成するまでにかなり時間がかかることだ。しかし、オランダ語を話す女性と研究しているグループは、それをわずか30ミリ秒で実現した。確かに、彼らのシステムが生成した音は理解不能で、単語のようには聞こえなかった。これが改善されれば、理論上はそのループは、ユーザーが自分で可聴音を出せなくても、そのようなデバイスで練習し、時間をかけてシステムをうまく使えるようになるためのフィードバックを提供するのに十分な速さになるはずだ。「私たちが持っているデータセットはわずか100語という非常に限られており、実験時間も非常に短かったため、彼女に十分な練習時間を与えることができませんでした」と、マーストリヒト大学のコンピューター科学者で、新論文の筆頭著者の一人であるクリスチャン・ヘルフ氏は言う。「可聴音声で訓練すれば、想像上の音声でも何かを得られるということを示したかったのです。」

神経科学者たちは、少なくとも20年間、人の脳から音声信号を取り出す研究を続けてきました。脳内で音声がどのように生成されるかについて理解が深まるにつれ、電極と画像診断装置を用いて、人が話している間の脳の活動をスキャンしてきました。彼らは着実に成果を上げ、母音と子音の音に変換できるデータを取得してきました。しかし、それは容易ではありません。「特に想像上の音声は研究が難しく、理解するのも困難です」と、アルスター大学で音声合成を研究するBCI研究者、キアラン・クーニー氏は述べています。「そこには興味深い議論があります。なぜなら、想像上の音声と顕在的な音声の関係がどれほど密接であるかを解明しなければ、顕在的な音声を用いてその妥当性を検証することはできないからです。」

脳の中で言語を形成する部分、特に下前頭回からの信号だけを補間するのは難しい。(編み針をこめかみのすぐ上の頭蓋骨にまっすぐ刺したら、刺してしまうだろう。[刺さないように。]) 想像上の会話は、ただ心がさまよっているわけでも、内なる独白でもない。それはおそらく、何を言おうかと考えているときに心の耳で聞こえるものに近い。脳がそれを行う方法は、統語的、音韻的、ペース的に、実際に口から出てくるものとは異なる可能性がある。人によって、脳のこれらの部分で情報を符号化する方法は特異かもしれない。また、口が何らかの働きをする前に、脳の言語部分が整理したものが何であれ、身体の動作を制御する運動前野と運動皮質に送られる必要がある。話すことができない人が使うシステムを開発しようとする場合、彼らは目指すべき自分の言葉を持っておらず、システムが自分の言いたいことを合成しているかどうかを検証することができません。BCI支援義肢はすべて、そうした検証と訓練を必要とします。「想像上の発話の問題は、目に見える結果が得られないことにあります」とハーフ氏は言います。

2019年、カリフォルニア大学サンフランシスコ校の研究チームが、巧みな回避策を考案しました。被験者に発話してもらい、言葉を発する脳の部位(下前頭皮質)だけでなく、口、舌、顎などの動きを制御する領域(腹側感覚運動皮質)からの信号も記録しました。これは、編み針を刺さなかった場所から少し上と後ろの部分です。研究チームは、これらの信号を音声の機械的な動きの仮想バージョンに変換できる機械学習システムを構築しました。このシステムは理解可能な単語を合成できましたが、リアルタイムではありませんでした。このアプローチはオープンループシステムと呼ばれています。

UCSFの神経科学者エディ・チャンが率いるこのチームは、オランダ語を話す女性と研究していたチームの科学的なライバルであり、以前はFacebookという名前だった会社から資金提供を受けていた。その後、別の目覚ましい成功を発表した。7月、彼らは、脳卒中後に発声不能になった人の皮質言語中枢の内と周囲に電​​極を埋め込む方法を示した。1年半のトレーニングの後、彼らは50語のどれでも発声する意図を拾うことができるシステムを完成させた。どの語が他の語に続く可能性が高いかを予測できるアルゴリズムの助けを借りて、このシステムは音声合成装置を介して、8語の文を1分間に約12語の速度で話せるようにした。これは、構音障害のある人がこのようなシステムをどれだけうまく使いこなせるかを示す、初めての本格的なテストだった。結果として得られた合成音声はまだリアルタイムではなかったが、コンピューターの性能向上により、処理速度は速まっている。 「彼の身振り手振りやささやき声のような信号を使って、言語出力を生成し、解読することができました」と、この研究に携わったカリフォルニア大学サンフランシスコ校(UCSF)とカリフォルニア大学バークレー校のコンピューター・神経工学者、ゴパラ・アヌマンチパリ氏は語る。「そして今、私たちはその被験者のために、リアルタイムで音声を生成する作業を進めています。」

50語の語彙集に焦点を当てたこのアプローチは、チャンチームの研究の精度と明瞭度を向上させました。しかし、この方法には限界もあります。フィードバックループがないと、コンピューターが間違った単語を選んでも、ユーザーは修正できません。そして、人間が50語を発音できるようになるまでには81週間かかりました。1,000語に達するにはどれほどの時間がかかるか想像してみてください。「このシステムに追加する単語が増えれば増えるほど、問題は収拾がつかなくなります」と、ボストン大学の音声神経科学者で、このプロジェクトには参加していないフランク・グエンサー氏は言います。「100語にもなると、それぞれの単語を解読するのがはるかに難しくなり、組み合わせの数も大幅に増えるため、予測が難しくなります。完全な語彙となると、ほとんどの人は50語ではなく、数千語を使います。」

ハーフのグループが構築しようとしているようなリアルタイムシステム(「クローズドループ」)を構築しようとする目的は、ユーザーが最終的に単語ではなく音を生成できるようにすることです。「oh」や「hh」などの音素、さらには音節や母音は、音声の基本的な単位です。機械が理解できる神経相関のライブラリを組み立てれば、ユーザーは好きなだけ単語を生成できるようになります。理論上は。ギュンターは、2009年に閉じ込め症候群の患者の運動皮質にBCIを埋め込み、わずか50ミリ秒の遅延で母音(完全な単語ではない)を生成できるようにしたチームに所属していました。これは、時間の経過とともに精度を向上させるのに十分な性能です。「クローズドループシステムの背景にあるアイデアは、あらゆる音を生成するために使用できる音響を作成する能力を患者に提供することでした」とギュンターは言います。 「一方で、50語のシステムが非常に確実に機能すれば現状よりもはるかに良くなるだろうし、チャン氏のチームは誰よりも信頼性の高い解読に近づいている。」

最終目標は、おそらく5年ほど先になるだろうが、リアルタイムオーディオによる精度と明瞭度の統一となるだろう。「この分野に取り組んでいるすべてのグループが目指す共通の方向性は、リアルタイム化です」とアヌマンチパリ氏は言う。

より大きく、より高性能な電極アレイが役立つかもしれない。これは、かつてFacebookだったMetaが関心を寄せている点だ。イーロン・マスクのNeuralinkも同様だ。脳の音声形成領域からより多くのデータを得ることで、合成音素をリアルタイムで明瞭にし、すべての人の脳がほぼ同じようにこの作業を行っているかどうかを判断できるようになるかもしれない。もしそれが実現すれば、すべてのシステムが同じ基準からスタートするため、個々のBCIのトレーニングプロセスが容易になる。そうなれば、学習プロセスは、カーソルが正しい方向に動くのを見て、まだ誰も完全には理解していないバイオフィードバックプロセスを通じて、より良く、より確実にそれを行う方法を見つけ出すようなものになるだろう。

しかし、それが不可能であれば脳が何をしようとしているのかを理解し予測するためのより優れたアルゴリズムがますます重要になります。脳神経外科手術によって、発話に最適な場所に専用の電極アレイを配置できれば理想的ですが、現在の研究倫理規定では「ヨーロッパでは非常に困難です」とハーフ氏は言います。「そのため、現在私たちは、より高品質な発話を可能にするより複雑なアルゴリズムを用いることに注力しており、特にトレーニングの側面に重点を置いています。」

アヌマンチパリのグループは、その目標に近づきつつある。現在、人間向けに承認されているBCIは、研究者が望むすべてのデータを取得するのに十分な電極を備えていない。しかし、Neuralinkのような将来の技術がこの点を改善することを多くの人が期待している。「脳から得られるサンプルは常に不足していると言っても過言ではありません」と彼は言う。「ですから、残された負担が何であれ、アルゴリズムで補わなければなりません」。つまり、意図の収集能力を向上させること、「被験者がシステムから学び、システムが被験者から学ぶようなプロトコルをいかに最適に構築するか」が重要になる。未来の音声合成装置は、脳内の電極に加えて、あらゆる種類の生体情報ストリームからの入力も取得する可能性がある。アヌマンチパリによると、そこには動きや心拍数といった、意図や欲求を示す他の指標も含まれる可能性があるという。そして、どんな新しいシステムも、ユーザーが疲労やフラストレーションで使用を諦めないように、習得しやすく使いやすいものでなければならない。 「私たちは非常に近づいていると思います。今では原理的な証明はすべて揃っています」とアヌマンチパリ氏は言う。「進歩は遅いですが、正しいアプローチに焦点を絞りつつあると思います。」想像上の会話は、永遠に想像上のものだけではないかもしれない。

2021年11月10日 3:20 ET更新:この記事の以前のバージョンでは、ゴパーラ・アヌマンチパリ氏が、被験者が「心の中でささやいた」と述べていると引用していました。彼は、その言葉は「身振りで」ささやかれたものだと述べました。