車両数の増加、センサーの高性能化、予算の削減により、自動運転車の開発者はサーバー上に保存するデータについてより厳しく選別する必要に迫られています。

写真:アレン・J・シャーベン/ロサンゼルス・タイムズ/ゲッティイメージズ
iPhoneやGoogleフォトの多くのユーザーと同様に、自動運転車の開発者にとって、クラウドにファイルを保存するためのコストの増加は頭の痛い問題となっている。
当初、ロボットカー企業は走行距離とデータ量を最大化するために、力ずくのアプローチを追求していました。「車がこれまで見てきた何十万もの歩行者、自転車、そして車両といったデータをすべて集め、そこから車の動きを予測するモデルを構築できるのです」と、Googleの自動運転プロジェクトの初期リーダーであるクリス・アームソン氏は2015年のTEDトークで述べています。
アームソン氏が講演した当時、自動運転車のプロトタイプはまだ比較的少なく、試験走行を行う少数の企業が路上から収集したほぼすべてのデータポイントを保管する余裕があった。しかし、それから10年近くが経ち、Googleのプロジェクトをはじめとする多くのプロジェクトは、成功までのタイムラインに関する当初の予測から大きく遅れをとっている。車両数の増加、より高性能なセンサー、そして予算の逼迫により、ロボタクシーやロボ貨物サービスに取り組む企業は、サーバーに保存するデータについてより慎重にならざるを得なくなっている。
天候が良く道路が比較的空いている時間帯に、一部の都市で無人運転による人や物の輸送を開始したものの、まだ利益を上げていないこの業界にとって、新たな自制心は成熟の兆しと言える。企業が新たな地域の微妙な変化に合わせて技術を訓練していく中で、どのデータを保持し、どのデータを破棄するかを見極めることが、より多くの地域にサービスを拡大していくための鍵となるかもしれない。
「大量のデータを持つことは、ある程度は価値があります」と、Googleからスピンアウトした自動運転技術企業Waymoでコンピューティングインフラを統括するアンドリュー・チャタム氏は語る。「しかし、ある時点では、より興味深いデータを持つことが重要になります。」Aurora、Cruise、Motional、TuSimpleといったライバル企業も、自社のデータストアを注意深く監視している。
自動運転プロジェクトが長年の赤字に見舞われ、支出抑制の圧力に直面している今、この傾向が広がる可能性がある。ロボタクシーサービス「クルーズ」を所有するゼネラルモーターズから、ウェイモを親会社とするアルファベットに至るまで、企業は今年、不安定な経済状況により中核事業の売上が鈍化する中、大規模なレイオフを含む広範なコスト削減に取り組んでいる。一方、自動運転車のスタートアップ企業にとって、安価で容易に資金調達できる資金は枯渇しつつある。
当然のことながら、すべての支出は精査されています。Amazon Web Services(AWS)は、人気のS3クラウドストレージサービスに1ギガバイトあたり月額約2セントを課金しています。これは、データ集約型のプロジェクトではすぐに費用がかさみ、データ転送にかかる帯域幅のコストを考慮すると、場合によっては2倍になります。インテルは2016年に、自動運転車1台あたり1日4,000ギガバイトのデータを生成すると推定しました。これは、Amazonの現在の価格であれば、1年間で約35万ドルのコストがかかります。
テクノロジー業界にとって、データを捨て去ることは理不尽に聞こえるかもしれない。GoogleやMetaのような企業は、ユーザーの位置情報、クリック、検索など、あらゆる情報を収集していることで長年嘲笑され、時にはペナルティさえ受けてきた。「行動をより深く理解することで、より優れたサービス設計につながる」という考えからだ。この考え方は、明確な用途があるかどうかに関わらず、データを収集する文化を生み出した。例えば、GoogleのCEOであるサンダー・ピチャイは2019年に、「広告配信に役立つのはデータのごく一部に過ぎない」と認めている。
自動運転車の開発者も当初、データ最大化という同様の哲学を抱いていました。車内外のカメラアレイから動画を生成し、マイクから音声を録音し、ライダーやレーダーから空間上の物体をマッピングする点群データ、車両部品からの診断データ、GPSデータなど、様々なデータを生成します。
市場調査会社カウンターポイントで自動車技術を研究するブレイディ・ワン氏は、「収集されるデータが多いほど、自動運転システムはより賢くなると考える人もいました」と語る。しかし、データの量と複雑さゆえに整理や理解が難しく、このアプローチは必ずしもうまくいかなかったとワン氏は指摘する。
近年、企業は特に有用と思われるデータのみを保有し、それらを適切に整理することに注力するようになりました。実際、晴れた日に砂漠を1時間運転したデータは、一見すると同じようなデータに見えるため、すべてのデータを保持することの有用性に疑問が生じています。
制限は全く新しいものではない。ウェイモの著名なソフトウェアエンジニアであるチャタム氏によると、10年以上前、同社がグーグル社内の小さなプロジェクトで、彼自身もチームを率いていた頃は、より多くのデジタルストレージにアクセスするのは容易ではなかったという。自動運転の失敗記録など、明確な用途のないデータは削除されていた。「ストレージを無限に扱えば、コストは天文学的な額になるでしょう」とチャタム氏は言う。
ウェイモが多額の外部投資を受けて独立企業となった後、プロジェクトはデータストレージをより自由に消費するようになりました。例えば、ウェイモが2019年後半にジャガーI-PACEのテストを開始した際、このクロスオーバーSUVにはより強力なセンサーが搭載され、より大量の情報を生成するようになりました。1時間の運転ログは1,100ギガバイトを超え、DVD240枚分に相当するほどでした。当時、ウェイモはストレージ容量を大幅に増強し、チームは保存するデータにそれほどこだわるようになったとチャタム氏は言います。
最近、チャタム氏のチームは厳格なノルマを設定し、社内の従業員に慎重な行動を求めるようになりました。ウェイモは現在、新たに生成されたデータの一部のみを保管しており、さらに最近では、現在の技術、状況、優先順位に比べて古くなった保存データを削除し始めています。チャタム氏は、この戦略はうまく機能していると述べています。「サービスの成長に伴い、データを迅速に破棄する必要があります」と彼は言います。
州規制当局への開示情報によると、ウェイモは昨年9月から11月までの間にカリフォルニア州で有料乗客を2万3000マイル以上輸送した。これは、わずか6か月前の同じ期間の約1万3000マイルから増加している。
データ上限の設定には、自動運転車メーカーの優先順位が考慮されるケースもある。ある程度の交渉は認められているものの、チャタム氏のチームは、車両周辺の状況を認識するAIの開発(認識)や、計画されているソフトウェアアップデートを過去の走行データと比較するテスト(評価)など、異なるタスクに取り組むエンジニアグループに四半期ごとにストレージ容量を割り当てている。各チームは、例えば緊急車両の行動に関するデータなど、保存する価値のあるデータを決定し、自動システムによってそれ以外のデータは除外される。「それがビジネス上の判断になります」とチャタム氏は言う。「雪のデータと雨のデータのどちらがビジネスにとって重要でしょうか?」
今のところ、雪が優勢だ。ウェイモはこれまで雪の中での走行データしか持っていないからだ。「あらゆるデータを取っています」とチャタム氏は言う。雨はそれほど興味深いものではなくなった。「雨のデータは精度が上がったので、無限に活用する必要はありません」。データ節約は、時に創造性や貴重な発見につながると彼は言う。ウェイモはある時点で、雨のデータに駐車中に車両が収集したセンサーデータがすべて不必要に含まれていることに気づいた。
自動運転プロジェクト全体を通して、より混雑した、より混雑した時間帯のデータが最も保存される可能性が高い。「道路上の障害物やサーフボードを持った自転車など、珍しい物体や通常とは異なる状況」と、ヒュンダイと自動車部品サプライヤーのアプティブとの合弁会社である自動運転技術メーカー、モーショナルの自動運転担当副社長、バラジー・カンナン氏は語る。
急成長を遂げているクルーズは、サンフランシスコでの運転から得られるデータのうち、チームが有用と考える情報が含まれているのは1%未満だと述べているため、現在もすべてのデータを保存しているわけではない。同社の自動運転車「シボレー・ボルト」は、昨年秋にサンフランシスコ市内で有料乗客を乗せて13,000マイル以上を走行したが、夏のサービス開始時には3,400マイルだった。導入拡大に伴い、クルーズはデータストレージシステムの改善に取り組んでおり、サービスの拡大をより容易かつ低コストで実現しようとしているが、広報担当のレイチェル・ホルム氏は詳細を明らかにしていない。
削除だけが解決策ではありません。AWSでは1ギガバイトあたり月額わずか0.1セントでデータを「コールド」ストレージに移動することでコストを削減できますが、アクセス速度が遅いため、有用性は限定されます。
テキサス州の高速道路で無人トラックの試験運用を行っているオーロラは、州内の試験運用顧客向けに週約50台のトラックを運転することで生成されるテラバイト単位のデータを自動システムで仕分けしています。エンジニアは、危険な道路の破片や攻撃的な運転手に関する最近の事故など、重要なデータにフラグを付け、通常のストレージに保存されるようにします。保護されていないデータや未使用のデータは自動的に「デスウォッチ」状態となり、毎月、よりコールドなストレージへと移動していきます。3ヶ月後には、かなりの量のデータが削除され始めます。保存されるのは、生データから計算された測定値のみです。
「まるで爪を切るようなものです」と、Auroraのインフラを運用するティム・ケルトン氏は語る。「毎週やらなければなりません。決して無視できるものではありません。」同社はまた、技術が順調に動作しているセッションや、古いセンサーで動作しているセッションのデータは破棄する。そこから学ぶべきことが少ないからだ。全体として、Auroraのデータの約15%だけが、最もアクセスしやすいストレージ層に保存されている。
まだ誰もが限界に達しているわけではない。別の無人トラック輸送会社であるTuSimpleは、2015年の創業以来、数万台に及ぶ運行ルートから収集したすべてのデータを収集、圧縮、カタログ化し、保管してきた。しかし、2021年12月に初の無人ルートを実施した同社は、50ペタバイトの容量を常に監視しており、4年後にはほとんどのデータをコールドストレージに移行すると、同社のオペレーション担当副社長であるロバート・ロッシ氏は述べている。
圧縮ファイルから貴重なデータを抽出できるAIソフトウェアは、最終的には企業がデータバンクを壊すことなくより多くのログを保存するのに役立つ可能性があると、自動車メーカーと協力してデータの保存と転送を削減してきたデラウェア大学のコンピューター科学者、ウェイソン・シー氏は言う。
しかし、ウェイモやその競合他社が最終的に大規模な車両群を擁する大規模な展開を実現すれば、より多くのデータを廃棄しなければならなくなるだろうと彼は指摘する。「量産段階に入ると、コストが大きな問題になります」とシー氏は言う。「まだストレージ容量が切実に必要という段階には達していませんが、その日が間もなく来るでしょう。」
受信箱に届く:ウィル・ナイトのAIラボがAIの進歩を探る

パレシュ・デイヴはWIREDのシニアライターで、大手テック企業の内部事情を取材しています。アプリやガジェットの開発方法やその影響について執筆するとともに、過小評価され、恵まれない人々の声を届けています。以前はロイター通信とロサンゼルス・タイムズの記者を務め、…続きを読む