WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。
聴覚障害のある方にとって、会話を聞き取るのは容易ではありません。でも、メガネをかけるだけで字幕がリアルタイムで表示されたらどうでしょう?それが、新しくリリースされたアプリ「XRAI Glass」の大きな魅力です。XRAI Glassは、Nreal Air(別会社から別売り)という拡張現実メガネと連携し、会話に字幕を表示します。
XRAI(エックスレイと発音)という名称は、XR(複合現実)とAI(人工知能)を意味していると、同社の最高マーケティング責任者であるミッチェル・フェルドマン氏は語る。私はデモのためにチームと会った。このメガネを動作させるにはスマートフォンに接続する必要があり、XRAI Glassアプリ(現在はAndroidのみ)も必要となる。
メガネをかけると、視界の中央に文字が浮かび上がります。フェルドマン氏が話を続けると、すぐに彼の話のかなり正確な書き起こしを読んでいることが分かります。最初は、まるでスターウォーズの冒頭でフェードアウトする直前に流れるテキストのように途切れ途切れに聞こえますが、メガネを少し調整すると、私たちの会話がはっきりと聞こえるようになり、しばらく会話を続けました。文字が表示されるまでに少し遅延があります。私が話し始めると、それぞれの文が話者に帰属するまでにさらに長い遅延があります。この話者帰属はダイアリゼーションと呼ばれ、クラウド内で行われます。

XRAI(サイモン・ヒル経由)
XRAIはリアルタイムで文字起こしするだけでなく、各会話を検索可能なトランスクリプトとして保存します。フェルドマン氏は、自身の自己紹介を長々と行った後、XRAIに「ミッチェルについて教えてください」と話しかけると、彼の会話を再生するという方法で、これを実演してくれました。各トランスクリプトはスマートフォンでも閲覧可能です。音声は暗号化され、クラウドにアップロードされて処理された後、すぐに削除されます。XRAIのスタッフはそれを見ることができません。ユーザーはトランスクリプトを受け取るだけです。「たとえアクセスしたくてもアクセスできません」と、XRAIの最高経営責任者(CEO)であるダン・スカーフ氏は言います。「私たちは意図的にデータの流れから外れた設計をしています。」デバイス上でのみ使用することもできますが、その場合、精度は低下します。
記事内のリンクから商品やサービスを購入された場合、手数料が発生する場合があります。これは私たちのジャーナリズムを支えるものです。詳細はこちらをご覧ください。
もう一度言う
個人差や病歴によって大きく異なりますが、人工内耳や補聴器を使用していても、音声を解読するには集中力が必要です。音や単語の中には非常に似ているものもあり、区別するのが非常に困難です。読唇術に頼っている人にとって、すべての単語を聞き取ることは不可能です。米国疾病対策センター(CDC)によると、話者の唇で確認できる英語の音は約40%に過ぎず、しかもこれは理想的な状況下での話です。
視界内で音声が文字起こしされるという可能性は、非常に期待が持てます。聴覚障害の程度は様々で、その結果社会的孤立に悩まされている人々が、会話をよりスムーズに聞き取れるようになるでしょう。XRAIアプリはテレビ視聴時にも使用できるため、字幕が必ずしも良くないライブコンテンツ(または映画館で字幕がない)でも便利です。

写真:XRAI
しかし、いくつか大きな注意点があります。XRAIアプリはAndroidスマートフォンで動作し、USB-C経由で379ドルのNreal Air拡張現実メガネに接続する必要があります。そう、頭からポケットまでワイヤーが体中を這うことになります。費用の高さに加え、人工内耳や補聴器を装着している場合、メガネをかけるのが不快になることがあります。Nreal Airは拡張現実メガネとしては比較的軽量ですが、それでも通常のメガネと比べると分厚く重いです。一日中装着するのは想像できません。
もう一つの危険信号?聴覚障害のある人がこのような字幕を必要とする主な理由の一つは、カフェのような騒がしい環境や、クロストークが多いグループ会話などですが、フェルドマン氏はデモのために静かな場所に行くことを強く勧め、XRAI Glassは背景の騒音や複数の人が話している環境ではうまく機能しないことを認めています。
それからコストの問題もあります。Nrealのグラスのことではありません。XRAI GlassのEssentialsプランは無料で、無制限の文字起こしと1日間の会話履歴が提供されます。しかし、10時間分の発言者属性表示、30日間の会話履歴、字幕のピン留め、ユーザーインターフェースのカスタマイズ機能などを利用するには、Premiumプランにアップグレードする必要があります。Premiumプランは1ヶ月間無料で、その後は月額20ドルになります。無制限の発言者属性表示、無制限の会話履歴、そして「パーソナルAIアシスタント」機能を利用するには、月額50ドルのUltimateプランにアップグレードする必要があります。これはかなり高額です。
初期の頃
現実世界で字幕を使うというアイデアは、以前からありました。Googleは数年前にウェアラブル字幕に関する研究成果を発表し、最新の開発者イベントI/Oでは、ARグラスによるリアルタイム翻訳の可能性を示唆しました。同社の動画では、ARグラスがリアルタイムで言語を翻訳し、聴覚障害者向けに字幕を表示する様子が紹介されています。Googleによると、この技術はまだ本格的な利用には至っておらず、視界に投影されたテキストを読む人にとって快適な体験を実現するには課題があるとのこと。
短いデモを見た限りでは、XRAI Glass はこれらの問題を解決していないようです。分厚くて高価なメガネをかけながら、字幕が視界の中央に浮かんでいるのは理想的とは言えません。(字幕を3D空間に固定するには有料サブスクリプションが必要ですが、私は実際に試していません。)

写真:XRAI
文字起こしの精度にも疑問符が付きます。デモの最初の部分では、フェルドマン氏はBluetoothマイクを使用しており、文字起こしはほぼ完璧でした。しかし、スマートフォンのマイクに切り替えると、精度が大幅に低下しました。私はGoogle Pixel 6 Proのレコーダーアプリを使ってインタビューを録音していましたが、こちらの方が若干精度が高かったです。(XRAIはAmazon Transcribeなどのサービスを利用しています。)
私のデモは、アプリのもう一つの機能である言語翻訳で終わりました。フェルドマン氏の英語でのスピーチは画面上で中国語に翻訳されましたが、正確さは保証できません。このオプションは有料プラン限定で、便利ではあるものの、後付けのように感じられます。
新製品としては洗練されていないのは当然であり、スカーフ氏とフェルドマン氏は両者とも、XRAIはまだ初期段階であり、今後改善されていくと繰り返し指摘しました。批判するつもりはありません。企業がこのようなアクセシビリティ技術に取り組んでいるのは喜ばしいことです。この技術は、様々な程度の難聴を持つ人々にとって変革をもたらす可能性を秘めています。しかし、XRAI GlassにはNreal Airグラスよりも優れた配信システムが必要だと感じずにはいられません。
もし大衆向けに手頃な価格で軽量な拡張現実(AR)または複合現実(MR)グラスがあれば、このようなアプリはもっと簡単に売れるでしょう。フェルドマン氏によると、そうなったらアプリを移植する予定だそうです。しかし、現状では制約が多すぎて、凡庸なARグラスとサブスクリプションに何百ドルも費やすのはお勧めできません。
ご興味があれば、AndroidスマートフォンでXRAI Glassの無料版をお試しください。スマートフォンで音声を文字起こししたり、画面にキャストしたりできます。また、スマートフォンで字幕や文字起こしを取得する様々な方法については、こちらのガイドでご紹介しています。
Gear読者の皆様への特別オファー: WIREDの1年間購読を5ドル(25ドル割引)で。WIRED.comと印刷版雑誌(ご希望の場合)への無制限アクセスが含まれます。購読料は、私たちの日々の活動を支える資金となります。