世界に字幕をつける文字起こしメガネ

世界に字幕をつける文字起こしメガネ

会話中に他の人が社会的にぎこちない人だと教えてくれたとき、このスマートグラスの AI が非常にうまく機能していることがわかりました。

TranscribeGlassは、まさにその名の通り、会話を文字に起こし、目の前のグラスに字幕を投影するスマートグラスです。聴覚障害者、特に唇の動きを読んだり、騒がしい部屋で会話を聞き取ったりするのが難しい難聴者を対象としています。

顔認識コンピューターは大抵、見た目が悪くて重いものですが、このグラスはわずか36グラムと軽量です。TranscribeGlassは、主要なコンピューティング機能のほとんどを専用アプリ(現時点ではiOSのみ)に集約することで、その軽さを実現しています。フレームにはカメラ、マイク、スピーカーは搭載されておらず、片目の縁に小型の導波管プロジェクターが取り付けられており、グラスに640×480pの画像を投影します。これは、スマートフォンのマイクで拾った会話に字幕を付け、視界に直接投影されたテキストを判読できる程度の解像度です。

アプリでは、字幕を装着者の視界内で30度の視野内であればどこにでも移動できます。設定で一度に表示するテキストの行数を調整でき、テキストを壁のように長く表示したり、単語単位で表示したりすることも可能です。メガネ本体のバッテリーは約8時間持続します。フレームは約377ドルで、文字起こしサービスを利用するには月額20ドルのサブスクリプション料金がかかります。

現在、グラスには字幕機能が搭載されていますが、TranscribeGlassの創業者マダブ・ラヴァカレ氏(24歳)は、他にも機能を追加する予定です。テスト段階では、リアルタイムで言語を翻訳する機能と、話している人の声のトーンを分析する機能が搭載されています。

ガラスは却下された

ラヴァカレ氏が私に(そして4月のニューヨーカー誌で)語ったように、彼は難聴の友人が、彼のニーズを考慮していない会話に参加できるようにしたいと思ったことが、この製品のアイデアを思いついたきっかけだった。イェール大学の4年生であるラヴァカレ氏は、メガネが最適だと考えた。うまく作れれば、と。そして、もちろん、他のメガネよりもかっこよく見えるようにすれば。

「Google Glass が発売されたとき、私はかなり夢中になりました」とラヴァカレ氏は語る。

「ああ」と私は言った。「つまり、あなたはグラスホールだったのね?」

「そうだったよ、そうだったよ!」と彼は笑いながら言った。「それで、どうしてみんな僕をそう呼ぶんだろうって思ったんだ」

話している間、私がかけているメガネの画面に言葉がポップアップ表示される。マトリックスみたいな緑のフォントで、視界にパタパタと現れる。会話の文字起こしは結構しっかりしているが、「Glasshole」という単語が「Glass Hole」に分割されていて、正直言ってこっちの方が面白い。

Lavakareのスマートグラスは、Google Glassと比べるとかなり普通のメガネに近いものの、それでもスマートグラスにしか見えません。導波管が配置されている部分の画面はわずかにキラキラと輝いており、周りの人にも見える程度で、装着している私にははっきりと分かります。

こうした些細な不満を除けば、サービス自体は不気味なほどうまく機能している。サンフランシスコの賑やかなコワーキングスペースで、周囲で多くの会話が交わされていたが、私がこのメガネをかけていると、ラヴァカレ氏とTranscribeのCTOであるニルベイ・ナラン氏が話しかけてくれた。書き起こしのほとんどは文法的に正しく、誰が話しているのかがわかるように話者ごとに異なるタイトルが付けられていた。実際、すべてが非常に高速かつ非常にうまく機能するため、会話が進むにつれて単語が次々に飛び出し、新しい行がほぼ同時に表示されたため、読み取るのに苦労するほどだった。書き起こしは時々少し粗く、その瞬間に集中するのが難しいこともある。それでも、少し練習すれば、これが難聴の人々にとって非常に役立つであろうことは容易に想像できる。

TranscribeGlassには競合がいくつかある。Even RealitiesやXRAIといった企業は、より派手なデザインで、ターンバイターン方式のナビゲーションやチャットボットとのやり取りといった機能豊富なメガネを製造している。しかし、ラヴァカレ氏は、機能が限定されているからこそ、このメガネが特別なのだと言う。

「スマートグラスは数多く存在しますが、その優れた活用事例はまだ見つかっていません」とラヴァカレ氏は語る。「私たちは、エンドユーザーにとって非常に価値のある活用事例を見つけたと考えています。」

ラヴァカレ氏によると、このメガネは音楽を再生したりAIを使って質問に答えたりすることはできないが、人々に着用してもらうために必要なことはただ一つ、周囲で何が話されているかを理解させることだけだ。ラヴァカレ氏は、周囲で交わされている会話を聞き逃す感覚を、一種の社会的孤立に例えている。

とはいえ、彼はこのメガネに他の会話機能も搭載し、会話の裏にある意味をより深く理解できるようにしたいと考えています。今後予定されている機能の一つは、言語翻訳です。

翻訳機能をテストするために、ナランと短い会話をしました。彼はヒンディー語で話し、私は英語で話しかけました。私のメガネの画面には、彼が話している内容がすべて英語に翻訳されて表示されていました。私が英語で返事をすると、彼のスマホアプリにヒンディー語のテキストが表示されました。このサービスは、一部の単語が誤訳されているものの、十分に機能しているようです。そのため、この機能はTranscribeGlassの顧客数百人にはまだ提供されていません。

画像にはアクセサリーやメガネが含まれている可能性があります

画像提供:TRANSCRIBE

今後さらに多くの機能が登場

他にも開発中の機能があります。ラヴァカレ氏は、音声言語を、アメリカ手話などの視覚言語の構文に近いものに翻訳するオプションをユーザーに提供したいと考えています。アメリカ手話は、英語の音声言語とは名詞、動詞、時制の順序が異なる傾向があります。ほとんどの聴覚障害者は既に英語を問題なく読むことができるにもかかわらず、AIによる翻訳を信頼すると、不正確な表現や誤解が生じる可能性があります。ラヴァカレ氏はこうした誤りの可能性を認識しており、アメリカろう学校の聴覚障害者教育者と協議して、誤りを正すよう努めていると述べています。

「手話の文法は実は英語の文法とはかなり違います」とラヴァカレ氏は言う。「だからこそ、これはまだ実験段階なのです。」

彼はさらに疑わしい機能もテストしている。それは、声のトーンだけで話者の感情を認識する機能だ。感情追跡はAI分野において難しいテーマだが、スマートグラスに搭載せずにはいられないようだ。TranscribeGlassは会話中の感情を記録する機能はまだリリースしていないが、チームは近いうちにリリースすることを目標にテストを進めている。人の話し方を検知することは、何を言っているかを知ることと同じくらい重要であることが多いため、会話理解を助ける機能として理にかなっていると言えるだろう。

Lavakare では、メガネをかけたまま機能をオンにしてテストさせてもらいました。

「これを見て」と彼は言った。それから「おい、ブーン、調子はどうだい?」

彼の言葉が画面にポップアップ表示され、私が答え始めると、彼の言葉に付随する感情を表す「気まずさ」というセリフタグが現れました。

「あら、そんなに気まずいの?」と笑って言うと、私の発言に[面白がって]というタグがポップアップ表示されました。すると、私の発言の横に私の名前が表示されました。これは、先ほどラヴァカレが言った時にプラットフォームが認識した名前です。私が話し終えるとすぐに、ダイアログタグは[気まずさ]に変わりました。

まあ。これは効くかもしれない。