Googleのビジュアル検索ツール「レンズ」がこれまでで最も大きなアップデートを実施

Googleのビジュアル検索ツール「レンズ」がこれまでで最も大きなアップデートを実施

Googleが昨年初めてGoogle Lensを発表した際、それは一種の逆検索だと説明されました。画像検索のためにテキストクエリを入力するのではなく、犬や植物などの対象物にスマートフォンのカメラを向けることで、テキストベースの情報を見つけることができるのです。Lensは、カメラを入力デバイスとして捉えるだけでなく、Googleらしいテクノロジーの表現でもありました。検索、コンピュータービジョン、AI、ARを組み合わせ、単一のエコシステムに限定されないアプリに統合したのです。

今年の開発者会議で、GoogleはGoogle Lensのこれまでで最も重要なアップデートを発表しました。これは、ショッピング、テキスト読み上げ、そして追加の言語サポートに重点を置いたものです。また、Lensをより便利にご利用いただけるよう、Googleは多くの端末パートナーと協力し、ネイティブカメラアプリ内でLensをオプションとして提供することを目指しています。

この画像には携帯電話、電子機器、携帯電話、電話、テキストが含まれている可能性があります

グーグル

5月末に展開されるこれらの新機能は、スマートフォンのカメラを「周囲の世界を見るためのビジュアルブラウザ」にするというGoogleの次なるステップを象徴するものだと、GoogleのAR、VR、視覚ベース製品担当副社長アパルナ・チェンナプラガダ氏は語る。「今では人々は、夕日や自撮りだけでなく、車を停めた駐車場、名刺、読書用の本など、あらゆるものを写真に撮るという、いわばマッスルメモリー(体感記憶)を身につけています」とチェンナプラガダ氏は言う。「これは大きな行動の変化です」

言い換えれば、Googleの未来像は依然として検索に関わるものだ。今では、スマートフォンを取り出してカメラを何かに向けるだけで済む。これはスマートフォンユーザーにとってもはや当たり前の行動となっている。しかし、Googleはビジュアル検索に取り組んでいるテクノロジー企業が自社だけではないことを認識しており、ユーザーがスマートフォンで既に使っている場所にGoogleレンズを組み込もうとしている。

以前のバージョンのLensは、GoogleアシスタントとGoogleフォトからアクセスできましたが、新バージョンは10種類以上のAndroidスマートフォンのカメラに直接搭載されます。これには、GoogleのPixelスマートフォン、Asus、Motorola、Xiaomi、OnePlusの端末、新型LG G7 ThinQなどが含まれます。G7 ThinQでは、Lensに物理ボタンも搭載され、ボタンを2回押すとLensカメラが自動的に起動します。これは、SamsungのフラッグシップスマートフォンでBixby専用ボタンが用意されているのと同じです。

新機能のデモでは、LG G7 ThingQで物理ボタンを使ったLensの起動が想定通りに動作しました。専用のLensボタンがないスマートフォンでは、ビデオ録画と同じように、Lensはカメラアプリのメインオプションの1つとして表示されます。

Lensのもう一つの新機能は、カメラアプリを開くとすぐに周囲の空間をスキャンし始めることです。「ユーザーが常に何に対して答えを求めているのか正確に把握しているわけではないことに気づきました」と、Googleの仮想現実・拡張現実担当副社長クレイ・ベイバー氏は言います。「そのため、Lensでは写真を撮って答えを得るのではなく、Lensリアルタイム機能を採用しています。スマートフォンをかざすと、Lensが周囲の状況をリアルタイムで認識し始めます。」このスキャン機能は、周囲の世界をマッピングする一連のARドットとして表示され、その後、準備完了の合図として仮想ボタンが表示されます。

ネイティブカメラアクセスとレンズリアルタイム機能はどちらも視覚検索の高速化に貢献しますが、後者はレンズが不要な情報も取得してしまうことを意味します。ある時、新しいレンズを靴に向けると、レストラン「Nopalito」の検索結果が表示されました。レストランのメニューは靴の下の棚に置かれており、私がカメラを向けた瞬間にレンズがそれを認識したからです。また、新しいレンズのもう一つの主要機能であるショッピングに関しては、100%の精度ではありませんでした。ある時、レンズは大きなグレーのセーターを象と認識しました。

しかし、私が見たアプリのバージョンはまだベータ版で、Googleによると、誤認識は月末のリリースまでに修正される予定とのことだ。そして、全体的に見て、ショッピングの結果は印象的だった。以前のバージョンのLensでは、対象物を単にセーター、枕、靴のいずれかと認識するだけだった。新しいLensには、Googleが「スタイルマッチ」と呼ぶ機能があり、3つのアイテムすべてに一致するものを見つけ、購入場所の選択肢を表示し、類似アイテムを推奨してくれた。デモ用に持参した枕がEtsy.com製であることさえ認識していた。Lensの最初のバージョンがペットと植物に関するものだったとすれば、このバージョンは服とインテリアに関するものになるかもしれない。

新しいGoogleレンズは、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語にも対応します。ちなみに、これは翻訳とは異なります。レンズはこれまでもGoogle翻訳がサポートする言語を翻訳できました。今回のアップデートは、これらの新しい言語のネイティブスピーカーであれば、その言語専用のレンズを利用できることを意味します。

もちろん、子犬の品種、レストランのメニュー、衣料品の在庫、外国語など、Googleはすでにあらゆる情報をインデックス化しています。では、なぜこれらすべてをGoogle Lens検索に取り込むのがそんなに難しいのでしょうか?チェンナプラガダ氏は、彼女が「非常に構造化されていない、ノイズの多い状況」と呼ぶ状況では、視覚的な対象物に即座に文脈を与えるのは非常に難しいと主張しています。

「私たちは画像認識アルゴリズムに常に視覚技術を使用してきましたが、それは非常に慎重な方法で行われてきました」と彼女は言います。

ベイバー氏は、世界に存在する物体の数が膨大であることも、視覚探索を独特の課題にしていると指摘する。「英語には約18万語ありますが、実際に使われるのはそのうち3,000~5,000語だけです。音声認識を行おうとすると、実際に認識する必要があるものはごくわずかです。世界には物体がどれだけあるか考えてみてください。明確な物体が数十億個もあり、それぞれ形や大きさが異なります」とベイバー氏は語る。「つまり、視覚による探索の問題は、テキストや音声でこれまで見てきたものよりもはるかに大きいのです。」

これは多くの企業が取り組んでいる問題です。Facebook、Amazon、Appleは、独自のビジュアル検索プラットフォームの構築や、写真コンテンツを分析するテクノロジー企業の買収を始めています。昨年2月には、Pinterestが独自のレンズツールをリリースしました。これにより、ユーザーはPinterestのカメラを使ってサイト内を検索できます。Pinterestレンズは、SamsungのBixby Visionにも搭載されています。小規模な競合も存在します。ARアプリプラットフォームのBlipparは、スマートフォンのカメラを通して花、人々の顔、有名なランドマークを認識できます。高校生でさえ「スマートレンズ」アプリを開発しています。

この画像には電子機器、電話、携帯電話、携帯電話、テキストが含まれている可能性があります

グーグル

画像には携帯電話、電子機器、携帯電話、電話、テキストが含まれている可能性があります

グーグル

しかし、Googleはオンライン検索を今や世界が知っている形で定義したため、期待値はさらに高いかもしれない。Googleはビジュアル検索でも同じことができるだろうか?さらに重要なのは、偏った、あるいは明らかに不快なビジュアルアルゴリズムを開発することなく、それを実現できるだろうか?私が見たセーターが象と誤認されたのは、無害な例だが、一見単純な物体が別のものと間違えられる可能性があることを示している。テキストベースのクエリの利点の一つは、明確な表現になりやすいことである。一方、物体や人物の認識は、アルゴリズムによる誤解が依然として多く生じやすい。

「レンズの開発において私たちが採用した主要なアプローチは、システムがエラーの発生原因を特定し、それらのエラーを軽減するための改善を組み込むことです」と、チェンナプラガダ氏は、Googleがビジュアル検索の精度向上のためにどのような取り組みを行っているかを尋ねた際、メールで回答した。「これは、検索やオートコンプリートで行ってきたことと似た考え方です」。彼女はさらに、レンズは「数年にわたる取り組み」の一環として複雑な問題を解決しており、世界中に存在する数十億もの物体を認識し理解するのは難しいと記した。

それでも、Googleの幹部たちがビジュアル検索に期待を寄せていることは明らかだ。その可能性だけでなく、今まさに実現できることにも。Lensのデモが行われた日、Googleのオフィスでベイバー氏はスマートフォンを取り出し、Lyftの車内で後ろから見つけたダットサン1500ロードスターの写真を見せてくれた。「この検索クエリをどう組み立てるか考えてみてください。『丸いヘッドライトと大きなグリル、そして曲線的なサイドラインの古い車で、コンバーチブルで、銀色の尖った部分がある』…一体どんな検索クエリを書くんだろう? それをLensで調べたら、ああ、ダットサン1500だった。これを見つけ出すような検索クエリは、文字通り何も書けなかったよ」とベイバー氏は言う。