Grubhubが4,000品目の料理を分析し、次の注文を予測する方法

Grubhubが4,000品目の料理を分析し、次の注文を予測する方法

オンライン食品配達サービスは、推奨エンジンを作成するために、非構造化データの古典的な問題を解決するのに 8 年を費やしました。

画像には紙が含まれている可能性があります

ジョナサン・キッチン/ゲッティイメージズ

マット・マロニーが知りたかったのは、シカゴスタイルのディープディッシュピザがニューヨークスタイルの薄焼きピザより美味しいかどうか、ということだった。単純な疑問だ。

マロニーが他の誰かだったら、かなり突飛な逸話を繰り出さなければならなかっただろう。ディープディッシュは美味しいが、ピザというよりはキャセロールに近い。逆に、クラッカーにピザのトッピングを乗せたいなら、フラットブレッドを注文すればいいじゃないか。(マロニーはシカゴ出身なので、どちら派かは想像がつくだろう。)

しかし、そうではない。マロニーは、この質問に文字通り答えられるはずだと考えたのだ。というのも、彼は料理に造詣が深いだけでなく、アメリカ最大のオンラインフードデリバリーサービス「Grubhub」のCEOでもあるからだ。「私が日々こなす取引量を考えれば、どちらが優れているか、客観的に判断できるはずです」とマロニーは言う。

「人気」が「良い」かどうかで議論するのはやめましょう。マロニー氏の言うことは、概ね正しいと言えるでしょう。1450万人のアクティブユーザーが8万軒ものレストランから注文しているGrubhubのデータは、食について多くのことを教えてくれるはずです。マロニー氏は、地域や都市ごとに誰が何を注文しているかをセグメント化し、定量化し、比較したいと考えていました。アルゴリズムで料理をおすすめし、レストランが料理の選択肢を最適化できるようにし、より洗練されたサービスで新規顧客を獲得し、そして率直に言って、全国の顧客が少なくとも週に一度はどこかで注文するニューヨーク市民のような行動をとるように仕向けたいと考えていたのです。

現在、Grubhubは、国内のテイクアウト注文を網羅し、ユーザーに最寄りのインド料理店で最も人気のチキンティッカマサラを提供している店を教えてくれるアルゴリズムを実際に備えています。しかし、これを実現するには、一見不可能に思えるデータ問題の解決、高度な機械学習、そしてブルックリン出身の料理本の著者の協力が必要でした。

パッタイを比較する

問題はデータだった。注文ではなく、誰が何をどこから注文したかだ。それは簡単だ。問題はメニューだった。どの店の料理も一致せず、それぞれが独特だった。あるレストランのピラフが、別のレストランではビリヤニになることもある。日本のカレーはインドのカレーでもパキスタンのカレーでもない。彼らは8年間、この課題に取り組んだ。「製品グループと技術グループは毎回、『マット、これは難しすぎる。結局、あなたが望むものを実現するには手動で解決するしかなく、他に優先すべきことが10もある』と言っていました」とマロニーは言う。

彼の返答はこうだった。「おいおい、俺たちは数十億ドル規模の企業なのに、こんなクソみたいな料理の本質的な価値を国民に伝えられないのか?全国のパッタイを比較することすらできないのか?」

「だから私は彼らにそうさせたのです」とマロニーは言う。

グラブハブが数十億ドル規模の企業と言えるのは、売上高ではなく食品の取扱量においてのみだが、それでもなおマロニー氏が求めていたのは難題だった。レストランのメニューは構造化されておらず、独自の性質を持っているからだ。マイクロソフトリサーチの社会科学者ダンカン・ワッツ氏は、統計分析用にデータを生成するための手法がなければ、「発見された」データを使うことになり、それは常に乱雑だと指摘する。「データサイエンスの世界では、作業の90%はデータ自体のクリーニングと整理だという格言があります」とワッツ氏は言う。「これは、メールデータ、ブラウザデータ、Twitterデータ、ニュースメディアデータ、そしてクリーンであるはずの行政データにも当てはまります。」

いつものことだが、システム全体は人間が介在しなければずっとシンプルになるだろう。例えば、大規模なストリーミング・エンターテイメント・サービス向けのレコメンデーション・エンジンを構築しようとしているとしよう。ほとんどの人は同じ映画を何度も見るわけではない。だから、彼らの行動にはばらつきがある。夕食の注文に関しては、これは当てはまらないかもしれない。「探検家タイプと、『ここが私のお気に入りのレストランだから、他に行く必要はない』と言うタイプがいるという論文をいくつか読んだことがあります」と、ジョージア工科大学で分析科学修士課程のディレクターを務めるジョエル・ソコル氏は言う。つまり、どんなに完璧なレコメンデーションでも、彼らは新しいレコメンデーションを望まないかもしれないのだ。「これは実際にはデータの問題というよりも、ビジネスの問題です」とソコル氏は言う。

eコマースのほとんどの商品には、在庫を数値で管理する、いわゆるSKU(在庫管理単位)と呼ばれる合意済みのメタデータが付与されています。その結果、「すべての商品が同じように見えるため、購入、ナビゲーション、発見、パーソナライズ、そしておすすめは比較的容易です」と、GrubhubのCTOであるマリア・ベロウソバ氏は述べています。「食品に関しては全く逆です。Grubhubも他の企業も、タイトルと値札が付いた何段落ものテキストをやり取りしていました。」

あるシェフが料理名に地域特有の非標準的な綴りを使ったため、そのメニューは標準的な綴りを使った他の料理と互換性がなくなってしまいました。材料を省くと、突然別の料理になってしまいます。ベロウソバ氏によると、こうした違いを調整する方法としては「協調フィルタリング、つまりこれを好む人はあれも好きというように」することがよくあるそうです。しかし、近所のレストランのような超地域密着型のビジネスでは、協調フィルタリングはうまく機能しないそうです。協力できる人材が不足しており、フィルタリングできる選択肢も不足しているのです。選択肢と選ぶ人の宇宙が狭すぎるのです。

データサイエンティストの用語で言えば、食品は構造化されていない領域です。Grubhubには1400万ものメニューがありましたが、それらに共通していたのは、人々が時々それを食べるということだけでした。そこで、ベルーソヴァ氏のチームは独自の食品分類法の構築に着手しました。

彼らは、独立しつつも重複する3つのデータセットがあることに気づきました。まず、メニューがありました。メニューには、各レストランがそれぞれの料理に用いる独自のスノーフレーク言語が満載ですが、共通点もいくつかありました。幸いなことに、レストランはメニューをGrubhubに提供し、Grubhubがウェブサイト用に翻訳しているため、料理を作る人々は多くの情報を提供するインセンティブがあります。

第二に、Grubhubにはユーザーの検索ログとレビューがありました。これらから、人々が何を検索し、最終的に何を注文したかが分かります。また、Grubhubは実際に食事を注文した人にのみレビュー権限を与えているため、データの提供対象を実際に知識のある顧客に限定することができました。これは、人々が実際に購入した商品について語るプラットフォームでのみ機能します。例えばYelpのようなプラットフォームでは、投稿内容が自由奔放になり、あまり役に立たない可能性があります。

そして3つ目に、顧客の注文履歴と、お​​そらくもっと重要なのは、各メニュー項目の注文数です。この構成では、1項目あたりの注文数が多いということは、そのメニューが高品質、あるいは少なくとも人気があることを意味します。もちろん、これらは必ずしも同じではありません。しかし、どちらかがもう一方の代理指標となる可能性があります。

技術チームは、そのすべてのデータを取り込んでメニューが実際に何を言っているのか理解できるアルゴリズムを構築しました。ほぼ。なぜなら、その「本質」を定義する必要があったからです。つまり、ベーグルとは一体何なのか? ゆでた生地を丸く焼いて穴の開いたパンにクリームチーズとスモークサーモンを添えたものを、メニューがベーグルと呼んでいなかったら? それでもベーグルですよね?

これは命名法の問題であり、アルゴリズムはアドボからザアタールまで、基本的な料理が何であるかだけでなく、その特徴、つまり辛いかマイルドか、ベジタリアンか、どの文化圏に由来するかといった料理に関するメタデータも学習するはずだった。Grubhubのデータチームは、メニューから重要な用語を抽出し、それを検索語と重ね合わせ、それらが注文につながるかどうかを学習した。「クラウド上に料理のグラフを描き、それらが互いにつながっているイメージを描いていました」とベロウソワは言う。「シェフ、客の語彙、そして注文の語彙が必要です。これら3つのデータセットを重ね合わせることで、それらの関係性が得られます。」これは非常に革新的なフィードバックループであり、特許も申請された。

でも、そうですね、それはうまくいきませんでした。

料理本の著者がデータ料理人に

それは完全に公平とは言えません。「優れたアルゴリズムがあれば、すべてのメニューの35~40%をカバーできるかもしれません」とマロニー氏は言います。「しかし、コーナーケースはすべて独特でした。」

グラブハブは助けを求めました。その助けとなったのは、料理学校を卒業し、ブルックリンの食に関する2冊の著書を持つメリッサ・シュライバーでした。「私が入社したとき、プラットフォーム上のすべてのメニュー項目の分類表を渡されましたが、検索に適したカテゴリーに整理されていませんでした」とシュライバーは言います。「私は基本的に、データから得られた情報を微調整しました。」

シュライバーはデータチームのために料理辞典を作成し、多くの料理の材料を分類しました。これは料理名、歴史、そして時には地理的な関係を示す地図を含む社内文書でした。彼女は、料理名が分かりにくい料理についてデータサイエンティストに説明するための資料も作成しました。「この分類法は明らかにデータに基づいており、人間的なタッチ、つまりデータよりも料理を深く理解している人の繊細な感覚が必要でした」とシュライバーは言います。

彼女はチームが料理と料理の関連性を理解できるようサポートし、例えば日本のカレーライスとインドカレーの境界線を引いたり、タコスとブリトーの見分け方を教えてくれました。「サンフランシスコにスシリットはありますか?」とシュライバーは私に尋ねました。「何週間も話し合いました。寿司?ブリトー?行くたびに写真を撮って送ってくるんです。」

これらすべてが、検索をより合理的なものにするためにフィードバックされました。魚を探しているなら、ドーバーソールとちらしのどちらがお好みでしょうか?中華料理を注文するときは、まずタンパク質を思い浮かべるかもしれませんが、メキシコ料理ならトルタとコンビナシオンのどちらを思い浮かべるでしょうか?データチームはシュライバーの編集内容を取り入れ、検索と推奨のアルゴリズムに組み込みました。

最高のバインミーを見つける

その結果、約4,000種類の料理の分類体系が完成しました。メニューデータベース内のすべての品目は、複数のカテゴリーとサブカテゴリーに分類されています。データサイエンティストが求めるほど高度なものではありませんが、前菜とメイン、ヘルシーとピザといった、全く異なる概念を細分化できます。

「私たちのシステムは嗜好のベクトルです」と、ベロウソワ氏はやや謎めいた口調で言う。「それぞれのメニュー項目が何なのか、そしてそれぞれのお客様が何を好むのかがわかったので、それらを結びつけることができるのです。」

Grubhubで頻繁に注文すれば、システムがあなたの好みのプロフィールを作成し、そのプロフィールに合う近くのレストランをメールや通知で提案してくれます。たくさんの店から同じ料理を注文すれば、その料理を多くの人がどこで注文しているかを教えてくれます。「あなたの家から1マイル以内に住む1,000人が特定のバインミーサンドイッチを30回注文しているのがわかれば、それは素晴らしいサンドイッチであるという良い指標になります」とマロニー氏は言います。「あなたが6つのレストランで6種類のチキンビンダルーを食べ、再注文がなかったとわかれば、あなたが何を探しているかがわかります。また、他の人のデータから、最も人気のあるチキンビンダルーが何であるかも知っています。私は間違いなく、それをあなたのために最優先で提示します。」

公平を期すために言うと、多くのオンラインフードデリバリー事業者は自社のデータを活用し、何らかの予測的推奨アルゴリズムを採用しています。そして、それは常に課題を伴います。「ピザレストランのような店もあります。ピザしか提供しておらず、『マリナーラ』や『マルゲリータ』といったサブカテゴリはありません」と、Postmatesのデータ責任者であるエヌ・ヘルツバーグ氏は言います。「そして、地球上のあらゆる食品のサブカテゴリを持つチーズケーキファクトリーのような店もあります。」つまり、Postmatesは協調フィルタリングを採用しているのです。つまり、あなたが好きなものを他の人も好んでいれば、あなたも他の人が好きなものを好む可能性が高いということです。

Postmates はメニューも取り込み、一部のデータを自ら構造化し、自然言語処理などの手法を使ってデータ サイエンティストが好む「カテゴリ」と「商品」などの区別を行っている。「ユーザーが「ハンバーガー」という単語を入力すると、動的に店舗名を検索し、メニューをスキャンします」と Herzberg 氏は言う。「よりクリーンなデータセットを常に願っていますが、われわれは実際的でもあります」。また、Postmates はタイミングについても学習している。つまり、午後の特定の時間にユーザーが一般的に何を注文するか、あるいは週の初めのランチ (サラダ) と終わり (揚げ物) ではどのようなものを注文するかを学習しているのだ。これはユーザーへのおすすめ作成に役立ち、配達員をいつどこに送るべきかを最適化するのにも役立つ。

もう一つの大手企業であるDoorDashも、同様の最適化にデータを活用しています。ユーザーだけでなく、同社が「ダッシャー」と呼ぶ配達員のためにも活用しています。「お客様が希望する時間に料理を受け取れるようにしたい。そして、販売者から最高の品質の料理を受け取りたいのです」と、DoorDashの製品担当副社長ラジャット・シュロフは言います。「そして、ダッシャーが待ち時間を無駄にしないようにしたいのです」。そのため、同社のアルゴリズムは、ダッシャーの位置、配達先、レストランの配達速度に基づいて負荷分散を行います。「待ち時間ゼロ。それが予測アルゴリズムが目指していることです」とシュロフは言います。

だからこそ、マロニー氏にとって、職人技が光るメニューデータベースを構築する価値があったのだ。誰もが協調フィルターを使っておすすめ情報を提供している。彼はGrubhubに、より多くの情報を提供してほしいと考えている。同社はYelpやFoursquareとデータ共有契約を締結し、KFC、ピザハット、タコベルを所有する企業と提携した。さらに、Yelpのデリバリーディレクトリ「Eat24」などの競合企業を買収し、掲載レストラン数を8万軒に増やしている。これは大きな動きだ。

しかし、この業界の競争はますます激化する一方です。マッキンゼーのレポートによると、2016年にはフードデリバリーの注文の30%がオンラインでしたが、2020年までにこの数字は65%に増加すると予想されています。モルガン・スタンレーは、オンラインデリバリーは2020年に2,200億ドル規模の市場に成長し、レストラン全体の売上高の40%を占める可能性があると予測しています。しかしマッキンゼーは、実際に配達を行うレストランと顧客を結びつけるグラブハブは、自社車両と物流を提供する「新興デリバリー会社」との競争が激化すると指摘しています。これらの会社は、自社で配達業務を担うことなく顧客にアプローチしたい高級レストランへのアクセス手段を得ています。ウォール・ストリート・ジャーナルは、ドアダッシュが北米1,600都市への事業拡大のための資金を調達したと報じています。

そして、この手の話題ではいつものことですが、Amazonの存在があります。GrubhubのようなAmazon Restaurantsと、Amazon傘下のWhole Foods Foodsからの配達を組み合わせた物流の巧妙な手法は、ビジネス全体を覆す可能性があります。

だからこそ、マロニー氏がデータチームにレコメンデーションと検索機能の導入を指示するのは、大きな意味があった。マッキンゼーのレポートによると、人々は一度どのオンラインデリバリープラットフォームを利用するかを決めると、80%の人がそれを使い続けるという。「パーソナライゼーションを強化し、お客様が何を食べる可能性が高いかをより正確に予測するためにできることは何でも、コンバージョン率、頻度、そして私のプラットフォームへの親近感を高めるでしょう」とマロニー氏は語る。

そして、これはマロニーの最初のピザの質問に問題があることを示唆しています。このデータは人々が何を最もよく注文しているかを教えてくれます。しかし、それでも客観的に見てどの種類のピザが一番おいしいかは教えられません。ですから私が言えるのは、グラブハブによればシカゴの人々は米国の他のどの地域よりもディープ ディッシュ ピザを 722 パーセント多く注文しているということです。データは嘘をつきませんが、これはおそらく皆さんも想像できたでしょう。米国の他の地域ではディープ ディッシュ ピザを避けているという事実。これはデータ サイエンティストが「示唆的」と呼ぶものです。ピザ サイエンティスト、特にピザ​​にエビも好きな人ならこう言うでしょう。相関関係は甲殻類のものではありません。

持ち運び可能なデータ

  • ロボットによる食品配達がすぐに実現するとは期待しないでください。
  • 休日になると配達はさらに厄介な問題になります。
  • Yelp が食品配達事業に参入したことを覚えていますか?

アダム・ロジャースは科学とその他オタク的な話題について執筆しています。WIREDに加わる前は、MITのナイト科学ジャーナリズムフェローであり、Newsweekの記者でもありました。ニューヨーク・タイムズの科学ベストセラー『Proof: The Science of Booze』の著者でもあります。…続きを読む

続きを読む