WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。
ジェフ・ベゾスは2011年初頭、会議室のホワイトボードにAmazon Echoとなるデバイスの構想を初めて描きました。彼は、このデバイスを20ドルで、完全に音声操作できるものとしていました。その頭脳はクラウド上にあり、AmazonのWebサービスを活用し、ユーザーにハードウェアのアップグレードを要求することなく、Amazonが継続的に改良していくことを目指していました。
アレクサ(ベゾスが古代アレクサンドリア図書館にちなんで名付けることになる人工知能(AI)のバーチャルアシスタント)を搭載したデバイスの初のスケッチには、スピーカー、マイク、そしてミュートボタンが描かれていた。箱から出してすぐにはコマンドを理解できないため、スケッチではデバイスをワイヤレスネットワークに接続する設定作業が、更なる検討を要する課題であるとされていた。
当時ベゾスの技術顧問(TA)を務めていたグレッグ・ハートも会議に出席しており、熱心に耳を傾けていた。ベゾスは、このやや突飛な音声コンピューターという構想を実際の製品に仕上げるグループをハートに率いてほしいと申し出た。ハートはスマートフォンでその図面を写真に撮った。
「ジェフ、私にはハードウェアの経験が全くなく、私がこれまで率いた最大のソフトウェア チームでも 40 人程度でした」と彼は当時を振り返ります。
「大丈夫だよ」とベゾスは答えた。
ハート氏は信任投票に対して感謝し、「わかった。では、途中で失敗したときにこれを思い出してくれ」と言った。

ジェフ・ベゾス氏は2011年に初めてホワイトボードにAlexaデバイスのスケッチを描きました。
Amazon提供その後3年間、ベゾスはプロジェクトに深く関わり続けました。最初のEchoが発売される前に数億ドルの投資を承認し、製品に関する詳細な決定を下し、隔日のように頻繁にチームとミーティングを行いました。従業員たちは彼をドイツ語の最上級の「ウーバー・プロダクト・マネージャー」と呼んでいました。
しかし、この取り組みを指揮したのはハートだった。ベゾス氏のオフィスの真向かい、Kindleの開発チームが入居していた建物でのことだった。その後数ヶ月かけて、ハート氏は社内外から少人数のグループを雇用した。上司同様、彼も秘密主義に固執していた。採用候補者には「私のミッションに参加してください」という件名の漠然としたメールを送り、面接では「視覚障害者向けのKindleをどのように設計しますか?」といった質問をした。候補者がどのような製品に取り組むのかは明言を避けた。ある面接官は、噂のあったAmazonのスマートフォンだろうと推測し、ハート氏は「スマートフォンを開発している別のチームがあります。でも、こちらの方がずっと興味深いです」と答えたと回想している。
初期のAlexaチームは、熱狂的な緊急感を持って作業を進めていました。ベゾスは非現実的にも、6ヶ月から12ヶ月でデバイスをリリースしたいと考えていました。急ぐには十分な理由がありました。2011年10月4日、Alexaチームがまとまってきたまさにその頃、AppleはiPhone 4SにSiriという仮想アシスタントを搭載しました。これは、翌日癌で亡くなった共同創業者スティーブ・ジョブズが情熱を注いだ最後のプロジェクトでした。ハートと彼のチームは、復活を遂げたAppleも音声起動のパーソナルアシスタントを開発しているというニュースに自信を深めましたが、Siriが市場に最初に登場し、当初は否定的なレビューもいくつか寄せられたという事実に落胆しました。
Amazonチームは、自社製品がスマートフォンに依存しない独自の製品であることを確信しようと努めていた。彼らは同時に、はるかに技術的に複雑な偉業を成し遂げようとしていた。Siriのユーザーはマイクに直接指示を発していた。Amazonは、遠距離音声認識と呼ばれる比較的未熟な技術を用いて、騒がしい部屋の向こう側から話されている言葉を理解できるサービスを構築しようとしていたのだ。
開発を加速させるため、ハートと彼のチームは買収するスタートアップ企業を探し始めた。ボストンに拠点を置く音声認識大手のNuance社は、AppleがSiriにライセンス供与した技術(最近Microsoftに買収された)を保有しており、長年にわたり米国の大手音声認識企業を買収することで成長を続けてきたため、これは容易な課題ではなかった。Alexaの幹部たちは、残りのスタートアップ企業の中から有望な企業を見つけ出すため、候補企業にKindle電子書籍カタログを音声対応させてもらい、その手法と結果を研究した。この探索は、その後2年間でポーランドのスタートアップ企業Ivonaを含む複数の企業を矢継ぎ早に買収することにつながった。
Ivonaは、グダニスク工科大学でコンピュータサイエンスを専攻していたルカシュ・オソウスキー氏によって2001年に設立されました。オソウスキー氏は、いわゆる音声合成(TTS)によってデジタルテキストを自然な声で読み上げ、ポーランドの視覚障害者の助けになるという着想を得ました。彼は、年下のクラスメイト、ミハル・カシュチュク氏と共に、俳優の声を録音し、ダイフォンと呼ばれる単語の断片を抽出しました。そして、それらを様々な組み合わせでブレンド、つまり「連結」することで、俳優が決して発声したことのないような自然な響きの単語や文章を作り出しました。
Ivonaの創業者たちは、ポーランドの人気俳優ヤツェク・ラビヤクに何時間もの音声を録音させ、音声データベースを作成させたことで、自社の技術がいかに強力であるかを早くから垣間見ました。スパイカーと名付けられたこの製品は、瞬く間にポーランドで最も売れているコンピューター音声となりました。その後数年間、地下鉄、エレベーター、そしてロボコールキャンペーンで広く利用されました。その後、ラビヤクはどこにいても自分の声が聞こえるようになり、例えば次の選挙で特定の候補者に投票するよう促すような、自分の声で定期的に電話を受けるようになりました。いたずら好きな人たちがソフトウェアを操作して、彼に不適切な発言をさせ、その動画をオンラインに投稿しました。そして、彼の子供たちがそれを見つけてしまったのです。その後、ラビヤクが激怒して自分の声をソフトウェアから削除しようとしたため、Ivonaの創業者たちは彼との契約を再交渉せざるを得なくなりました。(現在、「ヤツェク」はAWSのコンピューター音声サービスAmazon Pollyで提供されるポーランド語の音声の一つです。)
2006年、イヴォナはカーネギーメロン大学が主催する、最も自然なコンピューター音声を競う毎年恒例のブリザードチャレンジに出場し、何度も優勝を果たしました。2012年までに、イヴォナは対応言語を20言語に拡大し、40種類以上の音声を提供していました。ハート氏と、このプロジェクトの初代エンジニアリングマネージャーであるアル・リンゼイ氏は、買収先を探すためにヨーロッパを巡回していたイヴォナをグダニスクで訪問しました。「オフィスに入った瞬間から、社風に合っていると感じました」とリンゼイ氏は語り、研究者が高尚な追求に気をとられ、実際に製品を出荷するのが難しい分野におけるイヴォナの進歩を指摘しました。「彼らの粘り強さのおかげで、純粋な学術研究の枠を超えて、科学に盲目的にならずにいられたのです。」
約3,000万ドルで買収されたこの買収は2012年に完了したが、1年間秘密裏に進められていた。Ivonaのチームと、アマゾンがグダニスクの新研究開発センターに採用することになる音声エンジニアの増員が、Alexaの音声開発を担うこととなった。このプログラムはベゾス氏自身によって細かく管理され、CEOのいつもの好奇心や気まぐれに左右された。
当初、ベゾス氏は、デバイスから数十種類の異なる音声を発し、それぞれを音楽鑑賞や航空券の予約など、異なる目標やタスクに関連付けたいと考えていた。しかし、それが現実的ではないことが判明したため、チームは信頼性、共感性、温かさなど、単一の人格に求める特性のリストを検討し、これらの特性は女性の声によく関連付けられることを突き止めた。
この音声を開発し、地方訛りの痕跡を残さないようにするために、ポーランドのチームはアトランタに拠点を置くボイスオーバースタジオ、GM Voicesと協力しました。このスタジオは、スーザン・ベネットという声優の録音をAppleの音声エージェントSiriに活用した実績を持つ会社です。GM Voicesは、顧客のために合成音声を作成するために、声優たちに数百時間分のテキストを読ませます。そのテキストは、書籍一冊分からランダムな記事まで、数ヶ月に及ぶこともあります。これは、気が遠くなるような作業です。
Alexaに最適な声を選ぶことが極めて重要だと考えたハート氏と同僚たちは、GM Voicesがこのプロジェクトのために制作したさまざまな候補の録音を数ヶ月かけて検討し、最優秀候補をベゾス氏に提示した。Amazonチームは最優秀候補をランク付けし、追加のサンプルを求め、最終的に1人を選び、ベゾス氏が承認した。Amazonは秘密主義で、Alexaの音声アーティストの名前を明かしたことがない。私はプロのナレーターのコミュニティに問い合わせた結果、彼女の正体を知った。コロラド州ボルダーを拠点とする声優兼歌手のニーナ・ロール氏だ。彼女のプロのウェブサイトには、モッツアップルジュースやフォルクスワーゲン・パサートなどの昔のラジオ広告へのリンクがあり、Alexaの温かみのある音色は紛れもない。2021年2月に電話で連絡を取った際、ロール氏は話すことを許可されていないと述べた。Amazonに彼女と話すよう依頼したところ、断られた。
Alexaは音声機能を持つようになりましたが、すぐに新しい脳が必要であることが明らかになりました。2013年初頭、Amazonは初代Echoのプロトタイプを数百人の従業員の自宅に持ち込み、秘密保持契約への署名と製品の使用感に関するアンケートへの回答を求めました。
実験装置は、誰の目にも明らかで、動作が遅く、性能も低かった。おそらく最も衝撃的なレビューは、ベゾス氏自身からのものだっただろう。CEOはシアトルの自宅で装置をテストしていたらしいのだが、その理解力のなさに苛立ち、アレクサに向かって「自分の頭を撃ち抜いてしまえ」と言ったという。テスト装置とのインタラクションをレビュー中にこの発言を聞いたエンジニアの一人は、「私たちは皆、これでプロジェクトは終わりか、少なくともアマゾンの何人かは終わりかと思った」と語った。
その後の数か月間、アマゾンが自社製品をよりスマートにするための継続的な取り組みは、対立するAIの教義間の戦いに巻き込まれ、これまでで最大の課題につながることになる。
英国ケンブリッジのEviという人工知能企業を買収したおかげで、Alexaはすでに、文化的に一般的なファティックスピーチと呼ばれる雑談に堪能だった。ユーザーがデバイスに「アレクサ、おはよう、元気?」と話しかければ、Alexaは正しく接続して応答することができた。また、太陽系の惑星の名前を尋ねるリクエストなど、事実に基づく質問にも対処できた。ナレッジグラフと呼ばれるプログラミング手法が生み出したこれらの特性は、Alexaが賢いという印象を与えた。しかし、本当にそうだったのだろうか?自然言語理解の別の手法であるディープラーニングの支持者たちは、Eviの手法は規律が厳しすぎて、ユーザーと会話してどんな質問にも答えられる万能アシスタントというベゾスの夢を満たすような本物の知能をAlexaに与えることはできないと考えていた。たとえば、ユーザーが「スティングの曲をかけて」と言ったら、ナレッジグラフベースのシステムはユーザーがアーティストに「さようなら」を言おうとしていると勘違いして混乱してしまうのではないかと彼らは懸念した。
ディープラーニングの手法では、機械に人々の会話の仕方や満足のいく返答に関する膨大なデータを入力させ、最適な返答をするように自己学習させるようにプログラムします。つまり、Alexaは利用されればされるほど、より賢くなるのです。
このアプローチの主な提唱者は、インド生まれのエンジニア、ロヒット・プラサド氏だった。プラサド氏と彼の同僚は、AIを開発するすべての企業が直面するパラドックスを解決する必要があった。つまり、機能しないシステムを立ち上げても顧客は使用せず、サービスを向上させるのに十分なデータが生成されないということだ。しかし、企業はシステムをトレーニングして賢くするためにそのデータを必要とする。グーグルとアップルは、ニュアンスから技術のライセンスを取得し、その結果を使って自社の音声モデルをトレーニングした後、同社との関係を断つことで、このパラドックスを部分的に解決した。グーグルは長年、フリーダイヤルの電話番号案内サービス「800-Goog-411」からも音声データを収集していた。一方、アマゾンにはマイニングできるようなサービスはなかった。またハート氏は、社外技術のライセンス供与に反対だった。長期的には企業の柔軟性が制限されると考えていたのだ。しかし、従業員の自宅で行われたベータテストから得られたわずかな学習データは、数百人のホワイトカラー労働者の音声で、通常は朝晩、オフィスにいない騒がしい部屋の向こう側から発せられたものでした。データは質が悪く、量も十分ではありませんでした。

Rohit Prasad 氏は、Amazon の Alexa 人工知能の主任科学者です。
写真:ジョー・バグルウィッツ/ブルームバーグ/ゲッティイメージズ一方、ベゾスは焦りを募らせていた。「一体どうやってこの製品が優れていると判断できるんだ?」と彼は問い続けた。ハート、プラサド、そして彼らのチームは、データ収集が進むにつれてAlexaがどのように改善していくかを予測するグラフを作成した。計算によると、Alexaの精度が3%向上するごとに、データ収集の取り組みをほぼ倍増させる必要があることが分かった。
その年の春、プラサドが入社してわずか数週間後、チームはベゾスにこれらの事実をまとめた6ページにわたる報告書を提出し、音声科学チームの規模を倍増させ、予定されていた発売を夏から秋に延期することを提案した。しかし、会議はうまくいかなかった。その場にいた人物によると、ベゾスは遅延の報告を読んだ後、「やり方が間違っている」と言ったという。「まず魔法のような製品とは何かを教えてくれ。それから、それを実現する方法を教えろ」
当時ベゾスの技術顧問を務めていたディリップ・クマールは、会社に十分なデータがあるかと尋ねた。ケンブリッジから電話会議に参加していたプラサドは、複雑な遠隔音声コマンドをさらに数千時間かけて実行する必要があると答えた。同席していた幹部によると、ベゾスは音声科学者の増員要請を考慮に入れ、数秒で頭の中で計算したという。「よく聞き取れましたか。つまり、この製品を成功させるという大きな要求を、40年かかるところを20年で実現できるということですか?」
プラサドはそれを避けようとした。「ジェフ、私たちはそういう考え方はしていません。」
部屋にいた人物によると、ベゾス氏は「私の計算がどこが間違っているのか教えて!」と言った。ハート氏が割って入り、「ちょっと待って、ジェフ。君の言うことはわかっている。理解した」と続けた。プラサド氏をはじめとするアマゾン幹部たちは、この会議、そしてAlexa開発中のベゾス氏とのその他の厳しいやり取りを、それぞれ違った形で記憶していた。しかし、その場にいた人物によると、CEOは立ち上がり、「君たちはこの製品を作ることに真剣ではない」と言い、突然会議を終了させたという。
ジェフ・ベゾスが彼らのもとを去った後、プロトタイプ開発に携わっていたAlexaの幹部たちは、傷ついたプライドを抱えながら近くの会議室に引きこもり、データパラドックスへの解決策を再考した。上司の言う通りだった。社内テストとAmazon社員へのトレーニングはあまりにも限られていた。Alexaのベータ版を大幅に拡張しつつ、外部からの秘密保持も何とかする必要があったのだ。
結果として生まれたプログラムは、Alexa プログラムを大幅に強化し、後に音声認識の専門家を悩ませる疑問に答えることとなった。つまり、音声認識可能な仮想アシスタントの開発競争において、Amazon はどのようにして突如として現れ、Google と Apple を追い抜くことができたのか、という疑問だ。
社内でAMPEDと呼ばれたその計画を実行するため、Amazonはオーストラリアのデータ収集会社Appenと契約し、Alexaを偽装して各地を巡回した。ボストンを皮切りにAppenは家やアパートを借り、Amazonはいくつかの部屋にあらゆる種類の「おとり」デバイス(台座付きマイク、Xboxゲーム機、テレビ、タブレット)を散りばめた。また、部屋の周りにはさまざまな高さに約20台のAlexaデバイスが設置され、それぞれが視界から隠されるものの音は通す防音布で覆われていた。次にAppenは派遣会社と契約し、契約社員たちが週6日、1日8時間体制で物件を巡回し、iPadで定型文と「お気に入りの曲を再生するように頼んでください」や「アシスタントにやってほしいことを何でも聞いてください」などの自由形式のプロンプトを読み上げた。

超スマートなアルゴリズムがすべての仕事をこなせるわけではありませんが、これまで以上に速く学習し、医療診断から広告の提供まであらゆることを行っています。
スピーカーはオフにされていたため、Alexaは一言も発しなかったが、各デバイスに搭載された7つのマイクがすべてを捉え、音声をAmazonのサーバーにストリーミングした。次に、別の大勢の作業員が手作業で録音を確認し、トランスクリプトに注釈を付け、「ハンガー・ゲームをつけて」など、機械を困惑させそうな質問を映画の再生要求として分類し、次回Alexaがそれを認識できるようにした。ボストンでのテストが有望であったため、Amazonはプログラムを拡大し、次の6か月間でシアトルおよびその他10都市でさらに多くの家やアパートを借りて、さらに数千人の有料話者の音声と話し方を録音した。デバイスの配置、音響環境、背景雑音、地域のアクセント、そして、例えば天気を聞きたい、ジャスティン・ティンバーレイクのヒット曲を再生したいなどの単純な要求を人間が言い換える可能性のある、素晴らしくランダムなあらゆる方法に関するデータがキノコ雲のように爆発した。
家やアパートに不特定多数の人が絶えず押し寄せるため、近隣住民は繰り返し警察に通報した。あるケースでは、ボストンのマンションの住人が隣に麻薬取引か売春組織があると疑い、警察に通報した。警察はアパートへの立ち入りを求めた。不安げな職員は、曖昧な説明と部屋内を案内した後、慌てて現場を閉鎖した。時折、臨時職員が現れたものの、奇妙な台本と事件全体の曖昧さを懸念し、参加を拒否した。記録に注釈を付けていたあるアマゾンの従業員は、後に臨時職員がセッションを中断し、聞いていると思われる相手に「こんな馬鹿げたことを言うな。この会社は恥を知れ!」とささやくのを聞いたことを振り返った。
アマゾンは、決して恥ずかしがる様子はなかった。2014年までに音声データの蓄積量を1万倍に増やし、アップルやグーグルといったライバルとのデータ格差をほぼ埋めた。ベゾスも浮かれていた。アレクサには、脳を活性化させるスーパーフードとでも言うべきものが与えられていたのだ。そして秋には、発売準備が整った。
2014年11月6日のAmazon Echoの発表は、そのわずか数か月前に同社がFire Phoneの失敗に見舞われたことがきっかけとなった。記者会見やベゾスによる先見の明のあるスピーチはなかった。新製品をあれほど精力的に発表していた故スティーブ・ジョブズの気の抜けた物まねは、どうやら永遠に終わりを迎えたようだった。その代わりに、ベゾスは新しい控えめなアプローチを好むように見えた。チームはプレスリリースと、家族がAlexaに楽しそうに話しかけるYouTubeの2分間の説明動画でEchoを発表した。Amazonの幹部は、この新デバイスを完全に会話型のコンピューターとは宣伝しなかったが、ニュースや天気の情報提供、タイマーの設定、買い物リストの作成、音楽の再生など、便利だと確信しているいくつかの領域を慎重に強調した。
その後、Echo購入の順番待ちリストへの登録を顧客に呼びかけ、リストを綿密に審査しました。例えば、応募者がAmazon Musicのユーザーであるかどうか、Kindleを所有しているかどうかといった要素を考慮しました。また、未開拓市場であることを考慮し、Fire Phoneの初期発注台数は30万台以上としていたのに対し、Fire Phoneの初期発注台数は8万台に抑え、数ヶ月かけて段階的に配布しました。「Fire Phoneの登場は確かに人々を少し慎重にさせました」とハート氏は言います。「それがきっかけで、私たちは全てを見直すことになったのです。」
Alexaのベテランたちは、Amazon EchoがFire Phoneに次ぐ、消費者向けテクノロジー業界に新たな火の海を落とすのではないかと懸念していた。発売日には、彼らは「作戦会議」に集まり、ノートパソコンの前に座り込み、待機リストが彼らの最も誇張した予測さえも上回る様子を見守った。クラウドに接続され、部屋の向こう側から音声を聞き取り、応答するコンピューターという構想は、ジェフ・ベゾスが4年近く前に会議室のホワイトボードに初めて構想を描いた時、まさにその期待通り、魅力的で斬新なものだった。
追悼集会の最中、ある人物が、重要な成果が評価されずに放置されていることに気づいた。そこで、100人ほどの従業員が近くのバーに集まり、待ちに待った祝賀会を開いた。その夜、プロジェクトに長年携わってきた幹部とエンジニア数名がバーを閉めた。
WIREDのその他の素晴らしい記事
- 📩 テクノロジー、科学などの最新情報: ニュースレターを購読しましょう!
- マクドナルドのアイスクリームマシンのハッキングをめぐる冷戦
- AI搭載のダンジョンゲームとして始まったが、その後はダークな展開へと変わっていった
- PCを組み立てる難しさを過小評価しないでください
- プラスチックが空から降ってきます。でも、それはどこから来るのでしょうか?
- NFTとAIは歴史の概念そのものを揺るがしている
- 👁️ 新しいデータベースで、これまでにないAIを探索しましょう
- 🎮 WIRED Games: 最新のヒントやレビューなどを入手
- 💻 Gearチームのお気に入りのノートパソコン、キーボード、タイピングの代替品、ノイズキャンセリングヘッドホンで仕事の効率をアップさせましょう