新しい絵文字は退屈すぎるが、必ずしも退屈である必要はない

新しい絵文字は退屈すぎるが、必ずしも退屈である必要はない

近年の絵文字にあまり興味がないという人は、あなただけではありません。懐中電灯?工具箱?消火器?ブリキ缶?そもそもこんな絵文字を使う人がいるでしょうか?

来年、あなたの携帯電話に登場する予定の絵文字も、同様に悲惨だ。ドライバー、歯ブラシ、ピーマン…一体これは何だ、ショッピングセンター? 絵文字といえば、無作為な物の羅列を思い浮かべる人はいないだろう。喜びの涙を流す顔、考え込む顔、怒った悪魔、笑顔のうんちの山、見ざる猿といった象徴的で、時に奇妙で、表情豊かな顔、そして親指を立てたマークやハートマークといった定番のシンボルを思い浮かべるだろう。しかし、最新の絵文字には、ローラースケートや石、プランジャーなど、49個の新しいオブジェクトが含まれているのに対し、新しい顔はたった3つと新しい手の形が1つしか含まれていない。

なぜこれほどまでに無関係になってしまったのか?それは、デバイスが認識すべき記号を決定する責任を担う組織、ユニコードコンソーシアムが、新しい絵文字を承認するプロセスにおいて、ますます誤った基準で評価するようになっているからだ。

もちろん、つまらない絵文字をエンコードしようとする人はいません。Unicodeには3つの主要な基準があり、その1つは「この新しい絵文字が多数の人々によって使用される可能性が高いという実質的な証拠があるか」です。理論的には良いように聞こえますが、実際のところ「実質的な証拠」とは何でしょうか?Unicodeは、請願書、企業スポンサーシップ、または非公開データソースから得られた絵文字データは操作が容易すぎると判断し、考慮しません。日本の携帯電話事業者からの最初の絵文字セットをエンコードした後、Unicodeは検索結果に注目するようになりました。新しい絵文字の提案を提出する場合、Google、Bing、Googleビデオ検索、そしてGoogleトレンドで関連する単語またはフレーズを検索した際に、何件のウェブページが見つかるかを示すスクリーンショットを提出する必要があります。

Unicodeの公式ガイドラインによると、平均的な絵文字の検索結果は通常のGoogle検索で5億件、Bingでは2500万件、Googleビデオ検索では7500万件に上ります。「これらの値は考慮される要素であり、厳格な制限ではありません」としながらも、絵文字小委員会は、この範囲外の絵文字候補には概して懐疑的です。例えば、絵文字化されたT. rexは基準を満たしており(Googleによると、この単語に言及しているページは5億5400万ページ)、却下されたichthyosaurは基準に遠く及びません(100万ページ未満)。

検索結果には確かに利点もあります。5億件もの検索結果を偽装するのは、嘆願書に5億件もの電子署名を集めるよりも難しい(不可能ではないものの)でしょう。また、独自の内部データセットとは異なり、Googleのスクリーンショットは検証が容易です(自分で検索をやり直し、リンクリストのすぐ上にある灰色の数字を探せばいいのです)。しかし、検索結果には大きな欠点もあります。人々は本当に絵文字を使うのと同じようなことを目的としたウェブサイトを作っているのでしょうか?

過去数年間、人々が絵文字をどのように使用しているかを真剣に観察してきた者として、私の直感はノーでした。しかし、数週間前に新しい Unicode データセットが公開されるまで、私はそれを証明できませんでした。これは、1,468 個の絵文字すべてを、使用頻度順にランク付けした公開リストです (2018 年以降の絵文字は、必ずしもすべてのデバイスで広く利用できるわけではないため、当面は除外されています。そのため、それらの絵文字はまだ潜在能力を十分に発揮していない可能性があります)。Unicode はデータのソースを具体的に示しませんでしたが (多くが Unicode のメンバーである大手テクノロジー企業からのデータだと推測します)、データは国際的なもので、過去 6 か月間のものであり、単一プラットフォームの外れ値によって歪められないように、複数のソースにわたる各絵文字の中央値に従って対数スケールになっていることは説明しました。

このような比較可能な公開データセットはこれまで存在せず、他のものは非常に不完全です。Emojipediaはホームページに検索数上位6つ程度の絵文字を掲載しており、新しい絵文字が本格的に流行し始めた時期を推測するのに役立ちますが、それ以下の絵文字に関する情報は一切ありません。EmojitrackerはTwitterにおける絵文字の使用状況をリアルタイムで追跡していますが、2015年以降新しい絵文字が追加されていないこと、そして特定の絵文字(リツイート用のリサイクルマークなど)がスパムツイートで実際の人のツイートよりもはるかに多く使用されていることを知るまでは、非常に便利に思えます。定期的に、宣伝効果を狙う企業が「トップ50」や「トップ100」の絵文字をプレスリリースで発表しますが、これらの絵文字は多くの場合、出所が不明瞭で、謎めいたカテゴリーにまとめられているため、本格的な統計を取ることができません。誤解のないよう言っておくと、インターネット言語学に関する私の本にはまだ絵文字の章があるので、とにかく私はそれらすべてを引用しているが、顔と手とハートが一貫して最も人気のあるカテゴリーであることに気付く以外、傾向を探すのに十分厳密でも信頼性も高くない。

これらの新しい統計により、さらに深く掘り下げることができます。最も人気のある既存の絵文字の多くは、当時導入されていたとしても、Unicodeの検索基準を満たしていなかったでしょう。例えば、笑顔の顔、喜びの涙を流す顔、大声で泣いている顔、キラキラしたハート、ナス、スマイリーうんち、悪魔の顔、見ざる猿、パーティーポッパー、力こぶ、指を組んだ顔、肩をすくめる顔などです。これらの絵文字は、Googleで検索しても、基準となる5億件という結果に遠く及びません。2019年現在でも、これらの絵文字自体に関する多くのページによって検索結果が膨らんでいます。むしろ、Unicodeが決定プロセスを引き継ぐ前に日本の携帯電話に搭載されていたことで、検索基準を満たしたのです。一方、検索基準を満たす多くの絵文字は、導入されて以来、人気度の中央値をはるかに下回る状態に留まっています。その中には、スクーター、ファラフェルの入ったピタ、サイ、食品の缶詰、コート、フォーチュンクッキー、ボブスレー、プレッツェル、手袋、吸血鬼、シマウマ、ハリネズミ、ロックスター/歌手、宇宙飛行士などがあります。

確かに、検索結果が一致することもあります。赤いハート、ハート目、炎、風船、親指を立てた顔、考え事をしている顔などは、検索結果としても絵文字としても非常に人気があります。そして、検索基準によって、全く無名の候補が除外されたことは確かです。(ティラノサウルスは絵文字としても検索結果としてもかなり人気ですが、魚竜がこれほどの人気を獲得できたとは思えません。)しかし、全体として、検索結果を使って絵文字の使用状況を予測することは、慣用句を現代風に言い換えれば、リンゴの絵文字とオレンジの絵文字を比較するようなものです。

新しい基準に従って承認された絵文字が普及するまでの時間が短かったというだけではありません。同じ年に導入された、考え中の顔やハートで囲まれた顔などの他の絵文字が人気を博したからです。重要なのは、どのような概念が絵文字としてエンコードされるかということです。検索結果を使用すると、私たちは普通名詞に偏りがちです。サイやコート、吸血鬼、プレッツェルなどは、そうやって見つけられるのです。しかし、人々は通常、絵文字を名詞の代わりに使用しません。そうすることもできたのに、そうしません。代わりに、絵文字は言葉に加えて、さらなる文脈や感情や説明を提供する方法として使用されます。それは、私たちが身体的な言語に加えてジェスチャーを使用するのと同じです。そして、顔や手、ハートは、まさにその点で優れています。

5年か10年前、Unicodeの初期版では、世界が絵文字をどのように使い始めるのか(あるいはそもそも使い始めるのかどうかさえ)全く分かりませんでした。もしかしたら絵文字は日本だけのものだったのかもしれませんし、もしかしたら文章の途中で単語の代わりに絵文字を使ったり、ウェブサイトで扱っているようなものに絵文字を使ったりしていたかもしれません。しかし今では、このデータがあり、Unicodeがこれを公開したのもそのためだと私は願っています。新しい絵文字が提案される際に、検索データに有益なカウンターバランスとして追加することができます。例えば、誰かが新しい衣料品(例えばパジャマ)の絵文字を提案したい場合、「パジャマ」という単語自体が検索でどれほどよく使われているかだけでなく、既存の衣料品の絵文字の人気度と比較することもできます。

では、Unicodeが既存の絵文字の人気度を考慮し始めるとしたら、どのような絵文字が増え、どのような絵文字が減ると予想されるのでしょうか?それを知るために、私はUnicodeの絵文字頻度データセットをダウンロードし、すべての絵文字をカテゴリー別にラベル付けし(この手法は今では「ニューラルネットのトレーニング」と呼ばれていると思います)、いくつかの統計を計算しました。

絵文字キーボードによく見られるものよりも細かい区別をしたいと思ったので、独自のカテゴリを使用しました。喜びや怒りの涙を流すような丸い伝統的な顔、悪魔のスマイリー、ハートの目をした猫、見ざる猿など他のキャラクターの表情の「奇妙な顔」、肩をすくめる人やダンサーなど特定のポーズの人、赤毛や宇宙飛行士など典型的なポーズや表情をとらない人、そしてさまざまなカップルや家族などの人々のグループを区別します。

各カテゴリーにおける範囲も把握したかったのです。人気度合いを見てみると、上位バンドには顔文字が多く、下位バンドには国旗やシンボルが多いことに気づくのは簡単です。しかし、すべての顔文字が人気で、すべてのシンボルが不人気なのでしょうか?それとも、少数の外れ値がグループ全体に対する私たちの認識を歪めているのでしょうか?

これを解明するために、私は各カテゴリーについて 5 つの統計を計算しました。最も人気のある絵文字と最も人気のない絵文字のレベル、人気のちょうど中間レベル (中央値) の絵文字のレベル、そして 25% と 75% の人気の絵文字のレベル (第 1 四分位と第 3 四分位) です。つまり、各ボックスには、特定のカテゴリーの絵文字の半分、つまり人気の中間レベルの上と下に密集している絵文字が含まれ、外側の線は、カテゴリーの残りの半分、つまり中央値から遠い絵文字を示します。動物のようにボックスが小さく線が短い場合、そのカテゴリーの絵文字の人気レベルは非常に一定です。さまざまなポーズの人のようにボックスが大きい場合や線が長い場合、そのカテゴリーの絵文字の人気レベルは非常に異なります。

これらの統計を中央値順に以下にグラフ化しました。

絵文字の頻度データに関するグラフ

図:グレッチェン・マカロック/WIRED 

Unicode では、絵文字全体の人気度の中央値も親切に教えてくれます (1,468 個の絵文字のうち、人気度で 735 位より下の絵文字)。グラフ上に破線で示しました。国旗の数が非常に多く、そのほとんどがあまり人気がないため、中央値はかなり低く見えますが、国際標準化団体である Unicode は、すべての国旗をエンコードするか、まったくエンコードしないかのいずれかを行う必要がありました。ただし、私たちの目的にとっては便利なことですが、これは、他のカテゴリの絵文字が中央値を下回っている場合、あまり良い兆候ではないことを意味します。したがって、これを考慮すると、しばらくの間、衣服の絵文字を追加するのはおそらく良い考えではないことがわかります。衣服の絵文字の中央値は、すでに全体の中央値を下回っています。申し訳ありませんが、パジャマです。同様に、新しい乗り物の絵文字? さらに悪いアイデアです。

ハート、スマイリー、そして手のジェスチャーは確かに最も人気があり、データセットが完全ではないものの、これらのカテゴリーの全ての要素が中央値を上回っているという結果を裏付けています。(情報開示:手の絵文字は、より不完全なデータセットにおいて期待以上の成果を上げているにもかかわらず、私がBecause Internetを執筆している間、新しい提案をあまり生み出していないことに気づいたので、既に他の絵文字の提案を書き始めており、そのうちのいくつかは現在Unicodeコンソーシアムに提出中です。)

見ざる猿🙈、ハート目をした猫😻、にこやかなうんちの山💩など、何らかのキャラクターに感情的な表情を浮かべた顔(「変顔」)も非常に好成績を収めており、イースター島の頭🗿を除くすべての顔が平均以上のスコアを獲得しています。(イースター島の頭が本当にこのカテゴリに属する​​かどうかも議論の余地があります。)しかし、Unicodeは最近、変顔をエンコードしておらず、服装や外見(赤毛や宇宙飛行士などの「人物の種類」)や特定のポーズ(ダンサーやスキーヤーなどの「ポーズをとる人物」)で中立的な表情をした人物をエンコードすることを好んでいます。外見やポーズは検索結果に簡単に表示されますが、実際の使用では、元の日本の絵文字セットの測定が難しい変顔よりもかなり人気がないことがわかりました。

データから驚くべきことの1つは、近年、植物よりも動物の方がはるかに多く追加されたにもかかわらず、植物が動物よりもはるかに人気があるということです。最下位の植物の絵文字でさえ、全体の中央値を上回っており、クラスターとして見ると、手のジェスチャーとほぼ同じくらい人気があります。それに比べて、動物の絵文字は中央値に近いです。ほとんどはまだ上回っていますが、いくつかは下回っています。さらに、植物の中で最も人気のある絵文字を見てみると、すべて花であることがわかります。次に人気のある植物であるハーブ🌿が登場するまでに、7種類の花を見なければなりません。これは、一見するとそれほど驚くべきことではないかもしれません。花は象徴的に使用されてきた長い歴史があり、最も人気のある花の絵文字はバラ🌹で、ロマンスと社会主義の二重の象徴性を持っています。ミレニアル世代にあまりこだわるつもりはありませんが、これはサボテンの他に多肉植物の絵文字が必要になる可能性があることを示唆しています。 (ちなみに、動物のカテゴリでは、全身ではなく顔で表示される動物が最もよく表示されています。これもまた、最近の Unicode エンコードの傾向に反しています。)

安心できることに、記号やオブジェクトは予想ほど悪くはなく、非常に人気のあるもの (🔥🎉✨ 💯 🎶) から極めてわかりにくいもの (イジェクト記号 ⏏️、ラテン小文字 🔡、ファイリングキャビネット 🗄️、金属クランプ 🗜️) まで幅広い範囲を示し、中央値は全体の真ん中よりわずかに下です。最も人気のある時計の文字盤の時間は 12 時 🕛 で、最も人気のない時間は 3:30 🕞 です。(当然ですが、すべての時計の文字盤が中央値を下回っています。) ただし、最も人気のある国レベルの国旗でさえそれほど良い成績を収めているわけではないので、Unicode としては、州、県、その他の地区のような国レベルの区分をエンコードするという巨大な問題に手を出さない方が賢明でしょう。非地理的な旗に関しては、まだデータがあまりありません。ただし、虹色🏳️‍🌈とチェック柄🏁の旗はどちらもかなり好評で、数百ある旗の中でトップ12に入っています。そのため、新しい海賊旗やトランスジェンダー旗も、データが集まり始めればかなり人気が出ると予想しています。

すべてのカテゴリーとサブカテゴリーについてこのように続けることもできますし、皆さんがこのデータを使って、自分の興味のあるカテゴリーで注釈を付けたり、新しい絵文字の提案を休止すべきカテゴリーを特定したり、最近軽視されている人気カテゴリーの空白を埋める絵文字を提案したりしてくれることを期待しています。もちろん、これらのランキングはすべて相対的なものなので、すべての絵文字が平均よりも人気があるという「Lake Emoji Statistics Wobegon」は決して実現しません。しかし、カテゴリー間の偏りが少なくなるように努力することはできます。動物にあまり知られていないエントリーができるのであれば、植物や奇妙な顔にもチャンスを与えてみてはどうでしょうか。あるいは、Unicode が最終的にこのデータセットに続き、絶対数を含むさらなるデータを提供するかもしれません。

たとえ絵文字の提案書を書くつもりがなかったとしても、この絵文字人気データセットは刺激的です。絵文字は、最も基本的なレベルでは、単なる小さな絵の集まりであり、それ自体は目新しいものではありません。人類の文化を長期的に見れば、ちょっとしたイラストほど目新しいものは他にほとんどないでしょう。絵文字が他の小さな絵の集まり(クリップアート、ウィキメディア・コモンズ、ストックフォト、判じ絵パズル、過大評価されすぎた洞窟壁画、あるいは象形文字など)と異なるのは、何十億もの人々が毎日、お互いに送る普通のメッセージとして絵文字を使用していることです。

言い換えれば、絵文字を興味深いものにしているのは、使用データ、つまり、私たちがオンラインでより人間らしくいられるように、お互いに話す方法を具体化している様子を示すデータです。奇妙な動物の顔を送ることもありますが。


WIREDのその他の素晴らしい記事

  • Googleが何を言おうと、YouTuberは組合を結成しなければならない
  • 宇宙で迷子になった宇宙飛行士は、重力を利用して移動できるのでしょうか?
  • 最高の仕事は政府機関だ。いや、本当に
  • WIRED25: 私たちを救うために奮闘する人々の物語
  • 小さなジェットエンジンでドローンのバッテリーを強化する計画
  • 👁 ディープフェイク動画の時代に向けて準備しましょう。さらに、AIに関する最新ニュースもチェックしましょう。
  • 📱 最新のスマートフォンで迷っていますか?ご心配なく。iPhone購入ガイドとおすすめのAndroidスマートフォンをご覧ください。