機械学習は、私たちが文学と考えるものを完全に変えている

機械学習は、私たちが文学と考えるものを完全に変えている

画像にはテキスト、数字、記号、アルファベット、動物、鳥が含まれる場合があります

ワイヤード

SFの定義は曖昧であることで有名です。ある人々にとっては、SFは作家や代表作によって定義されます。 『海底二万里』の著者ジュール・ヴェルヌに始まり、さらに遡ればメアリー・シェリーの『フランケンシュタイン』にまで遡ります。一方で、SFは人物よりも思想が重要だと主張する人もいます。例えば、『SF百科事典』では、SFを「認知的疎外の文学」と呼んでいます。

しかし、何千冊もの本のデータを分析することで、より明確な答えが得られるとしたらどうでしょうか?成長著しい文学研究の分野では、まさにそのようなアプローチを採用し、わずかなデータを英語文学の世界に当てはめようとしています。

「私たちは往々にして、単に物事を数え、20世紀的な馴染みのある統計を使って数字を比較していました」と、イリノイ大学の英文学准教授テッド・アンダーウッド氏は語る。機械学習は、ジャンルや英文学そのものの歴史といったテーマに対する私たちの理解を変えてきたと彼は説明する。

SF小説の例では、作家はしばしば規模(「広大な」「遥かに」「より大きな」)を描写し、大きな数字(「数千」)を用い、「地球」や「人間」「生き物」といった表現を用います。アンダーウッドは、本を「言葉の塊」、つまり本文中に単語が何回出現するかといった統計に還元します。「ある意味では、社会科学者が母集団をサンプリングするように、文学史をサンプリングしているようなものです」と彼は言います。

彼の研究は、SFに対するこうした一般認識に当てはまる作品が、このジャンルの出現時期として一般的に挙げられる時期よりもはるかに古くから存在していることを示した。「一部の学者は、『SF』と呼ばれるものは、1920年代にその言葉が作られるまで完全には形作られていなかったと主張しています」と彼は言う。「私たちは今、19世紀後半の『科学的ロマンス』と『驚異的な航海』が、現代SFと連続する一貫したジャンルを構成していることを示すことができる立場にあります。」

この分野の他の研究者たちは、機械学習を用いて小説の続きを予測できるかどうかを研究しています。カリフォルニア大学バークレー校のデイビッド・バマン氏は、音声アシスタントの基盤技術である自然言語処理(NLP)を用いて、予測可能性が物語にどのように織り込まれているかを明らかにしています。言語モデルはSF小説の前半を読み、次の段落を予測しようと試みます。その結果と原文の類似性から、作家やジャンルが「予測可能」であることを示す基本的な要素について洞察が得られる可能性があります。

バマン氏の現在のプロジェクトは、Amazonからの助成金を受けており、自然言語処理(NLP)を改良してプロットの計算モデルを作成できるレベルまで引き上げることを目指しています。これは、コンピューターに複雑な概念を登場人物、場所、出来事といった要素に分解させることです。バマン氏は、英語とデータサイエンスのこのユニークな組み合わせを反映した、最近の入学者数の変化に気づいたと述べています。これらの科目をダブルメジャーとして履修する学生が増加し、計算論的手法と実証的手法の訓練を受け、科学と文学の垣根が崩れつつあるのです。

データファーストのアプローチは、比較的無名の作品を無名状態から引き上げるのにも役立っています。コーネル大学の研究者による最近の論文では、ウェブサイト「Archive of Our Own」に掲載されている50万点以上のファンフィクションを分析し、読者の予想を覆すプロットやキャラクターなど、革新的なフィクションを見極め、評価することを目指しています。(実際には、ほとんどが読者の予想を覆すような作品ではありませんでした。シャーロック、ハリー・ポッター、マーベル・ユニバースのファンフィクションを最大のセクションとするウェブサイトにとって、これは驚くべき結果と言えるでしょう。)

計算論的手法は、この膨大な大衆文化の山をふるいにかけるツールと、そして健全な精神を与えてくれる。人文科学における大変革の先駆けとなるかもしれないと、この分野の主要ジャーナルであるCultural Analyticsを運営するアンドリュー・パイパー氏は言う。「ですから、今後数年間で本当に大きな転換点となるのは、人々が古典や受賞作の小説を研究するだけでなく、ソーシャルメディアに毎日書き込み、物語を創作している、いわゆる一般の人々によるあらゆる行動について考えるようになることです。」

アルゴリズムに関するWIREDの最新情報をフォローする方法

WIRED on Algorithms のハブ ページをブックマークしてください。今週を通して新しいレポートやストーリーが追加されます。

– Facebook、Google、Instagram、Twitterでターゲット広告をブロックする方法

– Googleの画像検索には著名人に対する性差別的な問題が山積している

– Facebook はなぜ一度も会ったことのない友達を推奨するのでしょうか?

この記事はWIRED UKで最初に公開されました。