科学検索エンジンはますます強力になっている

科学検索エンジンはますます強力になっている

科学ジャーナルの有料購読の壁を破るのはもっと簡単になるだろう

科学検索エンジンは学術論文のナップスターであり、ますます強力になっています。

科学検索エンジンはますます強力になっている

ホットリトルポテト

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

アヌラグ・アチャリヤ氏の問題は、Googleの検索バーが非常にスマートであると同時に、ある種愚かでもあるという点だった。13年前、Googleで検索を担当していたアチャリヤ氏は、検索結果に学術雑誌の記事を網羅したいと考えていた。これは称賛に値する目標だった。なぜなら、オープンウェブとは異なり、科学研究の生の成果のほとんどは目に見えない、つまり有料会員制だったからだ。人々はその存在すら知らない可能性もあった。「私はインドで育ったが、ほとんどの場合、何かが存在するかどうかさえ知られていなかった。もし存在を知っていれば、入手を試みることができた」とアチャリヤ氏は言う。「『どうやってアクセスするのか?』というのは、もう一つの問題だ。もし知らないなら、試みることさえしないだろう。」

アチャリヤ氏と同僚のアレックス・ヴァースタック氏は、自分たちの検索機能ではGoogleの慣例を破り、有料会員制の仕組みを採ることにしました。つまり、PDFファイルそのものは表示できなくても、引用文献や抄録を表示するのです。「大学のウェブサイトにアクセスできない人でも使えるようにしました。これは意図的な決断でした」とアチャリヤ氏は言います。

そして、彼らはあの「愚かさ」の問題に突き当たりました。検索バーは、あなたがどんな種類の情報を探しているのか理解できないのです。「がん」と入力したら、あなたの症状はがんではないと教えてくれる結果が欲しいのでしょうか(お願いです)。それとも、米国医師会雑誌(Journal of the American Medical Association)が欲しいのでしょうか?検索バーはそれを理解できないのです。

アチャリヤとヴァースタックは、それを教えようとはしなかった。その代わりに、Googleプライムとは別に、ジャーナル記事、判例、特許といった本格的な一次資料だけを検索する検索バーというスピンオフを作ったのだ。そして、それはうまくいった。「ラリー(ペイジ)に見せたら、『なぜこれがまだ出ていないんだ?』と言われました。これは常に良い兆候です」とアチャリヤは言う。

現在、Google プライムのページから Scholar に直接アクセスすることはできませんが、Scholar はインターネットのデフォルトの科学検索エンジンとなっており、かつては独占状態であった Web of Science、国立衛生研究所の PubMed、そして巨大科学出版社 Elsevier が所有する Scopus よりも優れています。

しかし、科学論文のほとんどは依然として有料です。出版された学術論文の4分の3以上、ある(控えめな)推計によると、ワールドワイドウェブだけでも1億1400万本に上りますが、高額な購読料を支払える機関に所属しているか、1論文あたり40ドルの購読料を支払える場合にのみ利用可能です。しかし、ここ数年で科学者たちは巨大科学出版社の支配を緩めるべく大きく前進しました。彼らは大手学術誌が仲介する長い査読プロセスを省き、ただ投稿するだけです。査読はその後に行われます。有料論文の壁は崩壊していませんが、徐々に崩れつつあるかもしれません。公式出版前の論文を無料で配信するオープンサイエンス運動が、その大きな理由です。

しかし、もう一つの理由は、Google Scholar、Microsoft Academic、Semantic Sc​​holarといった科学検索エンジンの着実な進化です。これらのウェブツールは、有料コンテンツを見抜けたり、有料コンテンツを見落としている論文を見つけたりする能力をますます高めています。科学出版は書籍出版やジャーナリズムとは異なります。むしろ、iTunesやSpotifyが登場する前の音楽業界、つまり誰もがNapsterを使い始めた頃の音楽業界に似ています。

第二次世界大戦前は、ほとんどの科学雑誌は小規模な専門学会によって発行されていました。しかし、資本主義は資本主義のままです。1970年代初頭までに、リード・エルゼビア、ワイリー・ブラックウェル、シュプリンガー、テイラー・アンド・フランシスの5大科学出版社が、全雑誌論文の約20%を出版していました。1996年、デジタル化が進み、PDFが雑誌の主流となったとき、その割合は30%にまで上昇しました。そして10年後には50%になりました。

これら 5 大出版社は、出版界を買収することで、自らが望んでいた変化を実現した。2,500 誌以上のジャーナル (大手Cellを含む) と 35,000 冊の書籍および参考文献 ( Gray's Anatomyを含む) を所有するのは大きなことだと思うだろうか? それは、世界最大の科学出版社である Elsevier だ。同社は、これらすべてのジャーナルへのオンライン ゲートウェイである ScienceDirect も所有している。また、(Google Scholar 以前の) 科学検索エンジン Scopus も所有している。ソーシャル機能とコミュニティ機能を備えた文献管理ツール Mendeley も買収した。さらに、科学研究に関するソーシャル メディアでの言及を監視する会社も所有している。「研究エコシステムのあらゆる場所、つまり論文の提出から、それらの論文に基づく研究評価、および論文に関連するオンラインでのさまざまな行為まで、Elsevier は存在している」と、モントリオール大学の情報科学者で、出版に関する統計情報を記載した論文の著者である Vincent Larivière 氏は言う。

同社は、これらすべてが実際にはより広範な情報発信に役立っていると主張している。「私たちはオープンサイエンスの分野にしっかりと取り組んでいます。より包括的で、より協力的で、より透明性の高い研究の世界を築くためのツール、サービス、そしてパートナーシップを有しています」と、エルゼビアのオープンサイエンス担当副社長であるジェマ・ハーシュ氏は述べている。「私たちの使命は、研究成果の向上と、そのために研究コミュニティと協力することです。」実際、エルゼビアは従来の営利ジャーナルに加えて、プレプリントサーバーであるSSRN(有料購読のない出版前の論文をホストする場所の一つ)も所有しており、様々なオープン性レベルで数千もの論文を公開している。

つまり、エルゼビアは科学出版界における「Too Big to Fail(大きすぎて潰せない)」と言えるでしょう。そのため、エルゼビアは様々なボイコット、やや海賊版的な回避策、そして世間の怒りに直面してきました。(「『ボイコット』という言葉はよく出てきますが、私はそれには抵抗があります。率直に言って、この言葉はおそらく誤用されていると思います」とハーシュ氏は言います。「エルゼビアに論文を投稿する研究者は毎年増えており、私たちも毎年多くの論文を発表しています。」)

メールアドレスに「.edu」が付いていない人は、ちょっと頭がおかしいと思うかもしれません。クールな科学を実際に見たいからというだけでなく、すでにその研究にお金を払っているからです。あなたの税金(あるいは大富豪の助成金かもしれません)が科学者に給料を支払い、研究資金を供給しました。出版前に結果と結論をレビューし、批評した専門家はボランティアでした。そして、その論文を出版したジャーナルは、おそらく少なくとも一部はあなたの税金で賄われている大学や図書館に購読料を請求しました。そして、あなたは論文を買わなければならないのでしょうか?それとも、研究者がオープンアクセスにするために2,000ドルを支払わなければならなかったのでしょう

さて、エルゼビアのような出版社は、編集、査読、コピー編集、そして流通というプロセスは、重要かつ不可欠な付加価値であると主張するでしょう。そしてその裏側には、名ばかりのオープンアクセス論文を掲載する一方で、実質的な編集や査読(もちろん、検索結果には表示されます)を行わない、いわゆる略奪的ジャーナルがあります。それでも、科学出版ビジネスは年間100億ドル規模のビジネスです。2010年、エルゼビアは10億ドルの利益と35%の利益率を報告しました。つまり、その通りです。

初期のデジタル音楽の比喩で言えば、出版社はレコード会社、PDFはMP3です。しかし、それでもNapsterは必要です。そこで、オープンサイエンスに基づいた検索エンジンが登場します。

アチャリヤとヴァースタックがScholarを開発してから数年後、マイクロソフトのチームがAcademicという独自のバージョンを開発しました。当時は、利用可能な論文数もはるかに少なく、どちらかといえば機能が少ないものでした。しかし、2015年にマイクロソフトが2.0をリリースすると、それは素晴らしいものになりました。

マイクロソフトのコミュニケーションチームは、この検索エンジンの運営者情報を一切公開しませんでしたが、マイクロソフトリサーチのチームが発表した論文には、その仕様がかなり詳しく記載されています。論文の書誌データを取得し、それをBing(実在する検索エンジン!)の検索結果と組み合わせるのです。そして、これが実に素晴らしいのです。8300万件もの論文を処理可能で、これはGoogleの宇宙規模の推定値とそれほど変わりません。また、Googleと同じような自然言語による検索も可能です。Scholarとは異なり、Microsoft AcademicのAPIに接続して引用グラフを見ることもできます。

例えば、Facebook創業者の慈善団体であるチャン・ザッカーバーグ・イニシアチブは、アクセス向上を目指した取り組みを進めています。Mendeleyの創設者たちは、ベンチャーキャピタルの支援を受けた新しいPDF検索ツール「Kopernio」を開発しました。また、「Unpaywall」というブラウザ拡張機能は、ウェブ上で論文の無料PDFを検索します。

非営利団体アレン人工知能研究所が開発した、非常に斬新なウェブクローラーです。Semantic Sc​​holarは、コンピュータサイエンスと生物医学分野における4000万件の引用文献コーパスを精査し、表やグラフを抽出するだけでなく、機械学習を用いて意味のある引用を「影響力の高い引用」として推定します。これは新しい指標です。毎月約100万人が利用しています。

「私たちはAI技術、特に自然言語処理とマシンビジョンを用いてPDFを処理し、読者が論文に興味を持つかどうかを判断するのに役立つ情報を抽出しています」と、アレンAI研究所のCEO、オーレン・エツィオーニ氏は述べています。「こうした取り組みの結果、ますます多くの情報がオープン化され、多くの出版社が、検索エンジンでコンテンツを見つけやすくすることは悪いことではないと述べています。」

発見可能性とアクセス性はこれほど向上したにもかかわらず、科学検索における技術的な課題はペイウォールだけにとどまりません。アチャリヤ氏とヴァースタック氏が事業を開始した当時、GoogleはPageRank(2つのウェブページ間のハイパーリンクの重要度をモデル化する手法)に依存していました。しかし、科学論文の引用はPageRankに基づいていません。「論文間のリンクはテキストで行われます。参考文献はありますが、どれも近似値です」とアチャリヤ氏は言います。「学術論文では、引用はすべて一方向です。誰もが古い論文を引用し、論文が修正されることは決してありません。」

さらに、URLとは異なり、ジャーナル記事の掲載場所や引用は、実際のジャーナル記事ではありません。実際、記事は複数の場所に複数のコピーが存在する可能性があります。哲学的、書誌学的観点から言えば、オンラインのPDFは、ある意味では知識の写し絵に過ぎません。そのため、検索結果に表示される引用は、実際の記事の複数のバージョンに紐付けられている可能性があります。

検索エンジンはなぜメタデータを使って、どのバージョンがどこに属しているかを把握しないのでしょうか?音楽をダウンロードするとき、選んだアプリが画像、アーティスト名、曲名など、そのコンテンツに関するデータを自動的に入力するのと同じです。

答えはメタデータです(笑)。これは大きな問題です。「情報源によって異なります」とエツィオーニ氏は言います。「多くの情報が構造化されたメタデータとして入手できないのです。」たとえメタデータがあったとしても、出版社やサーバーごとに独自の形式になっています。「驚くべきことに、私たちは暗黒時代にいるようなもので、問題は悪化する一方です」と彼は言います。出版される論文もデジタル化される論文も増えています。専門家でさえ追いつけないほどです。

だからこそ、科学研究とオープンサイエンスは密接に絡み合い、非常に重要なのです。ジャーナルの評判と、そのジャーナルに掲載された特定の論文の引用数は、誰が助成金を獲得し、誰が終身在職権を得るか、そしてひいては誰がより大規模な科学研究に取り組むことができるかを決定する指標となります。「営利出版社や学術出版社が私たちを縛り付けているのは、私たちが名声に溺れているからです」と、アムステルダム大学の歴史家でオープンサイエンスの提唱者であり、Scholarly Hubというユーザー所有の科学者向けソーシャルサイトを設立したガイ・ゲルトナー氏は言います。

問題は、Google Scholarの常として、その仕組みや検索対象が不透明だということです。アチャリャ氏は、ユーザー数や検索対象論文数を教えてくれませんでした。(「世間で言われているよりも多く、開始当初と比べて桁違いに増えています」と彼は言います。)Google以外の誰も、検索エンジンが検索基準をどのように適用しているかを完全に理解していません。3実際、Scholarは出版済みまたは出版前の論文のPDFファイルだけでなく、はるかに多くの情報を集めています。授業のシラバス、学部課程の課題、PowerPointのプレゼンテーションなども収集します…実際、記者にとっては、ちょっと楽しい作業です。しかし、扱いが難しいのです。

つまり、引用データも不明瞭であり、Scholarの調査結果が科学全体にとってどのような意味を持つのかを把握するのが困難になっています。Scholarは優先度の低いサイドプロジェクトかもしれませんが(Readerのように廃止しないでください!)、そのデータはいつか価値あるものになるかもしれません。エルゼビアは明らかにScholarを有用だと考えているようです。

科学界は変化しつつある。「もし今、研究者たちに新しい出版システムを作るように頼んだとしても、私たちが今やっているようなことを提案する人は誰もいないでしょう」と、カリフォルニア大学サンディエゴ校の心理学者でオープンサイエンスの提唱者であるデイビッド・バーナー氏は言う。しかし、変化は難しいとバーナー氏は言う。変化を起こす人々は既に多忙で、ボランティアとして時間を割いているからだ。

エルゼビアでさえ、変化が訪れることを認識しています。「おっしゃったような数多くのプログラムの中から、あちこち探し回るのではなく、当社の『科学と社会』ページにアクセスすれば誰でもアクセスできます。そこには、アクセスを希望するあらゆる状況に対応するために、エルゼビアが提携している数多くのプログラムや組織の詳細が掲載されています」とハーシュ氏は言います。そして、それは最終的に出版され、査読済みの版、つまりアーカイブされ、永久に保存される記録版となるのです。

デジタル革命は、どんな状況でも#disrupt(破壊的変化)を引き起こす。ジャーナル記事がよりオープンで検索しやすくなるにつれ、人々が何を探しているのかを理解することから価値が生まれるだろう。Googleがずっと昔にオープンウェブを理解していたように。「私たちは高品質な出版社であると同時に、情報分析会社でもあり、研究コミュニティが利用できるサービスを進化させています」とハーシュは語る。

そうでなければどうなるでしょうか?「研究成果の大部分が有料購読の壁の背後に押し込められています。史上最も引用された論文100本のうち65本が有料購読です。これは科学が果たすべき役割とは正反対です」とゲルトナー氏は言います。「私たちは独占的な知識を生産する工場ではありません。私たちは議論に参加しており、その議論から一般の人々に学んでほしいと考えています。」

私は、WIRED のライターが有料購読の社会的リスクについて語っていることの皮肉には敏感だが、ジャーナリズムの代償としてジャーナリズムメディアにお金を払うことと、他人の科学論文のために科学出版社にお金を払うことの間には違いがあると思う。

しかし、さらに重要な違いは、科学の有料化は単に大学と街を隔てるだけではないということです。確かな有益な情報がすべて有料化されてしまうと、その外側の荒れ地に残されるのは、くだらない情報、つまりプロパガンダとマーケティング情報だけになります。これらは常に無料です。なぜなら、政治的な思惑や経済的利益を持つ人々が資金を提供しているからです。ワクチンが公衆衛生にとって不可欠であり、人間が排出する炭素が地球の地球化を阻害していることを理解することは、1%の富裕層だけの特権であってはなりません。「科学へのアクセスは先進国の特権になってしまうでしょう」とゲルトナー氏は言います。「それは科学の本来の姿とは正反対です。」

1更新 12/3/17 11:55 AMこの名前のスペルを修正しました。 2更新 12/4/17 1:25 PM「another」という単語を削除しました。研究者は、自分の論文をオープンアクセスにするために料金を支払う場合があります。 3更新 12/4/17 1:25 PM Google が包含基準を公開していることを明確にしました。