AIの学習にデータが利用されるのを防ぐ方法

AIの学習にデータが利用されるのを防ぐ方法

これまでネットに投稿したもの、たとえば気恥ずかしいツイート、古いブログ記事、熱狂的なレストランレビュー、ぼやけたインスタグラムの自撮り写真などは、ほぼ確実に吸収され、現在押し寄せる生成 AI のトレーニング教材の一部として使用されています。

ChatGPTのような大規模な言語モデルツールや画像作成ツールは、膨大な量のデータによって動作しています。チャットボットやその他の生成ツールに利用されていない場合でも、インターネット上の多数のサーバーに入力したデータは、機械学習機能に利用される可能性があります。

しかし、生成AIとその不透明なデータ処理をめぐる訴訟や捜査が山積する中、人々がオンラインに投稿した内容の扱いをよりコントロールできるようにするための小さな動きが出てきています。一部の企業では、個人や法人顧客が、AIトレーニングへのコンテンツの使用やトレーニング目的での販売をオプトアウトできるようになっています。ここでは、できること、できないことをご説明します。

更新:このガイドは2024年10月に更新されました。以下のリストに新しいウェブサイトとサービスを追加し、古くなった指示を更新しました。ツールとそのポリシーの進化に伴い、この記事は引き続き更新されます。

限界がある

オプトアウトの方法を説明する前に、いくつか想定しておきたいことがあります。AIを開発している企業の多くは既にウェブをスクレイピングしているので、あなたが投稿したものはおそらく既に彼らのシステムに入っているでしょう。AI企業はまた、実際に何をスクレイピングし、購入し、システムのトレーニングに使用したかについて、秘密主義を貫く傾向があります。「正直なところ、私たちはそれほど多くを知りません」と、ワシントン大学でAIプライバシーを専門とする研究者、ニルーファー・ミレシュガラ氏は言います。「一般的に、すべてが非常にブラックボックスなのです。」

AIシステムからデータを削除したり「アンラーニング」したりする技術的な方法は様々あるが、実際にどのようなプロセスが実施されているかについてはほとんど知られていないとミレシュガラ氏は指摘する。選択肢は隠されていたり、手間がかかる場合もある。AIの学習データから投稿を削除するのは容易ではないだろう。企業が将来のスクレイピングやデータ共有のオプトアウトを許可し始めたとしても、ほとんどの場合、ユーザーはデフォルトでオプトインを要求している。

「ほとんどの企業は、人々がわざわざ情報を探そうとしないことを知っているため、手間をかけているのです」と、電子フロンティア財団のセキュリティとプライバシー活動家、トーリン・クロソウスキー氏は言う。「オプトインは意図的な行動ですが、オプトアウトの場合は、情報が存在することを知っている必要があります。」

あまり一般的ではありませんが、AIツールや機械学習モデルを開発している企業の中には、顧客を自動的にオプトインしないところもあります。「当社は、ユーザーが送信したデータでモデルをトレーニングすることをデフォルトでは行いません。ユーザーが明示的に許可した場合、例えば、特定のClaudeの出力に対して親指を立てたり下げたりするなどしてフィードバックを提供するなど、ユーザーのプロンプトや出力を使用してClaudeをトレーニングすることがあります」と、Anthropicの広報担当者であるジェニファー・マルティネス氏は述べています。こうした状況において、同社のClaudeチャットボットの最新版は、オンライン上の公開情報とサードパーティデータ(ユーザーがオンライン上の他の場所に投稿したコンテンツ)に基づいて構築されており、ユーザー情報は利用していません。

このガイドの大部分はテキストのオプトアウトについて扱っていますが、アーティストたちは「Have I Been Trained?」というメッセージを使って、自分の画像がトレーニングに使用されないようにしているというシグナルを送っています。スタートアップ企業Spawningが運営するこのサービスでは、自分の作品がスクレイピングされているかどうかを確認し、今後のトレーニングからオプトアウトすることができます。「URLがあるものはすべてオプトアウトできます。当社の検索エンジンは画像のみを検索しますが、ブラウザ拡張機能を使えばあらゆるメディアタイプをオプトアウトできます」と、Spawningの共同創業者兼CEOのジョーダン・マイヤー氏は述べています。テキストを画像に変換するツール「Stable Diffusion」を開発するスタートアップ企業Stability AIは、以前からこのシステムを尊重すると表明している企業の一つです。

以下のリストには、現在オプトアウトのプロセスを導入している企業のみが含まれています。例えば、Metaはオプトアウトオプションを提供していません。「現在オプトアウト機能はありませんが、Meta AIとのチャットから個人情報を削除できるプラットフォーム内ツールを構築しました」と、Metaの広報担当者であるエミル・バスケス氏は述べています。オプトアウトプロセスの詳細な手順については、こちらをご覧ください。

また、MicrosoftのCopilotは、生成AIトレーニング用の新しいオプトアウトプロセスを発表しました。これは近日中にリリースされる可能性があります。「CopilotとCopilot Proの応答におけるユーザープロンプトの総数の一部は、エクスペリエンスを微調整するために使用されます」と、同社広報担当者のドニー・ターンボー氏は述べています。「Microsoftは、データを使用する前に匿名化の措置を講じ、消費者の個人情報を保護しています。」たとえデータが匿名化され、入力されたデータから、情報源としてあなたを特定できる情報が削除されたとしても、プライバシーを重視するユーザーは、自分の情報に対するより高度なコントロールを求め、オプトアウトの選択肢が利用可能になった際にオプトアウトを選択する可能性があります。

AIトレーニングをオプトアウトする方法

アドビ

画像にはページテキストファイルとウェブページが含まれている可能性があります

Adobe、Matt Burgess経由

AdobeのCreative Cloudにファイルを保存した場合、Adobeはソフトウェアの改善のためにファイルを分析することがあります。これは、デバイス上にのみ保存されているファイルには適用されません。また、Adobeは、1つの例外を除き、これらのファイルを生成AIモデルの学習に使用しません。「Adobe Stockマーケットプレイスにコンテンツを投稿することを選択しない限り、生成AIモデルの学習のためにコンテンツを分析することはありません」と、同社の更新されたFAQページに記載されています。

個人用のAdobeアカウントをご利用の場合は、コンテンツ分析のオプトアウトは簡単です。Adobeのプライバシーページを開き、 「製品改善のためのコンテンツ分析」セクションまでスクロールダウンし、トグルをクリックしてオフにしてください。法人または学校アカウントをご利用の場合は、自動的にオプトアウトされます。

アマゾン:AWS

Amazon RekognitionやAmazon CodeWhispererといったAmazon Web ServicesのAIサービスは、顧客データを同社のツールの改善に利用する場合があります。ただし、AIトレーニングをオプトアウトすることは可能です。これはかつてリストの中で最も複雑なプロセスの一つでしたが、ここ数ヶ月で合理化されました。Amazonのこちらのサポートページでは、組織がオプトアウトするための完全な手順を説明しています。

フィグマ

人気のデザインソフトウェアであるFigmaは、モデルのトレーニングにお客様のデータを使用する場合があります。OrganizationプランまたはEnterpriseプランのアカウントをご利用の場合は、自動的にオプトアウトされます。一方、StarterプランとProfessionalプランでは、デフォルトでオプトインされます。この設定は、チームレベルで変更することができます。設定画面の「AI」タブを開き、「コンテンツトレーニング」をオフにしてください。

Google ジェミニ

Googleのチャットボット「Gemini」のユーザーの場合、AIモデルの改善のため、会話が人間によるレビュー対象として選ばれることがあります。オプトアウトは簡単です。ブラウザでGeminiを開き、「アクティビティ」をクリックし、「オフにする」ドロップダウンメニューを選択します。ここで、Geminiアプリのアクティビティをオフにするか、オプトアウトして会話データを削除することもできます。これにより、ほとんどの場合、今後のチャットは人間によるレビューの対象にはなりませんが、既に選択されたデータはこのプロセスによって消去されません。GoogleのGeminiプライバシーハブによると、これらのチャットは3年間保存される可能性があります。

文法

Grammarlyのポリシーが更新され、個人アカウントでもAIトレーニングをオプトアウトできるようになりました。「アカウント」メニューを開き、「設定」をクリックし、「製品の改善とトレーニング」のトグルをオフにしてください。アカウントがエンタープライズまたは教育機関向けライセンスの場合は、自動的にオプトアウトされます。

グロクAI(X)

ケイト・オフラハティ氏はWIREDに、Grok AIと、チャットボットが動作するプラットフォームXにおけるプライバシー保護について素晴らしい記事を寄稿しました。これは、ウェブサイトの何百万人ものユーザーが、ある日突然、ほとんど通知なくAIトレーニングに自動的にオプトインされたという事例です。Xアカウントをお持ちの場合は、「設定とプライバシー」セクションの「プライバシーとセーフティ」に移動することで、Grokのトレーニングにデータが使用されないようにオプトアウトできます。Grokタブを開き、データ共有オプションの選択を解除してください。

ハブスポット

人気のマーケティング・セールスソフトウェアプラットフォームであるHubSpotは、顧客データを自動的に活用して機械学習モデルを改善しています。残念ながら、AIトレーニングへのデータ利用を停止するボタンはありません。アカウントに関連付けられたデータのオプトアウトを希望する旨を記載したメールを[email protected]まで送信する必要があります。

リンクトイン

キャリアネットワーキングウェブサイトのユーザーは9月、自分のデータがAIモデルの学習に利用されている可能性があると知り、驚きました。「結局のところ、人々はキャリアにおいて優位性を求めており、私たちのgen-AIサービスは、その支援をすることを目指しています」と、LinkedInの広報担当者エレノア・クラム氏は述べています。

LinkedInの新規投稿がAIトレーニングに使用されないようにするには、プロフィールにアクセスして「設定」を開きます。 「データプライバシー」をタップし、 「コンテンツ作成AIモデルのトレーニングにデータを使用する」というスライダーのチェックを外します。

OpenAI: ChatGPTとDall-E

画像にはページとテキストが含まれている可能性があります

OpenAI(マット・バージェス経由)

チャットボットを利用する際、ユーザーは様々な個人情報を開示します。OpenAIは、ChatGPTへのユーザーの発言内容の取り扱いについて、いくつかのオプションを提供しています。その中には、将来のAIモデルがその内容に基づいてトレーニングされないようにするオプションも含まれます。「ChatGPTを通じて個人情報にアクセス、エクスポート、削除するためのセルフサービスツールなど、ユーザーが簡単にアクセスできるデータ管理方法を複数提供しています。これには、モデルのトレーニングにコンテンツが使用されないようにするための、簡単にアクセスできるオプションも含まれます」と、OpenAIの広報担当者であるタヤ・クリスチャンソン氏は述べています。(オプションはアカウントの種類によって若干異なり、エンタープライズ顧客のデータはモデルのトレーニングには使用されません)。

OpenAIはヘルプページで、ChatGPTウェブユーザーでオプトアウトを希望する場合は、「設定」「データコントロール」に移動し、 「すべてのユーザー向けにモデルを改善する」のチェックを外す必要があると述べています。OpenAIはChatGPT以外にも多くのサービスを提供しています。Dall-E 3画像ジェネレーターについては、 「将来のトレーニングデータセット」から削除する画像を送信できるフォームが用意されています。このフォームでは、氏名、メールアドレス、画像の権利を所有しているか、企業を代表して連絡を取っているか、画像の詳細、そしてアップロードした画像があればその情報を入力するよう求められます。

OpenAIはまた、トレーニングデータから削除したい「大量の」オンラインでホストされている画像がある場合、画像がホストされているウェブサイトのrobots.txtファイルにGPTBotを追加する方が「効率的」かもしれないと述べています。

従来、ウェブサイトのrobots.txtファイル(通常はウェブサイト名.com/robots.txtというシンプルなテキストファイル)は、検索エンジンなどに、そのページを検索結果に含めるかどうかを指示するために使用されていました。現在では、AIクローラーに公開されているコンテンツをスクレイピングしないよう指示するためにも使用できるようになり、AI企業はこの方針を尊重すると表明しています。

困惑

Perplexityは、AIを活用してウェブ検索や質問への回答探しを支援するスタートアップ企業です。このリストにある他のソフトウェアと同様に、PerplexityのAIをさらに学習させるために、あなたのインタラクションとデータが使用されることに自動的に同意することになります。これを無効にするには、アカウント名をクリックし、 「アカウント」セクションまでスクロールダウンし、「AIデータ保持」のトグルをオフにしてください。

クオーラ

画像にはページテキストファイルとウェブページが含まれている可能性があります

Quora(マット・バージェス経由)

Quoraは、「現在」ユーザーの質問、投稿、コメントへの回答をAIの学習に使用していないと述べている。また、広報担当者によると、AI学習のためにユーザーデータを販売したこともないという。しかし、将来的に状況が変わった場合に備えて、オプトアウトの選択肢を提供している。オプトアウトするには、設定ページにアクセスし、「プライバシー」をクリックし、「コンテンツで大規模言語モデルの学習を許可する」オプションをオフにする。ユーザーは自動的にこの設定にオプトインする。ただし、この選択にもかかわらず、一部のQuoraの投稿はLLMの学習に使用される可能性がある。同社のヘルプページによると、機械生成された回答に返信すると、その回答がAI学習に使用される可能性があるとのことだ。いずれにしても、第三者がコンテンツをスクレイピングする可能性もあるとQuoraは指摘している。

Rev

Revは、人間のフリーランサーとAIの両方を活用して音声を書き起こす音声書き起こしサービスで、AIシステムのトレーニングに「永続的」かつ「匿名」でデータを使用していると述べている。アカウントを削除しても、その情報に基づいてAIのトレーニングは継続される。

Revのブランドおよびコーポレートコミュニケーション責任者であるケンデル・ケルトン氏は、同社が700万時間以上の音声録音からなる「最大かつ最も多様な音声データセット」を保有していると述べています。ケルトン氏によると、Revはユーザーデータをいかなる第三者にも販売していません。同社の利用規約では、データはトレーニングに使用され、ユーザーはオプトアウトできると規定されています。ヘルプページには、[email protected]にメールを送信することで、データの使用をオプトアウトできると記載されています。

スラック

職場でSlackが発信するランダムなメッセージも、同社のモデル学習に活用される可能性がある。「Slackは長年にわたり、自社製品に機械学習を活用してきました。チャンネルや絵文字のレコメンデーションといった機能のためのプラットフォームレベルの機械学習モデルもこれに含まれます」と、SlackでAIに注力する製品担当バイスプレジデント、ジャッキー・ロッカ氏は語る。

Slackは顧客データをSlack AI製品の大規模言語モデルの学習に使用していませんが、ソフトウェアの機械学習機能を向上させるためにユーザーとのやり取りを利用する場合があります。Slackのプライバシーページによると、これにはメッセージ、コンテンツ、ファイルなどの情報が含まれる可能性があります。

オプトアウトする唯一の方法は、管理者にSlackの[email protected]宛てにメールを送信してもらうことです。メッセージの件名は「Slackグローバルモデルオプトアウトリクエスト」とし、組織のURLを記載してください。Slackではオプトアウト手続きにかかる時間について明確なスケジュールは提供していませんが、手続き完了後に確認メールが届くはずです。

スクエアスペース

ウェブサイト構築ツールのSquarespaceは、AIクローラーによるホスティングウェブサイトのスクレイピングを阻止するトグルを組み込みました。これは、ウェブサイトのrobots.txtファイルを更新し、AI企業にコンテンツへのアクセスを禁止することで機能します。AIボットをブロックするには、アカウント内の「設定」を開き、 「クローラー」を見つけて「既知の人工知能クローラーをブロック」を選択します。この設定は、Anthropic AI、Applebot-Extended、CCBot、Claude-Web、cohere-ai、FacebookBot、Google Extended、GPTBot、ChatGPT-User、PerplexityBotといったクローラーに有効です。

サブスタック

Substackをブログ記事やニュースレターなどにご利用の場合、robots.txtのオプトアウトを簡単に適用できるオプションも用意されています。設定ページの「公開」セクションに移動し、 「AIトレーニングをブロック」をオンにしてください。ヘルプページには、「これは、この設定を尊重するAIツールにのみ適用されます」と記載されています。

タンブラー

WordPressも所有するAutomatticが所有するブログ・出版プラットフォームTumblrは、同社のプラットフォーム上で「公開されている膨大な量の、そして他に類を見ないコンテンツ」に関心を持つAI企業と「協業」していると発表した。Automatticの広報担当者によると、これにはユーザーのメールアドレスやプライベートコンテンツは含まれないという。

Tumblrには、「第三者との共有を防ぐ」オプションがあり、投稿内容がAIトレーニングに利用されたり、研究者などの第三者と共有されたりするのを防ぐことができます。Tumblrアプリをご利用の場合は、アカウント設定に移動し、ブログを選択して歯車アイコンをクリックし、「公開設定」を選択して、「第三者との共有を防ぐ」オプションをオンにしてください。Tumblrのサポートページによると、不適切な内容を含む投稿、削除されたブログ、パスワードで保護されている投稿、非公開の投稿は、いかなる場合でも第三者企業と共有されることはありません。

ワードプレス

画像にはページテキストファイルとウェブページが含まれている可能性があります

Wordpress(マット・バージェス経由)

Tumblrと同様に、WordPressにも「第三者による共有を禁止する」オプションがあります。このオプションを有効にするには、ウェブサイトのダッシュボードにアクセスし、「設定」「一般」→「プライバシー」の順にクリックし、 「第三者による共有を禁止する」チェックボックスをオンにします。Automatticの広報担当者は、「私たちは、ユーザーがコンテンツの使用方法を選択したり制御したりできないまま、コンテンツがスクレイピングされ販売されるのを防ぐため、commoncrawl.orgなどのクローラーとも連携しています」と述べています。

あなたのウェブサイト

独自のウェブサイトをホスティングしている場合は、robots.txtファイルを更新して、AIボットにページをスクレイピングさせないように指示することができます。ほとんどのニュースサイトは、AIボットによる記事のクロールを許可していません。例えば、WIREDのrobots.txtファイルは、Google、Amazon、Facebook、Anthropic、Perplexityなどのボットによるクロールを許可していません。ただし、このオプトアウトはパブリッシャーだけのものではありません。規模の大小を問わず、あらゆるウェブサイトがrobotsファイルを変更してAIクローラーを除外できます。disallowコマンドを追加するだけで、実際に動作するサンプルはこちらでご覧いただけます。