生成AIの出力の価値は、何によって高まるのか

 最近の業界レポートによれば、「中核的」なクリエイティブ産業──とりわけ書籍、エンタテインメント系ソフトウェア、定期刊行物、映画、音楽作品、テレビ番組、ビデオゲームなどを制作する業界──は、2021年の米国GDPに1兆8000億ドルの貢献をしたという。

 これは米国経済のおよそ8%に相当する。したがって、これらの業界の許諾を得ていない著作物を、生成AI企業がモデルの学習に利用していることは、広く報じられているように大きな問題である。産業界のリーダー学術研究はすでに、他の重要な経済分野でも生成AIツールが労働者に取って代わっていることを指摘している。クリエイティブアーティストも同じ目に遭いかねないことは、容易に想像できる。

 こうした理由から、クリエイティブ産業の権利者たちは、無許可の著作物をモデルの学習に利用されたとして、生成AI企業を相手取り米連邦裁判所に40件以上の訴訟を起こしている。

 2025年6月にカリフォルニア北部地区の2つの裁判所は、これらの訴訟に関する最初の2つの判決を下した。どちらの判決も、権利者にとって特に望ましいものではなかった。

 1つ目の訴訟「バーツ対アンソロピック」では、3人の作家がアンソロピックを訴えた。ウィリアム・アルサップ判事は、著作物を生成AIに学習させることはフェアユース(公正利用)にあたり、したがって権利者への補償をせずに行うことができると判断した。「作家を目指すあらゆる読者と同じように、アンソロピックのLLMはそれらの作品を他に先駆けて複製したり、代替したりするためではなく、方向を大きく変えて異なる何かを生み出すために訓練されている」とアルサップ判事は述べた。

 2つ目の訴訟「キャドリー対メタ・プラットフォームズ」では13人の作家がメタを訴えた。ビンセント・チャブリア判事は異なる立場を取り、LLM生成コンテンツは人間が生み出した創作物とは根本的に異なるため、著作物を無許可で学習に利用することはフェアユースに該当しない可能性が高い、と判断した。「子どもに文章の書き方を教えるために本を用いることと、一個人が無数の競合作品を、本来必要とされるよりもはるかに少ない時間と創造力で生み出せてしまう製品の開発に本を用いることは、まったく似ていない」とチャブリア判事は結論づけた。

 筆者らはデジタル・トランスフォーメーション(DX)研究の専門家であり、この問題について熟考を重ねてきた。たとえば最近では、米国著作権局から招集された10人のエコノミストによる会議に参加し、生成AIが著作権政策にもたらす影響について検討した。

 2つの判決は、この問題をめぐる最終決着からはほど遠いと筆者らは認識している。両方とも第9巡回区控訴裁判所に上訴され、その後は最高裁判所に持ち込まれることが確実だろう。しかしその間にも、生成AIがビジネスに与える影響について、これらの判決から学べる教訓がすでに多くあると思われる。クリエイティブ産業と生成AI企業、双方のリーダーにとって有益となる教訓だ。

権利者への教訓

 現在の環境における権利者は、自身のビジネスを守るためにいくつかの対策を講じることができる。

自身の著作物を学習コーパスから削除できることを認識する

 著作物がひとたびLLMの学習コーパスに取り込まれると、削除する方法はないとなれば、もはや闘いに敗れたと考えたくもなるだろう。

 実はそうではない。LLMは新しいメジャーバージョンをリリースする際(たとえばチャットGPT-3からチャットGPT-4への移行時など)、通常は新モデルを完全な学習コーパスで再学習させる。このタイミングで、LLMは権利者の著作物を学習コーパスから削除する機会があり、権利者は削除の実行を指示する裁判所命令を得る機会がある。

著作物を無許可で利用している生成AI企業に対し、権利を行使する

 権利者は、自身のコンテンツが正式な許可なくLLMの学習に使われていると確信している場合、みずからの法的権利を守るために裁判所に訴えている40余りの原告のリストに、いまこそ名を連ねるべきかもしれない。最近のいくつかの判決で、将来の原告がどのように申し立てれば主張が認められるのかに関する要点が示されていることを踏まえれば、なおさらだ。つまり、生成AIモデルが使われることで、そのモデルの学習に無料で協力するよう求められているアーティストたちの生計が破壊されかねないことを、裁判所に納得させるのだ。これは高いハードルだが、何もしないよりはよい。

適宜ライセンスを供与する

 ハーパーコリンズ、ユニバーサルミュージック、レディット、シャッターストック、『ウォール・ストリート・ジャーナル』紙などを含む70を超える権利者は、生成AI企業によるモデルの学習向けに自社コンテンツのライセンスを供与している。まだ使用許諾を与えていない権利者は、いまこそライセンス契約を検討すべきかもしれない。たとえば、特定のモデルの学習向けにキュレーションしたデータセットを作成することで、AI開発者を惹きつけるといった方法が考えられる。

 こうしたライセンス契約を結ぶ際の課題は、フェアユースに関する裁判所の判断の方向性を考えると、交渉が不利である点だ。とはいえ、権利者側にはタイミングのよさと精度という強みがある。生成AI企業は関連訴訟が裁判所で進展するのを待つよりも、いまコンテンツのライセンス料を支払うかもしれない。そして、ウェブを無差別にスクレイピング(自動収集)して得られるものよりも、クリーンで信頼性が高く、キュレーションされたデータセットにならば支払いを惜しまないかもしれない。

著作物をオープンウェブから削除することを検討する

 多くのIP事業者は、自社のビジネスモデルを推進するためにコンテンツの一部を一般公開する。IPのさまざまな分野で、広告ベースのビジネスモデルを支えるためにコンテンツが「無料」で提供されるケースがある。ユーチューブで大量に見られる、映画の一場面を切り取った広告付き動画などが例だ。企業によっては「フリーミアムからプレミアムへ」のモデルも取り入れ、消費者には一部の無料コンテンツが提供されるが、より便利なチャネルやコンテンツ全体には課金が必要となる。毎月5~10本の無料記事を提供し、その後に定期購読を求めるウェブサイトを考えればよい。

 これらの戦略は生成AI以前には合理的だったが、いまやルールは変わった。自身のコンテンツをオープンなウェブ上で公開することのメリットと、著作物が自身の同意を得ずにLLMの学習に利用されることの損害を、どう天秤にかけるのか。この点を考え直すことが理にかなっている。最も大型のライセンス契約の一部は、生成AI企業によるスクレイピングが困難だった有料コンテンツが対象であることを考えれば、なおさらだ。

オープンウェブ上の著作物を保護する

 ウェブスクレイピングに関していえば、権利者はオープンウェブ上に残っている自身のあらゆるIPの保護に努めるべきだ。実行できる方法はいくつかあるが、どれも完璧ではない。

 権利者はrobots.txtというファイルを使用して、AIのクローラー(ウェブを巡回して自動的に情報を収集するプログラム)にサイトのコンテンツをスクレイピングしないよう指示することができる。これはLLMがサイトのrobots.txtファイルを尊重する場合にのみ機能するが、出発点にはなる。

 さらに、ウェブホスティング企業がLLMのスクレイピング機能をブロックするという方法や、コンテンツの一部にアクセスしようとするAIエージェントに対して収益化の方針を設けるといった方法がある。最後に、一般公開されている画像系IPを生成AIの学習に使われないよう保護する、グレイズ(Glaze)やナイトシェード(Nightshade)といった新しいツールがある。

生成AI企業への教訓

 生成AI企業のリーダーは、裁判所のこれまでの判決を踏まえれば、現状のやり方を続けるべきだと考えるかもしれない。しかし、それは間違っている可能性がある。裁判所が解決を図っている間に、以下のことを考えて実行すべきだ。

金銭的リスクを考慮する

 アルサップ判事は、著作物データをアンソロピックのLLMに学習させた行為はフェアユースであると認めたとはいえ、重要な但し書きをつけている。著作物データは、海賊版を通じて入手されたものであってはならないということだ。具体的には、「通常の方法で入手可能な本の海賊行為を働くことは、たとえ海賊版がただちに変容的な利用に使われるとしても、本質的かつ取り返しのつかない侵害である」とアルサップは述べている。

 これは、海賊版の利用には膨大な金銭的リスクが伴うことを意味する。合衆国法典(第17編第504条)によれば、著作権保有者は侵害された著作物1点につき最大3万ドル、侵害が故意であると裁判所が判断した場合には最大15万ドルの法定損害賠償を受けることができる。

 アルサップ判事は、アンソロピックが学習用データとして700万冊の海賊版書籍を利用したと認定し、「アンソロピックの中央ライブラリの構築に使われた海賊版、およびその結果生じた実害または法定損害(故意性も含む)」に関して裁判を受けるよう同社に命じた。700万冊と、1冊あたり15万ドルの潜在的損害を掛け合わせた額は、潜在的に膨大な金銭的リスクである。正確には1兆500億ドルだ。

 これはアンソロピックだけの問題ではない。「キャドリー対メタ・プラットフォームズ」における証拠開示では、メタは少なくとも82テラバイト分の海賊版書籍のデータをモデルに学習させたことが判明した。他にも「トレンブレイ対オープンAI」や「オナン対データブリックス」といった訴訟で、同様の海賊版「シャドウライブラリ」が学習に使われたと主張されている。

ライセンス契約を結ぶ

 こうした金銭的リスクを踏まえれば、いまこそ権利者とのライセンス契約を検討すべき時かもしれない。特に最近の判例を受け、短期的には権利者がより積極的に販売に応じてくれる可能性が高い。

オプトアウトのツールを開発し、権利者が学習用データセットから自身のコンテンツを除外または削除できるようにする

 権利者からの訴訟に直面しているユーチューブやフェイスブックなどの企業は、権利者によるプラットフォームからのコンテンツ削除を可能にするツールを開発した。いまこそ生成AI企業も同様のツールを開発する絶好の機会だろう。

無許可のデータをさらに入手することの価値と、法的リスクを天秤にかけて再考する

 AI研究組織のエルーサーAI(EleutherAI)は先頃、コモン・パイル(Common Pile)v0.1という8テラバイトのデータセットをリリースした。同社の主張によれば、これは完全にオープンソースまたはオープンライセンスのコンテンツのみで構成されている。さらに、このデータセットを用いて同社のLLMに学習させたところ、モデルは無許可の著作物データを用いた場合と同等の性能を発揮したという。開発者らはブログ記事で、「無許可のテキストが性能を向上させるという一般的な考え方は、正当化されない」ことを彼らの研究は示唆していると述べた。

 筆者らはこれらの主張を独自に検証することはできない。しかし、無許可(かつ往々にして海賊版)の著作物を用いることで生じる法的リスクの可能性を踏まえれば、生成AI企業は、無許可の著作物の利用を増やすことの限界利益が、さらなる法的および金銭的リスクに見合うかどうか自問するのが得策だろう。

* * *

 生成AIは産業と社会に多くの形で恩恵をもたらす可能性を秘めている。だがその可能性を実現するためには、テック企業とクリエイティブ産業の間で、より強く透明性の高い協力関係が必要となる。現状のまま進めば、現在および将来に生成AIの出力の価値を決定づける、金の卵を産むガチョウ──この場合は作家、ミュージシャン、コーダー、映像作家など──を殺すことになりかねない。


"Can Gen AI and Copyright Coexist?" HBR.org, July 16, 2025.