情報源について考える

 チャットGPT型のチャットボットは社会に向けられた鏡に似ており、目に映るものを映し返す。インターネット上の、フィルターのかかっていないデータで自由に訓練を受けさせれば、暴言を吐き出すかもしれない(マイクロソフトのTayが、人種差別的な暴言を繰り返してサービス停止に追い込まれたことをご記憶だろうか)。したがってLLMは、開発者によって適切と判断され慎重に選ばれたデータセットで訓練される。

 しかし、その程度のキュレーションでは、オンラインにある極めて膨大なデータセットに含まれるコンテンツについて、事実上正しく、バイアスがないよう徹底することはできない。

 実際、エミリー・ベンダー、ティムニット・ゲブル、アンジェリーナ・マクミラン・メイジャー、マーガレット・ミッチェル(クレジット名は「シュマーガレット・シュミッチェル」)は研究の中で、「インターネットに存在するテキストに基づいた大規模なデータセットは、覇権主義的な視点を過剰に反映し、社会的に弱い立場の人々に害を及ぼしかねないバイアスを内包している」ことを発見した。

 一例として、チャットGPTの訓練データに使われる主要な情報源の一つはレディット(掲示板型のソーシャルニュースサイト)だが、引用されているピュー・リサーチセンターの調査によれば、米国内のレディットユーザーの67%は男性で、64%は18~29歳だ。

 オンラインでのエンゲージメントにおける、ジェンダーや年齢、人種、国籍、社会経済的状況、支持政党といった人口統計学的要素の不均衡が意味するのは、AIはキュレーションされたコンテンツにおける最も支配的なグループの見解を反映するということだ。チャットGPTはすでに、「ウォーク」(社会問題や社会的な不平等に対する意識が高いことを揶揄する言葉)で「リベラルのバイアス」があると非難されている。

 その一方で、チャットGPTは人種差別的な推奨も提供し、カリフォルニア大学バークレー校の教授がこのAIに書かせたコードでは、白人またはアジア人の男性のみが優秀な科学者であるとされていた。その後オープンAIはこうした事案を回避する対策を講じたが、根本的な問題は残っている。

 従来型の検索エンジンにもバイアスの問題はあり、偏見や人種差別、不正確な内容やその他の不適切なコンテンツを含むウェブサイトにユーザーを導く可能性がある。とはいえ、グーグルは情報源をユーザーに示すガイドにすぎず、コンテンツに関して大きな責任を負うわけではない。ユーザーはコンテンツと文脈情報(その情報源について明らかになっている政治的バイアスなど)を提示され、事実とフィクション、意見と客観的真実を区別するために自身の判断を適用し、どの情報を使いたいかを決める。

 この判断に基づく工程が、チャットGPTでは取り除かれるため、バイアスと人種差別を伴う内容を提供した場合にはチャットGPTが責任を直接負うことになる。

 ここで生じるのが透明性の問題だ。ユーザーは、チャットGPTのようなツールからの回答の裏にはどのような情報源があるのか皆目わからず、AIは情報源を尋ねられても示さない。このため、バイアスがかかった機械が、客観的なツールであり正しいはずだとユーザーに認識されかねない危険な状況が生まれる。オープンAIは、出所を示すよう訓練されたAIツールのウェブGPT(WebGPT)を通じてこの課題への対処に取り組んでいるが、有効性はまだ定かではない。

 情報源をめぐる不透明性は、別の問題にもつながる。生成AIのアプリケーションは訓練データからコンテンツを盗用する可能性があることが、学術研究と事例証拠で示されている。言い換えれば、元のコンテンツの作成者は、自分が著作権を持つ作品が訓練データに含まれることに合意しておらず、使用に対する報酬も得ておらず、何のクレジットも与えられていない。

『ニューヨーカー』誌は先頃、生成AI企業のミッドジャーニー、ステーブル・ディフュージョン、ドリームアップに対する集団訴訟に関する記事の中で、これを「3つのC」(著作権、報酬、クレジット)と述べている。マイクロソフト、オープンAI、ギットハブなどに対しても訴訟が起きており、法と倫理をめぐる新たな争いの波が到来しているようだ。

 盗用も問題だが、LLMが単に話をでっち上げる場合もある。たとえばグーグルのバードは、デモの最中にジェームズ・ウェッブ宇宙望遠鏡について事実に反する情報を提供するという、公の場での大失態を犯した。同様にチャットGPTも、経済学で最も多く引用された研究論文はどれかと尋ねられ、完全に架空の研究を引用して答えた。

 こうした問題があるため、チャットGPTおよび後発のLLMは、情報探索やコンテンツ制作で役立つには大きな課題を克服しなくてはならない。学界や企業など、ごく小さな過ちでもキャリアに壊滅的な影響が及びかねない場での活用に関しては、なおさらである。