この最後の要素について、少し考えてみてほしい。これらのモデルは、それ以前に人間によって執筆された文章を利用して訓練される。その意味では、実質的に「オートコンプリート」的な作業を繰り返すことによって文章を紡ぎ出しているといえる。スマートフォンに言葉を入力する際にオートコンプリート機能を用いた時のことを考えればわかるように、この種の機能はまずまずの成果を上げるものの、完璧とは言いがたい。
では、チャットGPTはどのようにして、平均的な人間の書き手よりも質の高い文章をつくり出しているのか。チャットGPTは、訓練のために与えられた文章──良質のものもあれば、質の悪いものもあるだろう──の質をどうやって判断しているのか。そして、チャットGPTはどうして、非倫理的な言葉を吐き出す存在にならずに済んでいるのか(マイクロソフトが開発したAIチャットボット「テイ」は、ツイッター(現X)にたった1日触れただけで、差別的な暴言をまき散らすようになった)。
ウルフラム・リサーチのCEOであるスティーブン・ウルフラムのような人たちによれば、LLMは、基本的な文法のルールを学びつつあるという。たしかに、基本的な文法のルールを学べば、読み手が理解可能な文章をつくり出せるようにはなるだろう。しかし、明晰で説得力のある文章を生み出せるようになるわけではない。
チャットGPTの開発元であるオープンAIの研究者たちが2022年に発表した論文に、この点に関する重要な手掛かりが記されている。その論文では、どのようにして手つかずのLLMを取り出し、現実の人々にアウトプットを提供させているのかを説明している。それによると、ほとんどのケースでは、評価役の人たちに、それぞれの判断に従い、同じ命令に対するいくつかの返答の候補をランク付けして評価するように求める。評価の基準は、細かく具体的に示される(有益性、真実性、無害性を重んじて判断することを求める)。明確な指示を言い渡し、人間対人間の形で訓練を行えば、こうしたことに関して異なる人たちの意見が簡単に一致する可能性があることがわかった。
このランキングに基づいて、アルゴリズムをいじり、「微調整」を加える。モデルが人間の判断を学習し、ポジティブな反応やネガティブな反応を取り込む形で調整されるのだ。その調整においては、ランキング評価の高かった文章は好ましいものと位置づけられ、ランキングの低かった文章は好ましくないものと位置づけられる。
興味深いことに、何十億ページもの文章をもとに訓練を受けたモデルでも、わずか数千件の人間の判断(ランキング評価)を与えられるだけで、あらゆる問いかけに対して、高いランキング評価を受けられる回答を示し始める。こうした現象は、評価役の人たちがランク付けを行ったテーマとは遠くかけ離れているように見えるテーマに関しても見られる。つまり、文章の質についての人間の評価をモデルに与えると、それは何らかの形でモデル全体に浸透するようだ。
このプロセスで評価役を務めた人たちがやっていることは、実質的に報酬関数エンジニアの仕事にほかならない。統計モデルの場合は、そのアウトプットを理解できない人がしばしばいるのに対し、LLMの場合は平易な言葉でやり取りできる。そのため、誰でもモデルに判断を教えるために一役買うことができるのだ。言い換えると、言葉を話せるか、タイピングができる人なら誰でも、報酬関数エンジニアが務まる。
チャットGPTの土台を成した目覚ましい成果は、比較的少ない労力により、報酬関数エンジニアがLLMを訓練して、有益で安全なものにできるようにしたことだった。オープンAIはそうやって、実世界に解き放たれた後も、過去のAIチャットボットの類いが陥った問題にさいなまれることのない、一般向けのモデルを送り出すことができたのだ。
人間の判断をコード化して機械に与えるというシンプルな方法によって、AIのパフォーマンスは飛躍的に向上した。これにより、機械は、蓋然性の高い順番に言葉を並べるだけでなく、報酬関数エンジニアたちの判断をもとに、読者にとって魅力的な文章を紡ぎ出すこともできるようになった。機械が人間の判断を取り込むための手軽な方法が見出された結果、予測マシンがさまざまな状況で報酬とリスクを判断する能力が強化されて、大きな違いが生まれたのだ。
AIを土台にした予測マシンを意思決定で大々的に活用しようと思えば、専門の報酬関数エンジニアが必要になる。このように人間の判断をコード化して機械に与えるための直感的なアプローチ──それは要するに、人間のフィードバックに基づいた学習により微調整を行うアプローチといってよい──が編み出されたことの意義は大きい。人間の判断を先回りしてコード化することは難しくても、実際の人間の判断を取り込むことが比較的容易な領域においては、こうしたアプローチを用いることにより、AIをさまざまな有益な用途で用いるための扉が開かれる可能性があるのだ。
"How Large Language Models Reflect Human Judgment," HBR.org, June 12, 2023.