熟考の問題

 LLMは一見すると、熟考する能力を持ち、思考らしき理路整然とした推論を提示できるように見える。だが実際には、薄っぺらな複製を生み出しているだけであり、それらは危険なものにもなりうる。

 たとえば、あるファイナンシャルアドバイザーが何を推奨するか迷っており、助言内容についてLLMに相談するとしよう。LLMは特定の投資戦略を推奨し、その助言の裏にあるとされる根拠も合わせて示すかもしれない。

 しかし、騙されてはならない。たとえLLMがアウトプットの根拠を提示しているように見えても、実際には言葉の組み合わせの予測に基づいて、もっともらしい理由を生成しているにすぎない。

 この点は少しわかりにくいので、時間をかけて考えてみよう。

 LLMは、ある言葉に対して、最も筋の通る次の一連の言葉を見つける作業をしている。そのアウトプットは、ユーザーにとってつじつまが合っている必要がある。GPT-4のような最近のLLMの驚くべき点は、自分が何を言っているのかを知らないまま、つじつまを合わせられることだ。LLMは自分のアウトプットを理解していない。言葉の意味を把握していない。次に来る言葉を予測することに、驚くほど優れているのだ(完璧からは程遠いが)。

 つまり、なぜXを推奨したのかLLMに説明を求めても、実際にはXを推奨した理由を説明してくれるのではない。その時点までに生み出された対話に対して、つじつまが合うとLLMが「考える」次の言葉を予測するのである。理由に関するアウトプットを提供するわけではないため、Xを推奨した理由を明確に示すことはない。

 LLMは熟考も判断もしない。次に来る言葉の確率を予測するだけだ。そのアウトプットは理由ではなく確率に基づいているため、Xを推奨した理由を提示することはできない。むしろ、LLMは理由を捏造する。疑うことを知らないユーザーにとっては、それは純粋にアウトプットの裏にある根拠のように見える。

 これは、少なくとも2つの問題を生む。 

  第1に、人々が容易に騙されてしまう。

 たとえばあるユーザーが、自動化バイアスと怠惰、スピードへの欲求を克服したうえで、LLMに答えの根拠を詳しく尋ねるとしよう。おそらくユーザーが最初にLLMに相談した理由は、複雑な状況下で答えに確信が持てなかったためだろう。

 LLMは推奨の論理的根拠(とされるもの)を、粘り強く権威ありげに説明する。するとユーザーは、権威があり熟慮に富むように一見思えるLLMに、従いやすくなる。この時点で、バイアスと怠惰、スピードへの欲求の克服に努める以前の状態に戻ってしまっている。

 第2に、人による熟考が重要な場合がある。

 成果だけが重要な状況もあるが、私たちにとって(あるいは少なくとも一部の人にとって)、自分を適切に扱う方法について熟考してくれる相手がいることが重要な状況もある。

 たとえば刑事司法の場では、判事が正しい答えを出すことだけでなく、判事が熟考を行うことも重要かもしれない。取り扱う人と事件について考えることは、判事が尊重すべき要素の一つである。その判断をコンピュータに押しつけるのは、間違いなく倫理的に好ましくない。

 同様に、私たちはお金に関する優れた助言がほしいが、その助言は、自分にとって何が最善かを積極的に熟考してくれる相手から提供されているという事実も知っておきたい。大きな利害が絡む状況では特に、関わりの中で排除したくない人的要素がある。

 さらにいえば、たとえ読者のあなたがそう思わなくても、あなたの組織の顧客の中にはそのように感じる人がいるはずだ。その場合、人的要素を維持したい顧客の希望を尊重し、熟考する人間を、熟考の振りをするソフトウェアに置き換えないことが求められる。

 ハルシネーションの問題と同様に、熟考の問題に対すr解決策はデューディリジェンスのプロセス、監視、人間の介入である。