既存のLLMをプロンプトチューニングする
非クラウド型のベンダー企業にとって、LLMのコンテンツをカスタマイズする最も一般的なアプローチは、プロンプトを通じてチューニングを行うことだろう。元のモデルは凍結させ(重み付けを変更せずに)、コンテキストウィンドウ(LLMが応答を生成する際に処理できるデータの量) の範囲内で、領域固有の知識を含むプロンプトを通じて調整するという方法だ。
プロンプトチューニングを経たモデルは、当該の知識に関連する質問に答えることができる。3つのアプローチの中ではこれが最も計算効率がよく、新たなコンテンツ分野で訓練するための大量のデータも必要ない。
例としてモルガン・スタンレーは、投資、ビジネス一般、投資プロセスに関する重要知識を含む慎重に精選された10万点の文書を用いて、オープンAIのGPT-4モデルにプロンプトチューニングを適用した。目標は、同社のファイナンシャルアドバイザーに、クライアントへの助言業務の中で遭遇する重要事項に関する知識を、正確かつ簡単にアクセスできる形で提供することだ。プロンプトチューニングされたシステムは、モルガン・スタンレーの従業員のみがアクセスできるプライベートクラウドで運用されている。
3つのアプローチの中では、これが最も組織で採用しやすいと思われるが、技術的課題と無縁なわけではない。LLMへの入力にテキストなどの非構造化データを使う際、そのデータはLLMのコンテキストウィンドウに直接入力するには大きすぎ、重要な属性があまりに多く含まれている可能性が高い。
これに代わる手段は、「ベクトル埋め込み」の作成だ。ベクトル埋め込みとは、事前学習済みの別の機械学習モデル(モルガン・スタンレーはオープンAIのAda〈エイダ〉を使用)によってテキストから生成された、数値の配列である。テキストデータをよりコンパクトに表現し、テキスト内の文脈関係を保持する。ユーザーがシステムにプロンプトを入力する際、どのベクトルをGPT-4モデルに送信すべきかを類似性アルゴリズムが判断する。
プロンプトチューニングにおけるこのプロセスを容易にするツールが一部のベンダーから提供されているが、それでも十分に複雑であり、このアプローチを採用する企業の大半は熟練のデータサイエンス人材を必要とするだろう。
とはいえ、必要なコンテンツがすでにある場合、このやり方はあまり時間と費用をかけずに済む。例として投資調査会社のモーニングスターは、生成AIによる調査アシスタントツールのMo(モー)にプロンプトチューニングとベクトル埋め込みを用いた。Moはモーニングスターの1万件に及ぶ調査を取り込んでいる。
わずか1カ月ほどのシステム開発期間を経て、同社はMoを社内のファイナンシャルアドバイザーと独立系投資家顧客に開放した。さらに、質問に対して音声で答えるデジタルアバターをMoに搭載した。この技術的アプローチは高額ではなく、運用開始から最初の1カ月でMoは2万5000件の質問に答え、1問当たりの平均コストは0.002ドル、総コストは3000ドルであった。
コンテンツの精選とガバナンス
マイクロソフトのシェアポイントのような情報共有データベースに文書を読み込ませる従来型のナレッジマネジメントと同じように、生成AIに関しても、LLMを何らかの方法でカスタマイズする前に、コンテンツが良質でなくてはならない。
グーグルのMed-PaLM2システムのように、すでに精選され広く利用できる医療知識のデータベースが存在するようなケースもある。そうでない場合、企業は使用する知識コンテンツが正確かつタイムリーで、複製されたものではないよう万全を期すため、人間による精選に頼る必要がある。
例としてモルガン・スタンレーでは、フィリピンに20人ほどの知識管理者のグループを配置し、常に複数の要件に従って文書をスコアリングしている。その結果によって、GPT-4システムへの取り込みの適否が判断される。十分に精選されたコンテンツを持たない企業の大半は、このように目的に特化して管理を行うことは難しいだろう。
モルガン・スタンレーはまた、コンテンツの作成者が効果的な文書の作成方法を把握していれば、良質な知識の保持が格段に容易であることを発見した。同社のコンテンツ作成者は2つの研修を義務づけられている。一つは文書管理ツールについて、もう一つは文書の書き方とタグ付けの方法についてである。これは同社のコンテンツガバナンスのアプローチにおける一要素であり、重要なデジタルコンテンツを確保し、管理するための体系的な手法だ。
モーニングスターのコンテンツ作成者は、どのような種類のコンテンツがMoのシステムに適しているのか、どれが適していないのかについて教え込まれる。作成者は成果物をコンテンツ管理システムに送信し、それらはベクトル埋め込み用のデータベースに直接取り込まれ、オープンAIのモデルに供給される。
質の確保と検証
生成AIコンテンツの管理において、質の確保は重要な要素だ。生成AIは時折「幻覚」を起こすことが広く知られており、誤った事実や存在しない事実を自信たっぷりに述べることがある。この種のエラーは企業にとって問題となるが、医療用アプリケーションにおいては生死に関わりかねない。
幸いにも、LLMを領域固有の情報でチューニングした企業は──少なくとも、長々としたやり取りや、ビジネスと無関係なプロンプトがない限り──初期設定のLLMに比べ、幻覚の問題は少ないことを発見している。
生成AIベースのナレッジマネジメントを採用する企業は、検証方針を策定すべきだ。たとえば、金融と投資に関する質問に答えることを目的とするブルームバーグGPTは、公開データセットに基づく金融タスク、固有表現抽出、センチメント分析能力、一連の推論と一般的な自然言語処理タスクに関して検証を行なっている。
患者と医師からの医療関連の質問に答えることを最終目的とするグーグルのMed-PaLM2システムには、医療分野において正確性と安全性が重要であることを踏まえ、詳細な検証方針が適用された。
モルガン・スタンレーでは生死に関わる事項は扱わないが、金融と投資に関する質問に対して精度の高い応答を生成することは、同社とそのクライアント、および規制機関にとって重要だ。
同社のシステムが提供した回答は、ユーザーへの公開前に人間の評価者によって入念に検証された。その後、300人のファイナンシャルアドバイザーを対象に数カ月間の試験運用が行われた。同社は継続的な検証のための主な手段として、正解がわかっている400の「黄金の質問」を用意している。システムに変更が加えられるたびに、従業員は黄金の質問でテストを行い、「リグレッション」(変更の影響で不具合が生じること)、つまり精度の低い回答がないか検証する。
法とガバナンスにまつわる問題
LLMの実装に伴う法的およびガバナンス上の問題は、複雑かつ変化の途上にあり、知的財産、データのプライバシーとセキュリティ、バイアスと倫理、虚偽または不正確な出力などをめぐるリスク要因につながる。
現在のところ、LLMの出力の法的位置付けはいまだ不明瞭だ。LLMは、モデルの訓練に使われたテキストの完全な複製を生み出すわけではない。このため法律関係者の多くは、著作権法における「フェアユース」規定が適用されるだろうと考えているが、裁判所の判断は下されていない(そして、すべての国々が著作権法でこうした規定を設けているわけではない)。
いずれにせよ、生成AIを知識の管理や、ほかの多くの目的にも広く活用する企業はすべて、チューニングされたLLMによる生成とガバナンスのプロセスに関わる法定代理人を設けるのが得策だ。たとえばモーニングスターでは、どのような種類の質問に答えるべきか、丁重に避けるべき質問はどれかを生成AIシステムに教える一連の「事前プロンプト」の作成に、同社の弁護士が協力した。
一般公開されているLLMに入力されるユーザーのプロンプトは、今後のバージョンを訓練するために使われる。このため一部の企業(サムスンなど)は機密情報と個人情報の漏洩を恐れ、従業員によるLLMの使用を禁止している。
とはいえ大半の企業では、領域固有のコンテンツによるLLMのチューニング作業は、一般ユーザーがアクセスできないプライベートインスタンスで行われているため、この問題はないはずだ。加えて、チャットGPTなど一部の生成AIシステムは、チャット履歴の収集をユーザー側でオフにできるようにしているため、公開型のシステムでも機密保持の問題への対処は可能である。
一部のベンダーは機密保持とプライバシーの懸念に対処するために、LLM向けの高度で優れた安全・セキュリティ機能を提供している。ここにはユーザーのプロンプトの消去、特定のトピックの禁止、一般からアクセス可能なLLMへのソースコードと専有データの入力防止などが含まれる。
さらに、企業用ソフトウェアシステムのベンダーは、製品とサービスに「トラストレイヤー」を取り入れている。例としてセールスフォースは、同社が提供するAIクラウドの一連のサービスに「アインシュタインGPTトラストレイヤー」を搭載した。LLM機能の迅速な実装を望む企業と、それらのシステムがビジネス環境に突きつける前述のリスクとの間に存在する、「AIへの信頼性の不足」に対処することが目的だ。