非構造化データの品質向上こそ、AIの成功に直結する
Illustration by Rocío Egio
サマリー:企業が生成AIを有効活用するには、高品質な非構造化データの整備が不可欠である。検索拡張生成(RAG)の導入には、データの質が成否を左右し、その改善にはリーダーシップの関与や関係者全体での協調的な取り組みが... もっと見る必要となる。文書のタグ付けやキュレーションを含む地道な作業が不可欠であり、人的・技術的な工夫を組み合わせて継続的に進めなければならない。本稿では、RAG活用に向けた具体的なプロセスと対策を紹介する。 閉じる

企業にはRAGアプリを構築する必要性がある

 企業のコンテンツの大部分は、業務プロセスを通じて生み出されるメールや契約書、各種フォーム、シェアポイントのファイル、会議の録音といった「非構造化データ」の中にある。

 生成AIはこれらの専有コンテンツによって、独自性を高め、自社の製品とサービスに関する知識を深め、ハルシネーションを起こしにくくなり、経済価値を生みやすくなる。筆者らがインタビューしたある最高データ責任者(CDO)が指摘したように、「単にコパイロットをインストールするだけでは、大きな投資対効果は見込めない」のだ。

 多くの企業は、生成AIによる価値の大半は、大規模言語モデル(LLM)の驚異的な言語能力、推論能力および一般知識と、自社独自のコンテンツを組み合わせることで生じる、という結論に達している。この組み合わせは、たとえばカスタマーサービスやマーケティング、法務、ソフトウェア開発などにおける企業用生成AIアプリや、顧客向けの製品・サービスの提供において必要となる。

 企業独自のコンテンツを追加するために最も多用されている方法は、データベースなどの従来の情報収集ツールと、LLMによって検索された情報を組み合わせる「検索拡張生成」(RAG)である。理由は、プロンプトに大量のコンテンツを投入するのは技術的に実行不可能か、またはコストがかかる場合が多いからだ。RAGの手法は技術的には複雑だが、用いられる非構造化データの品質が高ければ、非常に実用性があり、ユーザーのプロンプトに対して正確な回答を生み出す。

 ここで課題がある。非構造化データは往々にして品質が悪く、陳腐化、重複、不正確、構成がお粗末といったもろもろの問題を抱えている。

 ほとんどの企業は、構造化されたデータの品質さえうまく管理できていない。商取引の完遂やパフォーマンスの把握のために、毎日使われているにもかかわらずだ。非構造化データとなると、さらに厳しい。

 非構造化データへの真剣な取り組みが最後に行われたのは、ナレッジマネジメントが流行した1990年代から2000年代に遡る。その大半は失敗に終わった。ほとんどのリーダーは、データ品質の低さが生成AIの取り組みを妨げていることを認識しており、生成AIが登場するまで非構造化データをあまり重視してこなかったことが、調査で明らかになっている

 当然ながら、データ品質の問題に対処する最善の方法は、問題を未然に防ぐことだ。AIに本腰を入れる企業は、この目的に特化した施策を長期的に展開しなければならない。たとえば、文書を作成する人は、それらの品質を評価して主要要素をタグ付けすることを学ぶ必要がある。ただし、これには極めて協調的な努力が求められ、短期では奏功しない。