生成AIはまだ検索に革命的変化をもたらさない
Illustration by Adamastor
サマリー:生成AIを活用することで大きな効果を発揮する分野としてオンラインの「検索」機能がある。本稿では、検索に生成AIを用いる際の課題や、検索技術の歴史から考察する。現在の騒ぎが落ち着き、技術がコモディティ化した... もっと見る時に現実と限界が露呈する。それまでに注視すべきは、法的および倫理的課題への対処に注力しながら生成AIを手がける企業だという。 閉じる

生成AIが検索を変える

 チャットGPTは熱狂を巻き起こした。2022年11月末にオープンAIがこの大規模言語モデル(LLM)をリリースして以降、生成AI(チャットGPTはその一つにすぎない)が知識、研究、コンテンツ制作のあらゆる常識をいかに変えうるかについて、憶測が広がっている。また、労働力が再編され、従業員が成功するために必要なスキルも変化し、産業全体が一変する可能性さえあるとも推測されている。

 生成AIの開発競争で、勝者が大きな優位を得られる分野として顕著なのは、検索だ。生成AIによって、ユーザーが検索に求めるものが劇的に変わる可能性がある。

 オンライン検索における長年の勝者であるグーグルは、突如としてマイクロソフト傘下の挑戦者に直面した模様だ。マイクロソフトは先頃、チャットGPT開発元のオープンAIに100億ドルを投資し検索エンジンのビング(Bing)を含む同社のさまざまなプロダクトにこのツールを組み込む計画を発表した。

 一方、グーグルも独自のAIツールのバード(Bard)をリリース予定であり、中国の巨大テック企業バイドゥ(百度)も、チャットGPTの競合プロダクトのリリースを準備している。生成AIのスタートアップにも巨額の資金が流れ込んでいる。

 しかし、チャットGPTと生成AI全体をめぐっては過剰な期待とは裏腹に、大きな現実的、技術的および法的な課題がある。グーグルのような確立された検索エンジンと同等の規模、堅牢性、信頼性を実現するためには、これらの課題が克服されなくてはならない。

過去の検索技術

 検索エンジンが主流となったのは1990年代初期だが、中核的な手法はその後も変わらず続いた。インデックス化されたウェブサイト群を、ユーザーにとって最も関連性が高い順番で並べるというものだ。この「検索1.0」の時代には、ユーザーは検索エンジンに尋ねるにはキーワードまたはキーワードの組み合わせを入力する必要があった。

 2000年代後期、セマンティック検索の登場とともに「検索2.0」が始まり、ユーザーは人間とやり取りをしているかのように、自然な言葉を入力できるようになった。

 グーグルは3つの要因によって、リリース直後から検索を支配した。シンプルですっきりとしたユーザーインターフェース、適切な検索結果を提供するページランクという革命的なアルゴリズム、そして爆発的なボリュームで絶え間なく拡張するグーグルの能力である。グーグル検索は、ある明確に定義された用途に応えるには完璧なツールだった。すなわち、ユーザーが探している情報を掲載しているウェブサイトを見つけることである。

 だが現在、新たな用途が台頭しつつあるようだ。グーグルもバードに関する発表の中で認めているように、ユーザーはいまや検索クエリに関連するウェブサイトの一覧に留まらず、「より深いインサイトと理解」を欲している。

 これこそまさに、「検索3.0」が行うことである。ウェブサイトではなく、答えを提供するのだ。グーグルは、私たちの質問に答えてくれる図書館内の本を指し示してくれる同僚だった。チャットGPTは図書館のすべての本をすでに読んでおり、私たちの質問に答えることができる同僚である。理論的にはそうなのだ。

 しかし、第1の問題もこの部分にある。現在の形のチャットGPTは、検索エンジンではない。その最大の理由は、ウェブをクロールする検索エンジンのようにリアルタイムで情報にアクセスするわけではないからだ。チャットGPTは、2021年10月時点までの膨大なデータセットで訓練された。この訓練プロセスによって、驚異的な量の静的知識と、人間の言語を理解して生成する能力が与えられた。

 だが、それ以上のことは何も知らない。チャットGPT自身が知る限り、ロシアはウクライナに侵攻しておらず、FTXは暗号資産取引所として順調で、エリザベス女王は生きており、新型コロナウイルス感染症はまだオミクロン株に変異していない。おそらくこれが理由で、2022年12月にオープンAIのサム・アルトマンCEOは「現時点では、チャットGPTに重要なことをさせるのは間違いだ」と述べている。

 近い将来に状況は変わるのだろうか。ここで第2の大きな問題が生じる。現在のところ、インターネット上の情報の変化に応じてLLMを継続的に再訓練するのは非常に難しい。

 最も明白な課題は、LLMの継続的な訓練に要する膨大な処理能力と、関連するリソースの経済的コストだ。グーグルは検索のコストを広告の販売によって賄い、サービスを無料で提供できている。LLMはエネルギーコストがさらに高いため、もしグーグルと同じ速度での検索クエリの処理を目指すのであれば、毎秒数万件(1日に数十億件)と推計される処理を行わなければならず、その実現は困難だ。一つ考えられる解決策は、モデルを訓練する頻度を減らし、進展の速いトピックに関する検索クエリへの適用を避けることかもしれない。

 とはいえ、たとえ企業がこの技術面と経済面の課題を何とか克服するとしても、提供する実際の情報に伴う問題が残る。チャットGPTのようなツールは、具体的に何を、誰から学習するのだろうか。