アマゾンは生成AIの品質をどのように管理しているか人間による介入を再定義する | ステファン・トムク,フィリップ・アイゼンハウアー,プニート・サニ

AI生成コンテンツが持つ欠点をどのように補うか

　生成AIの熱狂的ブームが巻き起こる中、その導入を阻むハードルがある。それは「話をでっち上げる」「情報を無視する」「あまりに多くの選択肢を生成するため、有効なものを判断しにくい」といったAIテクノロジー特有の傾向である。

　そのため、現在ではほぼすべての企業が人間によるレビューを実施したり、スタンドアローンのテストツール／サービスを導入したりして、生成AIの欠点を補おうとしている。しかし、これらの品質管理方法はいずれもコストが高く、生成AIによる生成物全体のほんの一部にしか対応できない。

　アマゾン・ドットコムは、自社の大規模な製品カタログオペレーションにおいて、よりよいアプローチの開発に成功した。生成AIベースのシステム、その名も「カタログAI」である。このシステムは信頼性の低いデータを検知してブロックし、新しい商品ページのアイデアを生成して有効性をテストし、品質チェックや実験のフィードバックに基づく自動改善が可能である。人間主導のシステムが立案してテストできる仮説は年間数千件程度だが、このシステムは年間数千万件の仮説を処理できる。

　AI投資による財務的リターンの獲得に苦労する企業は多いが、アマゾンのカタログAIはすでに測定可能な価値を生み出している。本稿執筆時点で、同システムの提案の8％が売上げにポジティブな影響をもたらしているのである。

　筆者らの一人であるトムクは、アマゾン以外の企業が実施したオンライン実験で、これを上回る成功率（10～20％）を挙げた例を知っているが、それらは仮説を立てる作業を人間に頼っており、仮説をテストするシステムも自動化からはほど遠いものだった。つまり、アマゾンと比べると、生成してテストした仮説の件数が圧倒的に少ないのである。そのうえ、アマゾンのシステムは自動改善の能力を備えているため、時間の経過とともに成功率は確実に上がる。

　2023年に導入された同システムは、まだ発展途上という位置づけだ。しかし、アマゾンにおけるAI生成コンテンツの大規模な品質管理の方法は、他社のマネジャーが参考にするうえで十分なレベルにあると筆者らは考えている。

従来型アプローチの欠点

　アマゾンのオンラインカタログには、世界中の顧客に販売される何億もの商品が掲載されている。そして、何百万件もの商品リストが日々追加され、編集されている。顧客が目当ての商品を短時間で見つけられるように、画像、商品タイトル、商品説明、レコメンドなどのデータは完全かつ正確で、魅力的なものでなければならない。

　さらに、アマゾンを繰り返し利用する顧客は、画像や商品タイトル、商品説明、購入ボタンが見つけやすく、短いロード時間で見慣れたレイアウトで表示されることを期待している。これは非常に重要なことである。商品情報が不正確、無関係、あるいは明らかに間違っている場合、顧客は商品の購入に至らなかったり、購入した商品が期待と違っていて返品したりする。どちらの場合も、アマゾンは売上げと顧客の信頼を失うことになる。

　データの品質を確保するための施策として、アマゾンはこれまで、商品リスト管理の専門知識を持つ数千人のスペシャリストを活用してきた。さらに、商品カテゴリー（例：シャツ、テレビ）やレイアウト要素（例：商品タイトル、商品説明）ごとに最適化された、数百の機械学習モデルも運用していた。スペシャリストらがモデルを使って、情報の追加や削除、誤情報の特定、情報の統合、他言語への翻訳、サードパーティのソースからのデータ統合などを行っていたのである。

　このような従来型の機械学習モデルには限界がある。比較的小規模で構造化されたデータセットを扱う分には最適だが、商品カテゴリーを横断して拡張する場合にコストがかかるのだ。たとえば、シャツについてトレーニングした機械学習モデルを、テレビなどシャツ以外の商品に、コスト効率のよい方法で転用することができない。