Normform/Getty Images

ビジネスに強化学習を導入する企業が増えてきたが、その使い方を間違えると人々の対立を煽ったり、差別を助長したりする危険性がある。トランプ時代にソーシャルメディアで何が起きたかを思い返せば、そのリスクは明らかだろう。たとえ企業側に悪意がないからといって、問題を引き起こした責任がないとは言えない。本稿では、強化学習が招く予期せぬ結果に対処するために、企業が守るべき5つの原則を紹介する。


 ソーシャルメディアを運営する企業の主張によれば、彼らは単にコミュニティを構築して、世界をつなげようと努めているだけであり、無料を維持するために広告収入を必要としているという。

 しかし、本当に無料なものなどない。ソーシャルメディア企業は閲覧数が多ければ多いほど儲かるため、エンゲージメントの最大化を目指して自社のアルゴリズムを最適化してきた。閲覧数は、アルゴリズムにおける「報酬関数」であり、そのアルゴリズムがプラットフォームで獲得できる閲覧数が多ければ多いほど望ましい。

 ある投稿をアルゴリズムが推奨し、閲覧の急増を認識すると、その戦略をいっそう強化する。さらなるシェアを誘発するだろうとアルゴリズム自身が判断した方法で、投稿のタイミング、ターゲティング、推奨を選択的に行う。このプロセスを強化学習と呼ぶ。

 これがどんな結果につながるかは、人工知能(AI)の専門家でなくてもわかるだろう。強い感情を誘発する刺激的な投稿ほど、より多く閲覧されるため、アルゴリズムはそうした内容を選好し、プラットフォームの収益は増え続けることになる。

 しかし、強化学習AIを使うのはソーシャルプラットフォームだけではない。企業が強化学習を導入する際、リーダーは、それがいかにして予期せぬ結果を招きうるかを理解するために、ソーシャルメディア企業の抱える問題に目を向ける必要がある。そして、予期できる失敗を防ぐよう努めなくてはならない。

強化学習エージェント

 ソーシャルプラットフォームで見られる因果関係のサイクルを理解するには、アルゴリズムの仕組みについてもう少し知っておくとよい。この種のアルゴリズムは「強化学習エージェント」と呼ばれ、その活動が最も顕著に見られるのはおそらくソーシャルメディア上だが、ビジネス全般にも普及が進んでいる。

 厳密なif-then(条件を満たすと処理を実行する)形式の命令群に従うアルゴリズムとは異なり、強化学習エージェントは、定義された行動を特定の「状態」(state)の最中に実行することによって、指定された報酬を求めるようプログラムされている。

 本稿のケースにおける報酬は閲覧数であり、より多いほど望ましい。エージェントに対して許可された「行動」(action)の中には、誰をターゲットにするかや、推奨の頻度などが含まれうる。アルゴリズムの「状態」は、1日の中の時間帯かもしれない。

 エージェントの報酬、エージェントが働く環境の状態、許可された一連の行動――これらを組み合わせたものを「方策」(policy)と呼ぶ。方策は、諸々の環境で強化学習エージェントがどのように行動してよいかを大まかに規定する、いわばガードレールのようなものだ。

 エージェントは方策の範囲内で、どの行動と状態を組み合わせれば最も効果的に報酬を最大化できるかを自由に実験できる。何が最も効果的かを学習していく過程で、最善の戦略を推し進め、効果が薄いと判断したアプローチは切り捨てていく。試行錯誤のプロセスを繰り返すうちに、エージェントは報酬の最大化がますます上手になっていく。

 もしこのプロセスに馴染みがあるなら、それは私たち自身の脳の仕組みがモデルとなっているからだ。ある状態(例:空腹時)の最中に、特定の行動(食事など)が行われると、脳は神経伝達物質のドーパミンの分泌やその他の刺激によって報酬を与える。こうして、習慣や依存症などの行動パターンは強化される。

 強化学習エージェントによる目標追求のメカニズムを理解することで、被害を防ぐためにそれをどう変えればよいのかが明らかになる。人間とAIが織り成すシステムにおいて、人の振る舞いを変えさせるのは難しい。しかし、強化学習エージェントの方策、つまり報酬追求の過程で実行可能な行動を変えるのは、もっと簡単だ。

 これがソーシャルメディアにとって重要な意味を持つのは明白だが、強化学習エージェントと人々が関わり合うビジネス環境は増えており、本稿の提案はそれらの状況で幅広く適用できる。