米大統領選に関してこの手法を使うとすれば、国際的に起きているどの経済的・社会的な現象が、トランプのような意外な候補者の台頭を告げる予測因子なのかを知る、などの目的が考えられる。
たとえば、トランプ現象は昨今の米政治情勢では新しいものだが、グローバルのレベルでは、政治学者はこの傾向にかねてから注目していた。ロナルド・イングルハートとピッパ・ノリスは共同論文“Trump, Brexit, and the Rise of Populism: Economic Have-Nots and Cultural Backlash”の中で、多くの西洋社会におけるポピュリズム政党への支持拡大を検証している。
英国を例に取ると、英国独立党は2015年5月の総選挙でわずか1議席しか獲得できなかったが、そのポピュリスト的言説は反EU・反移民感情を煽った。このことが、後にEU離脱を問う国民投票で同党の勝利につながった。
イングルハートとノリスは、複数国でのポピュリズムの台頭に多くの共通項を見出している。脱工業化社会における経済的不安定と、多様化社会に対する反動が、欧米諸国で同じような影響をもたらし、同じような有権者たちをポピュリストへの投票に向かわせたのだ。
統計学者は2016年のブレグジットの投票データを活用していれば、昨今の世界的な大衆動向と投票傾向をより正確に把握できただろう、というのが転移学習の考え方だ。米国以外のデータも考慮したモデルであれば、トランプへの支持がもっと大きいことを予測できたかもしれない。特に最近の英国のような、反移民感情という点で米国と共通する地域は重要である。
変化の激しいデータに対応できる、新たな統計手法のニーズが高まっているのは、政治だけではない。過去のデータを使うことで生じる問題は、他のさまざまな分野でもよく見受けられる。たとえば、企業は過去のデータを頼りに戦略的投資を行うことが多いが、現実がすでに変化している可能性は無視しがちだ。
サンプル数不足の問題もある。米国で成功している企業が、ドイツ市場に参入するとしよう。同社は米市場で蓄積したノウハウを、ドイツ市場にどう転用すればいいだろうか。参入のコストやリスクを最小化する方法はあるだろうか。
予測モデルに転移学習の手法を適用すれば、両国市場の類似性(人口統計的属性や経済的特性が似ているグループなど)の比重を上げ、相違性の比重を下げることができる。それによって意思決定者は、実際のターゲット市場に似た環境での事業シミュレーションができるわけだ。
政治統計学とビジネス予測に従事する人は、同じ案件の過去データだけを用いて予測するという一般的な手法ではなく、もっと最近起こった類似する案件(たとえ直接的な関わりがなくても)から得たデータを使い始めるべきである。2つの案件を結びつける際に転移学習のアルゴリズムを使えば、過去のデータの中でより適切に関連する部分に学習プロセスを集中させることができる。
予測において、過去のデータがきわめて重要なのは間違いない。とはいえ、より進んだデータサイエンスの技術を使う能力があれば、現行の類似事象のデータを活用できる。このやり方は、より正確な予測をするために不可欠だ。過去のデータが限られているときや、環境が不確実な場合には特に有効となる。
データアナリストは重大な予測ミスを防ぐには、異なる期間と領域をまたぐ「情報の転移」を可能にする手法を、新たに取り入れなければならない。
HBR.ORG原文:How to Make Better Predictions When You Don’t Have Enough Data December 29, 2016
■こちらの記事もおすすめします
2017年1月号 特集:未来を予測する技術
なぜ、アマゾンの星評価はあてにならないのか
「未来を予測するスキル」は訓練で高められる
キラ・ラディンスキー(Kira Radinsky)
イーベイのチーフサイエンティスト、データサイエンス部門ディレクター。2016年に同社が買収したセールスプレディクトの共同創業者。イスラエルを代表する科学技術機関、テクニオン・イスラエル工科大学の客員教授を務める。
ヨニ・アクリーチ(Yoni Acriche)
イーベイのリード・データサイエンティスト。2016年に同社が買収したセールスプレディクトの元データサイエンス部門ヘッド。