ビッグデータを腐らせる４つの過ち

　第3の過ち：相関関係それ自体に何らかの意味があると思い込む

3つ目の問題は、重複する観測データの巨大なプールのなかで、因果関係を確立する難しさである。

我々の見解では、これは企業でビッグデータの価値が十分に発揮されない最たる要因だ。膨大なデータセットにはたいてい、非常に似通った、あるいはほぼ同一の観測データが多数含まれている。これらが正しくない相関関係を導いたり、結果としてマネジャーの意思決定をミスリードしたりする。

『エコノミスト』誌のある記事は、「ビッグデータの世界では、相関関係はほぼ自然に明らかとなる」と指摘している。また、『ＭＩＴスローン・マネジメント・レビュー』誌のブログでは、次の点が強調されている。多くの企業がビッグデータにアクセスできるが、そのデータは「客観的」ではない。そこから実行可能な「本物の」知見を取り出すのは困難だからだ。

同様のことは、ビッグデータの解析に用いられる典型的な機械学習アルゴリズムにもいえる。それによって特定された相関関係は、必ずしも因果関係を示すものではないため、実行可能な経営上の知見にはならない。

すなわち別の言葉で言えば、ビッグデータを有効活用する能力とは、「観測される相関関係をただ利用する」だけでなく、「どの相関関係が原因と結果のパターンを示すのか」を正しく見極め、戦略的行動の基盤とすることである。そして、これを実行するためには、データだけに捕らわれない視座が必要になる。

よく知られたビッグデータの例として、検索ワードの集計の記録を利用するグーグルトレンドがある。同時にこれは、相関関係にすぎないデータの有用性には限界があることを示す例でもある。研究者たちはかつて、グーグルのデータはインフルエンザ流行の予測に利用できると主張した。しかしその後の研究で、過去のパターンに基づく既存の単純なモデルをごくわずかに向上させるだけであることが示された。なぜなら、検索データが過去指向的（すでに生じた物事が対象）であるためだ。

もっと具体的な例として、靴の小売業者が、自社サイトの訪問者すべてにウェブ広告を配信するとしよう。生データを解析すれば、広告を見た人は靴を購入する可能性が高いと示唆されるだろう。しかし広告のターゲットは、それ以前に1度サイトを訪れた人々だ。つまり広告を見る前からすでにその靴屋への関心があったのであり、平均的な消費者よりも買う可能性がそもそも高いのだ。広告は効果があったのかといえば、どちらとも言えない。ここでのビッグデータは、マーケティング・コミュニケーションの有効性については何の因果関係も示さないのである。

広告効果の有無を把握するためには、ランダム化試験を実施する必要がある。広告を配信するグループとしないグループをランダムに割り付け、購買確率を比較するのだ。それによって、広告が購入をけん引するのかを判断できる。この場合、価値をもたらすのはデータへのアクセスではなく、有意義な実験を設計、実施、解釈する能力だ。

ある関係が単なる相関にすぎないのか、それとも根底にある因果関係を反映した、信頼できる予測因子なのか。これを理解するために必要なのは、大規模な観測データセットの解析ではなく、実験である。マネジャーにとって、顧客行動を示す1ペタバイトものデータがあっても、それを用いて収益性を高めるのは難しい。だが、偶然広告に遭遇した顧客とそうでない顧客の行動を比べる、という実験の結果によって、マーケターは広告が収益に寄与したかを判断できる。

ビッグデータの価値を高めるのは、この「試して学ぶ」環境、そこから得た知見に基づいて行動する能力、そして、その知見が一般化できるかどうかを知ることである。

なお、データサンプルの規模増大に対しては収穫逓減が働くため、この種の実験では必ずしもビッグデータは必要ない。たとえばグーグルの報告では、同社が分析の際に通常用いるランダムサンプルは、手元のデータの0.1％であるという（英語報告書）。

実際に、ロンドン・ビジネススクールの記事でも、ビッグデータの大きさがむしろ弊害にもなりうることが示唆されている。「どのような仮説を提示しようとも、データベースが大きければ大きいほど、裏付けを得るのはたやすくなる」（英語記事）。別の言葉で言えば、ビッグデータは往々にして重複する知見を提供するため、データセット全体からの知見と同じ結果を、その1000分の1のデータからでも得られるということだ。

　第4の過ち：人材の重要性を過小評価する

ビッグデータから価値ある知見を導き出すための手法は、実験だけではない。優れたアルゴリズムを構築する能力を育むことも重要だ。

優れたアルゴリズムの1例は、推奨システムである。推奨システムは、相関データに関する訓練を受けたアルゴリズムによって、顧客に最もふさわしい商品を勧める。ここで、顧客の嗜好を正しく予測するために必要なのは、基盤となるデータの量ではない。重要な情報がどれかを特定する能力だ（機械学習システムの構築に関するネットフリックスのスライド）。そして推奨の質を決めるのは往々にして、データの量ではなく、どんな機械学習のアルゴリズムを使うかである。利用できるデータの量が増えれば予測力が高まることもあるが、多くの場合、予測向上の度合いはデータの規模に対して逓減することが示されているのだ。

より優れたアルゴリズムの構築に必要なのは、優れたデータサイエンティストである。大量のデータさえあれば知見を導き出せる、という前提の下、その背後にある因果関係を追跡できる人材を雇わない企業は、きっと落胆に終わるだろう。

ビッグデータは、それ単体では価値を発揮できない。実験やアルゴリズムに適用するための、マネジメント、エンジニアリング、分析という3分野の能力と組み合わせることでのみ、企業にとって有益となる。データ自体の価格と、データを処理できる人材の確保に必要な金額を比べれば、それはおのずと明らかであろう。前者のほうが安価であるという現実は、データ処理能力のほうが企業に価値をもたらすうえで重要ということである。

HBR.ORG原文：The 4 Mistakes Most Managers Make with Analytics July 12, 2016

アニャ・ランブレクト（Anja Lambrecht）
ロンドン・ビジネススクールの准教授。

キャサリン・タッカー（Catherine Tucker）
マサチューセッツ工科大学スローン・スクール・オブ・マネジメントの特別教授。マネジメント・サイエンスを担当。