ビッグデータを宝の持ち腐れとしているマネジャーに共通する、4つの過ち。データの量だけでは、有益な知見を引き出す要件を満たさない。


 データとアナリティクスに対する世の関心はきわめて大きい。ビッグデータを収集・分析するための戦略を立てよ、と企業に強く勧める声は頻繁に聞かれ、それを怠った場合に被りうる損失について警鐘が鳴らされている。たとえば、『ウォール・ストリート・ジャーナル』紙は先頃、「企業は顧客データという宝の山を抱えているが、ほとんどがその使い方を知らない」と指摘した。

 本記事では、その理由を検証していく。

 我々は、大量のデータから具体的かつ有用な知見を見出そうと努める複数の企業との協働を通して、マネジャーがデータに関して犯しがちな4つの過ちを明らかにした。

 第1の過ち:データ統合の問題を理解していない

 企業でビッグデータの価値が制限されてしまう第1の要因は、互換性と統合の問題だ。ビッグデータの大きな特徴の1つは、データソースの多様性である。しかし、そのデータに互換性がない、あるいは統合が難しいという状態では、多様なソースがあっても実際のコスト削減や顧客への価値創造にはつながりにくい。

 たとえば、我々があるプロジェクトで協働した企業は、顧客の購買とロイヤルティに関する素晴らしいデータを持ち、これとは別にウェブの閲覧行動に関するデータベースも持っていた。だが、これら2つのソースを相互参照する手段がないため、特定の閲覧行動が売上げの予測因子であるか否かが実際にはわからなかった。

 企業はこの問題への対処法として、「データレイク」を構築し、膨大な量の非構造化データを貯めておくことも可能だ。しかし、企業が今日入手できる広範なデータのなかには非構造化データ(文字の羅列など)も多くある、という事実そのものがネックにもなりうる。バイナリデータと違い、それらを構造的に保存するのが非常に難しいからだ。したがって、データを異なるソース間で統合するのもきわめて困難となる。

 第2の過ち:非構造化データの限界を認識していない

 ビッグデータに価値を発揮させるうえで2つ目の問題は、その構造化されていない性質だ。

 テキストベースのデータのマイニングに関しては特別に進歩しており、文脈解読などの諸技術によって、構造化データと同様の知見を引き出すことができる。だが他の形式、たとえば動画データなどの解析は、依然として容易ではない。1つの例として、ボストン・マラソンの爆破事件の捜査で使われた、最新鋭の顔認識ソフトウェアが挙げられる。正面以外のさまざまな角度からの顔画像は解析が難しく、大量の動画データがあっても容疑者2名を特定できなかった。

 このように、非構造化データから知見を得るのは困難だ。むしろ、企業が非構造化データから最も成果を上げているのは、既存のデータ解析作業のスピードと正確性を高めるために利用する場合である。たとえば石油・ガス探査では、掘削時地震探査(SWDと呼ばれる地質探査法)における既存のオペレーションとデータ解析の向上にビッグデータが用いられている。これらのデータは、速さ、多様性、量がどれだけ増えても、結局は同じ目的で利用されている。

 新たな仮説を得ようとして非構造化データを用いると、往々にしてつまずくことになる。すでにある問題への答えを向上させる目的で、非構造化データを使う「練習」を重ねて熟達することで、ようやく成果につながるのだ。