ビジネスの世界でも、ビッグデータとスモールデータの違いに注意を払う必要がある。マーケティングに関する例を挙げよう。

 広告キャンペーンが売上げに与える影響を明らかにしたいとする。コンサルティング会社は、そのためにA/Bテストを実施するよう提案した。その実験は2万人を対象に行い、無作為に選んだ半分の人にだけ自社の広告を見せる。そして、最新のテクノロジーを活用して、実験参加者の向こう1カ月間の購買行動を追跡調査するという。

 1カ月後、コンサルティング会社が実験の結果を報告した。それによると、広告を見た人は広告を見なかった人に比べて、購入に至る割合が50%高かったとのことだった。広告キャンペーンの効果は、予想以上に大きかったようだと思うかもしれない。

 しかし、この実験結果を正しく解釈するためには、(新型コロナウイルス感染症になる人の割合が非常に少ないのと同じように)実験参加者が実際に商品を購入する確率がそもそも非常に低いという点を頭に入れるべきだ。

 広告キャンペーンを行わない状態での購入率が1/1000だとしよう。この場合、広告の効果により購入率が50%上昇したとすれば、広告を見なかった人が10人購入し、広告を見た人が15人購入したことを意味する。サンプルの規模がこの程度にとどまっていては、広告キャンペーンが売上げに影響を及ぼしたと結論づけるのに十分とは言えない。

 このように確率の低い出来事に関して調べる時、「ビッグ」に見えるデータは、しばしば見かけほどは「ビッグ」でない。

 もともとの購入率がこの事例くらい小さい場合は、コンサルティング会社に対して実験の規模をもっと拡大し、参加者の数を2万人ではなく、16万人程度まで増やすよう求めるべきだ。そうすれば、広告キャンペーンの効果で購入率が50%高まった場合、広告を見なかったグループのうち購入に至った人が80人、広告を見たグループのうち購入に至った人が120人になる。これであれば、広告キャンペーンに効果があるという確信をいっそう強く持つことができる。

 サンプルの規模が十分かどうかを判断する方法が、はっきりしている場合ばかりではない。そこで、有意性と検定力に関する統計学的数式を用いる必要がある。その詳細は複雑を極めるので本稿で論じることはしないが、幸い、いくつもの使いやすいオンラインツールが無料で提供されている。そのようなツールを利用すれば、データの規模に関して判断する助けになるだろう。

 ただし、統計学的数式だけで、すべての問題が解決するわけではない。最終的には、人間が判断を下さなくてはならない。

 ある措置を実行に移す前提として、どのくらいの確証を求めるのか。それは、コストとリスクの大きさによって変わってくるだろう。擬陽性の確率が5%あるとして、それを許容できる場合もあれば、(ワクチンのケースのように)許容できない場合もあるだろう。