MIT研究者の発表によれば、匿名のクレジットカード取引情報で「4つの取引に関する時間と場所の大まかなデータ」があれば、持ち主を特定できたという。110万人中90%というその精度は、ビッグデータのセキュリティに関する再考を強く促す。

 

 10年ほど前に、あるハッカーが私にきっぱりとこう言った――「あなたの財布の中のカードは、どれも危険にさらされていると思っておくように」。彼は正しかった。消費者は、日常的なデータ漏えいの通知や、理由不明のクレジットカード引き落とし、予告なしのカード再発行などに慣らされてきた。これを背景に、プライバシー保護ビジネスが増え始めた。それらの技術、サービス、方針が目指すのは、今日のEC市場の繁栄を妨げない形で、データの保護と自由な流用を同時に図ることだ。その主な方法は、データの「スクラビング」、つまり個人情報(PII)を削除して、他者がデータにアクセスしても個人を特定できないようにすることである。

 だが、こうした対処法は無駄な努力のようだ。

 マサチューセッツ工科大学(MIT)の科学者イブ・アレクサンドル・ドモジョワは、『サイエンス』誌2015年1月30日号に発表した論文のなかで、クレジットカードの匿名データを逆行分析すれば個人の取引は識別可能であることを示している(英語論文)。この発見は、消費者の保護を目的に作られた方針の多くに疑問を投げかける。そしてデータサイエンティストには、大規模なデータセットの利用に関する方針と倫理を考え直すよう迫る。

 ドモジョワの研究チームは、110万人の3カ月間のクレジットカード取引を分析した。すべての個人情報は消去済みだったにもかかわらず、たった4つの取引に関する時間と場所のデータだけで、90%の人々について個人の識別に成功したのだ。ここに取引の金額情報も加えると、再識別化(匿名化されたデータから個人を識別すること)の成功率は94%に上がった。また、男性よりも女性のほうが再識別化が容易で、高所得者層ほど再識別化の成功率は高かった。

 誤解のないように言うと、再識別化とは個人によるすべての取引が識別できることを意味するが、ドモジョワは個人名の特定までは行っていない。たとえば、もし彼が私という特定の個人の取引記録を知りたいとしたら、私のことがわかる別の情報との照合が必要となる。仮に私がレストランに出かけたことをフェイスブックに投稿したら、それは匿名の取引データ全体から私を導き出す手掛かりとなりうる。ドモジョワは言う――「私たちは個人名の特定はしませんでしたが、どうすれば特定できるかを基本的にはわかっています」

 ドモジョワはさらに、たとえ「粗い」データであっても「匿名性は非常に低い」ことを示した。実際に彼はデータの「解像度」を下げた分析も試みた。位置情報は、具体的な店舗ではなく購買が行われた地域だけを見て、時間についても具体的な日付ではなく、15日間の時間枠として見た。さらに購買金額の範囲も広げ、前回は「5~16ドル」の枠に分類された取引を、今度は2倍以上の幅の「5~34ドル」の範囲でくくった。このような解像度の低いデータを用いても、4つの取引データから15%の人々を再識別できた。そして10の取引データを用いると、成功率はなんと80%に至った。