なぜ、アマゾンの星評価はあてにならないのか

これらの問題を踏まえて、我々は2つの問いに答えるための研究プロジェクトを実施した（英語論文）。

第1に、星評価平均点は、製品品質の指標として妥当なのか。我々は120の製品カテゴリーにわたる1272の製品を分析。その対象製品は、客観的な性能を明確に定義・測定しうるものに限定した（チャイルドシート、自転車用ヘルメット、日焼け止めクリーム、冷蔵庫、テレビなど）。

第2に、消費者は星評価平均点を、品質の指標としてどの程度信頼しているのか。一連の実験では、参加者にアマゾンの製品ページを閲覧してもらい、その後に製品品質を判定してもらった。次に、参加者の判断が星評価平均点にどれほど依拠したのかを、他の指標（価格など）と比較しながら検証した。

以下に、主な結果の一部を紹介する。

　●星評価平均点と、確立されている品質評価との一致度は、驚くほど低い

アマゾンでの星評価平均点が、『コンシューマーレポート』誌の品質評価点とどの程度一致しているかを検証した。同誌を発行するコンシューマーズユニオンは、科学的な製品試験を行う専門組織である。

その結果、両者の一致度は極めて低かった。実際、アマゾンで同じ製品カテゴリーに属する2つの製品を比べて星評価が高いほうが、『コンシューマーレポート』でも同様に高い評価を得ていた確率は、平均してわずか57％だった。これは、コイン投げをわずかに上回る程度に過ぎない。

下の図のＸ軸は、同じ製品カテゴリーの2製品に対する、アマゾンの星評価平均点の差異を示している（1万5552組の製品を比較）。Ｙ軸は、2製品のうち星評価が高いほうが、『コンシューマーレポート』でも同様に高く評価されている一致度を示している。2製品の差異が星0.4（全データセットの約半分を占める）よりも小さい場合、『コンシューマーレポート』との一致は偶然に近い確率（50％）である。星評価の差異が大きくなるほど、『コンシューマーレポート』との一致度は上昇する。とはいえ上昇は限定的で、70％を超えることはない。

図表を拡大

品質を表す別の伝統的な指標として、リセールバリュー（再販価値）がある。信頼性と性能に優れた製品ほど、時間が経過してもより高い価値を保持する。したがって、ユーザーによる評価の平均点が品質を客観的に反映するならば、リセールバリューと正の相関を示すはずだ。

そこで我々は、camelcamelcamel.com（価格追跡サイト）、およびusedprice.com（ディーラー調査を含む複数ソースに基づき中古価格を見積もる専門サイト）からリセールバリューを収集して、アマゾンの星評価と比較した。いずれの場合も、星評価平均点はリセールバリュー（中古価格）とはまったく相関関係になかった。それとは対照的に、『コンシューマーレポート』の評価点はリセールバリューの予測因子として有効であった。

　●星評価平均点は十分なサンプル数に基づいていない場合が多い。にもかかわらず、消費者から信頼されている

分析対象とした1万5552組の製品の中で、星評価平均点の差異が0.4未満のものは、約半数を占めた。そのため、比較（たとえば4.5対4.1）が統計的に有意であるためには、多くのサンプル（評価件数）が必要となる。しかし残念ながら、これらの星評価が有意義であるという結論を得るには、サンプルサイズが小さすぎるケースが多い。我々の分析対象でも、約半数の製品は50件未満の評価しかなかった。

星評価平均点が4の製品について考えてみよう。もしこれが25人のユーザーによる評価ならば、4という点数は95％の確率で「3.5～4.5の間で平均を取ったもの」と推定できる（統計用語で「95％信頼区間」という）。購入を検討している人は、「サンプルサイズがもっと大きければ、星評価はもっとピンポイントになる」と期待するかもしれない。消費者の心理からすれば、3.5と4.5には雲泥の差がある。

たしかにサンプルサイズが大きくなるにつれ、95％信頼区間は狭まる。評価者が50人の場合は3.6～4.4、100人ならば3.7～4.3になる。しかし、たとえ評価者が200人になっても、まだ3.8～4.2までの幅があるのだ。1製品の星評価でさえこうなのだから、2製品の星評価の差異がわずか0.4の場合に、有意な結論は得られない。

とはいえ消費者は、星評価に基づいて品質を判断する際、サンプルサイズをまったくといってよいほど考慮しない。我々の実験結果によれば、購入者は25人による評価の平均点と、200人による評価の平均点を同程度に信頼している。

　●品質が同じである場合、より高額な製品、そしてブランドの評判がより優れた製品ほど、高い星評価を受ける

星評価では、高額な製品とプレミアムブランドが偏重される。したがってユーザーの評価は、古き良きマーケティング戦術の影響を強く受けている。すなわち、広告や価格シグナルなどだ。

我々の分析では、こんな結果が得られた。『コンシューマーレポート』で同じ品質評価を得た2製品があり、一方はブランドの評判が下位10分位（例：カシオのデジタルカメラ）、他方は上位10分位（例：ソニーのデジタルカメラ）。この違いは、星評価で約0.4の差異となって表れた。

価格に関しても同様に、下位10分位の製品と上位10位の製品を比べると、その価格差は星評価で約0.2の差異に相当した。つまり星評価は、『コンシューマーレポート』よりも、ブランドイメージと価格に強く相関していたのだ。

先にも述べたが、この結果は消費者の品質認識に関して長年蓄積されてきた研究成果と一致する。その意味では、さほど意外なものではない。

実際、統計学者のネイト・シルバーは、ニューヨーク市のレストランに関するイェルプ（レビューサイト）の評価を分析して、同様の結果を見出している。ミシュランの星評価による影響を調整後にイェルプの星評価を分析すると、高額なレストランほど高い点数を得ていたのだ（英語記事）。

ただし我々の研究では、消費者はこのようなバイアスの影響を認識していないことも明らかになっている。実際、今回の実験に参加した人のほとんどは、少なくとも価格に関しては、まさに誤った直感を持っている。「ユーザーは製品が高額であることを低く評価する」と彼らは思い込んでいるのだ。しかし、事実は正反対である。

結局、人々が星評価を好むのは、それが公平に見えるからだ。実情はそうでないにもかかわらず、である。

セールスパーソンに高額なチャイルドシートを勧められた人の多くは、相手の動機はコミッション稼ぎではないかと疑うだろう。同様に、優れたカミソリとしてジレットを推薦するロジャー・フェデラーやタイガー・ウッズを見て、私たちは、彼らはギャラをもらってブランドの広告塔をしているのだと察する。

消費者は、製品やブランドについて受け取る情報すべてを盲目的に受け入れるわけではない。特に、相手から「説得意図」を感じる時には用心する。セールスパーソンと話したり、広告を見たりすれば、その背後にある説得意図は極めて察しやすい。

しかしながら、「他のユーザー」から情報を吸収する時には、ガードを緩めてしまう。これが間違いなのである。

HBR.org原文：High Online User Ratings Don’t Actually Mean You’re Getting a Quality Product July 04, 2016

雑誌・書籍・論文

2026年2月号
特集：経営者の右腕なぜあの人は必要とされるのか

Ｈ．ミンツバーグ経営論［増補版］

バーチャル・バリュー・チェーンの支配

なぜ、アマゾンの星評価はあてにならないのか

雑誌・書籍・論文

2026年2月号特集：経営者の右腕 なぜあの人は必要とされるのか

Ｈ．ミンツバーグ経営論［増補版］

バーチャル・バリュー・チェーンの支配

こちらもおすすめ

入山章栄の世界標準の経営理論

【脱・コスト高のベンダーロックイン】「自走」する組織の作り方＜sponsored＞

「クリップしたコンテンツ」はこちら

【丸亀製麺】顧客からの「おほめ」が25％増。新経営モデルの威力＜sponsored＞

日本発・アジア発コンサルティングファームの存在意義と強みとは＜sponsored＞

2026年2月号
特集：経営者の右腕なぜあの人は必要とされるのか