平均値・中央値・最頻値の違いとは?データ分析での使い分けと注意点を解説
公開日:
平均値・中央値・最頻値の違いとは
平均値・中央値・最頻値は、いずれもデータの中心的な傾向を示す指標ですが、それぞれが表している内容は異なります。これらは統計学では「代表値」と呼ばれ、データ全体を一つの数値で要約するために用いられます。マーケティングリサーチやKPI分析においても、データ解釈の基準となる基本的な指標です。
平均値はデータ全体のバランス、中央値は典型的な水準、最頻値は最も多い層を示します。どの指標を用いるかは、「何を明らかにしたいか」という分析目的によって決まります。
| 指標 | 概要 | 主な特徴 |
|---|---|---|
| 平均値 | 合計を件数で割る | 全体の傾向を把握しやすい |
| 中央値 | 中央に位置する値 | 外れ値の影響を受けにくい |
| 最頻値 | 最も多い値 | ボリュームゾーンを把握できる |
概要
主な特徴
概要
主な特徴
概要
主な特徴
ビジネスデータでは、これらが一致することはむしろ稀であり、数値の差そのものがデータの歪みや構造を示す重要な手がかりとなります。
例えば、年収データを例に考えてみます。ある集団において、9人が年収400万円で、1人だけが年収3,000万円だったとします。この場合、平均年収は約660万円となりますが、中央値は400万円、最頻値も400万円となります。
平均値(Mean)とは:全体傾向を把握する指標
平均値とは、すべてのデータの合計をデータ数で割った値です。最も一般的に使われる代表値であり、全体の水準や総量を把握する際に有効です。
平均値の計算方法
平均値 = データの総和 ÷ データの個数
例えば、10・20・30・40・100というデータの場合、平均値は40になります。
平均値はすべてのデータを均等に扱うため、広告のクリック率(CTR)や顧客単価、投資対効果(ROI)など、全体パフォーマンスの評価に適しています。一方で、この「均等に扱う」という特性が、分布の歪みを見えにくくする要因にもなります。
外れ値による影響と注意点
平均値は、外れ値(極端に大きい値や小さい値)の影響を受けやすいという特徴があります。例えば、10社のうち9社が10万円、1社のみ2,000万円の発注をしている場合、平均は約209万円になります。しかし実際の取引の大半は10万円規模です。
このように平均値は全体の傾向を示す一方で、典型的な状態を必ずしも表しているわけではありません。分析の目的が多数派の把握である場合、中央値など他の指標と併せて確認することが重要です。
中央値(Median)とは:実態に近い水準を示す指標
中央値とは、データを大きさの順に並べた際に中央に位置する値です。外れ値の影響を受けにくく、分布の中心的な位置を安定的に示します。
中央値の計算方法
データ数が奇数の場合は中央の値、偶数の場合は中央の2つの値の平均を用います。
先ほどの例(10・20・30・40・100)では中央値は30となり、平均値よりも実態に近い値を示します。
中央値が重視される理由
中央値は極端な値に影響されないため、ばらつきの大きいデータの分析に適しています。例えば、年収や商談期間など、一部の高額案件や長期案件が平均値を押し上げるケースでは、中央値の方が実態に即した判断材料となります。
また、平均値との差を確認することで、データの歪みを把握することができます。この差は、データの特徴を捉えるうえで重要な指標となります。
最頻値(Mode)とは:最多層を把握する指標
最頻値とは、データの中で最も多く出現する値を指します。ボリュームゾーンを把握する際に有効であり、データの分布における特徴的な層を把握する際に有効な指標です。
カテゴリーデータにも使える点が特徴
平均値や中央値は数値データに限定されますが、最頻値はカテゴリーデータにも適用できます。例えば、最も多い流入経路や購入商品、回答傾向などを把握する際に有効です。
多峰性分布での重要性
データに複数のピークがある場合、平均値は実態を反映しないことがあります。例えば、低価格帯と高価格帯の商品が二極化している場合、平均値はその中間を示しますが、その価格帯の商品は実際にはほとんど売れていない可能性があります。このような場合、最頻値を確認することで、どの価格帯に需要が集中しているのかを明確に把握することができます。
平均値と中央値の差から分布の歪みを把握する
平均値と中央値の関係を見ることで、データの分布の特徴を把握することができます。両者が近い場合は分布が比較的均等であり、平均値を代表値として採用しても大きな問題はありません。
一方で、平均値が中央値より大きい場合は一部の高い値が全体を押し上げている状態、逆に平均値が小さい場合は低い値が影響している状態と考えられます。この差は、単なる数値の違いではなく、データの構造的な歪みを示す指標といえます。分析においては、この差を起点として分布の確認を行うことが重要です。
分布で考える代表値の使い分け
代表値を適切に選ぶためには、データの分布を把握することが不可欠です。ヒストグラムなどを用いることで、データがどのように分布しているかを視覚的に確認できます。正規分布に近い場合は、平均値・中央値・最頻値はほぼ一致し、平均値をそのまま用いることが可能です。
一方で、右に裾が長い分布では平均値が引き上げられるため、中央値の方が実態を表します。また、複数のピークを持つ多峰性分布では、最頻値を確認することで市場の構造を把握しやすくなります。数値だけでなく分布の形を捉えることが、適切な意思決定につながります。

代表値だけに依存しないための分析視点
代表値は便利な指標ですが、それだけでデータを判断するのは適切ではありません。特にばらつきの大きいデータでは、代表値だけでは重要な情報が見えにくくなることがあります。
そのため、分散や標準偏差といったばらつきを示す指標も併せて確認することが重要です。また、外れ値がどの程度存在するのか、その値が意味を持つのかを見極めることも必要です。重要なのは、「どの数値を使うか」ではなく、「どのようにデータを解釈するか」という視点です。複数の指標を組み合わせてデータを捉えることで、より実態に即した分析が可能になります。
失敗事例:平均値に基づく一律の施策
あるSaaS企業では、ユーザーの月間ログイン時間をもとに活用度を評価していました。全体の平均ログイン時間は「10時間」であったため、これを基準に、それを下回るユーザーに対して一律で活用促進のメールを配信しました。
しかし実際のデータを確認すると、一部のヘビーユーザーが長時間利用しており、平均値を大きく押し上げていました。多くのユーザーは「3時間前後」に集中しており、中央値も約3時間でした。
その結果、標準的な使い方をしているユーザーに対しても「利用が不足している」と判断してしまい、的外れな施策となりました。結果として、ユーザーの満足度の低下や不要なコミュニケーションの増加につながりました。このようなケースでは、平均値だけで判断するのではなく、中央値や分布を確認したうえで施策を設計することが重要です。
まとめ
平均値・中央値・最頻値は、それぞれ異なる視点でデータの特徴を捉える指標です。平均値は全体の傾向、中央値は実態に近い水準、最頻値はボリュームゾーンを示します。重要なのは、単一の指標に依存するのではなく、分布を確認しながら複数の代表値を組み合わせて解釈することです。この視点を持つことで、データに基づいた意思決定の精度を高めることができます。
関連ページ