代表値(measures of central tendency)
代表値
『代表値』とは、測定されたデータ集団の分布において中心的な位置を示す測定値のことを指します。
代表値には主に『平均値』、『中央値』、『最頻値』の3つがあり、これらはそれぞれ異なる方法でデータの中心傾向を示します。
これらの代表値は、データの全体的な傾向や分布の中心を理解するのに役立ち、データの分析や解釈において重要な役割を果たします。
- 平均値(mean)
平均値とは、データ全体の中心を示す代表的な測定値です。
平均値は、データの合計をデータの個数で割った値になります。例えば、テストの点数が以下のような3人の生徒がいる場合、
- 70点
- 80点
- 90点
平均値は (70 + 80 + 90) / 3 = 80点になります。
平均値は、データが『正規分布』に近い場合や外れ値が少ない場合に適しています。
例えば、学生のテストの点数がほぼ正規分布している場合、平均点はクラス全体のパフォーマンスをよく示します。- 中央値(median)
中央値は、データを小さい順から大きい順に並べたときの中央の値になります。
データの個数が奇数なら中央の値が中央値となり、偶数なら中央の2つの値の平均が中央値となります。例えば、テストの点数が以下のような3人の生徒がいる場合、
- 70点
- 80点
- 90点
中央値は80点です。
中央値は、データに外れ値がある場合や分布が非対称の場合に適しています。
例えば、所得に関するデータでは、極端に高い所得を持つ一部の人々が全体の平均を歪めるため、中央値を用いて所得の典型的な値を示します。- 最頻値(mode)
最頻値は、データの中で最も頻繁に出現する値になります。
例えば、以下のようなデータがある場合、
- 70点が3回出現
- 80点が2回出現
- 90点が1回出現
最頻値は70点です。
最頻値はデータの中で最も多く見られる値を示す代表値です。
最頻値は、カテゴリーデータや離散的なデータ、複峰分布の場合に適しています。
例えば、販売データで最も売れた商品の色や種類を示すときに有用です。カテゴリーデータ
カテゴリーデータとは、データがカテゴリーやグループに分類されるデータを指します。
カテゴリーデータの具体例(顧客の好きな色についてのデータ)
- 青:15人
- 赤:20人
- 緑:5人
- 黄:10人
この場合、最頻値は20人が好きな色として選んでいる「赤」になります。
カテゴリーデータでは最も頻繁に現れるカテゴリーを知ることで、全体の傾向を理解するのに役立ちます。離散的なデータ
離散的なデータは連続的なデータとは異なり、数えられる特定の値を取ります。
例えば、学生の人数(1, 2, 3人など)やサイコロの目(1, 2, 3, 4, 5, 6)があります。一方で、連続的なデータは任意の範囲内でどんな値でも取り得ます。
例えば、身長(170.5cm, 180.2cm)や時間(1.5秒, 3.75時間)があります。離散的データは「間に他の値がない」特性を持ち、連続的データは「どんな値でも取り得る」特性があります。
離散的なデータの具体例(学生のテストの点数)
- 50点:2人
- 60点:3人
- 70点:5人
- 80点:10人
- 90点:5人
この場合、最頻値は、10人がとっている「80点」になります。
離散的なデータでは、『最頻値』を知ることで最も一般的な結果を理解できます。複峰分布
複峰分布とは、データの分布が複数のピークを持つ分布をさします。
複峰分布の具体例(顧客の購買パターン)
- 20歳代の顧客数::30人
- 30歳代の顧客数::50人
- 40歳代の顧客数::40人
- 50歳代の顧客数::50人
この場合、最頻値は、それぞれ50人が属している「30歳代」と「50歳代」になります。
複峰分布では、最頻値を用いることで異なるグループやパターンを特定するのに役立ちます。
参考・引用文献
\この記事を書いた人/
臨床心理士・公認心理師
上岡 晶
Ueoka Sho
精神科・心療内科での勤務を経て、2023年から「オンラインカウンセリングおはぎ」を開業しました。私のカウンセリングを受けてくださる方が少しでも望まれる生活を送れるように、一緒に歩んでいきたいと考えています。