記述統計量について
記述統計量は、データセットの主な特徴を要約・記述するものです。データの中心傾向、ばらつき、分布の形状を簡潔な指標で表し、科学、ビジネス、日常の意思決定における定量分析の基盤となります。
代表値(中心傾向の指標)
平均値は全データの合計をデータ数で割った値です。中央値はデータを並び替えた際の中央の値で、外れ値の影響を受けにくい特徴があります。最頻値は最も頻繁に出現する値です。
平均 = Σx / n | 分散 = Σ(x - μ)² / n
散布度(ばらつきの指標)
範囲は最大値と最小値の差です。分散は各値が平均からどれだけ離れているかの二乗平均です。標準偏差は分散の平方根で、元のデータと同じ単位で表されます。
各指標の使い分け
対称的な分布で外れ値がない場合は平均値を使います。偏った分布や外れ値がある場合は中央値が適切です。最頻値はカテゴリデータや最も一般的な値の特定に適しています。
よくある質問
母集団の標準偏差と標本の標準偏差の違いは?
母集団の標準偏差はN(母集団のサイズ)で割りますが、標本の標準偏差はN-1で割ります(ベッセルの補正)。このツールではデフォルトで母集団の標準偏差を計算します。
最頻値が複数になることはありますか?
はい。最頻値が2つあるデータは二峰性、3つ以上ある場合は多峰性と呼ばれます。すべての値が1回ずつしか出現しない場合、最頻値はありません。