기술 통계의 이해
기술 통계는 데이터 세트의 주요 특성을 요약하고 설명합니다. 중심 경향, 분산, 데이터의 형태를 포착하는 간단한 측정값을 제공하며, 과학, 비즈니스, 일상적인 의사 결정에서 정량적 분석의 기초를 형성합니다.
중심 경향의 측정
평균(산술 평균)은 모든 값의 합을 개수로 나눈 것입니다. 중앙값은 데이터를 정렬했을 때 가운데 값으로, 이상값에 강합니다. 최빈값은 가장 자주 나타나는 값입니다.
평균 = Σx / n | 분산 = Σ(x - μ)² / n
분산의 측정
범위는 최대값과 최소값의 차이입니다. 분산은 값이 평균에서 얼마나 벗어나는지를 평균적으로(제곱) 측정하고, 표준편차는 분산의 제곱근으로 데이터와 같은 단위로 표현됩니다.
각 측정값의 사용 시기
극단적 이상값이 없는 대칭 분포에는 평균을 사용하세요. 편향된 데이터나 이상값이 있을 때는 중앙값을 선택하세요. 최빈값은 범주형 데이터나 집합에서 가장 흔한 값을 식별하는 데 가장 적합합니다.
자주 묻는 질문
모집단 표준편차와 표본 표준편차의 차이는 무엇인가요?
모집단 표준편차는 N(전체 모집단 크기)으로 나누고, 표본 표준편차는 N-1(베셀 보정)로 나눕니다. 이 도구는 기본적으로 모집단 표준편차를 계산합니다.
데이터 세트에 최빈값이 여러 개 있을 수 있나요?
네. 최빈값이 두 개인 데이터 세트를 이봉이라 하고, 두 개 이상이면 다봉이라 합니다. 반복되는 값이 없으면 데이터 세트에 최빈값이 없습니다.