기초통계학

2. 모집단의 분포와 중심위치 및 산포

채채씨 2020. 7. 29. 13:51

<모집단 분포>
모집단의 특성값이 흩어져 있는 상태를 나타내기 위해, 합이 1이 되는 양수들을 각 특성값에 대응시켜 나타낸 것이다. 특성값은 이산적(discrete)인 경우와 연속적(continuous)인 경우가 있다.

자료의 개수를 늘리면서 계급의 간격을 줄이면 히스토그램은 곡선으로 수렴한다. 히스토그램에서 상대도수의 합은 1이므로, 곡선 아래의 넓이는 1이다. 구간(a, b)사이에서 상대도수의 합은 구간(a, b) 곡선 아래의 넓이가 되고, 이는 관측값이 구간(a,b)에 속할 확률(probability)이 된다. 곡선을 확률밀도곡선(probability density curve)이라하고, 곡선을 나타내는 함수를 확률밀도함수(probability density function), p(x)라 한다.

<제p백분위수>
특성값들 중 p%이상이 그 값보다 같거나 작고 (100-p)% 이상이 그 값보다 같거나 크게되는 값
1. 제25백분위수: 제1사분위수(first quartile) = Q1
2. 제50백분위수: 제2사분위수(Second quartile) = Q2 = 중앙값(median)
3. 제75백분위수: 제3사분위수(Third quartile) = Q3

<중심위치>
-모평균(Mean)
-중앙값(Median)
-최빈값(Mode)

<산포>
-모표준편차(Standard Deviaiton)
-모분산(Variance)
-사분위수범위(Interquantile, IQR): Q3-Q1