정규분포(Normal distribution)는 가우스 분포(Gaussian distribution)이라고도 하며, 일상적인 자료에서 픈히 볼 수 있는 분포이다. 정규분포는 모집단의 수가 클 수록 해당 분포가 정규분포를 근사적으로 따를 것으로 가정하고 통계적 분석을 하고 있다. 정규분포가 통계학에서 유용하게 사용되는 이유는 중심극한정리(CLT, Central limit Theorom) 덕분이다.
정규분포의 특성
- 분포는 좌우 대칭이며, 평균치의 확률값이 가장 높다.
- 곡선 아래 전체 면적은 1이다(확률의 전체 합은 1)
- 곡선은 평균에서 멀어질 수록 x축에 가까워지지만 x축에 닿지 않는다. (확률값은 0을 가지지 않는다 -> 미미한 확률의 경우도 배제하지 않는다.)
- 정규분포는 평균과 분산 값에 따라 다른 형태를 띈다.
표준정규분포
표준정규분포(Standard normal distribution)은 정규분포 중 평균이 0, 분산이 1인 정규분포를 의미한다. 정규분포는 평균과 분산 값에 따라 다양한 형태를 띄므로, 다양한 경우에 따라 확률 값을 계산하는 것이 용이하지 않다. 이를 보완하기 평균과 분산 값을 통일하는 표준화 작업을 진행하고, 이 분포를 표준정규분포라 부른다.
표준화는 확률변수 X에 평균을 빼고 표준편차로 나누어 Z라는 새로운 확률변수를 만드는데, 이 작업을 통해 모든 값을 일정 범위 이내로 정리할 수 있다. 머신러닝 모델 적합 시 데이터의 스케일 차이가 크게 날 경우 가중치가 균일하게 학습되지 않는 현상이 발생하는 것을 방지할 수 있다.
표준화 시 주의할 점은 표본의 크기가 적어도 20이상이어야 하며 다른 집단과 비교할 때 각 집단은 동질적이라는 가정이 필요하다는 것이다.
표준 정규분포는 평균인 0을 기준으로 좌우대칭이며, 평균을 기준으로 표준편차의 1배수 내 범위에 34%의 값이 분포되어있다. 따라서 전체 값의 68%는 해당 범위 내에 있다. 전체 값의 95%는 2배수, 전체 값의 99%는 3배수 안에 포함된다.
중심극한정리 (Central limit Theorom)
모집단에서 표본크기가 n인 표본을 여러번 반복 추출했을 때 표본의 크기가 커질 수록 각각의 표본 평균(표본의 평균)들이 이루는 분포가 모집단의 평균과 표준편차를 따르는 정규분포에 가까워진다.
중심극한정리가 중요한 이유
- 모집단의 분포와 상관없이 표본의 크기가 충분히 크다면, 표본평균들의 분포가 모집단의 모수를 기반으로한 정규분포를 이룬다라는 가정을 할 수 있다.
- 위 가정을 통해, 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 수학적 근거를 마련해 준다.
'Statistics' 카테고리의 다른 글
추정과 가설 검정 간단 정리 (0) | 2024.01.15 |
---|---|
F-분포(F-distribution) (0) | 2024.01.12 |
t-분포(t-distribution, Student's t-distribution) (1) | 2024.01.12 |
카이제곱분포(Chi-Square distribution) (0) | 2024.01.12 |
확률분포 간단정리 (1) | 2024.01.11 |