카이제곱분포(Chi-Square distribution)
카이제곱분포는 '표준정규분포 확률변수의 제곱합'으로 정의된다.(확률변수들을 연산한 결과도 확률변수이다.) 다음과 같은 순서로 카이제곱분포를 만들 수 있다.
- 표준정규분포를 따르는 확률변수 집합에서 n개의 확률변수를 독립적으로 추출한다.
- 추출한 n(자유도, 추출 변수 개수)개의 변수들의 제곱합을 구한다.
- 위 과정을 반복해 자유도 n인 카이제곱분포를 만든다.
자유도에 대한 이해
위 그래프를 보면 자유도가 적을수록 표준정규분포의 평균인 0에 더 많은 값들이 포함되는 것을 알 수 있다. 직관적으로 표준정규분포에서 추출하는 변수의 개수가 적을 수록, 평균인 0에 가까운 값에 추출될 확률이 높다고 이해했다.
카이제곱분포의 특성
- 정규분포와 t분포와 다르게 자우 대칭의 종형이 아니다.
- 자유도의 크기가 증가하게 되면 점점 대칭성을 갖추며 통상 n>30일 때 거의 정규분포에 가까워진다.
- 제곱합의 개념이므로 양수의 영역에서 그려진다.
- X가 χ²(n1) 분포를 하고, Y가 χ²(n2)의 분포를 할 경우, X와 Y가 확률적으로 서로 독립이라면, X+Y는 χ²(n1+n2)가 된다. 이를 'χ² 분포의 가법성'이라고 한다.
카이제곱분포의 활용
왜 표준정규분포에서 얻은 값들을 제곱합하는가?
카이제곱분포는 오차(error) 혹은 편차(deviation)을 분석할 때 사용할 수 있는 분포다. 보통 오차는 정규분포로 가정하는데, 예를 들어 회귀분석 모델 사용 시 전체 오차를 오차제곱합을 할 경우 이는 카이제곱분포를 따르게 되고, 이 오차가 우연히 발생할 수 있다고 볼 수 있을만한 수준인지 판별하는데 카이제곱분포를 사용할 수 있게 된다.
모분산에 대한 가설 검정
모분산 σ²의 불편추정량이 s²이며 (n-1) * s² / σ²는 χ²(n-1)의 분포를 따르는데, 카이제곱분포 특성 4이 표본표준편차를 구할 때 n이 아닌 n-1로 나누는 이유이다.
https://hm-learning.tistory.com/54
위 글의 예시문제를 보면 더 자세히 이해할 수 있다.
범주형 자료 분석의 카이제곱 검정
카이제곱분포는 어떤 확률변수가 특정 분포를 따른다는 적합도 검정과 두 변수 간의 통계적 독립성을 검정하는 데에 활용된다. 두 가지 경우 모두 관측빈도와 기대빈도를 가지고 만들어지는 카이제곱 통계량을 활용하며, 적합도 검정은 변수가 1개일 때, 독립성 검정은 변수가 2개일 때 쓰인다는 차이가 있다.
카이제곱의 값이 표준정규분포를 따르는 확률변수 집합에서 독립적으로 추출한 확률변수들의 제곱합이므로 어떤 데이터에서 각 범주의 빈도가 범주와 상관관계가 있는 것인지, 범주와 상관없이 독립적인지 검증한다는 논리가 깔려 있다.
'Statistics' 카테고리의 다른 글
추정과 가설 검정 간단 정리 (0) | 2024.01.15 |
---|---|
F-분포(F-distribution) (0) | 2024.01.12 |
t-분포(t-distribution, Student's t-distribution) (1) | 2024.01.12 |
정규분포(Normal distribution) (0) | 2024.01.12 |
확률분포 간단정리 (1) | 2024.01.11 |