본문 바로가기
Statistics

카이제곱분포(Chi-Square distribution)

by hits_gold 2024. 1. 12.
반응형

카이제곱분포(Chi-Square distribution)

 

카이제곱분포는 '표준정규분포 확률변수의 제곱합'으로 정의된다.(확률변수들을 연산한 결과도 확률변수이다.) 다음과 같은 순서로 카이제곱분포를 만들 수 있다.

  1. 표준정규분포를 따르는 확률변수 집합에서 n개의 확률변수를 독립적으로 추출한다.
  2. 추출한 n(자유도, 추출 변수 개수)개의 변수들의 제곱합을 구한다.
  3. 위 과정을 반복해 자유도 n인 카이제곱분포를 만든다.

자유도에 대한 이해

https://diseny.tistory.com/entry/%EC%9E%90%EC%9C%A0%EB%8F%84Degree-of-Freedom%EC%97%90%EC%84%9C-%EC%9E%90%EC%9C%A0%EB%A1%9C%EC%9B%8C-%EC%A7%80%EA%B8%B0

 위 그래프를 보면 자유도가 적을수록 표준정규분포의 평균인 0에 더 많은 값들이 포함되는 것을 알 수 있다. 직관적으로 표준정규분포에서 추출하는 변수의 개수가 적을 수록, 평균인 0에 가까운 값에 추출될 확률이 높다고 이해했다.

 

카이제곱분포의 특성

  1. 정규분포와 t분포와 다르게 자우 대칭의 종형이 아니다.
  2. 자유도의 크기가 증가하게 되면 점점 대칭성을 갖추며 통상 n>30일 때 거의 정규분포에 가까워진다.
  3. 제곱합의 개념이므로 양수의 영역에서 그려진다.
  4. X가 χ²(n1) 분포를 하고, Y가 χ²(n2)의 분포를 할 경우, X와 Y가 확률적으로 서로 독립이라면, X+Y는 χ²(n1+n2)가 된다. 이를 'χ² 분포의 가법성'이라고 한다.

카이제곱분포의 활용

왜 표준정규분포에서 얻은 값들을 제곱합하는가?

 카이제곱분포는 오차(error) 혹은 편차(deviation)을 분석할 때 사용할 수 있는 분포다. 보통 오차는 정규분포로 가정하는데, 예를 들어 회귀분석 모델 사용 시 전체 오차를 오차제곱합을 할 경우 이는 카이제곱분포를 따르게 되고, 이 오차가 우연히 발생할 수 있다고 볼 수 있을만한 수준인지 판별하는데 카이제곱분포를 사용할 수 있게 된다.

 

모분산에 대한 가설 검정

 모분산 σ²의 불편추정량이 s²이며 (n-1) * s² / σ²는 χ²(n-1)의 분포를 따르는데, 카이제곱분포 특성 4이 표본표준편차를 구할 때 n이 아닌 n-1로 나누는 이유이다.

https://hm-learning.tistory.com/54

 

Chi-Square 깊이 이해하기

https://m.blog.naver.com/PostView.nhn?blogId=definitice&logNo=221118885966&proxyReferer=https:%2F%2Fwww.google.com%2F Chi-Square(카이제곱) 분포는 무엇이고, 카이제곱 통계량은 어떻게 도출되었을까? 통상 학부 통계학 수업의

hm-learning.tistory.com

위 글의 예시문제를 보면 더 자세히 이해할 수 있다.

 

범주형 자료 분석의 카이제곱 검정

 카이제곱분포는 어떤 확률변수가 특정 분포를 따른다는 적합도 검정과 두 변수 간의 통계적 독립성을 검정하는 데에 활용된다. 두 가지 경우 모두 관측빈도와 기대빈도를 가지고 만들어지는 카이제곱 통계량을 활용하며, 적합도 검정은 변수가 1개일 때, 독립성 검정은 변수가 2개일 때 쓰인다는 차이가 있다. 

 카이제곱의 값이 표준정규분포를 따르는 확률변수 집합에서 독립적으로 추출한 확률변수들의 제곱합이므로 어떤 데이터에서 각 범주의 빈도가 범주와 상관관계가 있는 것인지, 범주와 상관없이 독립적인지 검증한다는 논리가 깔려 있다.

반응형

'Statistics' 카테고리의 다른 글

추정과 가설 검정 간단 정리  (0) 2024.01.15
F-분포(F-distribution)  (0) 2024.01.12
t-분포(t-distribution, Student's t-distribution)  (1) 2024.01.12
정규분포(Normal distribution)  (0) 2024.01.12
확률분포 간단정리  (1) 2024.01.11