본문 바로가기

Statistics12

이원분산분석(Two-way ANOVA)(feat.Python) 이원분산분석은 집단의 평균에 영향을 주는 요인이 2개인 경우에 사용한다. 또한 반복이 없는 경우와 반복이 있는 경우로 나뉘는데, 샘플 수가 1개면 반복이 없는 것이고, 2개 이상이면 반복이 있는 것이다. 반복이 없는 경우를 보면 A, B 두가 요인별로 샘플이 하나씩만 있는 것을 알 수 있다. 1. 반복이 없는 경우 이원분산분석은 요인이 2개이므로 가설을 세울 때 요인 별로 따로 세워야해서 2개의 가설을 세워야한다. 또한 이원분산분석의 분산분석표에는 두 번째 요인에 해당하는 값들이 추가된다. 이에 F검정통계량 값도 두 개가 나오고, 이 것으로 두 개의 가설을 검정한다. 여기서 a는 요인A에 의한 집단 수, b는 요인B에 의한 집단 수를 나타낸다. 2. 반복이 있는 경우 반복이 있는 경우는 두 요인에 의한 .. 2024. 1. 23.
일원분산분석 (One-way ANOVA)(feat. Python) 일원분산분석은 평균에 영향을 주는 요인이 1개인 경우에 사용하는 분산분석이다. 예를 들어 4개의 기계별로 생산량을 조사할 때는 집단이 4개이지만 집단 별 영향을 주는 요인은 "기계" 하나이기 때문에 일원분산분석을 사용한다. 만약 기계와 기계를 다루는 작업자 5명을 조사한다고 했을 때는 집단의 수와 상관없이 평균에 영향을 주는 요인은 "기계"와 "작업자"이기 때문에 이원분산분석을 사용한다. 일원분산분석에서는 귀무가설과 대립가설을 세울 때 집단의 수를 맞춰야 한다. 위의 예제처럼 기게가 4대 일 때는 가설을 μ4까지 표현해야한다. 또한 분산분석에서는 여러 계산이 헷갈릴 수 있어 분산분석표를 기준으로 삼아서 하는데, 일원분산분석의 표는 아래와 같다.( 일원분산분석은 크게 "반복이 같은 경우"와 "반복이 다른 .. 2024. 1. 23.
분산분석(ANOVA) 분산분석(ANOVA) - 분산분석은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정이다. 다수 집단 비교에서 t-test를 여러 번 사용하면, 다중검정문제 발생으로 1종 오류가 증가하게 된다. 따라서, 다수 간의 평균 비교에서 ANOVA를 통해 유의한 차이를 검정한다. A - ANOVA 결과, 그룹 사이의 차이가 없음 B - ANOVA 결과, 그룹 사이의 유의한 차이가 존재 분산분석의 종류 1. 일원분산분석 (One-way ANOVA) - 독립변인 1개와 종속변인 1개일 때, 집단 간의 유의미한 차이 검정 - ex) 각 국가별 학습기술에 따른 성적비교 (독립변인-학습기술, 종속변인-성적, 집단-국가) 2. 이원분산분석(Two-way ANOVA) - 독립변인 2개와 종속변인 1개일 때, 집단 간의 유.. 2024. 1. 23.
분산분석(ANOVA)의 가정(feat.Python) 분산분석이란 분산분석은 세 집단 이상의 모평균 차이를 검정하고, 표본에서의 차이가 통계적으로 유의한지 검증하기 위해 분산을 이용하는 방법을 말한다. 평균을 비교하는데 분산을 사용하는 이유는, 분산이 클 수록 치우쳐진 정도가 커 평균이 다를 확률이 높아지기 때문이다. 보통 분산분석은 "같다" 또는 "같지 않다"만 파악할 뿐, 다른 가설 검정처럼 "크다", "작다"는 파악하지 않는다. 여러 실험이나 연구에서 집단이 3개 이상인 경우가 많아 분산분석은 나름 활용도가 높다. 분산분석은 각 집단을 나누는 요인이 1개이면 일원분산분석(One-way ANOVA), 분산분석의 가설 설정 일반적인 가설검정에서 "같지 않다"는 방향을 모른다는 표현으로 양측검정을 하지만, 분산분석에서는 "평균이 다르다"는 의미로 쓰여 양측.. 2024. 1. 18.
이표본 검정(Two-sample)(feat.Python) 두 모집단의 가설검정 일표본 검정과 달리, 두 모집단의 가설검정은 집단 각각의 모수가 어떠한 관계에 있는지를 검정한다. 이 때 두 모수의 관계는 보통 =, 이렇게 3가지가 있는데, 서로의 관계를 파악할 때는 주로 뺄셈과 나눗셈을 사용한다. 모평균, 모비율의 비교 - 뺄셈을 사용해, [모수 - 모수]가 0, 음수, 양수 중 어떠한 값을 갖는지 가설로 설정한다. 모분산의 비교 - 나눗셈을 사용해 1, 1보다 큰 수, 1보다 작은 수 중 어떠한 값을 갖는지 가설로 설정한다. 이 때 모분산이 나눗셈을 사용하는 이유는 확률분포 때문인데, 모평균과 모비율은 뺄셈을 해도 정규분포나 t분포를 사용할 수 있지만, 모분산은 뺄셈을 하면 사용할 확률분포가 없기 때문이다. 또한 두 모집단의 두 모수의 크기가 서로 완벽하게 같.. 2024. 1. 17.
일표본(One-sample) 검정(feat.Python) 모평균의 추정과 가설 검정 : Z분포, t분포 1. Z검정 - 표본의 크기가 30 이상이거나 모집단의 분산을 아는 경우 ex) 건전지의 평균 수명이 300일이라고 알려져있을 때, 일부에서 300일이 아니라는 의견이 나오고 있다. 해당 건전지 25개를 표본으로 뽑아 조사하였더니, 평균수명은 310일이 나왔고, 그 동안 수집한 자료를 분석한 결과 표준편차는 30일 이라고 한다. 이 때 어느 의견이 더 타당한지 유의수준 5%에서 검정하라. 원래 평균수명이 300일이라고 알려져있는데, 이것이 맞는지 검정하기 위한 것이므로 평균수명=300일 을 귀무가설로 설정하고, 평균수명은 300일이 아니다를 대립가설로 설정한다. 알려져 있는 표본개수, 모평균과 표본평균을 대입해 검정통계량을 계산하면 1.67이 나온다. 이 때.. 2024. 1. 16.
추정과 가설 검정 간단 정리 통계적 추론의 목적 통계적 추론의 목적은 표본의 정보로부터 모집단에 대한 정보를 얻는 것이다. 여기서 모집단의 특성을 나타내는 상수들을 모수라 하고, 표본의 특성을 나타내는 상수들을 통계량이라고 한다. 예를 들어 모집단의 모수인 평균, 비율, 분산을 추정하거나 가설 검정을 할 때, 통계량인 표본으로부터 얻은 표본평균, 표본비율, 표본분산을 사용한다. 각 통계량들은 특정 확률분포를 따르기 때문에 이 분포들을 활용한다. 추정의 종류 추정은 점추정과 구간추정으로 나뉘며, 점추정은 단순히 표본평균, 표본분산, 표본비율을 계산하는 방법이다. 이 때 추정값들이 얼마나 정확히 모수를 추정하는지 알 수 없기 때문에 오차의 개념을 추가하여 구간으로 모수를 추정하는 방법이 구간추정이다. 가설 검정 가설 검정은 표본에서 얻.. 2024. 1. 15.
F-분포(F-distribution) F-분포 F-분포 카이제곱분포와 같이 분산을 이용하여 추정하고 검정하기 위해 고안된 확률분포이다. F분포는 2개 이상의 표본평균들이 동일한 모평균을 가진 집잔에서 추출되었는지 아니면 다른 모집단에서 추출된 것인지 판단하기 위하여 사용한다. 두 확률변수 V1, V2는 각각 자유도가 k1, k2이고 서로 독립인 카이제곱분포를 따를 때, 다음과 같이 정의되는 확률변수 F는 자유도가 (K1, k2)인 F-분포를 따른다고 한다. 정리하면 F-분포는 2개의 카이제곱분포의 비율의 확률분포를 의미한다. 데이터들의 집합이 2개 이상일 때, 집합들의 평균의 분산을 얻을 수 있다. 이 때 F-값은 아래와 같다. F-분포의 특성 F분포는 카이제곱분포와 마찬가지로 좌우대칭이 아니다. 표준정규분포를 제곱하여 합한 카이제곱분포 2.. 2024. 1. 12.
t-분포(t-distribution, Student's t-distribution) t-분포 t분포는 평균 검정을 하기 위해 고안되었다. 모집단이 정규분포를 따를 때, 표본평균은 N(μ, σ²/n)를 따른다. 과거에는 이를 이용하여 평균 검정을 해왔는데, 일반적으론 모분산인 σ²를 알 수 없다. 만약 n이 매우 크다면 표본평균은 더욱 정확히 정규분포를 따를 것이고, 표본평균의 분산이 0으로 수렴하게 될 것이다. 이 경우, σ²의 영향이 무시될 수 있을 정도가 되겠지만, 표본 수가 적을 때는 이를 이용한 검정이 신뢰성을 잃을 수 있다. 이러한 경우를 위해 정규분포와 형태는 비슷하지만 모분산 항 대신 표본분산을 이용한 분포를 고안해 만든 것이 t분포이다. t-분포의 특징 정규분포와 다르게 t분포는 모분산 σ² 를 포함하고 있지 않다. 이는 표본 수가 적을 때 신뢰성을 더해준다. 표본 수가 .. 2024. 1. 12.