통계/통계적 추론

3. ANOVA의 가설은 어떻게 검정 통계량에 반영되었나?

hyebing_KIM 2024. 11. 6. 23:57

통계에서 가설검정을 하기 위해 사용하는 것은 검정 통계량이다.

 

가설 검정의 단계는 다음과 같다.

 

1. 가설을 세운다.

2. 가설의 채택 여부를 판단하기 위한 기준을 설정한다. (유의 수준, significance level)

3. 이에 맞는 검정 통계량을 결정한다. (t-test의 경우 t 검정 표)
4. 데이터를 수집한다.

5. 데이터를 이용해 검정 통계량을 계산한다.

6. 3과 5의 검정 통계량을 비교하여, 가설의 기각 여부를 판단한다.

 

이때 검정통계량은 어떠한 parametric한 확률 분포의 x값이 된다.

 

그 분포에서 기각역을 설정할 때 유의 수준 (예를 들어 0.05)에 맞춰 확률 분포의 넓이를 계산하고 이때의 x값을 검정 통계량의 기준값으로 잡는건데.

 

이때 확률 분포가 parametric 하다고 했다. 그런데 우리는 parameter 값을 모른다.

 

따라서 가설로 parameter을 "가정" 하게 된다.

 

그럼 검정통계량도 결국 가설에 따라 달라지게 되는 것이다.

 

 

예를 들어, t-test에서 귀무 가설을 mu = 90 으로 뒀을 때랑, mu = 100으로 뒀을 때랑 검정 통계량이 다르다.

 

이는 곧 가설이 검정 통계량에 영향을 미친다는 것을 의미한다.

 

 

그럼 ANOVA에서는 어떤 식으로 귀무가설이 검정 통계량에 작용할까?

 

ANOVA의 검정에 사용되는 분포는 F 분포이다.

 

 

검정 통계량은 MST/MSE 이고 (고정 효과 모형) , (선형 회귀에서도 나오는데 그땐 MSR/MSE이다. 즉 효과/오차 로 해석)

 

 

그런데, 검정 통계량에는 가설이 영향을 미친다고 했는데, F값에 가설이 어디있는지 알 길이 없다.

 

어떻게 된 일..일까?

 

우선 ANOVA의 귀무가설을 알아보자..

고정 효과 모형의 귀무가설

 

,,?

 

도대체 무슨 상관일까?

 

우선 F 분포를 따르기 위해선, 분자 분모가 카이제곱 분포를 따라야 한다.

 

MST 와 MSE에 대해 알아보자.

SST와 SSE의 수식

 

SST는  i번째 처리의 표본 평균 - 표본 평균 => 처리 효과

SSE는 i번째 처리의 j번째 표본 - i번째 처리의 표본 평균 => 처리 내 효과

 

로 해석 가능하다. 

 

 

 

고정효과 모형에서의 평균값

 

이제 뭔가 감이 오지 않나?

 

일단 그 전에 대수의 법칙에 대해서 생각해보자.

 

대수의 법칙은 어떤 표본의 평균이 관측 수(n) 이 늘어날 경우 모평균에 근사해간다는 것이다.

 

기댓값이라는 것은 사실 관측된 값들을 관측 수(n) 으로 나눠주는 것으로 부터 시작됐다. 

 

기댓값은 그리고 아무렇게나 찍는 것 보다 이 값을 쓰는게 어때? 라는 하나의 합리적인 추정치 즉 ESTIMATOR 인데.

 

MST/MSE 가 검정 통계량인것은 맞지만, 그것의 합리적 추정치인 E(MST), E(MSE) 를 보면 뭔가 감이 오지 않나? 22

 

 

바로 E(MST)/E(MSE)에 ANOVA의 귀무가설 타우 = 0 을 다 때려 넣는 순간?

 

검정통계량이 1에 가까워져버린다. 

 

그러니까, F분포의 X값은 클수록 기각하는게 default 인데 (사실 이것도 애매한게 귀무가설에 따라 기각역이 달라지는데)

 

+ kmooc 여인권 교수님 강의에선 f 값도 제곱의 형태라서? 오른쪽만 본다고 하신다...

 

 

 

아래 그래프를 보면 1은 귀무가설을 기각하기에 굉장히 적은 값임을 확인할 수 있다. 

 

1부터 오른쪽으로 확률 합이 대체 얼마냐,, 0.05는 훌쩍 넘을 것으로 예상할 수 있다.

 

 

+ 좀 더 설명하자면

 

귀무가설에 따르면, 

검정 통계량이 1에 가까워져야 정상인데, 실제 데이터 값을 통한 검정 통계량이 1을 훌쩍 넘길 경우에 ( 유의 수준까지 ) 

 

이는 귀무가설이 틀렸다고 볼 수 있다는 것이다.. ! ㅎㅎ 결론적으로 검정통계량에 귀무가설이 반영된 것.

 

 

reference : https://for-my-wealthy-life.tistory.com/57

 

그리고 뭔가 E(MST)/E(MSE) 이것도 E 라고 하면 뭔가.. 표본을 많이 모은 느낌인데,

 

d.f (표본 수) 가 올라감에 따라, 봉우리가 1에 가까워지는 걸로 봐선 뭔가 의미가 있는 것 같다.

 

솔직히 정확하겐 모르겠는데 1에 가까워진다니 신기하넹. (1에 가까워질수록 오른쪽 확률값이 상승하긴 한다)

 

 

 

변량 효과 모형

 

심지어 변량 효과 모형에서는 귀무가설이 다르다..

 

다음 글은 변량 효과 모형에 대해 다뤄보겠다.

 

 

 

 

'통계 > 통계적 추론' 카테고리의 다른 글

1. ANOVA 분산 분석, 사후 검정  (0) 2023.07.13