통계/통계적 추론

1. ANOVA 분산 분석, 사후 검정

hyebing_KIM 2023. 7. 13. 20:04

ANOVA는 ANalysis Of VAriance 의 약자이다. 

 

한국어로 분산분석

 

경제성 공학 소논문 작성 과정에서 논문을 검색할 때에 통계자료 분석이 안 돼서 난감했던 경험이 많았다.

 

t값이니 p값이니,, 

 

어차피 공학통계2를 준비할거고 통계 자체는 평생 사용할 것이라는 나의 주관에 따라 통계공부를 시작했다.

 

이번 글은 ANOVA에 관한 글이다.

 

ANOVA는 여러 번의 T-TEST를 시행하며 발생하는 1종오류를 방지하기 위해 사용된다.

 

T-TEST를 여러 번 진행할 경우 P값이 1-0,95^N 이 되므로 통계적으로 유의하지 못하다.

 

따라서 ANOVA를 만들었다. ANOVA는 경제성공학에서 증분분석 과정과 유사한 점이 존재한다.

 

증분 분석에서, 프로젝트 A, B가 존재하고 B/C 분석 결과 둘 다 B/C > 1 일 경우 증분 분석을 시행하여 최종적인

의사결정을 내리게 되는데,

 

이때 프로젝트 A, B 중 B/C <1 의 대안이 존재할 경우, 그 프로젝트는 우선적으로 기각된다. 

 

ANOVA 또한 그렇다. 3가지 이상의 표본의 유사성을 검증하는 과정에서 

 

"모든 표본이 같다" 라는 H0 (귀무가설) 이 참으로 밝혀진다면 그것으로 ANOVA는 끝이 난다.

 

하지만 우리가 일반적으로 원하는 것은 귀무가설의 기각. 즉, 대립가설(H1)의 채택이며, 이는

 

"적어도 1개 이상의 표본이 유의하게 다르다" 이다.

 

1개 이상 유의한 표본이 발견된다면, 그 표본이 어떤 것인지에 대한 검정이 필요하고 이것을 

 

"사후검정" 이라고 한다.

 

사후검정의 방법은 여러가지가 존재하며, 이는 모두 같은 결과를 도출해내기 때문에 뭐를 사용하든 상관없다.

 

다른 유튜브를 본 결과, T-TEST를 진행할 때 P값을 더 낮은 숫자로 두고 최종적인 값을 0.95가 되게 하는 방식으로

 

진행하는듯 하다. 근데 어차피 계산이 빠르니까 사후검정 하나만 툭 때려서 바로 결과 얻으면 안 되나? 싶다

 

ANOVA얘기를 마저 하자. 이름부터 분산분석이고

 

F- value = 표본 외부의 분산 / 표본 내의 분산 <<이렇게 정의된다.