학부생이 공부하고 생각한 내용을 정리하는 블로그라 정확하지 않을 수 있으니 참고만 부탁드립니다!
안녕하세요 통계를 좋아하는 김혜빙입니다.
오늘은 자료 특성에 따라 달라지는 t-test 방식에 대해 알아보도록 하겠습니다.
오늘도 두괄식으로 결론부터 제시하겠습니다!

우선 t-test를 하는 이유에 대해 알아보겠습니다 .
예를들어 여러분이 공장 오너라고 가정합시다.
이때 공정을 Line process로 설계할지, jop shop process로 설계할지에 따라 생산 속도, 생산량 등이 달라지게 될 것입니다.
그럼, Line process와 jop shop process 중 어떤 방식이 더 나은 효과를 나타내는지 비교해야겠죠?
간단하게 평가지표 하나 즉 단위시간당 생산량을 선택했습니다.
두 process의 비교를 위해선 어떤 값을 사용하는 것이 좋을까요?
예로부터 사용된 방법은 단순히 평균을 비교하는 것이죠.
하지만 평균의 차이가 실제로 얼마나 차이를 나타내는지, 이것이 유의한 의미를 가지는지는 단순한 평균의 차로 판별하기엔 무리가 있습니다.
이래서 고안된 방식이 t-test 입니다.
하지만 t - test는 여러 가정이 성립되어야 적용할 수 있습니다.
이를 따져보겠습니다.
1. 독립성 (iid)
2. 등분산성
3. 정규성
첫번째로 독립성입니다.
정확히는 iid 인데요, identical& independant distribution 입니다.
저희가 측정하고자 하는 각각의 "단위 시간당 생산량" 이 어떤 분포로 부터 생성됐다고 생각합니다.
따라서
X_i ~ N( mu, variance ) , (i = 1 to n)
Y_i ~ N( mu, variance ) , (i = 1 to n)
X는 확률변수이고, line process의 단위 시간당 생산량을 의미합니다.
Y는 확률변수이고, jop shop process의 단위 시간당 생산량을 의미합니다.
이때 단위 시간당 생산량을 하루 (24시간) 측정하고, 이를 1달(30회) 반복한다고 생각해봅시다.
그럼 30일동안의 평균 단위 시간당 생산량이 측정되게 됩니다. 그럼 n은 30이 되겠군요
(공장 사정상, X와 Y를 측정하는 날짜는 달라질 수 있습니다. X는 1달, Y는 2달 이런식으로요)
그리고 이때 각 날짜별로의 생산량은 다른 날짜의 생산량에 영향을 미치지 못하며, 항상 같은 분포(N)으로 부터 추출된다고 생각하는 것입니다. 이는 주사위를 30번 던질 때 항상 같은 주사위를 사용해서 던진다는 것과 유사한 개념입니다.
두번째로 등분산성입니다.
예시에 따르면 Line process 와 Jop shop process의 분포의 분산이 같다고 가정하는 것입니다.
당연히 다를 것 같은데 왜 이런 가정이 있냐? 라고 물으신다면..
두 분포의 특성이 유사하여 분산이 비슷할 수 있기 때문에..? 라고 일단 해두겠습니다.
만약 등분산성 가정을 어기게 된다면 Welch's t-test를 하게 됩니다. (이 과정은 안 배워서.. 생략 ㅜ)
세번째로 정규성입니다.
정규성에 대해 자세히 알아보기전에 저희가 하고자 하는 것이 "평균" 에 대한 두 집단 비교라는 걸 잊지 않으셔야 합니다.
즉, 수집한 데이터의 평균이 ( line process의 생산량 평균) 정규분포를 따르는지 확인해야하는데요.
X_bar, Y_bar 가 정규분포를 따라야합니다. X, Y가 어떤 분포를 따르는지는 지금은 전혀 상관이 없는 것이죠.
다만 표본평균은 n이 30 이상이 되면 "중심극한정리"에 의해 정규분포를 따른다고 가정할 수 있습니다.
따라서 다음과 같이 n이 30이상인지 확인하는 절차를 거치는 것이지요.

만약 표본의 수가 n <30 이라, 오른쪽으로 가게 된다면 저희는 다시 한번 체크를 해야합니다.

만약 소표본이라도, X_i가 정규분포를 따른다면 X_bar은 정규분포를 따르게 됩니다.
그 이유는 iid인 정규분포 random variable의 합은 정규분포를 따르기 때문입니다.
이에 대한 증명은 mgf를 통해 간단히? 이뤄집니다.
이때 만약 정규성을 결국 만족시키지 못해 오른쪽으로 가면 비모수 통계를 해야합니다.
비모수 통계법은 분포에 대한 가정을 하지 않는 대신 정보의 손실로 인해 정확도가 떨어진다는 단점이 있습니다.
여튼, 저희는 운좋게도 정규성을 만족하여 왼쪽으로 이동했다고 생각해봅시다.
이러면 "짝을 이루는 데이터 셋" 인지 여부를 확인하게 됩니다.

짝을 이룬다면 자유도는 낮아지지만 분산이 감소하며 신뢰구간이 짧아지게 되고 따라서 기각역이 짧아지게 됨으로써
검정의 정밀도를 제고할 수 있습니다. (두 집단 -> 한 집단 으로 바뀌었을 뿐 정석적인 t-test 입니다.)수정필요
만약 pairwise가 아니라면
최종적으로 등분산성을 만족시키는지 확인하고
만족시킨다면 pooled variance를 활용하여 정석적인 "t-test" 를 진행
불만족시킬경우 Welch's t - test를 진행하게 됩니다.
지금까지 두 집단의 평균을 비교하는 과정을 배워봤는데요
재밌으셨나요?
도움이 되셨다면 좋아요와 댓글 부탁드립니다 ^^