이번 연재를 끝으로 계획된 연재는 모두 마치게 되었다. 아마 이제부터는 쓴다면 bayesian statistics위주로 쓰지 않을까 싶지만, ANCOVA나 Logistic Regression같이 좀 더 advanced 기법에 대해 대해서도 소개하게 될 것이다. 처음에 연재를 시작했을 때는 무사히 마칠 수 있을지 의문이 들었는데, 무사히 마치게 되어서 다행이다.
스피어만 상관계수를 계산할 때 데이터의 순위를 매겨서 계산하였다. Wilcoxon 순위합검정/부호순위검정도 이러한 방식을 사용한다. 단 통계에서는 순위를 매길 때 오름차순으로 매기며, 따라서 순위가 클수록 높은 순위임을 잊지 말자. 윌콕슨 순위합검정은 two-sample인 경우의 t-test에 해당되는 비모수적 방법인데, 두 집단을 비교할 때 사용한다. 영가설은 두 집단의 분포가 동일하다는 것이며, 대안가설은 한 집단의 분포는 다른 집단의 분포를 이동하여 얻은 것이라는 것이다. 여기서 이동이라는 것은 평균의 이동을 의미하며, 이동한 거리는 이동모수(shift parameter)라 한다. 따라서 영가설은 이동모수가 0이라는 것이고, 대안가설은 0이 아니라는 것인데, 단방/양방검증 다 가능하다. 자세한 이론적 설명은 생략하며 교과서를 참조하도록 하자. 예를 통해 검증 절차에 대해 더 자세히 알아보도록 하겠다.
a는 표준정규분포에서, b는 (1,1)인 정규분포에서 10개의 난수를 추출한 것이다. 따라서 b는 a를 양의 방향으로 1만큼 이동한 분포에서 나온 데이터이다. 이제 검증을 해 보자.
t검증과 마찬가지로 옵션은 단방/양방. 유의수준도 지정 가능하다. 검증통계량은 11, p<.05 로 유의하게 나왔다. 따라서 b는 a보다 양의 방향으로 더 치우쳐진 분포라 할 수 있다. 영가설은 두 분포 사이에 이동이 없다는 것인데, 이것이 기각된 것이다.
이번에는 부호순위검정 절차를 보자. 이 검정 절차는 일표본 t검정에 해당되는 절차다(one-sample t-test). 영가설은 평균이 정확히 어떤 수라는 것이며 대안가설은 그렇지 않다는 것이다. 다음의 화면을 보자.

(4,4)의 정규분포에서 20개의 숫자를 추출하였다. 첫 번째 명령어는 이 데이터들의 평균이 4인지를 검증하는 절차인데 p=0.6742, p>.05로 유의미하지 않다. 영가설은 일표본 t검증과 동일하게 평균이 4라는 것인데 이를 기각하지 않아도 된다. 하지만 밑의 명령어에서는 평균이 7인지를 검증하라고 하였는데, p<.05로 영가설이 기각되었다. 따라서 평균은 7이 아니라는 결론을 내린다.
마지막으로 kruskal-wallis 검증절차에 대해 언급하고 마치려 한다. 이 절차는 ANOVA에 대응되는 비모수 절차로, 위의 검증들과 마찬가지로 서열(순위)척도 이상에 적용할 수 있다. 다음의 예제를 보자.
a,b,c는 같은 분포를 평균의 위치만 1씩 달리한 것이다. 영가설은 세 분포의 위치(모수 : 평균)가 모두 같다는 것이다. 세 데이터를 묶을 때는 위와 같이 list()를 사용하면 된다. 결과를 보니 통계치는 18.0103, p<.05로 영가설을 기각할 수 있다. 따라서 a,b,c의 평균이 모두 같다고 할 필요는 없게 되었다.
처음의 연재 시작 때는 쉽게쉽게 간다고 다짐했었는데 후반부로 올수록 조금씩 어려워진 느낌을 지울 수 없어 마음이 다소 씁쓸하다. 만약 연재를 책으로 낼 일이 있으면 좀 더 쉽고 간결하게 줄여야 할 것 같다(특히 학부 교재를 만든다면 아마 ANOVA의 mixed design 같은 것은 다루기 힘들 것이다). 목표를 달성한 것 같아 후련하면서도 뭔가 아쉬운데, 2학기를 마치고 혹시 또 다변량통계에 관한 글을 쓸 일이 있으면 다시 연재를 하게 될 것 같다.
스피어만 상관계수를 계산할 때 데이터의 순위를 매겨서 계산하였다. Wilcoxon 순위합검정/부호순위검정도 이러한 방식을 사용한다. 단 통계에서는 순위를 매길 때 오름차순으로 매기며, 따라서 순위가 클수록 높은 순위임을 잊지 말자. 윌콕슨 순위합검정은 two-sample인 경우의 t-test에 해당되는 비모수적 방법인데, 두 집단을 비교할 때 사용한다. 영가설은 두 집단의 분포가 동일하다는 것이며, 대안가설은 한 집단의 분포는 다른 집단의 분포를 이동하여 얻은 것이라는 것이다. 여기서 이동이라는 것은 평균의 이동을 의미하며, 이동한 거리는 이동모수(shift parameter)라 한다. 따라서 영가설은 이동모수가 0이라는 것이고, 대안가설은 0이 아니라는 것인데, 단방/양방검증 다 가능하다. 자세한 이론적 설명은 생략하며 교과서를 참조하도록 하자. 예를 통해 검증 절차에 대해 더 자세히 알아보도록 하겠다.


이번에는 부호순위검정 절차를 보자. 이 검정 절차는 일표본 t검정에 해당되는 절차다(one-sample t-test). 영가설은 평균이 정확히 어떤 수라는 것이며 대안가설은 그렇지 않다는 것이다. 다음의 화면을 보자.

(4,4)의 정규분포에서 20개의 숫자를 추출하였다. 첫 번째 명령어는 이 데이터들의 평균이 4인지를 검증하는 절차인데 p=0.6742, p>.05로 유의미하지 않다. 영가설은 일표본 t검증과 동일하게 평균이 4라는 것인데 이를 기각하지 않아도 된다. 하지만 밑의 명령어에서는 평균이 7인지를 검증하라고 하였는데, p<.05로 영가설이 기각되었다. 따라서 평균은 7이 아니라는 결론을 내린다.
마지막으로 kruskal-wallis 검증절차에 대해 언급하고 마치려 한다. 이 절차는 ANOVA에 대응되는 비모수 절차로, 위의 검증들과 마찬가지로 서열(순위)척도 이상에 적용할 수 있다. 다음의 예제를 보자.

처음의 연재 시작 때는 쉽게쉽게 간다고 다짐했었는데 후반부로 올수록 조금씩 어려워진 느낌을 지울 수 없어 마음이 다소 씁쓸하다. 만약 연재를 책으로 낼 일이 있으면 좀 더 쉽고 간결하게 줄여야 할 것 같다(특히 학부 교재를 만든다면 아마 ANOVA의 mixed design 같은 것은 다루기 힘들 것이다). 목표를 달성한 것 같아 후련하면서도 뭔가 아쉬운데, 2학기를 마치고 혹시 또 다변량통계에 관한 글을 쓸 일이 있으면 다시 연재를 하게 될 것 같다.




덧글
chojae 2011/06/30 09:12 # 답글
짝짝짝! 수고하셨습니다. 통계학도 잘 못하고, R도 처음이라서 따라가기 좀 어려웠지만, 님의 블로그를 통해서, 어느 정도 친숙해질 수 있었습니다. 다음 기회에도 좋은 글을 계속 부탁드립니다. 아마, 저와 같이, 관심이 있는 분들은 이런 좋은 포스팅들을 소문없이도 열심히 찾아와서 읽을 거라 믿습니다.
Bayesian 2011/06/30 10:45 #
감사합니다^^