빈도주의와 베이지안, 그리고 가설검증 Statistics

R 카테고리에 쓴 글에서 가설검증에 대해 몇 가지 이슈들을 가볍게나마 다루었는데, 앞으로 가설검증과 관련하여 몇 가지 이야기를 하고자 한다. 이에 앞서서 이번 포스팅에서는 통계의 두 가지 큰 흐름인 빈도주의(frequentist)방식과 베이지안(Bayesian)방식에 대해 간단히 논하고자 한다. 현재 사용되고 있는 가설검정 절차는 빈도주의 방식의 것이기 때문에 이에 대해 잠시 언급하는 것이 필요할 것 같고, 사실 통계 카테고리의 첫 글이라는 의미가 있기 때문에 나의 관심사와 관련된 글을 올리는 것이 맞다 싶었다. 필명에서 눈치챈 사람들도 많겠지만, 나는 베이지안에 흥미가 있다. 하지만 많은 통계학자들이 생각하듯(내 생각이 아니라 James O. Berger라는 통계학자의 책에 나온 이야기)빈도주의든 베이지안이든 경우에 따라 더 유용한 것을 사용하면 된다. 어떤 경우에는 사용할 수 있는 tool이 둘 중 하나에 해당되는 것밖에 없는 경우도 있다. 아무튼 둘의 논쟁은 사실 철학적 이슈가 개입되어 있기 때문에, 쉽게 해결되기가 쉽지 않다. 하지만 그런 이유 때문에 더 재미있게 생각되기도 하는 주제이다.

양자는 우선 확률을 어떻게 정의할 것인지에 대해 근본적으로 견해를 달리한다. 우선 빈도주의에 따르면, 확률이란 간단히 말해 '상대도수의 극한' 이다. 예를 들어 주사위를 던지는 시행을 반복할 때, 1의 눈이 나올 확률을 p라 하자. 대부분의 사람들이 p=1/6이라고 직관적으로 생각할 것이다. 이는 주사위를 적은 수의 시행으로, 가령 10번 던졌을 때에는 정확하게 나오는 것이 힘든 값이다. 하지만 주사위를 무한히 많이 던진다면 1의 눈이 나오는 빈도는 전체 시행에 비해 1/6에 근접해간다고 생각할 수 있다. 좀 더 형식적으로 말하자면, 시행 수를 무한히 늘려갈 때 확률실험에서 특정 사건이 발생할 확률은 특정한 하나의 값에 무한히 가까워진다. 이것이 빈도주의적 확률의 정의이다.

반면 베이지안통계에서는 일반적으로 확률을 '믿음의 정도' (degree of belief)로 보는데, 이를 '주관적 확률'이라 한다. (하지만 베이지안에도 많은 유파가 있으며, 이들 중 objective bayesian이라 불리는 무리들은 약간 생각을 달리한다). 믿음의 정도를 어떻게 계산할 수 있을지에 대해 의문이 들 수도 있겠지만, Cox라는 사람의 공헌에 의해, 확률을 이렇게 정의하더라도 특정 공리만 충족된다면 사용할 수 있다는 사실이 증명되었다. 베이지안통계에서 말하는 '확률'의 주관성은 공격의 대상이 되어 왔으나 통계분석에 유용한 많은 성질을 갖고 있음이 확인되었으며, 현재는 많은 통계학자들에 의해 mainstream으로 받아들여진 상태이다. 심리학 분야에서도 베이지안통계는 학습을 비롯한 인지과정의 모델링에 쓰이고 있으며, 심리측정 분야에서도 응용되고 있다(Bayesian IRT). 최근 Journal of mathematical psychology는 한 issue를 거의 통째로 베이지안에 할애했는데, 이로 보아 베이지안이 수리심리 분야에서 갖는 위상을 짐작케 한다. 물론 다른 분야에서는 응용이 전무하다시피 한 상황이지만, 베이지안통계의 유용함으로 미루어볼 때 언젠가는 다른 분야에도 영향력을 발휘하지 않을까 싶다.

가설검증과 관련하여, 일반적으로 빈도주의통계(고전통계라고도 함)는 확률실험 이전에 우리가 대상에 대해 어떤 믿음을 갖고 있는지, 그리고 가설검증이 어떤 결과를 가져올지에 대해 별로 관심이 없다. 영가설이 기각됨에 따라서, 또는 기각되지 않음에 따라 어떤 손실과 이득이 있는지는 고려대상이 아니라는 뜻이다. 베이지안은 이들을 고려한다. 확률실험 이전에 갖고 있던 믿음은 사전믿음(prior belief), 가설검증과 관련된 의사결정이 초래할 손실 및 이득은 loss로 개념화하여 통계분석에서 고려사항으로 삼는다. 둘의 차이를 이해하기 위해, 예를 들어 어떤 사람이 동전을 10번 던졌는데 10번 다 앞면이 나왔다고 하자. 빈도주의 방식의 대표적인 추정 방식인 최대우도법(Maximum Likelihood Estimation)을 이용하면 우리는 앞면이 나올 확률이 애초에 1이었다고 보는 것이 가장 합리적이라는 결론을 내려야 한다. 하지만 우리는 직관적으로 이것이 우연에 의한 것일 가능성이 높다는 사실을 알고 있다. 베이지안에서는 이와 같은 사전믿음을 통계분석에 포함시킬 수 있다. 어떻게 포함시키는지는 베이즈정리(Bayes`theorem)을 비롯한 많은 추정 규칙에 대해 이해해야 하므로 skip.

현재 널리 사용되고 있는 가설검증 절차는 frequentist들이 개발한 것이다. 그런데 이 절차에는 사실 많은 문제가 있다. 실용적인 측면에서는 항상 표본 크기와 관한 문제가 지적되어 왔으며, 효과크기와 관련된 문제 또한 항상 지적되어 오던 바이지만, 논리적, 철학적 문제도 무시할 수 없다. 전통적 가설검증 방식이 떠안고 있는 여러 문제들에 대한 가장 좋은 요약은 아마도 Cohen(1994)의 논문 "The earth is round(p<.05)" 일 것이다(인용횟수도 엄청나게 많다). p-value라는 것의 개념도 상당한 문제를 안고 있는데, 사실 p-value는 관측된 통계치보다 극단적인 값이 얻어질 확률이지만, 사실 우리는 이런 '더 극단적인 값'들을 실제로 관찰한 바가 없으며 이들은 단지 '일어났을 수도 있는' 값들이다. 이 문제에 대한 좋은 예는 Berger(1985)의 책 'Statistical decision theory and Bayesian Analysis'에 주어져 있는데, 실제로 보면 거의 개그 수준이다. 또한 영가설 하의 통계치의 분포는 영가설이 맞다는 전제 하에 결정되는데, 이는 실제로 관측된 데이터를 전혀 고려하지 않는 방식이다(이를 no-data problem이라 한다). 하지만 영가설이 실제로 맞는지 아닌지는 아무도 알 수 없으며, 심지어는 며느리도 모른다. 왜냐하면 빈도주의자들에게 있어서 모수치는 fixed but unknown constant이기 때문이다. 따라서 우리는 전혀 사실이 아닐 수도 있는 분포를 사용하여 영가설을 기각하는 셈인데, 이는 사실 nonsense이다. 베이지안 방식은 이러한 한계들을 극복할 수 있는 여러 대안적 방법들을 제시한다. 베이지안에서 가설검증에 사용하는 분포는 사후분포(posterior distribution)인데 이것은 실제로 관측한 데이터를 가지고 산출한 데이터이다(post-data). 따라서 사후분포는 우리가 실제로 시행한 실험의 정보를 충실히 담아낼 수 있다. 또한 가설검정 과정에서 우리가 사전에 갖고 있는 모수치에 대한 정보를 이용할 수 있다는 장점이 있다. 이 외에도 여러 좋은 점들이 있으나, 글이 너무 길어지므로 생략하도록 한다.

아직 심리학의 분야에서는 베이지안이 모델링 tool로는 다소 쓰이지만 방법론으로서는 거의 받아들여지지 못하고 있는 상황이다. 그도 그럴 것이, 사실 빈도주의 방법론도 제대로 뿌리내리지 못하고 곳곳에서 오용되고 있는 판에(이는 우리나라만의 문제가 아니다)베이지안까지 받아들이라고 강요하는것은 시기상조라는 생각이 들 수밖에 없다. 하지만 언젠가는 베이지안의 영역에서 개발된 통계방법론이 널리 보급될 날이 있으리라 생각한다. 베이지안은 빈도주의 방식에서 발생되는 많은 문제를 해결할 수 있는 잠재력을 갖고 있기 때문이다.

트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://bayes.egloos.com/tb/2790710 [도움말]

덧글

  • 코퍼스 2011/07/01 17:48 # 삭제 답글

    제가 대학원에서 NLP(심리콘트롤의 그뭐?가 아니라 자연언어처리입니다^^) 전공했을 때, 베이지안 이론을 바탕으로 한 HMM 을 이용한 과제를 한 적이 기억나네요.
    주로 품사 태깅/분석, row data 에러 추출 등에 많이 사용한 걸로 기억이 나네요.
    음성인식이나 영상처리쪽에서도 꽤 사용을 하는 걸로 압니다.
    예전에 미드 '넘버스'에서 주인공이 이 이론을 이용해서 무수히 쏟아지는 사건 용의자에 대한 상반된 신고 내용에 대해 모델화해서, 범인의 동선을 파악한 에피소드가
    기억이 납니다. ^^
  • 쏘울 2012/05/14 14:41 # 삭제 답글

    알찬내용, 쉽게 풀어 써주셔서 감사합니다.
    통계의 '통'짜도 제대로 안익히고 닥치는대로 데이터를 마구잡이로 다루던 차에
    이렇게 정리를 잘 해주시니 이해가 쏙쏙 잘 됩니다.
    정말 감사합니다.
댓글 입력 영역