본문

생명과학, 의약학 연구가 끊임없이 재현성 논란에 휘말리는 이유는?

  • AD 최고관리자
  • 조회 2271
  • 2013.11.13 08:26
사회과학과 생명과학 연구의 고질적 병폐인 재현성 부족(non-reproducibility)은 대부분 과학자들이 약한 통계검정(weak statistical tests)을 사용하기 때문이라는 연구결과가 나왔다. 이는 텍사스 A&M 대학교의 밸런 존슨 교수(통계학)가 개발한 혁신적 통계기법에 의해 밝혀진 사실이다.

존슨 교수는 빈도주의 검정(frequentist tests)과 베이지안 검정(Bayesian tests)이라는 두 가지 검정의 강도(strength)를 비교해 보았다. 전자는 `하나의 발견이 우연이 아닐 가능성`을, 후자는 `연구 데이터를 바탕으로, 특정 가설이 정확할 가능성`을 측정한다. 이 두 가지 통계검정의 강도는 지금껏 비교된 적이 없는데, 그 이유는 이들이 제기하는 의문의 유형이 약간 다르기 때문이다.

존슨 교수는 빈도주의 패러다임의 P값(P value)과 베이지안 패러다임의 베이즈요인(Bayes factor)을 직접 비교하는 기법을 개발했다. 귀무가설(null hypothesis)을 기각하기 위해 객관적 계산을 사용하는 빈도주의 검정과는 달리, 베이지안 검정은 연구자에게 검증할 대립가설(alternative hypothesis)을 정의하게 한다(이 과정은 주관적이다). 이에 반해 존슨이 개발한 `최강의` 베이지안 검정법(`uniformly most powerful` Bayesian test)은 대립가설을 표준적인 방법으로 정의함으로써, `대립가설을 채택하는 베이즈요인이 특정 역치(threshold)를 초과할 가능성`을 극대화한 방법이라고 한다. 존슨 교수에 의하면 이 역치를 잘 선택하면, 동일한 실험결과가 나왔을 때 베이지안 검정과 빈도주의 검정이 모두 귀무가설을 기각하도록 할 수 있다고 한다.

사회과학, 생명과학 등의 분야에서 가설을 지지하는 증거로 흔히 제시되는 기준은 「P < 0.05」인데, 특히 사회과학에서는 연구결과의 재현성 부족이 심각한 문제로 대두되고 있다. 존슨은 자신이 개발한 기법을 이용하여 P값과 베이즈요인을 비교한 결과, 0.05 이하의 P값을 베이즈요인으로 환산하면 3~5에 해당한다는 것을 발견했다. 3~5의 베이즈요인은 하나의 발견을 지지하기에는 미약한 것으로 간주된다.

존슨은 많은 논문들의 데이터를 검토해 본 결과, "기존의 통계 기준치(statistical cutoff)를 만족시키는 연구결과 중 17~25%는 거짓으로 판명될 소지가 있다"는 결론을 내렸다(참고논문 1). 그는 이러한 연구결과를 바탕으로, "과학자들은 자신의 연구결과를 지지하기 위해 보다 엄격한 P값(P < 0.005)을 사용해야 한다"고 주장했다. 그에 의하면, 지금껏 과학계에서 논란이 되어 왔던 재현성 부족은 물론, 심지어 편향(bias)이나 비행(misconduct)까지도 따지고 보면 「P < 0.05」라는 미약한 기준을 사용했기 때문이라고 한다. "지금껏 재현성의 논란에 휘말리지 않았던 극소수의 논문들을 검토해 본 결과, 그것들은 「P < 0.005」라는 기준을 사용했던 것으로 밝혀졌다"고 존슨은 말했다.

이번 연구결과에 대한 통계학 전문가들의 반응은 대체로 호의적이다. "지금껏 과학자들에게 보다 엄밀한 기준을 사용하도록 촉구한 논문들은 많았지만(참고논문 2), 실제로 「P < 0.05」라는 기준이 얼마나 관대한지를 정량적으로 밝힌 연구는 이번이 처음"이라는 것이 그들의 중론이다. "이번 연구를 계기로, 오늘날 실증과학 전반에서 흔히 사용되고 있는 「증거의 기준(standards of evidence )」이 위험할 정도로 허술하다는 사실이 드러났다. 선행연구들은 「P 해킹(P-hacking: 원하는 결과를 얻기 위해 표준 통계절차를 남용하는 행위)」을 집중적으로 파헤쳤지만, 이번 연구의 의의는 P 값 자체에 문제가 있음을 밝혔다는 데 있다"고 암스테르담 대학교의 에릭-얀 바겐메이커 교수(수리심리학)는 논평했다.

그러나 일부 전문가들은 「P < 0.05」라는 통계기준에 집착하는 과학자들의 사고방식을 바꾸는 것의 어려움을 지적한다. 왜냐하면 이번 연구가 시사하는 것 중 하나는 "엄격한 기준을 만족시키리면 피험자의 수를 늘려야 한다"는 것인데, 그러려면 보다 많은 시간과 돈이 필요하기 때문이다. "지난 수십 년 동안 베이지안 학파가 장족의 발전을 했음에도 불구하고, 우리는 아직 빈도주의 접근법을 고수하고 있다. 나는 이번 논문이 세상을 바꾸는 데 기여하기를 바란다"고 스탠퍼드 의대의 존 이오나니디스 박사는 말했다. 이오아니디스는 역학연구에 있어서 재현성 부족을 초래하는 원인이 무엇인지를 연구하고 있다.

※ 참고논문:
1. Johnson, V. E., "Revised standards for statistical evidence", PNAS November 11, 2013, Published online before print November 11, 2013, doi: 10.1073/pnas.1313476110
2. Ioannidis, J.P., Tarone, R. & McLaughlin, J. Epidemiology. 22, 450?456 (2011).
출처 : http://www.nature.com/news/weak-statistical-standards-implicated-in-scientific-irreproducibility-1.14131 / KISTI 미리안 글로벌동향브리핑 2013-11-13
트위터 페이스북 미투데이 다음요즘 싸이공감 네이트온 쪽지 구글 북마크 네이버 북마크

댓글목록