정말로 그 실험 결과를 믿으시나요?: 과학의 재현성 위기(Reproducibility Crisis)가 말해주는 것

자연대 홍보기자단 자:몽 6기 | 김보현

우리는 실험 결과를 믿을 수 있을까?

실험을 한 번이라도 경험해 본 사람이라면, 실험 결과를 일정하게 재현해 내는 것이 얼마나 어려운 일인지 공감할 것이다. 분명 똑같은 프로토콜(Protocol)을 보고 따라 했는데도, 논문과 다른 실험 결과가 나오는 일이 비일비재하다. 같은 연구실의 동료와도 결과가 다르게 나오기도 한다. 심지어는 이전에 자신이 했던 실험의 결과와도 다른 실험 결과가 나오는 일도 흔하다.

도대체 실험은 왜 이렇게 재현이 안 될까? 단순히 실험을 ‘잘못해서’ 그런 것이 아니냐고 넘기기 쉬운 이 질문은 사실 꽤 오랜 시간 동안 풀리지 않는 문제다. 특히, 시대가 흐르며 온라인으로 논문을 출판하여 서로의 연구 결과를 전 세계의 학자들과 공유하게 되면서 이 문제는 더욱 심각하게 대두되었다. 이 문제를 두고 사람들은 재현성 위기(Reproducibility Crisis)라고 부른다.

과학계 내에서 재현성 문제를 심각하게 다뤄야 한다는 주장은 2010년 전후에 시작되어 꾸준히 제기되고 있다. 현재 과학계에서 가장 영향력 있는 학술지인 네이처(Nature)에서 2016년에 과학자 1576명을 대상으로 설문조사를 한 결과, 70%가 넘는 연구자들이 자신의 분야에서 다른 연구자의 연구 결과를 재현하는 데 실패한 경험이 있다고 답했으며, 50%가 넘는 연구자들은 자신의 결과를 다시 재현하는 데 실패한 경험이 있다고 답했다. 이 연구자 중 반 이상이 자신의 연구 분야에서 재현성 ‘위기’가 있다는 것에 동의했다. 네이처가 진행한 이 설문조사는 과학계에 몸담은 사람이라면 실험이 재현되지 않는 현상을 매우 흔하게 경험하며, 이를 심각한 문제 중 하나로 여기고 있다는 것을 보여준다.

암 연구의 재현성 조사

과학계의 재현성 문제에 관한 가장 대규모 연구 프로젝트는 Center of Open Science를 필두로 한 재현성 프로젝트(Reproducibility Project)이다. 이 단체에서 가장 먼저 시작한 프로젝트는 노벨상 수상자 랜디 셱맨을 필두로 시작된 암 연구의 재현성 조사이다. 이 프로젝트는 2010년부터 2012년 사이에 나온 암 관련 연구 중 가장 영향력 있는 연구 53개를 선정하여 논문에 활용된 실험 총 193개를 살피었다. 논문에 실험이 얼마나 자세히 묘사되었는지, 그 정보만으로 실험 재현에 성공할 수 있는지, 추가적인 정보를 활용해서도 실험을 재현할 수 있는지 등 다방면으로 연구의 재현성을 조사하였다.

첫 23개의 연구논문을 분석한 결과는 이 문제가 생각보다도 더 복잡하다는 것을 알려준다. 우선 이 프로젝트 팀은 실험 결과를 크게 두 가지로 나누는데, 약물의 효과 혹은 대조군과 실험군 사이의 유의미한 차이를 보여주는 양성 결과(Positive Effect)와 효과가 없거나 차이가 유의미하지 않음을 보여주는 무효 결과(Null Effect)가 그 두 가지다. 조사 결과, 양성 결과의 경우 40%가 재현에 성공했고, 무효 결과의 경우 80%가 재현에 성공했다. 둘을 합치면 총 비율은 46%로, 전체의 반이 채 되지 않는 실험만이 재현에 성공했다는 의미이다. 한편, 이들의 조사 결과를 발표한 논문에서는 더욱 흥미로운 지점을 알 수 있었다. 만약 실험 결과의 ‘경향성’이 같기만 하면 재현에 성공했다고 가정할 경우 양성 결과는 75%, 무효 결과는 85% 이상이 재현된다고 볼 수 있었다. 그러나 실험 결과가 논문에 나타난 통계적 유의성 기준을 모두 만족해야 재현에 성공했다고 가정할 경우, 재현 성공률이 양성 결과는 40%, 무효 결과는 80%로 그 수치가 크게 떨어졌다. 특히 양성 결과에서 이 차이가 매우 두드러진다는 점은 주목할 법하다.

그렇다면 우리는 ‘재현’의 기준을 무엇으로 삼아야 하는 것일까? 어떤 지점부터 우리는 실험 결과를 신뢰할 수 있는 것일까? 수치가 재현되었을 때? 경향성이 같을 때? 아니면 결론적으로 도출되는 이론이 동일할 때? 암 생물학 분야의 재현성 조사는 우리에게 “재현이란 도대체 무엇인가?”라는 철학적인 질문을 던지고 있다.

실험의 재현이란 무엇일까?

“재현이란 무엇인가?”라는 철학적 질문 이전에, 수행적인(Practical) 차원에서도 실험의 재현 여부를 판단하는 것은 매우 복잡한 문제이다. 근본적으로 개별적인 실험 수행에 대해서 무엇이 정말 ‘신뢰성 있고’ ‘적절한’ 실험 결과인지 판단하는 것이 어렵기 때문이다. 특히 암 생물학과 같이 살아있는 생명체를 다루는 생명과학 분야에서는 더욱 두드러진다. 우선, 어떤 실험 결과가 예상과 다르게 (혹은 기존 논문과 다르게) 나온 경우, 이것이 단순히 실험을 잘못 수행한 결과인지, 정말로 기존 논문과 반대되는 결과인지 판단하기 매우 어렵다. 살아있는 세포의 특성상 유전적 정보가 동일한 세포주라고 해도 매번 그 상태가 동일하지 않을뿐더러, 논문에 묘사되기 어려운 사소한 실험 습관이나 순서에 따라서 결과가 바뀔 수도 있기 때문이다.

한편, 위와 같이 이야기할 경우 세포의 상태와 사소한 실험 습관까지 최대한 동일하게 맞추기 위해 매우 세세하고 자세한 실험 과정을 작성하면 되지 않느냐는 지적이 나올 수 있다. 여기서는 또 다른 문제에 봉착하는데, 애초에 매우 통제되고 한정적인 특정한 실험 방법에 의해서만 재현될 수 있다면 그것이 정말로 ‘의미 있는’ 실험인지를 생각해야 한다. 예를 들면, 어떤 약물 A를 20시간 처리했을 때는 효과가 있는데 20시간 10분을 처리할 때는 효과가 없다면 과연 이 약물의 효과를 믿을 수 있을 것인가? 따라서 단순히 원저자의 실험을 ‘복제하듯’ 따라 하는 것은 해답이 될 수 없다.

더욱 복잡한 것은 위의 문제들을 원저자 역시 동일하게 겪는다는 것이다. 예를 들면, 쥐의 혈당을 측정하는 경우 쥐가 화가 많이 나거나 스트레스를 순간 크게 받으면 혈당이 매우 높게 오를 수 있다. 어떤 사람이 혈당에 관련된 연구 논문을 작성할 때를 상상해보자. 한번 혈당 측정을 했는데 쥐가 매우 발버둥쳤다. 혈당을 측정하니 혈당이 지나치게 높게 나왔다. 실험자는 이 결과가 쥐가 지나치게 흥분해서라 판단하고, 혈당이 내릴 때까지 다시 측정한 결과만을 논문에 수록했을 수 있다. 문제는 쥐가 스트레스를 받아 혈당이 오른 것인지 실험의 결과로서 혈당이 오를 수도 있는지 판단하는 것은 오롯이 실험자의 몫이라, 다른 사람이 이 논문을 보고 동일한 실험을 반복할 때 혈당이 원논문보다 훨씬 더 높게 나온다고 판단할 수도 있다는 점이다. 이를 두고 일각에서는 실험 결과를 숨긴 것처럼 해석하기도 하는데, 이는 지나치게 단편적인 해석이다. 왜냐하면 실험 수행은 그 자체로 어렵기 때문에 실수를 하거나 잘못하는 경우가 흔하고, 위의 예시에서 쥐를 화나게 만든 것을 본인의 실수로 치부하는 일을 조작이라고 해석할 수는 없기 때문이다. 이런 복잡함 때문에, 실상 우리는 왜 실험이 잘 재현되지 않는지 모른다. 사실 재현되지 않는 실험을 좋아하는 연구자는 없다. 그럼에도 불구하고 이런 현상이 지속되는 이유는 도대체 어떤 지점에서 실험이 재현되지 않는지 정확하게 진단하기 어렵고, 매우 복잡한 원인들이 얽혀있는 문제이기 때문일 것이다.

이 지점에서, 우리는 결국 실험이란 무엇인지 철학적으로 고민해 봐야 '재현이 무엇인가'에 대한 진정한 해답을 얻을 수 있다. 만약, 실험이 자연의 어떤 대상을 표상하는 것이라고 생각한다면, 재현성은 다양한 방법론으로도 동일한 결과를 얻을 수 있는지를 나타내는 척도가 된다. 통계적 유의성과 같은 수치적인 것보다는 동일한 경향성을 여러 실험과 연구 방법론에서 얻을 수 있음이 더 중요할 수 있다. 한편, 실험이 그 자체로 과학 수행이며, 실험 자체가 과학적 지식을 만들어간다는 측면에 더 큰 의의를 둘 경우 재현성은 동일한 실험이 같은 수치로 반복될 수 있는가를 묻는 지표가 된다.

이처럼 실험의 의미와 실험의 의미와 실험과 자연의 관계, 실험이 지식을 어떻게 만들어가는지에 대한 철학적 관점은 재현성의 의미에도 영향을 크게 미친다. 그러나 이 주제들은 과학철학 분야에서는 오래 전부터 논의 중인 주제로, 간단하게 답할 수 없는 문제이다. 한편으로는 과학철학계의 논의들이 과학계에서는 적극적으로 반영되고 있지 않은 측면도 있다. 따라서 앞으로는 과학자 사회에서도 실험의 철학적 의미에 관해서 적극적으로 논의하여 점점 더 심각해지는 재현성 위기의 가장 근본적인 지점에 접근할 필요가 있다.

과학의 재현성 위기와 대중의 과학적 이해

위에서 재현성 문제를 ‘위기’로 표현하며 매우 심각하게 다뤘지만, 실은 과학자들에게 재현성 문제는 전혀 새로운 것이 아니다. 오히려 너무나 익숙하고 당연해서 위기라고 인식조차 하지 못하는 일에 가깝다. 연구실에 한 번이라도 방문해 본 사람이라면 다른 사람의 논문이나 연구 결과를 의심하고 신뢰하지 않는 일이 얼마나 흔한 일인지 알 것이다. 대학원에서 다른 사람의 논문을 공부하여 발표하는 회의에서 가장 흔하게 들리는 반응 중 하나가 “별로 신뢰가 안 가는데요?”라고 해도 과언이 아니다.

한편, 재현성 위기가 정말로 ‘위기’인 이유는 과학계 밖에 있다. 대중의 과학적 이해도가 나날이 증가하고 논문 등의 정보에 예전보다 더욱 쉽게 접근할 수 있게 되며 대중들은 논문을 통해 전문 지식을 습득하고 자신의 주장을 뒷받침할 근거를 찾고 있다. 예컨대 인스타그램이나 유튜브 등의 SNS에서 간헐적 단식이나 각종 건강 정보를 이야기하며 관련된 논문이 있다는 이야기를 쉽게 찾아볼 수 있다. 어떤 문제에 대해 댓글에서 논쟁이 오갈 때에도 논문을 찾아오라며 싸우기도 한다. 문제는, 이들이 ‘신뢰할 만한’ 근거로 생각하는 이 논문들은 실상 과학자들 사이에서는 매일 도마 위에 올려 의심하고, 재현이 안 된다며 불신하기도 하고, 정 반대되는 연구가 출판되기도 하는 존재라는 것이다. 현대 사회에서 과학은 과거 종교의 위치를 대체하며 이성, 신뢰, 전문성을 표상하고 있지만, 가장 전문성 있는 정보 출처로 여겨지는 논문은 오히려 그다지 ‘신뢰할 만한’ 정보가 아닐지도 모른다는 것이다. 사람들이 논문을 소비하는 방식과는 달리 논문은 그렇게 굳건한(Robust) 근거가 아니라는 것이다.

여기서 짚고 넘어갈 점은, 논문이 굳건한 근거가 아니라는 점이 과학에서는 언제든지 반례가 생길 수 있고 어떤 결론이든지 뒤집힐 수 있다는 특성과는 별개로 다뤄져야 한다는 것이다. 대중들 역시 과학은 언제든지 정 반대의 결론이 나올 수 있다는 것을 모르지 않는다. 오히려 언제든지 새로운 결과를 인정하고 결과를 바꿀 수 있다는 과학의 특성 때문에 대중들이 과학을 더 신뢰하고 좋아하는 것일지도 모른다. 한편, 논문 그 자체의 신뢰성 문제는 이와는 다른 문제이다. 위에서 언급한 재현성 문제로 인해 과학자들은 논문을 보고 그 결과를 완전히 신뢰하지 않기 때문이다. 일반적으로는 “효과가 있다는 연구가 일부 있으나~” 정도로 표현하거나, 본인이 직접 그 효과를 검증해본다. 이미 발표된 논문을 근거로 새로운 연구를 세워 나가기는 하나, 그 결과가 무조건 다시 재현된다고 믿지 않기 때문이다. 예컨대 어떤 식품 A를 섭취한 결과 암이 억제되었다는 논문이 있을 때, SNS에서는 이 논문을 근거로 식품 A를 섭취하도록 권고한다. 혹은, 그 식품이 효과가 있다는 논문이 있냐는 식으로 반론한다. 또한 많은 경우 ‘논문’이라는 근거가 있다는 점을 매우 높게 평가하며, 그 정보를 신뢰한다. 그러나, 이 논문에 나온 실험을 ‘똑같이’ 시도해도 암이 억제되었다는 결과를 얻지 못하는 일이 너무나도 많고 이런 문제가 바로 재현성 위기라는 점을 과연 대중들 역시 심각하게 인지하고 있는가? 논문 한두개 만으로는 그 효과에 대한 근거가 될 수 없다는 점을 명확하게 인지할 필요가 있고, 논문을 근거로 했다고 해당 정보가 아주 신뢰성 있다고 보기 어렵다는 점을 명심해야 할 것이다.

일각에서는 대중이 논문을 이런 방식으로 소비하는 것을 대중의 우매함으로 치부하기도 한다. 그러나 이 문제에 대해서는 단순히 대중의 논문 소비 방식만을 탓할 수는 없다. 위와 같은 현상을 다른 관점에서 보면, 대중이 과학에 기대하는 바는 신뢰성 있고 굳건한 지식이지만 실상은 재현이 안 되고 제대로 믿을 수 없는 논문을 쏟아내는 것이라고도 할 수 있기 때문이다. 여러 반대되는 결과들 사이에서 자신의 연구와 실험 결과에 따라 어떤 연구그룹의 논문을 신뢰할 것인지 판단하는 과학자들과 마찬가지로, 대중도 자신의 지식과 경험을 바탕으로 어떤 논문의 논리를 살 것인지, 어떤 논문을 신뢰할 것인지 판단한다. 문제는 과학자와 달리 일반적인 대중은 직접 실험을 해볼 수 없기 때문에 적어도 논문에서 진행된 실험이 그대로 다시 재현될 것이라는 믿음을 전제로 판단을 내릴 수밖에 없을 것이다. 또한 많은 경우 학교나 연구기관에 속하지 않으면 논문이 무료로 공개되지 않아 직접 논문의 전문을 확인해볼 수도 없고, 유사한 논문이 정말 여러 번 발표되었는지 직접 확인하기도 어렵다. 따라서 누군가가 이런 논문이 있다고 하면 그걸 믿을 수 밖에 없는 상황인 것이다. 미디어가 점점 더 발달하고 과학을 신뢰하는 분위기가 더욱 확산됨에 따라 과학자 외의 사람들도 ‘논문’을 더욱 자주 접할 것이고, 이를 근거로 활용하는 풍토는 더욱 확산될 것으로 보인다. 따라서, 과학의 재현성 문제는 과학계 내부의 문제로만 여길 것이 아니라 과학계 밖에서도 중요하게 다뤄져 과학 지식을 어떤 식으로 소비할 것인지에 관해 사회 전반적인 고민이 필요할 것이다.

참고 자료

Baker, M. 1,500 scientists lift the lid on reproducibility. Nature 533, 452–454 (2016). https://doi.org/10.1038/533452a
Timothy M Errington, Maya Mathur, Courtney K Soderberg, Alexandria Denis, Nicole Perfito, Elizabeth Iorns, Brian A Nosek Investigating the replicability of preclinical cancer biology eLife 10:e71601 (2021) https://www.cos.io/rpcb
Nuzzo, R. How scientists fool themselves – and how they can stop. Nature 526, 182–185 (2015). https://doi.org/10.1038/526182a

자연과학대학 홍보기자단 자:몽 김보현 기자 borikim@snu.ac.kr
카드뉴스는 자:몽 인스타그램 @grapefruit_snucns에서 확인할 수 있습니다.