대학소식

통계의 함정

빈문서

자연대 홍보기자단 자:몽 8기 | 이규헌

 “거짓말에는 세 가지가 있다. 거짓말, 새빨간 거짓말, 그리고 통계다.” — 벤저민 디즈레일리(영국 전 총리)의 유명한 명언이다. 오늘날 우리는 ‘숫자’로 진실을 설명하는 시대에 살고 있다. 뉴스의 헤드라인, 논문의 증빙자료, 심지어 SNS 게시글까지 대부분의 정보는 ‘통계’를 바탕으로 자신들의 신뢰성을 주장한다. 21세기에 접어들면서 ‘숫자’를 자유자재로 다루는 ‘통계’는 복잡한 현실을 간결한 수치로 요약하고, 사람들이 원하는 정보를 필요할 때마다 가독성이 높은 형태로 제공해 주며 그들의 인식과 행동의 변화를 유도하는 강력한 힘을 가진 도구로 자리매김하고 있다. 그러나 때때로 통계는 객관적인 진실을 있는 그대로 보여주기보다는, 특정 목적을 가지고 해석을 정당화하기 위한 수단이 되기도 한다. 통계학자 네이먼(Jerzy Neyman)이 ‘모든 통계는 잠재적으로 가정의 산물이며, 그 가정이 충족되지 않으면 결과는 허상이다’ 라고 경고했듯이, 수치는 정확해 보이지만 그 숫자를 만든 표본의 구조, 분석 방식, 해석의 틀이 왜곡된다면 오히려 그 수치는 ‘진실을 가리는 정확한 숫자’가 되어 우리에게 다시 돌아올 수 있다는 것이다. 

1. 수치는 진실을 말하지 않는다 : 표본의 함정
 

 통계학의 가장 기본적인 전제는 바로 ‘대표성’이다. 모집단(전체 집단)의 특성을 추론하기 위해 표본(일부)을 선택하여 관측하는 것이 바로 통계적 추론의 핵심이며, 시작점이다. 그러나 이 추출된 표본 자체가 모집단을 제대로 반영하지 못하면, 아무리 정밀한 분석도 무용지물이 된다. 이를 ‘표본편향(sample bias)’이라고 한다. 표본편향의 대표적인 사례로는 1936년 미국 대선 결과 예측 실패 사건을 들 수 있다. 1936년, <>지는 미국 대선을 앞두고 무려 1000만명에게 설문조사를 보내는 대규모 조사를 실시하였으며, 설문조사 결과 공화당 후보 랜든이 승리할 것으로 예측하였으나 실제 선거의 결과는 민주당 루즈벨트가 압도적인 표차로 승리하여 정반대의 결과를 보였다. 어떻게 이런 대규모 여론조사가 엄청난 오차범위로 예측을 실패하게 되었을까? 그 문제는 바로 표본의 선정 방식에 있었다. 해당 잡지는 설문지를 미국 내 전화 가입자와 자동차 등록자에게만 발송했는데, 이들은 세계 대공황 직후 미국에서 상대적으로 경제적 여유가 있는 고소득층에 국한된 집단이었고 루즈벨트를 비판하는 경향이 강했기에, 이런 편향된 결과를 낳게 된 것이다.

 뿐만 아니라, 최근에도 정치 여론조사, 코로나19 확산 추적, 백신 접종률 등 다양한 분야에서 표본설계 오류로 인해 과장되거나 왜곡된 정보가 빈번히 발생하고 있다. 특히  “자기선택 편향(self-selection bias)”은 온라인 설문이나 SNS 기반 조사에서 특정 성향을 가진 사람들이 자발적으로 설문에 참여하는 경우, 모집단과 전혀 다른 성격의 데이터를 얻게 되기 때문에 심각한 문제가 된다. 또한 인터넷 접근성이 낮은 고령층, 특정 정치성향 커뮤니티 중심의 표본 추출은 비확률 표본으로 이어져 조사 결과의 신뢰도를 떨어뜨린다. 통계학에서는 이를 보정하기 위해 층화추출, 계통추출, 부트스트랩 가중치 등의 기법을 활용하지만, 결국 표본 설계자의 의도와 기술적 한계에 따라 왜곡이 완전하게 제거되지 않는 한계점이 존재한다.

2. 평균이 말하지 않는 것들 : 중심경향치의 착시
 

 “우리나라 평균 소득은 3,500만원이다.”라는 수치가 있다고 가정해 보자. 이 수치 하나만으로 우리는 각각 어떠한 사회상을 떠올리게 된다. 그러나 이 평균은 과연 누구의 삶을 대변하고 있는가?

 ‘평균(mean)’은 데이터의 중심을 나타내는 대표값이지만, 분포가 비대칭적이거나 극단값(outlier)이 존재할 경우, 왜곡되기 쉽다. 예를 들어, 한 기업의 직원 9명이 각각 연 3000만원을 벌고, CEO가 30억원을 번다면, 평균 연봉은 약 3억 2700만원이 된다. 그러나 이 수치는 하나의 극단값에 큰 영향을 받아 대다수의 직원 상황을 전혀 설명하지 못한다. 특히 소득, 자산, 주거비용 등은 정규분포가 아닌 지니계수가 높은(불평등 수치가 높은) 편향 분포(long-tail distribution)를 따르기 때문에, 평균보다는 중앙값(median)과 최빈값(mode)을 활용하는 것이 현실을 보다 정확하게 반영할 수 있다. 실제로 미국의 통계청과 IMF, OECD도 소득 분석 시 평균 대신 중앙값을 기준으로 삼고 있다.

 우리나라도 이와 같은 문제점을 발견하고 보완해 나가는 단계에 있다. 예를 들어, 서울시의 ‘청년 월세 지원’ 사업은 일정 소득 이하 청년을 대상으로 하는데, 초기에 평균소득 기준으로 사업이 설계되어 고소득자 몇 명이 포함된 셰어하우스나 직장인 밀집 지역 거주 청년들이 대거 탈락하는 사례가 속출했다. 이후 중앙값을 기준으로 한 재설계가 논의되어 정책 수혜자 확대로 이어지며 사업이 보완되었다. 이처럼 정부가 평균 소득을 기준으로 중산층을 정의하면, 실제로는 고소득층에 가깝지만 혜택 대상에 포함되거나 저소득층임에도 정책 혜택 대상에서 배제되는 경우가 발생하기도 한다. 따라서 이러한 통계 착시는 중앙값을 기준으로 설정하면 보다 현실적이고 국민들 입장에서 체감도가 높은 정책 설계가 가능해질 수 있다는 점을 시사하고 있다.
 
 

왜 평균에 속았다고 느끼는가. (사진 = OhmyNews 이민호 기자)
 
 

3. 상관관계 VS 인과관계 : 숫자의 유혹과 오해
 

 우리는 뉴스 기사나 학술 연구에서 다음과 같은 문장을 자주 접해볼 수 있다. “학력이 높을수록 수명이 길다”, “스마트폰 사용이 청소년 우울증을 증가시킨다.”, “아보카도를 자주 먹는 사람은 심장병 위험이 낮다.” 이들은 모두 두 변수 간의 관계를 통계적으로 보여주는 사례이며, 언뜻 보면 그럴듯한 인과관계처럼 느껴진다. 그러나 이들 대부분은 실제로는 상관관계(correlation)에 불과하고, 이를 곧바로 인과관계(causation)로 해석하는 것은 위험한 오류이다.

 상관관계란, 두 변수가 동시에 변하며 서로에게 영향을 끼치는 관계일 뿐, 하나의 변수가 다른 하나의 직접적인 원인이라는 증거는 아니다. 예를 들어, 아이스크림 판매량과 익사 사고는 여름에 둘 다 증가한다. 그러므로 이 둘은 양의 상관관계를 가질 수 있지만, 아이스크림이 익사를 유발한 것이 아니므로 온도라는 제3의 변수(confounding variable)가 둘 모두에 영향을 준 것이다. 이처럼 상관관계는 항상 인과관계가 아니라 제3 요인의 개입, 우연의 일치에 의한 결과일 수 있다. 즉, 인과관계는 상관관계의 하위어 개념이라는 것이다.

 상관관계와 인과관계 간의 오해는 실제 사회에서 흔히 존재한다. 최근 이슈였던 청소년 우울증과 스마트폰 사용량의 관계에 대해서도 많은 연구가 상관관계를 발견했지만, 우울증의 원인이 스마트폰 사용인지, 아니면 우울한 상태이기 때문에 더 많은 시간 동안 스마트폰에 의존하게 되는지에 대한 명확한 인과 추론이 어렵다. 이러한 인과적 착각을 피하기 위해 통계학과 계량경제학에서는 다양한 방법론이 개발되고 활용되고 있다. 물론 실험이 가능한 인위적 환경에서는 무작위 대조 실험(Randomized Controlled Trial, RCT)이 가장 강력한 인과 추론 방법이지만 윤리적 또는 실천적 제약으로 인해 실험이 어려운 현실에서는 도구변수(IV), 차이의 차이(DiD), 회귀불연속 설계(RDD) 같은 준실험적 설계(quasi-experimental design)가 자주 활용된다. 특히 이스라엘의 경제학자 조슈아 앵그리스트(Joshua Angrist)는 이러한 도구변수 접근을 통해 교육과 임금 간의 인과관계를 규명한 공로로 2021년 노벨경제학상을 수상한 후 “상관관계는 매력적인 출발점일 수 있지만, 그 자체로 결론이 될 수 없다”라고 강조하기도 했다.

 오늘날 인공지능(AI), 머신러닝 등 데이터 기반 의사결정이 확산되는 시대일수록, 우리는 ‘관계가 있다’라는 상관관계식 주장과 ‘원인이다’라는 인과관계식 주장 사이의 거리를 명확히 구분할 수 있어야 한다. 즉, 우리는 상관관계가 인과관계를 함축하고 있음을 입증하려면 철저한 논리적 구조와 실증적 설계가 뒷받침되어야 한다는 것을 명심해야 한다. 

4. 유의확률(p-value)의 오해 : ‘p<0.05’는 과연 진실인가?
 

 오늘날 과학 연구와 사회 정책의 상당수는 p-value를 기준으로 의미 있는 결론을 도출한다. 특히 ‘p<0.05’라는 문장은 통계적으로 유의미한 결과라고 해석되며 논문 게재, 정책 채택, 제품 승인 등의 다양한 의사결정 과정에서의 결정적인 근거로 작용하고 있다. 하지만 이 수치를 둘러싼 오해와 남용은 과학계 내부에서도 끊임없이 지적되어 왔다.

먼저 p-value의 의미 자체가 자주 오해되는 경우가 있다. 많은 사람들이 단지 ‘p<0.05니까 가설이 맞다’거나 ‘귀무가설이 틀릴 확률이 95%다’라고 이해하지만, 이는 통계적으로 전혀 맞지 않는 해석이다. 여기서 정확히 짚고 넘어가 보자면 p-value란, 귀무가설(null hypothesis)이 참일 때, 현재보다 극단적인 데이터가 나올 확률’을 의미한다. 즉, 이는 우리가 관측한 결과가 우연히 나타났을 가능성을 수치로 표현한 것이지, 귀무가설이 틀렸다는 직접적인 증거는 아니라는 것이다. 예를 들어, 어떤 약이 효과가 있는지 실험했을 때 p=0.04라는 결과가 나왔다면, 이는 단지 약이 효과 없다는 가정을 놓고 보았을 때, 이런 차이는 4% 확률로 우연히 나타날 수 있다는 의미일 뿐이다. 따라서 약이 실제로 효과 있다는 판단은 이 외에도 효과 크기(effect size), 신뢰구간(confidence interval), 실험의 설계 및 재현성 등을 종합적으로 고려해서 내려야 한다.

또 다른 문제는 많은 연구자와 기관들이 p<0.05라는 기준만 충족시키려는 유의성 추구(significance chasing)에 집착한다는 데에 있다. 이로 인해 실제로는 효과가 미미하거나 우연한 결과를 지나치게 과장해서 발표하는 경우가 빈번하다. 그 사례로, 2011년 미국 코넬대 심리학자 다릴 벰(Daryl Bem)의 논문에서 그는 사람들이 미래를 예측할 수 있다는 초심리학적 실험을 p<0.05 기준으로 통계적으로 유의하다고 발표했고, 실제로 이 논문은 심리학계 최상위 저널 중 하나에 실렸다. 하지만 후속 연구자들은 해당 실험을 결코 재현하지 못했고, 결국 이는 p-value 기반 통계 해석의 허점을 여실히 드러낸 사례로 남았다. 또한 p-value는 표본 크기에 과도하게 의존하는 특징을 지니고 있는데, 표본이 매우 크면 실제로는 의미 없는 차이조차 유의하게 보일 수 있고, 반대로 표본이 적으면 뚜렷한 차이도 통계적으로 유의하지 않게 나타날 수 있다. 이 때문에 p-value는 그 자체로 판단 기준이 될 수 없다는 지적이 끊이지 않고 있다.

따라서 2016년, 미국통계학회(ASA)는 사상 최초로 공식 성명을 발표하며 “p-value는 진실의 지표도, 과학적 중요성의 지표도 아니다”라고 밝혔다. 이후 과학계에서는 p-value 중심의 분석을 벗어나려는 여러 시도가 이어지고 있으며 여러 가지 대안이 발생하고 있다. 대표적으로 사전 지식과 데이터 간의 조합을 통해 해석 유연성을 높이는 베이지안 추론과 p<0.005를 새로운 기준으로 삼자는 주장, 혹은 p-value 자체를 없애고 사후 확률(posterior probability) 중심으로 전환하자는 움직임도 일부 학자들 사이에서 제기되고 있다. 특히 연구자가 통계적 유의성 즉, p<0.05을 얻기 위해 분석 도중에 데이터를 조작하거나, 분석 방법을 여러 번 바꾸는 행위인 p-hacking을 방지하자는 의견이 목소리를 높이고 있는 추세이다.

5. 마무리
 

 통계는 단지 숫자의 집합이 아닌, 세상을 바라보는 프레임이자 해석의 도구이다. 동일한 데이터도 어떤 지표를 선택하느냐, 어떤 시각으로 해석하느냐에 따라 전혀 다른 결론에 도달할 수 있다. 그렇기 때문에 우리는 통계를 단순히 ‘진실을 말해주는 숫자’로 받아들이기보다, 그 이면에 존재하는 전제와 맥락, 가정의 구조를 학습한 후 질문하고 의심을 품을 수 있어야 한다. 세계보건기구(WHO)는 펜데믹 이후 통계적 정보 해석 능력을 국민 건강의 중요한 구성 요소로 언급했다. 또한 미국 통계학회(ASA)는 2016년 p-value의 남용 문제에 대해 공식 성명을 발표하며, 수치 해석에 대한 근본적 재검토가 필요하다고 강조했다. 이런 흐름은 단지 연구자뿐 아니라, 일반 시민에게도 통계에 대한 비판적 사고와 해석 능력이 요구되는 시대가 도래했음을 시사하고 있다. 결론적으로 21세기에는 통계에 현혹되지 않는 힘, 즉, 통계적 문해력(statistical literacy)이 곧 사회를 읽는 새로운 능력이라고 할 수 있다. 숫자를 맹신하지 않고, 그 숫자가 어디서 왔는지, 누구를 대표하는지, 어떤 방식으로 추론되었는지를 끊임없이 의심하는 태도야말로 데이터 시대를 살아가는 우리가 갖추어야 할 필수 역량이 아닐까 싶다.

참고자료
 

Neyman, J. (1937). Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.
Pearl, J. (2009). Causality: Models, Reasoning and Inference.
ASA Statement on p-values (2016): https://www.amstat.org/asa/files/pdfs/P-ValueStatement.pdf
Nature Methods (2014). Moving beyond p-values: https://www.nature.com/articles/nmeth.2883
OECD Income Distribution Database: https://www.oecd.org/social/income-distribution-database.htm


자연과학대학 홍보기자단 자:몽 이규헌 기자 lkhoney@snu.ac.kr
카드뉴스는 자:몽 인스타그램 @grapefruit_snucns에서 확인할 수 있습니다.

관련 기사