소수법칙 표본오류 대니얼 카너먼
본문 바로가기

책소개/경제경영

소수법칙 표본오류 대니얼 카너먼

미국 3,141개 카운티를 대상으로 신장암 발병률을 연구한 결과 놀라운 유형이 나타났습니다. 신장암 발병률이 가장 낮은 카운티는 대부분 인구가 적은 시골로, 전통적으로 공화당 지지 지역인 중서부, 남부, 서부에 위치해 있습니다.

 

이 이야기를 듣는 순간, 몇 초 동안 머릿속이 대단히 바쁘게 움직입니다. 주로 시스템 2가 반응합니다. 시스템 2는 의도적으로 기억을 뒤져 가설을 세웁니다. 어느 정도 노력이 들어간 탓에 동공이 확대되고, 심장박동 수가 다소 증가합니다.

 

시스템 1도 놀고만 있지 않습니다. 시스템 2는 시스템 1의 연상기억에서 나온 사실과 제안에 따라 움직입니다. 그러면서 공화당 정책이 사람들을 신장암에서 멀어지게 했다는 생각을 떨쳐냅니다.

 

그리고 신장암 발병률이 낮은 카운티는 대부분 시골이라는 사실에 주목할 공산이 매우 큽니다. 위 예시를 만든 통계학자 하워드 웨이너와 헤리스 즈웰링은 이렇게 말합니다.

 

"낮은 암 발병률은 두말할 것 없이 시골의 깨끗한 생활방식 덕분이라고 추론하기 쉽고, 또 그렇게 추론하고픈 마음이 들게 마련입니다. 공기도 깨끗하고, 물도 깨끗하고, 인공 첨가물이 안 들어간 신선한 음식을 먹을 수 있으니까." 완벽한 논리입니다.

 

이제 신장암 발병률이 가장 높은 카운티를 살펴봅시다. 대부분 인구가 적은 시골로, 전통적으로 공화당 지지 지역인 중서부, 남부, 서부에 위치해 있습니다. 웨이너와 즈웰링은 농담조로 이렇게 말합니다.

 

 

"높은 암 발병률은 두말할 것 없이 시골의 가난 때문이라고 추론하기 쉽습니다. 좋은 의료 시설도 없고, 고지방 식사에, 술을 지나치게 많이 마시고 담배를 지나치게 많이 피우니까." 뭔가 잘못됐습니다. 시골의 생활방식이 신장암의 매우 높은 발병률과 매우 낮은 발병률을 동시에 설명할 수는 없는 노릇입니다.

 

여기서 핵심은 해당 카운티가 시골이라거나 공화당 텃밭이라는 사실이 아닙니다. 시골 카운티는 인구가 적다는 게 핵심입니다. 그리고 여기서 배워야 할 것은 사고와 통계의 복잡한 관계입니다.

 

시스템 1은 여러 사건의 인과관계를, 더러는 그 관계가 가짜일 때도, 힘 안들이고 저절로 찾아냅니다. 암 발병률이 높은 카운티 이야기를 듣자마자, 그 카운티는 특정한 이유로 다른 카운티와 다를 테고, 그 차이를 설명할 원인이 있으리라고 추측합니다.

 

그러나 시스템 1은 '순전히 통계적인' 사실, 즉 일정한 결과가 나오는 확률은 바꿔놓을수있지만 그 결과의 원인이 될 수 없는 사실 앞에서는 맥을 못 춥니다.

 

인구가 적은 카운티라고 해서 다른 카운티보다 암 발병률이 더 낮거나 더 높지 않습니다. 다만 표본 추출 때문에 특정 해에는 그렇게 보일 수 있습니다. 다음 해에 똑같은 분석을 한다면, 그때도 작은 표본에서 극단적 결과가 나타나겠지만, 지난해에 암이 흔히 발생한 카운티에서 올해도 발병률이 높을 것이라고 예측할 이유는 없습니다.

 

 

그렇다면 인구밀도가 높은 카운티와 시골 카운티의 차이는 사실로 간주할 수 없습니다. 과학자들이 '가상실제'라 부르는, 순전히 연구 방법에 영향을 받은 관찰 결과로, 이 경우는 표본 크기에 영향을 받은 차이입니다.