좋은 글~ 즐겨봐~!

[DBR]180cm 병사들이 150cm 강에 빠져죽은 까닭은

Bravery-무용- 2015. 4. 16. 10:24

 

맹신하면 위험한 평균의 함정

실생활에서 가장 자주 쓰이는 통계 용어 중 하나는 바로 ‘평균’이다. 평균이 사용된 최근 기사를 하나 살펴보자. 2014년도 연말정산이 세금폭탄이라는 반발을 부르자 정부가 소급입법으로 환불해 주기로 했다. 한 주간지 기사에 따르면 이 사태를 지켜본 정부의 한 관료가 “이번 사태는 평균의 함정을 설명하는 유명한 우화와 닮았다”고 말했다. 여기서 말하는 우화는 다음과 같다. “100명의 군인이 강을 건넌다. 군인들의 평균 키는 180cm, 강의 평균 깊이는 150cm다. 보고를 받은 장군이 도강을 명령했다. 강 언저리를 지나면서 물이 갑자기 깊어졌고 병사들이 빠져죽기 시작했다. 겁이 난 병사들이 뒤를 흘깃흘깃 쳐다봤지만 장군은 ‘돌격 앞으로’만 외쳤다. 물에 빠져 죽는 병사가 속출하자 장군은 당황하며 그제야 회군을 명령했다. 하지만 이미 많은 군사를 잃은 뒤였다. 알고 보니 이 강의 최대 수심은 200cm였고 군사 중 200cm가 넘는 사람은 30명이 채 안 됐다.” 연말정산 사태는 연봉 5500만 원 이상부터 세금이 오르는 것으로 바뀌었다는 정부의 주장과 달리 연봉 5500만 원 이하 소득자 중에 세금을 토해내는 사례가 생긴 데서 비롯됐다. 전문가들은 이번 사태의 원인을 평균의 함정 뒤에 숨은 개인별 편차 때문으로 지적하고 있다. 평균을 정확한 개념에 맞게 사용하지 않으면 이 같은 문제가 반복될 수 있다.

평균은 자료가 모여 있는 특성을 나타내는 대푯값이다. 평균에는 여러 가지 종류가 있고 경우에 따라 각 종류의 평균값이 다를 수 있다. 여러 종류의 평균 중에서 주로 사용되는 것은 산술평균, 중앙값, 최빈수의 3가지다. 평균을 구하는 대상이 되는 숫자들을 모두 더해서 숫자들의 개수로 나눈 값이 산술평균, 숫자를 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수가 중앙값, 가장 빈번하게 나타나는 값이 최빈수다. 이 중 산술평균이 가장 많이 사용되는데 문제는 숫자들의 분포가 어떤 모양을 갖느냐에 따라 적절한 평균이 달라진다는 점이다. 숫자들이 좌우 대칭의 종 모양 분포를 갖는다면 산술평균과 중앙값, 최빈수가 일치하므로 평균의 종류에 따라 해석이 달라질 여지가 없지만 숫자들의 분포가 좌우 대칭을 이루지 않는다면 어떤 평균을 사용하느냐에 따라 전혀 다른 해석이 가능하다.

예를 들어 보자. 50가구가 사는 어느 작은 산골마을의 사례다. 이 마을의 이장은 “우리 마을의 가구당 평균 소득은 500만 원으로 매우 가난하다”고 주장하고 복덕방 영감은 “우리 마을의 가구당 평균 소득은 1억여 원으로 부자다”라고 반박한다. 사실을 알고 보니 50가구 중에 25가구는 가난한 농가로 연 소득이 500만 원에 불과하다. 다른 24가구는 500만 원에서 2000만 원 사이의 소득을 올리고 있다. 나머지 한 가구는 서울의 한 사업가가 물 좋고 공기 좋은 곳에 내려와 사는 집으로 이 가구의 연 소득은 50억 원에 달한다. 저소득농민을 위한 각종 정부지원을 기대하는 마을 이장은 최빈수를 사용해 연소득 평균이 500만 원밖에 안 되는 마을이라고 주장한다. 반면 복덕방 영감은 은퇴 후 시골에서 살려는 사람들을 유인하기 위해 산술평균을 사용해 평균 소득이 1억여 원인 부자마을 휴양지라고 선전한다.

이처럼 똑같은 자료로 계산했더라도 평균은 전혀 달라질 수 있다. 앞의 예는 다소 과장된 면이 있지만 실제로도 얼마든지 있을 수 있는 일이다. 1994년 미국 프로야구 사태가 꼭 그랬다. 당시 미 프로야구는 선수들의 파업으로 월드시리즈가 취소되는 등 사상 가장 긴 싸움에 휩싸여 있었다. 구단주와 선수노조 사이의 힘겨루기가 이어졌다. 그 원인이 밥그릇 싸움에 있었기 때문에 양쪽 모두 야구팬들의 비난을 받았다. 구단주와 노조는 파업기간에 여론을 유리한 방향으로 이끌기 위해 각자의 입장에 대해 열띤 홍보전을 펼쳤다. 여론을 등에 업고자 하는 이 싸움에서 구단주들이 완승을 거뒀는데 이들의 주장은 간단했다. “평균 연봉이 120만 달러(약 13억 원)나 되는 선수들이 더 받으려고 파업을 한다”는 거였다. 이런 구단주들의 홍보 전략은 큰 성공을 거뒀다. 심지어 열 살짜리 어린 야구팬이 ‘돈을 더 원하면 내 용돈을 가져가라’고 쓴 피켓을 들고 야구장에서 항의시위를 벌이는 사진이 신문에 크게 실리기도 했다. 당시 파업에 대한 미국 CBS 방송의 여론조사에 따르면 응답자의 43%가 구단주를, 22%가 선수들을 지지하는 것으로 나타나 노조 측에 주로 비난의 화살이 쏠렸다. 이때 노조는 어떻게 대응해야 했을까? 해답은 평균에 대한 간단한 지식, 즉 평균에 종류가 다양하고 그중 노조에 유리한 평균을 사용하는 데 있었다. 예를 들어 다음과 같은 주장을 펴면 여론의 지지를 얻을 수도 있었을 것이다.

“고액 연봉을 받는 소수의 스타 선수들이 있기는 하지만 선수들의 평균 연봉은 30만 달러 정도며 월 1000달러 정도의 저임금에 혹사당하고 있는 마이너리그 선수들까지 합하면 선수들의 평균 연봉은 약 1만 달러밖에 되지 않는다. 부상이나 성적 부진 등으로 수명이 짧고 선수들이 TV 속 스타들만큼 팬들에게 볼거리를 제공한다는 사실을 고려한다면 구단주들이 선수들에게 돌아가는 몫을 줄이려는 것은 부당한 처사다.”

당시 메이저리그 선수들의 평균 연봉(산술평균)은 구단주들이 주장하는 대로 120만 달러였다. 그러나 그 내용을 살펴보면 500만 달러 이상을 받는 소수의 고액 연봉 선수들부터 10만 달러 정도의 최저 임금을 받는 선수까지 다양한 분포를 보이고 있었다. 산술평균은 120만 달러였지만 중앙값은 그보다 훨씬 작은 40만 달러였고 최빈수는 30만 달러 정도였다. 만약 노조 지도부가 평균에 대해 조금만 더 알았더라면 반격할 수 있는 방법을 생각해낼 수 있었을 것이다.

평균을 활용할 때는 숫자들이 얼마나 흩어져 있는지도 함께 고려해야 한다. 예컨대 어느 대학에서 두 교수가 같은 과목을 가르친다고 하자. 두 교수 모두 평균적으로 C학점을 학생들에게 준다는 정보만 갖고 있다면 학생들은 두 교수 중 아무나 선택해도 비슷한 학점을 받을 것이라 생각할 수 있다. 하지만 한 교수는 대부분의 학생에게 C를 주고 다른 교수는 A를 주거나 D-를 주는 등 격차를 크게 둔다면 상황이 완전히 달라진다. 단지 평균만으로는 합리적인 의사결정을 내릴 수 없다. 올바른 판단을 내리기 위해서는 평균 주위의 흩어진 정도를 함께 고려해야 한다.

김진호 서울과학종합대학원 교수   

2015년4월13일 동아일보 기사