선거철만 되면 여론조사기관들은 각종 언론사와 제휴해 후보 및 정당지지도 조사를 벌인다. 그러나 표본추출시 연령대별 투표율을 고려하지 않아 신뢰성이 떨어진다. |
선거철만 되면 봇물처럼 쏟아져 나오는 여론조사들. 어느 정당이 얼마만큼 우세하고 또 어떤 후보의 당선가능성이 얼마나 되는지를 예측 가능케
한다. 정당과 후보자, 그리고 국민들은 모두 여론조사에 목을 멘다. 나 말고 다른 사람이 어떻게 생각하는지 알 수 있는 다른 방법이 없기
때문이다. 그러나 현재의 여론조사는 그 표본추출방식에 있어서 커다란 오류를 갖고 있다. 따라서 여론조사 결과도 현실성이 떨어질 수밖에
없다.
조작은 불가능
탄핵정국과 총선기간 동안 몇 가지 여론조사의 공정성에 대한 의혹이 쏟아져 나왔다. 그러나 그런 부분은 결단코 말하건데 믿어도 좋다.
가장 유력한 의혹은 모 당에 일방적으로 유리한 표본만 추출해서 진행한다는 것이었는데, 그 부분은 이렇다.
여론조사 기관에서는 연령별로, 혹은 지지정당별로 몇 명씩 조사할 것인가를 미리 정해둔다. 한쪽으로 치우치면 신뢰할 만한 결과가 나오지
않기 때문이다. 가령, 자신이 60대인 경우 여론조사기관으로부터 전화를 받았는데 나이를 밝히자 끊어버렸다면 그것은 60대 연령의 표본수가
다 찬 탓이지 다른 이유는 없다.
단, 여론조사요원의 소양은 탓할 수 있다. 그 경우 당연히 사정 설명을 해줘야 한다. 시간이 없어서 못 한다는 것은 핑계에 불과하다.
대상에 따라 방법도 달라야
이번 총선 관련 여론조사는 그러나 그 표본추출방식 때문에 결과를 신뢰할 수 없게 만들었다.
현재 진행되는 여론조사는 임의, 또는 선거구별 유권자수에 비례한 표본 크기를 정해놓고 20세 이상 남녀를 무작위로 추출해 조사하는 방식을
쓴다.
거의 모든 여론조사 기관들의 사후 자료를 보면 연령별로 적절히 배분돼 있다. 그것으로 공정성이 담보된다고 믿기 때문이다.
그러나 그것은 오산이다. 여론조사는 무엇을 놓고 하느냐에 따라 그 방식이 달라야 한다. 새만금 개발이나, 위도방폐장 문제 등을 놓고 하는
조사의 경우 연령대별로 고루 의견을 묻는 게 당연하다.
하지만 총선 조사는 다르다. 지난 대선 이후 연령대별 지지성향이 크게 달라졌다. 20~30대가 대체로 진보적인 색채를 띤다면 50대 이상은
보수적 색채가 강했다. 40대는 중도적인 성향을 보였다.
그런데 연령별 투표율을 보면 20∼30대는 50대 이상에 비해 훨씬 낮다. 지난 16대 총선만 보더라도 20대는 겨우 36.8%만 투표했고,
30대도 50.6%에 그쳤다. 반면 50대 이상은 무려 76.4%가 투표했다.
따라서 예측 가능한 투표율에 따라 연령대별로 표본을 배분한다면 여론조사의 결과도 크게 달라질 것이다. 사표(死票)를 배제할 수 있기 때문이다.
특히 지역색이 적고, 접전이 예상되는 수도권 지역일수록 그 차이는 커지게 된다.
현 방법으로는 국민 혼란만 준다
국민들은 여론조사 결과를 선거기간 돌입 직전까지 접할 수 있다. 이번 총선 관련 여론조사를 믿었던 국민들 중 '어떻게 저 후보가 당선됐지?'라고
생각한 사람들이 많았다. 마지막 조사가 언론을 통해 공개됐을 때만 해도 10% 이상 뒤쳐져 있었던 후보의 당선사례가 허다했다. 아무리
후보의 자질이 뛰어나다고는 해도 그러한 차이를 단 15일만에 뒤엎을 수 있을까? 조사기관에서는 이에 대해 탄핵거품이 빠졌고, 정동영 의장이
노인폄하 발언을 했기 때문이라고 설명한다. 물론 그러한 영향이 있었다는 것을 간과할 수는 없다.
그러나 최소한 여론조사 기관에서 발표해왔던 조사 결과가 후보자간 더 큰 격차를 보이게끔 돼 있었다는 사실 또한 간과해서는 안 된다. 여론조사기관
보유 자료를 가지고 구체적으로 따져보면 확연히 알 수 있다.
열린우리당 김홍신, 이부영 후보의 낙선은 의외였다. 여론조사결과 공표가 금지되는 4월2일 전까지 각 조사기관에서 발표한 자료를 보면 이들은
각각 적어도 7%포인트에서 크게는 18%포인트까지 상대 후보와 격차를 보여 무난히 국회에 입성할 것으로 예상됐기 때문이다.
연령대별 투표율에 따른 표본추출 필요
A라는 여론조사기관은 3월30일 종로구에서 출마한 김홍신 후보와 박진 후보의 가상대결지지도가 각각 35.1%와 28.9%를 기록했다고
발표했다. 김 후보가 6.2% 포인트를 이기고 있었던 것.
이 기관은 종로구에 사는 20세 이상 남녀 501명을 대상으로 조사를 실시했다.(표1참고) 연령대별 분포는 무작위 추출 결과라고 밝혔다.
이러한 조사방법은 표본추출상 문제점이 있다. 투표율을 고려했을 때, 20∼30대는 너무 많이 포함됐고, 50대 이상은 그만큼 덜 포함됐다.
16대 연령별 투표율에 따라 <표1>의 표본 501명을 연령별로 재배분하면 20대 69명, 30대 107명, 40대 130명,
50대 이상 195명이 된다.
<표1>을 보면 각 후보에 대한 연령별 지지율을 알 수 있다. 이 자료는 그 연령대에서 이들 후보가 얼마만큼의 지지를 얻고 있는지
보여주는 것으로는 활용될 수 있다.
투표율에 따른 재배분 표본에 연령별 지지율을 대입했을 때, 김 후보와 박 후보의 차이는 현격히 줄어드는 결과를 낳는다. 김 후보는 32.5%를
기록했고, 박 후보는 30.3%가 나왔다. 6.2%포인트 차이에서 1.8%포인트 차이로 좁혀진 것이다.
이부영 후보의 경우도 거의 비슷했다. 적어도 이 후보의 지지율은 3%포인트가량 거품이 있었고 상대후보 역시 2%포인트 이상 저평가 돼,
그 격차가 상당히 줄어들었다.
이후 탄핵거품이 빠지고 정동영 의장의 노인폄하 역풍이 불면서 이들 후보의 지지율도 더욱 내려가고 낙선의 쓴잔을 맛 본 것으로 풀이된다.
투표율 예측으로 표본을 추출하는 방식은 그러나 위험성이 있다. 투표율은 고정된 것이 아니기 때문이다. 예전에 비해 오를 수도 있고 내릴
수도 있다. 따라서 더욱 정확한 결과를 낳으려면 몇가지 연령대별 투표율을 가정해 놓고 여론조사를 벌이는 것이 필요하다. 이는 지지성향이
차이나는 연령대별 대립을 조장할 수도 않지만, 지지후보를 당선시키기 위해 투표에 적극 참여할 가능성도 있는 등 순기능적인 측면이 크다.