여론조사와 선거 결과 오차 커… 조사업체 ‘등급제’ 실시하자 [한규섭의 데이터 정치학]

여론조사와 선거 결과 오차 커… 조사업체 ‘등급제’ 실시하자 [한규섭의 데이터 정치학]

입력 2024-04-29 03:22
수정 2024-04-29 03:22
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

추락한 신뢰도 회복하려면

이번 총선, 기존 이론·상식 벗어나
선거일에 가까울수록 더 틀리고
ARS보다 면접조사가 더 ‘배반적’
수도권 야당 우위 과대추정 심해

조사기관별 특정 정당 경향성도
‘여론조사꽃’ 특히 민주당 기울어
중립적인 기관 주도로 업체 평가
예측력과 결과 분석… 등급 공개를
이번 총선은 여론조사 업계를 평가하는 중요한 무대였다. 그동안 누적돼 온 여론조사에 대한 불신이 그 바탕이다. 결과는 실망스러웠다. 상징적으로 ‘73억원짜리’ 출구조사가 신뢰구간 상·하한을 기준으로 최소 3석(KBS)에서 최대 9석(MBC)까지 벗어났다. 신뢰구간의 중간을 기준으로는 10석 이상의 차이였다. 지난 2000년 16대 당시 총선 출구조사가 도입된 이후 7번의 총선에서 딱 한 번 2016년 20대 총선 당시 방송 3사 중 두 곳이 신뢰구간 내에서 주요 정당 의석수를 맞힌 것을 제외하면 모두 틀렸다. 방송 3사가 총 21회(3사×7회) 시도해 2회 맞힌 것이다.
이미지 확대
뭐가 문제였을까. 올해 1월 이후 실시된 총선 후보 지지율 조사 713건 중 국민의힘(또는 개혁신당), 그리고 더불어민주당 후보가 1, 2위 득표를 한 161개 지역구에서 실시된 660건을 전수 분석해 보았다. 이번 총선에서 총 34개 업체가 지역구 지지율 조사를 여론조사심의위원회(여심위)에 등록했고 11개 업체가 전체 지역구 조사의 약 70%를 수행했다. 베이지언 계층모형(Bayesian Hierarchical Model)을 적용, 조사모드(면접조사 대 ARS)와 조사 시점, 지역 등의 요인을 고려해 후보 간 지지율 격차와 실제 득표율 격차 간 차이를 추정해 보았다. 또 조사기관별 경향성도 함께 추정했다.

이번 총선 여론조사는 기존의 이론과 상식을 벗어났다. 우선 선거일에 가까울수록 더 틀렸다. 기존의 정치학 이론과 배치된다. 정치학에서는 선거일에 가까워져 유권자들이 ‘펀더멘털’을 더 잘 인지하게 되면서 여론조사도 선거 결과로 수렴하는 것이 자연스러운 것으로 본다. 실제로 필자가 2016년 총선 당시 공표된 여론조사 674건 전수를 분석했을 때도 몇 가지 중요한 요인의 영향을 통계적으로 통제하면 선거일에 가까울수록 실제 득표율과의 오차가 줄어든 것으로 나타났다.

이번 총선에서 4월 여론조사 실시 지역구의 평균 득표율 차이는 3.4% 포인트(야권 우위)로 초박빙이었다. 반면 다양한 요인을 고려한 후 해당 지역 여론조사 지지율 차이는 그 두 배가 넘는 7.5% 포인트(야권 우위)였다. ‘샤이 보수’ 현상으로 후보도 정해지기 전인 1, 2월에 발표된 조사들의 오차가 오히려 더 작은 기이한 현상이 나타난 것이다. ‘의대 증원’ 문제 등 용산의 불통 문제로 3, 4월에 보수 유권자들이 여론조사 참여를 꺼린 탓이다. 필자를 포함, 평소 여론조사 공표 금지 기간 폐지를 주장했던 학자들을 뻘쭘하게 만드는 결과였다. 또 특정 시점에서의 추정값보다는 ‘추이’를 관심 있게 봐 달라는 조사업계 관계자들의 해묵은 주장에도 맞지 않는다.

여론조사의 또 다른 ‘배반’은 응답률이 높아 상대적으로 유권자 신뢰가 높은 면접조사와 저렴한 ARS가 야권 후보 우위 과대 추정에서 차이가 없거나 오히려 면접조사가 조금 더 심했다는 점이다. 우리 모두는 면접조사가 ARS보다 상대적으로 정확한 것으로 믿고 싶어 했다. 실제로 필자가 2016년 총선 당시 지지율 조사들을 분석해 보면 상대적으로 응답률이 높고 할당 배율은 낮았던 면접조사가 ARS보다 더 정확했다. 그러나 이번 총선에서는 ‘샤이 보수’ 현상으로 비표본 오차가 컸으나 면접조사 응답률도 이를 극복할 만한 수준은 아니어서 맥을 못 췄다. 그렇다고 ARS를 권장할 것은 아니나 이번 총선에서 고비용 면접조사의 가성비가 최악의 수준이었던 것은 부인할 수 없다. 면접조사 맹신론자들을 뻘쭘하게 만든 결과였다.

또 부동층이 많아 여론조사가 유권자 표심에 큰 영향을 줄 수 있는 수도권 지역에서 야당 우위 과대 추정이 특히 심했다. 가령 다른 요인들의 영향을 통계적으로 고려하면 경기도에서는 평균보다 3.5% 포인트 정도 과대 추정 정도가 심했다. 가장 중요한 승부처에서 민주당 득표율을 가장 많이 과대 추정한 것이다. 여론조사가 필요 없는 영호남 여론밖에 대표하지 못하는 여론조사가 과연 필요할까.

조사업체별로 살펴보면 여론조사꽃, 리서치민, 에이스리서치 등이 특히 야권 후보 우위 과대 추정 정도가 심했다. 또한 방송 3사 출구 조사를 수주한 입소스(SBS), 한국리서치(KBS) 등의 메이저 업체들도 34개 업체 중 4번째와 8번째로 야권 후보 우위를 과대 추정했다. 반면 코리아정보리서치라는 업체는 오히려 여권 후보 우위를 약간 과대 추정했다. <그림 ①>

이번 총선에서의 경향성만으로 개별 업체들의 고유한 경향성을 평가하는 것은 무리일 수 있다. 필자는 윤석열 정부 출범 이후 정당 지지율 조사 전수를 모아 조사업체별 경향성을 감안한 지지율을 추정해 오고 있다. 총 33개 조사업체가 정당 지지율 조사를 수행했고 이 중 26개 업체가 총선 지역구 지지율 조사도 등록했다. 이들 26개 업체에 대해서는 정당 지지율 조사에서의 경향성과 총선 지역구 조사에서의 경향성을 직접 비교해 볼 수 있다.

우선 정당 지지율에서 민주당 지지율을 가장 높게 추정하는 경향이 강했던 업체들은 미디어토마토, 여론조사꽃, 리얼미터, 리서치뷰 등으로 나타났다. 그러나 조사 방식 때문에 양 진영의 강성 유권자들 모두가 과대 표집돼 두 정당 모두의 지지율을 높게 추정했을 가능성이 높다. 실제로 아래 그림에서 보듯이 국민의힘과 민주당 지지율 추정에서의 경향성을 보면 실제로 통계적으로 유의한 양의 상관관계가 있었다.

반면 <그림 ②>에서 추세선(실선)에서 멀리 떨어져 있는 업체들은 국민의힘 지지율 과대·과소 추정 정도와 민주당 지지율 과대·과소 추정 정도 간의 상관관계가 낮은 이례적인 업체들이었다. 여론조사꽃, 미디어토마토 등은 국민의힘 지지율 과대 추정 정도를 고려했을 때 민주당 지지율 과대 추정 정도가 큰 대표적 업체들이었다. 반면 넥스트리서치나 NBS 등은 국민의힘 지지율보다 민주당 지지율을 많이 과소 추정한 업체들로 분류될 수 있었지만 비대칭의 정도는 크지 않았다.

그럼 해당 업체들은 이번 총선에서도 민주당 우위를 다른 곳보다 과대 추정했을까. <그림 ③>에서 3사분면(왼쪽 하단)에 위치한 업체들은 평소에도 민주당 우위를 과대 추정했고 총선에서도 유사한 경향을 보인 업체들이었다. 여론조사꽃이 일관되게 민주당 우위를 가장 높게 추정한 업체였다. 물론 이를 의도적인 것으로 보기에는 무리가 있다. 굳이 해석하자면 해당 업체가 가지고 있는 진보적 이미지 때문에 조사에 진보 성향 유권자들이 더 적극적으로 참여했을 가능성이 높아 보인다. 반면 1사분면(오른쪽 상단)은 평소에도 국민의힘 우위를 과대 추정하고 이번 총선에서도 유사한 경향성을 보인 업체들이었으나 그 정도가 특별히 큰 업체는 없었다.

우리가 가진 교과서적 상식을 벗어났다. 여론조사 신뢰 회복을 위해 조사업계나 정치권에서 주장한 것과 같이 ‘전화면접은 되고 ARS는 안 된다’든지, ‘응답률 10% 이상은 되고 이하는 안 된다’ 등의 자의적인 규정을 만드는 것은 정당화가 어려워 보인다. 그럼 어떻게 해야 할까.

필자가 처음 교수 생활을 시작했던 미국 로스앤젤레스에서는 최고급 식당부터 테이블조차 없는 식당까지 ‘위생등급제’를 실시해 A~D등급으로 분류하고 입구에 붙여 놓도록 의무화한다. 주기적으로 검사를 실시, 등급을 업데이트한다. 마찬가지로 미국의 유명 데이터 저널리즘 사이트인 FTE(FiveThirtyEight)에서는 여론조사 업체들의 과거 예측력과 오차 등에 기반한 평가를 통해 모든 여론조사 업체들을 A, B, C, D등급으로 분류해 공개하고 있다.

우리도 여론조사에 대한 신뢰 회복을 위해 공신력이 높은 중앙선거관리위원회 같은 비교적 중립적인 기관의 주도로 조사업체들을 평가하는 등급제를 실시할 것을 제안한다. 각 조사업체가 발표하는 대통령 및 정당 지지율, 그리고 선거 여론조사와 실제 결과와의 오차 등을 분석해 업체별 등급을 매겨 공개하면 될 것이다. 물론 업체들 입장에서는 매우 부담스러울 것이다. 만약 로스앤젤레스 시당국이 식당 주인들 이익을 대변했다면 ‘위생 등급제’ 실시는 불가능했을 것이다. 시민들의 권익을 우선했기에 가능한 일이다.

한규섭 서울대 언론정보학과 교수(정치커뮤니케이션)

이미지 확대
한규섭 서울대 언론정보학과 교수(정치커뮤니케이션)
한규섭 서울대 언론정보학과 교수(정치커뮤니케이션)
2024-04-29 25면
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
광고삭제
광고삭제
위로