출구조사 확률과 통계 - chulgujosa hwaglyulgwa tong-gye

(사진=뉴시스)

이번 제20대 대통령 선거에서 1,2위 후보자간  최종 득표율은  47.83% 대 48.56%로 차이가  0.73%포인트 채 되지 않는 박빙의 승부였다.

통상적으로 개표율이 20%만 넘어도 당선자가 확실해진다고 한다.

그러나 이번 대선의 결과는 9일 자정을 넘기고서야 윤곽을 드러내었다. 코로나 확진 대상자 투표가 오후 6시부터 오후 7시 30분까지 추가로 진행되어 개표 시간이 지연됐기 때문.

뿐만 아니라 인천을 비롯한 여러 지역에서 투표함 이송 문제, 색이 다른 투표지 발견 등 개표 과정에 혼선을 빚기도 했다. 개표 작업이 수차례 중단되어 지역구의 투표가 집계되지 않는 등 당선을 확정짓는 데 오랜 시간이 걸렸다.

누구도 예측할 수 없었다던 제20대 대통령 선거. 과연 예측은 불가능했을까? 이미 출구조사는 10일 새벽 2시가 아닌, 9일 오후 7시 30분에 윤석열 후보의 당선을 가르쳐주었다.

출구조사는 본선거 당일 전국 330개 투표소 출구에서 같은 간격으로 5번째로 나오는 투표자에게 뽑은 후보자에 대해 설문하는 방식이었다. 오전 6시부터 오후 6시까지 총 7만 3297명의 유권자를 대상으로 진행되었다.

지상파 3사와 공동예측조사위원회(KEP)의 출구조사 분석 결과는 ‘47.8% 대 48.4%’로 0.6%포인트 앞선 윤석열 후보의 승리였다. 95% 신뢰수준에서 오차범위는 ±0.8%포인트인 점을 감안하면 정확한 예측이었다.

극히 한정된  출구조사 대상 인원으로 대선 결과 적중이 어떻게 가능한 것일까.

출구조사는 일종의 표본조사이다. 표본조사란 어떤 집단의 특성을 알고자 할 때, 집단의 일부를 조사함으로써 집단 전체의 특성을 추정하는 방법을 뜻한다. “하나를 보면 열을 안다”는 속담과도 같은 게 표본조사인 것이다.

표본조사에서 가장 중요한 점은 ‘무작위’로 형성된 표본만이 전체를 정확히 예측할 수 있다는 점이다. 여기서 출구조사와 여론조사의 신뢰도 차이가 발생한다.

이번 대선 전, 3사 여론조사업체(한국갤럽, 리서치뷰, 리얼미터)가 실시한 여론조사는 윤석열 후보의 당선에 3.1%~7.6%포인트로 이재명 후보와의 득표율 차이 예상했지만 모두 크게 빗나갔다.

여론조사에 쓰인 자동응답시스템(ARS) 등 전화조사는 전국 유권자들에게 무작위로 설문한다지만, 전화 연결 거부나 여론조사 업체에 대한 불신 등과 같은 이유로 응답자의 의사가 패스된다면 표본이 무작위로 형성됐다고 보기 어렵다.

따라서 현대 사회에서 표본조사의 ‘무작위추출법’ 원칙에 따라 제대로 시행되는 조사는 출구조사가 대표적이라고 할 수 있다. 한국에서 대통령선거 출구조사는 적중률 99%에 달한다.

그러나 본선거가 집계될 당시, 이번 출구조사 결과는 신뢰하기 어렵다는 반응이 대다수였다. 전례없는 코로나 사태로 사전투표율이 37%에 달했는데, 출구조사 결과에 사전투표 정세가 일부 반영될 뿐 정확한 데이터로서 영향을 미치지 않기 때문이다.

즉 전체 투표율 77% 중 사전투표를 행한 37%p를 제외한 40%p정도에 해당하는 모집단(본선거 투표자)에서 표본이 추출되었으므로 출구조사가 정확하지 않을 것이라는 여론이 우세했던 것이다.

그럼에도 불구하고 출구조사 벽은 견고하다는 사실이 증명되었다.

표본의 크기가 클수록 모집단 대표성이 증가하는 것은 당연한 원리이다. 그러나 크기를 보완할 표본추출 방식 및 표본오차 설정을 위한 복잡한 통계이론과 수식은 끊임없이 발명되어 활용되고 있다.

이러한 사실로 미루어 볼 때, 출구조사는 통계가 ‘양보다 질’이라는 점을 시사한다.

한편 표본조사가 모집단을 대표할 수 있다는 주장은 1895년 당시 혁명적으로 받아들여졌다. 노르웨이의 통계국장이던 앤더스 니콜라이 키에르(Anders Nicolai Kiær)에 의해 제안되었고, 1940년대부터 미국 통계청 조사에 본격적으로 표본추출방법이 적용되었다고 한다.

출구조사로 알아본 통계

조사 결과 정확성 예측까지

  통계학과 통계연구소(소장=정윤서 교수)가 주관한 ‘2022년 대선으로 돌아보는 출구조사의 과학(Winner Prediction using Exit Poll)’이 24일 정경관에서 열렸다. 박민규(정경대 통계학과) 교수는 20대 대선 당시 KBS 선거 방송 여론조사 자문위원으로 활동한 경험을 중심으로 강연했다. 강연은 출구조사의 개념, 20대 대통령 당선인 예측 방법, 예측의 정확성을 판단하는 통계적 지표의 순서로 진행됐다.

  출구조사는 대표적인 선거 예측 조사다. 선거 당일 투표소 출구에서 투표를 마치고 나오는 사람들을 조사하며 실제 선거 결과를 예측하는 데 사용된다. 전화 등을 통한 선거 여론조사와는 다른 개념이다. 박 교수는 “선거 여론조사는 투표자들이 아닌 유권자들을 대상으로 하므로 투표를 하지 않은 사람들도 답변할 수 있다”며 “선거 여론조사로 선거 결과를 예측하기는 무리가 있다”고 말했다. 본 투표의 선거 예측 조사는 출구조사로 이뤄지고, 사전투표 결과는 전화 조사로 예측한다. 그는 “선관위로부터 전체 사전투표자의 수와 성별, 나이, 거주지 등의 정보를 전달받은 후 전화 조사로 파악한 사전투표 설문 대상자의 성별, 나이, 거주지를 바탕으로 특정 후보 지지자의 대략적인 수를 파악한다”고 설명했다.

  20대 대선 전국 투표소 1만4500여 개 중 출구조사가 이뤄진 투표소는 330개다. 박민규 교수는 “이전 선거에서 특정 당을 지지한 비율을 기준으로 투표소를 정렬한 후 지지도가 가장 낮은 곳부터 가장 높은 곳까지 일정한 간격을 두고 330개 투표소를 선정한다”고 밝혔다. 이렇게 선정된 330개 투표소에서 실제로 질문을 받는 사람들은 각 투표소에서 투표를 마치고 나오는 사람들의 5분의 1이다. 박 교수는 처음 설문조사를 한 사람을 기준으로 매번 다섯 번째로 나오는 사람을 대상으로 출구조사를 실시하는 것을 예로 들었다. 이렇게 주관의 반영 없이 무작위로 대상을 선정하면 비교적 실제 결과와 유사한 응답을 수집할 수 있다. 설문 대상자는 투표소 선정을 통해 모두를 대표할 수 있는 대상으로 정하지만 통제할 수 없는 부분은 무작위성에 맡긴다. 이 방식이 실제로 출구조사에서 사용되기 이전에는 대표 투표소 한 곳을 뽑아 그곳의 결과로 당선자를 예측하기도 했다. 지난 몇 번의 선거에서 최종 결과와 가장 유사한 결과가 나타난 투표소를 선정하는 것이다. 박 교수는 “과거의 방법은 표본이 무작위 추출을 통해 뽑히지 않았기 때문에 결과가 틀릴 위험이 크다”고 말했다.

  무작위 추출을 하더라도 결과에는 오류가 발생할 수 있다. 예정대로 설문 대상자가 완벽히 무작위로 뽑힐 것이라 확신할 수 없고, 다수의 의견을 따라 자신의 의견과는 다른 응답을 하는 침묵의 나선 이론 등으로 인해 설문 대상이 거짓된 응답을 할 수도 있다. 박민규 교수는 설문 시 발생할 수 있는 오차의 종류에 두 가지가 있다고 설명했다. 모집단, 즉 투표자 전체를 조사할 수 없기에 발생하는 오류는 표본오차라고 한다. 표본오차는 통계적 이론을 통해 설명과 분포 예측이 가능하다. 반면에 거짓 응답이나 무응답으로 인한 오류는 비표본 오차다. 이는 확률 개념으로 설명할 수 없으며, 최소화하기도 어렵다. 그는 “요즘은 거짓 응답이 나타나는 경우가 거의 없다”며 “남의 시선에 신경 쓰지 않는 사람이 많아지면서 비표본오차의 가능성을 반영하지 않아도 실제 결과와 차이가 나지 않는다”고 설명했다. 또한 “사실 대선 결과 예측도 학생들이 통계학과 전공 수업에서 배우는 기본적인 내용을 기반으로 하는 것”이라며 “어려운 내용을 배우게 되더라도 기본에 충실해야 쌓은 탑이 무너지지 않는다”고 강의를 끝맺었다.

  강연이 끝난 뒤 질의응답이 진행됐다. 선거 방송에서 실시간으로 나오는 예측 득표율은 무엇에 기반해 계산되냐는 질문에 박민규 교수는 “선거 예측 조사를 통해 얻은 정보를 개표율에 투영해 득표율을 예상하는데, 개표가 진행될 때 열린 투표함이 사전 투표함인지, 본 투표함인지 실시간으로 알 수 있다”며 “이를 활용해 개표 당시에는 반영되지 않은 무작위성의 개념을 보존하는 작업을 거쳐 예측 득표율을 추산한다”고 답했다. 세미나에 참석한 하예은(정경대 통계20) 씨는 “지금까지 배운 것들만 잘 활용해도 대선 결과를 예측할 수 있다는 게 흥미로웠다”고 했다.

글 | 이가림 기자 forest@

사진 | 문원준 기자 mondlicht@

기자의 다른기사 보기
저작권자 © 고대신문 무단전재 및 재배포 금지

초록 열기/닫기 버튼

출구조사에서 투표소 추출방법은 출구조사의 정확성을 결정하는 중요한 요소이다. 본 연구에서는 대표구 추출법을 대신할 수 있는 정렬계통추출법을 제안하고 그 활용 가능성 및 효율성을 분석한다. 아울러 제시된 정렬계통추출법을 사용하는 경우 추정량의 표본추출오차(sampling error)가 어느 정도 되며, 원하는 목표 오차를 만족하기 위한 표본크기를 결정하는 문제를 고려한다. 2004년 17대 총선 개표자료를 토대로 경험적인 분석을 통해 제시된 정렬계통추출법이 기존의 대표구 추출법에 비해 평균예측오차 관점에서 효율적이라는 사실을 규명하고, 기존의 출구조사에서 표본크기 및 추정오차를 해석하는 과정에서 발생하는 오류를 집락효과를 이용해 설명했다. 아울러 제안한 정렬추출법에서 얻어지는 추정량의 분산을 구하고, 설계효과 개념을 이용해 표본크기 결정문제를 다루었다.

The accuracy of exit poll mainly depends on the sampling method of voting places. For exit poll, we propose a probability sampling method of selecting voting places as an alternative to the bellwether polling place sampling. Through an empirical study based on the 2004 general election data, the efficiency of the suggested systematic sampling from ordered voting places was evaluated in terms of mean prediction error and it turns out that the proposed sampling method outperformed the bellwether polling places sampling. We also calculated the variance of estimator from the proposed sampling, and considered the sample size problem to guarantee the target precision using the design effect of the proposed sample design.


키워드열기/닫기 버튼

,

,

,

bellwether sampling, design effect, exit poll, systematic sampling

피인용 횟수

  • KCI 5회

  • 754 회 열람
  • KCI 원문 미리보기
  • 원문 찾아보기
  • 논문 인용하기
  • 서지정보 내보내기

    • txt
    • RefWorks
    • Endnote
    • XML

  • 현재 페이지 인쇄

인용현황

Toplist

최신 우편물

태그