인터넷에서 고대 통계학과 대선 출구조사 관련 세미나가 있다고 알게 됐다. 연사인 박민규 교수는 여론조사 관련해서는 권위자라고 한다. 원격으로 아무나 이런 재미있는 강의를 들을 수 있다니, 코로나가 끼친 선한 영향이 있긴 하구나.
출구조사 결과가 정확했기 때문에 교수님의 발표는 자신만만했다. 당시 출구조사 결과의 보정 때문에 인터넷에서도 말이 많았던 걸로 기억하는데, 보정은 하지 않았다고 한다. 사전투표에 대해서는 출구 조사를 못 했지만 사전 투표 직후 별도의 전화 조사를 했고 이 데이터를 바탕으로 사전 투표 결과를 예측했다고 한다. 선거 당일, 선관위로부터 사전투표와 당일투표의 비율, demo정보를 얻어 출구조사 예측 결과랑 사전 투표 예측 결과를 그냥 가중합 했다고.

JTBC조사 얘기도 잠깐 나왔는데 JTBC가 미세하게 틀린 이유는 한마디로 “돈을 덜 썼기 때문”이라고 말씀하셨다. 내 예상과도 일치했다. 지상파3사는 330개 투표소에서 출구조사를 했는데 JTBC는 돈을 덜 써서 100개에서 밖에 못 했다고. 그런데 대선 출구조사에 4억 밖에 안 든다는 점은 예상 외였다. 적어도 10억 이상이 들어가기 때문에 방송 3사가 십시일반 느낌으로 돈 모아서 한다고 생각했는데… 총선은 80억 정도가 소요된단다.
구체적으로 조사 방법을 말하면 확률 표본 추출법을 통해 우리나라 전체 투표소를 대표할 수 있는 투표소 330개가 선거 일 이전에 선택되고, 선거 당일 투표를 마치고 나온 유권자 중 약 1/5를 조사했다고 한다 (확률적 계통 추출법). 이는 전체 유권자의 0.5%만 조사한 것이다. 즉, 투표소를 선택할 때는 지난 선거의 국민의힘 지지율을 기준으로 투표소를 정렬하여 n계속 띄어 선정하고, 투표소에서도 5명의 한 명씩 조사를 한 것. 유권자의 성별과 연령은 투표소 밖에서 유권자를 선택할 때 고려해야하는데 무작위로 뽑다보면 모분포와 비슷해진다고 한다. Control이 안되는 상황에선 Randomness를 지키는 것이 매우 중요.
침묵의 나선 이론 (남이랑 다른 의견을 가진 사람이 솔직하게 의견을 밝히지 않는 것) 때문에 과거에는 미세한 보정을 할 필요가 있었는데 최근의 국회의원 선거부터는 보정이 필요 없어졌다고 한다. 요즘 사람들은 정치에 대해서는 생각하는 대로 표현하기 때문에. 주관적 보정은 선거법위반이기도 하단다.
