2024KRelection_commentary

여론조사 꽃 vs 갤럽

Motivation

(작성자주: 이정환대표님께서 이 글이 게시된 후 일부 수정하셨습니다. 아래의 내용은 수정 전 글에 대한 비평입니다)

슬로우리포트 “통계는 물량이 깡패”, 여론조사꽃의 389번 조사가 의미하는 것이란 내용으로 이정환대표가 슬로우뉴스에 기사를 내셨습니다. 여론조사를 관심있게 보고, 2022년 등장한 여론조사꽃을 나름 따라간 시민으로써, 이 기사는 여러가지 잘못된 정보들, 그리고 총선결과가 나왔을 때 독자들이 어떤 점들을 보고 여론조사꽃을 평가해야하는지에 대해서 오해를 야기할 여지가 크다고 생각합니다. 이에, 시의성때문에(오늘이 선거날이고, 이런 잘못된 틀로 잘못된 평가가 중론이 될까 하는 걱정에) 매우 거칠게나마 기사의 구조를 그대로 따라가서 하나하나 문제점들이나 생각을 더하려고 합니다. (사실 여론조사꽃, 또는 총선 여론조사 전반에 대한 평가는 별도의 문서로 정리할 예정입니다. 그 점에서 자세히 들어가지 않은 부분들은 다른 문서에서 더 정리하고 파보고자 합니다)

관전 포인트

여론조사의 범위를 어떻게 봐야하는지 모르겠습니다만, 각종 전국 여론조사 업체들의 편향, 이른바 house effect를 추산하는 작업들은 여러 언론들에서 실시한 바가 있습니다. MBC의 여론M의 “여론조사를 조사하다”에는 조사업체들의 house effect들을 제시하고 있습니다.

그 페이지에서 여론조사꽃 가상번호/전화면접조사 결과는 정당지지도에서 꼭 혼자 튀는 결과를 내고 있다고 보기 어렵습니다:

여론조사꽃전화의 더불어민주당지지도

여론조사꽃전화의 국민의힘지지도

직접 페이지에 들어가셔서 조사회사별 정당지지도를 클릭해보시면 됩니다. 굳이 따지자면, 여론조사꽃 조사업체가 국민의힘 지지도를 낮게 측정하고 (엠브레인이 그보다 낮게 측정했었습니다), 더불어민주당의 지지도를 상당히 높게 측정하고 있고 (리얼미터가 비슷한 수준입니다), 각종 여론조사 업체들의 결과는 그 범위 안에서 다양한 결과들을 내고 있습니다.

여러가지 생각들이 압축되어 있는데요, 조금더 풀어봅시다.

이렇게 선거결과와 여론조사의 관계는 곧바로 파악하기 어렵습니다. 실제로 갤럽에서도 선거에서의 정당 득표율이나 정당별 의석수 비율과 여론조사의 결과의 차이를 7가지로 일별한 조사담 페이지링크를 최근 매 갤럽리포트마다 게시하고 있습니다.

image

링크에서 직접 읽어보시기를 권합니다.

image

그 중 하나만 조명하자면, 갤럽같은 여론조사들은 여론조사에서 무당층비율이 상당합니다. 이 무당층비율, 또는 특정 여론조사에서 투표의지에 대한 문항에 답한 비율이 갤럽과 여론조사꽃 사이에서 차이가 있습니다. 만약 이들이 투표를 하지 않는다면 (대선 같은 때는 물론 정치 저관여층도 투표를 합니다) 정당지지율 수치 자체는 이 아마도 투표를 하지 않는 사람들을 제외한 분모로 다시 계산해 어림해볼 수 있습니다.

한국갤럽 2024년 3월 4주차 정당지지도표 발췌

한국갤럽의 조사를 보면 정당지지도표에서 무당층은 17%에 달합니다. 만약 이 무당층을 빼서 나누면, (민주당29+조혁당12)의 보정지지율은 49%, 국민의힘은 44%가 됩니다.

여론조사꽃 62차 CATI결과표 발췌

이에 비해 여론조사꽃 전화면접결과표를 보면 무당층은 11% 정도밖에 안 됩니다. 만약 이 무당층을 빼서 나누면, 민주당 지지도는 48%, 국민의힘은 38%이 되겠지요.

즉, 갤럽과 같은 대개 품질지표(AAPOR응답률)가 좋은 여론조사들은 무당층표집을 더 많이 하고 있어서, 주요 정당 지지율수치가 선거결과 (무당층이 투표에 참여를 적게 하는 선거의 경우)랑 차이가 도드라져보일 수가 있습니다. 게다가 이렇게 대강 보정한 두 여론조사 방법의 보정수치는 아주 크게 차이가 나진 않습니다. 따라서 주의깊게 일별하면, 어느 한쪽의 공신력에 치명적인 손상이 일어날 가능성은 적습니다. 다시 반복하지만, 이렇게 정당지지도 수치를 통해서 의석수를 역산하는 것의 위험성은 갤럽이 매주 게시하는 리포트에서 강조하는 바입니다.

어떤 선거결과에 따라 여론조사 실제 여론을 반영하지 못하고 있을 가능성을 증명할 수 있을까요? 앞선 2월 같은 때에 여론조사결과값이 더 차이가 났을 때가 있지만, 그 때 선거로 참값이 무엇인지는 확인할 수가 없습니다. 지금은 비슷하게 결과들이 수렴한 상태입니다.

좀더 정밀하게 따져보고, 지역구 여론조사들의 일치율, 표본오차 등의 한계 내에서 얼마나 일치했는지 post-mortem은 당연히 미국 같이 선거가 일상화된 나라에서 벌어지는 일입니다. 예를 들어 538의 여론조사업체 rating이 있습니다. 하지만 선거결과가 어떻게 나오든, 정당지지율이 크게 출렁이는가, 아니면 안정적으로 야당이든 여당이든 우위인가는, 곧바로 도출되기 어렵습니다. 오히려, 그 동안 발표되는 여론조사들의 한계점이나 특징들을 좀더 정밀하게 따져봐야한다는, 우리의 독해의 깊이를 재고해야한다는 점을 선거결과가 환기할 가능성이 더 높습니다.

이 점 또한 의아한 부분입니다. 앞선 정한울원장도 지적한 가상번호체계 품질하락 가능성 재분석(중)에서도 약간 잠정적이었지만, 이 부분조차 갤럽 vs 여론조사꽃일 수가 없습니다.

“틀렸다”라는 것은 어떤 측면일까요? 어떤 점에서 틀렸는지 맞았는지를 판단할 수 있을까요? 여론조사꽃이 더불어민주당을 좀더 안정적으로 계속 우세로 제시한 것이 틀렸다는 것을 판단할 수 있는 예상 가능한 결과가 무엇일까요? 반문해봅니다.

여기서 기사에서 그래프로 20대 총선, 2016년 총선에서 갤럽조사결과와 실제 결과의 차이를 그래프로 크게 그려놨습니다. 여기서 실제 “실제 결과”란 무엇인가요?

슬로우뉴스에서 20대총선 그래프

한국Wikipedia의 총선 페이지를 보시면, 비례대표 득표율은 새누리당 33%, 국민의당 27%, 민주당 26%였습니다.

image

지역구 득표율로 봐도 새누리당38%, 민주당37%, 국민의당 15%입니다.

image

즉, 여기서 “실제 결과”는 의석수를 얘기하신 것으로 보입니다. 다시 강조하지만, 여론조사의 정확성을 판단하기 위해 선거결과를 참조할 때도 당연히 이렇게 비교하면 안 됩니다. 앞서 보이다시피, 비례대표 득표율은 민주당이 20%대였기때문에 크게 다른 결과라고 볼 수 있을지 의문입니다.

(보론) 더해, 비록 여론조사 공표금지기간때문에 사후 공표이긴 하지만, 2016년 4월 총선 이틀 전, 한국갤럽이 따로 여론조사를 한 것을 사후 공개했습니다. 해당 갤럽리포트 를 보면, 새누리 35%, 더민주 26%, 국민의당 11%, 정의당 2%의 지지율을 보여주고 있습니다.

image

여기서 무응답층 21%을 단순 제해서 분모를 줄이면 (매우 거친 가정입니다), 새누리 44%, 더민주 33%, 국민의당 14%로, 지역구 득표율에 근접하는 결과를 얻을 수 있습니다 (오차범위가 +/-3.1%p인 점 상기). 한국갤럽의 결과가 들어맞았다는 것이 아니라, 일견 보이는 수치들이 실제 결과들과 불일치한다고 해서, “틀렸다”라고 섣불리 말하면 안 된다는 것을 강조하고 싶습니다. 그래야, 정말로 여론조사 결과값에 편향이 있는지, 놓치는 정보값이 무엇인지 제대로 의론해볼 수가 있습니다.

더해, 지역구의석수에서의 득표율은 3자경합인 경우 양쪽으로 쏠리는 점을 지적해야합니다 (2016년 총선 전야에, 정한울위원이 실제로 이 점을 지적한 바 있습니다). 이번 총선은, 지역구에서는 3자구도인 지역구가 극히 제한적이지만, 비례대표에서는 제3정당인 조혁당의 약진때문에 그 결과의 불일치에 대해서도 정밀한 검토가 필요합니다. 지금 급하게 쓰느라 제대로 살펴보지 않았지만, 이 점에서 CATI조사에서 조국혁신당을 정당지지 문항으로 묻지 않은 여론조사꽃의 여론조사 결과를 어떻게 파악해야하는지 물어봐야합니다 (갤럽에서는 조국혁신당 정당지지를 묻고 있습니다. 지역구질문에선 묻지 않고 있지만요).

어떻게 다른가.

“맞지 않다”라는 평가에 대해서 다시 한 번 주의를 촉구합니다. 의석수로 판단해선 안 됩니다 (바로 앞선 부분에서 그래프를 붙여놓으셨기때문에요).

이건 중앙선거여론조사심의위원회에 따라 1천명 조사에서는 반드시 지켜야하는 할당방식으로 이해하고 있습니다. 그리고 둘 다 무선전화/가상번호 무작위 추출방식이어도, 콜백방식 등에서도 차이가 있습니다.

여기서 응답률은 협조율을 말합니다. 협조율은, 전화를 받은 사람 중에서 끝까지 여론조사를 끝마친 사람들의 비율입니다. 가장 분명한 전화여론조사의 품질지표는, 이 협조율에 접촉률을 곱한값, 국제기준(AAPOR) 응답률입니다.

image

중앙선거여론조사심의위원회에 등록된 여론조사에도 제일 앞에 항상 “등록제의 취지를 제고하기 위해 ‘접촉률’을 공개”라고 써 있습니다. 이는 협조율만으로는, 정확하게 전화여론조사의 품질을 판단하기 어려운 부분이 있기때문입니다.

둘다 가상번호/안심번호 시스템에서 휴대전화업체로부터 지역/성별/연령에 맞춰서 전화번호를 사옵니다. 여론조사꽃이 한 번 전화여조를 돌릴 때 3만개를 사오고, 갤럽이 2만개를 사온다고 보시면 됩니다.

최대허용오차, 즉 표본오차는, 통계적(수학적)으로 몇 명한테 여론조사를 끝냈냐로만 판단이 됩니다. 즉, 전국 1천명에 전화여론조사를 했다면, 그 어떤 여론조사업체라고 하더라도 신뢰수준 95%에 ±3.1%포인트 최대허용오차를 가집니다. 이 오차가 여론수집의 유일한 오차가 아니며, 가장 큰 오차가 아닐 수도 있습니다.

협조율이 높다는 것이 여러 차례 반복해서 전화했을 것이라는 이야기가 아닙니다. 다시 말씀드리지만, 협조율이 높은 것은 전화를 받은 뒤 여론조사를 끝까지 참고 마친 사람의 비율이 높다는 뜻입니다. 전화를 걸었을 때, 아예 전화를 받지 않아 부재중 전화로 남는 경우, 같은 번호로 다시 몇 번이나 전화를 다시 거느냐, 즉, 한 번 선정한 번호를 얼마나 집요하게 물고늘어져서 의견을 들으려고 하느냐 노력하는 정도가 콜백횟수입니다. 즉, 이미 전화 받은 사람들이 얼마나 끝까지 버티느냐와 콜백과는 전혀 상관없는 개념입니다.

한국갤럽에서는 이 콜백의 개념과 정의, 이유에 대해서 대단히 훌륭한 글을 최근에 내보냈습니다.

실제로 이 보고서에서는, 여론조사꽃의 사례를 하나 들고 있습니다 (사례1-가상번호) 여심위 등록번호 12501의 경우입니다. 여기서 접촉률이 갤럽에 비해서 상당히 떨어져있는 경우입니다.

image

갤럽은 여론조사꽃의 전화면접조사에 대해서 다음과 같이 평가합니다.

응답률(협조율)은 괜찮은 편이지만 번호를 많이 투입해 단기간에 조사를 끝내 접촉률이 낮고(콜백 미흡), 성공률은 가상번호 ARS 조사와 비슷한 수준입니다.

슬로우뉴스의 기사의 여론조사꽃에 대한 평가는 개념을 잘못 이해해, 정반대로 평가했다고 볼 수 있습니다.

사실 여론조사꽃의 전화면접조사의 접촉률이 떨어지는 이유는 당연합니다. 모든 조사를 이틀 안에 끝마치기때문입니다. 한국갤럽이 3일에 걸쳐서 여러차례의 콜백시도를 통해서 접촉률을 올리는 것과 다른 방식이고, 이 때문에 최종 1천명의 여조응답자까지 이르기 위해서는 더 많은 전화번호에 전화를 걸 수밖에 없는 구조입니다. 그래서 3만개의 전화번호에 통화시도를 한다고 볼 수 있습니다.

표본 추출수를 많이 썼다는 것은 돈을 많이 썼다는겁니다. 그런데 돈을 많이 쓴것은 그만큼 전화를 받을 때까지 많이 안 기다렸다는 뜻으로, 정확도를 높이기 위해 신경을 쓴 것이 아닙니다.

질문이 달랐다.

우선 갤럽의 두 번째 질문이 정당지지가 아닙니다. 전화면접이 어떻게 이뤄지는지는, 중앙선거여론조사심의위원회에 등록된 질문지 자료를 통해 확인할 수 있습니다:

image

image

image

여기서 보다시피, 한국갤럽도 당연히 재질문을 합니다. 지지여부를 물어보고, 그 다음에 “본인 성향은 어느 정당에 조금이라도 더 가깝습니까?”로 묻습니다. 호감이 아니라 성향을 묻습니다.

한국갤럽처럼 3일에 걸쳐서, 콜백을 상당히 해서 접촉률을 높이면서 하는 전국지표조사(NBS)의 경우는, 지지를 물어보고 다음에 호감을 묻습니다.

image

즉, 여론조사꽃 전화면접조사는 지지하거나 조금이라도 호감이 가는 정당을 물어보고, 그 다음 더 낫거나 호감이 가는 정당을 물어봅니다. 지지+호감 다음 낫거나+호감입니다. 사실 이 질문을 가만히 생각하면 이상합니다. 정당들중에 조금 더 나은 정당이 꼭 호감이 가는 정당이 아닐 수도 있고, 질문이 명확하지가 않다고 비판받을 수도 있을 것 같습니다. 개인적으론 낫다는게 어떤 측면에서 나은지도 잘 모르겠습니다. 예를 들어 인물은 나은데 조직은 엉망일 수도 있고, 정책은 나을 수도 있는데 등등 질문이 좀 불분명하다고 개인적으론 판단합니다만, 이게 정당지지도에 어떤 영향인지는 면밀하게 살펴봐야할 필요가 있습니다. 실제로, NBS의 일원이기도 한 한국리서치에서, 작년 총선성격에 대한 문항으로 인터넷패널에 대해서 조사를 한 적도 있습니다. 이렇게 질문의 효과를 제대로 검증하지 않는 한, 어떤 정당지지질문이 여론을 좀더 잘 담지할 수 있는지 확인하긴 어려울 것입니다.

질문순서에 대한 효과에 대한 가설인데, 이 또한 위의 정한울 당시 한국리서치 위원의 리서치을 확인해보십시오.

진보-보수 비중도 달랐다.

같은 표본이 아닙니다. 두 회사는 각각 무선전화회사에 가상번호를 받아올 뿐입니다. 야간/주말조사 비중이 높기 때문일 수도 있지만 (이는 두 업체가 각각 다른 방식으로 조사를 해봐야 그 효과를 알 수 있겠지요), 위에서 언급한 것처럼 이틀조사나 3일조사의 차이때문일 수도 있습니다. 다만, 한국갤럽에서 발표한 바에 따르면 정치성향은 콜백에 따른 차이가 유의하게 나오지 않고 있습니다.

image

“이길 수가 없다.”

이 점은 갤럽에서 수행한 다른 결과들 (실제 의뢰받은 경우 이러한 조사들을 합니다 - 여심위에 따르면 이번 총선 경우 12월 12일부터 총 28건 휴일조사를 수행했습니다)과 데이터를 비교하면 될 것 같습니다. 아울러 여론조사꽃도 이번 총선의 경우 58건의 여론조사는 휴일조사가 포함되지 않았습니다. 만약 이 점이 정말 중요하다면 여론조사꽃에서 수행한 여론조사결과들도 의심해봐야하는걸까요?

image

이 점이 궁금해서 일전에 살펴본 적이 있는데요, 실제 한국갤럽이나 NBS 대비, 여론조사꽃이 직업구성에 있어서 큰 차이가 있어 보이진 않습니다.

image

“비싼 게 정확하다”, 물량이 깡패”라는 주장은 맞을까

여기서 이 그래프에 대해서 한 말씀 올려야겠습니다.

image

이 그래프에서 389건을 수행했다는 여론조사꽃은, 상당수를 ARS조사로 채웠습니다. 100% 가상번호/면접조사로 한정할 경우, 갤럽과 비슷한 수의 여론조사를 수행한 것을 볼 수 있습니다.

image

즉, 여론조사꽃이 수행한 모든 총선 선거여론조사가 같은 품질의 방법론을 활용했다고 할 수 없다는 것입니다. 이 점을 놓쳐서, 슬로우뉴스의 다음 항목에서 문제가 됩니다.

서울 동작을과 부산 사하을의 경우.

다시 MBC의 여론M 국회의원선거 페이지를 가봅시다.

image

보시다시피, 여기서 여론조사꽃에서 수행한 조사는 무선ARS, 유선 ARS(9%)혼합에 무선전화번호만 가상번호고, 유선전화번호는 RDD를 섞은 조사입니다. 대개 유선전화번호를 섞는 경우, 짧은 시간에 표집하기 어려운 부분이며, 협조율(통상 말하는 응답률)은 6.2%밖에 되지 않습니다. 접촉률까지 감안한 AAPOR응답률은 2.3%에 불과합니다. 낮은 품질지표의 조사란 말입니다.

여론조사꽃은 500명을 표집한 여론조사로 최대허용오차는 +/-4.4%p입니다. 이 경우 48.8%와 43.1%는 오차범위 안입니다.

갤럽조사의 최대허용오차범위는 +/-4.4%p입니다. 48%와 43%는 오차범위 안입니다. 왜냐하면 오차범위는 플러스 마이너스니까, 대강 어림해서 나와있는 4.4의 2배, 8.8%p 안으로 판단하면 대강의 어림으로 맞습니다.

50.1-42.2=7.9%p 입니다. 다시 한 번, 오차범위 안입니다.

image

실제로 그래서 MBC에서도 두 후보의 오차범위가 “겹치는 것”으로 시각화하고 있습니다. (사실 좀더 정확하게 하기 위해서는 p(1-p)로 곱해서 실질 허용오차 MOE를 계산해볼 수 있습니다만, 결과에 차이는 없습니다)

중요한 것은 전국이 아니라 지역 단위 예측

이 부분에서는 강조해야할 부분이 있습니다. 지역 단위 표본 수를 늘렸다기보단 지역 단위로 여론조사를 수행했다고 봐야할 것 같습니다. 그리고 여러 차례 강조하지만, 그 때 많은 경우 응답률/협조율 모두 떨어지는 ARS조사를 수행했고, 이 때문에 총선결과를 비교할 때 주의해야할 부분이라고 할 수 있겠습니다.

비싼 게 정확할까.

여기서 갤럽리포트가 계속 강조하는 부분을 환기할 필요가 있습니다. 전국여론조사에서 하위지표를 자세히 보지 말자 전국여론조사에서 서울은 슬로우뉴스에서도 짚은대로 180명정도밖에 안 되어서 최대허용오차가 +/-7%p대입니다. 또한 셀가중법으로도 서울이 하나의 권역이기때문에 그 안에서 강남권이나 다른 서울권역 비율이 정확히 맞는지도 언제나 보장할 수가 없습니다. 전국여론조사에서 이런 권역별조사는 갤럽은 언제나 월별통합지표로 안내했습니다.

image

이걸 선거결과로 분석하지 말라고 아예 볼드체까지 붙여놨는데, 3월 통합 정당지지도표를 볼까요?

image

여기서 민주당+조국혁신당 합산 서울 지지율은 36%, 국민의힘은 39%입니다. 오차범위 안입니다. 대구의 경우에는 21%, 국민의힘은 무려 55%입니다. 언급된 2월 통합지표는 어떨까요?

image

여기서 서울 통합지표는 (가중적용사례수 748명 최대 허용오차 ±3.583%) 32% (새진보연합/진보당 포함), 국민의힘이 38%입니다. 대구/경북 (388명 ±4.975%)는 18% 대 58%입니다. 이게 “갤럽이 맞으면 서울이 대구야”인지는 독자들의 판단에 맡기겠습니다.

서울지역의 가중사례표본수는 180명입니다. 이 경우 최대허용오차가 ±7.304%p 입니다. 대강 15%p의 차이는 오차범위 안의 결과란 것입니다. 그래서 앞섰다가 경합하는 구도, 이런 것을 말하기 어려운 상황이라고 할 수 있습니다.

대체 선거 즈음해서 결과가 수렴했다면 선거결과로 어떻게 어느 점이 맞는지 입증할 수 있을까요? 정말 다시 한 번 반문해봅니다. 입증할 수 있어야 판도가 바뀔 수 있을것인데, 선거를 매월 하진 않습니다.

이에 대한 평가는 좀더 정밀하게, 차분하게, 슬로우뉴스답게 할 수 있게 되었으면 좋겠습니다 (저도 2014년 슬로우뉴스에 기고했던 적이 있는 사람으로써 하는 말입니다)