美国大选的民调,靠谱吗?
美国大选进入冲刺阶段,所有焦点都放在七个摇摆州。计有北方铁锈三州(威斯康星、密歇根、宾夕法尼亚)、南方阳光带四州(东岸的北卡罗莱纳、乔治亚,西部的内华达、亚利桑那)。其他四十三个州几乎没有任何意外。但这七个州形势之紧张,什么结果什么组合都可能发生。
目前的选举地图形势是,如果民主党拿下北方铁锈三州,就能以法定的最少差距,一票之差(270票,超过平手269票)赢得总统之位。宾夕法尼亚州作为七者中选举人票最多的州,又是形势最激烈的州,是关键中的关键。
在民主党刚刚“换登”之际,哈里斯的呼声甚高,一下子反超川普,明显领先。然而,随著时间的推进,川普在民调上不断猛追,现时反有后来居上之势。
可以看见,这七个州的平均民调的走势相当一致,就是“川升哈降”:在三个阳光带州(北卡、乔治亚、亚利桑那),川普从一直持平,开始领先1~2个百分点;在三个北方铁锈州(威斯康星、密歇根、宾夕法尼亚)和内华达,川普从中途明显落后,到现在紧追几乎拉平(哈里斯领先不足0.5个百分点)。
在去年台湾总统选举中发生过柯文哲与侯友宜有关“民调统计误差”的争议,让台湾人民普遍受过一次统计教育,都知道看民调不能只看一个数字,还要看95%置信度的误差范围。对千人左右样本,误差范围是正负3%,即有95%的信心,真实支持率在这个数字的正负3%范围内。如果是两个候选人的对比,那么双方支持率只有相差4.5%(3%*Ö2»4.5%)以上,才有95%的信心认为,领先的会赢。
美国民调的样本和台湾的差不多(都是千人级别),但以上538的总结,是对多个民调取舍、加权、调整、平均,95%的置信度的误差范围要比3%窄一些(意味更准确)。但双方的差距依然在这个缩小后的误差范围之内。这么小的差距意味著在统计学上,我们根本无法有足够的信心能预测谁会获胜。
换言之,这七个州的结果,无论谁胜谁负,都不意外,尽管现在看来,川普的势头更被看好一些。
当然,也有很多人不这么认为。比如一种理论就是,民调“偏帮民主党”,所以除非民主党领先很多,否则实际投票结果就是川普赢。于是,很多人确信,川普不但能赢,还能大胜。
民调准不准?在以往大选中都有争议。
比如2016年大选,大部分民调都认为希拉里的赢面更大,但结果是川普赢。在2020年大选中,在绝大部分摇摆州州,输赢和民调预测基本一致,但输赢的幅度却产生一些误差:拜登赢得没有那么多。在这两届投票中,普选票的输赢结果和全国性民调的支持率基本吻合。民主党都赢了普选票。但在2020年选举,在选前民调中,拜登的全国支持率领先达到12个百分点,但拜登普选票虽然赢了700万,却只领先川普约4个百分点。
这样看来,好像是民调都偏帮民主党。但反过来的例子也有,如再前一些的2012年选举,民主党的奥巴马在民调中只领先罗姆尼一点点,预测是非常紧凑的选举。然而,奥巴马最终却轻取罗姆尼。
当然,如果把川普理解为非传统的共和党人,那么依然可以推论,民调“系统性地不利于川普”。
那么这种情况在今年会不会出现呢?目前如此紧凑的民调数字可不可信呢?这个相信也是结果出来之后才知道,但一些因素可以分析一下。
第一,如上所述,民调数字是有误差范围的,但传媒一向不报道这个误差范围。这当然也不能怪媒体,谁让这些数据“不抓眼球”呢?如果考虑误差范围,实际上大部分摇摆州的数据都没有那么不可思议。一些fancy的、戏剧性的表述方式,则加大了公众对“民调很不准”的印象。比如2016年选举,纽约时报就有一个“希拉里选举获胜机率随开票进程的变化图”,希拉里的胜率从开票前的80%一直降到百分之十几。事实上,获胜的机率和民调仅管是相关的,但并无简单的换算关系。机率对比大大地放大了民调的误差。
第二,民调也不能直接等同于选举结果,投票率是最重要的差异来源之一。简单地说,即便民调准确,如果某选民支持了川普,但又没有去投票,那么支持了也等于白支持。如果把支持率转化为选票,最重要的工作就是鼓动支持自己的选民去投票。绝大部分的基层助选员就是干这个,不断打电话、发短信、敲门、派传单,提醒选民去投票,现在还会用上社交媒体去催票。
第三,如果回过头来看这两次选举的民调数字,就会发现实际并不一定全然是民调有问题。
比如,2016年选举中,由于希拉里在选前不足十日,发生“二次电邮门”事件而大受影响,于是最后时刻的民调川普是急起直追的,在不少摇摆州,已进入误差范围内。但媒体的报道中,却基本忽略了这些最后一刻的变化,以及一向忽略了误差范围。当年笔者紧密追击纪录选举全程,对此印象很深。
又如在2020年大选中,由于因为疫情原因,史无前例地使用了大规模的邮寄投票,让传统的预测模式无法跟上。
第四,解释2016年民调“不准确”的一个理论是,川普有大批“不敢公开的支持者”。说的是,川普由于“政治不正确”,于是即便被调查的选民支持他,也因为害怕“政治不正确”,不愿说出自己真正支持的是川普。
这个理论即便是正确的,但过了八年,随著美国民风向右翼回摆,这种因素也已经大大减少。至少根据笔者观察,现在早已没有什么人“羞于”说支持川普了。
第五,现在民调的难题,反而是针对年轻人的民调非常难做。因为民调大部分沿用传统的方式“打电话”,无论是打市话,还是打手机。现在的问题是,年轻人根本很少依赖“打电话”作为通讯方式。他们有手机,但主要的通讯方法是用手机上的App,诸如Snapchat这些。而这些人群,又是民主党最重要的支持者。民调结果无可避免地会低估了有利民主党结果。
第六,现在由于选民已经站队化,因此对“对家”的民调非常反感。保守派听到CNN要来做民调,可能立即挂电话。自由派听到“Rasmussen”民调,恐怕也说不了两三句。于是一家民调川普领先,第二天另一家民调又是哈里斯领先。这往往不是反映民意左右横跳,而是前一家是保守派的民调,后一家是自由派民调之故。
民调专家当然会想方设法去解决和补偿这些数据的不足,但无论如何调整和处理,都意味著民调会有系统性的偏差。不过,如果把这些因素都综合考虑起来,就有可能互相抵销。于是最后得出的结论,恐怕还是民调数字依然是可靠的,但必须有正确的分析和理解。
最重要的是,千万不能抱著,“如果不作弊,民主党不可能赢”的想法。在选举结果出来之后万一川普输了,更千万不能有先入为主地认为“民主党作弊”,绝不能让“一六国会山暴动”重演。