跳到主要内容

该让3%还是6%?用白话文解释统计的误差范围

· 10 分钟阅读
Eric Cheng

最近最热门的话大概就是蓝白合到底该让3%还是6%,统计就是统计,明明就该是要有标准答案,为什么会让两边的「统计专家」吵不出结论?

因为我是统计系毕业的,坦白说快被朋友问的烦死了,每一个人问就要解释一遍,加上又不好解释,决定直接写一篇文章来说明。我会尽量的减少数学公式,用白话文来说明谁对谁错

先打个预防针,虽然我是统计系毕业的,但毕业没碰统计十几年了,可能有些专用名词会用词不太精准,如果有错误也麻烦留言反应给我知道

误差范围就是 ±3% 吗?

这个问题比较单纯:不是,误差范围会随着样本大小改变

对民调有点概念的都听过 1068 份样本,误差范围 ±3% 这个数字,我们先来看这个数字怎么来的

公式:在 95% 的信心水准下

moe=1.96p(1p)/nmoe = 1.96 * \sqrt{p(1-p)/n}

在一般情况下,p 会简化为 0.5,当 n = 1068 时,误差为 ±3%,而当 n = 3000 时,误差会降低为 ±1.79%

所以当 n (样本数) 愈大,moe (误差范围) 就会愈小

这里有一个重点叫 在 95% 的信心水准下,这关系到公式中的 1.96,不想复杂化,直接列表

信心水准 
90%1.645
95%1.96
99%2.575

一般统计会用就是 90%,95%,99% 三种信心水准,信心水准愈高,误差范围愈大

这次的蓝白合的第一个问题就是没有提到信心水准,不过以他们的数字很明显信心水准指的是 95%

误差范围 ±3% 指的是真实值和估计值的误差

同样以民调为例,有一个真实的得票率(现在不知道,要等明年的1月13日才知道),所以我们透过抽样预估出一个估计值,比较这个真实值和估计值用的就是这个±3% 误差范围

什么叫在95% 的信心水准下,误差范围为±3%,可以不精准的解释为假设估计值为40%,则真实值有95% 的机率会落在37% ~ 43% 之间(37% ~ 43% 称为信赖区间),至于5% 会小于37% 或大于43% 则被我们容许,因为抽样本来就不会完全正确

为什么国民党的算法一定是错的?

国民党的说法是假设A 是40%,B 是34%,则A 的信赖区间是37% ~ 43%, B 的信赖区间是31% ~ 37%,因为37% 同时存在两个信赖区间,所以在误差范围内

其实错误很明显

  1. 这两个都是估计值,没有真实值
  2. 如果要满足A - B > 6% 的话,机率远低于5%,假设为常态分布的话,A < 37% 为2.5%,B > 37% 为2.5%,同时满足还要相乘,已经不符合一开始的95% 的信心水准下的前提了

所以到底该怎么算?

其实这次的争执国民党和民众党算法不一样,国民党比较的是「侯柯」和「柯侯」的支持度,民众党比较的是「侯柯和赖萧」和「柯侯和赖萧」的差距,但不管是哪一种,比的都是两个估计值之间的差距

先声明以下的计算都是国民党版本「侯柯」和「柯侯」的支持度,因为民众党的算法会更复杂,饶了我这个十几年没碰统计的人吧.. Orz

「侯柯 vs 柯侯」 和 「侯 vs 柯」 误差范围不同

在开始计算之前先请大家想一下「侯柯 vs 柯侯」 和 「侯 vs 柯」,先不考虑谁比较高,大家认为哪一个差距会比较大?

这个应该很直觉「侯vs 柯」差距会比较大,其实统计已经把这个考虑进去了,「侯vs 柯」和「侯柯vs 柯侯」误差范围是不一样的,「侯vs 柯」会较大,为什么?

正确的算法应该是计算两个估计值之间的差距是否显著,我们来计算一下差距的变异数和标准差

公式:

Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5

其中 rho_{X,Y} 是 X,Y 的相关系数

好啦,我知道大家不想看数学公式,所以我直接把结果计算出来了,为了方便理解起见,我仍然用的是原来 1068 份样本的版本

相关系数误差范围 
-12 * 3% = 6%
02 \sqrt{2} * 3% = 4.24%
0.51 * 3% = 3%
10%

误差范围会介于 0%~6%,重点在相关系数

什么是相关系数?

简单来说就是两者之间相关的程度,这个值介于-1 到1 之间,只要有raw data 的数据,是可以算的出来的,不过这次并没有公布,我们先来看几个极端值和特殊值

完全负相关,相关系数 -1

什么叫完全负相关,简单说就是非A即B,非黑即白,如果把「侯柯vs 柯侯」印在同一张选票上,然后只能选一个,而且一定要选一个,相关系数就会是-1,做出来的结果就会是80% : 20%、55% : 45% 这样的数据

在这个前提下,误差范围就是 6%,假设柯侯大于 53%,这时侯柯一定小于 47%,我们就可以认定两者有显著差异,国民党的说法仅适用这种情况

完全正相关,相关系数 1

什么叫完全正相关,简单说A就是B,如果把「侯柯、柯侯」印在同一张选票上,两者为复选题,投侯柯的选民都会投柯侯,投柯侯的选民也都会投侯柯, 这时侯柯和柯侯的支持度相等,误差范围为 0%

独立事件,相关系数为 0

简单说就是投侯柯和投柯侯是独立事件,彼此完全不相关,这时的误差范围为 4.24%

所以到底是 5:1 还是 3:3

其实把 raw data 公布出来,直接计算就知道了,我一直不懂为什么不做这个动作

不过以经验法则「侯柯、柯侯」在蓝白选民还没吵翻之前一定是高度正相关,也就是支持侯柯的人大部份都支持柯侯,同时支持柯侯的人也大部份支持侯柯 (吵翻后就不一定了),合理估计在0.6~0.8 之间,很难低于0.5,这样的话误差范围不仅不会是6%,还会小于3%,结果就会是3:3

结论

  • 以上的计算为国民党版本「侯柯 vs 柯侯」的计算,不考虑赖萧的对比
  • 这题有标准答案,但真正的结果需要 raw data 的相关系数资料
  • 在假设相关系数大于0.5的前提下,结果为 3:3

再打一支预防针,我只是统计系毕业,但是十几年没碰统计的人,不是什么统计专家,如果有算错的话,批小一点,麻烦留言给我知道

然后我不相信连我都会的东西,两个政党的统计专家会不懂?请让政治归政治,不要让正在学统计和教统计的人无所适从

版权声明


這是 google 廣告