该让3%还是6%?用白话文解释统计的误差范围
最近最热门的话大概就是蓝白合到底该让3%还是6%,统计就是统计,明明就该是要有标准答案,为什么会让两边的「统计专家」吵不出结论?
因为我是统计系毕业的,坦白说快被朋友问的烦死了,每一个人问就要解释一遍,加上又不好解释,决定直接写一篇文章来说明。我会尽量的减少数学公式,用白话文来说明谁对谁错
先打个预防针,虽然我是统计系毕业的,但毕业没碰统计十几年了,可能有些专用名词会用词不太精准,如果有错误也麻烦留言反应给我知道
误差范围就是 ±3% 吗?
这个问题比较单纯:不是
,误差范围会随着样本大小改变
对民调有点概念的都听过 1068 份样本,误差范围 ±3% 这个数字,我们先来看这个数字怎么来的
公式:在 95% 的信心水准下
在一般情况下,p 会简化为 0.5,当 n = 1068 时,误差为 ±3%,而当 n = 3000 时,误差会降低为 ±1.79%
所以当 n (样本数) 愈大,moe (误差范围) 就会愈小
这里有一个重点叫 在 95% 的信心水准下
,这关系到公式中的 1.96,不想复杂化,直接列表
信心水准 | |
---|---|
90% | 1.645 |
95% | 1.96 |
99% | 2.575 |
一般统计会用就是 90%,95%,99% 三种信心水准,信心水准愈高,误差范围愈大
这次的蓝白合的第一个问题就是没有提到信心水准
,不过以他们的数字很明显信心水准指的是 95%
误差范围 ±3% 指的是真实值和估计值的误差
同样以民调为例,有一个真实的得票率(现在不知道,要等明年的1月13日才知道),所以我们透过抽样预估出一个估计值,比较这个真实值和估计值用的就是这个±3% 误差范围
什么叫在95% 的信心水准下,误差范围为±3%
,可以不精准的解释为假设估计值为40%,则真实值有95% 的机率会落在37% ~ 43% 之间(37% ~ 43% 称为信赖区间),至于5% 会小于37% 或大于43% 则被我们容许,因为抽样本来就不会完全正确
为什么国民党的算法一定是错的?
国民党的说法是假设A 是40%,B 是34%,则A 的信赖区间是37% ~ 43%, B 的信赖区间是31% ~ 37%,因为37% 同时存在两个信赖区间,所以在误差范围内
其实错误很明显
- 这两个都是估计值,没有真实值
- 如果要满足A - B > 6% 的话,
机率远低于5%
,假设为常态分布的话,A < 37% 为2.5%,B > 37% 为2.5%,同时满足还要相乘,已经不符合一开始的95% 的信心水准下
的前提了
所以 到底该怎么算?
其实这次的争执国民党和民众党算法不一样,国民党比较的是「侯柯」和「柯侯」的支持度,民众党比较的是「侯柯和赖萧」和「柯侯和赖萧」的差距,但不管是哪一种,比的都是两个估计值之间的差距
先声明以下的计算都是国民党版本「侯柯」和「柯侯」的支持度
,因为民众党的算法会更复杂,饶了我这个十几年没碰统计的人吧.. Orz
「侯柯 vs 柯侯」 和 「侯 vs 柯」 误差范围不同
在开始计算之前先请大家想一下「侯柯 vs 柯侯」 和 「侯 vs 柯」,先不考虑谁比较高,大家认为哪一个差距会比较大?
这个应该很直觉「侯vs 柯」差距会比较大,其实统计已经把这个考虑进去了,「侯vs 柯」和「侯柯vs 柯侯」误差范围是不一样的,「侯vs 柯」会较大,为什么?
正确的算法应该是计算两个估计值之间的差距是否显著,我们来计算一下差距的变异数和标准差
公式:
Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5