该让3%还是6%?用白话文解释统计的误差范围
最近最热门的话大概就是蓝白合到底该让3%还是6%,统计就是统计,明明就该是要有标准答案,为什么会让两边的「统计专家」吵不出结论?
因为我是统计系毕业的,坦白说快被朋友问的烦死了,每一个人问就要解释一遍,加上又不好解释,决定直接写一篇文章来说明。我会尽量的减少数学公式,用白话文来说明谁对谁错
先打个预防针,虽然我是统计系毕业的,但毕业没碰统计十几年了,可能有些专用名词会用词不太精准,如果有错误也麻烦留言反应给我知道
误差范围就是 ±3% 吗?
这个问题比较单纯:不是
,误差范围会随着样本大小改变
对民调有点概念的都听过 1068 份样本,误差范围 ±3% 这个数字,我们先来看这个数字怎么来的
公式:在 95% 的信心水准下
在一般情况下,p 会简化为 0.5,当 n = 1068 时,误差为 ±3%,而当 n = 3000 时,误差会降低为 ±1.79%
所以当 n (样本数) 愈大,moe (误差范围) 就会愈小
这里有一个重点叫 在 95% 的信心水准下
,这关系到公式中的 1.96,不想复杂化,直接列表
信心水准 | |
---|---|
90% | 1.645 |
95% | 1.96 |
99% | 2.575 |
一般统计会用就是 90%,95%,99% 三种信心水准,信心水准愈高,误差范围愈大
这次的蓝白合的第一个问题就是没有提到信心水准
,不过以他们的数字很明显信心水准指的是 95%
误差范围 ±3% 指的是真实值和估计值的误差
同样以民调为例,有一个真实的得票率(现在不知道,要等明年的1月13日才知道),所以我们透过抽样预估出一个估计值,比较这个真实值和估计值用的就是这个±3% 误差范围
什么叫在95% 的信心水准下,误差范围为±3%
,可以不精准的解释为假设估计值为40%,则真实值有95% 的机率会落在37% ~ 43% 之间(37% ~ 43% 称为信赖区间),至于5% 会小于37% 或大于43% 则被我们容许,因为抽样本来就不会完全正确
为什么国民党的算法一定是错的?
国民党的说法是假设A 是40%,B 是34%,则A 的信赖区间是37% ~ 43%, B 的信赖区间是31% ~ 37%,因为37% 同时存在两个信赖区间,所以在误差范围内
其实错误很明显
- 这两个都是估计值,没有真实值
- 如果要满足A - B > 6% 的话,
机率远低于5%
,假设为常态分布的话,A < 37% 为2.5%,B > 37% 为2.5%,同时满足还要相乘,已经不符合一开始的95% 的信心水准下
的前提了
所以到底该怎么算?
其实这次的争执国民党和民众党算法不一样,国民党比较的是「侯柯」和「柯侯」的支持度,民众党比较的是「侯柯和赖萧」和「柯侯和赖萧」的差距,但不管是哪一种,比的都是两个估计值之间的差距
先声明以下的计算都是国民党版本「侯柯」和「柯侯」的支持度
,因为民众党的算法会更复杂,饶了我这个十几年没碰统计的人吧.. Orz
「侯柯 vs 柯侯」 和 「侯 vs 柯」 误差范围不同
在开始计算之前先请大家想一下「侯柯 vs 柯侯」 和 「侯 vs 柯」,先不考虑谁比较高,大家认为哪一个差距会比较大?
这个应该很直觉「侯vs 柯」差距会比较大,其实统计已经把这个考虑进去了,「侯vs 柯」和「侯柯vs 柯侯」误差范围是不一样的,「侯vs 柯」会较大,为什么?
正确的算法应该是计算两个估计值之间的差距是否显著,我们来计算一下差距的变异数和标准差
公式:
Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5
其中 rho_{X,Y} 是 X,Y 的相关系数
好啦,我知道大家不想看数学公式,所以我直接把结果计算出来了,为了方便理解起见,我仍然用的是原来 1068 份样本的版本
相关系数 | 误差范围 |
---|---|
-1 | 2 * 3% = 6% |
0 | * 3% = 4.24% |
0.5 | 1 * 3% = 3% |
1 | 0% |
误差范围会介于 0%~6%,重点在相关系数
什么是相关系数?
简单来说就是两者之间相关的程度,这个值介于-1 到1 之间,只要有raw data 的数据,是可以算的出来的,不过这次并没有公布,我们先来看几个极端值和特殊值
完全负相关,相关系数 -1
什么叫完全负相关,简单说就是非A即B,非黑即白,如果把「侯柯vs 柯侯」印在同一张选票上,然后只能选一个,而且一定要选一个
,相关系数就会是-1,做出来的结果就会是80% : 20%、55% : 45% 这样的数据
在这个前提下,误差范围就是 6%,假设柯侯大于 53%,这时侯柯一定小于 47%,我们就可以认定两者有显著差异,国民党的说法仅适用这种情况
完全正相 关,相关系数 1
什么叫完全正相关,简单说A就是B,如果把「侯柯、柯侯」印在同一张选票上,两者为复选题,投侯柯的选民都会投柯侯,投柯侯的选民也都会投侯柯, 这时侯柯和柯侯的支持度相等,误差范围为 0%
独立事件,相关系数为 0
简单说就是投侯柯和投柯侯是独立事件,彼此完全不相关,这时的误差范围为 4.24%
所以到底是 5:1 还是 3:3
其实把 raw data 公布出来,直接计算就知道了,我一直不懂为什么不做这个动作
不过以经验法则「侯柯、柯侯」在蓝白选民还没吵翻之前一定是高度正相关,也就是支持侯柯的人大部份都支持柯侯,同时支持柯侯的人也大部份支持侯柯 (吵翻后就不一定了),合理估计在0.6~0.8 之间,很难低于0.5,这样的话误差范围不仅不会是6%,还会小于3%,结果就会是3:3
结论
- 以上的计算为国民党版本「侯柯 vs 柯侯」的计算,不考虑赖萧的对比
- 这题有标准答案,但真正的结果需要 raw data 的相关系数资料
在假设相关系数大于0.5的前提下,结果为 3:3
再打一支预防针,我只是统计系毕业 ,但是十几年没碰统计的人,不是什么统计专家,如果有算错的话,批小一点,麻烦留言给我知道
然后我不相信连我都会的东西,两个政党的统计专家会不懂?请让政治归政治,不要让正在学统计和教统计的人无所适从