该让3%还是6%？用白话文解释统计的误差范围

2023年11月19日 · 10 分钟阅读

Eric Cheng

JAVA 後端工程師

最近最热门的话大概就是蓝白合到底该让3%还是6%，统计就是统计，明明就该是要有标准答案，为什么会让两边的「统计专家」吵不出结论？

因为我是统计系毕业的，坦白说快被朋友问的烦死了，每一个人问就要解释一遍，加上又不好解释，决定直接写一篇文章来说明。我会尽量的减少数学公式，用白话文来说明谁对谁错

先打个预防针，虽然我是统计系毕业的，但毕业没碰统计十几年了，可能有些专用名词会用词不太精准，如果有错误也麻烦留言反应给我知道

误差范围就是 ±3% 吗？

这个问题比较单纯：不是，误差范围会随着样本大小改变

对民调有点概念的都听过 1068 份样本，误差范围 ±3% 这个数字，我们先来看这个数字怎么来的

公式：在 95% 的信心水准下

$moe = 1.96 * \sqrt{p(1-p)/n}$

在一般情况下，p 会简化为 0.5，当 n = 1068 时，误差为 ±3%，而当 n = 3000 时，误差会降低为 ±1.79%

所以当 n (样本数) 愈大，moe (误差范围) 就会愈小

这里有一个重点叫 在 95% 的信心水准下，这关系到公式中的 1.96，不想复杂化，直接列表

信心水准
90%	1.645
95%	1.96
99%	2.575

一般统计会用就是 90%，95%，99% 三种信心水准，信心水准愈高，误差范围愈大

这次的蓝白合的第一个问题就是没有提到信心水准，不过以他们的数字很明显信心水准指的是 95%

误差范围 ±3% 指的是真实值和估计值的误差

同样以民调为例，有一个真实的得票率(现在不知道，要等明年的1月13日才知道)，所以我们透过抽样预估出一个估计值，比较这个真实值和估计值用的就是这个±3% 误差范围

什么叫在95% 的信心水准下，误差范围为±3%，可以不精准的解释为假设估计值为40%，则真实值有95% 的机率会落在37% ~ 43% 之间(37% ~ 43% 称为信赖区间)，至于5% 会小于37% 或大于43% 则被我们容许，因为抽样本来就不会完全正确

为什么国民党的算法一定是错的？

国民党的说法是假设A 是40%，B 是34%，则A 的信赖区间是37% ~ 43%， B 的信赖区间是31% ~ 37%，因为37% 同时存在两个信赖区间，所以在误差范围内

其实错误很明显

这两个都是估计值，没有真实值
如果要满足A - B > 6% 的话，机率远低于5%，假设为常态分布的话，A < 37% 为2.5%，B > 37% 为2.5%，同时满足还要相乘，已经不符合一开始的95% 的信心水准下的前提了

所以到底该怎么算？

其实这次的争执国民党和民众党算法不一样，国民党比较的是「侯柯」和「柯侯」的支持度，民众党比较的是「侯柯和赖萧」和「柯侯和赖萧」的差距，但不管是哪一种，比的都是两个估计值之间的差距

先声明以下的计算都是国民党版本「侯柯」和「柯侯」的支持度，因为民众党的算法会更复杂，饶了我这个十几年没碰统计的人吧.. Orz

「侯柯 vs 柯侯」和「侯 vs 柯」误差范围不同

在开始计算之前先请大家想一下「侯柯 vs 柯侯」和「侯 vs 柯」，先不考虑谁比较高，大家认为哪一个差距会比较大？

这个应该很直觉「侯vs 柯」差距会比较大，其实统计已经把这个考虑进去了，「侯vs 柯」和「侯柯vs 柯侯」误差范围是不一样的，「侯vs 柯」会较大，为什么？

正确的算法应该是计算两个估计值之间的差距是否显著，我们来计算一下差距的变异数和标准差

公式：

Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5

其中 rho_{X,Y} 是 X,Y 的相关系数

好啦，我知道大家不想看数学公式，所以我直接把结果计算出来了，为了方便理解起见，我仍然用的是原来 1068 份样本的版本

相关系数	误差范围
-1	2 * 3% = 6%
0	$\sqrt{2}$ * 3% = 4.24%
0.5	1 * 3% = 3%
1	0%

误差范围会介于 0%~6%，重点在相关系数

什么是相关系数？

简单来说就是两者之间相关的程度，这个值介于-1 到1 之间，只要有raw data 的数据，是可以算的出来的，不过这次并没有公布，我们先来看几个极端值和特殊值

完全负相关，相关系数 -1

什么叫完全负相关，简单说就是非A即B，非黑即白，如果把「侯柯vs 柯侯」印在同一张选票上，然后只能选一个，而且一定要选一个，相关系数就会是-1，做出来的结果就会是80% : 20%、55% : 45% 这样的数据

在这个前提下，误差范围就是 6%，假设柯侯大于 53%，这时侯柯一定小于 47%，我们就可以认定两者有显著差异，国民党的说法仅适用这种情况

完全正相关，相关系数 1

什么叫完全正相关，简单说A就是B，如果把「侯柯、柯侯」印在同一张选票上，两者为复选题，投侯柯的选民都会投柯侯，投柯侯的选民也都会投侯柯，这时侯柯和柯侯的支持度相等，误差范围为 0%

独立事件，相关系数为 0

简单说就是投侯柯和投柯侯是独立事件，彼此完全不相关，这时的误差范围为 4.24%

所以到底是 5:1 还是 3:3

其实把 raw data 公布出来，直接计算就知道了，我一直不懂为什么不做这个动作

不过以经验法则「侯柯、柯侯」在蓝白选民还没吵翻之前一定是高度正相关，也就是支持侯柯的人大部份都支持柯侯，同时支持柯侯的人也大部份支持侯柯 (吵翻后就不一定了)，合理估计在0.6~0.8 之间，很难低于0.5，这样的话误差范围不仅不会是6%，还会小于3%，结果就会是3:3

结论

以上的计算为国民党版本「侯柯 vs 柯侯」的计算，不考虑赖萧的对比
这题有标准答案，但真正的结果需要 raw data 的相关系数资料
在假设相关系数大于0.5的前提下，结果为 3:3

再打一支预防针，我只是统计系毕业，但是十几年没碰统计的人，不是什么统计专家，如果有算错的话，批小一点，麻烦留言给我知道

然后我不相信连我都会的东西，两个政党的统计专家会不懂？请让政治归政治，不要让正在学统计和教统计的人无所适从

版权声明

，转载请注明出处
本文键接: https://tech.havocfuture.tw/zh-hans/blog/statistics-margin-of-error

這是 google 廣告

误差范围就是 ±3% 吗？​

误差范围 ±3% 指的是真实值和估计值的误差​

为什么国民党的算法一定是错的？​

所以到底该怎么算？​

「侯柯 vs 柯侯」 和 「侯 vs 柯」 误差范围不同​

误差范围会介于 0%~6%，重点在相关系数​

什么是相关系数？​

完全负相关，相关系数 -1​

完全正相关，相关系数 1​

独立事件，相关系数为 0​

所以到底是 5:1 还是 3:3​

结论​

版权声明

误差范围就是 ±3% 吗？

误差范围 ±3% 指的是真实值和估计值的误差

为什么国民党的算法一定是错的？

所以到底该怎么算？

「侯柯 vs 柯侯」和「侯 vs 柯」误差范围不同

误差范围会介于 0%~6%，重点在相关系数

什么是相关系数？

完全负相关，相关系数 -1

完全正相关，相关系数 1

独立事件，相关系数为 0

所以到底是 5:1 还是 3:3

结论