該讓3%還是6%？用白話文解釋統計的誤差範圍

2023年11月19日 · 10 分鐘閱讀

Eric Cheng

JAVA 後端工程師

最近最熱門的話大概就是藍白合到底該讓3%還是6%，統計就是統計，明明就該是要有標準答案，為什麼會讓兩邊的「統計專家」吵不出結論？

因為我是統計系畢業的，坦白說快被朋友問的煩死了，每一個人問就要解釋一遍，加上又不好解釋，決定直接寫一篇文章來說明。我會儘量的減少數學公式，用白話文來說明誰對誰錯

先打個預防針，雖然我是統計系畢業的，但畢業沒碰統計十幾年了，可能有些專用名詞會用詞不太精準，如果有錯誤也麻煩留言反應給我知道

誤差範圍就是 ±3% 嗎？

這個問題比較單純：不是，誤差範圍會隨著樣本大小改變

對民調有點概念的都聽過 1068 份樣本，誤差範圍 ±3% 這個數字，我們先來看這個數字怎麼來的

公式：在 95% 的信心水準下

$moe = 1.96 * \sqrt{p(1-p)/n}$

在一般情況下，p 會簡化為 0.5，當 n = 1068 時，誤差為 ±3%，而當 n = 3000 時，誤差會降低為 ±1.79%

所以當 n (樣本數) 愈大，moe (誤差範圍) 就會愈小

這裏有一個重點叫 在 95% 的信心水準下，這關係到公式中的 1.96，不想複雜化，直接列表

信心水準
90%	1.645
95%	1.96
99%	2.575

一般統計會用就是 90%，95%，99% 三種信心水準，信心水準愈高，誤差範圍愈大

這次的藍白合的第一個問題就是沒有提到信心水準，不過以他們的數字很明顯信心水準指的是 95%

誤差範圍 ±3% 指的是真實值和估計值的誤差

同樣以民調為例，有一個真實的得票率(現在不知道，要等明年的1月13日才知道)，所以我們透過抽樣預估出一個估計值，比較這個真實值和估計值用的就是這個 ±3% 誤差範圍

什麼叫 在 95% 的信心水準下，誤差範圍為 ±3%，可以不精準的解釋為假設估計值為 40%，則真實值有 95% 的機率會落在 37% ~ 43% 之間 (37% ~ 43% 稱為信賴區間)，至於 5% 會小於 37% 或大於 43% 則被我們容許，因為抽樣本來就不會完全正確

為什麼國民黨的算法一定是錯的？

國民黨的說法是假設 A 是 40%，B 是 34%，則 A 的信賴區間是 37% ~ 43%， B 的信賴區間是 31% ~ 37%，因為 37% 同時存在兩個信賴區間，所以在誤差範圍內

其實錯誤很明顯

這兩個都是估計值，沒有真實值
如果要滿足 A - B > 6% 的話，機率遠低於 5%，假設為常態分佈的話，A < 37% 為 2.5%，B > 37% 為 2.5%，同時滿足還要相乘，已經不符合一開始的95% 的信心水準下的前提了

所以到底該怎麼算？

其實這次的爭執國民黨和民眾黨算法不一樣，國民黨比較的是「侯柯」和「柯侯」的支持度，民眾黨比較的是「侯柯和賴蕭」和「柯侯和賴蕭」的差距，但不管是哪一種，比的都是兩個估計值之間的差距

先聲明以下的計算都是國民黨版本「侯柯」和「柯侯」的支持度，因為民眾黨的算法會更複雜，饒了我這個十幾年沒碰統計的人吧.. Orz

「侯柯 vs 柯侯」和「侯 vs 柯」誤差範圍不同

在開始計算之前先請大家想一下「侯柯 vs 柯侯」和「侯 vs 柯」，先不考慮誰比較高，大家認為哪一個差距會比較大？

這個應該很直覺「侯 vs 柯」差距會比較大，其實統計已經把這個考慮進去了，「侯 vs 柯」和「侯柯 vs 柯侯」誤差範圍是不一樣的，「侯 vs 柯」會較大，為什麼？

正確的算法應該是計算兩個估計值之間的差距是否顯著，我們來計算一下差距的變異數和標準差

公式：

Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5

其中 rho_{X,Y} 是 X,Y 的相關係數

好啦，我知道大家不想看數學公式，所以我直接把結果計算出來了，為了方便理解起見，我仍然用的是原來 1068 份樣本的版本

相關係數	誤差範圍
-1	2 * 3% = 6%
0	$\sqrt{2}$ * 3% = 4.24%
0.5	1 * 3% = 3%
1	0%

誤差範圍會介於 0%~6%，重點在相關係數

什麼是相關係數？

簡單來說就是兩者之間相關的程度，這個值介於 -1 到 1 之間，只要有 raw data 的數據，是可以算的出來的，不過這次並沒有公佈，我們先來看幾個極端值和特殊值

完全負相關，相關係數 -1

什麼叫完全負相關，簡單說就是非A即B，非黑即白，如果把「侯柯 vs 柯侯」印在同一張選票上，然後只能選一個，而且一定要選一個，相關係數就會是 -1，做出來的結果就會是 80% : 20%、55% : 45% 這樣的數據

在這個前提下，誤差範圍就是 6%，假設柯侯大於 53%，這時侯柯一定小於 47%，我們就可以認定兩者有顯著差異，國民黨的說法僅適用這種情況

完全正相關，相關係數 1

什麼叫完全正相關，簡單說A就是B，如果把「侯柯、柯侯」印在同一張選票上，兩者為複選題，投侯柯的選民都會投柯侯，投柯侯的選民也都會投侯柯，這時侯柯和柯侯的支持度相等，誤差範圍為 0%

獨立事件，相關係數為 0

簡單說就是投侯柯和投柯侯是獨立事件，彼此完全不相關，這時的誤差範圍為 4.24%

所以到底是 5:1 還是 3:3

其實把 raw data 公佈出來，直接計算就知道了，我一直不懂為什麼不做這個動作

不過以經驗法則「侯柯、柯侯」在藍白選民還沒吵翻之前一定是高度正相關，也就是支持侯柯的人大部份都支持柯侯，同時支持柯侯的人也大部份支持侯柯 (吵翻後就不一定了)，合理估計在 0.6~0.8 之間，很難低於 0.5，這樣的話誤差範圍不僅不會是 6%，還會小於 3%，結果就會是 3:3

結論

以上的計算為國民黨版本「侯柯 vs 柯侯」的計算，不考慮賴蕭的對比
這題有標準答案，但真正的結果需要 raw data 的相關係數資料
在假設相關係數大於0.5的前提下，結果為 3:3

再打一支預防針，我只是統計系畢業，但是十幾年沒碰統計的人，不是什麼統計專家，如果有算錯的話，批小一點，麻煩留言給我知道

然後我不相信連我都會的東西，兩個政黨的統計專家會不懂？請讓政治歸政治，不要讓正在學統計和教統計的人無所適從

版權聲明

，轉載請註明出處
本文連結: https://tech.havocfuture.tw/blog/statistics-margin-of-error

這是 google 廣告

誤差範圍就是 ±3% 嗎？​

誤差範圍 ±3% 指的是真實值和估計值的誤差​

為什麼國民黨的算法一定是錯的？​

所以到底該怎麼算？​

「侯柯 vs 柯侯」 和 「侯 vs 柯」 誤差範圍不同​

誤差範圍會介於 0%~6%，重點在相關係數​

什麼是相關係數？​

完全負相關，相關係數 -1​

完全正相關，相關係數 1​

獨立事件，相關係數為 0​

所以到底是 5:1 還是 3:3​

結論​

版權聲明

誤差範圍就是 ±3% 嗎？

誤差範圍 ±3% 指的是真實值和估計值的誤差

為什麼國民黨的算法一定是錯的？

所以到底該怎麼算？

「侯柯 vs 柯侯」和「侯 vs 柯」誤差範圍不同

誤差範圍會介於 0%~6%，重點在相關係數

什麼是相關係數？

完全負相關，相關係數 -1

完全正相關，相關係數 1

獨立事件，相關係數為 0

所以到底是 5:1 還是 3:3

結論