跳至主要内容

該讓3%還是6%?用白話文解釋統計的誤差範圍

· 10 分鐘閱讀
Eric Cheng
Eric Cheng
JAVA 後端工程師

最近最熱門的話大概就是藍白合到底該讓3%還是6%,統計就是統計,明明就該是要有標準答案,為什麼會讓兩邊的「統計專家」吵不出結論?

因為我是統計系畢業的,坦白說快被朋友問的煩死了,每一個人問就要解釋一遍,加上又不好解釋,決定直接寫一篇文章來說明。我會儘量的減少數學公式,用白話文來說明誰對誰錯

先打個預防針,雖然我是統計系畢業的,但畢業沒碰統計十幾年了,可能有些專用名詞會用詞不太精準,如果有錯誤也麻煩留言反應給我知道

誤差範圍就是 ±3% 嗎?

這個問題比較單純:不是,誤差範圍會隨著樣本大小改變

對民調有點概念的都聽過 1068 份樣本,誤差範圍 ±3% 這個數字,我們先來看這個數字怎麼來的

公式:在 95% 的信心水準下

moe=1.96p(1p)/nmoe = 1.96 * \sqrt{p(1-p)/n}

在一般情況下,p 會簡化為 0.5,當 n = 1068 時,誤差為 ±3%,而當 n = 3000 時,誤差會降低為 ±1.79%

所以當 n (樣本數) 愈大,moe (誤差範圍) 就會愈小

這裏有一個重點叫 在 95% 的信心水準下,這關係到公式中的 1.96,不想複雜化,直接列表

信心水準 
90%1.645
95%1.96
99%2.575

一般統計會用就是 90%,95%,99% 三種信心水準,信心水準愈高,誤差範圍愈大

這次的藍白合的第一個問題就是沒有提到信心水準,不過以他們的數字很明顯信心水準指的是 95%

誤差範圍 ±3% 指的是真實值和估計值的誤差

同樣以民調為例,有一個真實的得票率(現在不知道,要等明年的1月13日才知道),所以我們透過抽樣預估出一個估計值,比較這個真實值和估計值用的就是這個 ±3% 誤差範圍

什麼叫 在 95% 的信心水準下,誤差範圍為 ±3%,可以不精準的解釋為假設估計值為 40%,則真實值有 95% 的機率會落在 37% ~ 43% 之間 (37% ~ 43% 稱為信賴區間),至於 5% 會小於 37% 或大於 43% 則被我們容許,因為抽樣本來就不會完全正確

為什麼國民黨的算法一定是錯的?

國民黨的說法是假設 A 是 40%,B 是 34%,則 A 的信賴區間是 37% ~ 43%, B 的信賴區間是 31% ~ 37%,因為 37% 同時存在兩個信賴區間,所以在誤差範圍內

其實錯誤很明顯

  1. 這兩個都是估計值,沒有真實值
  2. 如果要滿足 A - B > 6% 的話,機率遠低於 5%,假設為常態分佈的話,A < 37% 為 2.5%,B > 37% 為 2.5%,同時滿足還要相乘,已經不符合一開始的95% 的信心水準下的前提了

所以到底該怎麼算?

其實這次的爭執國民黨和民眾黨算法不一樣,國民黨比較的是「侯柯」和「柯侯」的支持度,民眾黨比較的是「侯柯和賴蕭」和「柯侯和賴蕭」的差距,但不管是哪一種,比的都是兩個估計值之間的差距

先聲明以下的計算都是國民黨版本「侯柯」和「柯侯」的支持度,因為民眾黨的算法會更複雜,饒了我這個十幾年沒碰統計的人吧.. Orz

「侯柯 vs 柯侯」 和 「侯 vs 柯」 誤差範圍不同

在開始計算之前先請大家想一下「侯柯 vs 柯侯」 和 「侯 vs 柯」,先不考慮誰比較高,大家認為哪一個差距會比較大?

這個應該很直覺「侯 vs 柯」差距會比較大,其實統計已經把這個考慮進去了,「侯 vs 柯」和「侯柯 vs 柯侯」誤差範圍是不一樣的,「侯 vs 柯」會較大,為什麼?

正確的算法應該是計算兩個估計值之間的差距是否顯著,我們來計算一下差距的變異數和標準差

公式:

Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5

其中 rho_{X,Y} 是 X,Y 的相關係數

好啦,我知道大家不想看數學公式,所以我直接把結果計算出來了,為了方便理解起見,我仍然用的是原來 1068 份樣本的版本

相關係數誤差範圍 
-12 * 3% = 6%
02 \sqrt{2} * 3% = 4.24%
0.51 * 3% = 3%
10%

誤差範圍會介於 0%~6%,重點在相關係數

什麼是相關係數?

簡單來說就是兩者之間相關的程度,這個值介於 -1 到 1 之間,只要有 raw data 的數據,是可以算的出來的,不過這次並沒有公佈,我們先來看幾個極端值和特殊值

完全負相關,相關係數 -1

什麼叫完全負相關,簡單說就是非A即B,非黑即白,如果把「侯柯 vs 柯侯」印在同一張選票上,然後只能選一個,而且一定要選一個,相關係數就會是 -1,做出來的結果就會是 80% : 20%、55% : 45% 這樣的數據

在這個前提下,誤差範圍就是 6%,假設柯侯大於 53%,這時侯柯一定小於 47%,我們就可以認定兩者有顯著差異,國民黨的說法僅適用這種情況

完全正相關,相關係數 1

什麼叫完全正相關,簡單說A就是B,如果把「侯柯、柯侯」印在同一張選票上,兩者為複選題,投侯柯的選民都會投柯侯,投柯侯的選民也都會投侯柯, 這時侯柯和柯侯的支持度相等,誤差範圍為 0%

獨立事件,相關係數為 0

簡單說就是投侯柯和投柯侯是獨立事件,彼此完全不相關,這時的誤差範圍為 4.24%

所以到底是 5:1 還是 3:3

其實把 raw data 公佈出來,直接計算就知道了,我一直不懂為什麼不做這個動作

不過以經驗法則「侯柯、柯侯」在藍白選民還沒吵翻之前一定是高度正相關,也就是支持侯柯的人大部份都支持柯侯,同時支持柯侯的人也大部份支持侯柯 (吵翻後就不一定了),合理估計在 0.6~0.8 之間,很難低於 0.5,這樣的話誤差範圍不僅不會是 6%,還會小於 3%,結果就會是 3:3

結論

  • 以上的計算為國民黨版本「侯柯 vs 柯侯」的計算,不考慮賴蕭的對比
  • 這題有標準答案,但真正的結果需要 raw data 的相關係數資料
  • 在假設相關係數大於0.5的前提下,結果為 3:3

再打一支預防針,我只是統計系畢業,但是十幾年沒碰統計的人,不是什麼統計專家,如果有算錯的話,批小一點,麻煩留言給我知道

然後我不相信連我都會的東西,兩個政黨的統計專家會不懂?請讓政治歸政治,不要讓正在學統計和教統計的人無所適從



版權聲明


這是 google 廣告