最近最熱門的話大概就是藍白合到底該讓3%還是6%,統計就是統計,明明就該是要有標準答案,為什麼會讓兩邊的「統計專家」吵不出結論?
因為我是統計系畢業的,坦白說快被朋友問的煩死了,每一個人問就要解釋一遍,加上又不好解釋,決定直接寫一篇文章來說明。我會儘量的減少數學公式,用白話文來說明誰對誰錯
先打個預防針,雖然我是統計系畢業的,但畢業沒碰統計十幾年了,可能有些專用名詞會用詞不太精準,如果有錯誤也麻煩留言反應給我知道
誤差範圍就是 ±3% 嗎?
這個問題比較單純:不是
,誤差範圍會隨著樣本大小改變
對民調有點概念的都聽過 1068 份樣本,誤差範圍 ±3% 這個數字,我們先來看這個數字怎麼來的
公式:在 95% 的信心水準下
在一般情況下,p 會簡化為 0.5,當 n = 1068 時,誤差為 ±3%,而當 n = 3000 時,誤差會降低為 ±1.79%
所以當 n (樣本數) 愈大,moe (誤差範圍) 就會愈小
這裏有一個重點叫 在 95% 的信心水準下
,這關係到公式中的 1.96,不想複雜化,直接列表
信心水準 | |
---|---|
90% | 1.645 |
95% | 1.96 |
99% | 2.575 |
一般統計會用就是 90%,95%,99% 三種信心水準,信心水準愈高,誤差範圍愈大
這次的藍白合的第一個問題就是沒有提到信心水準
,不過以他們的數字很明顯信心水準指的是 95%
誤差範圍 ±3% 指的是真實值和估計值的誤差
同樣以民調為例,有一個真實的得票率(現在不知道,要等明年的1月13日才知道),所以我們透過抽樣預估出一個估計值,比較這個真實值和估計值用的就是這個 ±3% 誤差範圍
什麼叫 在 95% 的信心水準下,誤差範圍為 ±3%
,可以不精準的解釋為假設估計值為 40%,則真實值有 95% 的機率會落在 37% ~ 43% 之間 (37% ~ 43% 稱為信賴區間),至於 5% 會小於 37% 或大於 43% 則被我們容許,因為抽樣本來就不會完全正確
為什麼國民黨的算法一定是錯的?
國民黨的說法是假設 A 是 40%,B 是 34%,則 A 的信賴區間是 37% ~ 43%, B 的信賴區間是 31% ~ 37%,因為 37% 同時存在兩個信賴區間,所以在誤差範圍內
其實錯誤很明顯
- 這兩個都是估計值,沒有真實值
- 如果要滿足 A - B > 6% 的話,
機率遠低於 5%
,假設為常態分佈的話,A < 37% 為 2.5%,B > 37% 為 2.5%,同時滿足還要相乘,已經不符合一開始的95% 的信心水準下
的前提了
所以到底該怎麼算?
其實這次的爭執國民黨和民眾黨算法不一樣,國民黨比較的是「侯柯」和「柯侯」的支持度,民眾黨比較的是「侯柯和賴蕭」和「柯侯和賴蕭」的差距,但不管是哪一種,比的都是兩個估計值之間的差距
先聲明以下的計算都是國民黨版本「侯柯」和「柯侯」的支持度
,因為民眾黨的算法會更複雜,饒了我這個十幾年沒碰統計的人吧.. Orz
「侯柯 vs 柯侯」 和 「侯 vs 柯」 誤差範圍不同
在開始計算之前先請大家想一下「侯柯 vs 柯侯」 和 「侯 vs 柯」,先不考慮誰比較高,大家認為哪一個差距會比較大?
這個應該很直覺「侯 vs 柯」差距會比較大,其實統計已經把這個考慮進去了,「侯 vs 柯」和「侯柯 vs 柯侯」誤差範圍是不一樣的,「侯 vs 柯」會較大,為什麼?
正確的算法應該是計算兩個估計值之間的差距是否顯著,我們來計算一下差距的變異數和標準差
公式:
Var(X-Y)=Var(X)+Var(Y)-2rho_{X,Y}*(Var(X)Var(Y))^0.5
其中 rho_{X,Y} 是 X,Y 的相關係數
好啦,我知道大家不想看數學公式,所以我直接把結果計算出來了,為了方便理解起見,我仍然用的是原來 1068 份樣本的版本
相關係數 | 誤差範圍 |
---|---|
-1 | 2 * 3% = 6% |
0 | * 3% = 4.24% |
0.5 | 1 * 3% = 3% |
1 | 0% |
誤差範圍會介於 0%~6%,重點在相關係數
什麼是相關係數?
簡單來說就是兩者之間相關的程度,這個值介於 -1 到 1 之間,只要有 raw data 的數據,是可以算的出來的,不過這次並沒有公佈,我們先來看幾個極端值和特殊值
完全負相關,相關係數 -1
什麼叫完全負相關,簡單說就是非A即B,非黑即白,如果把「侯柯 vs 柯侯」印在同一張選票上, 然後只能選一個,而且一定要選一個
,相關係數就會是 -1,做出來的結果就會是 80% : 20%、55% : 45% 這樣的數據
在這個前提下,誤差範圍就是 6%,假設柯侯大於 53%,這時侯柯一定小於 47%,我們就可以認定兩者有顯著差異,國民黨的說法僅適用這種情況
完全正相關,相關係數 1
什麼叫完全正相關,簡單說A就是B,如果把「侯柯、柯侯」印在同一張選票上,兩者為複選題,投侯柯的選民都會投柯侯,投柯侯的選民也都會投侯柯, 這時侯柯和柯侯的支持度相等,誤差範圍為 0%
獨立事件,相關係數為 0
簡單說就是投侯柯和投柯侯是獨立事件,彼此完全不相關,這時的誤差範圍為 4.24%
所以到底是 5:1 還是 3:3
其實把 raw data 公佈出來,直接計算就知道了,我一直不懂為什麼不做這個動作
不過以經驗法則「侯柯、柯侯」在藍白選民還沒吵翻之前一定是高度正相關,也就是支持侯柯的人大部份都支持柯侯,同時支持柯侯的人也大部份支持侯柯 (吵翻後就不一定了),合理估計在 0.6~0.8 之間,很難低於 0.5,這樣的話誤差範圍不僅不會是 6%,還會小於 3%,結果就會是 3:3
結論
- 以上的計算為國民黨版本「侯柯 vs 柯侯」的計算,不考慮賴蕭的對比
- 這題有標準答案,但真正的結果需要 raw data 的相關係數資料
在假設相關係數大於0.5的前提下,結果為 3:3
再打一支預防針,我只是統計系畢業,但是十幾年沒碰統計的人,不是什麼統計專家,如果有算錯的話,批小一點,麻煩留言給我知道
然後我不相信連我都會的東西,兩個政黨的統計專家會不懂?請讓政治歸政治,不要讓正在學統計和教統計的人無所適從