該讓3%還是6%?用白話文解釋統計的誤差範圍
最近最熱門的話大概就是藍白合到底該讓3%還是6%,統計就是統計,明明就該是要有標準答案,為什麼會讓兩邊的「統計專家」吵不出結論?
因為我是統計系畢業的,坦白說快被朋友問的煩死了,每一個人問就要解釋一遍,加上又不好解釋,決定直接寫一篇文章來說明。我會儘量的減少數學公式,用白話文來說明誰對誰錯
先打個預防針,雖然我是統計系畢業的,但畢業沒碰統計十幾年了,可能有些專用名詞會用詞不太精準,如果有錯誤也麻煩留言反應給我知道
誤差範圍就是 ±3% 嗎?
這個問題比較單純:不是
,誤差範圍會隨著樣本大小改變
對民調有點概念的都聽過 1068 份樣本,誤差範圍 ±3% 這個數字,我們先來看這個數字怎麼來的
公式:在 95% 的信心水準下
在一般情況下,p 會簡化為 0.5,當 n = 1068 時,誤差為 ±3%,而當 n = 3000 時,誤差會降低為 ±1.79%
所以當 n (樣本數) 愈大,moe (誤差範圍) 就會愈小
這裏有一個重點叫 在 95% 的信心水準下
,這關係到公式中的 1.96,不想複雜化,直接列表
信心水準 | |
---|---|
90% | 1.645 |
95% | 1.96 |
99% | 2.575 |
一般統計會用就是 90%,95%,99% 三種信心水準 ,信心水準愈高,誤差範圍愈大
這次的藍白合的第一個問題就是沒有提到信心水準
,不過以他們的數字很明顯信心水準指的是 95%
誤差範圍 ±3% 指的是真實值和估計值的誤差
同樣以民調為例,有一個真實的得票率(現在不知道,要等明年的1月13日才知道),所以我們透過抽樣預估出一個估計值,比較這個真實值和估計值用的就是這個 ±3% 誤差範圍
什麼叫 在 95% 的信心水準下,誤差範圍為 ±3%
,可以不精準的解釋為假設估計值為 40%,則真實值有 95% 的機率會落在 37% ~ 43% 之間 (37% ~ 43% 稱為信賴區間),至於 5% 會小於 37% 或大於 43% 則被我們容許,因為抽樣本來就不會完全正確
為什麼國民黨的算法一定是錯的?
國民黨的說法是假設 A 是 40%,B 是 34%,則 A 的信賴區間是 37% ~ 43%, B 的信賴區間是 31% ~ 37%,因為 37% 同時存在兩個信賴區間,所以在誤差範圍內
其實錯誤很明顯
- 這兩個都是估計值,沒有真實值
- 如果要滿足 A - B > 6% 的話,
機率遠低於 5%
,假設為常態分佈的話,A < 37% 為 2.5%,B > 37% 為 2.5%,同時滿足還要相乘,已經不符合一開始的95% 的信心水準下
的前提了