Apan’s Notes

如果你對統計學有點興趣，可以往下看看這篇文。不知不覺寫得有點長。

故事：「某民調訪問 1000 名受訪者，有 40% 比例的人支持；在 95% 信心水準，抽樣誤差於正負 3.1% 以內。」現實中，民調常常出現相似的句子。我相信很多人看不懂這句話到底是什麼意思，或是誤解了這句話。所以現在來聊聊這到底是什麼鬼好了。

我們先把上面這個故事改成另一種情境好了。

例子：「你有一個大袋子。袋子裡有無數顆球。球只可能是黑色或白色。你希望知道一件事：到底黑球在大袋子中的個數比例是多少。現在，你抽出 1000 顆球，然後你發現有 400 顆是黑球（40%）。在 95% 信心水準，抽樣誤差於正負 3.1% 以內，也就是黑球比例的區間估計是 40% − 3.1% 到 40% + 3.1%。」

如果你可以看出這個例子其實和民調結果的故事是同一件事，那就可以往下看了。

在例子中，每一次調查就是抽出 n 顆球（例子中的 n = 1000）。袋子中黑球的比例，也就是我們希望知道的未知數，我們叫 p 好了。因為球實在太多了，我們不可能知道 p 的大小，只有抽出 n 顆球來估 p 的大小。

在統計學理，我們可以在還沒抽出球之前就預知「每次調查有多準」。什麼叫「有多準」呢？統計學的辦法是決定一個機率和設計一個區間，並估計 p 有多大的機率會座落在這個設計出來的區間之內。如果你每次調查抽出的球數 n 很大很大，那這個區間會很容易計算。

有點難懂？我試著換個方式說。例如，如果我可以做 100 次相同調查，我將會得到 100 個黑球比例和 100 個區間。我可以保證，這 100 次調查中，約有 95 個區間會包括了那個我們不可能知道的 p。這就是「在 95% 信心水準」的實際意義。

你也許會問，可不可能算 100 個區間有 99 個區間會包括 p 的調查？可以，但每個區間大小會變寬（由 ± 3.1% 變成 ± 4.1%），但結果也變得更值得信賴（因為區間將有 99% 的機率可以包括了真實的 p）。

如果你每次抽出更多顆球，那每個區間也都會變窄（因為抽出越多球就準嘛）。例如，每次抽出 5000 顆球，那這個區間大小會由 ± 3.1% 變成 ± 1.4%。

回到原本的例子。如果以相同的調查方法（一樣訪問 1000 名受訪者的情況下），並且重覆很多很多次（當然，實際上只進行了一次）。我們可以保證，那個我們想估計的支持度將座落在 95% 次所算出的區間之內。在故事中，這次調查結果的區間是 40% − 3.1% 到 40% + 3.1%。我們 *永遠不可能* 知道這次得到的區間會不會包括了真實的支持度 p，但它很可能會包括，因為這個調查方法就保證了進行 100 次約有 95 次是成立的。

有些人會把 40% − 3.1% 到 40% + 3.1% 理解成因為調查進行所造成的誤差，例如打錯資料、拒絕受訪、無效結果之類的。這都不是信賴區間的意義。

我並不想把這中間的數學式寫出來啦。只想說個概念。

Apan’s Notes

Pages

An R function: OLS/Robust scaled mass index

R code

R 繪圖：柱狀圖的低階繪圖範例

「在 95% 信心水準，抽樣誤差於正負 3.1% 以內」到底是什麼意思？