要特別小心「小數法則」 不要片面下定論

當你解讀資訊時,你應該注意一個會引起各種麻煩的基本錯誤,那就是過分誇大一個小樣本造成的結果。

即使在一個執行完善的實驗中,例如政治民調,你也無法期待根據一個小樣本,就能得到一個好的推估結果。這種謬誤有時被稱為小數法則(law of small numbers),本節將對它進行更詳細的探討。這個名字源於一個有效的統計概念,叫作「大數法則」(law of large numbers),它指出樣本越大,平均結果就會越接近真實的平均值。

圖5-9就顯示了這一點。每一條線代表不同的連續拋硬幣序列,並顯示每個序列出現正面的百分比,從第一次拋硬幣至第五百次的變化。請注意這些曲線在開始時,或許偏離五○%的標記甚遠,但隨著拋硬幣次數的增加,曲線值就會越來越接近五○%。但即使拋擲到五百次,有些數值仍然與五○%有相當大的距離。

圖5-9 當樣本數越大,就會越接近真實的平均值。圖/采實文化提供
圖5-9 當樣本數越大,就會越接近真實的平均值。圖/采實文化提供

實驗結果趨於一致的速度,要視當時情況而定。我們將在稍後說明,你如何知道你有足夠大的樣本。但現在我們要專注在如果你的樣本太小,會出現什麼問題。

我們首先來看看「賭徒謬誤」(gambler’s fallacy),這是以輪盤玩家而得名,他們認為,輪盤連續出現紅色或黑色時,下次轉的結果將會停止出現同樣顏色。假設你連續看到輪盤轉出十次黑色,那些賭徒謬誤的受害者,就會期待下一次輪盤轉動時會有較高機率出現紅色。但事實上,每次輪盤轉動結果的潛在概率,並沒有改變。如果要讓賭徒謬誤成真,輪盤中就必須有某種糾正力量,讓結果更接近兩色平均出現。但事實並不是如此。

有時候這也稱為「蒙地卡羅謬誤」(Monte Carlo fallacy),因為在一九一三年八月十八日,蒙地卡羅一間賭場的輪盤,曾經出現幾乎不可能的事:連續開出二十六次黑色數字紀錄!在任何二十六次輪盤擲球序列中,發生這種情況的機率只有一億三千七百萬分之一。不過,所有連續擲球二十六次的序列結果,都同樣罕見,只是沒有這麼讓人印象深刻而已。

賭徒謬誤適用於任何有一系列決策的地方,包括法官、貸款人員,甚至棒球裁判的決定。芝加哥大學(University of Chicago)針對從一九八五年至二○一三年難民庇護申請案件做了一份評估報告,發表在《經濟學季刊》(Quarterly Journal of Economics)上,名為〈賭徒謬誤下的決策:難民庇護案法官、貸款人員和棒球裁判的證據〉(Decision-Making Under the Gambler’s Fallacy: Evidence from Asylum Judges, Loan Officers, and Baseball Umpires),這份報告指出,如果法官先前核准了兩個案例,那麼他們核准下一件申請案的可能性將變得較小。這也解釋了當你還是學生,在選擇題連續四次選擇了答案B時,可能會產生的不安感。

隨機資料通常會包含連續出現(streaks)和群集出現(clusters)現象。當你發現,在二十次拋擲硬幣的序列結果中,連續出現四次正面的機率會有五○%,是否感到驚訝?像這種相同資料連續出現的狀況,經常被錯誤解釋為非隨機行為的證據,這種直覺的失敗被稱為「群集錯覺」(clustering illusion)

看看圖5-10這兩張圖片。哪個是隨機生成的?

圖5-10 看似有群集現象的圖片,反而才是隨機產生的。圖/采實文化提供
圖5-10 看似有群集現象的圖片,反而才是隨機產生的。圖/采實文化提供

這些圖片是來自心理學家史迪芬.平克(Steven Pinker)所著的《人性中的良善天使》(The Better Angels of Our Nature)一書。左邊那張看來明顯有群集狀態的圖片,實際上是真正的隨機圖片。右邊那張直覺看來隨機的圖片反而不是,它描繪了紐西蘭威托莫溶洞,洞穴上方螢火蟲所處的位置。這些螢火蟲在爭奪食物時,故意分散開來。

在第二次世界大戰時,倫敦居民試圖找出德國轟炸他們都市的模式。有些人認為某些地區被鎖定成為目標,而其他地區則倖免於難,最後導致一個陰謀論,就是在倫敦某些同情德國人的地區,並沒有受到炸彈攻擊。然而,統計分析顯示,沒有證據支持轟炸事件是非隨機的說法。

不必然和不可能,兩者不該混為一談。如果機會足夠,即使罕見的事件也會發生。有些人確實會中樂透,而有些人也確實會被閃電擊中。在一個擁有七十億人口的星球上,百萬分之一機率的事件仍然會經常發生。

在美國,公共衛生官員每年受理調查一千多件疑似集體罹患癌症的案例。儘管歷史上確實有因暴露於工業毒素而引發的集體罹癌事件,但絕大多數這些通報案例,都是偶發的單獨事件,美國有超過四十萬間企業擁有五十名以上的員工,對少數人罹患相同的重大疾病來說,機會是相當大的。

了解賭徒謬誤後,你不該總是期待,短期結果能符合長期期望。反之亦然,你也不應該把長期期望建立在小規模的短期結果上。

你可能知道二年級症候群(sophomore slump)這個片語,它描述的狀況是例如當一個樂團的首張專輯獲得好評,但第二張專輯卻沒有這麼受歡迎,或者當一個棒球員擁有了表現優異的新秀賽季,但他第二年的平均打點卻沒有這麼讓人印象深刻。在這些情況下,你可能會認為,這一定有某種心理學上的解釋,比如在成功的壓力下崩潰。但在大多數情況下,真正的原因純粹只是數學上的,可以透過一個叫作「平均數迴歸」(regression to the mean)的模式來解釋。

平均數(mean)就是平均值(average)的另一個說法,平均數迴歸解釋了為什麼極端事件之後,通常會出現較為典型的現象,也就是迴歸到更接近預期的平均數。舉例來說,大家不會預期一個打破紀錄的跑者,在下一場比賽時再度打破紀錄,而是預期他會有稍微不那麼讓人印象深刻的表現。這是因為重複發生罕見結果的機率,就像第一次發生罕見結果同樣罕見,所以不應該預期下一次會再度出現。

重點在於你永遠不應該假設,基於一個小群組的觀察結果就是典型的標準結果。它既不能代表另一個小群組的觀察結果,也不能代表更大群組的觀察結果。就像軼事證據一樣,一個小樣本所能告訴你的,除了它是可能的結果之一,幾乎就沒有其他價值了。雖然第一印象可能是準確的,但你應該持懷疑的態度來對待它們。更多的資料將能幫助你辨別,什麼是可能的,與什麼是異常的。

超級思維:跨界、跨域、跨能,突破思考盲點,提升解決能力的心智模式大全

(本文摘自蓋布瑞.溫伯格、蘿倫.麥著《超級思維:跨界、跨域、跨能,突破思考盲點,提升解決能力的心智模式大全》,采實文化提供)


延伸閱讀

楊斯棓:勤讀萬維鋼 學習高手思維

人體喜歡折騰?反脆弱式學習養生法

為什麼要畫心智圖? 最正確用法其實是這個