投資基金 存在你不知道的「暗數據」

編按:暗數據,相當於宇宙中的暗物質、金融界的「黑池」、網路世界的「暗網」,都是不易察覺的事物,但觀察不到,不代表不存在;而觀察得到的東西,也不等於「全部」,尤其是數據。本文摘自《暗數據:被看到、被聽到、被測量到的,往往不是「真凶」》

DD-T2:我們不知道漏掉的數據特別容易欺人耳目,因為我們通常沒有理由疑心。例如二○一七年十二月廿九日,我在英國《泰晤士報》上讀到,「據警方統計,計程車司機性侵乘客的報案數,三年內增加了五分之一。」我們心裡可能馬上浮現一個直覺的解釋,就是性侵事件增多了。但其實還有另一個可能,跟暗數據有關,那就是性侵發生率沒變,但報案比例提高了。原本隱形的暗數據,可能因為習俗和社會規範改變而浮出水面。這讓我們得到一個教訓:當你見到某個數值因為時間流逝而突然變動,有可能是現實狀況變了,但也可能是蒐集數據的程序改變。這就是第七型暗數據DD-T7:隨時間而異。

DD-T2:我們不知道漏掉的數據和DD-T7:隨時間而異聯手發威,還能找到一個更複雜的例子,就是投資基金。投資基金的母群體是不停變動的,隨時有新基金出現,舊基金消失。不難想見,通常會消失的是表現欠佳的基金,會留下的都是表現好的。因此,如果沒將消失的基金納入考量,那麼表面上看投資基金的平均表現,就相當不壞。

指數代表投資基金的整體或平均表現。雖然個別基金只要表現太差,就會被排除在指數之外,我們還是能回頭找到一些關於這些基金的數據,使得它們從DD-T2:我們不知道漏掉的數據變成DD-T1:我們知道漏掉的數據,進而估算將它們排除在數據之外可能造成的影響。根據艾咪.巴瑞特(Amy Barrett)和布倫特.布羅戴斯基(Brent Brodeski)二○○六年的研究,「將表現最弱的基金從晨星基金數據庫剔除後,〔一九九五年至二○○四年〕十年間的年平均報酬率提高了一.六%。」二○一三年,美國先鋒集團發表一份報告,陶德.史朗格(Todd Schlanger)和克里斯多夫.菲利普斯(Christopher Philips)分別檢視了包含和不包含五年、十年、十五年內下市基金的整體基金表現,結果發現差別大得驚人。排除十五年內下市的基金之後,整體基金的表現幾乎是不排除下市基金的兩倍。這份研究還讓我們看見暗數據的影響幅度:只有五四%的基金熬過十五年沒有下市。

我們比較熟悉的金融指數也有同樣的現象,例如道瓊和標準普爾五百指數皆然。表現欠佳的公司會被這些指數排除在外,因此最終的表現值只包含營運相對出色的公司。若你投資的正好是那些表現不錯的公司,那還無所謂,但若你投資的不是那些公司,影響就大了。由於我們很難(有些人甚至認為不可能)判斷哪些公司會成功、哪些會失敗,使得指數很容易造成誤導。

面對金融指數,除了要小心所謂的倖存者偏誤,還有更複雜的變數。例如,以避險基金來說,表現欠佳的基金當然可能會下市,排除在指數之外,但處於天平另一端的基金也是一樣:表現特優的基金很可能讓新投資者不得其門而入,最後導致這些公司掉出股價指數外。你永遠不知道暗數據會在哪裡作怪。

此外,本書第三章將會提到,根據「均值迴歸」現象,過去表現再好的基金未來仍有可能一敗塗地。換句話說,基金購買者必須非常小心過往績效的評分方式。一如其他行業,投資人必須自問真相是否被隱形的暗數據所掩蓋了。

任何事物只要會隨時間改變,就逃不過倖存者偏誤的威脅。在新創圈裡,雖然大多數新創公司都以失敗告終,但我們聽到的成功故事永遠比失敗故事多。有些研究者認為新創公司的失敗率只有五成,有些則表示高達九九%。當然這要看你抓的時間多長(一年?五十年?)和「失敗」的定義為何而定。就拿社群網站Bebo來說吧。這個二○○五年創立的網站曾是英國最熱門的社群網站,擁有將近一千一百萬用戶。「美國線上」(AOL)二○○八年以八億五千萬美元將它收購,顯示Bebo那三年非常成功。但那之後,Bebo的用戶開始減少,紛紛投向臉書的懷抱,使得美國線上短短兩年後就將它轉賣給克萊特里恩資本公司。後來一次電腦故障重創了Bebo的名聲,最終導致它於二○一三年申請破產保護。同年七月,柏區夫婦(Michael and Xochi Birch)以一百萬美元購回了自己當年創設的公司。所以這算成功還是失敗?雷曼兄弟公司又怎麼說?這家一八五○年創立的公司一路竄升到美國第四大投資銀行,卻在二○○八年破產。它和Bebo一樣死於非命,只是時間更久。這算成功還是失敗?

新創圈的人自然喜歡聽成功故事,而非失敗故事。理由很簡單,因為他們想模仿的是成功,而非失敗。但這裡又牽涉另一型暗數據。創業家應該尋找的是區別成功和失敗的因素,而不是碰巧和成功有關的因素,因為這些因素也可能和失敗有關。而且就算這些因素更常和成功連結,而非失敗,也不保證這樣的關聯就是因果關係。

漫畫網站xkcd有一則關於倖存者偏誤的漫畫。主角建議我們不斷地買樂透,說他自己每次都輸,但還是繼續買,甚至多兼幾份工作來買樂透,最後終於成功了(如果這樣能算「成功」)。只是我們沒看到那些傾家蕩產買樂透,直到離世都沒有中獎的人。

一般而言,行政數據能帶來極大的益處,前提是我們意識到暗數據的風險。不過這事還有不是那麼美好的另一面,讓人更添疑慮。

以個人來說,留存在行政數據庫的數據廢氣是數據殘影(data shadow),是我們傳送電郵或簡訊、在推特貼文、在YouTube留言、刷卡、使用悠遊卡、打電話、更新社群媒體應用程式、登入電腦或iPad、使用提款機、開車經過車牌辨識攝影機留下的細微痕跡。有太多行為會留下數據殘影,而且我們往往毫無警覺。儘管這些數據蒐集起來可能有利於社會,卻也必然會透露我們的許多個人細節、好惡、習慣與行為。和我們有關的數據可能對我們有益,讓我們接觸到可能感興趣的產品和人事物,使得旅遊更簡便、生活各方面更輕鬆,卻也可能用來操弄行為。獨裁政權可以鉅細靡遺地窺知人民的一切,進而施行嚴密監控。其實這是必然的,因為把資料交出去好讓自己得到協助的壞處就是……把資料交出去。

由於民眾對數據殘影的疑慮漸深,不少服務應運而生,幫我們減少數據殘影。以本書的角度來說,就是替數據熄燈,將數據變暗。基本步驟包括停用社群媒體(臉書或推特等)帳號、刪除舊電郵帳戶、清除搜尋紀錄、將無法刪除的帳戶改用假個資(例如假的出生日期或姓氏)、取消訂閱和通知等等。當然,藉由隱藏數據來保護個資也有副作用,就是原本的好處可能會受到損害。畢竟我們得先知道民眾的收入及納稅金額,才能決定誰能減稅。

由少至多

對於我們感興趣的人與事,蒐集所有個體的數據(例如顧客在超市購物所產生的行政數據)是非常強大的工具,可以讓我們取得加深理解、做出更好決策的資訊。但這些數據不一定總能解答我們可能想知道的問題。最明顯的例子就是,能直接解答問題的行政數據集沒辦法自行產生。遇到這種情況,一種作法是使用我們所能找到最接近的數據集,但這樣做有其風險。另一種作法是另起爐灶,直接針對問題對所有個體蒐集數據,也就是進行普查。遺憾的是,普查通常又貴又慢,而且耗費大量時間、金錢,結果延誤了時機,就算得到完美解答也是白費力氣。

暗數據:被看到、被聽到、被測量到的,往往不是「真凶」

(本文摘自大衛‧漢德著《暗數據:被看到、被聽到、被測量到的,往往不是「真凶」》,大塊文化提供)


延伸閱讀

凜冬將至 如何理解明斯基《穩定不穩定的經濟》

當政府成為啟動通貨膨脹的引擎

梁發進:我的老師明斯基 不能被21世紀遺忘的經濟學家