從911博物館姓名排列演算法 一窺數據的暗物質

編按:從九一一國家紀念博物館上的姓名排列演算分析,討論數據的社會網絡;深入分析數據蒐集的議題,探究缺失資料的成因與影響,數據蒐集絕非天真無邪。 本文摘自《紐約時報》首位駐點數據藝術家傑爾索普新書 《數據與人性》。

2009 年秋天,我寫了兩個演算法,為曼哈頓九一一國家紀念博物館上的近三千個名字排列位置。這個問題的關鍵在於,如何為這些名字設計出空間布局,以符合紀念館設計師所謂的「有意義的鄰近」。這是依照家屬要求,讓紀念館上的罹難者名字能放在某些罹難者旁邊或盡量靠近,例如手足、母女、生意夥伴或同事。這些連結旨在表示現實世界中的深度鄰近。在理想狀況下,姓名布局要榮耀近一千四百個鄰近關係。

那年 12 月,我飛往紐約,和這個案子的一些利益關係人開會,並展示我開發的演算法結果。我頭髮凌亂、神經緊繃地赴會。之所以一頭亂髮,是因為那天早上在前往紐約拉瓜迪亞機場(LaGuardia Airport)的班機上,我泰半時間是一改再改我的簡報。那麼神經緊繃,是因為前一晚發現另一組團隊也在處理布局的問題:一群金融工程師,幾乎人人都肯定至少有一個博士學位。

這肯定是個奇怪的景象。一小群衣冠楚楚的金融專業人士,與一個來自加拿大、抱著一台破舊筆電的長髮藝術家對坐在桌子兩邊。金融工程師先開口了。他們在伺服器叢集跑了一次又一次置換(permutation,或稱排列),便自信滿滿說已找到相鄰性的最佳解決方案:最多可滿足 93% 的需求。他們要求率先發言,因為想要「幫大家省點時間」,自認就數學上來說,他們已經找到最高度最佳化的解決方案了。

這話聽起來很有說服力。我讓他們說完,然後把螢幕轉過去讓他們瞧瞧我大約一週前就做出來的布局—99.9% 解決了。接下來是很長一段靜默,然後帶領數學家團隊的副總裁打破沉默:「你 !$@% 怎麼做到的?」

我 !$@% 怎麼做到的?當然不是靠著高中數學程度,也不是計算機能力。金融工程師的方法是把姓名布局縮減為一個簡化的模型,運行數百萬次疊代,盡可能涵蓋這個問題的「解空間」(solution space)。我則是盡量考量問題的細微差異。每個人名的長度和間距、字型、周圍矮護牆間約 0.6 公分的伸縮縫—我寫的軟體全考慮到了。這些限制看似會導致更難找到解決方案,最後卻給我的模型一些數學「彈性」,但金融工程師的模型卻很死板。他們的模型是只用四乘二藍色積木堆成的樂高之作;我的則是一堆混亂之物,裡頭有可以填滿不規則縫隙的物件。

我(和金融工程師)學到的一課,是過去十年引導我解決數據問題的方法:別把數據和其所存在的系統視為抽象的,而是要視為真實的事物,具有特殊特質,並要盡力深入理解這些獨特條件。我也從這個案子學到其他事情:留意數據中缺失之物。還有些教訓是過了十年,如今才開始成為關注的焦點。

參加那場紐約會議前幾個月,我坐在溫哥華划船俱樂部小會議室的觀眾席上。那天下雨,雖然會談很有趣,但我還是無精打采,不想跟人搏感情,盯著手機螢幕的時間比看舞台還多。手機其實沒什麼好看的,那時我尚未申請推特帳戶,也沒有臉書應用程式,所以只是一直漫無目的刷著電郵,等待新郵件出現。沒想到,真的有人寄信來。寄件者我不認識,郵件主旨也很平淡(「潛在計畫」),若我當時不是那麼無聊,大概會把這訊息標示為垃圾郵件。

經過兩星期、通了幾次電話之後,一份硬碟送來我位於地下室的公寓,還有以密碼加密的 Microsoft Exchange 資料庫。這怎麼看都不是大數據。這次寄來兩份表格,其中一份約三千列那麼長,另一份長度則是接近一半。第一個表格列出要出現在曼哈頓九一一國家紀念博物館上的每個名字,其中兩千九百七十七人是在 9 月的某個早上遇難,另外六人則是在更早的八年前,於世貿中心地下層的爆炸案中喪生。另一張表格是罹難者近親提出的請求,也就是「有意義相鄰請求」。我隨機剪貼其中的名字到 Google 上。我不確定我選了哪個名字,但我讀到他們的生活,關於他們的工作、家庭、壘球隊,還有佳節派對時總會說的笑話。

接下來的幾個月,只要察覺到自己認為只是處理數據問題時,就會做同樣的事,次數多達數百。我最常搜尋人名的時間點,是在進行空間填充演算法。那部分的程式碼會擷取有連結的姓名叢集,再設法為它們在紀念館的真實布局上找到最佳位置。這是很有趣的計算問題,牽涉到數學、空間,也是多維的。在那些夜裡,我睡覺時眼皮上會出現奇怪的俄羅斯方塊遊戲。在白天,我上 Google 查詢名字的頻率和抽菸休息一樣。喬伊絲.卡本內托(Joyce Carpeneto)。班傑明.克拉克(Benjamin Clark)。上 Google 查詢猶如建造一座堡壘,對抗我用來置放名字,卻缺乏人性的程式碼和抽象圖表。威廉.馬可(William Macko)。努爾.米亞(Nurul H. Miah)。後來,這些名字在我腦海中根深蒂固,等到我開始運用建築師的空間布局工具時,已覺得和許多人很熟悉,知道很多關於他們的故事。馬修.塞利托(Matthew Sellitto)。丹尼爾與約瑟夫.席亞(Daniel and Joseph Shea)。穆罕默德.沙賈漢(Mohammed Shajahan)。黛安.西格納(Dianne T. Signer)和她未出世的孩子。

我只造訪過紀念館兩次。一次是對民眾開放前幾週,然後是 2018 年與我的伴侶和十三歲姪女同行。第一次造訪時,我沿著南池的一處邊緣走,手指描摹著名字。他們又出現了。安東尼.培瑞茲(Anthony Perez)、珊卓拉.坎貝爾(Sandra Campbell)、卡利亞.姆巴亞(Kaaria Mbaya)、哈希姆.帕瑪(Hashmukh Parmar)、尤德維爾.詹恩(Yudhvir Jain)。實在沉重。我暫時離開同行的人,靠著工地鷹架,淚水盈眶。第二次我靠得不夠近,無法閱讀名字。諾拉和奧莉薇亞(Olivia)在水池附近走時,我站在樹下觀看。

紀念館上的姓名刻在一百五十二處沉甸甸的青銅矮護牆上,刻意為整體結構打造出永恆性與完整度,而不凸顯延展性。不過,第二次造訪後,我離開時思考的並非紀念館有什麼,而是少了什麼。成千上萬的紐約人因為恐怖攻擊引發的有毒物質而病故,至今依然如此,他們的名字呢?西薩.波哈(Cesar Borja)、詹姆斯.札卓加(James Zadroga)、馬克.德比亞斯(Mark DeBiase)、貝瑞.加爾法諾(Barry Galfano)、凱倫.巴恩斯(Karen Barnes)。數不清的人死於後續的衝突,他們的名字呢?胡珊.薩巴.伊登(Husham Sabah Eadan)、伊達姆.塔夫.馬穆德(Idham Al-Taif Mahmoud)、阿里.阿德南.法拉(Ali Adnan Faraj)、阿邁德.阿迪.西拉爾.納瑟(Ahmed Adil Hilal Al Nasir)。救護車上的傷患、警察的女兒、老人的女兒、某人的遺孀、身故男子的兄弟、罹難夫婦的兒子。身分無法辨識的成年男子、成年女子、男寶寶。那份硬碟送來給我的數據並未列出這些人,沒有數列記載他們的姓名、年齡、死亡時間,也沒有列出兄弟姊妹。

即使我的演算法盡力滿足的有意義相鄰,依然有許多缺失。穆罕默德.薩爾曼.哈姆達尼(Mohammad Salman Hamdani)是巴基斯坦裔美籍科學家,也是紐約市警察局的警察學員。他和其他許多第一線出動的人員一樣,速速來到九一一現場救援,也和其他許多第一線人員一樣失去性命。哈姆達尼的名字刻在紀念館南池的矮護牆上,位於最後一塊獻給世貿中心南塔罹難者的青銅板。演算法把哈姆達尼放在那邊,部分原因是缺少有意義相鄰的紀錄,資料集裡沒有其他姓名可放在他旁邊。為什麼這位正在受訓的警官,名字無法和其他第一線出動的人員放在一起?負責紀念館的官員表示,哈姆達尼並未與其他警官並列,因為他不是現役警官。然而,這個說明卻與他得到警員規格葬禮,以及紐約市警察局給他完整的表揚等事實相衝突。我們可以在 2001 年 10 月 12 日的《紐約郵報》(New York Post)頭條中,找到可能的答案:「失蹤—或者藏匿?—來自巴基斯坦的紐約市警局警察學員」。

哈姆達尼卡在紀念館上的位置,是我寫的演算法產生的結果。這套演算法仰賴兩個資料檔案的內容,目的是讀資料庫,基本上無法看到資料庫以外的東西。演算法所產生的布局(也就是矮護牆上的姓名模式),是社交網絡的視覺化。這個社交網絡是產生自以很特定的方式蒐集,來自很特定的資料集。紀念館上的名字是依照社會連結來安排優先順序,這項策略原本的目的是做出能反映罹難者真實人生的布局。這項數據的蒐集定義了紀念館形成的方式,蒐集過程中的偏誤也會成為其永久性的一部分。要求近親要與有社會連結的人名字排在一起,會讓社會地位高的人得到更高優先順序。從這座紀念館線上導覽尋找某個執行長或副總裁,你幾乎一定會找到別人要的相鄰性,甚至多達十個。但如果找個保全、廚師或工友,你比較可能發現他們是孤單的。

若用最無害的說詞,我們可說資料是蒐集來的。在臉書的資料政策中,「蒐集」一詞出現了十七次:我們會蒐集您使用我們產品時所提供的內容、與他人的交流和其他資訊。我們蒐集您連結的用戶、粉絲專頁、帳號、主題標籤和社團的資訊。我們蒐集,我們也會蒐集,我們蒐集,我們也會蒐集,我們蒐集,我們蒐集,我們會使用所蒐集的資訊。我們要求每一位合作夥伴都必須擁有蒐集資料的合法權利。我們蒐集。你或許可想像一群穿著皮短褲的採集者在高山草原上,從樹叢中輕輕摘取數據。我們為何在討論數據的潛在危害時很少想到蒐集,部分原因或許是這個詞很溫和。然而,蒐集某些資料集或不蒐集其他資料集是最重大的決定,而資料如何蒐集與儲存,會深深影響之後可能用來做決定、說故事,或對個人和群體起作用的方式。最重要的是,在蒐集的那一刻所做的決定,會在計算數據時被放大,經演算法誇大,再透過視覺化而展現精髓。

數據與人性:當代數據藝術先鋒最深刻的第一手觀察,探索科學、人文、藝術交織的資訊大未來

(本文摘自傑爾•索普著《數據與人性:當代數據藝術先鋒最深刻的第一手觀察,探索科學、人文、藝術交織的資訊大未來》,臉譜出版提供)


延伸閱讀

房貸、稅務 一次搞懂買賣房屋的各式費用

世風日下人心不古?創新的第一步就是觀察

創意練習!「我的筆電有一個小神待在裡頭」