360度績效評鑑準確嗎?雜訊問題到底多嚴重?

幾乎所有大型組織裡,都會定期對績效進行評鑑。接受評等的人都不喜歡這樣的經驗。就像有個報紙標題說〈研究發現,基本上人人都討厭績效考核〉。(我們認為)每個人也都知道,績效評鑑會受到偏誤和雜訊的影響。但是,大部分人並不知道它們的雜訊有多嚴重。

在一個理想的世界,評估一個人的表現並不是一種判斷工作;客觀事實就足以決定一個人的表現如何。但是,大部分現代組織都不像亞當.斯密(Adam Smith)說的那個別針工廠,每個工人的產出都可以衡量。財務長或研究主管的產出是什麼?今日的知識工作者要在多個、有時候相互矛盾的目標間求取平衡。只注重其中一項目標可能會產生錯誤的評量,而且帶來有害的誘因效應。比方說,醫師每日看診的病患人數是醫院生產力的重要動因,但是你不會希望醫師全心全意只著眼於這個指標,更不用說只以它作為評估和獎勵的唯一基礎。即使是可量化的績效評量指標,比方說業務人員的銷售額,或是程式設計師寫的程式碼行數,評量時也必須有參考框架:不是所有的顧客都一樣難伺候,也不是所有的軟體開發專案都會一模一樣。有鑑於這些挑戰,許多人無法完全依照客觀的績效指標進行評量。因此,以判斷為基礎的績效評鑑無所不在。

25%是訊號,75%是雜訊

關於績效評鑑的實務研究,已有數千篇論文發表。大部分研究人員都發現,績效評鑑的雜訊過多。這個引人警惕的結論多半來自以360度績效評鑑為依據的研究,這是由多個評鑑者對同一個受評者提出評估意見。這種分析的結果並不好看。研究經常發現,真正的變異(也就是可歸因於當事人績效的變異),不超過整體變異的20%至30%。剩下的70%至80%的變異,都是系統雜訊。

這個雜訊從何而來?我們從多項針對工作績效評鑑變異的研究得知,系統雜訊的所有要素都在其中。

在績效評鑑的架構下,相當容易描繪這些要素。接下來我們就以琳恩和瑪麗這兩位評鑑者為例。琳恩的評鑑很寬容,瑪麗的評鑑則很嚴格,意思是以全體受評者來看,平均而言,琳恩給的評鑑分數都比瑪麗高,因而會產生水準雜訊。我們在討論法官量刑時曾指出,這個雜訊可能表示琳恩和瑪麗對受評者的觀感真的不同,不然就是這兩名評鑑者對受評者的觀感相同,只是運用不同的評鑑量表來表達相同的看法。

現在,如果琳恩要評鑑你,不巧的是,她對你和你的貢獻的看法特別糟糕。她對你的特殊反應(而且是負面反應)抵銷她普遍表現出的寬容態度。這就是我們說的穩定型態:特定評估者對特定受評者的反應。由於這個型態是琳恩獨有的(而且她對你的判斷也是獨有的),所以是型態雜訊的來源。

最後,或許瑪麗在填寫評鑑表之前,在公司停車場發現她的車被別人撞凹了,也或許琳恩才剛拿到一筆極為豐厚的個人專屬獎金,因此在評估你的績效時心情特別好。這種事件當然會產生場合雜訊。

系統雜訊如何拆解成這三個要素(水準雜訊、型態雜訊和場合雜訊),結論因研究而異,至於它如何因組織而異,我們當然也可以想像得到原因。但是,所有形式的雜訊都是我們不樂見的。這項研究傳達一個簡單的基本訊息:績效評鑑與受評者的表現之間的關聯大部分都不如預期。有項評論總結道:「工作表現與工作表現評鑑之間可能只有薄弱的關聯,充其量只能說關聯不確定。」

此外,有很多原因可以說明為什麼組織裡的績效評鑑或許也無法反映評鑑者對一名員工真正表現的認知。例如,或許評估者其實並不想追求評鑑的準確度,而是採取「策略性的」評鑑員工。此舉背後有各種動機,比方說,或許評鑑者刻意在評分時灌水,目的是規避煎熬的回饋對話,或是偏袒一個等升遷等很久的人,甚至說來弔詭的是,是為了擺脫一個績效低落的團隊成員,因為他需要很好的考績才能獲准轉調到其他部門。

這些策略上的算計當然會影響評鑑結果,但這並不是雜訊唯一的來源。我們能知道這點,要歸功於一種自然實驗:有些360度回饋制度只用於人力發展的目的。在這些制度下,評鑑者會被告知,回饋意見不會用於工作績效評鑑。如果評鑑者真的相信如此,這個方法能讓他們在評鑑時打消評分灌水或是刻意扣分的念頭。結果,為了發展而做的評鑑的回饋品質確實有差異,但是系統雜訊仍然很高,而在變異的占比還是遠高於受評者表現變異的占比。即使是純粹為了人力發展而進行的回饋,評鑑仍然有雜訊。

一個早就發現卻沒有解決的問題

如果績效評鑑制度的毛病這麼多,評量績效的人應該已經留意到這些缺點並予以改良。確實,在過去數十年來,組織對那些制度進行無數的改革實驗。這些改革採用一些我們已經概述的減少雜訊策略。我們認為,還可以做得更多。

幾乎所有組織都採用減少雜訊的總合策略。講到評等的總合,我們通常會聯想到1990年代成為大型企業標準實務的360度評鑑制度。(《人力資源管理》〔Human ResourcesManagement〕期刊在1993年曾經出版一期360度回饋制度的特刊。)

取幾個評鑑者的評分計算平均值,儘管有助於減少系統雜訊,不過值得注意的是,360度回饋制度並不是為了修正這個問題而發明的。它們的主要目的是超越主管的視野,大幅拓展衡量的範圍。如果要對你的績效評鑑發表意見的人不只是你的主管,還有你的同儕和部屬,評鑑中看重的事物本質也會因此改變。理論主張,這會是更好的轉變,因為今天的工作涉及的不只是討好主管。360度回饋制度受歡迎程度的提升,符合流動性、專案導向組織普遍的發展趨勢。

有些證據顯示,在預測客觀可衡量的績效時,360度回饋制度是有用的工具。可惜的是,回饋制度的運用本身會製造難題。隨著電腦化的發展,在回饋制度中增加更多評鑑問題變得毫不費力,而且隨著企業快速增加多種目標和限制在職務描述的層面上,許多回饋問卷也變得複雜到令人咋舌。過度設計的問卷到處都有(有個例子是評鑑者要對每個受評者在11個面向上進行46項評估)。只有超人評鑑才有辦法回想並準確處理眾多受評者在眾多面向的相關表現。某些方面來說,這種過度複雜的方法不但沒有用,還會造成危害。我們已經看到,光環效應意味著,理應分開考量的面向,事實上不會得到個別單獨的處理。在頭幾個問題強烈的正面或負面評估,通常會把後續問題的答案推往同一個方向。

甚至更重要的是,360度回饋制度的發展,讓投入於提供回饋的時間呈指數成長。中階主管要完成各層級同事的評鑑,做數十份問卷是家常便飯,有時候他們甚至還要評鑑其他組織的窗口人員,因為有許多公司現在都會向顧客、供應商和其他事業伙伴徵詢回饋。無論立意有多好,當暴增的需求落在時間有限的評鑑者身上時,我們無法期待他們提供的資訊品質會提升。在這種情況下,為了減少雜訊所付出的成本或許並不划算,我們會在第六部討論這個問題。

最後,360度回饋制度也無法倖免於所有績效衡量制度幾乎都有的問題:緩升型評分膨脹。有一家大型工業公司曾經發現,它有98%的主管都被評為「完全符合預期」。要是幾乎每個人都得到最高評等,那麼我們對這些評等的價值有疑慮也相當合理。

雜訊【首批限量硬殼精裝版】:人類判斷的缺陷

(本文摘自丹尼爾.康納曼、奧利維.席波尼、凱斯.桑思汀著《雜訊【首批限量硬殼精裝版】:人類判斷的缺陷》,天下文化提供)


延伸閱讀

平凡團隊如何晉升一流? 三大卓越關鍵

遠距上班問題多?矽谷管理大師這樣建議

向海豹部隊學領導 平衡為何如此重要?