王爍
絕大多數(shù)時候,一群人合起來都會比一個人更有智慧。問題是,每個人天生都知道怎么運用自己的智慧,但群體是個人的集合,而匯聚許多人的智慧,需要方法。
豆瓣上曾經出現(xiàn)過一部2 分電影,99% 以上的評分是一星(豆瓣評分五星制, 五星是10 分,一星是2 分)。導演很生氣,說毀了他12 年的心血,但沒人同情他。因為觀眾更相信豆瓣評分,而不是導演自評。這顯然更合理。有17022 人打分,你相信17022人,還是相信一個人?
豆瓣評分機制的算法就是平均聚合。原則上就是一人一票,簡單平均。這辦法雖然簡單,但比較靠譜。如果投票者數(shù)量足夠多,投票相對獨立,那么簡單平均值的準確度會系統(tǒng)性地超越個體判斷。這就是群體智慧的原意。它已經足以戰(zhàn)勝絕大多數(shù)有專家頭銜的評委。
豆瓣的簡單平均法簡潔但不完美。比如,假設一部電影只有兩個人打分10 分,另一部電影100 萬人打分平均9.8分。哪部電影更好?簡單平均法識別不了。這時候就需要另一種算法——貝葉斯推理。
電影評價類網站IMDb 用的就是貝葉斯推理這種算法,它能夠解決極少數(shù)用戶打極高分或者極低分的時候, 對一部電影的評價出現(xiàn)不準確或不公平的問題。它從預先的假設開始。既然事先不知道一部電影得分會是多少,那就給它一個基準分,對應一個基準的投票數(shù)。IMDb給的基準分是網站上所有電影的平均分,比如6.5,對應基準的打分人數(shù),比如3000 人。也就是說,不管是什么電影,在獲得第一個用戶打分之前,默認都是得6.5 分,對應著3000張投票。
你看了電影, 開始打分,新信息進來了。貝葉斯推理會用這些新信息修正得分,隨著每個用戶的打分變化。其算法大體如下:如果只有一個用戶打分,那么電影得分無限接近于網站平均分;如果有3000 真實用戶打分, 跟基準數(shù)一樣,那么得分正好是3000 名真實用戶實際打分與網站平均分兩個分值之間的平均分;如果打分用戶數(shù)量極大,那么得分會極度逼近這些用戶的實際打分。
投票人數(shù)的問題處理好了,但問題還沒完。一人一票是平等的,但看電影這件事仍有許多理由支持搞不平等:“水軍”跟觀眾不應該平等,掏錢買票看的跟白看的不應該平等,高水平觀眾跟普通觀眾不應該平等。一人一票反映不出每一票中包含的獨特信息,而這些信息是有價值的。怎么把信息解放出來?答案就是第三種聚合的方法:動態(tài)加權。希弗近年來在選舉預測領域大火。他的選舉預測網站在2008 年美國總統(tǒng)大選及國會選舉一戰(zhàn)成名,準確率超過所有民調。希弗并不直接做預測, 他做的是對民調的聚合。他根據每個民調機構準確率的歷史記錄和當下表現(xiàn),動態(tài)調整其權重,表現(xiàn)好的權重高,表現(xiàn)差的權重低,聚合起來,生成預測。這種算法就是動態(tài)加權,根據民調機構不同的準確率,分別加上不同的權重,根據接下來的表現(xiàn)隨時調整權重,再重新聚合起來。
能不能再往前走一步,做得更好?這就是第四種聚合方法:極化。
美國著名政治學者泰特羅克領導預測項目“善斷計劃”。幾年間,兩萬多人在善斷計劃網站上就美國情報界拋出來的五百個問題做持續(xù)預測,實時檢驗。泰特羅克給每個預測者的每次預測都打分,匯總成個人總分,有2% 的人脫穎而出,攀到最優(yōu)秀一級,成為“超級預測者”。善斷計劃則根據每個人的得分調整其在整體預測中的權重分配,生成預測。到這一步,泰特羅克的方法與希弗相似。下一步則是泰特羅克的創(chuàng)舉:將對加權平均后形成的預測結果再做一道加工——極化,將預測結果往100% 或者0 的方向推。比如,預測一任美國總統(tǒng)是否能連任,如果預測者加權平均后的預測概率是70%,那就把它上調到比如85% ;相反,如果預測值是30%,那就把它下調到15%。
極化的理由是這樣的:假設群體中的每個人都獲得了群體的全部信息,他們做預測時一定會更為自信。極化就是要捕捉這個自信:如果是樂觀預測,極化會輸出一個更樂觀的預測;如果是悲觀預測,極化會輸出一個更悲觀的預測。
善斷計劃的預測準確率高得驚人。參與者不過是一群普通人,但借助簡單的算法,他們的預測擊敗了全部現(xiàn)有的預測系統(tǒng),甚至戰(zhàn)勝了專業(yè)情報分析師。
正確地聚合群體智慧,就獲得了這個時代最接近于千里眼的工具。
(張秋偉摘自“羅輯思維”微信公眾號,郭德鑫圖)