動態(tài)
預(yù)測的局限性
Limits of predictions
周濤(1982-),男,電子科技大學(xué)教授、博士生導(dǎo)師,大數(shù)據(jù)研究中心主任,主要從事統(tǒng)計物理與復(fù)雜性、數(shù)據(jù)挖掘與數(shù)據(jù)分析方面的研究。在Physics Reports、PNAS、Nature Communications等國際SCI期刊發(fā)表200余篇學(xué)術(shù)論文,引用16 000余次,H指數(shù)為63。2009年獲教育部自然科學(xué)一等獎,2011年獲第十二屆中國青年科技獎(系我國最年輕的獲獎?wù)撸?013年獲四川省科技進(jìn)步一等獎,2014年獲中國計算機(jī)學(xué)會自然科學(xué)二等獎(一等獎空缺),2014年起歷年入選Elesvier最具國際影響力中國科學(xué)家名單(物理天文類)。2015年當(dāng)選第十二屆中華全國青聯(lián)常務(wù)委員,并擔(dān)任科學(xué)技術(shù)界別工作委員會副主任。2015年當(dāng)選全國十大科技創(chuàng)新人物,2016年當(dāng)選四川省首批杰出人才(3年評選一次)。2017年獲全國創(chuàng)新爭先獎。
從幾千年前的巫祝開始,人類從來沒有放棄過預(yù)測未來的追求。只不過那個時候的預(yù)測,往往是基于極其樸素的世界運行的原理,例如以水為萬物生長和運動之源的泰利斯假說和以對立、協(xié)同、轉(zhuǎn)換為核心的陰陽學(xué)說;又或者一些重大事件之間的偶發(fā)聯(lián)系,例如某一次日食后出現(xiàn)了持續(xù)數(shù)月的大旱。從現(xiàn)代的觀點來看,那不過是人類卑微理性在無常自然面前無畏的掙扎罷了。
從預(yù)測使用的理論和方法的堅實程度以及相應(yīng)的對于預(yù)測結(jié)果正確性的信念,可以大致把預(yù)測分為3類。一個極端是基于嚴(yán)格理論的預(yù)測結(jié)果,例如基于量子力學(xué)理論預(yù)測某A粒子在一定時間內(nèi)衰變成某B粒子的概率。這種預(yù)測的正確與否,可以用來檢驗相應(yīng)物理理論是否正確。另一個極端是對未來的預(yù)言,這往往是來源于未來學(xué)家和科幻作家,例如凡爾納在《從地球到月球》中對于人類登月和在《海底兩萬里》中對海底潛艇的預(yù)言,托夫勒在《第三次浪潮》中對互聯(lián)網(wǎng)科技時代的預(yù)言以及諾查丹瑪斯在《諸世紀(jì)》中對于世界末日的預(yù)言等。這類預(yù)言更像是猜測而非預(yù)測,往往只能給出定性上正確與否的判斷,而不能在數(shù)字上給出精確的程度,而有些時候,因為預(yù)言可以有不同的解釋方法,甚至連定性上判斷正確錯誤都做不到,例如對李淳風(fēng)和袁天罡所著《推背圖》的解讀。
本文所討論的預(yù)測是介于兩者之間的:既沒有一套堅實的理論,也不是漫無邊際的未來學(xué)說,而是基于手頭已經(jīng)掌握的一些數(shù)據(jù),利用數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)的方法,對未知的數(shù)據(jù)或者未來的發(fā)展進(jìn)行的可量化的預(yù)測。得益于大數(shù)據(jù)和人工智能的發(fā)展,特別是可獲取數(shù)據(jù)量的暴漲和機(jī)器學(xué)習(xí)能力的飛升,預(yù)測在現(xiàn)代的社會學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)乃至政治學(xué)中似乎已經(jīng)開始并即將扮演統(tǒng)治性的重要地位。這些預(yù)測涉及人們可以想到和難以想到的方方面面,從一個人的民族、信仰、政治態(tài)度、是否同性戀[1],到社交網(wǎng)絡(luò)未來的演化[2];從恐怖襲擊最可能發(fā)生的時間和空間[3],到各個國家和地區(qū)政治大選的最終結(jié)果[4]等。然而,從特朗普奇跡般地逆轉(zhuǎn)就可以看出,這個難以捉摸的世界和尚顯幼稚的技術(shù)手段,還遠(yuǎn)遠(yuǎn)不足以讓預(yù)測“君臨天下”。2017年2月,美國的《科學(xué)》雜志推出了一期討論預(yù)測問題的專欄[5],本文結(jié)合專欄的內(nèi)容和筆者個人的經(jīng)驗,從4個方面談一下預(yù)測的局限性。
在很多情況下,判斷一個預(yù)測是否正確不是一件容易的事情,因為預(yù)測都是某種前提或者環(huán)境下做出來的,而預(yù)測本身有可能改變這種環(huán)境。所以,有可能人們看到的正確或者錯誤,都是預(yù)測本身帶來的,和預(yù)測結(jié)果反而沒有關(guān)系。
首先,很多預(yù)測具有自證的特性[6]。舉個例子,如果國家自然科學(xué)基金委員會(以下簡稱基金委)召集資深專家或者利用引進(jìn)機(jī)器學(xué)習(xí)的方法,試圖預(yù)測未來哪些研究方向中國學(xué)者能夠做出顛覆性或者系統(tǒng)性的貢獻(xiàn),這就是一個典型的自證場景。因為不管是專家意見、機(jī)器學(xué)習(xí)還是隨機(jī)亂說,如果基金委處在正常的邏輯下,它必然會大幅提高對這些“重要方向”的支持力度,那么我國學(xué)者更可能在這些方向做出更多貢獻(xiàn),寫到這里有種悲傷的感覺,但事實就是如此,而這又反過來證明了預(yù)測的正確性。
其次,很多預(yù)測具有自否的特性。比如通過對治安事件時空模式的分析,預(yù)測出了接下來一段時間最容易出現(xiàn)街頭犯罪的場所,于是公安部門在相應(yīng)的時間和地點增加了巡邏的警力,結(jié)果街頭犯罪量大幅度降低。那么,這個預(yù)測本身是準(zhǔn)確的還是錯誤的呢?又比如自動監(jiān)測慢性腎病患者的用藥和飲食習(xí)慣,發(fā)現(xiàn)有一個病人經(jīng)常不按時按量服藥并且不忌嘴,根據(jù)大量病歷樣本,預(yù)測他2年之后會轉(zhuǎn)為尿毒癥?;颊哒痼@于這個警告,然后改變了自己的習(xí)慣,盡最大可能配合醫(yī)囑,結(jié)果5年過去了,病情也沒有進(jìn)一步發(fā)展。那么,這個預(yù)測本身是準(zhǔn)確的還是錯誤的呢?
簡而言之,在真實的場景中判斷預(yù)測是否準(zhǔn)確不是一件容易的事情,尤其當(dāng)人們會基于預(yù)測結(jié)果有所行動的情況。
在絕大部分預(yù)測場景中,精確性都是評價預(yù)測效果的唯一指標(biāo)。以精準(zhǔn)廣告或者個性化推薦為例,系統(tǒng)的核心指標(biāo)是用戶對廣告的點擊概率和推薦商品的購買概率。雖然每個人的興趣都有不同,但顯而易見的是,推薦那些原來就表現(xiàn)出眾的產(chǎn)品,有更大的可能性獲得用戶的青睞,從而使得曾經(jīng)好賣的產(chǎn)品越來越好賣,而初期滯銷的產(chǎn)品找不到出路[7]。在淘寶、京東和大眾點評上這樣的例子比比皆是,所謂的“小而美”的推薦算法,事實上并沒有效果。這就帶來了兩個問題,首先是初期一些隨機(jī)的波動可能會讓一些因為“運氣”而占據(jù)上風(fēng)的產(chǎn)品優(yōu)勢得以快速積累,而高質(zhì)量的產(chǎn)品如果短期內(nèi)運氣不好,則可能永遠(yuǎn)沒有翻身的可能性[8]。第二個更嚴(yán)重的問題是多樣性會被打壓,一些冷門小眾的需求得不到響應(yīng)[9]。如果人們老老實實閱讀“根據(jù)預(yù)測出來的感興趣程度”推送的新聞,購買“根據(jù)預(yù)測出來的喜愛程度”推送的商品,那么大家的興趣、愛好和視野會逐漸趨于一致。
遺憾的是,對于機(jī)器或者對于生產(chǎn)商而言最優(yōu)的世界,可能并不是人們最期望生活于其中的世界,因為人們的世界需要被驚喜和邂逅點亮。
再回到第2節(jié)所舉的基金委預(yù)測未來重點研究方向的問題。如果要基于數(shù)據(jù)做嚴(yán)肅的預(yù)測,那么曾經(jīng)成果斐然的研究方向肯定更有可能產(chǎn)生進(jìn)一步的產(chǎn)出,而那些冷門的研究方向,甚至可能因為某種顛覆性發(fā)現(xiàn)而涌現(xiàn)的新方向,自然是不會被聰明的機(jī)器學(xué)習(xí)相中的。一些學(xué)者已經(jīng)在呼吁,如果科研管理機(jī)構(gòu)利用某種預(yù)測結(jié)果分配學(xué)術(shù)資源,那么這些聰明的預(yù)測很可能會扼殺創(chuàng)新[10],而且如第2節(jié)所言,它們還會被證明是正確的。
歧視可能來源于方方面面,例如性別、種族、年齡、身高、身體殘疾等,歧視可能發(fā)生在各種地方,包括職場招聘、公共生活、社會交際等。事實上,學(xué)術(shù)界也充滿了歧視,比如女性在同等水平下獲得的評價和被錄用的可能性都低于男性[11],女性和有色人種在美國的基金申請中更容易被拒絕[12]。
有些歧視是可以量化的,例如求職被錄用的概率、工作的年薪、申請被接收的比例等,另外一些是難以量化的,比如學(xué)小兒麻痹癥患者走路的樣子或?qū)W習(xí)口吃者說話的樣子。筆者主要討論可以量化的歧視。如果用理性的眼光審視可以量化的歧視,這些歧視大體上還可以再分為兩類。
第一類是歧視本身就是非理性的。譬如在Moss-Racusin[11]等人的實驗中,簡歷對象被隨機(jī)分配了一個性別和相應(yīng)的名字,而實驗結(jié)果顯示如果你不幸被分配了一個女性的姓名,那么你被錄取的意向?qū)⒋蟠笙陆怠_@個時候,消除歧視的努力就是回歸理性的判斷。
第二類是歧視本身從數(shù)字上來看是理性的。舉個例子,現(xiàn)在中國很多企業(yè)不愿意聘用年輕女性,是因為她們的感情、婚姻以及兩次育兒經(jīng)歷都會影響她們在企業(yè)的工作情況,所以聘用同等水平甚至水平更差一些的男性,統(tǒng)計而言,可能給企業(yè)帶來的利益更大。在這種情況下,消除歧視反而是不理性的。那為什么還要努力消除歧視呢?因為利益的最大化并不是人類全部的追求。
在上面這種情況下,消除歧視不是一種理性,而是一種溫情。如果這時候祭出基于人力資源大數(shù)據(jù)的員工績效預(yù)測算法,那么冷酷的預(yù)測結(jié)果只會進(jìn)一步加劇歧視的程度。
在機(jī)器學(xué)習(xí)領(lǐng)域,有一種方法被形象地稱為“off-the-shelf prediction”,中文直譯為“現(xiàn)成的預(yù)測”,筆者為了加深大家的印象,姑且稱其為“暴力預(yù)測”。顧名思義,應(yīng)用暴力預(yù)測的時候,不需要對問題的背景和專業(yè)知識有深刻的理解,只需要將它轉(zhuǎn)化成一個預(yù)測問題,然后從機(jī)器學(xué)習(xí)的算法貨架中把各種回歸分析、各種神經(jīng)網(wǎng)絡(luò)、各種支持向量機(jī)、各種決策樹等取下來,依次測試預(yù)測的效果。通常,再利用集成學(xué)習(xí)的辦法,融合各個預(yù)測器的結(jié)果,最終得到精度更高的預(yù)測結(jié)果。事實上,就算沒有專家的知識,集成學(xué)習(xí)往往也能夠給出比專家都精確的預(yù)測結(jié)果。著名的Netflix大獎賽的獲勝者就是使用了集成學(xué)習(xí)的方法,而最近10年有影響的數(shù)據(jù)挖掘比賽中保守估計有不低于一半的冠軍隊伍都采用了這種方法。
然而,這種方法的缺點也很突出,就是沒有辦法給出對預(yù)測結(jié)果有效的解釋。對于在計算機(jī)領(lǐng)域的會議和期刊上發(fā)表文章而言,解釋似乎是不重要的,但是如果你希望自己的預(yù)測結(jié)果能夠?qū)崒嵲谠诘赜绊憶Q策,那么解釋就太關(guān)鍵了。舉個例子,在解決街頭犯罪和恐怖襲擊問題上,政府管理人員希望知道到底是什么因素導(dǎo)致了這些潛在的犯罪發(fā)生,要通過什么辦法才能夠消除危險。如果一個算法只能預(yù)測出襲擊容易發(fā)生的地點A,那么在A處增加警力導(dǎo)致的結(jié)果往往是襲擊最終發(fā)生在地點B。從這個意義上講,如果要說服關(guān)鍵決策者,僅僅有預(yù)測結(jié)果和一些基于以往樣本的測試成績是不夠的,還需要說明預(yù)測背后的主要機(jī)制、預(yù)測之所以正確或者錯誤的原因,甚至給出一些穩(wěn)定的因果關(guān)系[13]。
盡管很多政府管理人員和社會經(jīng)濟(jì)學(xué)家開始認(rèn)識到預(yù)測的重要性和潛在價值,但是一個完全缺乏有力解釋的暴力預(yù)測而又在政府治理領(lǐng)域取得了重大成效的例子,筆者迄今都沒有找到。
預(yù)測不代表理解,預(yù)測也不講感情,預(yù)測甚至無法避免自己影響自己。所以,人們可以把預(yù)測當(dāng)作劈開問題的一把利劍,但不能把問題的解決全盤押寶其上。
參考文獻(xiàn):
[1] KOSINSKI M, STILLWELL D, GRAEPEL T. Private traits and attributes are predictable from digital records of human behavior[J]. PNAS, 2013, 110(15): 5802-5805.
[2] Lü L, ZHOU T. Link prediction in complex networks: a survey[J]. Physica A Statistical Mechanics & Its Applications, 2011, 390(6): 1150-1170.
[3] HELBING D, BROCKMANN D, CHADEFAUX T, et al. Saving human lives: what complexity science and information systems can contribute[J]. Journal of Statistical Physics, 2015, 158(3): 735-781.
[4] KENNEDY R, WOJCIK S, LAZER D. Improving election prediction internationally[J]. Science, 2017, 355(6324): 515-520.
[5] JASNY B R, STONE R. Prediction and its limits[J]. Science, 2017, 355(6324): 469.
[6] MERTON R K. The self-fulfilling prophecy[J]. The Antioch Review, 1948, 8(2): 193-210.
[7] Lü L, MEDO M, YEUNG C H, et al. Recommender systems[J]. Physics Reports, 2012, 519(1): 1-49.
[8] SALGANIK M J, DODDS P S, WATTS D J. Experimental study of inequality and unpredictability in an artificial cultural market[J]. Science, 2006, 311(5762): 854-856.
[9] ZHOU T, KUSCSIK Z, LIU J G, et al. Solving the apparent diversityaccuracy dilemma of recommender systems[J]. PNAS, 2010, 107(10): 4511-4515.
[10] CLAUSET A, LARREMORE D B, SINATRA R. Data-driven predictions in the science of science[J]. Science, 2017, 355(6324): 477-480.
[11] MOSS-RACUSIN C A, DOVIDIO J F, BRESCOLL V L, et al. Science faculty’s subtle gender biases favor male students[J]. PNAS, 2012, 109(41): 16474-16479.
[12] GINTHER D K, SCHAFFER W T, SCHNELL J, et al. Race, ethnicity, and NIH research awards[J]. Science, 2011, 333(6045): 1015-1019.
[13] ATHEY S. Beyond prediction: using big data for policy problems[J]. Science, 2017, 355(6324): 483-485.
TP399
A
10.11959/j.issn.2096-0271.20170046