厄爾尼斯特·戴維斯
過(guò)去十五年來(lái),我們親眼目睹了從互聯(lián)網(wǎng)、社交媒體、科學(xué)設(shè)備、智能手機(jī)、監(jiān)控?cái)z像頭和其他多種來(lái)源搜集的數(shù)字?jǐn)?shù)據(jù)量、以及處理這些數(shù)據(jù)的相關(guān)電腦技術(shù)呈爆炸性增長(zhǎng)。眾所周知,大數(shù)據(jù)無(wú)疑將帶來(lái)重要的科學(xué)、技術(shù)和醫(yī)療成果。但如果被誤用或?yàn)E用,大數(shù)據(jù)也是非常危險(xiǎn)的。
互聯(lián)網(wǎng)搜索引擎、機(jī)器翻譯和圖像標(biāo)簽等重要?jiǎng)?chuàng)新技術(shù)已經(jīng)依賴于將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于大數(shù)據(jù)。而且,在不久的將來(lái),大數(shù)據(jù)可以大大改善政府決策、社會(huì)福利計(jì)劃和獎(jiǎng)學(xué)金項(xiàng)目。
但擁有更多數(shù)據(jù)替代不了擁有高質(zhì)量的數(shù)據(jù)。例如,自然雜志最近發(fā)表的一篇文章報(bào)道,美國(guó)大選調(diào)查員正頭疼怎樣獲得有代表性的人口數(shù)據(jù)樣本,因?yàn)槊绹?guó)法律規(guī)定調(diào)查員只能撥打固定電話,而美國(guó)民眾對(duì)移動(dòng)電話的使用卻越來(lái)越多。雖然你可以在社交媒體上找到無(wú)數(shù)的政治觀點(diǎn),但卻無(wú)法確定這些觀點(diǎn)在選民中是否具有代表性。事實(shí)上,推特和Facebook上與政治有關(guān)的發(fā)帖很多由計(jì)算機(jī)自動(dòng)生成。
近年來(lái),以偏差數(shù)據(jù)集為基礎(chǔ)的自動(dòng)程序造成了很多丑聞。舉例而言,去年6月,當(dāng)一名大學(xué)生以“不符合職業(yè)標(biāo)準(zhǔn)的工作發(fā)型”為關(guān)鍵詞搜索谷歌圖片,結(jié)果顯示的圖片絕大多數(shù)是黑人;當(dāng)這位學(xué)生把第一個(gè)關(guān)鍵詞換成“符合職業(yè)標(biāo)準(zhǔn)”,谷歌返回的搜索結(jié)果卻大多是白人。但這不應(yīng)歸咎于谷歌程序員帶有偏見(jiàn);相反,它是民眾對(duì)網(wǎng)上圖片標(biāo)簽的反映。
那些采用上述搜索結(jié)果來(lái)評(píng)估招聘和晉升決策的大數(shù)據(jù)程序,則很可能不利于那些發(fā)型與“不符合職業(yè)標(biāo)準(zhǔn)的工作發(fā)型”相似的黑人候選人,進(jìn)而延續(xù)傳統(tǒng)的社會(huì)偏見(jiàn)。而這絕不僅僅是一種假設(shè)的可能性。去年,ProPublica 的一項(xiàng)“累犯風(fēng)險(xiǎn)模型”調(diào)查顯示,一種被廣泛采用的對(duì)已定罪的犯人量刑的方法,實(shí)際上系統(tǒng)性地高估了黑人被告未來(lái)的犯罪風(fēng)險(xiǎn),并同時(shí)對(duì)白人被告未來(lái)的犯罪風(fēng)險(xiǎn)有所低估。
大數(shù)據(jù)的另一種風(fēng)險(xiǎn)是它可以被操縱。如果人們知道利用大數(shù)據(jù)來(lái)做出將影響他們生活的重要決策,他們有動(dòng)機(jī)讓天平向己方傾斜。舉例來(lái)講,如果以學(xué)生的考試成績(jī)作為教師的評(píng)判標(biāo)準(zhǔn),教師或許更有可能“為考而教”,甚至作弊。
同樣,想要提升所在院校在美國(guó)新聞和世界報(bào)道排名的大學(xué)管理人員已經(jīng)做出了不明智的決定,比方說(shuō)以犧牲學(xué)術(shù)為代價(jià)投資建設(shè)奢侈的體育場(chǎng)館。更糟的是,他們做出了一些奇怪的不道德的決定,比如通過(guò)在開(kāi)學(xué)前幾周找到并開(kāi)除成績(jī)較差的學(xué)生來(lái)提高圣瑪麗大學(xué)的“留校率”。
就連谷歌的搜索引擎也不能免疫。盡管由世界頂級(jí)數(shù)據(jù)學(xué)家監(jiān)控的海量數(shù)據(jù)驅(qū)動(dòng),其結(jié)果仍有可能受到“搜索引擎優(yōu)化”和操縱,“谷歌轟炸”、“垃圾郵件索引”和其它服務(wù)于某些狹隘利益的方法就是實(shí)例。
第三種風(fēng)險(xiǎn)是侵犯隱私,因?yàn)楝F(xiàn)在提供的大量數(shù)據(jù)均包含個(gè)人信息。近年來(lái),有人從商業(yè)和政府網(wǎng)站竊取了大量機(jī)密數(shù)據(jù)。研究人員已經(jīng)表明,可以以何種方式準(zhǔn)確搜集在看似無(wú)害的在線帖子(如影評(píng))中所流露出來(lái)的人們的政治觀念甚或性偏好—即使發(fā)帖采用匿名的方式。
最后,大數(shù)據(jù)對(duì)問(wèn)責(zé)制提出了挑戰(zhàn)。如果有人感覺(jué)自己遭受了算法的不公平對(duì)待,往往沒(méi)有辦法對(duì)其提出上訴,這或者因?yàn)榫唧w結(jié)果無(wú)法解釋,或者因?yàn)樗惴ǖ木帉?xiě)者拒絕提供算法的細(xì)節(jié)。雖然政府或企業(yè)可以通過(guò)強(qiáng)調(diào)算法的數(shù)學(xué)性或科學(xué)性來(lái)威脅任何反對(duì)者,他們自己的行為也常常令他們始料未及。歐盟最近通過(guò)了一項(xiàng)措施確保被算法影響的民眾擁有“解釋權(quán)”;但只有時(shí)間才能告訴我們這種方法的實(shí)際效果。
如果被大數(shù)據(jù)損害的民眾沒(méi)有追索途徑,那么就像數(shù)據(jù)學(xué)家凱蒂·奧尼爾在其最新著作《數(shù)學(xué)武器毀滅》中所展示的那樣,將有可能帶來(lái)影響深遠(yuǎn)的有害結(jié)果。
好消息是大數(shù)據(jù)的危害性可以在很大程度上避免。但除非我們積極保護(hù)民眾隱私、發(fā)現(xiàn)并糾正不公平做法、謹(jǐn)慎利用算法并保持對(duì)算法內(nèi)部工作原理和決策數(shù)據(jù)的嚴(yán)格理解,否則就無(wú)法達(dá)到這樣的目的。