亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        哪些算法我們可以信任

        2022-05-30 18:25:39蒂姆·哈福德
        商業(yè)評(píng)論 2022年9期

        蒂姆·哈福德

        2009年,谷歌的一個(gè)研究小組在世界頂級(jí)科學(xué)期刊之一《自然》上宣布了一項(xiàng)了不起的成就。不用知道醫(yī)院的就診記錄,他們就能夠追蹤到流感在美國(guó)的傳播情況。更重要的是,他們的反應(yīng)比美國(guó)疾控中心快,因?yàn)楹笳咭蕾囜t(yī)生們上報(bào)的信息。谷歌的算法是在疾控中心2003年~2008年的病例中進(jìn)行數(shù)據(jù)搜索,找出規(guī)律,看看流感暴發(fā)期間,流感地區(qū)的人們?cè)诰W(wǎng)上搜索什么,以此來(lái)建立流感病例和搜索內(nèi)容之間的相關(guān)性。在發(fā)現(xiàn)了這種規(guī)律或模式之后,該算法就可以根據(jù)今天人們上網(wǎng)的搜索內(nèi)容來(lái)估計(jì)今天流感的發(fā)病人數(shù),這樣做比疾控中心發(fā)布官方消息要早至少一周的時(shí)間。

        “谷歌流感趨勢(shì)預(yù)測(cè)”不僅快、準(zhǔn)、省錢,還不需要高深的理論。谷歌的工程師們甚至懶得去篩選哪類搜索詞與疾病傳播有關(guān)聯(lián)。雖然,我們也想象得到,搜索“流感癥狀”或“我附近的藥店”是和流感沾邊的,但搜索“碧昂斯”就和流感毫無(wú)關(guān)系了,但在谷歌團(tuán)隊(duì)眼里,這都無(wú)所謂,他們只管輸入流感期間網(wǎng)上最常被搜索的5,000萬(wàn)個(gè)詞,然后讓算法自己去找規(guī)律。

        谷歌流感趨勢(shì)預(yù)測(cè)一炮而紅,它的成功標(biāo)志著商業(yè)、科技領(lǐng)域的熱門新趨勢(shì)——大數(shù)據(jù)和算法。大數(shù)據(jù)可以有很多種,我們把重點(diǎn)放在留痕數(shù)據(jù)上,它指的是人們?cè)诰W(wǎng)絡(luò)上的各種搜索、信用卡支付和手機(jī)搜索附近連接熱點(diǎn)留下的上網(wǎng)痕跡,這還不算政府掌握的個(gè)人大數(shù)據(jù)。

        留痕數(shù)據(jù)的類型可謂龐雜,數(shù)據(jù)收集起來(lái)成本較低,可以實(shí)時(shí)更新,但也雜亂無(wú)章。隨著我們的通信、休閑和商業(yè)走向互聯(lián)網(wǎng),而互聯(lián)網(wǎng)又正進(jìn)入我們的手機(jī)、汽車甚至我們的眼鏡,生活可以被記錄和量化,而這種方式在10年前是很難想象的。商業(yè)和管理雜志上,鋪天蓋地都是關(guān)于這方面機(jī)會(huì)的文章。

        除了這些“抓住機(jī)會(huì)上車”的口號(hào)外,大數(shù)據(jù)的擁躉根據(jù)谷歌流感趨勢(shì)預(yù)測(cè)的成功還提出了三個(gè)令人激動(dòng)的觀點(diǎn)。第一,數(shù)據(jù)分析能做出精準(zhǔn)的預(yù)測(cè)。第二,每一個(gè)數(shù)據(jù)點(diǎn)都可以被捕獲到,這就顯得統(tǒng)計(jì)抽樣模式過時(shí)了(這里指流感趨勢(shì)捕獲到每一次人們?cè)诰W(wǎng)上的相關(guān)搜索)。第三,科學(xué)建模也已經(jīng)過時(shí):根本沒有必要建立和驗(yàn)證“流感癥狀”搜索或“碧昂斯”搜索可能與流感傳播相關(guān)或不相關(guān)的公式,因?yàn)?,引?008年《連線》雜志中一篇煽動(dòng)性文章的話,“有了足夠的數(shù)據(jù),數(shù)字能說明一切問題”。

        這種模式很有顛覆性。然而,在《自然》那篇文章發(fā)表4年后,《自然新聞》卻傳來(lái)一個(gè)不幸的消息:最近的流感暴發(fā)還造成了一個(gè)意外的受害者——谷歌流感趨勢(shì)預(yù)測(cè)。在準(zhǔn)確地預(yù)報(bào)了幾個(gè)冬天的流感疫情后,這個(gè)無(wú)須建模、數(shù)據(jù)豐富的模型對(duì)流感突然失去了嗅覺。谷歌的模型預(yù)測(cè)了流感要大暴發(fā),但疾控中心不緊不慢,說它的數(shù)據(jù)證明谷歌高估了流感暴發(fā)的可能性,還有,谷歌的數(shù)據(jù)一度比真實(shí)數(shù)據(jù)大了一倍多。不久,谷歌流感趨勢(shì)項(xiàng)目團(tuán)隊(duì)就解散了。

        問題出在哪兒?部分原因在于上面說的第三個(gè)觀點(diǎn):谷歌當(dāng)時(shí)不知道,也不可能知道,它的算法中有哪些搜索詞是與流感暴發(fā)相關(guān)聯(lián)的。谷歌的工程師沒有自己做篩選,他們讓算法自己在數(shù)據(jù)中尋找流感暴發(fā)的相關(guān)統(tǒng)計(jì)模式。后來(lái),谷歌的研究團(tuán)隊(duì)分析了這些算法算出的模式,發(fā)現(xiàn)了一些明顯的錯(cuò)誤相關(guān)性,而他們本可以指示算法剔除這些錯(cuò)誤關(guān)聯(lián)。例如,算法會(huì)將“高中籃球賽”搜索與流感關(guān)聯(lián)起來(lái)。原因并不神秘:流感疫情和高中籃球賽都在11月中旬開始。但這意味著流感趨勢(shì)部分探查的是流感,部分探查的是冬季球賽。當(dāng)2009年夏季流感暴發(fā)時(shí),這又成了一個(gè)問題:谷歌流感趨勢(shì)預(yù)測(cè)仍然在搜索冬季球賽,自然一無(wú)所獲,也就沒預(yù)測(cè)出來(lái)這次非常規(guī)季節(jié)的疫情,導(dǎo)致他們預(yù)報(bào)的發(fā)病人數(shù)只是實(shí)際發(fā)病人數(shù)的20%。

        有人說找出算法出錯(cuò)的原因是不可能的。但是找出兩個(gè)東西是怎么關(guān)聯(lián)起來(lái)的不難。一些數(shù)據(jù)發(fā)燒友,比如《連線》雜志那篇煽動(dòng)性文章的作者克里斯·安德森也說過,除了相關(guān)性,討論別的都沒意義。他寫道:“先從數(shù)學(xué)的角度處理好數(shù)據(jù),然后再為數(shù)據(jù)設(shè)定好語(yǔ)義環(huán)境就可以了。”數(shù)據(jù)自然會(huì)呈現(xiàn)一定的規(guī)律。如果真是這樣,我們是不是可以這樣解讀安德森的話,“如果高中球賽和流感疫情同時(shí)出現(xiàn)在搜索結(jié)果中,二者會(huì)關(guān)聯(lián)在一起的原因并不重要”。

        但這當(dāng)然很重要,因?yàn)檫@種沒有數(shù)學(xué)建模的簡(jiǎn)單關(guān)聯(lián)明顯不堪一擊。所以如果我們不清楚建立關(guān)聯(lián)的邏輯,那么這種關(guān)聯(lián)遲早會(huì)出問題。

        我書架上最顯眼的位置放了兩本很棒的書,講述的是我們對(duì)大數(shù)據(jù)的看法在短短幾年內(nèi)是如何演變的。

        一本是2013年出版的《大數(shù)據(jù)時(shí)代》,作者是肯恩·庫(kù)克爾和維克托·邁耶·舍恩貝格。書中舉了許多例子,像物美價(jià)廉的傳感器、大數(shù)據(jù)集和模式識(shí)別算法,正如這本書的副標(biāo)題所示,“大數(shù)據(jù)改變了我們的生活、工作和思維方式”。你猜作者在書中用的什么例子開篇?就是那個(gè)谷歌流感趨勢(shì)預(yù)測(cè)。不過兩位作者沒料到的是,這本書付印之后,谷歌算法就徹底失靈了。

        《大數(shù)據(jù)時(shí)代》出版三年后,凱西·奧尼爾的《算法霸權(quán):數(shù)學(xué)殺傷性武器的威脅與不公》于2016年問世。你可能也猜到了,作者對(duì)大數(shù)據(jù)非常不看好,書的副標(biāo)題告訴我們大數(shù)據(jù)“加劇不平等,威脅民主”。

        兩本書看大數(shù)據(jù)的視角不同:庫(kù)克爾和舍恩貝格的視角是數(shù)據(jù)時(shí)代人怎么利用數(shù)據(jù);奧尼爾的視角是數(shù)據(jù)時(shí)代人怎么被數(shù)據(jù)利用。視角不同,看法不同。這就好像一把榔頭,對(duì)木匠來(lái)說,它是個(gè)有用的工具;但對(duì)釘子來(lái)說,它就是敵人。

        兩本書的不同觀點(diǎn)正好也反映了2013年~2016年人們對(duì)大數(shù)據(jù)看法的轉(zhuǎn)變。2013年,了解大數(shù)據(jù)的人還比較少,人們常常把自己想象成木匠,覺得可以利用大數(shù)據(jù),大有可為。到2016年,許多人意識(shí)到自己就是顆釘子,逃不出大數(shù)據(jù)的掌控。大數(shù)據(jù)從備受推崇的劃時(shí)代技術(shù)變成被人詛咒的技術(shù)災(zāi)星,有些人甚至為此在報(bào)紙上大聲疾呼(比如美國(guó)有線電視新聞網(wǎng)上的一篇報(bào)道——“算法有種族主義”)。大數(shù)據(jù)還掀起了一場(chǎng)政治上的軒然大波。劍橋分析公司是一家和特朗普競(jìng)選團(tuán)隊(duì)有瓜葛的咨詢公司,它被指控利用臉書在用戶隱私規(guī)則方面的漏洞,在用戶不知情或未授權(quán)的情況下,竊取了大約5,000萬(wàn)人的信息,并向他們精準(zhǔn)投放拉票廣告。大吃一驚的評(píng)論員甚至懷疑就是這些精準(zhǔn)投放的拉票廣告送唐納德·特朗普坐上了總統(tǒng)的寶座,盡管事后經(jīng)過冷靜分析,人們認(rèn)定劍橋分析公司的能力還沒有達(dá)到精神控制的水平。

        我們每個(gè)人都在網(wǎng)上留下了點(diǎn)點(diǎn)滴滴的數(shù)據(jù),而這些數(shù)據(jù)被悄悄地收集起來(lái),匯成數(shù)據(jù)的海洋,這樣算法和大數(shù)據(jù)編織成了我們生活的天羅地網(wǎng),從匹配對(duì)象到法律援助,它們似乎都可以幫到我們。所以,我們需要了解這都是些什么樣的數(shù)據(jù),以及我們?cè)撛趺蠢盟鼈?。我們到底?yīng)該喜歡大數(shù)據(jù)還是害怕大數(shù)據(jù)?我們想當(dāng)個(gè)木匠,但會(huì)不會(huì)無(wú)意中成了釘子的角色?

        答案是,這都取決于我們自身,我希望能告訴你怎么才能讓大數(shù)據(jù)為人所用。

        2012年,人們還堅(jiān)定地認(rèn)為大數(shù)據(jù)給我們提供了無(wú)限遐想。記者查爾斯·杜希格敏銳地捕捉到這個(gè)跡象,他在《紐約時(shí)報(bào)》上發(fā)表了一個(gè)發(fā)生在美國(guó)塔吉特百貨公司的故事,為大數(shù)據(jù)時(shí)代的到來(lái)拉開了序幕。

        在杜希格的報(bào)道中,他說塔吉特公司收集了客戶的大量數(shù)據(jù),而且會(huì)認(rèn)真分析這些數(shù)據(jù),所以顯得這家公司特別能洞悉客戶需求。這個(gè)讓人印象深刻的故事是這樣開始的:一名男子沖進(jìn)明尼阿波利斯附近的一家塔吉特公司,向經(jīng)理大發(fā)雷霆,問該公司給他十幾歲的女兒郵寄了婦嬰用品優(yōu)惠券是什么意思。經(jīng)理忙不迭地道歉,后來(lái)又專程打電話再次道歉,結(jié)果卻被告知女孩真的懷孕了。她父親當(dāng)時(shí)不知情。

        其實(shí)塔吉特在分析了她購(gòu)買無(wú)味濕巾和維生素補(bǔ)充劑等數(shù)據(jù)后,就已經(jīng)洞悉這個(gè)事實(shí)。

        統(tǒng)計(jì)真的這么神奇嗎?數(shù)據(jù)專家和統(tǒng)計(jì)學(xué)家聽了這個(gè)故事,眼皮都不抬,他們認(rèn)為不用對(duì)此大驚小怪,這太稀松平常了。

        首先,讓我們想一想,根據(jù)一個(gè)人在商場(chǎng)買的東西來(lái)推測(cè)她是否懷孕是不是件很難的事:應(yīng)該不太難。請(qǐng)參考國(guó)家衛(wèi)生局關(guān)于維生素補(bǔ)充劑葉酸的建議:建議所有準(zhǔn)備生育的女性在備孕期間和懷孕前12周每天補(bǔ)充400微克葉酸。如果你在懷孕前沒有服用葉酸補(bǔ)充劑,發(fā)現(xiàn)自己懷孕后請(qǐng)馬上開始服用。確保你攝入適量葉酸的唯一方法就是服用補(bǔ)充劑。

        看到了嗎?有這個(gè)常識(shí)的人,如果聽說有個(gè)女人開始購(gòu)買葉酸,除了她可能懷孕了,你還能聯(lián)想到什么?這很好猜出來(lái),不需要大數(shù)據(jù)告訴你。所以大數(shù)據(jù)沒那么神。

        杜希格關(guān)于塔吉特算法的故事以另一種方式讓我們認(rèn)識(shí)到我們高估了計(jì)算機(jī)的數(shù)據(jù)分析能力。

        數(shù)據(jù)學(xué)家馮啟思多年來(lái)就是為商超和廣告公司開發(fā)類似算法的專家,他說:“這個(gè)故事其實(shí)反映了一個(gè)似是而非的問題?!彼囊馑际怯行]懷孕的女性也收到了母嬰優(yōu)惠券,只是我們不知道而已。我們不能天真地認(rèn)為塔吉特的電腦有讀心術(shù),還需要想一想他們天女散花般地發(fā)優(yōu)惠券,射擊目標(biāo)錯(cuò)誤的太多了。

        其實(shí)購(gòu)買葉酸不一定懷孕:這個(gè)女人可能因?yàn)閯e的原因需要服用葉酸,或者她可能在替別人買,或者她可能懷孕了但孩子沒保?。ㄟ@樣的話她在看到母嬰優(yōu)惠券時(shí)該有多難過),或者她想懷孕,但沒懷上。你覺得塔吉特的算法能神機(jī)妙算到把這些例外都剔除掉的地步嗎?這是不可能的。

        在查爾斯·杜希格的故事中,塔吉特商場(chǎng)提供的母嬰優(yōu)惠券里其實(shí)還混有其他商品的優(yōu)惠券,比如酒杯優(yōu)惠券。如果真有孕婦想喝酒,當(dāng)意識(shí)到商場(chǎng)電腦連這個(gè)都能算出來(lái),她們會(huì)不會(huì)感到害怕?但馮啟思是這樣解釋的:塔吉特給顧客寄某種優(yōu)惠券的同時(shí)還附帶上其他商品的優(yōu)惠券,不是因?yàn)榻o孕婦只寄一些母嬰優(yōu)惠券會(huì)顯得突兀,而是因?yàn)楣局?,收到母嬰?yōu)惠券的未必都是孕婦。

        所以,當(dāng)時(shí)那個(gè)接待女孩父親的經(jīng)理應(yīng)該這樣說:“您不用擔(dān)心,我們的很多顧客都會(huì)收到那樣的優(yōu)惠券,不是只針對(duì)您的孩子。”他沒那樣說,是因?yàn)樗臀覀兤胀ㄈ艘粯?,都不知道商?chǎng)算法是怎么算的。

        情況很有可能是這樣的:通過顧客購(gòu)買的商品,懷孕的顧客很容易被甄別出來(lái),因此塔吉特的大數(shù)據(jù)肯定比盲猜的準(zhǔn)確率要高一些。然而,毫無(wú)疑問,它肯定不是百發(fā)百中。孕婦大概率出現(xiàn)在15~45歲的女性中,如果讓你盲猜誰(shuí)是孕婦,你也有大約5%的命中率。如果塔吉特算法能把命中率提高到10%或15%,那也很值。因?yàn)榧词鼓成唐返膬?yōu)惠券投放精準(zhǔn)度提高一點(diǎn),也有助于提高商場(chǎng)的利潤(rùn),但商場(chǎng)絕不應(yīng)該為了利潤(rùn)率去深挖顧客的隱私。

        因此,有必要給這些炒作降降溫,不要認(rèn)為劍橋分析公司已經(jīng)掌握了人的思想,然后以為機(jī)器統(tǒng)治世界的時(shí)代來(lái)了;也不要昏了頭,認(rèn)為大數(shù)據(jù)輕松取代煩瑣的老式統(tǒng)計(jì)方法(如疾控中心對(duì)流感的調(diào)查)就萬(wàn)事大吉了。

        當(dāng)我第一次與大數(shù)據(jù)打交道時(shí),我給劍橋大學(xué)教授大衛(wèi)·史匹格哈特爵士打了個(gè)電話——他是英國(guó)頂尖的統(tǒng)計(jì)學(xué)家之一,也是一位杰出的統(tǒng)計(jì)知識(shí)傳播者。電話里,我總結(jié)了那些看好大數(shù)據(jù)的人的觀點(diǎn):不可思議的準(zhǔn)確性;全數(shù)據(jù)覆蓋把抽樣統(tǒng)計(jì)比了下去;建??梢話仐壛?,因?yàn)椤皵?shù)據(jù)自然會(huì)呈現(xiàn)一定的規(guī)律”。

        他覺得沒有必要用專業(yè)術(shù)語(yǔ)來(lái)表述以顯得高大上。他說,那些說法都是胡扯,沒一句對(duì)的。要讓大數(shù)據(jù)發(fā)揮作用,說起來(lái)容易做起來(lái)難。200年來(lái),統(tǒng)計(jì)學(xué)家們一直都很警惕,當(dāng)我們?cè)噲D通過數(shù)據(jù)來(lái)了解世界時(shí),數(shù)據(jù)會(huì)給我們?cè)O(shè)什么樣的誤區(qū)。如今數(shù)據(jù)更大、更快、更易得,我們不要以為誤區(qū)消失了。不,它們一直都在。

        史匹格哈特說:“小的數(shù)據(jù)問題在大數(shù)據(jù)中比比皆是。并不是數(shù)據(jù)多就不會(huì)出問題,有時(shí)數(shù)據(jù)多了,問題更大。”

        像查爾斯·杜希格寫的塔吉特商場(chǎng)精準(zhǔn)投放母嬰優(yōu)惠券那個(gè)故事,讀者信了也就算了。但要是當(dāng)權(quán)者也被他們不懂的算法嚇到,并依靠這些算法做關(guān)系民生的重大決定,那就麻煩大了。

        凱西·奧尼爾在《算法霸權(quán):數(shù)學(xué)殺傷性武器的威脅與不公》一書中列舉的最典型的例子之一是華盛頓特區(qū)用來(lái)評(píng)估教師教學(xué)質(zhì)量的算法IMPACT。書中是這樣描繪的:該市各個(gè)學(xué)校中,許多受學(xué)生愛戴的教師因?yàn)樵谙到y(tǒng)上打分很低,突然被解雇了。

        IMPACT算法聲稱衡量的是教學(xué)質(zhì)量,也就是以考試成績(jī)?yōu)闇?zhǔn),檢查每個(gè)教師在班上帶的學(xué)生是進(jìn)步了還是倒退了。其實(shí),衡量教學(xué)質(zhì)量很難,有時(shí)學(xué)生成績(jī)高低與老師無(wú)關(guān),原因有二。第一,不管老師教得如何,學(xué)生的成績(jī)都會(huì)因人而異。所以一個(gè)班30個(gè)學(xué)生里,肯定有一些是算法應(yīng)該排除的干擾項(xiàng)。又或者,如果有那么幾個(gè)孩子,在開學(xué)考試中,運(yùn)氣好,蒙對(duì)不少答案,得到了高分,到了期末考試,運(yùn)氣差,得分低了,就把老師坑了,因?yàn)檫@樣老師排名就會(huì)降低。所以,這種排名有運(yùn)氣的成分在里面。還有一種情況,孩子的學(xué)習(xí)還受其他因素影響,這些因素也是老師不可控的。譬如,孩子生病了,或在學(xué)校里被人欺負(fù)了,或者家里爸爸媽媽因故被監(jiān)禁了,等等。這與學(xué)生運(yùn)氣好、蒙對(duì)題得高分不同,這是由某些具體原因?qū)е碌?,可能是造成學(xué)生成績(jī)下降的真正原因。所以,在評(píng)估老師的教育質(zhì)量時(shí),將這些課堂外的因素也考慮進(jìn)來(lái)才是有意義的評(píng)估,而不分青紅皂白地把學(xué)生成績(jī)下滑都?xì)w咎于老師,這種做法不僅愚蠢,而且不公平。

        IMPACT算法不公平的第二個(gè)原因是,不想公平競(jìng)爭(zhēng)的老師也可以用算法作弊,這樣就是老實(shí)人吃虧。譬如,六年級(jí)的老師在改卷時(shí),如果故意給他的學(xué)生放水,那么他會(huì)得到嘉獎(jiǎng),但接班的七年級(jí)老師下一年就慘了,因?yàn)樗男掳鄬⒍际切└叻值暮⒆樱撬舱业阶鞅椎姆椒?,否則這些孩子的高分已經(jīng)沒有進(jìn)步的空間了。

        因此,奧尼爾的觀點(diǎn)是可信的,即如果數(shù)據(jù)里干擾項(xiàng)太多,我們不能指望算法可以公平地評(píng)估教師的教學(xué)質(zhì)量。如果強(qiáng)行這么做,自然會(huì)出現(xiàn)算法結(jié)果和學(xué)生口碑結(jié)果不符的現(xiàn)象。但有什么用呢?華盛頓特區(qū)的教育局還是我行我素,2011年還是開除了206名未達(dá)到算法標(biāo)準(zhǔn)的教師。

        到現(xiàn)在為止,我們講的問題主要是我們過于相信算法的結(jié)果了。其實(shí)還有一個(gè)相關(guān)的問題:我們也過于相信數(shù)據(jù)集的質(zhì)量或完整性了。

        谷歌流感趨勢(shì)預(yù)測(cè)記錄了谷歌上的每一個(gè)流感相關(guān)的搜索,但不是每個(gè)得流感的人都會(huì)在谷歌搜索。預(yù)測(cè)的準(zhǔn)確性取決于流感患者“一定會(huì)上谷歌查流感知識(shí)”,但這是不可控的。

        數(shù)據(jù)集因偏差導(dǎo)致統(tǒng)計(jì)失靈的問題很容易失察。2014年,世界上市值最高的公司之一亞馬遜開始用算法篩選簡(jiǎn)歷,希望電腦對(duì)比以往錄取者的相似性,從大數(shù)據(jù)中找到模式,挑選出最適合的求職者。實(shí)際上,亞馬遜以前錄取的絕大多數(shù)是男性,可是算法不會(huì)意識(shí)到這個(gè)問題,它只會(huì)按程序來(lái)——找出模式并運(yùn)行。所以算法找到的模式就是既然過去錄取的大多數(shù)是男性,那就優(yōu)先考慮男性吧。亞馬遜在2018年棄用了該算法。

        還記得“算法有種族主義”的標(biāo)題嗎?算法不會(huì)種族歧視,也不會(huì)厭惡女性,或仇視同性戀,或有其他偏見。倒是人會(huì)有這些偏見和歧視。人類現(xiàn)在正努力消除這些偏見,但如果電腦還在用那些含有偏見的舊數(shù)據(jù),這些偏見就會(huì)借尸還魂。

        我希望我前面的例子已經(jīng)說服了你,就是我們不應(yīng)該急于把我們的決定權(quán)托付給算法。但我也不希望矯枉過正,完全拒絕算法,因?yàn)槲覀儸F(xiàn)在還沒有找到可靠的替代方案來(lái)做決定。我們必須在算法和人類之間選擇,人會(huì)有偏見,會(huì)疲勞,會(huì)受到干擾,會(huì)力不從心,會(huì)受很多主觀因素的影響,這是人類的特性。

        20世紀(jì)50年代,心理學(xué)家保羅·米爾做了一個(gè)實(shí)驗(yàn):電腦依據(jù)以往的數(shù)據(jù)統(tǒng)計(jì),給人看病,看它的診斷準(zhǔn)確率能否超過有經(jīng)驗(yàn)的醫(yī)生。例如,一個(gè)病人到醫(yī)院時(shí)主訴胸痛,那這是消化不良還是心臟病引起的?電腦問診程序是這樣的:胸痛是主要癥狀嗎?有心臟病史嗎?以前用過硝酸甘油來(lái)緩解胸痛嗎?心電圖有異常嗎?米爾將有經(jīng)驗(yàn)醫(yī)生的診斷結(jié)果和電腦這種簡(jiǎn)單的層層排除法結(jié)果進(jìn)行了比較。結(jié)果令人不安,電腦診斷得更準(zhǔn)確。這不是唯一的例子,米爾發(fā)現(xiàn),與電腦的層層排除法相比,醫(yī)生們?cè)诖蠖鄶?shù)情況下,判斷得都不如電腦準(zhǔn)確。

        所以,看問題要公平,我們可以比較一下,同樣的情況下,現(xiàn)在的算法和人做出決定,哪個(gè)錯(cuò)誤率更高。我們就以漢娜·弗萊的《你好,世界:在機(jī)器時(shí)代如何成為人類》一書中的一個(gè)例子開始。

        故事發(fā)生在2011年倫敦騷亂期間。商店會(huì)在下午早早關(guān)門,守法的市民會(huì)趕緊回家,因?yàn)樗麄冎?,隨著天色漸暗,趁火打劫者就會(huì)上街。在3天的騷亂中,警察逮捕了1,000多人,其中包括尼古拉斯·羅賓遜和理查德·約翰遜。在混亂中,羅賓遜順手從倫敦一家被敲碎玻璃的超市里拿了一包瓶裝礦泉水。而約翰遜開車去了一家游戲店,蒙了塊頭巾,跑進(jìn)去抱了一大堆電腦游戲機(jī)出來(lái)。約翰遜盜竊的物品價(jià)值更高,而且是有預(yù)謀的,不是一時(shí)興起。然而,羅賓遜被判了6個(gè)月的徒刑,而約翰遜根本沒有入獄。這是法官做的奇葩裁決。

        法官依據(jù)案件的一些情節(jié)做出不同判決也是常有的事,但對(duì)于這兩個(gè)人的不同處理,最有可能的原因是,羅賓遜是在騷亂發(fā)生兩周后被審的,當(dāng)時(shí)大家都還神經(jīng)緊繃,政府要嚴(yán)懲騷亂分子,以起到警示作用。等幾個(gè)月后,約翰遜被審時(shí),人們對(duì)騷亂的記憶已經(jīng)逐漸淡化,甚至都想不起來(lái)當(dāng)初騷亂的起因是什么了。

        但一個(gè)以數(shù)據(jù)為根據(jù)的算法會(huì)不會(huì)免除這些干擾,給出更公平的判決呢?我們無(wú)從得知,大概率會(huì)吧。有充分的證據(jù)表明,法官們的標(biāo)準(zhǔn)并不十分統(tǒng)一。有這樣一個(gè)測(cè)試,有人假設(shè)了一個(gè)案子,讓不同的法官審,看看他們的裁定是否一致。結(jié)果是:都不一樣。此外,法官甚至自己的標(biāo)準(zhǔn)都不能保證前后一致。2001年,在英國(guó)的一項(xiàng)研究中,被測(cè)試的法官被要求對(duì)各類不同案件做出判決。有些案件(為了掩蓋測(cè)試的真實(shí)目的,不同案件時(shí)間相隔很遠(yuǎn))其實(shí)是重復(fù)案件,就是把名字和不重要的細(xì)節(jié)改了。法官們毫不知情,對(duì)同一個(gè)案件,他們甚至做出了和自己之前完全不同的判決。這樣的失誤對(duì)計(jì)算機(jī)來(lái)說是不可想象的。

        經(jīng)濟(jì)學(xué)家森迪爾·穆萊納坦和他的4位同事最近在美國(guó)進(jìn)行了一項(xiàng)研究,他們分析了2008年~2013年紐約市的75萬(wàn)多起案件。在一些案子中,一些被告被拘留,法官對(duì)這些被告做了不同的裁定,有些被釋放,有些被羈押,有些被允許取保候?qū)彙H缓?,研究人員核查了這些被告后來(lái)的犯罪情況。此后,他們利用這些案件中的其余一部分(22萬(wàn)件)讓算法來(lái)裁定,看是釋放,還是羈押,或者保釋。他們用這些剩下的案例來(lái)檢驗(yàn)算法相較于法官是否能做出更好的裁決。

        結(jié)果是:機(jī)器再一次表現(xiàn)得更好。算法對(duì)一群被告裁定為羈押,這將犯罪率降低了近25%,因?yàn)榘缸陲@示,這群被告的確是釋放后馬上又犯案了。還有,算法也準(zhǔn)確裁定了另一群人可以釋放或保釋,而這些人的確沒有再滋事端,也就是說,算法的準(zhǔn)確率可以將拘留人員減少40%。以22萬(wàn)件案件來(lái)算,意味著成千上萬(wàn)宗的犯罪本來(lái)可以被提前終止,或者成千上萬(wàn)的人提審前無(wú)須拘留。在這個(gè)例子里,算法的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于法官。

        法官們常犯的一個(gè)失誤是法學(xué)家卡斯·桑斯坦所說的“現(xiàn)行犯罪誤區(qū)”,也就是說,在是否允許犯罪嫌疑人取保候?qū)彆r(shí),法官們的注意力主要集中在被告目前被指控的罪行。即使被告的犯罪記錄表明他們是慣犯,但如果他們這次被指控的罪行輕微,那么法官仍把他們視為危害不大的罪犯,準(zhǔn)予保釋;另一方面,如果一個(gè)被告當(dāng)前罪行嚴(yán)重,但他的犯罪記錄不多,法官也仍視他為危險(xiǎn)性大的罪犯,拒絕保釋。在判案時(shí),算法會(huì)將一個(gè)案件的所有有用信息作為考慮因素,但是法官們,盡管他們訓(xùn)練有素,有頭腦和經(jīng)驗(yàn),也往往會(huì)考慮不周。

        考慮不周似乎是人類無(wú)法避免的。正如前文提到的尼古拉斯·羅賓遜和理查德·約翰遜的案子。我把兩個(gè)人的犯罪事實(shí)都說了,也沒有提供羅賓遜和約翰遜的其他信息。或許,對(duì)你我來(lái)說,不用來(lái)龍去脈,長(zhǎng)話短說,只要把他們兩人的犯案情況簡(jiǎn)明扼要地說出來(lái)就好。但算法會(huì)去搜尋兩人更多的信息,并將其列為考量因素。人類可能做不到這樣。

        對(duì)于重要的事,到底是相信算法,還是相信人類,許多人都有直覺的判斷。有些人對(duì)算法頂禮膜拜,有些人還是全然相信人類的智慧。事實(shí)是,有時(shí)算法會(huì)比人類做得更好,有時(shí)則不然。如果我們想釋放大數(shù)據(jù)的潛能,讓它更好地為人類服務(wù),我們需要對(duì)具體算法具體評(píng)估。但實(shí)際操作的難度總是比我們想象的要大。

        譬如這樣一個(gè)例子。警察局或社會(huì)救助機(jī)構(gòu)接到某人的電話,稱有孩子處境危險(xiǎn),打電話者可能是孩子的鄰居、爺爺奶奶、醫(yī)生、老師,或其他擔(dān)心孩子的人。有時(shí)報(bào)的警是實(shí)情,有時(shí)是虛驚一場(chǎng),有時(shí)是想象過頭,有時(shí)甚至是惡作劇。最好的情形是,警察對(duì)任何報(bào)警電話都不敢掉以輕心,他們會(huì)立即拉起警報(bào)出警。但現(xiàn)實(shí)是,警力有限,不可能每個(gè)報(bào)警都出警,所以就要考慮優(yōu)先出哪些警。這樣一來(lái),他們對(duì)真正緊急的報(bào)警錯(cuò)失率就很大了:美國(guó)官方數(shù)據(jù)顯示,2015年有1,670名兒童因父母虐待或失職而死亡。這個(gè)數(shù)字很驚人,但相較針對(duì)兒童的400萬(wàn)人次報(bào)警電話,這只是個(gè)很小的比例。

        那么到底哪些報(bào)警電話需要出警,哪些不用呢?許多警署和社會(huì)救助機(jī)構(gòu)求助于算法來(lái)做決定。伊利諾伊州引進(jìn)了這樣一種算法,叫作“Rapid Safety Feedback”(快速安全反饋,簡(jiǎn)稱RSF)。它對(duì)每一次報(bào)警進(jìn)行數(shù)據(jù)分析,和以前的案例結(jié)果進(jìn)行比對(duì),將兒童可能死亡或受到嚴(yán)重傷害的風(fēng)險(xiǎn)用百分比的形式做了預(yù)測(cè)。

        預(yù)測(cè)效果很一般。《芝加哥論壇報(bào)》報(bào)道說,該算法給369名兒童打了100%的概率,也就是說,這些兒童一定會(huì)受重傷甚至死亡。但是,我們說,即便一個(gè)家庭的環(huán)境很惡劣,如果算法預(yù)測(cè)兒童一定會(huì)死亡也過于悲觀了。這樣的算法還可能產(chǎn)生連帶的不良影響,譬如,無(wú)辜的父母被控虐童或失職,這對(duì)父母和孩子都會(huì)造成可怕的后果。

        也許算法是出于謹(jǐn)慎,夸大了傷害的風(fēng)險(xiǎn),目的是不遺漏任何一個(gè)可能的風(fēng)險(xiǎn)?并非如此。因?yàn)橐泊嬖谝恍┛膳碌陌缸樱捎谒惴ù虻娘L(fēng)險(xiǎn)分值低,沒有出警,結(jié)果幼兒死了。所以,最后伊利諾伊州認(rèn)定這項(xiàng)技術(shù)沒用,甚至?xí)屒闆r更糟糕,于是停止使用了。

        這個(gè)故事的寓意并不是說算法不可以用來(lái)評(píng)估兒童傷害報(bào)警電話。我的意思是最后一定還是由人來(lái)做決定要不要出警。錯(cuò)誤在所難免,為什么算法沒有比人工客服判斷的正確率高也無(wú)法解釋。這個(gè)故事的寓意在于,因?yàn)檫@個(gè)特定算法給出了明顯荒謬的數(shù)字,讓我們知道了這個(gè)算法的局限性,從而對(duì)它的正確性警覺起來(lái)。

        統(tǒng)計(jì)學(xué)家安德魯·蓋爾曼解釋說:“算法給出的是數(shù)字概率,這是好事,因?yàn)檫@暴露了它判斷上的失誤,讓我們警惕起來(lái)。”

        所以問題不在于算法,也不在于大數(shù)據(jù)集。問題是算法需要審查、有透明度和允許討論。

        當(dāng)錯(cuò)誤的算法讓好教師丟了飯碗,將寶貴的救助服務(wù)資源導(dǎo)向錯(cuò)誤的家庭,或者女性求職者被打分過低時(shí),這就是大問題了,我們必須讓它們接受審查。

        但是怎么做呢?

        一種方法是由茱莉婭·安格溫領(lǐng)導(dǎo)的ProPublica調(diào)查記者團(tuán)隊(duì)使用的。安格溫的團(tuán)隊(duì)希望仔細(xì)研究一種被廣泛使用的算法,稱為COMPAS(罪犯懲戒管理分析,用于替代制裁)。COMPAS使用含有137個(gè)問題的問卷來(lái)評(píng)估罪犯再次犯罪的風(fēng)險(xiǎn)。它起作用了嗎?公平嗎?

        調(diào)查困難重重。COMPAS的技術(shù)由一家叫Equivant的公司(前身為Northpointe)擁有,該公司沒有義務(wù)分享其工作原理和細(xì)節(jié)。因此,安格溫和她的調(diào)查小組不得不不辭勞苦地從佛羅里達(dá)州的布勞沃德縣警署調(diào)取資料,該州的警署很公開透明,安格溫的小組可以通過調(diào)取算法分析結(jié)果來(lái)判斷算法的公平性。

        以下是“以人民的名義”調(diào)查小組如何開展工作的自述。

        我們向佛羅里達(dá)州的布勞沃德縣警署申請(qǐng)調(diào)閱監(jiān)獄記錄并獲準(zhǔn)。我們獲得了2013年和2014年兩年共計(jì)18,610人的COMPAS打分情況。COMPAS給每個(gè)被告出庭前打了至少三種分?jǐn)?shù):“累犯風(fēng)險(xiǎn)”“暴力行為風(fēng)險(xiǎn)”和“拒不出庭風(fēng)險(xiǎn)”。每個(gè)被告的COMPAS分?jǐn)?shù)是1到10之間,以10為最高風(fēng)險(xiǎn)。COMPAS將1到4分標(biāo)記為“低風(fēng)險(xiǎn)”,5到7分標(biāo)記為“中風(fēng)險(xiǎn)”,8到10分標(biāo)記為“高風(fēng)險(xiǎn)”。從COMPAS得分?jǐn)?shù)據(jù)庫(kù)開始,我們要評(píng)估的是每個(gè)被告在得分前后的表現(xiàn)和得分預(yù)判的一致性。我們又從布勞沃德縣警署辦公室網(wǎng)站下載了截至2016年4月1日本地所有的案件記錄,大約8萬(wàn)宗犯案記錄,然后以姓名和出生日期為準(zhǔn),將我們數(shù)據(jù)中的被告和下載的犯案記錄進(jìn)行比對(duì)。我們數(shù)據(jù)中的被告不在獄時(shí)間平均為622.87天(標(biāo)準(zhǔn)偏差為329.19)。

        這項(xiàng)工作量很大的調(diào)查工作就按這樣的程序展開了。

        調(diào)查結(jié)束后,他們發(fā)布了調(diào)查結(jié)果。盡管COMPAS算法沒有以違法者的種族作為預(yù)測(cè)指標(biāo),但是預(yù)測(cè)結(jié)果有明顯的差異性。算法更容易給黑人違法者打高分(預(yù)測(cè)他們會(huì)再次犯罪,但事實(shí)上他們沒有),而給白人違法者打低分(預(yù)測(cè)他們不會(huì)再次犯罪,但恰恰相反)。

        這不免讓人擔(dān)憂:人類有種族歧視的劣根性,但已經(jīng)將其視為不道德也不合法的行為;如果算法也會(huì)導(dǎo)致這種行為,我們同樣不能容忍。

        但隨后,四位專業(yè)技術(shù)人員薩姆·科貝特·戴維斯、艾瑪·皮爾森、阿維·費(fèi)勒和沙拉德·戈?duì)栔赋觯瑔栴}沒有那么簡(jiǎn)單。他們利用ProPublica調(diào)查小組辛苦整理的數(shù)據(jù),通過另一個(gè)重要指標(biāo)證明了算法是公平的,即如果算法給一個(gè)黑人、一個(gè)白人兩個(gè)違法者打的是相同的風(fēng)險(xiǎn)評(píng)級(jí),而實(shí)際表現(xiàn)中,這兩個(gè)人的再次犯罪概率也的確是一樣的,從這個(gè)角度講,算法并沒有種族歧視。

        此外,技術(shù)人員還指出,算法不可能同時(shí)在兩個(gè)方面對(duì)所有種族都公平,要么在錯(cuò)誤率的比例上平等,要么在風(fēng)險(xiǎn)評(píng)分上平等,但不可能兩個(gè)同時(shí)兼顧:數(shù)據(jù)沒法平衡。

        因此,要看這個(gè)算法打分是不是公平,唯一的方法是忽略違法者群體的年齡、性別、種族、發(fā)色、身高等差異,純粹看他們的實(shí)際行為和算法得分的匹配度。但算法如果以這種標(biāo)準(zhǔn)打分,出來(lái)的結(jié)果勢(shì)必在年齡、性別、種族、發(fā)色或身高等方面有不穩(wěn)定的表現(xiàn),就會(huì)被視為有失公允。所以,不管算法是否將以上因素考慮進(jìn)去,都會(huì)顧此失彼,難以平衡,這是事實(shí)。換作法官也是如此,所以這是一個(gè)取舍的問題。

        茱莉婭·德萊塞爾和漢尼·法里德都是計(jì)算機(jī)專家,他們一直關(guān)注這場(chǎng)COMPAS是否產(chǎn)生了有種族偏見結(jié)果的辯論。德萊塞爾對(duì)科普作家埃德·揚(yáng)說:“大家在爭(zhēng)論COMPAS的時(shí)候,潛意識(shí)里似乎都認(rèn)定這個(gè)算法比人預(yù)測(cè)得準(zhǔn),但我找不到任何證據(jù)證明這一點(diǎn)?!?/p>

        由于有了ProPublica調(diào)查小組的基礎(chǔ)工作,德萊塞爾和法里德也可以就他們的疑惑展開調(diào)查。即使COMPAS的算法還是個(gè)秘密,但ProPublica已經(jīng)公布了足夠多的算法預(yù)測(cè)數(shù)據(jù),允許人們?cè)僬{(diào)用它,用其他變量進(jìn)行有意義的測(cè)試。其中之一是一個(gè)簡(jiǎn)單的數(shù)學(xué)模型,只有兩個(gè)變量:罪犯的年齡和以前犯罪的次數(shù)。德萊塞爾和法里德發(fā)現(xiàn),雙變量模型和廣受吹捧的137個(gè)變量的COMPAS模型的準(zhǔn)確率是一樣的。最后,他倆做了人與算法準(zhǔn)確率對(duì)比的實(shí)驗(yàn)。他們測(cè)試了一些普通人,給他們看了每個(gè)違法者的7條相關(guān)信息,讓他們預(yù)測(cè)這些違法者是否會(huì)在兩年內(nèi)再次犯罪,結(jié)果是其中一些普通人的預(yù)測(cè)平均值高于COMPAS算法。

        這個(gè)結(jié)果有點(diǎn)讓人猝不及防。正如法里德說的,如果算法將一個(gè)違法者評(píng)為高風(fēng)險(xiǎn)者,法官可能會(huì)聽信,但如果我們告訴法官“我們?cè)诰W(wǎng)上進(jìn)行了20個(gè)人的采訪,他們都說這個(gè)違法者會(huì)再次犯罪”,法官不大可能會(huì)考慮我們的意見。

        要求COMPAS算法的準(zhǔn)確率高于20個(gè)來(lái)自互聯(lián)網(wǎng)隨機(jī)網(wǎng)民的判斷過分嗎?這個(gè)要求高嗎?然而COMPAS算法居然沒有達(dá)到這個(gè)水平。

        既然COMPAS預(yù)測(cè)的公共數(shù)據(jù)已經(jīng)是公開的了,那么其他技術(shù)人員就可以對(duì)它進(jìn)行技術(shù)解剖了,找出它的缺點(diǎn)也就不難了。

        就像人一樣,算法也分可以相信的算法和不可輕信的算法。這與區(qū)別對(duì)待他人一樣,不要問:“我們應(yīng)該相信算法嗎?”我們應(yīng)該問:“我們可以信任哪些算法,我們可以把什么東西交給算法去做?”

        奧諾拉·奧尼爾認(rèn)為,如果算法要證明它的可信度,首先要證明“它的智能經(jīng)得起檢驗(yàn)”。為此,她列了一個(gè)清單,即智能經(jīng)得起檢驗(yàn)應(yīng)該具備的四個(gè)屬性。首先,數(shù)據(jù)應(yīng)該是可訪問的,這意味著它們不被深藏在某個(gè)秘密數(shù)據(jù)庫(kù)的深處而不能為公眾所用。其次,數(shù)據(jù)結(jié)果應(yīng)該清晰易懂。再次,算法結(jié)果應(yīng)該以可利用的形式呈現(xiàn),也就是說,結(jié)果應(yīng)該是標(biāo)準(zhǔn)的數(shù)字格式的。最后,算法結(jié)果應(yīng)該是可測(cè)評(píng)的,即任何有時(shí)間和專業(yè)知識(shí)的人想要嚴(yán)格測(cè)評(píng)算法有效性,都可以調(diào)取算法的詳細(xì)資料。

        奧尼爾的原則很有道理,畢竟很多算法都事關(guān)人命,例如,是否應(yīng)該釋放一個(gè)案犯,接到虐童的報(bào)警電話是否出警。所以我們應(yīng)該引進(jìn)外部的專家來(lái)測(cè)評(píng)算法的有效性。人類有法律保證,例如,禁止種族歧視和性別歧視,我們需要確保算法也不能出這樣的紕漏,至少在法庭上不會(huì)被找到這樣的漏洞。

        《算法霸權(quán):數(shù)學(xué)殺傷性武器的威脅與不公》的作者凱西·奧尼爾認(rèn)為,數(shù)據(jù)專家應(yīng)該像醫(yī)生一樣,成立一個(gè)專門的組織,來(lái)規(guī)范職業(yè)道德。至少,這可以為有問題要舉報(bào)的人提供一個(gè)去處。“這樣,當(dāng)老板(比如臉書)要求我們做一些自己認(rèn)為有違道德標(biāo)準(zhǔn)的事情,或者至少這種做法傷害了客戶對(duì)我們的信任,就有可以投訴之處了?!?/p>

        算法與醫(yī)學(xué)實(shí)踐還有一點(diǎn)類似,重要的算法也應(yīng)該使用隨機(jī)對(duì)照試驗(yàn)進(jìn)行測(cè)試。如果一個(gè)算法的程序員聲稱他的算法可以測(cè)評(píng)出老師是否應(yīng)被解雇,或者犯罪嫌疑人是否應(yīng)被保釋,我們的回答是“證明它”。醫(yī)學(xué)發(fā)展史告訴我們,很多理論聽起來(lái)無(wú)懈可擊,但操作起來(lái)就不是那么回事了。算法不是藥物,簡(jiǎn)單地克隆FDA這樣的組織是行不通的;我們需要在更短的時(shí)間內(nèi)進(jìn)行試驗(yàn),并從不同的角度看待知情同意(臨床試驗(yàn)對(duì)于批準(zhǔn)新藥用于人類的標(biāo)準(zhǔn)很高;我們也還不清楚能否將這些標(biāo)準(zhǔn)運(yùn)用于教師或犯罪嫌疑人評(píng)估的算法上)。不過,任何對(duì)他們算法有信心的人都應(yīng)該歡迎公眾的檢驗(yàn)。所以,除非那些算法可以證明自己,否則我們是不能把學(xué)校和法院這樣重要機(jī)構(gòu)的評(píng)估托付給算法的。

        當(dāng)然,不是所有的算法都值得被如此關(guān)注。讓外部專家去審核塔吉特母嬰用品優(yōu)惠券的算法,就小題大做了。需要審核哪個(gè)算法要看具體情況,對(duì)算法可信度和透明度的要求也要具體情況具體分析。

        例如,我們對(duì)YouTube(油管)的視頻推薦算法和網(wǎng)飛的電影推薦算法要求就不一樣。YouTube上有大量不良視頻,其推薦引擎也因經(jīng)常推薦這些不雅或暗黑的視頻而遭人詬病。目前,是否有證據(jù)證明YouTube引擎的激進(jìn)主義還是個(gè)未知數(shù),但如果沒有更多的算法透明度,就很難說清它不是這樣的。

        網(wǎng)飛的問題是另一個(gè)類型的:擔(dān)心競(jìng)爭(zhēng)。它的推薦算法是依據(jù)客戶以往觀看過哪些電影這樣巨大的秘密數(shù)據(jù)庫(kù)而搭建的,亞馬遜也有一個(gè)類似的巨型數(shù)據(jù)庫(kù),但它們都不公開這些數(shù)據(jù)庫(kù),這無(wú)助于算法的提高。假設(shè)我是一個(gè)很有想法的年輕企業(yè)家,想根據(jù)人們以前的觀影習(xí)慣,用一種新的算法來(lái)預(yù)測(cè)人們會(huì)喜歡哪些電影。如果沒有大數(shù)據(jù)來(lái)檢驗(yàn),我的好點(diǎn)子永遠(yuǎn)無(wú)法付諸實(shí)踐。是的,亞馬遜和網(wǎng)飛的觀影推薦算法沒有什么可指責(zé)的,但是有沒有辦法強(qiáng)迫它們公開自己的數(shù)據(jù)庫(kù),促成算法設(shè)計(jì)方面的競(jìng)爭(zhēng),最終讓消費(fèi)者受益呢?

        這當(dāng)然涉及隱私問題。你可能認(rèn)為這是一個(gè)很容易解決的問題:只需從記錄中刪除姓名,數(shù)據(jù)就成匿名的了。沒那么簡(jiǎn)單:有了一個(gè)豐富的數(shù)據(jù)集,并通過與其他數(shù)據(jù)集進(jìn)行關(guān)聯(lián),很容易就可以知道#961860384是誰(shuí)了。網(wǎng)飛曾經(jīng)舉行了一個(gè)尋找更好推薦算法的競(jìng)賽,為此向技術(shù)人員發(fā)布了一個(gè)匿名數(shù)據(jù)集。不幸的是,結(jié)果發(fā)現(xiàn)它的一個(gè)會(huì)員在網(wǎng)飛上發(fā)表了對(duì)一部家庭錄像的評(píng)論,但又以真實(shí)姓名將同一評(píng)論發(fā)布在互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)網(wǎng)站(IMD)上。這樣網(wǎng)飛用戶就知道她是誰(shuí)了,要命的是她的評(píng)論表明她是個(gè)女性同性戀者,這是她的死穴,也是不希望別人知道這事。

        此事鬧得沸沸揚(yáng)揚(yáng),她起訴網(wǎng)飛“暴露”了她的隱私,最后雙方私下和解了結(jié)了此事。

        盡管公開數(shù)據(jù)庫(kù)這個(gè)問題十分棘手,但是必須找到解決方法。方法之一是允許被授權(quán)的技術(shù)人員接觸數(shù)據(jù)庫(kù)。另一種方法是發(fā)布“模糊”數(shù)據(jù),即所有單個(gè)數(shù)據(jù)都模糊處理,但不影響整個(gè)數(shù)據(jù)結(jié)構(gòu)的完整性。因?yàn)椴唤鉀Q數(shù)據(jù)庫(kù)公開的問題,就難以保證商業(yè)上的公平競(jìng)爭(zhēng)。像谷歌和臉書這樣的公司,因?yàn)樗鼈儞碛芯薮蟮臄?shù)據(jù)庫(kù),從而獲得了絕對(duì)的競(jìng)爭(zhēng)優(yōu)勢(shì),可以輕易把小的競(jìng)爭(zhēng)對(duì)手扼殺在萌芽狀態(tài),或者使用一個(gè)服務(wù)(如谷歌搜索)的數(shù)據(jù)來(lái)推廣另一個(gè)服務(wù)(如谷歌地圖或安卓系統(tǒng))。如果這些數(shù)據(jù)中的一部分被公開,其他公司就能夠從中學(xué)習(xí)借鑒,并提高或改善算法,以更好的服務(wù)向大公司發(fā)起挑戰(zhàn)。不僅商界人士,科學(xué)家和社會(huì)學(xué)家也可以從大數(shù)據(jù)庫(kù)中受益。一種可能的模式就是要求私人“大數(shù)據(jù)庫(kù)”在若干時(shí)間后公開,并提供適當(dāng)?shù)哪涿Wo(hù)。三年前的數(shù)據(jù)對(duì)于許多商業(yè)用途來(lái)說是過時(shí)的,但對(duì)科學(xué)研究可能仍然具有巨大的價(jià)值。

        這有一個(gè)先例可以借鑒一下:專利發(fā)明人必須先同意專利到期后開放其技術(shù),才可以得到知識(shí)產(chǎn)權(quán)保護(hù),也許對(duì)擁有大數(shù)據(jù)集的私有企業(yè)也可以用同樣的思路來(lái)要求它們公開數(shù)據(jù)庫(kù)。

        大數(shù)據(jù)正在改變我們周圍的世界,如果電腦以人類不能理解的方式代替人類做決定或預(yù)判,自然會(huì)遭到排斥。我認(rèn)為人類的擔(dān)心并不多余?,F(xiàn)代數(shù)據(jù)分析可以產(chǎn)生一些奇跡般的結(jié)果,但大數(shù)據(jù)往往不如小數(shù)據(jù)可信。小數(shù)據(jù)通常可以被核實(shí),大數(shù)據(jù)往往被深藏在硅谷的地庫(kù)里。分析小數(shù)據(jù)的統(tǒng)計(jì)工具也容易檢驗(yàn),但模式識(shí)別算法則容易成為商業(yè)領(lǐng)域敏感的神秘黑匣子。

        所以我認(rèn)為我們既要抵制人們對(duì)大數(shù)據(jù)和算法的炒作,也要警惕對(duì)它們的全盤否定。涉及要緊的事情,我們應(yīng)該就事論事地不停追問:底層數(shù)據(jù)是否可訪問?算法的性能是否進(jìn)行了嚴(yán)格的評(píng)估?例如,通過隨機(jī)試驗(yàn),看看人們是否在沒有算法幫助的情況下做得更好。是否允許外部專家對(duì)算法進(jìn)行評(píng)估?他們的結(jié)論是什么?我們絕不可以把算法和人都絕對(duì)化,認(rèn)定一個(gè)怎么都比另一個(gè)好,這樣一刀切的想法才是個(gè)大大的陷阱。

        无码人妻av免费一区二区三区| 亚洲av中文字字幕乱码软件| 亚洲av毛片在线网站| 国产人成无码视频在线观看 | 亚洲女同恋av中文一区二区| 免费无码av一区二区三区| 8888四色奇米在线观看| 91福利精品老师国产自产在线| 中文字幕人妻av一区二区| 国产精品美女一区二区视频 | 无码专区天天躁天天躁在线| 欧洲亚洲色一区二区色99| 中文字幕有码在线亚洲| av免费不卡国产观看| 18禁男女爽爽爽午夜网站免费| 国产美女亚洲精品一区| 中文有码人妻字幕在线| 性无码免费一区二区三区在线| 日韩AV无码免费二三区| 一个人看的在线播放视频| 亚洲av免费手机在线观看| 国产精品沙发午睡系列990531| 2021年最新久久久视精品爱| 久久精品国产亚洲av夜夜| 激情内射亚洲一区二区三区| 亚洲国产成人久久一区www| 国产品精品久久久久中文| 免费精品人妻一区二区三区| 人妻体内射精一区二区三四| 亚洲成人福利在线观看| 国产亚洲精品视频在线| 欧美群妇大交群| 999国内精品永久免费视频| 国产成人精品aaaa视频一区| 国产不卡在线观看视频| 亚洲av无码一区二区乱孑伦as| 亚洲AV无码精品色欲av| 中文字幕人妻av四季| 少妇精品无码一区二区三区| 欧美另类视频在线| 在线免费午夜视频一区二区|