亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)技術如何顧及隱私與公平

2020-02-10 04:11:10黃湘

第一財經(jīng) 2020年1期

黃湘

《倫理算法：具有社會意識的算法設計科學》

作者：[美]邁克爾·克恩斯（Michael Kearns）、亞倫·羅斯（Aaron Roth）

出版社：Oxford University Press

出版時間：2019年11月

定價：24.95美元

本書位于計算機科學與哲學的交叉地帶，深入淺出地介紹了通過特定的算法原則將社會規(guī)范嵌入大數(shù)據(jù)技術之中的前沿思路。

邁克爾·克恩斯、亞倫·羅斯分別是美國賓夕法尼亞大學計算機系教授和副教授。

眾所周知，人類社會已進入大數(shù)據(jù)時代。大數(shù)據(jù)技術在創(chuàng)造巨大便利和效益的同時，也引發(fā)了始料未及的問題和隱患。每一個人在享受大數(shù)據(jù)技術成果的同時，其私人生活的方方面面也都成為被大數(shù)據(jù)技術——諸如手機里的各種App、公共場所的監(jiān)控視頻、每天的上網(wǎng)和刷卡記錄等等——所收集的數(shù)據(jù)。

一個備受關注的問題是隱私的泄露。在大數(shù)據(jù)時代，“匿名”并不能保護隱私。一個典型的例子是，Netflix網(wǎng)站曾經(jīng)推出一個增強版的電影評分系統(tǒng)，每一位用戶都可以匿名地對看過的電影評分，所有評分數(shù)據(jù)公開。但是研究表明，在99%的情況下，倘若某位具有窺視欲的A知道其目標對象B在一段時間內看過的6部電影的名稱（不需要掌握B看某部電影的精確日期，可以有前后兩周的誤差），就可以確認B在Netflix上的賬號，了解B的電影評分記錄。由于一個人對于電影的偏好可以反映他在日常生活中往往刻意掩飾的政治傾向和性傾向，所以這樣一個電影評分系統(tǒng)會泄露不少人的隱私。事實上，一位隱藏同性戀傾向的母親就因此把Netflix告上了法庭，Netflix最終取消了這個系統(tǒng)。

另一個問題雖然不像泄露隱私那樣明顯，但后果更為嚴重。在大數(shù)據(jù)時代，很多包含了數(shù)據(jù)篩選的工作，例如銀行貸款和公司招聘員工，都是由機器代替人來作決定。這能否保障公平？2018年，亞馬遜公司就曾爆出丑聞，它用于篩選求職者簡歷的機器學習模式，對“女性”這個詞匯予以貶低性評價，那些在簡歷中提到自己曾擔任“女子國際象棋隊隊長”或畢業(yè)于“女子學院”的求職者都被自動降格——關鍵在于，這個歧視女性的篩選模式是機器在處理大數(shù)據(jù)的過程中自行發(fā)展出來的，而不是某位人類程序員編程的結果。就像圍棋程序“阿爾法狗”（AlphaGo）打遍天下無敵手，但開發(fā)這個程序的程序員并不是圍棋高手。換言之，即使一家公司并不歧視特定人群，也不能保證他們所開發(fā)和使用的大數(shù)據(jù)技術不會歧視特定人群。長此以往，會造成嚴重的不公平。

那么，人類社會應當如何減少大數(shù)據(jù)技術對隱私和公平造成的危害呢？傳統(tǒng)思路是制定法律，規(guī)范人類對大數(shù)據(jù)技術的使用，這在許多國家已經(jīng)付諸實踐。而在計算機科學家群體內部，還有一條“從內部解決問題”的思路——把社會規(guī)范直接嵌入大數(shù)據(jù)技術之中，讓大數(shù)據(jù)技術本身顧及隱私與公平。

乍聽起來，這似乎是天方夜譚，怎么可能讓機器“理解”隱私和公平這種概念呢？事實上，所謂“讓大數(shù)據(jù)技術本身顧及隱私與公平”，是指通過特定的算法原則來指導機器如何處理大數(shù)據(jù)，而這些特定算法符合保護隱私和保障公平的倫理關懷。這正是美國兩位計算機科學家克恩斯（Michael Kearns）和羅斯（Aaron Roth）的《倫理算法：具有社會意識的算法設計科學》一書的主題。

先看隱私，傳統(tǒng)觀念認為匿名是保護隱私的利器，但是前述Netflix的例子說明，在大數(shù)據(jù)時代，匿名并不能真正保護隱私。另一個保護隱私的常見思路是對數(shù)據(jù)庫“上鎖”，只有掌握“鑰匙”的特定人士才能查閱相關數(shù)據(jù)，但是這樣就限制了數(shù)據(jù)的使用。而數(shù)據(jù)應當是開放共享的，如此方能用于各種科學研究，促進社會發(fā)展。那么，應該怎樣處理保護隱私和共享數(shù)據(jù)之間的矛盾呢？

在21世紀初期，計算機科學家建立了“差分隱私”（differential privacy）的概念。它的意思是，如果在數(shù)據(jù)庫里抹掉某個特定個體的數(shù)據(jù)，這個數(shù)據(jù)庫依然可以反映與保留該個體數(shù)據(jù)時完全一致的宏觀信息，那么這個數(shù)據(jù)庫就可以既保護該個體的隱私（通過抹掉），同時付諸研究者使用。

一個例子是調查一座城市里對婚姻不忠的人員的比例。這個問及“你是否曾經(jīng)對婚姻不忠”的調查無疑涉及隱私。為了保護隱私，可以采用隨機化的方法。調查者先讓被調查人員扔一枚硬幣，但是不要告訴調查者扔硬幣的結果。如果硬幣呈正面，則被調查人員說真話;如果硬幣呈反面，被調查者需要再扔一次硬幣，如果硬幣呈正面則說“是”，反面則說“否”。這種方法保證了調查者不會了解每一位被調查人員是否真的曾經(jīng)不忠，而在樣本數(shù)量足夠多的情況下，調查結果可以反映總體的人員比例。如果對婚姻不忠的人員比例是1/3，那么這次調查中說“是”的比例就是5/12。也就是說，通過隨機化調查可以反推出想知道的答案。對于通過“上鎖”來保護隱私的傳統(tǒng)方法來說，一旦“鑰匙”被破解，隱私就會被泄露。而隨機化方法建立的數(shù)據(jù)庫即使公開，也無法反推出某一個體的真實數(shù)據(jù)。

Google從2014年開始依據(jù)“差分隱私”原則來搜集用戶電腦中的惡意代碼（ma]ware）使用記錄，蘋果公司也從2016年開始依據(jù)此項原則來搜集iPhone用戶的使用記錄，它們的方法就是前文提到的隨機化，只是具體算法遠比它復雜。這是在大數(shù)據(jù)時代既保護隱私，又高效使用數(shù)據(jù)的兩全其美之道。

再看公平，這是一個遠比隱私復雜的概念。有一種觀點認為，保障公平的理想手段是屏蔽有可能導致歧視的相關信息，例如在公司招聘時，求職者不需要填寫自己的種族身份，以此避免種族歧視。但實際上，各類數(shù)據(jù)之間的相關性使得這種手段難以奏效。例如在美國，根據(jù)一個人住址的郵政編碼基本上就可以反推出他的種族身份、家庭收入和教育程度等信息。

因此，從限制數(shù)據(jù)輸入的角度來保障公平并非良策，要讓大數(shù)據(jù)技術顧及公平，關鍵在于通過特定算法來保證公平的數(shù)據(jù)輸出結果。而這首先需要確認“公平”的含義。

在最簡單的情況下，公平意味著統(tǒng)計上的均等。以劇院贈票為例，如果要向兩個群體A和B公平贈送10張票，A、B的人數(shù)之比是六比四，那么隨機在A群體中找6個人，在B群體中找4個人贈票就符合這種公平觀念。然而，即使是這樣簡單的公平觀念，將其嵌人大數(shù)據(jù)技術之中也并非易事。例如，假設贈票不僅要求A和B兩個群體公平，也要對男女公平，而兩個群體總人口中的男女比例也是六比四，那么將票隨機贈給A群體中的6個男人和B群體中的6個女人就能完全符合上述要求，但這就造成了對A群體中的女人和B群體中的男人的歧視。

問題在于，機器在通過自我學習處理大數(shù)據(jù)時，能夠執(zhí)行開發(fā)者明確提出的要求，卻常常未必能夠回避開發(fā)者想要回避卻又未曾明示的后果。由于開發(fā)者事先不可能預見所有后果，因此也就不可能事先明示機器。如何讓機器自己懂得回避這類后果，是計算機科學的一項難題。

另一方面，在牽涉到其他因素時，就不能再把公平等同于統(tǒng)計上的均等。如果銀行對前述A、B兩個群體發(fā)放貸款，而兩個群體的信用有所不同，那么就不能根據(jù)其人口比例來分配貸款。在這種情況下，公平不是在兩個群體之間均等地分配貸款，而是均等地分配“錯誤”。如果A群體的信用比B群體高，那么在兩者違約率均等的情況下，A群體就能夠得到較多貸款。

這說明公平的內涵是和社會語境相關的，在處理不同的問題時，需要不同的算法。

關于算法的公平性，一個致命的問題在于，最初輸入的數(shù)據(jù)可能就是具有歧視性的。例如，政府要計算A、B兩區(qū)的犯罪率，但是并沒有真實的犯罪數(shù)據(jù)，只有警察逮捕的數(shù)據(jù)。假設A、B兩區(qū)的實際犯罪率相同，但警察在B區(qū)的逮捕記錄較多，這將導致政府認為B區(qū)犯罪率較高，因此加派更多警察，而警察越多，逮捕的犯人就越多，如此形成的反饋環(huán)就會造成B區(qū)犯罪率遠高于

A區(qū)的印象。一個更加微妙的例子是前述亞馬遜招聘模式的性別歧視，那是因為許多日常語言就隱含了對女性的歧視，而這些日常語言作為訓練數(shù)據(jù)被輸入機器，機器在識別語義的學習過程中對“女性”這個詞匯自動予以貶低性評價。如何回溯并校正這種歧視性的數(shù)據(jù)輸入，是大數(shù)據(jù)技術的一項關鍵任務。

在很多情況下，公平并非唯一的目標，效率與公平需要兼顧。如果把“效率損失”和“不公平程度”作為兩個量化指標，那么這種兼顧可以表示為如下指令：“在不增加效率損失的前提下盡可能減少不公平程度，在不增加不公平程度的前提下盡可能減少效率損失?！毙屎凸皆诤芏鄷r候常常是沖突的，在這種情況下，上述指令就相當于經(jīng)濟學所說的“帕累托改進”，最終會達到所謂“帕累托邊界”，也就是不再存在改進的可能，不可能減少不公平程度而不增加效率損失，反之亦然。

“帕累托邊界”包含了眾多可能的組合。一種極端情況是效率損失為零，完全不考慮公平，這時減少不公平程度就會增加效率損失。另一種極端情況則是不公平程度為零，但完全不考慮效率。任何可以通過數(shù)據(jù)反映“效率損失”和“不公平程度”的問題，都可以利用程序推算出它的“帕累托邊界”，但是把該邊界上的哪一個點——即哪一種“效率”與“公平”的組合——作為結論，就需要由人來判斷，而非機器來決定。

以上討論的都是關于如何針對數(shù)據(jù)作出公平的決策。而在另外一些情境下由于存在人際之間的互動和博弈，保障公平不僅需要考慮如何處理數(shù)據(jù)，也需要考慮如何影響人的動機。

駕車上路就是一個重要的“百姓日用而不知”的多重博弈。每個司機選擇的車速和路線都不僅僅取決于主觀愿望，而是更多地受到路上其他車輛的速度和路線的影響?，F(xiàn)有導航App的功能，是通過對即時道路和行車數(shù)據(jù)的處理，為每個司機指出一條最快的行車路線。但每一個司機都試圖縮短時間抄近路的結果，就是司空見慣的車流擁堵。

本書提出的解決之道，是設計一種新的導航App，其算法不是最小化每一個司機的當前通行時間，而是最小化某一區(qū)域內所有車輛的平均通行時間。計算表明，這樣可以顯著降低所有車輛的總通行時間，對社會來說更為公平。

問題在于，怎么讓司機接受這樣一種新的導航App呢？本書指出，這種導航App的作用是為司機之間的多重博弈建立“相關均衡”（correlatedequilibrium）。所謂“相關均衡”的一個典型例子是交通信號燈。在沒有交通信號燈的情況下，車輛在通過路口時缺乏協(xié)調機制，只能盲目選擇或?；蛐校菀讻_撞。交通信號燈實則提供了一種協(xié)調機制，當大家遵循這套機制時，就可以相互判斷對方的選擇，從而作出自己的正確選擇，順利有序通過路口。同樣，以最小化所有車輛平均通行時間為目標的“公平”導航App，它所指示的路線也會成為一種協(xié)調機制，由此帶來的順利有序就是司機接受它的動機所在。

另一個例子是互聯(lián)網(wǎng)的內容推送，現(xiàn)在通行的算法是根據(jù)用戶的選擇和閱讀興趣推送內容，導致用戶的信息渠道日益囿于單一視角和立場，從而造成公共輿論場的碎片化，加劇社會分歧。本書的解決方案是改進算法，不僅推送用戶感興趣的內容，也要推送與用戶的慣常視角和立場相悖的內容，起到“兼聽則明”“聞者足戒”的作用。這也是一種公平。

本書在篇末指出，賦予抽象的價值觀念精密的數(shù)學定義，是將社會規(guī)范從內部嵌入大數(shù)據(jù)技術的起點。將來還需要讓大數(shù)據(jù)技術顧及更多的倫理觀念，諸如“透明”“可問責”“安全”“合乎道德”等等。這不僅需要計算機科學家的學術探索，更需要借鑒哲學家的思辨成果。以哈佛公開課《公正》而蜚聲國際的哲學家桑德爾（Michael Sandel）便深受兩位作者青睞。毫無疑問，標志著人類文明新紀元的大數(shù)據(jù)時代，將會賦予哲學全新的內涵。

解讀/延伸閱讀

《人之算法：人工智能如何重新定義我們是誰》

作者：[美]弗林·科爾曼（Flynn Coleman）

出版社：Counteroint

本書指出，如果能對機器學習的算法注入人性的倫理和價值，將會開啟一個新的啟蒙時代。

《數(shù)字超載：從Facebook和Google到假新聞與信息過濾氣泡——那些控制我們生活的算法》

作者：[瑞典]大衛(wèi)·桑普特（David Sumpter）

出版社：Bloomsbury Sigma

本書從數(shù)學家的視角出發(fā)，簡明而敏銳地分析了大數(shù)據(jù)技術對人類社會的影響與改變。

第一財經(jīng)2020年1期

第一財經(jīng)的其它文章: 釣起來; 一碗水端平; 助力企業(yè)數(shù)字化轉型，微信“放大招”; 開卷; 漫畫; 東東槍：多余的自信很誤事