◎文/ 朱廷劭
2018年3月17日當(dāng)?shù)貢r間,美國紐約時報和英國觀察者報(英國衛(wèi)報的周日版)共同發(fā)布了深度報道,” The Cambridge Analytica Files”,稱Facebook上超過5000萬用戶信息數(shù)據(jù)被一家名為Cambridge Analytica(劍橋分析)的公司不當(dāng)獲取,用于在2016年美國總統(tǒng)大選中對目標(biāo)受眾進(jìn)行精準(zhǔn)信息投放,可能影響到大選結(jié)果。這篇報道在世界范圍內(nèi)引發(fā)了軒然大波,并不斷發(fā)酵至今,也引起人們對社交網(wǎng)絡(luò)數(shù)據(jù)隱私保護(hù)的熱切關(guān)注。
事情起因于劍橋大學(xué)的心理學(xué)講師Aleksandr Kogan通過一款用于科研的Facebook應(yīng)用(thisisyourdigitallife)收集了約27萬用戶的數(shù)據(jù)記錄,并通過好友關(guān)系抓取了共5000萬名Facebook用戶數(shù)據(jù)。Facebook宣稱Kogan后來將這些數(shù)據(jù)轉(zhuǎn)手賣給了第三方,其中就包括劍橋分析公司。劍橋分析公司通過對Facebook數(shù)據(jù)挖掘獲取選民的心理特點(diǎn),進(jìn)而有針對性地為特朗普投放競選廣告,由此輔助特朗普贏得2016美國大選,從而名聲大噪。事件曝光后在媒體和網(wǎng)絡(luò)上持續(xù)發(fā)酵,報道中遭到個人數(shù)據(jù)泄露的用戶數(shù)量在不斷放大,甚至有媒體宣稱挖到了“通俄”線索,F(xiàn)acebook股價也隨之大跌,一時眾說紛紜,好不熱鬧。
在熱鬧與震驚背后,這一事件觸及了在以社交網(wǎng)絡(luò)為代表的大數(shù)據(jù)時代,用戶數(shù)據(jù)應(yīng)該被如何使用的一些關(guān)鍵問題。這些問題在近年來社交網(wǎng)絡(luò)心理學(xué)研究中被不斷提及,在學(xué)術(shù)界也已有若干討論與共識。巧合的是,這次事件的起源恰恰有可能與對科研倫理的違背有關(guān)。
隨著網(wǎng)絡(luò)的普及,人們對于網(wǎng)絡(luò)信息的安全性愈加關(guān)注,不會輕易把個人的關(guān)鍵信息放在網(wǎng)上。但縱然如此,隱私真的就萬無一失了嗎?2006年6月,Pass等人在香港舉辦的一個國際會議上發(fā)表了”A Picture of Search”的論文,并將文中使用的美國在線2006年3月1號到2006年5月31號的搜索日志公開,包括1900萬次搜索、1080多萬搜索詞以及65萬余匿名化處理后的用戶ID。雖然這些數(shù)據(jù)中已經(jīng)將用戶信息刪除,但是有的搜索本身就含有個人隱私性質(zhì)。一些搜索記錄可能與特定的人相聯(lián)系,縱然用戶ID已經(jīng)被匿名化處理,但是從某個用戶ID所做的一系列搜索,仍然有可能找到這個用戶的真實身份。紐約時報記者根據(jù)搜索數(shù)據(jù)輕易地找到一位62歲的老太太,這個老太太證實那些列出的搜索關(guān)鍵詞確實是她的。事后,這個研究小組被解散,并最終導(dǎo)致美國在線AOL首席技術(shù)官引咎辭職。個人隱私的泄露除了自己主動放到網(wǎng)上被他人不當(dāng)獲取之外,通過對網(wǎng)絡(luò)留痕的分析,也可以對一些比較隱私的個人關(guān)鍵信息(如年齡性別等)進(jìn)行有效推斷。
人們在社交網(wǎng)絡(luò)上的一舉一動,都是性格特點(diǎn)與內(nèi)心狀態(tài)等心理特征的某種反映。個人往往不需要在社交網(wǎng)絡(luò)上直接寫下“我是××性格的人”,只要對社交網(wǎng)絡(luò)的日常使用積累到一定數(shù)量,科學(xué)家就能夠運(yùn)用人工智能技術(shù),通過其在社交網(wǎng)絡(luò)上日常展示的信息自動計算出心理特征,目前在Facebook/Twitter以及微博上相關(guān)研究也證實了這種個人心理特征自動獲取的可行性。如果我們在社交網(wǎng)絡(luò)上展示的內(nèi)容足夠豐富,對我們心理特征的計算可以做到很準(zhǔn)確,甚至能超過家人對我們的了解程度。這些心理特征可能對許多應(yīng)用有重要的指導(dǎo)作用,比如可以根據(jù)用戶的心理特征來推薦他感興趣的內(nèi)容,帶來更佳的用戶體驗;又比如可以根據(jù)這些心理特征有針對性地投放廣告,提高宣傳的效果,而這正是劍橋分析公司據(jù)稱在英國脫歐和美國大選中所做的事情。
運(yùn)用類似的方法,通過社交網(wǎng)絡(luò)行為數(shù)據(jù)還有可能識別出個體的性取向、政治傾向、價值觀等通常意義上更“敏感”的個人信息。而在其他一些只反映某種特定行為的數(shù)據(jù)集上,如利用匿名之后的信用卡刷卡的地點(diǎn)記錄,用戶的身份更是很容易被定位。因此,只隱去傳統(tǒng)意義上的個人關(guān)鍵信息,在人工智能和大數(shù)據(jù)的配合下,可能我們的隱私反而會以一種更深刻的形式泄露出去。
當(dāng)然,利用人工智能技術(shù)算出上述個人特征的前提,是掌握了此人足夠多的數(shù)據(jù)。如果此人在社交網(wǎng)絡(luò)上留下的有效行為數(shù)據(jù)不夠多,再厲害的算法也無能為力。而且,我們可以在社交網(wǎng)絡(luò)平臺上為自己所展示的內(nèi)容設(shè)定不同的私密等級,比如把有些內(nèi)容設(shè)置為只有好友可見,這樣一來,如果沒有我們的授權(quán),陌生人就不能獲得這些數(shù)據(jù)。因此通常而言,在社交網(wǎng)絡(luò)上獲得大量用戶的、足夠準(zhǔn)確計算其中每個人心理特征的數(shù)據(jù),并不是一件容易的事。
社交網(wǎng)絡(luò)App被允許收集用戶數(shù)據(jù),理應(yīng)更好地服務(wù)于大眾。
社交網(wǎng)絡(luò)上的第三方App的一個共同特點(diǎn),就是需要用戶授權(quán),授權(quán)App服務(wù)的提供者(比如本次事件中的Kogan團(tuán)隊)獲取用戶在社交網(wǎng)絡(luò)上發(fā)表的各種數(shù)據(jù)。如果用戶想要使用這項App服務(wù),那就必須對其授權(quán)。事實上,所有社交網(wǎng)絡(luò)平臺都允許這樣的App存在,并提供相應(yīng)的開發(fā)接口,因為只有如此,社交網(wǎng)絡(luò)才能具有豐富多彩的功能和不斷提升的用戶體驗。通常App訪問用戶數(shù)據(jù)的目的,是為實現(xiàn)和提升其服務(wù)功能,例如我們想讓App推薦附近的餐館,自然要允許它訪問我們的位置信息。不只社交網(wǎng)絡(luò),搜索引擎、電商、網(wǎng)絡(luò)媒體等各種網(wǎng)絡(luò)平臺功能與體驗的提升,都依賴于對用戶數(shù)據(jù)的收集分析。換句話說,網(wǎng)絡(luò)用戶允許自己的數(shù)據(jù)在某種程度上被分析和利用,也是享受到更多、更好服務(wù)的必然前提。
同時,社交網(wǎng)絡(luò)中積累的海量用戶行為數(shù)據(jù),是科學(xué)研究的資源寶庫。合理分析利用這些數(shù)據(jù),能夠獲得大量關(guān)于人類行為與心理的新知,不僅能有力促進(jìn)心理學(xué)、社會學(xué)等基礎(chǔ)學(xué)科和人工智能技術(shù)的發(fā)展,更能為解決諸如心理健康、自殺等實際挑戰(zhàn)帶來新的曙光。社交網(wǎng)絡(luò)行為數(shù)據(jù)由大眾自發(fā)產(chǎn)生,也應(yīng)當(dāng)被用于旨在增進(jìn)大眾福利的探索與實踐。
在Facebook事件曝光之后,不僅公眾反應(yīng)強(qiáng)烈,互聯(lián)網(wǎng)巨頭們也紛紛表態(tài)強(qiáng)調(diào)對用戶隱私的保護(hù),表達(dá)了“隱私是基本人權(quán)”“數(shù)據(jù)是個人資產(chǎn)”“保護(hù)信息安全是公司責(zé)任”等原則性觀點(diǎn);同時,他們也指出了讓數(shù)據(jù)得到合理利用而不被浪費(fèi)的重要性。那么,怎樣利用這些數(shù)據(jù)才是可以接受的?就操作層面而言,關(guān)鍵是保障用戶對數(shù)據(jù)被使用的知情權(quán)與選擇權(quán)。
Facebook事件之所以成為公眾無法接受的丑聞,核心在于公眾對自己的數(shù)據(jù)用于干預(yù)選舉并不知情,更談不上同意。從目前的公開報道來看, Kogan團(tuán)隊和Facebook公司對這一局面的形成可能都負(fù)有一定責(zé)任:如果Aleksandr Kogan對其App用戶聲稱數(shù)據(jù)收集只用于科研目的,由此獲得了用戶授權(quán),但之后卻把數(shù)據(jù)或分析結(jié)果賣給了第三方,則這一行為明顯違背了科研倫理;如果Facebook在明確得知以科研名義獲取的數(shù)據(jù)被挪作他用之后沒有及時采取措施,則也應(yīng)承擔(dān)相應(yīng)責(zé)任。更重要的是,據(jù)報道2015年之前Facebook在App權(quán)限的管理規(guī)則上存在漏洞,造成Kogan的App在只有27萬用戶授權(quán)的情況下能夠獲取約5千萬用戶的數(shù)據(jù),這種數(shù)據(jù)量上的擴(kuò)增是導(dǎo)致“一個App可能影響大選”的重要原因。
事實上,從人工智能技術(shù)最早在科研中被用于分析社交網(wǎng)絡(luò)數(shù)據(jù)的那一刻起,學(xué)術(shù)界就已經(jīng)開始了對相關(guān)倫理標(biāo)準(zhǔn)的探討,并已達(dá)成了基本共識:基于社交網(wǎng)絡(luò)的行為心理研究同樣應(yīng)當(dāng)遵守人類被試研究的一般倫理原則,使用需要用戶授權(quán)的數(shù)據(jù)必須征得用戶的知情同意,并嚴(yán)格按照經(jīng)由倫理委員會審核批準(zhǔn)的程序進(jìn)行,尤其不能將研究數(shù)據(jù)用于倫理委員會批準(zhǔn)范圍之外的目的(如轉(zhuǎn)賣給第三方)。即便是使用不需用戶授權(quán)的公開網(wǎng)絡(luò)數(shù)據(jù),在用于科研時也應(yīng)同時滿足以下四項標(biāo)準(zhǔn):
(1)用戶對數(shù)據(jù)公開是知情的;
(2)數(shù)據(jù)收集后應(yīng)匿名處理;
(3)研究中不存在與用戶的互動和溝通;
(4)在公開發(fā)表物中不得出現(xiàn)能夠識別用戶個人身份的信息。
上述倫理原則對網(wǎng)絡(luò)行為數(shù)據(jù)在非學(xué)術(shù)領(lǐng)域的使用也具有借鑒意義。無論我們以何種名義,都應(yīng)該確保用戶對自己數(shù)據(jù)被使用的知情權(quán)和選擇權(quán),任何形式的越俎代庖都是對用戶的不尊重,最終也必然被用戶所拋棄。
社交網(wǎng)絡(luò)滿足了人們的諸多需求,它的普及乃是大勢所趨,人工智能的發(fā)展和應(yīng)用更是人類技術(shù)與產(chǎn)業(yè)進(jìn)步的希望所在。我們不可能也不應(yīng)該因噎廢食,因存在個人隱私泄露的風(fēng)險而廢止社交網(wǎng)絡(luò)、禁止對社交網(wǎng)絡(luò)數(shù)據(jù)的分析和利用。我們真正需要做的,是用制度和規(guī)則來規(guī)范對網(wǎng)絡(luò)平臺用戶數(shù)據(jù)的使用,使之在法律和道德的框架之內(nèi)有序運(yùn)行,這樣才能避免類似丑聞再次發(fā)生,保證網(wǎng)絡(luò)行為數(shù)據(jù)這一由大眾產(chǎn)生出的寶藏最終服務(wù)于增進(jìn)大眾的福祉、促進(jìn)人類進(jìn)步。
對基于社交網(wǎng)絡(luò)的科學(xué)研究應(yīng)當(dāng)予以鼓勵,但必須與其他傳統(tǒng)研究領(lǐng)域一樣,在嚴(yán)格的科研倫理標(biāo)準(zhǔn)和有效的違規(guī)懲戒機(jī)制下運(yùn)行。研究人員要謹(jǐn)遵知情同意原則和隱私保護(hù)原則,在從數(shù)據(jù)到成果的整個流程中都采取有效措施避免用戶的利益受到侵害。如果研究項目有商業(yè)機(jī)構(gòu)的參與,尤其需要謹(jǐn)慎處理。
為保障普通用戶的知情權(quán)和選擇權(quán)得以充分落實,一方面網(wǎng)絡(luò)平臺須在功能上充分滿足用戶知情同意的要求,如在用戶授權(quán)之前提供充足的說明,提供方便的隱私設(shè)定選項等,尤其要在數(shù)據(jù)管理規(guī)則上與用戶授權(quán)的等級嚴(yán)格匹配;另一方面也應(yīng)對普通網(wǎng)絡(luò)用戶進(jìn)行必要的知識普及。當(dāng)用戶在社交網(wǎng)絡(luò)上展示自我、享受關(guān)注與互動的同時,應(yīng)當(dāng)充分意識到自己的行為數(shù)據(jù)根據(jù)自身設(shè)定的私密等級,處于不同程度的暴露狀態(tài),并將基于自己的授權(quán)而為社交網(wǎng)絡(luò)平臺和各種第三方所分析和利用。
相信隨著Facebook數(shù)據(jù)泄露事件的真相逐步厘清,不管是對科研倫理的違反還是數(shù)據(jù)安全管理的疏漏,終將有著明確的責(zé)任認(rèn)定和懲戒方案。而在這個互聯(lián)網(wǎng)大數(shù)據(jù)時代,如何讓人工智能更好地造福于人,而不是帶來煩惱甚至危險,這依然需要緊隨技術(shù)發(fā)展的腳步,不斷開展持續(xù)深入地討論,并在實踐中不斷修正。