孫舒揚
(賽迪智庫網(wǎng)絡(luò)空間研究所,北京 100846)
隨著數(shù)據(jù)的數(shù)量激增和內(nèi)容形式的復(fù)雜化以及技術(shù)的進(jìn)一步發(fā)展,全球開始步入大數(shù)據(jù)時代,數(shù)據(jù)支持社會運轉(zhuǎn)的能力得到了廣泛的認(rèn)可。各行各業(yè)都開始引入大數(shù)據(jù)思維,其應(yīng)用遍布公共服務(wù)、文化、教育、經(jīng)濟(jì)、醫(yī)療等行業(yè),影響到了公民生活中的方方面面。其中機構(gòu)開展面向個人的服務(wù)時,無法避免的會對大數(shù)據(jù)中的個人信息開展利用。然而,個人信息的特殊性質(zhì),使得其利用成為了高風(fēng)險的活動,利用不當(dāng)很可能會侵犯到個人或集體的合法權(quán)益,一旦發(fā)生泄漏、濫用等惡性事件,會對當(dāng)事人造成不同程度的經(jīng)濟(jì)、精神及人身損失。因此明確大數(shù)據(jù)應(yīng)用中個人信息利用存在的問題對于保障個人信息的利用具有重要的作用。
本節(jié)主要對大數(shù)據(jù)與個人信息兩個核心概念進(jìn)行了界定。大數(shù)據(jù)的概念最早從國外傳入,其原英文詞匯為“big data”,早期主要只強調(diào)數(shù)據(jù)體量大,而后逐漸轉(zhuǎn)變?yōu)楝F(xiàn)在常用的大數(shù)據(jù)概念。關(guān)于大數(shù)據(jù)的定義,目前學(xué)術(shù)界并沒有一個統(tǒng)一的定義,通過對現(xiàn)有代表性定義的分析,可得出當(dāng)前對大數(shù)據(jù)的定義絕大部分都是通過描述其數(shù)據(jù)特征進(jìn)行界定。Ylijoki與Porras分析了62個大數(shù)據(jù)定義中所描述的特征,發(fā)現(xiàn)規(guī)模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)與真實性(veracity)五個維度就是目前大數(shù)據(jù)定義中特征界定的主流方向,如圖1所示。
個人信息的界定主要參照了國內(nèi)外的法律與標(biāo)準(zhǔn),其對個人信息的定義大致是從兩種角度出發(fā),一為強調(diào)信息可識別個人,二為強調(diào)信息屬于可識別或已識別個人。兩種定義雖然角度不同,但本質(zhì)其實是相同的,都強調(diào)了個人信息可識別性這一特征。
政府、企業(yè)等大數(shù)據(jù)應(yīng)用者有很大部分業(yè)務(wù)都是面向公民的,因此其中對個人信息的利用必不可少。通過從各類個人數(shù)據(jù)中獲取有價值的信息,并挖掘出用戶的需求和喜好,對用戶的需求進(jìn)行多維度多層次的劃分,可面向用戶需求以更加靈活的方式和更加豐富的內(nèi)容提供精準(zhǔn)化、個性化的服務(wù)與推薦。然而,由于個人信息涉及到公民,一旦發(fā)生泄漏、濫用等惡性事件,會對當(dāng)事人造成不同程度的經(jīng)濟(jì)、精神及人身損失。近年來我國個人信息犯罪事件逐年增多,性質(zhì)也越發(fā)惡劣,都說明個人信息利用存在著巨大的風(fēng)險。
大數(shù)據(jù)的屬性特征為個人信息的獲取提供了極大的方便,也使得個人信息問題更加普遍,大數(shù)據(jù)應(yīng)用中所利用的個人信息來源更加廣泛,價值更高,受到侵害的幾率也更高。
大數(shù)據(jù)環(huán)境使得個人信息的收集范圍更加廣泛,方法更加便捷,手段更加多樣化,任何互聯(lián)網(wǎng)利用者都能夠輕易獲取他人個人信息。
一方面,個人信息的來源有了飛速增長。大數(shù)據(jù)中的個人信息也具有大數(shù)據(jù)特征,這使得個人信息的數(shù)量增多、格式多樣、產(chǎn)生速度也十分迅速。首先,個人信息主體都有發(fā)布信息的渠道,主動發(fā)布自身個人信息的個人信息主體增加。其次,個人信息主體在社交網(wǎng)絡(luò)上分享個人意見、享受服務(wù)、佩戴可移動設(shè)備等行為都會創(chuàng)造個人信息,并主動或被動披露在各種平臺上。
圖1 數(shù)字聯(lián)盟可信ID簡明邏輯圖
另一方面,個人信息的獲取方式發(fā)生變化。人工收集方式被新型技術(shù)采集方式取代,信息的收集擴展到了收集社交網(wǎng)絡(luò)、傳感器、隨身電子設(shè)備等實時活動數(shù)據(jù)流。此外,當(dāng)需要收集某些數(shù)據(jù)的時候,既可以向數(shù)據(jù)主體直接收集,也可以利用新技術(shù)手段直接從網(wǎng)絡(luò)及數(shù)據(jù)庫中尋找,信息收集的主動性更強。
信息收集者利用大數(shù)據(jù)分析對分散于各個角落的個人信息進(jìn)行整合,建立關(guān)聯(lián)關(guān)系并形成完整的信息,從中挖掘出具有價值的信息,再加以利用。通過這種關(guān)聯(lián)分析對分散的個人信息進(jìn)行整合,數(shù)據(jù)主體的屬性特征,例如個人背景、特征、習(xí)慣、行為也逐漸浮出水面,原本毫無價值的信息碎片的價值也不斷提升,也越來越受到重視。此外,大數(shù)據(jù)環(huán)境中個人信息的價值不再僅停留于其基本用途,而要依靠其二次利用,信息不同于物質(zhì)性的東西,每當(dāng)被使用分析都會增加一層價值,隨著利用過程不斷地發(fā)現(xiàn)信息的新價值及新應(yīng)用。
大數(shù)據(jù)技術(shù)降低了隱私受到侵害的門檻,并增加了隱私侵害所造成后果的廣度和深度。大數(shù)據(jù)時代中,公民時常會在毫無意識的情況下將個人信息披露在某些平臺上。由于大數(shù)據(jù)技術(shù)降低了數(shù)據(jù)存儲的成本,信息控制者也無需對信息進(jìn)行鑒定以決定其保存時間,大量的個人信息長期存儲在數(shù)據(jù)系統(tǒng)或網(wǎng)絡(luò)平臺上。此外,大數(shù)據(jù)環(huán)境下數(shù)據(jù)具有極強的關(guān)聯(lián)性,即使對信息進(jìn)行了匿名處理,但是隨著來源于多種數(shù)據(jù)源的數(shù)據(jù)的增加,原本互不相干、相互分離的數(shù)據(jù)被匹配了起來,多項個人信息共同開展識別,從而使預(yù)先的匿名化無效。
大數(shù)據(jù)環(huán)境下個人隱私遭侵害的識別難度也比以前更大。大數(shù)據(jù)技術(shù)增強了數(shù)據(jù)之間的連接性,多種信息的聯(lián)合分析成為可能,原本不具有敏感性或隱私性的數(shù)據(jù),在與其他數(shù)據(jù)進(jìn)行關(guān)聯(lián)的過程中,存在挖掘出隱私內(nèi)容的可能性。這一過程往往是無法預(yù)料的,因此也難以進(jìn)行預(yù)防,甚至連發(fā)生之后數(shù)據(jù)主體也無法察覺和重視。即使數(shù)據(jù)主體意識到了自身的隱私被侵害,依然很難確定自己隱私在哪個環(huán)節(jié)被侵害,也很難界定是否屬于侵害,無法找到個人隱私被侵犯的證據(jù)追溯到責(zé)任主體。
隱私安全問題不僅為個人信息安全帶來威脅,同樣也制約著大數(shù)據(jù)應(yīng)用的發(fā)展。
從傳統(tǒng)社會到互聯(lián)網(wǎng)時代,再到如今的大數(shù)據(jù)時代,信息主體對其個人信息的控制權(quán)越來越低,個人信息生成后個人信息利用者就掌握了其使用權(quán),信息主體的權(quán)利未得到應(yīng)有的尊重。Napoleon Xanthoulis 指出,網(wǎng)絡(luò)環(huán)境中的用戶僅有選擇的錯覺,即使選擇了撤回信息并不意味著允許用戶能將其數(shù)據(jù)全部移除。Mayer-Schonberger在其著作《刪除—大數(shù)據(jù)取舍之道》一書中指出數(shù)字技術(shù)已經(jīng)讓社會喪失了遺忘的能力,取而代之的是最完整的記憶。個人信息的失控表現(xiàn)在以下幾方面:
第一,信息主體對其信息的收集與利用不知情。用戶在接受服務(wù)提供者所提供的在線或離線服務(wù)中,無論授權(quán)與否,其信息都會在不同程度上被收集。一些機構(gòu)在收集個人信息時存在過度收集,用戶既沒有被充分告知其信息將被收集的狀況,也沒有被闡明其真正用途。個人信息利用者越來越多地按照自身需求獲得資源與服務(wù),在采集目的之外對個人信息進(jìn)行利用之前,并不會再次申請信息主體的許可,甚至完全不會通知信息主體。因而信息主體很難知悉其個人信息被收集和利用的具體情況,更無法提出異議,這無疑危及到了個人信息的保密性、可控性及信息主體的人格自由。
第二,信息主體的的生活安寧遭到破壞。當(dāng)信息主體在網(wǎng)絡(luò)中表露出其需求并被識別后,服務(wù)提供者就可以開展精確的服務(wù)推送,而信息主體對這類推送行動完全無法自主選擇。且這些推送活動并不受場所的限制,其推送的范圍十分廣泛而且隱藏很深,悄無聲息地侵入了公民的個人生活,破壞了公民安寧的生活。
第三,信息主體無法對其個人信息進(jìn)行處置。一旦個人信息被以數(shù)據(jù)化形式儲存,就幾乎完全被掌握在數(shù)據(jù)采集者的數(shù)據(jù)庫中,數(shù)據(jù)主體實際上很難對其進(jìn)行保護(hù)。在個人信息被秘密收集的同時,有可能會被秘密的共享甚至交易,然而信息主體無法對其進(jìn)行監(jiān)督,即使個人信息被不合規(guī)處置也無從知曉,也無法進(jìn)行維權(quán)。此外,在對個人信息的大數(shù)據(jù)分析中,還有可能會產(chǎn)生新的信息,這些新個人信息分析和產(chǎn)生是超出控制范圍的,信息主體沒有能力控制這些新信息的產(chǎn)生與應(yīng)用。
隨著行使職能與開展業(yè)務(wù)需求的變化與大數(shù)據(jù)信息處理技術(shù)的不斷發(fā)展,個人信息處理者對公民個人信息的利用常常越過必要的邊界,造成對個人基本權(quán)利的侵犯:
第一,個人信息處理者對個人實施全面監(jiān)控。大數(shù)據(jù)時代數(shù)據(jù)就是資產(chǎn),為滿足管理和業(yè)務(wù)的需求,個人信息處理者盡可能全面、完整、系統(tǒng)地收集公民的數(shù)據(jù),這就使得其對公民行為全天候全方位的監(jiān)控有了合理性。大數(shù)據(jù)環(huán)境中的這種全面監(jiān)控就如同打造出了隱形的“數(shù)字全景監(jiān)獄”,采集處理個人信息的工具遍布各個角落,面向各個群體,個人的網(wǎng)絡(luò)與現(xiàn)實行為都被置于隨時隨地的“監(jiān)視”之中。這種全面的監(jiān)控?zé)o視了信息主體的隱私權(quán),干涉了主體的自由,影響到了主體的生活。
第二,個人信息處理者通過信息對個人未來進(jìn)行預(yù)測?!邦A(yù)測”是大數(shù)據(jù)的核心功能之一。大數(shù)據(jù)甚至可用于對個人未來的身體狀況等涉及個人隱私的信息進(jìn)行預(yù)測。然而,預(yù)測個人未來的行為會對個人的名譽造成影響,甚至侵犯了信息主體的個人隱私,違背了自主原則,導(dǎo)致名譽無法受到個人的控制。例如大數(shù)據(jù)分析能夠?qū)Ψ缸锏冗M(jìn)行預(yù)測,公眾也會擔(dān)心自己是否會成為這種預(yù)測算法的目標(biāo)。
第三,個人信息處理者對所收集信息開展深度挖掘。個人信息深度挖掘行為侵犯個人隱私主要有兩種方式。其一是利用數(shù)據(jù)深度挖掘預(yù)測信息主體的行為,影響信息主體的未來行為。在這一過程中,公民往往對其個人信息被利用的情況并不知情,這一行為不僅干涉到了用戶的隱私,并有可能會影響信息主體的行為;其二是數(shù)據(jù)深度挖掘引發(fā)身份泄露。由于個人信息中蘊含著大量的價值,因此機構(gòu)大多傾向于對這些數(shù)據(jù)進(jìn)行二次開發(fā)。有些個人信息在依職能要求利用時并不會對個人隱私造成影響,而二次開發(fā)卻會帶來這種危害,從表面看并無明顯的個性化特征的原始信息,通過多次的分析、挖掘,就有極大的可能準(zhǔn)確地追溯到數(shù)據(jù)主體個人并關(guān)聯(lián)出個人隱私。
第四,個人信息遭到泄漏。在大數(shù)據(jù)時代背景之下,個人信息泄露主要有兩種方式,一為外部的攻擊,例如使用專業(yè)工具或者黑客,大數(shù)據(jù)一方面已成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),大數(shù)據(jù)環(huán)境使隱私泄露風(fēng)險更大,另一方面黑客也利用大數(shù)據(jù)技術(shù)進(jìn)行網(wǎng)絡(luò)攻擊,將其作為高級可持續(xù)攻擊的載體,并對現(xiàn)有的存儲和安防措施造成威脅。然而個人信息的管理者在很多情形下都未將泄露的風(fēng)險通報給信息主體,因此在遭受到侵害時,信息主體得知消息的時候往往已經(jīng)造成了巨大的傷害,不僅來不及采取措施及時止損,其他關(guān)聯(lián)信息也有可能受到侵害;二為內(nèi)部攻擊,即為服務(wù)提供商對個人信息進(jìn)行買賣或者作為證據(jù)提交,對個人信息惡意使用、非法買賣時有發(fā)生,甚至形成了灰色產(chǎn)業(yè)鏈。信息的非法使用是個人信息開發(fā)利用進(jìn)程的一大阻礙。
大數(shù)據(jù)應(yīng)用中造成個人信息質(zhì)量降低的最主要威脅之一是偽造或刻意制造的數(shù)據(jù),數(shù)據(jù)分析的結(jié)果依賴于數(shù)據(jù)的可靠性,如果數(shù)據(jù)中存在錯誤,極有可能會導(dǎo)致錯誤的結(jié)論。有些情況下,數(shù)據(jù)的應(yīng)用場景很明確,就可能有人為了自身利益刻意制造數(shù)據(jù),誘導(dǎo)分析者得出符合其利益的結(jié)論。而虛假信息大多隱藏在大量復(fù)雜的信息中,真?zhèn)坞y以鑒別;威脅之二則是數(shù)據(jù)在傳播中的逐步失真。其原因之一是數(shù)據(jù)采集可能會由于人工干預(yù)而引入誤差,這些人為失誤會造成數(shù)據(jù)的失真與偏差,最終對數(shù)據(jù)分析結(jié)果的準(zhǔn)確性造成影響。個人信息的利用還存在著一定范圍內(nèi)的共享。隨著傳輸效率的提高與傳輸環(huán)節(jié)的增多,個人信息失真的幾率也會有所提高。此外,個人信息的直接采集者與個人信息的接收者的職能和身份均不同,其信息利用的目的也各異,因此在傳輸過程中往往不同程度地對信息進(jìn)行加工,又加劇了失真的程度,個人信息的完整性與可靠性被降低。
個人信息利用是大數(shù)據(jù)應(yīng)用中必不可少的過程,它為機構(gòu)職能的實現(xiàn)帶來了新的機遇與挑戰(zhàn)。大數(shù)據(jù)環(huán)境對個人信息的利用帶來了新變化,使個人信息的獲取變得更加便利,價值得到提升,其中所包含的公民個人隱私也更容易遭到侵害。隱私安全問題不僅為個人帶來了風(fēng)險,同時也制約了大數(shù)據(jù)的應(yīng)用。本文明確了大數(shù)據(jù)應(yīng)用中個人信息利用所存在的信息失控、信息濫用與信息質(zhì)量低幾個關(guān)鍵問題,為個人信息主體和利用者提出了警示,也為研究保障大數(shù)據(jù)應(yīng)用中個人信息利用的措施奠定了基礎(chǔ)。