王 博
(井岡山大學(xué)電子與信息工程學(xué)院,江西 吉安343009)
由于云計算、異構(gòu)服務(wù)和統(tǒng)-檢索等技術(shù)的應(yīng)用,數(shù)字圖書館開放式環(huán)境下的應(yīng)用缺乏相對安全的操作系統(tǒng)、計算機網(wǎng)絡(luò)系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng),導(dǎo)致信息化過程中,敏感數(shù)據(jù)從數(shù)據(jù)完整性(Integrity)、數(shù)據(jù)可用性(Availability)和保密性(confidentiality)等方面面臨著一系列的威脅。如果敏感數(shù)據(jù)管理者對這些威脅因素不重視不了解,則將會存在巨大管理漏洞,大大加劇隱私威脅的嚴(yán)重性。為了更好地應(yīng)對數(shù)字圖書館運行和服務(wù)模式過程出現(xiàn)的敏感數(shù)據(jù)的隱私威脅,造成隱私泄露的原因可以歸為自然、通信、存儲和數(shù)據(jù)發(fā)布等9種威脅因素。
圖書館用戶通過網(wǎng)絡(luò)利用圖書館資源,而圖書館通過數(shù)據(jù)庫、日志等各種手段管理和記錄用戶的各種信息,并采用各種統(tǒng)計、分析和挖掘工具來利用收集的信息,以提升圖書館服務(wù)質(zhì)量。在這期間,信息利用和控制不當(dāng)都有可能侵犯用戶隱私權(quán)問題。數(shù)字圖書館的隱私保護(hù)需要從數(shù)據(jù)收集、數(shù)據(jù)存儲和數(shù)據(jù)應(yīng)用(發(fā)布)三個方面來全面有效地保護(hù)圖書館用戶隱私權(quán)。
網(wǎng)絡(luò)隱私保護(hù)問題隨著網(wǎng)絡(luò)的廣泛應(yīng)用,也越來越嚴(yán)峻。網(wǎng)絡(luò)隱私的泄露-般是通過黑客軟件、木馬病毒竊取、Cookies文件、WebBeacons、IP地址跟蹤等方式造成的。針對這些問題,防火墻、防殺毒軟件、Cookies管理器、匿名郵件重發(fā)器、洋蔥路由器等各種技術(shù)與相關(guān)產(chǎn)品應(yīng)運而生。數(shù)字圖書館信息化系統(tǒng)要建立有效的網(wǎng)絡(luò)安全防范手段:數(shù)字圖書館中心機房采用防火墻防止惡意攻擊,圖書館網(wǎng)絡(luò)采用一體化防病毒體系增強計算機安全,圖書館公用計算機采用PWB,K-Melcon等專用圖書館瀏覽器有效保證用戶隱私,圖書館主要服務(wù)網(wǎng)站采用P3P(PlatformorPrivacyPreferences)技術(shù)、EPAL(EnterprisePrivacyAuthorizationLanguage)等技術(shù)增加圖書館用戶隱私保護(hù)政策的透明度。甚至可以采用基于P2P和語義Web的隱私保護(hù)等新技術(shù)用于保護(hù)網(wǎng)絡(luò)隱私。
現(xiàn)代的數(shù)據(jù)庫管理系統(tǒng)(DBMs)一般通過用戶認(rèn)證、存取控制和數(shù)據(jù)加密等多種手段來限制對數(shù)據(jù)的訪問。無論是用戶認(rèn)證、存取控制還是數(shù)據(jù)加密的不同方式,都能夠限制用戶對敏感數(shù)據(jù)的訪問。甚至也采用了專用組件進(jìn)行隱私控制,如Oracle119中提供Oracle DataMasking工具對敏感數(shù)據(jù)自動屏蔽以保證安全、可伸縮的數(shù)據(jù)共享,以保持引用數(shù)據(jù)完整性的同時屏蔽開發(fā)、測試或生產(chǎn)環(huán)境中的敏感數(shù)據(jù)和保密數(shù)據(jù)。
數(shù)字圖書館中應(yīng)用-些初步隱私保護(hù)功能的商業(yè)數(shù)據(jù)庫系統(tǒng)來管理信息資源。實際工作中需要是要加強數(shù)據(jù)庫數(shù)據(jù)加密、用戶認(rèn)證、訪問控制(DACMacRBAC)和推理控制等方面功能的應(yīng)用,如用戶個人信息的加密,手機號、密碼等重要字段的加密,用戶權(quán)限合理分配等等。另外,從管理上入手,盡量控制各種數(shù)據(jù)庫(表記錄)訪問權(quán)限,使用權(quán)限也要按需開放。
隨著Lib2.0一系列新技術(shù)的應(yīng)用,移動圖書館的進(jìn)一步推進(jìn),新形勢下的數(shù)字圖書館服務(wù)的隱私保護(hù)需求,常規(guī)技術(shù)已遠(yuǎn)遠(yuǎn)不能滿足需求。顯然,數(shù)字圖書館快速增長的海量數(shù)據(jù)如果發(fā)布不當(dāng),很容易泄露用戶隱私。這種面向各種應(yīng)用的數(shù)據(jù)共享和分析服務(wù)的數(shù)據(jù)發(fā)布工作中的出現(xiàn)的隱私保護(hù)問題日益突出,有待于進(jìn)一步研究合適的隱私保護(hù)技術(shù)。
根據(jù)對象數(shù)據(jù)類型可以把基于匿名化的數(shù)據(jù)發(fā)布技術(shù)分為兩類,并介紹如下:
目前,己經(jīng)提出了一些對個人數(shù)據(jù)進(jìn)行匿名處理以達(dá)到隱私保護(hù)的目的,包括泛化、隱匿、干擾味口數(shù)據(jù)交換技術(shù)等。數(shù)據(jù)發(fā)布中的隱私泄露主要可以分為身份泄露和屬性泄露。當(dāng)目標(biāo)個體與匿名數(shù)據(jù)中的某條具體記錄關(guān)聯(lián)起來時就會發(fā)生身份泄露;而屬性泄露可以分為記錄鏈接泄露、屬性鏈接泄露、表鏈接泄露和可能性攻擊泄露,它是指匿名數(shù)據(jù)會泄露目標(biāo)個體的一些更為具體的信息。
近來,數(shù)據(jù)匿名化的隱私保護(hù)技術(shù)研究主要集中在集中式數(shù)據(jù)發(fā)布上,它主要可以分為:(1)匿名化原則的研究;(2)根據(jù)某種隱私保護(hù)模型發(fā)布匿名數(shù)據(jù)版本的算法研究。
3.2.1 避免身份泄露的匿名化原則
為了避免身份泄露,1998年salnarati和Sweeney在文獻(xiàn)778中提出了經(jīng)典的k-匿名原則,它要求所發(fā)布的數(shù)據(jù)表中的每-條記錄不能區(qū)分于其它k-1條記錄,以使攻擊者不能判別出隱私信息所屬的具體個體,從而防止了個人隱私的泄密。此類模型對QID進(jìn)行泛化后,把記錄劃分成若干個等價類,每個等價類中至少無條記錄,這樣鏈接到某條記錄的概率不超過l/k,保證了記錄安全。但是,如果每個等價類中記錄的敏感屬性取值相同或者某些敏感值出現(xiàn)的頻率很高,則仍然存在隱私泄露的可能。
3.2.2 避免敏感屬性泄露的匿名化原則
由于k-匿名思想啟發(fā),z-diversity及其它的兩種形式基于嫡的ldiversity和遞歸(e,z)-成verse如,增強的(z.a)-diversity相繼被提出,它們保證每個等價類的敏感屬性至少有Z個不同的值,以使得攻擊者最多以l/l的概率確認(rèn)某個體的敏感信息。T-closeness在l-diversity如基礎(chǔ)上,考慮了的敏感屬性的分布問題,它要求所有等價類中敏感屬性值的分布盡量接近該屬性的全局分布,從而解決了針對敏感屬性值的偏斜性攻擊和相似性攻。
3.2.3 避免高概率推斷的匿名化原則
除以上主要針對身份泄露和屬性泄露的匿名化原則外,也有一些為了避免高概率推斷的隱私問題而提出的針對概率泄露的匿名化原則。為了防止攻擊者通過訪問匿名發(fā)布數(shù)據(jù)表能夠以較高概率推斷目標(biāo)對象的記錄是否存在數(shù)據(jù)集中或者目標(biāo)對象敏感屬性的具體取值,文獻(xiàn)提出了參presence匿名化求以不超過占一定的概率推斷目標(biāo)對象的記錄是否存在信息集中現(xiàn)象;Rastogi等人提出了概率性隱私保護(hù)(d,r)-匿名化原則;Blum等人提出了適用于非交互查詢模型的分布式隱私保護(hù)原則。此類匿名化原則旨在達(dá)到攻擊者推斷目標(biāo)對象的概率在數(shù)據(jù)表匿名化前后差異性最少。
[1]徐險峰,馬海群,王海東.圖書館用戶隱私權(quán)保護(hù)研究綜述[J].圖書館建設(shè),2010(7):30-34.
[2]周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應(yīng)用的隱私保護(hù)研究綜述[J].計算機學(xué)報,2009(05):847-861.
[3]張鋒,孫雪冬,常會友,等.兩方參與的隱私保護(hù)協(xié)同過濾推薦研究[J].電子學(xué)報,2009,37(l):84-89.
[4]楊曉春,劉向宇,王斌,等.支持多約束的 k-匿名化方法[J].軟件學(xué)報,2006(05):1222-1231.
[5]王智慧.信息共享中隱私保護(hù)若干問題研究[J].復(fù)旦大學(xué),2007.