王家玲
(銅陵學(xué)院圖書館,安徽銅陵244000)
數(shù)字圖書館用戶隱私信息是指用戶注冊時提交的個人信息以及用戶在使用數(shù)字圖書館資源、享受數(shù)字圖書館服務(wù)時所產(chǎn)生的一切與用戶有關(guān)的信息[1],其具體內(nèi)容包括以下兩方面:(1)用戶個人信息。數(shù)字圖書館一般是在用戶成功注冊后才能使用。而用戶在注冊時,需要填寫一份用戶資料信息,包括用戶身份信息和用戶背景信息。用戶身份信息主要包括用戶的真實姓名、年齡、性別、圖書證或身份證證件號、聯(lián)系電話、個人郵箱等;用戶背景信息包括用戶的單位、職務(wù)、學(xué)歷、專業(yè)、婚姻情況等。因此,研究知識服務(wù)模式下用戶的隱私保護(hù)有著重要意義。(2)用戶使用記錄。用戶在查詢或下載數(shù)字圖書館資源、享受數(shù)字圖書館服務(wù)時,其訪問時所用終端設(shè)備的IP地址、訪問時間、瀏覽、借閱和下載記錄以及用戶所訂購的信息和服務(wù)等都會被Web服務(wù)器中的工作日志自動記錄。
1.1知識發(fā)現(xiàn)的概念
知識發(fā)現(xiàn)是一個對海量數(shù)據(jù)進(jìn)行的一種高級處理過程。它是指運用統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和人工智能等多種高新技術(shù),對海量的數(shù)據(jù)庫資源、數(shù)據(jù)倉庫資源以及知識庫資源進(jìn)行分析處理和深層挖掘,找出海量數(shù)據(jù)中可能的潛在的關(guān)聯(lián)、規(guī)則、模式、趨勢等,以獲取有效的、新穎的、有潛在應(yīng)用價值的和最終可理解的知識的過程。知識發(fā)現(xiàn)的意義在于,它使得人們對數(shù)據(jù)的需求從低層次的簡單查詢,提升到高層次的知識服務(wù)的獲取。
知識發(fā)現(xiàn)的過程可總結(jié)為三部分,它們分別是數(shù)據(jù)收集與預(yù)處理、數(shù)據(jù)挖掘和模式表示與評價。知識發(fā)現(xiàn)的第一步就是數(shù)據(jù)收集與預(yù)處理過程,這個過程主要是收集與提取將要對其進(jìn)行挖掘的數(shù)據(jù)對象,并對數(shù)據(jù)進(jìn)行一些預(yù)處理,如數(shù)據(jù)清理、加工、轉(zhuǎn)換等使收集到的數(shù)據(jù)適應(yīng)挖掘算法;數(shù)據(jù)挖掘是知識發(fā)現(xiàn)中最為關(guān)鍵的一步,它根據(jù)事先選定的數(shù)據(jù)挖掘算法,對已經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行模式的提??;知識發(fā)現(xiàn)還要求對數(shù)據(jù)進(jìn)行模式表示及評價,即對數(shù)據(jù)挖掘過程中提取的模式,運用可視化的方式進(jìn)行表示,以形成用戶可理解的知識,然后根據(jù)興趣度評價來確定對用戶有用的知識,從而形成可與用戶互動更新的知識庫。
1.2知識發(fā)現(xiàn)與數(shù)字圖書館知識服務(wù)
數(shù)字圖書館知識服務(wù)是信息服務(wù)的一種高級形式,它為用戶提供的不是簡單的信息服務(wù),而是通過集成化、集約化等形式對數(shù)據(jù)挖掘所形成的知識進(jìn)行管理,從而直接為用戶提供知識產(chǎn)品和問題解決方案,實現(xiàn)知識創(chuàng)新[2]。而知識發(fā)現(xiàn)可實現(xiàn)將數(shù)據(jù)轉(zhuǎn)化成知識的過程,恰可以實現(xiàn)數(shù)字圖書館信息資源到知識的轉(zhuǎn)換,是數(shù)字圖書館開展知識服務(wù)的前提。圖1給出了基于知識發(fā)現(xiàn)的數(shù)字圖書館知識服務(wù)的模型,該模型將數(shù)字圖書館知識服務(wù)系統(tǒng)分成四層,分別是數(shù)據(jù)層、知識層、服務(wù)層和交互層。數(shù)據(jù)層是數(shù)字圖書館所有的資源,包括其購買的商業(yè)數(shù)據(jù)庫、自建的特色庫資源,用戶信息資源庫和網(wǎng)絡(luò)可獲取的開放資源;知識層利用知識發(fā)現(xiàn)將數(shù)據(jù)層資源轉(zhuǎn)換成可利用的知識庫,如專家知識庫、學(xué)科知識庫、用戶個性化知識庫等;服務(wù)層對應(yīng)于知識發(fā)現(xiàn)的知識可視化管理階段,對形成的知識庫進(jìn)行管理,形成各服務(wù)模塊,如知識導(dǎo)航、個性化推薦、知識檢索、知識咨詢等;交互層是用戶的訪問界面,用戶通過友好的界面享受知識服務(wù)。由圖1可以看出,知識發(fā)現(xiàn)是數(shù)據(jù)層到知識服務(wù)層功能實現(xiàn)的鏈接[3]。
圖1 基于知識發(fā)現(xiàn)的數(shù)字圖書館知識服務(wù)模型
2.1數(shù)據(jù)收集中的用戶隱私風(fēng)險
在數(shù)據(jù)收集階段,除了對數(shù)字圖書館的數(shù)據(jù)庫資源、網(wǎng)絡(luò)OA資源進(jìn)行收集外,還包括對數(shù)字圖書館用戶信息的收集。用戶信息的收集主要有兩部分組成,一部分是由用戶主動提供的,比如用戶注冊時提交的個人信息等,主動提供的信息包括用戶的身份信息和背景信息;另一部分則是在用戶不知情的情況下,由系統(tǒng)自動抓取的,如用戶的使用記錄信息,這些信息可以從服務(wù)器訪問日志、網(wǎng)絡(luò)cookies等中提取和收集。給用戶個人敏感信息或隱私的安全帶來風(fēng)險[4]。
2.2數(shù)據(jù)挖掘過程中的用戶隱私風(fēng)險
知識庫的構(gòu)建是知識服務(wù)的最為關(guān)鍵部分。它將收集來的數(shù)據(jù)運用數(shù)據(jù)挖掘技術(shù),進(jìn)行過濾、組織和挖掘,形成各種知識庫。其中用戶個性化知識庫的構(gòu)建,需要追蹤用戶使用記錄信息,包括用戶的查詢記錄、檢索檢索、瀏覽記錄等。通過對這些記錄的深層次分析,挖掘出各用戶的不同需求特點,預(yù)測用戶的需求趨向并發(fā)現(xiàn)用戶潛在需求。這個過程可使得用戶的知識需求或行為趨向被提前暴露[5],給用戶隱私帶來風(fēng)險。
2.3數(shù)據(jù)傳輸過程中的用戶隱私風(fēng)險
數(shù)字圖書館知識服務(wù)過程中,當(dāng)用戶請求服務(wù)時,其檢索請求和各知識庫數(shù)據(jù)就需要在網(wǎng)絡(luò)上進(jìn)行傳輸,這當(dāng)然也包含個性化知識庫中的用戶個人隱私數(shù)據(jù)。而由于網(wǎng)絡(luò)的公開性,數(shù)據(jù)在網(wǎng)絡(luò)上傳輸過程中,攻擊者可通過線路搭載、鏈路竊聽等方式可對用戶隱私信息進(jìn)行截獲、竊聽、篡改或破壞,隱私信息的保密性、完整性無法得到保證。
2.4數(shù)據(jù)訪問階段的用戶隱私風(fēng)險
數(shù)字圖書館在進(jìn)行知識服務(wù)的過程中,服務(wù)器需要頻繁地對數(shù)據(jù)進(jìn)行存操作。若身份認(rèn)證、訪問控制、遠(yuǎn)程接入等的防護(hù)措施脆弱,一些不法分子會對這些數(shù)據(jù)進(jìn)行未經(jīng)授權(quán)的訪問獲取,這樣存放在數(shù)字圖書館服務(wù)器中的數(shù)據(jù)被不法分子輕而易舉地竊取。由于用戶終端病毒防御能力缺失,用戶的操作過程很容易被木馬記錄并傳遞給了木馬控制者,木馬控制者也可輕易獲取用戶隱私信息。此外,數(shù)字圖書館網(wǎng)絡(luò)管理員違規(guī)查看數(shù)據(jù)庫記錄、用戶隱私信息等,這些都有可能造成用戶隱私信息的泄露或篡改。
通過上節(jié)的隱私風(fēng)險分析可知,數(shù)字圖書館知識服務(wù)的用戶隱私風(fēng)險主要集中在知識發(fā)現(xiàn)的各個階段和用戶訪問界面的網(wǎng)絡(luò)邊界。本節(jié)針對各階段可能存在的用戶隱私風(fēng)險,提出分層次多重技術(shù)保護(hù)框架來保護(hù)用戶隱私,如圖2所示。
圖2 數(shù)字圖書館知識服務(wù)隱私技術(shù)保護(hù)框架
3.1數(shù)據(jù)收集階段
針對數(shù)據(jù)收集階段用戶的隱私風(fēng)險,可采用與用戶進(jìn)行隱私保護(hù)協(xié)商進(jìn)行隱私保護(hù),P3P標(biāo)準(zhǔn)和EPAL語言等都可實現(xiàn)此功能,它們均對系統(tǒng)搜集用戶信息的目的和用戶信息的類型進(jìn)行了定義,用戶可從自己的需求出發(fā),自主地選擇適合自己的隱私保護(hù)參數(shù)[6]。P3P標(biāo)準(zhǔn)和EPAL語言有著不同的特點,可根據(jù)具體情況適當(dāng)選擇。P3P標(biāo)準(zhǔn)可利用瀏覽器來自動讀取和處理隱私政策,對系統(tǒng)所使用的瀏覽器有一定的要求。用戶可以預(yù)先在系統(tǒng)中對自己的個人隱私偏好進(jìn)行設(shè)定,然后根據(jù)判斷站點的信息收集行為與用戶預(yù)先設(shè)定的標(biāo)準(zhǔn)是否相符,來確定是否要繼續(xù)訪問該站點,或是否要對自己制定的個人隱私策略作出修改,以此實現(xiàn)與用戶隱私保護(hù)協(xié)商。而EPAL語言是一種基于XML的形式化語言,它可更加詳細(xì)地描述隱私保護(hù)策略并對其進(jìn)行配置,但是它的嵌入過程復(fù)雜,用戶操作不便。通過P3P標(biāo)準(zhǔn)和EPAL語言等用戶隱私保護(hù)協(xié)商政策,不僅能在數(shù)據(jù)收集階段有效保護(hù)用戶隱私,還能提高用戶隱私保護(hù)意識。
3.2數(shù)據(jù)挖掘階段
在數(shù)字圖書館知識服務(wù)中,為防止攻擊者非法地使用數(shù)據(jù)挖掘技術(shù)來獲取用戶的隱私信息,可采用K-匿名技術(shù),L多樣性等匿名保護(hù)技術(shù)進(jìn)行保護(hù)。在K-匿名技術(shù)中,準(zhǔn)標(biāo)志符是指能夠利用推演來標(biāo)志個體信息的一組屬性。在該技術(shù)中,數(shù)據(jù)中每個元組都存在在準(zhǔn)標(biāo)志屬性上取值相同的元組,而且這樣的元組不少于k個,若攻擊者想通過其他數(shù)據(jù)鏈來識別元組所屬個體的身份,其概率將不超過1/k,若數(shù)據(jù)k足夠大,鏈接攻擊造成的隱私泄露的風(fēng)險就會大大降低。但是對于背景知識攻擊和一致性攻擊,不加控制的K-匿名算法就很容易攻破。針對這種情況,學(xué)者提出L多樣性模型,它要求每個等價類中的敏感值必須滿足L多樣性需求,以此來提高敏感值與其所屬個體的鏈接難度,有效防止一致性攻擊和背景知識攻擊。在對數(shù)據(jù)進(jìn)行深層次挖掘之前,通過K-匿名技術(shù),L多樣性等匿名保護(hù)技術(shù)對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使得個人隱私信息大眾化,脫離個體身份,有效防止用戶隱私泄露。
3.3數(shù)據(jù)傳輸階段
用戶隱私信息在網(wǎng)絡(luò)上進(jìn)行傳輸時,可使用數(shù)據(jù)加密技術(shù)進(jìn)行處理,這樣數(shù)據(jù)即使被非法竊取,由于不知相應(yīng)的解密算法,竊取者只能看到無意義的密文,無法看到明文,從而有效保護(hù)用戶的隱私。目前的加密算法如RSA、DES、MD5等都已具備很高的安全性。虛擬專用網(wǎng)技術(shù)是指在公用開放的網(wǎng)絡(luò)中附加了上層協(xié)議,并通過強(qiáng)有力的加密手段,向用戶提供類似“專用網(wǎng)絡(luò)”的網(wǎng)絡(luò)服務(wù)技術(shù)。數(shù)據(jù)通過安全的專用網(wǎng)絡(luò)進(jìn)行傳輸,偷聽者即使截獲了數(shù)據(jù)也無法破解,從而保證了通道數(shù)據(jù)的機(jī)密性。建立數(shù)字圖書館虛擬專用網(wǎng)絡(luò),可有效保障用戶隱私信息的安全傳輸[7]。
3.4數(shù)據(jù)訪問階段
針對知識服務(wù)的數(shù)據(jù)訪問階段,不法分子通過網(wǎng)絡(luò)邊界非法進(jìn)入系統(tǒng)或?qū)ο到y(tǒng)數(shù)據(jù)進(jìn)行非法操作,給用戶帶來的隱私風(fēng)險,框架中提出利用身份認(rèn)證、入侵檢測和訪問控制等技術(shù)進(jìn)行多重保護(hù)。身份認(rèn)證技術(shù)可驗證用戶身份的合法性,保證合法授權(quán)的用戶順利進(jìn)入系統(tǒng),而未授權(quán)用戶則無法進(jìn)入系統(tǒng)。通過嚴(yán)格的身份認(rèn)證技術(shù),保證系統(tǒng)內(nèi)數(shù)據(jù)被合法用戶訪問和使用,它是系統(tǒng)網(wǎng)絡(luò)邊界保護(hù)的第一道關(guān)口。入侵檢測技術(shù)通過監(jiān)視系統(tǒng)的運行狀態(tài),收集并分析計算機(jī)網(wǎng)絡(luò)和系統(tǒng)關(guān)鍵點的數(shù)據(jù),發(fā)現(xiàn)網(wǎng)絡(luò)和系統(tǒng)中是否有被攻擊跡象或者違反安全策略,以保證知識服務(wù)系統(tǒng)用戶隱私信息的機(jī)密性、完整性和可用性。訪問控制技術(shù)對用戶權(quán)限進(jìn)行控制管理,用戶被授予的權(quán)限不同,他對系統(tǒng)數(shù)據(jù)的訪問操作也就不同,它的目的在于保證用戶信息不被非法訪問和使用,以保護(hù)用戶隱私。通過身份認(rèn)證、入侵檢測和訪問控制等多重技術(shù)保護(hù),不法分子進(jìn)入系統(tǒng)盜取或破壞用戶隱私信息的難度大大增加,因此在網(wǎng)絡(luò)邊界為用戶隱私保護(hù)提供了安全保障。
數(shù)字圖書館知識服務(wù)是數(shù)字圖書館服務(wù)的新模式,新模式下用戶的隱私問題更加突出,其隱私保護(hù)也將更為復(fù)雜。為消除用戶享受知識服務(wù)時的隱私顧慮,使得數(shù)字圖書館知識服務(wù)更快更好的發(fā)展,文章對數(shù)字圖書館知識服務(wù)中用戶可能存在的隱私風(fēng)險進(jìn)行了分析,并結(jié)合現(xiàn)有的隱私保護(hù)技術(shù),給出技術(shù)保護(hù)框架,旨在為數(shù)字圖書館知識服務(wù)中用戶隱私保護(hù)后續(xù)研究提供參考。但文章只限于從技術(shù)角度來探討知識服務(wù)中的隱私保護(hù),而要實現(xiàn)真正的隱私保護(hù),必須結(jié)合立法、法規(guī)政策以及用戶自我保護(hù)意識,從多方位進(jìn)行保護(hù)。
[1]徐險峰,馬海群,王海東.圖書館用戶隱私權(quán)保護(hù)研究綜述[J].圖書館建設(shè),2010(7):30-34.
[2]賈玲.圖書館知識服務(wù)探析[J].情報資料工作,2013(2):97-100.
[3]邵慧麗,張帆.基于知識發(fā)現(xiàn)數(shù)字圖書館知識服務(wù)研究[J].圖書館,2016(2):70-73.
[4]李愛國,曹翔,汪社教.圖書館用戶信息資源化過程中用戶隱私信息保護(hù)問題與對策[J].圖書情報工作,2015(13):26-30.
[5]馬曉亭.大數(shù)據(jù)時代圖書館個性化服務(wù)讀者隱私保護(hù)研究[J].圖書館論壇,2014(2):84-89.
[6]潘浩,張幸.一種基于自主計算的數(shù)字圖書館個性化服務(wù)隱私保護(hù)框架[J].圖書情報工作,2009(11):75-77.
[7]薄懷霞.數(shù)字圖書館個性化信息服務(wù)隱私保護(hù)技術(shù)研究[J].圖書館學(xué)刊,2014(2):112-115.