摘要:當前P2P網(wǎng)絡迅速發(fā)展,P2P技術(shù)被廣泛應用于文件共享、網(wǎng)絡視頻、分布式計算等領(lǐng)域。P2P網(wǎng)絡的安全問題越來越引人注目,而P2P網(wǎng)絡的數(shù)據(jù)污染問題尤為突出,需要深入研究P2P數(shù)據(jù)污染,并有針對性的提出防御措施。
關(guān)鍵詞:P2P網(wǎng)絡;數(shù)據(jù)污染;防御
中圖分類號:TP939 文獻標識碼:A 文章編號:1007-9599 (2012) 20-0000-02
P2P應用已經(jīng)成為互聯(lián)網(wǎng)的主要應用之一,P2P的模式也成為許多新型業(yè)務的首選模式。P2P技術(shù)被廣泛應用于文件共享、網(wǎng)絡視頻、分布式計算等領(lǐng)域,以分布式資源共享和并行傳輸?shù)奶攸c,為用戶提供了更多的資源、更高的可用帶寬以及更好的服務質(zhì)量。P2P節(jié)點不依賴中心節(jié)點而是依靠網(wǎng)絡邊緣節(jié)點,實現(xiàn)自組織與對等協(xié)作的資源發(fā)現(xiàn)和共享。
1 P2P網(wǎng)絡概述
1.1 P2P(Peer-to-Peer)中文譯名為對等網(wǎng)絡,是一種分布式網(wǎng)絡,網(wǎng)絡的參與者共享他們所擁有的一部分硬件資源,包括處理能力,存儲能力,網(wǎng)絡連接,打印機等,這些共享資源需要由網(wǎng)絡提供服務,能被其它對等節(jié)點(Peer直接訪問而無需經(jīng)過中間實體。在此網(wǎng)絡中的參與者既是資源(服務和內(nèi)容)的提供者(Server),又是資源(服務和內(nèi)容)的獲取者(Client)。
1.2 在P2P網(wǎng)絡的諸多安全問題中,P2P的數(shù)據(jù)污染是一個重要的安全問題,主要安全威脅表現(xiàn)在:(1)P2P網(wǎng)絡中存在的污染信息,嚴重降低了P2P網(wǎng)絡系統(tǒng)的性能,受污染的文件可能攜帶病毒、木馬等惡意程序,威脅P2P網(wǎng)絡終端用戶的安全;(2)由惡意攻擊者發(fā)起的信息污染攻擊,可能造成P2P網(wǎng)絡系統(tǒng)中大量節(jié)點失效,進而使整個P2P網(wǎng)絡崩潰;(3)由信息污染引發(fā)的拒絕服務攻擊,可以湮沒P2P網(wǎng)絡中的共享資源,增加Internet網(wǎng)絡的流量負擔,降低了ISP對Internet用戶的服務質(zhì)量。
2 P2P網(wǎng)絡安全
2.1 P2P網(wǎng)絡的安全問題。從對社會的安全影響,P2P網(wǎng)絡作為一種健壯的、可擴展性好的文件共享網(wǎng)絡,不法分子通過在P2P網(wǎng)絡中散發(fā)色情、反動的不良信息來有效的確保其不良信息的傳播,而相對于以往的集中式的下載,這種下載方式更快,同時也更難以監(jiān)管。即便發(fā)現(xiàn)不良信息的傳播,也很難遏制其傳播,這將對社會造成不良影響。此外,P2P網(wǎng)絡給用戶帶來新的共享模式的同時,隨之引出的版權(quán)糾紛問題,也直接挑戰(zhàn)社會的法律體系。
在P2P網(wǎng)絡中傳播的各類病毒、木馬,基于P2P網(wǎng)絡的僵尸網(wǎng)絡控制技術(shù),利用P2P網(wǎng)絡實施的分布式拒絕服務攻擊(DDoS)等問題,時刻威脅著互聯(lián)網(wǎng)絡的整體安全性,同時與C/S模式面臨DDoS攻擊一樣,P2P網(wǎng)絡也面臨“目標節(jié)點過載攻擊”,即攻擊者向某些特定目標節(jié)點發(fā)送大量垃圾消息,耗盡目標節(jié)點的處理能力,使系統(tǒng)認為該目標節(jié)點已經(jīng)失效退出,從而達到使目標節(jié)點功能癱瘓的目的。
P2P網(wǎng)絡中節(jié)點的行為模式與傳統(tǒng)的C/S模式有很大的區(qū)別,給Internet流量規(guī)劃提出了新的課題,降低了用戶的服務質(zhì)量。P2P以其獨特的技術(shù)優(yōu)勢在這幾年內(nèi)迅速發(fā)展,其應用不斷增長。據(jù)統(tǒng)計,P2P應用已占ISP業(yè)務總量的60%~80%,躍然成為網(wǎng)絡帶寬最大的消費者,嚴重影響了網(wǎng)絡的服務質(zhì)量。Internet的網(wǎng)絡結(jié)構(gòu)的日益復雜,網(wǎng)絡的安全性、可管理性及傳統(tǒng)應用的可用性受到了挑戰(zhàn)。
2.2 P2P數(shù)據(jù)污染。數(shù)據(jù)污染最早由Nicolas Christin等人在文獻[1]中提出,Nicolas Christin等人將P2P網(wǎng)絡中非人為產(chǎn)生的“臟數(shù)據(jù)”定義為數(shù)據(jù)污染而將人為的惡意的修改文件內(nèi)容,節(jié)點查詢列表,文件簽名造成P2P網(wǎng)絡性能下降的行為稱作毒害。Jian Liang等在文獻[2]中把污染分成兩種:內(nèi)容污染和元數(shù)據(jù)污染,內(nèi)容污染指的是將修改后的內(nèi)容當作正常內(nèi)容在網(wǎng)上發(fā)布擴散,從而延緩正常的文件的傳播。元數(shù)據(jù)污染指將內(nèi)容替換成其他版權(quán)公開的文件。D.Dumitriu等人則認為污染相當于一種特殊的Dos攻擊方式,相當于用大量的污染文件淹沒正常的文件,延緩正常文件的傳播。
綜上本文對數(shù)據(jù)污染的定義是:對等網(wǎng)文件共享系統(tǒng)中的惡意用戶,可稱之為“污染者”,將虛假的信息進行發(fā)布或者傳播,進而降低正常文件傳播性能的技術(shù)手段。
2.3 數(shù)據(jù)污染測量。對P2P網(wǎng)絡中文件污染情況的測量一般采用主動測量方法[3]或者與被動測量的方式相結(jié)合。主動測量一般通過修改客戶端程序使用網(wǎng)絡爬蟲主動加入P2P網(wǎng)絡,以獲取相關(guān)的網(wǎng)絡特性和節(jié)點屬性,該方法主要用于測量P2P網(wǎng)絡的拓撲、內(nèi)容可用性、上傳/下載比、延遲等特性。網(wǎng)絡測量方法獲得的數(shù)據(jù)較為可信,但實現(xiàn)復雜,須進行繁瑣的協(xié)議解析,其結(jié)論可信度取決于數(shù)據(jù)采樣率、抓取網(wǎng)絡快照的延遲及其對網(wǎng)絡的覆蓋率等。
還有研究社會行為對網(wǎng)絡污染的影響:對網(wǎng)絡污染情況的調(diào)查及社會行為對其的影響:研究污染的傳播特性與用戶的行為之間的關(guān)系。[4]對P2P網(wǎng)絡中的文件污染狀況做了社會性的調(diào)查,建立了污染擴散模型的離散表述。Fabricio等人[5]研究了用戶激勵機制和用戶行為對治理P2P網(wǎng)絡信息污染的影響,其中,用戶行為包括:(1)用戶主動清除行為;(2)Hash偽造行為;和(3)下載源數(shù)量限制行為等。模擬分析顯示:針對不同的信息污染,需要采取相對應的客戶端激勵機制才能減緩污染信息的擴散。
3 數(shù)據(jù)污染模型理論
3.1 污染的傳染病模型。P2P網(wǎng)絡中信息污染問題越來越受到關(guān)注,相關(guān)的模型化分析主要關(guān)注信息污染的特征、擴散過程、敏感性、危害性等方面的屬性。Dumitriu等人[Dumi 2005]分析了P2P網(wǎng)絡中信息污染的擴散過程,分別對這兩種攻擊方式(污染與DDOS攻擊)進行建模,即描述污染的文件在網(wǎng)絡中的傳播方式和描述網(wǎng)絡中存在惡意節(jié)點時,網(wǎng)絡系統(tǒng)提供持續(xù)服務的能力(即查詢節(jié)點得到可靠查詢結(jié)果的概率),驗證攻擊效果的指標就是存在惡意節(jié)點的情況下,網(wǎng)絡系統(tǒng)提供持續(xù)服務的能力。使用基于離散事件的模擬器(Gnutellasim,F(xiàn)reePastry等)驗證了信息污染對P2P網(wǎng)絡和客戶端用戶的影響,分析模擬結(jié)果表明:受用戶行為影響,污染攻擊對某些P2P文件共享系統(tǒng)非常有效,而對于合作性網(wǎng)絡(cooperative networks),該攻擊的擴展性較差。并指出最優(yōu)文件選擇下載策略、信任機制(P2P Reputation System)等都不能有效地抵御信息污染的攻擊。
3.2 污染的流模型。Kumar等人[Kuma 2006]首次建立了對等網(wǎng)絡中信息污染擴散的流模型(Fluid Modeling),分析了流模型下客戶端行為(包括主動放棄下載、黑名單過濾等)對P2P網(wǎng)絡中信息污染擴散的影響。結(jié)果顯示:目前單純的黑名單、信譽系統(tǒng)等策略不能有效抑制污染的擴散。Kumar的流模型為P2P網(wǎng)絡信息污染擴散建模提供了基本的理論思路。模型考慮了“自由下載(free riding)”和“用戶中途放棄”等兩種用戶行為對污染信息擴散的影響,此外,還分析了“非線性版本偏好”(non-linear bias toward popular versions)、黑名單等防治策略對信息污染擴散的影響。此模型假設(shè)了下載者的達到、放棄、離開并不服從poisson分布,但是與實際BT的測量相矛盾,這點需要進一步的驗證。
3.3 污染的動態(tài)時間模型。對于文件污染,其傳播是一個動態(tài)的時間模型,[6]對等網(wǎng)環(huán)境中的文件傳播和污染擴散過程建立一個動態(tài)時間模型,并在模型中包含用戶群上傳文件的慷慨度差異、用戶群對污染內(nèi)容的警覺性差異、用戶的版本選擇策略、系統(tǒng)的輔助機制,以及污染者的污染策略等多種因素的影響。通過仿真實驗來觀察各種因素對對等網(wǎng)環(huán)境中文件傳播和污染擴散規(guī)律的影響作用。并得到了一些結(jié)論:(1)模型和實驗表明單一正常版本文件的傳播規(guī)律主要由用戶群的慷慨度屬性決定;單一污染版本的傳播規(guī)律由用戶群的慷慨度和惰性度。(2)正常版本和污染版本的競爭傳播受用戶群慷慨度和惰性度屬性、污染者實施污染的策略以及系統(tǒng)輔助機制(通過影響用戶的版本選擇策略來發(fā)揮作用)等多種因素的影響:慷慨度對正常版本和污染版本的影響作用是相同的;惰性度水平的降低可以防止正常節(jié)點慷慨的共享精神被污染者濫用。
理論模型的方法由于P2P網(wǎng)絡結(jié)構(gòu)以及用戶行為的復雜性往往難以綜合描述所有因素,造成結(jié)論與實際存在較大偏差。
4 數(shù)據(jù)污染識別及防御技術(shù)
4.1 P2P污染文件識別技術(shù)??梢圆捎谜Z義、元數(shù)據(jù)、文件的行為特征、相關(guān)節(jié)點的行為特征來進行檢測是否是假冒文件。例如北大maze小組[7]主要通過挖掘歷史日志發(fā)現(xiàn)在用戶節(jié)點一個文件的平均保持時間可以用來區(qū)分真實和假冒的文件,因此提出了一個基于文件的生命周期和流行度的檢測手段LIP,實驗結(jié)果證明可以在真實文件出現(xiàn)前和后都可以減少假冒文件的下載量。
中科大的韋冬等人[Weid 2007]提出了基于文件對象的污染傳播模型,利用向量空間相似度賦予投票權(quán)重,使用horting圖方法解決數(shù)據(jù)稀疏性問題,采用自適應的信譽閾值判斷文件可信性。采用的識別技術(shù):如果共享的文件不是可播放的或者文件尺寸不在正版官方文件的大小+10%――10%之間,則認為此為污染文件。此技術(shù)需要下載文件,而且必須有官方正版文件做對比,此方法還是考慮的文件尺寸。
4.2 P2P污染防御技術(shù)。在實際中對污染的防御手段主要從管理角度入手:(1)人工審查的方式:[Pouwelse,05]提出了管理者機制可以很有效的剔除污染偽造的文件,即當節(jié)點發(fā)布資源進行共享的時候,首先要由一些管理者對其準備發(fā)布的資源進行審查,通過審查在可以進行實質(zhì)發(fā)布。數(shù)據(jù)證明此方法也很有效,但是還是采用的集中全局的機制,很難分布化。例如著名的BitTorrent索引網(wǎng)站Suprnova.org就有一定數(shù)量愿意承擔文件審查職責的志愿者。但有如下局限性:1)人力資源有限;2)人工管理滯后;3)集中式的解決方式與對等網(wǎng)絡分布式特點相矛盾。(2)借助外部的權(quán)威內(nèi)容特征碼庫:此特征碼庫一般由可信的權(quán)威結(jié)構(gòu)建立和維護,也可以根據(jù)用戶的反饋、評價、投票等選出普遍認可的內(nèi)容。下載內(nèi)容的用戶可以查詢此庫,由此判斷待選版本的可靠性。例如國內(nèi)最大的eMule資源網(wǎng)站VeryCD.com[VeryCD]也是一個代表性的例子,在中國的eMule用戶中具有很高的人氣。此方式同樣受到人力資源的限制,但是不影響資源的發(fā)布效率,由用戶自行判斷資源的可靠性。(3)集中式版本信譽發(fā)布機制:此機制更符合對等網(wǎng)的開放性、對等性特點和自由、自主的共享精神,通過搜集和整合用戶群的反饋信息,得到公眾對共享資源對象的傾向性看法,下載者可以以此作為參考。版本信譽信息可以是顯示的也可以是隱式的,如國內(nèi)BitTorrent索引網(wǎng)站“BT@China聯(lián)盟”[btChina]就顯示每個Torrent資源的種子、下載者和下載完成者的統(tǒng)計數(shù)量,而且還提供熱點排行榜列出最受歡迎的資源。而一些現(xiàn)有的P2P文件共享系統(tǒng)則提供了隱式的版本信譽機制。從仿真試驗中可以看出,隱式版本聲譽機制除了面對副本集中式文件污染時會有一段時間誤導之外,其他情況可以很好的防御污染攻擊。顯式版本聲譽機制如果能夠解決好虛假評價的問題,也是有效的污染攻擊防御措施。
參考文獻:
[1]Nicolas Christin,Andreas S. Weigend,and John Chuang,Content availability,pollution and poisoning in file sharing Peer-to-Peer networks.
[2]Jian Liang,Rakesh Kumar,Yongjian Xi and Keith W.Ross,Pollution in P2P File Sharing Systems.
[3]劉瓊,徐鵬,楊海濤.Peer-to-peer文件共享系統(tǒng)的測量研究[J].軟件學報,2006,17(10):2131-2140.
[4]Lee,U.,M.Choi,and J.Cho et al.Understanding Pollution Dynamics in P2P File Sharing [A].In:the 5th International Workshop on Peer-to-Peer Systems (IPTPS'06),Santa Babara,USA,F(xiàn)ebruary,2006.
[5]Fabricio,B.,C.Cristiano,and V.Marisa et al.Impact of Peer Incentives on the Dissemination of Polluted Content[A].In:Proc.of the 2006 ACM symposium on Applied Computing.Dijon,F(xiàn)rance,2006.
[6]左敏.P2P對等網(wǎng)系統(tǒng)軟安全若干關(guān)鍵問題研究[D].上海交通大學博士論文,2008,6.
[7]Qinyuan Feng,F(xiàn)eng 2007,LIP:A lifetime and popularity Based Ranking Approach to Filter out Fake Files in P2P File Sharing System.