◆郭曉軍郭沛精
(1.西藏民族大學信息工程學院 陜西 712082; 2.西藏光信息處理與可視化技術重點實驗室 陜西 712082)
一種面向藏區(qū)Web站點的指紋信息提取方法
◆郭曉軍1,2郭沛精1,2
(1.西藏民族大學信息工程學院 陜西 712082; 2.西藏光信息處理與可視化技術重點實驗室 陜西 712082)
Web站點指紋信息是網站安全防護重要技術之一。針對藏區(qū)內Web站點的重要性和特殊性,本文以訪問藏區(qū)Web站點過程中的域名DNS解析記錄、HTTP Response報頭字段特殊標識、字段順序及TCP流數量四個特征來構建Web站點指紋信息,并在常見藏區(qū)Web站點進行測試。結果表明本文方法能有效提取出區(qū)內Web站點指紋信息。
網絡安全; Web站點指紋; 隱私保護; Web站點防護
西藏自1999年實現寬帶上網以來,互聯網發(fā)展和普及已經成為西藏信息化建設中十分重要的組成部分。這些Web站點提供西藏文化、藏醫(yī)藏藥、藏學研究、教育旅游、在線交易、在線辦公等各種信息服務,已經成為西藏人民享受最先進科技成果的第二條“青藏鐵路”。然而,這些站點所面臨的信息泄露、站點篡改等嚴重安全問題。一方面,黑客等利用某些不正當技術手段竊取保存于這些網站上的個人情況、網購資料、銀行賬號等個人私密信息,造成嚴重個人隱私信息泄露; 另一方面,作為國家政治敏感的區(qū)域,西藏在各方面一直遭受藏獨分子、達賴集團、反華勢力的覬覦和干擾。因此不排除這些非法勢力雇傭技術人員專門針對重要Web站點信息進行收集與竊取,并利用這些信息制造惡劣事端,以達到破壞西藏經濟社會和諧穩(wěn)定的目的。
在眾多Web安全防護技術中,Web站點指紋技術可以快速從Web站點中獲取相關特征以形成Web站點指紋,并能方便地實現對Web站點是否被篡改情況的初步判斷。因此研究藏區(qū)Web站點指紋信息提取,對預防藏區(qū)關鍵Web站點信息泄露事故發(fā)生,保證西藏和諧穩(wěn)定的互聯網環(huán)境具有重要的作用。本文提出藏區(qū)Web站點指紋信息定義,并從多個特征進行描述,最后對常見的藏區(qū)Web站點進行了測試。
1.1 特征選取
(1)Web站點域名DNS解析記錄
圖1 藏區(qū)Web站點DNS解析示例
訪問Web站點過程的首要過程是對Web站點的域名進行DNS解析,從而得到所對應的IP地址,才能進行后續(xù)的通信過程,如圖1所示。盡管現在很多Web站點采用了CDN、反向代理(如Nginx)等技術,但其域名所得到的IP地址較為固定。因此本文中采用域名與其解析出的IP地址構成的信息對兒作為藏區(qū)內Web站點指紋信息的組成之一,記為Pair。
(2)HTTP Response報頭字段特殊標識
在客戶端瀏覽器向Web站點發(fā)送HTTP GET請求之后,正常情況下,Web站點服務器會返回HTTP Response Code 為“200”的響應報頭[1],且該報頭由若干個字段組成,如圖2所示。該報頭中的有些字段值具有唯一性和獨特性,能較好地作為Web站點服務器的標識,如圖2中的“ETag”字段及其值,因此可作為藏區(qū)內Web站點指紋信息的重要特征,記為Lable。
圖2 典型的HTTP Response報頭
(3)HTTP Response報頭字段順序
鑒于不同Web服務器軟件在實現HTTP協議上存在差別,因此對于HTTP Response報頭內的字段順序安排也存在差異[2]。例如圖3所示,IIS、Apache和Nginx都含有“Server”、“Date”和“Content-Type”三個字段,且此三字段的順序完全不同,差別較大。因此可將這一顯著特征作為藏區(qū)內Web站點指紋信息的組成部分,記為Order。
圖3 典型Web站點HTTP Response報頭字段順序的示例
(4)TCP流的數量
藏區(qū)內Web站點的主頁一般包含文字、圖片、音視頻、Javascript庫等大量元素。為提高傳輸這些主頁元素的效率,Web站點會使用多個TCP流來傳輸不同的元素。此處TCP流的定義采用傳統(tǒng)的五元組定義方法,即源IP、目的IP、協議、源端口和目的端口。圖4給出了訪問某個藏區(qū)Web站點產生多個TCP 流的示例。從圖中藍色框內的源端口號可以看出,該Web站點的服務器分別向客戶端的TCP端口57642~57647傳輸數據,也就是說啟用了6條TCP流。
由于各Web站點服務器系統(tǒng)實現的軟硬件差異,訪問不同站點主頁過程所生產的TCP流數目也不同。因此,TCP流數目也可作為標識Web站點指紋信息的重要依據,記為Num。