趙艷平
(安徽水利水電職業(yè)技術(shù)學(xué)院,合肥 231603)
企業(yè)外網(wǎng)應(yīng)用系統(tǒng)在線評估研究與測試
趙艷平
(安徽水利水電職業(yè)技術(shù)學(xué)院,合肥 231603)
企業(yè)外網(wǎng)應(yīng)用系統(tǒng)作為企業(yè)面向社會和外部企業(yè)運營的通道,在提高企業(yè)運營效率的同時面臨著來自互聯(lián)網(wǎng)安全危險。因此研究實時在線信息安全評估與分析具有很重要的作用。本文結(jié)合企業(yè)互聯(lián)網(wǎng)應(yīng)用系統(tǒng)面臨的信息安全現(xiàn)狀,研究基于強化學(xué)習(xí)的WEB信息抓取RLC模型,通過模型來完成WEB頁面結(jié)構(gòu)化、頁面特征提取、鏈接特征抽取等任務(wù),同時利用綜合回報評價模型中的Q值評價算法評價鏈接的接口相關(guān)度,根據(jù)該接口相關(guān)度數(shù)值進行WEB信息抓取對象選擇,為WEB信息抓取提供最優(yōu)選擇策略,減少對無效頁面檢測的次數(shù),從而提高整體安全檢測效率。
企業(yè)外網(wǎng)應(yīng)用系統(tǒng);信息安全;在線評估;WEB信息抓取;安全測試
隨著廣東電網(wǎng)分公司信息化建設(shè)進程的推進,企業(yè)信息化運營從傳統(tǒng)的企業(yè)內(nèi)部開始轉(zhuǎn)向互聯(lián)網(wǎng)用戶和其它企業(yè)客戶。為確保企業(yè)外網(wǎng)應(yīng)用系統(tǒng)穩(wěn)定可靠,對外網(wǎng)應(yīng)用系統(tǒng)進行在線評估研究是不可忽視的組成部分,需要通過實時在線評估預(yù)防互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)攻擊、WEB應(yīng)用層滲透等風(fēng)險。
Web應(yīng)用在互聯(lián)網(wǎng)中已經(jīng)廣泛使用,根據(jù)CNCERT/CC提供的流量數(shù)據(jù)抽樣統(tǒng)計報告[1],在TCP協(xié)議應(yīng)用流量中WEB應(yīng)用流量占據(jù)了67.7%.然而,由于WEB應(yīng)用具有開放性、自主性,使WEB應(yīng)用安全問題日益顯著,據(jù)統(tǒng)計90%的Web應(yīng)用存在某種類型的安全漏洞以及75%的網(wǎng)絡(luò)攻擊都是基于HTTP/S協(xié)議進行,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,這種網(wǎng)絡(luò)攻擊量也逐年增加,據(jù)計算機犯罪和完全調(diào)查顯示[2],網(wǎng)絡(luò)犯罪從2004年的5%變?yōu)榱?010年的95%.由此可見,企業(yè)外網(wǎng)應(yīng)用系統(tǒng)安全也面臨著嚴(yán)峻的網(wǎng)絡(luò)安全問題,進行網(wǎng)絡(luò)安全評測、及時發(fā)現(xiàn)問題對于應(yīng)用安全具有很重要的意義。
信息抓取是Web應(yīng)用系統(tǒng)安全檢測的必要過程,通過對WEB信息中的有效信息的抓取分析發(fā)現(xiàn)其安全隱患。然而,由于WEB應(yīng)用的廣泛使用,對WEB應(yīng)用系統(tǒng)信息抓取存在冗余度高、抓取效率低的問題,本文在相關(guān)研究基礎(chǔ)上對WEB信息抓取做了改進,提出了基于聚類分析的頁面結(jié)構(gòu)化模型和基于強化學(xué)習(xí)的WEB信息抓取模型。
2.1 基于聚類分析的頁面結(jié)構(gòu)化模型
基于聚類分析的頁面結(jié)構(gòu)化模型如圖1所示,模型由頁面源代碼文件、頁面解析引擎、完全標(biāo)簽樹生成引擎(標(biāo)簽提取、特征提取、標(biāo)簽樹生成)、多叉樹遍歷分析引擎、聚類分析引擎、結(jié)構(gòu)化壓縮標(biāo)簽樹組成,其中頁面解析引擎主要負(fù)責(zé)頁面文檔的初步解析,并把解析結(jié)果轉(zhuǎn)換為文件對象模型(Document Object Model,簡稱DOM)樹,完全標(biāo)簽樹生成引擎則負(fù)責(zé)對DOM進行標(biāo)簽特征提取并生成一棵多叉數(shù)(圖2),通過多叉樹遍歷分析引擎對標(biāo)簽特征遍歷分析,并把遍歷的數(shù)據(jù)作為聚類分析中的參數(shù)之一,通過聚類分析引擎最終把頁面內(nèi)容區(qū)塊劃分,形成結(jié)構(gòu)化壓縮標(biāo)簽樹。
圖1 基于聚類分析的頁面結(jié)構(gòu)化模型Fig.1 Page structural model based on cluster analysis
圖2 完全標(biāo)簽樹Fig.2 Complete label tree
在完全標(biāo)簽數(shù)中,樹的節(jié)點[3]一般由標(biāo)簽名稱(TagName)、標(biāo)簽屬性(TagAttr)、標(biāo)簽關(guān)鍵字(Key-Word)、超鏈接信息(Href)、接口信息(Interface)、節(jié)點處理狀態(tài)(bProcessed)、塊編碼(AreaID)組成,通過這些屬性記錄著每個標(biāo)簽的特征信息。并通過完全標(biāo)簽數(shù)中的AreaID進行區(qū)域和塊劃分,將AreaID相同的節(jié)點進行聚類與集合形成塊。然后通過共同的特征屬性描述塊信息。形成塊信息后,通過塊信息重新對完全標(biāo)簽壓縮處理,通過壓縮結(jié)構(gòu)化標(biāo)簽樹了描述塊與塊間的邏輯關(guān)系與位置關(guān)系。
2.2 基于強化學(xué)習(xí)的信息抓取模型
由于基于聚類分析的頁面結(jié)構(gòu)化模型中主要是針對某種特征頁面結(jié)構(gòu)化處理,不同頁面結(jié)構(gòu)需要采用不同的結(jié)構(gòu)化描述,而WEB應(yīng)用系統(tǒng)中存在多樣化特點,需要對每種類型WEB應(yīng)用系統(tǒng)進行相應(yīng)的頁面結(jié)構(gòu)化模型描述,這就需要信息抓取引擎對不同WEB應(yīng)用系統(tǒng)特征選擇不同的抓取模型和頁面結(jié)構(gòu)化模型,信息抓取引擎需要“自主學(xué)習(xí)能力”[4]。
在復(fù)雜WEB應(yīng)用環(huán)境中,由于WEB應(yīng)用結(jié)構(gòu)的多樣化,無法通過特定的模型進行頁面結(jié)構(gòu)化處理。由于在進行數(shù)據(jù)抓取時,會對抓取的環(huán)境返回一個反饋信號,可以充分利用該反饋信號自主選擇頁面構(gòu)造模型,即通過從環(huán)境中的最大累積回報值來學(xué)習(xí)最優(yōu)數(shù)據(jù)抓取策略即基于強化學(xué)習(xí)的信息抓取模型實現(xiàn)WEB信息抓取最優(yōu)策略[5]。
抓取模型的流程圖見圖3所示:
與此同時在進行WEB信息抓取時,WEB信息中的鏈接價值對于深度分析WEB信息具有很重要的作用,為了保證WEB信息中的數(shù)據(jù)提取中的鏈接只關(guān)注需要重點處理的特征,采用基于綜合回報評價方法(也稱綜合Q值評價方法[6])進行篩選,基于綜合回報評價方法集合了兩種鏈接價值方法(立即回報價值評價和未來回報價值評價)中的各自的優(yōu)點,把WEB信息抓取分為訓(xùn)練和搜索兩個階段。在訓(xùn)練階段采用強化學(xué)習(xí)的獲取具有最大回報值得鏈接,并記錄和保存Value值知識庫;在抓取階段則采用基于未來回報評價方法實現(xiàn)WEB信息(URL信息)抓取高覆蓋率。
基于綜合回報的強化學(xué)習(xí)算法能夠通過Q值知識庫預(yù)測狀態(tài)的未來回報價值。在進行Q值強化學(xué)習(xí)過程中,首先通過學(xué)習(xí)方法計算出每個鏈接的Q值并根據(jù)該Q值進行鏈接級別分類,然后再搜索階段根據(jù)文本特征和Q值知識庫計算鏈接綜合Q值,從而最終判定URL相關(guān)度評價[7]。由此可知,基于強化學(xué)習(xí)的WEB信息抓取訓(xùn)練學(xué)習(xí)過程,首先進行構(gòu)造頁面URL元數(shù)據(jù)庫和建立一個由若干個DEPL組成的元素集合,然后利用反向去重技術(shù)對元數(shù)據(jù)分析處理,提取出該URL的上一級URL地址信息,并得出該URL上一級特征信息和鏈接回報值。
通過基于強化學(xué)習(xí)的WEB信息抓取模型有效性測試與RLC信息抓取覆蓋率、收益率、效率測試驗證抓取覆蓋率與抓取收益率,并與傳統(tǒng)的信息抓取做比較。
圖3 抓取模型的流程圖Fig.3 Flow chart of fetching model
3.1 實驗場景設(shè)計
為了測試在線評估平臺的整體性能,對3個公開且具有WEB應(yīng)用缺陷的測試系統(tǒng)進行測試,其公開可訪問的測試系統(tǒng)與可測試對象如表1所示,請平臺采用Intel Core 2 Duo CPU 2.2 GHz和2 G內(nèi)存服務(wù)區(qū)、100 Mbps網(wǎng)絡(luò)環(huán)境。
根據(jù)表中的測試地址列表,對這些WEB應(yīng)用系統(tǒng)進行在線評估測試,其測試指標(biāo)包括頁面總數(shù)、接口總數(shù)、報告WEB應(yīng)用缺陷總數(shù)等,并對測試結(jié)果數(shù)據(jù)進行人工確認(rèn),其測試統(tǒng)計結(jié)果如表2所示。
為了測試模型的有效性,采用C++開發(fā)一個WEB應(yīng)用接口爬蟲引擎,該引擎部署在Intel Core 2 Duo CPU 2.2GH服務(wù)器上,其網(wǎng)絡(luò)帶寬為100 Mbps,由于測試時需要考慮應(yīng)用系統(tǒng)的多樣化,選擇了500個不同領(lǐng)域的WEB應(yīng)用系統(tǒng)作為抓取目標(biāo)。
表1 WEB應(yīng)用系統(tǒng)測試列表Tab.1 The testing list of Web application system
表2 WEB應(yīng)用系統(tǒng)結(jié)果統(tǒng)計Tab.2 The statistical result of Web application system
3.2 RLC參數(shù)設(shè)置與實驗驗證指標(biāo)
(1)RLC參數(shù)設(shè)置
由于RLC模型實際應(yīng)用中,需要進行多個參數(shù)選擇與設(shè)置,為實現(xiàn)RLC模型最佳效果,需要對應(yīng)用參數(shù)最優(yōu)化處理,通過對參數(shù)的合理取值范圍設(shè)置和根據(jù)實際測試值合理調(diào)整參數(shù)值。
(2)驗證指標(biāo)
對于WEB信息抓取模型驗證,主要通過接口覆蓋率和抓取收益率評價即可,RLC采用綜合Q值計算鏈接相關(guān)度,并在作為一次數(shù)據(jù)抓取后記錄相關(guān)信息,為下次數(shù)據(jù)抓取積累經(jīng)驗與最優(yōu)策略。通過網(wǎng)絡(luò)爬蟲工具抓取的接口數(shù)量與目標(biāo)應(yīng)用系統(tǒng)總接口數(shù)據(jù)量比值描述接口覆蓋率,通過爬蟲工具獲取的接口數(shù)量與樣本數(shù)量比值描述收益率。
3.3 仿真結(jié)果與分析
(1)抓取性能分析
首先進行RLC抓取性能驗證,根據(jù)web的資源分類,選取具有代表性的100個WEB應(yīng)用系統(tǒng)作為WEB信息抓取目標(biāo),并以首頁作為抓取入口,對頁面中的非相關(guān)頁面不再進行信息抓取,抓取方法采用基于廣度優(yōu)先的索引爬蟲和RLC,然后通過對RLC(α,β,R)[8]中的參數(shù)調(diào)整進行抓取效果測試。測試結(jié)束,得出最后的數(shù)據(jù)結(jié)果。抓取效果如圖4所示:
圖4 抓取模型仿真效果曲線圖Fig.4 Diagram of grab model simulation effect
為了減少非相關(guān)頁面對于本頁面抓取效果影響,對相關(guān)度參數(shù)R設(shè)置固定值R=0.1,對目標(biāo)應(yīng)用程序進行信息抓取。
(2)學(xué)習(xí)效果分析
為了驗證RLC學(xué)習(xí)能力,對500個Web應(yīng)用系統(tǒng)進行更多樣本抓取實驗,在進行抓取信息前首先對500個WEB應(yīng)用系統(tǒng)進行分組,按照10個一組進行分組,每組中包含不同類型的主題。可以看出RLC,在保證訓(xùn)練學(xué)習(xí)充分條件下,RLC覆蓋率和收益率隨著實驗測試的增加而不斷身高,當(dāng)達(dá)到一定數(shù)值時,其覆蓋率和收益率保持在一種最佳狀態(tài)。其主要原因是RLC充分利用了鏈接/頁面接口相關(guān)性分析判斷進行選擇性信息抓取的結(jié)果。
由此可見,基于強化學(xué)習(xí)的WEB信息抓取利用了綜合Q值評價算法的立即回報與未來回報評價法則評價鏈接的接口相關(guān)性,為WEB信息抓取提供了最優(yōu)選擇策略,達(dá)到了提高抓取性能的目的。
通過對WEB應(yīng)用系統(tǒng)信息抓取模塊、自動交互方法、安全缺陷檢測進行分析介紹,提出了基于強化學(xué)習(xí)的WEB信息抓取RLC模型,通過模型來完成WEB頁面結(jié)構(gòu)化、頁面特征提取、鏈接特征抽取等,然后將頁面結(jié)構(gòu)化結(jié)果和特征提取結(jié)果注入到綜合回報評價模型中,對WEB應(yīng)用系統(tǒng)中的鏈接進行接口相關(guān)度分析評價,通過鏈接信息評價值進行選擇性WEB頁面信息抓取,通過減少無效頁面檢測次數(shù)達(dá)到最大收益率,從而提高整體安全檢測效率。
[1]張國祥.基于Apache的Web安全技術(shù)的應(yīng)用研究[J].武漢理工大學(xué)學(xué)報,2010,3(3):10-11.
[2]單歐.SSL在web安全中的應(yīng)用[J].信息網(wǎng)絡(luò)安全,2009,4(6):12-18.
[3]鄧集波.WEB中基于角色訪問控制的靜態(tài)授權(quán)研究[D].武漢:華中科技大學(xué),2003.
[4]周穎.Web服務(wù)安全性研究及其應(yīng)用[D].重慶:重慶大學(xué),2004.
[5]張振興.Web服務(wù)安全性的研究與實現(xiàn)[D].北京:華北電力大學(xué),2003.
[6]汪?;?淺議網(wǎng)絡(luò)安全問題及防范對策[J].信息技術(shù),2012,9(1):117-120.
[7]劉修峰,范志剛.網(wǎng)絡(luò)攻擊與網(wǎng)絡(luò)安全分析[J].網(wǎng)絡(luò)安全,2012,8(12):46-48.
[8]楊穎.基于OVAL的漏洞掃描系統(tǒng)設(shè)計與實現(xiàn)[J].西北大學(xué)學(xué)報,2010,6(18):10-13.
Online Assessment Research and Testing of the Application System of Enterprise External Network
ZHAO Yan-ping
(Anhui Hydropower Vocational Technical College,Hefei 231603,China)
Outside the enterprise network as an enterprise application system geared to the needs of society and external enterprise operating channels.At the same time,the improvement of operational efficiency of enterprises is faced with network security risk.So the online assessment and analysis on information security is of vital importance.Together with the present situation of Guangdong power grid application system facing internet information security,the Web information fetching RLC model of reinforcement learning was studied to complete the struture of Web page,the extraction of page and links features,etc..Meanwhile,the Q-value comprehensive evaluation model of return correlation algorithm evaluates the link interface,through the interface relevance for WEB information grasping object selection,the optimum choice for WEB information fetching strategy,and reduces the number of invalid pages detection,thus improving the overall safety detection efficiency.
the network application system,information security,online assessment,Web information grasping,safety tests
TP309.1
A
10.3969/j.issn.1673-2057.2015.02.007
1673-2057(2015)02-0113-05
2014-12-05
趙艷平(1977-),女,副教授,主要研究方向為模糊信息處理。