羅維
摘 要:隨著科學(xué)技術(shù)的快速發(fā)展,各種網(wǎng)絡(luò)犯罪行為時有發(fā)生,為個人和國家?guī)砹藝?yán)重的損失,因此加強計算機網(wǎng)絡(luò)及服務(wù)器安全,確保信息的完整性和保密性至關(guān)重要。服務(wù)器在計算機操作系統(tǒng)中發(fā)揮著重要的作用,其安全涵蓋物理安全、病毒防護、網(wǎng)絡(luò)安全、數(shù)據(jù)庫安全、操作系統(tǒng)安全等,這就需要認(rèn)真研究服務(wù)器的安全保護措施,利用web日志來了解系統(tǒng)面臨的潛在威脅,以免系統(tǒng)數(shù)據(jù)受到破壞或修改。本文就對web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用進行分析和探究。
關(guān)鍵詞:web日志數(shù)據(jù)挖掘 服務(wù)器安全 應(yīng)用
中圖分類號:TP393.05 文獻標(biāo)識碼:A 文章編號:1674-098X(2017)08(c)-0155-02
隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,信息數(shù)據(jù)呈爆炸式增長,而這些信息數(shù)據(jù)具有非結(jié)構(gòu)化、動態(tài)性、異質(zhì)性等特征,蘊含著極其豐富的圖像圖形、本文、視音頻等信息資源,多存在于服務(wù)器上,尤其是用戶記錄信息以及鏈接結(jié)構(gòu)信息[1]。目前管理人員如何篩選和查找所需的有用信息數(shù)據(jù),已經(jīng)成為一大難題,這也在很大程度上推動了單類型、單文本的數(shù)據(jù)挖掘朝著web日志數(shù)據(jù)挖掘的方向發(fā)展,為服務(wù)器的安全提供了強有力的技術(shù)保障。
1 web日志數(shù)據(jù)挖掘概述
對于web日志挖掘而言,其主要是在用戶存取模式的基礎(chǔ)上,對有用的價值加以獲取,深度挖掘web上的相關(guān)數(shù)據(jù)及日志數(shù)據(jù),這樣可以及時發(fā)現(xiàn)用戶訪問web頁面。當(dāng)然web數(shù)據(jù)有其他的類型,基本都是網(wǎng)上的原始數(shù)據(jù),而we b日志挖掘并不是原始數(shù)據(jù),借助用戶和網(wǎng)絡(luò)之間的互動來獲取第二手?jǐn)?shù)據(jù),包括用戶提問式、瀏覽器訪問記錄、代理服務(wù)器日志記錄、用戶個人簡歷、網(wǎng)絡(luò)服務(wù)器訪問記錄、注冊信息等。分析這些數(shù)據(jù)的規(guī)律,詳細識別電子商務(wù)的潛在客戶,或者是在擴展有向樹模型來識別用戶的瀏覽序列模式,以便web日志挖掘工作的順利實施。同時以用戶訪問web記錄為依據(jù),挖掘用戶的興趣關(guān)聯(lián)規(guī)則后將其存放在相關(guān)的數(shù)據(jù)庫中,從而對用戶行為進行合理預(yù)測,以便用戶獲取相關(guān)的web頁面,促進頁面獲取速度的加快[2]??傊?,web服務(wù)是互聯(lián)網(wǎng)提供最豐富、最多的服務(wù),因而Web服務(wù)器往往會遭受很多的攻擊,這就要求管理人員采取切實可行的措施來防止服務(wù)器遭受入侵和攻擊,其中最為常用且直接有效的方式就是及時查看web服務(wù)器的日志記錄。對于大型網(wǎng)絡(luò)而言,其訪問數(shù)據(jù)以及日志記錄數(shù)目較大,只有采取切實可行的措施,合理運用數(shù)據(jù)挖掘技術(shù),才能合理把握日志、準(zhǔn)確抓住重點或找到入侵線索。
2 web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用
黑客攻擊web站點時,都會事先對web站點可進行攻擊或存在的漏洞進行了解,高效運用漏洞掃描軟件,一旦發(fā)現(xiàn)漏洞則進行攻擊;然而部分能在web日志中找到的漏洞,一旦出現(xiàn)下列的情況,則會出現(xiàn)一些攻擊行為:①大量訪問被拒絕;②沒有找到多次出現(xiàn)的請求資源;③存在特定的資源請求字符串。一般情況下,管理人員對web日志進行分析時,如果發(fā)現(xiàn)“..%c1%”和“+.htr”等特定資源申請字符串,即認(rèn)定客戶正在發(fā)起攻擊。從web日志分析可知,了解黑客攻擊服務(wù)器的特點后,認(rèn)真分析web日志數(shù)據(jù),對系統(tǒng)可能存在的威脅進行準(zhǔn)確把握,并采取切實可行的加固系統(tǒng)方式,以免系統(tǒng)數(shù)據(jù)被破壞。
web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用具體表現(xiàn)為如下幾方面:第一,模式識別和分析。針對模式識別,其主要是以各種算法為基礎(chǔ),對處理后的數(shù)據(jù)進行深度挖掘,然后生成模式,具體表現(xiàn)為:①網(wǎng)頁編碼:在網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上編碼相關(guān)主題頁面,將特定的數(shù)字設(shè)置在每個頁面上,然后以網(wǎng)站現(xiàn)有的網(wǎng)頁數(shù)為依據(jù)進行編號。②會話抽取:對所有的會話進行求取后,構(gòu)成用戶會話集。③頁面相似度分析:借助余弦相似度的方式,合理計算頁面間的相關(guān)性[3]。④用戶聚類:運用等聚類方法,如RCPC、CARD等,對網(wǎng)站用戶會話進行聚類處理訪問。為了確認(rèn)模型的性能,應(yīng)該以訪問量較大的網(wǎng)站為依托,模擬其網(wǎng)站服務(wù)器的日志。
第二,數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要是在日志文件轉(zhuǎn)換為數(shù)據(jù)庫文件后進行,旨在轉(zhuǎn)化web日志,使其更好地進行數(shù)據(jù)挖掘,確保數(shù)據(jù)的精準(zhǔn)性,而這一過程涉及識別用戶會話、識別用戶、數(shù)據(jù)清理、識別片段這四個階段。①識別用戶會話。對于用戶會話而言,其是指用戶對服務(wù)器的有效訪問,利用連續(xù)請求頁面的方式,在網(wǎng)站中獲得訪問行為,以用戶會話為基礎(chǔ)掌握黑客入侵時的相關(guān)操作,保障web服務(wù)器數(shù)據(jù)的安全性。
②識別用戶。web日志記錄的用戶情況分為:同一時間內(nèi),同一用戶的IP對web服務(wù)器進行訪問;或者是同一時間內(nèi),不同用戶利用相對簡單的代理訪問web服務(wù)器[4]。從服務(wù)器安全的層面而言,前一種情況時重點分析的對象,以日志中的IP為依據(jù)進行分類,以時間順序為依托,對同一個IP的訪問進行排序,有效判斷一定時間內(nèi)各IP訪問服務(wù)器的情況;若該IP在同一時間訪問服務(wù)器,則判斷IP和系統(tǒng)中所保存的常用代理服務(wù)器,但其不是代理服務(wù)器時,則要有效識別該IP的日志數(shù)據(jù)。
③數(shù)據(jù)清理。其主要指的是以需求為基礎(chǔ)對日志文件進行處理,涉及合并一些記錄或刪除不必要的數(shù)據(jù)等。用戶對某個網(wǎng)頁進行請求時,可以自動下載與該網(wǎng)頁相關(guān)的音頻、圖片等信息,然后記錄在日志文件中;由于數(shù)據(jù)挖掘是以用戶訪問模式為目的,這些信息的可用性不高,所以刪除日志中的文件后綴,如jpeg、jpg、gif等的記錄,從而檢驗是否有黑客入侵。黑客入侵在日志中多在HTTP狀態(tài)出錯,所以清理數(shù)據(jù)的過程中,對正常訪問的數(shù)據(jù)加以去除;但有些黑客可能借助正常的訪問加以入侵,這時需要保留正常的訪問數(shù)據(jù)。
④格式化。數(shù)據(jù)集完成會話標(biāo)識后,需要格式化會話數(shù)據(jù),使其變成習(xí)相應(yīng)數(shù)據(jù)挖掘算法的數(shù)據(jù)模型,即數(shù)據(jù)轉(zhuǎn)化[5]。而日志記錄涉及HTTP狀態(tài)、請求資源、訪問方式、客戶端IP、時間、日期等,但通過格式化這些日志記錄,系統(tǒng)可以產(chǎn)生全新的表,即“已經(jīng)清洗的web日志記錄”,并且該表包括代理、引用頁面、訪問頁面、時間、IP地址、編號等。例如:“7、210.38.171.*、05/Nov/2003:09:46:398000、B.htn1、A4、htn1.Mozilla/4.0(Win+98)”。經(jīng)過上述的預(yù)處理,服務(wù)器日志變成與相關(guān)挖速決挖掘算法的數(shù)據(jù)模型相符。
3 結(jié)語
Web日志作為一個巨大的數(shù)據(jù)量,通過人工的方式進行分析幾乎不可能,只有采用數(shù)據(jù)挖掘的技術(shù)手段,從安全性的角度分析web日志,才能確保web服務(wù)器的數(shù)據(jù)安全。當(dāng)前信息技術(shù)的研究重點就是web數(shù)據(jù)挖掘技術(shù),這也是現(xiàn)代科技相互融合的趨勢,該技術(shù)在互聯(lián)網(wǎng)的快速發(fā)展下將會實現(xiàn)理論與技術(shù)的發(fā)展,如多媒體數(shù)據(jù)、圖像圖形數(shù)據(jù)、結(jié)構(gòu)和半結(jié)構(gòu)文本數(shù)據(jù)的高效挖掘算法;web知識庫的動態(tài)更新及維護等等,進一步推動數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)庫技術(shù)的發(fā)展。
參考文獻
[1] 鄧詩琪,劉曉明,武旭東,等.Web服務(wù)器攻擊日志分析研究[J].信息網(wǎng)絡(luò)安全,2016(6):56-61.
[2] 應(yīng)毅,任凱,曹陽.基于改進的MapReduce模型的Web挖掘[J].科學(xué)技術(shù)與工程,2013(5):1205-1209.
[3] 趙潔,溫潤,周峰,等.基于Web用戶日志的電子商務(wù)領(lǐng)域競爭對手分析——以11家電子商務(wù)網(wǎng)站為例[J].信息資源管理學(xué)報,2013(4):53-62,71.
[4] 周愛武,肖云,封軍.Web日志挖掘數(shù)據(jù)預(yù)處理優(yōu)化[J].計算機技術(shù)與發(fā)展,2011(1):42-45.
[5] 李曉昕,謝維奇.基于Web日志挖掘的網(wǎng)上學(xué)習(xí)行為研究[J].計算機技術(shù)與發(fā)展,2011(12):73-76.endprint