亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用探討

2017-11-03 08:29:40羅維

科技創(chuàng)新導(dǎo)報(bào) 2017年24期

羅維

摘要：隨著科學(xué)技術(shù)的快速發(fā)展，各種網(wǎng)絡(luò)犯罪行為時(shí)有發(fā)生，為個(gè)人和國家?guī)砹藝?yán)重的損失，因此加強(qiáng)計(jì)算機(jī)網(wǎng)絡(luò)及服務(wù)器安全，確保信息的完整性和保密性至關(guān)重要。服務(wù)器在計(jì)算機(jī)操作系統(tǒng)中發(fā)揮著重要的作用，其安全涵蓋物理安全、病毒防護(hù)、網(wǎng)絡(luò)安全、數(shù)據(jù)庫安全、操作系統(tǒng)安全等，這就需要認(rèn)真研究服務(wù)器的安全保護(hù)措施，利用web日志來了解系統(tǒng)面臨的潛在威脅，以免系統(tǒng)數(shù)據(jù)受到破壞或修改。本文就對(duì)web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用進(jìn)行分析和探究。

關(guān)鍵詞：web日志數(shù)據(jù)挖掘服務(wù)器安全應(yīng)用

中圖分類號(hào)：TP393.05 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-098X（2017）08（c）-0155-02

隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展，信息數(shù)據(jù)呈爆炸式增長，而這些信息數(shù)據(jù)具有非結(jié)構(gòu)化、動(dòng)態(tài)性、異質(zhì)性等特征，蘊(yùn)含著極其豐富的圖像圖形、本文、視音頻等信息資源，多存在于服務(wù)器上，尤其是用戶記錄信息以及鏈接結(jié)構(gòu)信息[1]。目前管理人員如何篩選和查找所需的有用信息數(shù)據(jù)，已經(jīng)成為一大難題，這也在很大程度上推動(dòng)了單類型、單文本的數(shù)據(jù)挖掘朝著web日志數(shù)據(jù)挖掘的方向發(fā)展，為服務(wù)器的安全提供了強(qiáng)有力的技術(shù)保障。

1 web日志數(shù)據(jù)挖掘概述

對(duì)于web日志挖掘而言，其主要是在用戶存取模式的基礎(chǔ)上，對(duì)有用的價(jià)值加以獲取，深度挖掘web上的相關(guān)數(shù)據(jù)及日志數(shù)據(jù)，這樣可以及時(shí)發(fā)現(xiàn)用戶訪問web頁面。當(dāng)然web數(shù)據(jù)有其他的類型，基本都是網(wǎng)上的原始數(shù)據(jù)，而we b日志挖掘并不是原始數(shù)據(jù)，借助用戶和網(wǎng)絡(luò)之間的互動(dòng)來獲取第二手?jǐn)?shù)據(jù)，包括用戶提問式、瀏覽器訪問記錄、代理服務(wù)器日志記錄、用戶個(gè)人簡(jiǎn)歷、網(wǎng)絡(luò)服務(wù)器訪問記錄、注冊(cè)信息等。分析這些數(shù)據(jù)的規(guī)律，詳細(xì)識(shí)別電子商務(wù)的潛在客戶，或者是在擴(kuò)展有向樹模型來識(shí)別用戶的瀏覽序列模式，以便web日志挖掘工作的順利實(shí)施。同時(shí)以用戶訪問web記錄為依據(jù)，挖掘用戶的興趣關(guān)聯(lián)規(guī)則后將其存放在相關(guān)的數(shù)據(jù)庫中，從而對(duì)用戶行為進(jìn)行合理預(yù)測(cè)，以便用戶獲取相關(guān)的web頁面，促進(jìn)頁面獲取速度的加快[2]?？傊?，web服務(wù)是互聯(lián)網(wǎng)提供最豐富、最多的服務(wù)，因而Web服務(wù)器往往會(huì)遭受很多的攻擊，這就要求管理人員采取切實(shí)可行的措施來防止服務(wù)器遭受入侵和攻擊，其中最為常用且直接有效的方式就是及時(shí)查看web服務(wù)器的日志記錄。對(duì)于大型網(wǎng)絡(luò)而言，其訪問數(shù)據(jù)以及日志記錄數(shù)目較大，只有采取切實(shí)可行的措施，合理運(yùn)用數(shù)據(jù)挖掘技術(shù)，才能合理把握日志、準(zhǔn)確抓住重點(diǎn)或找到入侵線索。

2 web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用

黑客攻擊web站點(diǎn)時(shí)，都會(huì)事先對(duì)web站點(diǎn)可進(jìn)行攻擊或存在的漏洞進(jìn)行了解，高效運(yùn)用漏洞掃描軟件，一旦發(fā)現(xiàn)漏洞則進(jìn)行攻擊；然而部分能在web日志中找到的漏洞，一旦出現(xiàn)下列的情況，則會(huì)出現(xiàn)一些攻擊行為：①大量訪問被拒絕；②沒有找到多次出現(xiàn)的請(qǐng)求資源；③存在特定的資源請(qǐng)求字符串。一般情況下，管理人員對(duì)web日志進(jìn)行分析時(shí)，如果發(fā)現(xiàn)“..%c1%”和“+.htr”等特定資源申請(qǐng)字符串，即認(rèn)定客戶正在發(fā)起攻擊。從web日志分析可知，了解黑客攻擊服務(wù)器的特點(diǎn)后，認(rèn)真分析web日志數(shù)據(jù)，對(duì)系統(tǒng)可能存在的威脅進(jìn)行準(zhǔn)確把握，并采取切實(shí)可行的加固系統(tǒng)方式，以免系統(tǒng)數(shù)據(jù)被破壞。

web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用具體表現(xiàn)為如下幾方面：第一，模式識(shí)別和分析。針對(duì)模式識(shí)別，其主要是以各種算法為基礎(chǔ)，對(duì)處理后的數(shù)據(jù)進(jìn)行深度挖掘，然后生成模式，具體表現(xiàn)為：①網(wǎng)頁編碼：在網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上編碼相關(guān)主題頁面，將特定的數(shù)字設(shè)置在每個(gè)頁面上，然后以網(wǎng)站現(xiàn)有的網(wǎng)頁數(shù)為依據(jù)進(jìn)行編號(hào)。②會(huì)話抽取：對(duì)所有的會(huì)話進(jìn)行求取后，構(gòu)成用戶會(huì)話集。③頁面相似度分析：借助余弦相似度的方式，合理計(jì)算頁面間的相關(guān)性[3]。④用戶聚類：運(yùn)用等聚類方法，如RCPC、CARD等，對(duì)網(wǎng)站用戶會(huì)話進(jìn)行聚類處理訪問。為了確認(rèn)模型的性能，應(yīng)該以訪問量較大的網(wǎng)站為依托，模擬其網(wǎng)站服務(wù)器的日志。

第二，數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要是在日志文件轉(zhuǎn)換為數(shù)據(jù)庫文件后進(jìn)行，旨在轉(zhuǎn)化web日志，使其更好地進(jìn)行數(shù)據(jù)挖掘，確保數(shù)據(jù)的精準(zhǔn)性，而這一過程涉及識(shí)別用戶會(huì)話、識(shí)別用戶、數(shù)據(jù)清理、識(shí)別片段這四個(gè)階段。①識(shí)別用戶會(huì)話。對(duì)于用戶會(huì)話而言，其是指用戶對(duì)服務(wù)器的有效訪問，利用連續(xù)請(qǐng)求頁面的方式，在網(wǎng)站中獲得訪問行為，以用戶會(huì)話為基礎(chǔ)掌握黑客入侵時(shí)的相關(guān)操作，保障web服務(wù)器數(shù)據(jù)的安全性。

②識(shí)別用戶。web日志記錄的用戶情況分為：同一時(shí)間內(nèi)，同一用戶的IP對(duì)web服務(wù)器進(jìn)行訪問；或者是同一時(shí)間內(nèi)，不同用戶利用相對(duì)簡(jiǎn)單的代理訪問web服務(wù)器[4]。從服務(wù)器安全的層面而言，前一種情況時(shí)重點(diǎn)分析的對(duì)象，以日志中的IP為依據(jù)進(jìn)行分類，以時(shí)間順序?yàn)橐劳?，?duì)同一個(gè)IP的訪問進(jìn)行排序，有效判斷一定時(shí)間內(nèi)各IP訪問服務(wù)器的情況；若該IP在同一時(shí)間訪問服務(wù)器，則判斷IP和系統(tǒng)中所保存的常用代理服務(wù)器，但其不是代理服務(wù)器時(shí)，則要有效識(shí)別該IP的日志數(shù)據(jù)。

③數(shù)據(jù)清理。其主要指的是以需求為基礎(chǔ)對(duì)日志文件進(jìn)行處理，涉及合并一些記錄或刪除不必要的數(shù)據(jù)等。用戶對(duì)某個(gè)網(wǎng)頁進(jìn)行請(qǐng)求時(shí)，可以自動(dòng)下載與該網(wǎng)頁相關(guān)的音頻、圖片等信息，然后記錄在日志文件中；由于數(shù)據(jù)挖掘是以用戶訪問模式為目的，這些信息的可用性不高，所以刪除日志中的文件后綴，如jpeg、jpg、gif等的記錄，從而檢驗(yàn)是否有黑客入侵。黑客入侵在日志中多在HTTP狀態(tài)出錯(cuò)，所以清理數(shù)據(jù)的過程中，對(duì)正常訪問的數(shù)據(jù)加以去除；但有些黑客可能借助正常的訪問加以入侵，這時(shí)需要保留正常的訪問數(shù)據(jù)。

④格式化。數(shù)據(jù)集完成會(huì)話標(biāo)識(shí)后，需要格式化會(huì)話數(shù)據(jù)，使其變成習(xí)相應(yīng)數(shù)據(jù)挖掘算法的數(shù)據(jù)模型，即數(shù)據(jù)轉(zhuǎn)化[5]。而日志記錄涉及HTTP狀態(tài)、請(qǐng)求資源、訪問方式、客戶端IP、時(shí)間、日期等，但通過格式化這些日志記錄，系統(tǒng)可以產(chǎn)生全新的表，即“已經(jīng)清洗的web日志記錄”，并且該表包括代理、引用頁面、訪問頁面、時(shí)間、IP地址、編號(hào)等。例如：“7、210.38.171.*、05/Nov/2003：09：46：398000、B.htn1、A4、htn1.Mozilla/4.0（Win+98）”。經(jīng)過上述的預(yù)處理，服務(wù)器日志變成與相關(guān)挖速?zèng)Q挖掘算法的數(shù)據(jù)模型相符。

3 結(jié)語

Web日志作為一個(gè)巨大的數(shù)據(jù)量，通過人工的方式進(jìn)行分析幾乎不可能，只有采用數(shù)據(jù)挖掘的技術(shù)手段，從安全性的角度分析web日志，才能確保web服務(wù)器的數(shù)據(jù)安全。當(dāng)前信息技術(shù)的研究重點(diǎn)就是web數(shù)據(jù)挖掘技術(shù)，這也是現(xiàn)代科技相互融合的趨勢(shì)，該技術(shù)在互聯(lián)網(wǎng)的快速發(fā)展下將會(huì)實(shí)現(xiàn)理論與技術(shù)的發(fā)展，如多媒體數(shù)據(jù)、圖像圖形數(shù)據(jù)、結(jié)構(gòu)和半結(jié)構(gòu)文本數(shù)據(jù)的高效挖掘算法；web知識(shí)庫的動(dòng)態(tài)更新及維護(hù)等等，進(jìn)一步推動(dòng)數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)庫技術(shù)的發(fā)展。

參考文獻(xiàn)

[1] 鄧詩琪，劉曉明，武旭東，等.Web服務(wù)器攻擊日志分析研究[J].信息網(wǎng)絡(luò)安全，2016（6）：56-61.

[2] 應(yīng)毅，任凱，曹陽.基于改進(jìn)的MapReduce模型的Web挖掘[J].科學(xué)技術(shù)與工程，2013（5）：1205-1209.

[3] 趙潔，溫潤，周峰，等.基于Web用戶日志的電子商務(wù)領(lǐng)域競(jìng)爭(zhēng)對(duì)手分析——以11家電子商務(wù)網(wǎng)站為例[J].信息資源管理學(xué)報(bào)，2013（4）：53-62，71.

[4] 周愛武，肖云，封軍.Web日志挖掘數(shù)據(jù)預(yù)處理優(yōu)化[J].計(jì)算機(jī)技術(shù)與發(fā)展，2011（1）：42-45.

[5] 李曉昕，謝維奇.基于Web日志挖掘的網(wǎng)上學(xué)習(xí)行為研究[J].計(jì)算機(jī)技術(shù)與發(fā)展，2011（12）：73-76.endprint