杜 威, 楊奕琦
(1.廣東警官學(xué)院計(jì)算機(jī)系,廣東廣州 510232;2.珠三角公共安全研究所,廣東廣州 510232)
當(dāng)前,隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)為核心的信息技術(shù)的飛速發(fā)展,社會各個行業(yè)在充分利用計(jì)算機(jī)網(wǎng)絡(luò)的同時(shí)也面臨著極大的信息安全風(fēng)險(xiǎn),針對計(jì)算機(jī)網(wǎng)絡(luò)的高科技犯罪形式越來越復(fù)雜,如商業(yè)欺詐、網(wǎng)絡(luò)輿情、網(wǎng)絡(luò)販毒等。與傳統(tǒng)的社會犯罪行為特點(diǎn)不同,網(wǎng)絡(luò)犯罪是一種典型的高技術(shù)犯罪行為,網(wǎng)絡(luò)犯罪證據(jù)都以二進(jìn)制的數(shù)字?jǐn)?shù)據(jù)形式通過網(wǎng)絡(luò)中的計(jì)算機(jī)或相關(guān)網(wǎng)絡(luò)設(shè)備進(jìn)行傳輸和存儲。而且,這些數(shù)字?jǐn)?shù)據(jù)形式的網(wǎng)絡(luò)犯罪證據(jù)通?;祀s在海量的正常數(shù)據(jù)之中,難以提取且易于修改、銷毀。
顯然,這些海量的、變化的電子證據(jù)僅依靠技術(shù)人員的經(jīng)驗(yàn)去分析、獲取有用的證據(jù)是不現(xiàn)實(shí)的。如何從網(wǎng)絡(luò)上分散的網(wǎng)絡(luò)設(shè)備中收集到的海量的并且是不斷更新的證據(jù)源中抽取出真實(shí)的電子證據(jù),是取證技術(shù)專家所要解決的問題。文獻(xiàn)[1-2]分別對計(jì)算機(jī)取證分析模型進(jìn)行研究,提出了一些改進(jìn)的技術(shù)及方法。本文提出的基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)取證模型將數(shù)據(jù)挖掘技術(shù)應(yīng)用于網(wǎng)絡(luò)取證的證據(jù)分析中,充分利用數(shù)據(jù)挖掘技術(shù)的多種挖掘模式,可以準(zhǔn)確、高效地在海量數(shù)據(jù)中挖掘出與犯罪行為有關(guān)的電子證據(jù)。
網(wǎng)絡(luò)電子證據(jù)是指計(jì)算機(jī)網(wǎng)絡(luò)硬件設(shè)備和相關(guān)軟件在運(yùn)行過程中產(chǎn)生的以電磁光信號形式表現(xiàn)出來的,能夠證明案件真實(shí)情況的數(shù)據(jù)或信息。目前在司法實(shí)踐中,網(wǎng)絡(luò)電子證據(jù)主要有E-mail、BBS信息、網(wǎng)頁信息、鏈接信息、聊天記錄、用戶電子簽名、系統(tǒng)文件及日志信息等[3-4]。
由于網(wǎng)絡(luò)電子證據(jù)是存在于網(wǎng)絡(luò)中的計(jì)算機(jī)或相關(guān)網(wǎng)絡(luò)設(shè)備之中二進(jìn)制的數(shù)字?jǐn)?shù)據(jù),其表現(xiàn)形式是電磁光信號或電子脈沖信號。因此,在網(wǎng)絡(luò)電子取證的過程中一方面要注重電子證據(jù)的特點(diǎn),另一方面也要考慮到嫌疑網(wǎng)絡(luò)的結(jié)構(gòu)及軟硬件配置特點(diǎn),必須采用專門的取證工具和高效的取證技術(shù)按規(guī)范的方法進(jìn)行提取和分析,使之能具備證明案件事實(shí)的證據(jù)能力。
在進(jìn)行網(wǎng)絡(luò)電子證據(jù)取證過程中需要著重注意以下幾個方面的特點(diǎn)[5]:
(1)電子證據(jù)具有多樣的表示形式,如聲音、文字、圖形、圖像等,同時(shí)還具有隱蔽性、電子性、準(zhǔn)確性、分散性、脆弱性及海量性等特點(diǎn)。
(2)在取證的過程中要充分了解嫌疑網(wǎng)絡(luò)的系統(tǒng)結(jié)構(gòu)及軟硬件相關(guān)配置信息,包括網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、服務(wù)器、工作站、網(wǎng)關(guān)、交換機(jī)、路由器等硬件信息及網(wǎng)絡(luò)操作系統(tǒng)、相關(guān)的應(yīng)用軟件的配置信息,為取證工作的順利進(jìn)行打下基礎(chǔ)。
(3)在網(wǎng)絡(luò)電子取證的過程中不僅僅要考慮本網(wǎng)絡(luò)中計(jì)算機(jī)上的數(shù)據(jù),也要著重注意網(wǎng)絡(luò)設(shè)備中正在流轉(zhuǎn)或存儲的數(shù)據(jù),這也是網(wǎng)絡(luò)電子證據(jù)的一個重要特點(diǎn)。
(4)網(wǎng)絡(luò)電子證據(jù)取證的過程具有動態(tài)和分布式的特點(diǎn),這是因?yàn)榫W(wǎng)絡(luò)電子證據(jù)可能是在網(wǎng)絡(luò)中分布在不同地理位置的網(wǎng)絡(luò)設(shè)備中進(jìn)行動態(tài)地傳輸。因此,在取證的過程中有時(shí)需要在多個不同地方部署取證代理進(jìn)行聯(lián)動的動態(tài)取證,從而保證電子證據(jù)的連續(xù)性和完整性。
(5)在網(wǎng)絡(luò)自動取證系統(tǒng)中,取證技術(shù)可以與網(wǎng)絡(luò)監(jiān)控技術(shù)充分結(jié)合起來,例如入侵檢測技術(shù)、蜜罐及蜜網(wǎng)技術(shù)等。通過網(wǎng)絡(luò)監(jiān)控技術(shù)的發(fā)現(xiàn)、檢測非法入侵行為激活取證系統(tǒng),從而實(shí)現(xiàn)網(wǎng)絡(luò)自動取證。
目前常用的取證模型有基本過程的取證模型、增強(qiáng)型數(shù)字過程取證模型、基于目標(biāo)的層次取證模型及多維計(jì)算機(jī)取證模型等,這些模型分別針對不同的取證場合對現(xiàn)場保護(hù)、證據(jù)收集、分析及調(diào)查做了明確的規(guī)范,簡化了工作流程,提高取證效率[6]。但隨著網(wǎng)絡(luò)設(shè)備的存儲容量越來越大,傳輸速度越來越快,原始的取證模型就會有一定的局限性。對于在網(wǎng)絡(luò)設(shè)備中存儲和傳輸?shù)拇罅繑?shù)據(jù),我們可以根據(jù)案件特點(diǎn)和法律規(guī)定運(yùn)用數(shù)據(jù)挖掘技術(shù)在大量的數(shù)據(jù)中以合法的手段高效、及時(shí)、準(zhǔn)確地獲取與特定的犯罪有關(guān)的證據(jù),分析出犯罪嫌疑人與犯罪事實(shí)之間的關(guān)系,實(shí)現(xiàn)取證的高效率和智能化?;跀?shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)取證模型如圖1所示。
圖1 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)取證系統(tǒng)模型
模型主要由數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、證據(jù)挖掘、證據(jù)鑒定、證據(jù)保全及證據(jù)提交等幾個模塊構(gòu)成。
(1)數(shù)據(jù)抽取模塊:該模塊完成數(shù)據(jù)收集功能,主要根據(jù)事先定義的數(shù)據(jù)抽取規(guī)則獲取來自網(wǎng)絡(luò)的數(shù)據(jù),包括網(wǎng)絡(luò)數(shù)據(jù)包、防火墻及入侵檢測系統(tǒng)日志、其他網(wǎng)絡(luò)工具產(chǎn)生的日志等,形成抽取數(shù)據(jù)的數(shù)據(jù)倉庫,并同時(shí)建立嫌疑數(shù)據(jù)倉庫的備份庫。抽取規(guī)則實(shí)際上就是將犯罪證據(jù)和相應(yīng)的法律條文、證據(jù)規(guī)則進(jìn)行形式化描述,并能被數(shù)據(jù)挖掘能技術(shù)分析和應(yīng)用的數(shù)據(jù)集。
(2)數(shù)據(jù)預(yù)處理模塊:數(shù)據(jù)預(yù)處理模塊是整個取證數(shù)據(jù)分析的基礎(chǔ),包括數(shù)據(jù)清洗、數(shù)據(jù)變換及數(shù)據(jù)集成等方式,對數(shù)據(jù)倉庫中的犯罪嫌疑數(shù)據(jù)按照分箱平滑噪聲、識別或除去異常值以及解決不一致問題等方式進(jìn)行數(shù)據(jù)清洗,并采用數(shù)據(jù)變換和基于熵的離散化數(shù)據(jù)壓縮方法對清洗的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,從而獲得高質(zhì)量的分析數(shù)據(jù),為后續(xù)的證據(jù)挖掘提供真實(shí)、可靠的分析數(shù)據(jù)源[7]。
(3)證據(jù)挖掘模塊:本模塊通過采用相應(yīng)的數(shù)據(jù)挖掘算法對所獲得的高質(zhì)量分析數(shù)據(jù)進(jìn)行建模分析,在算法模型分析的過程中可隨時(shí)對模型結(jié)果進(jìn)行評價(jià),并對評價(jià)差的算法模型各種參數(shù)及時(shí)作出調(diào)整,以保證證據(jù)挖掘的效果??捎糜谧C據(jù)分析的主要挖掘算法有關(guān)聯(lián)分析、決策樹分析、聚類分析及偏差分析等。
關(guān)聯(lián)分析算法(Apriori算法)是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,可以在海量網(wǎng)絡(luò)數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析,包括對入侵時(shí)間、IP地址、文件屬性、日志、犯罪特點(diǎn)等的分析,并能找出同一事件不同證據(jù)之間的關(guān)聯(lián)性,預(yù)測及跟蹤挖掘潛在的犯罪行為證據(jù)。決策樹分析算法(ID3算法)就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,并根據(jù)類別差異來構(gòu)造分類模型。在網(wǎng)絡(luò)取證過程中可以利用ID3算法獲得犯罪證據(jù)與犯罪事實(shí)的分類模型,從而可以根據(jù)證據(jù)類型對犯罪行為進(jìn)行推斷。聚類分析技術(shù)(clustering)是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。應(yīng)用聚類分析技術(shù),將多種不同的證據(jù)根據(jù)其相似性歸類,以便進(jìn)一步的分類、預(yù)測和相關(guān)性分析。偏差分析(deviation)的主要功能是利用觀察結(jié)果與參照之間差別的方法發(fā)現(xiàn)數(shù)據(jù)所存在的異常情況,在網(wǎng)絡(luò)取證中常常要使用這種方法識別異常數(shù)據(jù)。
(4)證據(jù)鑒定模塊:證據(jù)鑒定模塊是對證據(jù)挖掘模塊挖掘出來的證據(jù)進(jìn)行鑒定,包括證據(jù)屬性、證據(jù)來源、證據(jù)關(guān)聯(lián)等,從而發(fā)現(xiàn)電子證據(jù)與犯罪事實(shí)之間的聯(lián)系,更加有效地追蹤、定位犯罪。
(5)證據(jù)保全模塊:證據(jù)保全模塊將證據(jù)分析、鑒定出來的證據(jù)使用MD5或SHA-1(哈希函數(shù))進(jìn)行加密、簽名保全,確保證據(jù)的真實(shí)性和可靠性,并將證據(jù)傳送到證據(jù)庫保存。
(6)證據(jù)提交模塊:本模塊將犯罪證據(jù)生成完整的報(bào)告,依法律程序提交法庭。
根據(jù)網(wǎng)絡(luò)取證系統(tǒng)模型,我們構(gòu)建了一個網(wǎng)絡(luò)取證系統(tǒng),如圖2所示。
圖2 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)取證系統(tǒng)
圖2所示網(wǎng)絡(luò)取證系統(tǒng)的主要特點(diǎn)就是在用戶網(wǎng)絡(luò)的內(nèi)網(wǎng)和外網(wǎng)之間以及內(nèi)網(wǎng)的用戶終端和服務(wù)器之間都架設(shè)了數(shù)據(jù)源的抽取點(diǎn),系統(tǒng)按照預(yù)設(shè)好的抽取規(guī)則自動監(jiān)控抽取點(diǎn)通過的數(shù)據(jù)包。這樣一旦外網(wǎng)用戶非法侵入內(nèi)網(wǎng)或者內(nèi)網(wǎng)用戶非正常使用服務(wù)器,網(wǎng)絡(luò)取證系統(tǒng)就會按照取證系統(tǒng)模型中的各個功能模塊對捕獲的數(shù)據(jù)包進(jìn)行分析、鑒定、提交及保全等工作,并且可以及時(shí)報(bào)警或采取相應(yīng)的技術(shù)防范措施。
在網(wǎng)絡(luò)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行動態(tài)取證分析正是有效地結(jié)合數(shù)據(jù)挖掘技術(shù)和網(wǎng)絡(luò)技術(shù)的特點(diǎn)。網(wǎng)絡(luò)上可以不間斷地產(chǎn)生大量的數(shù)據(jù)包,而數(shù)據(jù)挖掘技術(shù)正是一種高效、智能的數(shù)據(jù)分析技術(shù),可以根據(jù)不同的挖掘技術(shù)從包含大量的、無序的、隨機(jī)的、模糊的實(shí)際數(shù)據(jù)中挖掘出盡可能多的有規(guī)律的隱含知識,從而為決策者做出正確的分析判斷提供基礎(chǔ)。在網(wǎng)絡(luò)數(shù)據(jù)取證系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠更加高效地對海量的電子證據(jù)進(jìn)行智能化處理,從中提取出犯罪行為的特征模式,發(fā)現(xiàn)各種犯罪行為之間的關(guān)聯(lián)規(guī)則,從而達(dá)到取證分析的目的,這也正是其他取證方法所不具備的優(yōu)點(diǎn)。當(dāng)然,對于模型中各種挖掘技術(shù)的技術(shù)參數(shù)需要在相應(yīng)網(wǎng)絡(luò)環(huán)境下進(jìn)行進(jìn)一步的調(diào)整和量化,這是使得網(wǎng)絡(luò)取證系統(tǒng)能夠保持魯棒性的關(guān)鍵因素。
本文全面系統(tǒng)地構(gòu)建了一個基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)取證系統(tǒng),并對系統(tǒng)中取證模型的各個部分提出了具體的技術(shù)實(shí)現(xiàn)方法,有助于解決網(wǎng)絡(luò)動態(tài)取證的實(shí)時(shí)、準(zhǔn)確和智能化問題。網(wǎng)絡(luò)電子取證技術(shù)是一個迅速發(fā)展的研究領(lǐng)域,由于網(wǎng)絡(luò)證據(jù)的特點(diǎn)我們可以確信的是數(shù)據(jù)挖掘技術(shù)將在網(wǎng)絡(luò)取證技術(shù)中發(fā)揮越來越大的作用,在網(wǎng)絡(luò)信息安全和網(wǎng)絡(luò)犯罪調(diào)查方面有著良好的應(yīng)用前景。因此,本模型的研究將有助于網(wǎng)絡(luò)取證系統(tǒng)相關(guān)技術(shù)的發(fā)展,并將成為打擊網(wǎng)絡(luò)犯罪行為的強(qiáng)有力武器。
[1] 劉源泉.基于數(shù)據(jù)挖掘的計(jì)算機(jī)取證分析系統(tǒng)設(shè)計(jì)[J].大眾科技,2009(11):18 -19.
[2] 譚建偉,韓忠.計(jì)算機(jī)取證模型分析[J].網(wǎng)絡(luò)安全,2008(2):71 -73.
[3] 李蘋,陳立毅.刑事電子證據(jù)的收集與運(yùn)用問題研究[J].貴州警官職業(yè)學(xué)院學(xué)報(bào),2009(4):54 -60.
[4] 楊永川,李巖.電子證據(jù)取證技術(shù)的研究[J].中國人民公安大學(xué)學(xué)報(bào):自然科學(xué)版,2005(43):66-69.
[5] 張俊,麥永浩,張?zhí)扉L.論黑客入侵的網(wǎng)絡(luò)取證[J].警察技術(shù),2006(4):21 -23.
[6] 胡亮,王文博,趙闊.計(jì)算機(jī)取證綜述[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2010(4):378 -384.
[7] 王燕.關(guān)聯(lián)規(guī)則在計(jì)算機(jī)取證中的應(yīng)用研究[J].計(jì)算機(jī)安全,2010(4):45 -47.