許學添,鄒同浩
(廣東司法警官職業(yè)學院 信息管理系,廣州 510520)
基于弱關聯(lián)挖掘的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計與實現(xiàn)
許學添,鄒同浩
(廣東司法警官職業(yè)學院 信息管理系,廣州 510520)
對海量網(wǎng)絡日志和服務器數(shù)據(jù)進行數(shù)據(jù)挖掘,獲取網(wǎng)絡取證,在分析犯罪證據(jù)方面具有較大的應用價值;傳統(tǒng)的數(shù)據(jù)采集系統(tǒng),主要增加對網(wǎng)絡取證數(shù)據(jù)進行濾波處理模塊,增加采集系統(tǒng)采集的準確率,存在采集時間長、效率低的問題;提出基于弱關聯(lián)挖掘的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計方法,對網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的總體設計描述與技術指標分析;并以此為基礎,設計基于弱關聯(lián)規(guī)則特征提取的網(wǎng)絡取證數(shù)據(jù)挖掘算法,實現(xiàn)網(wǎng)絡取證數(shù)據(jù)的準確檢測和采集;在嵌入式Linux平臺上進行網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的軟件開發(fā)和系統(tǒng)設計;實驗結果表明,采用該系統(tǒng)對網(wǎng)絡日志和服務器數(shù)據(jù)中犯罪證據(jù)進行取證采集,其可靠性較高,取證數(shù)據(jù)采集精度高于傳統(tǒng)方法,展示了較好的應用價值。
數(shù)據(jù)挖掘;網(wǎng)絡;犯罪證據(jù);系統(tǒng)設計
隨著網(wǎng)絡信息技術的發(fā)展,網(wǎng)絡犯罪呈現(xiàn)上升趨勢,網(wǎng)絡犯罪突出表現(xiàn)為經(jīng)濟犯罪、電信詐騙犯罪、以及與財產(chǎn)相關的網(wǎng)絡盜竊類犯罪。網(wǎng)絡犯罪突出的特點是需要通過網(wǎng)絡銀行轉(zhuǎn)賬和網(wǎng)絡聊天工具交流等方式,實現(xiàn)犯罪的預備、犯罪實施和贓款轉(zhuǎn)移等[1-3]??梢姡W(wǎng)絡上的犯罪都會留下一定的數(shù)據(jù)信息,對海量的網(wǎng)絡數(shù)據(jù)進行數(shù)據(jù)挖掘,比如對網(wǎng)絡中的日志,服務器數(shù)據(jù)進行優(yōu)化挖掘,實現(xiàn)對網(wǎng)絡犯罪取證,運用數(shù)據(jù)挖掘算法,提高網(wǎng)絡犯罪的偵查和證據(jù)固定的效力[4]。因此,需要進行網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計,結合數(shù)據(jù)挖掘算法,實現(xiàn)網(wǎng)絡犯罪證據(jù)信息的分析和處理,對預防犯罪、懲治犯罪都具有較好的應用價值,也出現(xiàn)了很多好的方法[5-6]。
其中,文獻[7]提出一種基于鏈路信息流自相關波束形成的網(wǎng)絡服務器數(shù)據(jù)挖掘算法,并結合取證信息的先驗特征,進行網(wǎng)絡犯罪證據(jù)的自適應特征匹配,提高了數(shù)據(jù)挖掘的準確性,但是該算法計算開銷較大,在系統(tǒng)集成設計中需要占用大量的存儲空間,犯罪證據(jù)分析的實時性不好。文獻[8]提出一種基于嚴平穩(wěn)離散濾波的網(wǎng)絡取證數(shù)據(jù)采集和檢測算法,通過對網(wǎng)絡犯罪信息相關數(shù)據(jù)嵌入到頁面后會緊跟請求采集到鏈路信息流,結合防火墻檢測實現(xiàn)對犯罪證據(jù)的可靠性取證和挖掘,提高了數(shù)據(jù)挖掘的精度,但是該方法需要大量的先驗知識作為指導,當網(wǎng)絡取證信息的先驗知識缺乏下,數(shù)據(jù)挖掘的準確度和置信度不高。
針對上述問題的產(chǎn)生,提出基于弱關聯(lián)挖掘的網(wǎng)絡取證數(shù)據(jù)采集方法,并結合32位VXI總線技術,在嵌入式Linux系統(tǒng)下,進行網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的開發(fā)設計,實現(xiàn)對網(wǎng)絡取證數(shù)據(jù)的計算機操縱的模塊化自動采集系統(tǒng)設計,再進行數(shù)據(jù)采集系統(tǒng)的軟件開發(fā)設計,實驗結果證明,本文設計的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng),具有一定的優(yōu)越性能。
1.1 網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的總體設計描述
為了實現(xiàn)對網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計和犯罪證據(jù)挖掘軟件開發(fā)優(yōu)化,分析軟件系統(tǒng)的總體結構模型,網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)是面向網(wǎng)絡數(shù)據(jù),比如日志、服務器數(shù)據(jù)等進行數(shù)據(jù)挖掘和特征檢測的核心算法設計基礎上,犯罪證據(jù)挖掘和取證數(shù)據(jù)采集軟件是建立在對犯罪證據(jù)相關信息的特征采樣和控制參量的信息輸入模型上,結合數(shù)據(jù)挖掘算法和信息處理系統(tǒng)在嵌入式Linux系統(tǒng)上進行系統(tǒng)的軟件開發(fā)和設計[9-10]。采用VXI總線技術進行網(wǎng)絡取證數(shù)據(jù)采集,嵌入式系統(tǒng)的總線數(shù)據(jù)采集采用的是IEEE488.2標準下的Bus采集機制,系統(tǒng)采用LabWindows/CVI進行數(shù)據(jù)回放,采用嵌入式Linux系統(tǒng)構建網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)輸出總線和核心控制模塊,實現(xiàn)程序加載和數(shù)據(jù)挖掘。
網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的功能模塊,主要由引導程序(BootLoader)模塊、Linux內(nèi)核模塊、文件系統(tǒng)的控制模塊等組成。通過研究海量的網(wǎng)絡日志和服務器數(shù)據(jù)的犯罪相關信息挖掘模型,在主機agent發(fā)送的各種監(jiān)測數(shù)據(jù)是構建一段業(yè)務流進行海量的網(wǎng)絡日志和服務器數(shù)據(jù)的犯罪相關信息監(jiān)測,通過旁路方式捕獲計算機中主要負責數(shù)據(jù)收發(fā)的報文長度等信息特征,對用戶的行為特征進行專家系統(tǒng)分析,進行海量網(wǎng)絡日志和服務器數(shù)據(jù)的犯罪相關信息特征挖掘,在海量網(wǎng)絡日志和服務器數(shù)據(jù)犯罪相關信息挖掘過程中,用戶終端節(jié)點通過通信模塊收到服務請求后,監(jiān)控模塊負責提供服務器端的底層的通信機制,海量的網(wǎng)絡日志和服務器數(shù)據(jù)中的犯罪相關信息挖掘流程如圖1所示。
圖1 海量的網(wǎng)絡日志和服務器數(shù)據(jù)的犯罪相關信息挖掘模型
從圖1可見,主服務器節(jié)點收到網(wǎng)絡日志的報文序列P=(p1,p2,…,pn)后,業(yè)務流段Qi和Qi+1之間存在兩個屬性值時,說明存在嫌疑數(shù)據(jù)信息,采用頻繁項集觀測方法分析用戶行為屬性樣本Xi至各類屬性的狀態(tài)特征Zj的匹配度,由此進行犯罪證據(jù)的固定和采集,用戶應用層軟件,通過對網(wǎng)絡取證數(shù)據(jù)采集的輸出記錄、網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的底層通信協(xié)議進行傳輸控制。在Linux內(nèi)核下的引導加載程序(Bootloader)連續(xù)地發(fā)送到主控計算機,主控機Linux操作系統(tǒng)對ARM硬件平臺的移植可以連續(xù)的讀出數(shù)據(jù),并中斷網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的VXI總線數(shù)據(jù)溢出過程。設定總線數(shù)據(jù)傳輸速率為40Mbyte/sec,進行網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的VXI總線數(shù)據(jù)模塊化結構設計,RAM將存儲預觸發(fā)數(shù)據(jù)過底層從局部總線接收數(shù)據(jù)。根據(jù)上述分析,得到本文設計的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的實現(xiàn)框架如圖2所示。
圖2 網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的實現(xiàn)框架
1.2 網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)技術指標分析
本文設計的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計部分主要為軟件設計,其中,取證數(shù)據(jù)挖掘是軟件實現(xiàn)的核心,數(shù)據(jù)挖掘軟件共分為4個層次,分別為:
1)Linux內(nèi)核下海量網(wǎng)絡日志和服務器數(shù)據(jù)引導加載程序(Bootloader)。
2)構架HPE1485A/B頻譜分析模塊,在VME總線傳輸緩存空間中構架文件系統(tǒng)內(nèi)核(LinuxKernel)。
3)在采集過程中,HPE1433A通過文件系統(tǒng)(FileSystem)對取證數(shù)據(jù)進行計算機識別模式下的專家系統(tǒng)特征分析和識別。
4)使用Qt/Embedded作為GUI,方便數(shù)據(jù)共享和進一步處理數(shù)據(jù),構建用戶應用程序(Application)。
根據(jù)上述層次設計分析,得到本文設計的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)技術指標描述為:采樣通道為8通道同步犯罪信息監(jiān)控數(shù)據(jù)采樣;結合32位VXI總線技術,輸出數(shù)據(jù)的采樣幅度為ROMFS,提供對接口卡的I/O操作;MXI總線控制的D/A分辨率為12位;網(wǎng)絡取證數(shù)據(jù)采集的采樣率>200kHz;編程語言具有I/O控制庫的兼容功能。
根據(jù)上述總體設計描述和功能指標分析,結合改進的數(shù)據(jù)挖掘算法,進行網(wǎng)絡取證數(shù)據(jù)的采集系統(tǒng)設計。
網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的核心在于對海量的網(wǎng)絡日志和服務器數(shù)據(jù)的有效挖掘,實現(xiàn)對犯罪特征數(shù)據(jù)的準確提取和檢測,提出基于弱關聯(lián)規(guī)則特征提取的網(wǎng)絡取證數(shù)據(jù)挖掘算法,采用三元組形式構建的網(wǎng)絡日志和服務器數(shù)據(jù)交互和信息存儲的本體模型為:
(1)
(2)
構建網(wǎng)絡取證數(shù)據(jù)分布的Wigner-Ville特征空間,在Wigner-Ville分布空間中進行數(shù)據(jù)信息流的相空間重構,得到重構的相空間模型為:
(3)
(4)
在頻率分辨率固定的情況下,對網(wǎng)絡日志中的犯罪取證數(shù)據(jù)進行可靠性挖掘目標函數(shù)構建,為:
(5)
式中,μik為時頻分布屬性集合,dik為采樣的海量犯罪取證數(shù)據(jù)樣本xk與Vi的測度距離,為:
(6)
在重構的相空間中,網(wǎng)絡取證數(shù)據(jù)的若關聯(lián)規(guī)則滿足:
(7)
通過對上述目標函數(shù)求最優(yōu)解,得到目標函數(shù)的極值為:
(8)
(9)
在上述目標函數(shù)的優(yōu)化解的指導下,基于弱關聯(lián)規(guī)則特征提取進行數(shù)據(jù)挖掘,得到網(wǎng)絡取證數(shù)據(jù)挖掘的響應特征解向量為:
(10)
(11)
把上述設計的基于弱關聯(lián)規(guī)則特征提取的網(wǎng)絡取證數(shù)據(jù)挖掘算法加載到軟件程序中,在嵌入式Linux平臺上進行網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的軟件開發(fā)和系統(tǒng)設計,為了實現(xiàn)Linux操作系統(tǒng)對ARM硬件平臺的移植,在VisualDSP++4.5中,使用Qt/Embedded作為GUI開發(fā)網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的犯罪證據(jù)挖掘的可視化的操作界面,由此建立軟件的開發(fā)環(huán)境。
通過地址指針指向網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的VXI總線數(shù)據(jù)的首址,程序首先將網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的VXI總線數(shù)據(jù)首址賦給地址指針,然后進入循環(huán)體,總循環(huán)32次,如果有數(shù)據(jù)需要傳送就會在DATA線上出現(xiàn)數(shù)據(jù)。在CMD線上發(fā)送的CMD命令,CAN初始化后,當CAN接收到一個26個基本命令,采用DIP封裝,可以直接通過CMD線上的CMD設置SDICON寄存器,根據(jù)控制指令決Linux內(nèi)核源碼目錄的kernel。在SDCLK寄存器設計中,采用MVB總線控制技術,寫32位命令到SDICmdArg寄存器,引導加載程序,網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的犯罪證據(jù)挖掘文件系統(tǒng)配置和編譯過程代碼描述為:
BusyboxSettings--->
SDICONissettotheclockandinterrupt---> [*]Don'tuse/usr
Waitingfor74clocktobeusedtoinitializeSD
{
*s=RcvByte();
Ack_I2C(0);
S++;
(Driverflowinterfacefunctionopen) --->
(/home/SecureDigitalMemory/nfs)DatatransmittedontheDATAline
SendByte(sla);
if(ack== 0)return(0)//輸入SendByte執(zhí)行目標機的代碼編譯。
通過上述代碼設計實現(xiàn)了數(shù)據(jù)編譯和寄存,在上述進行了網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的犯罪證據(jù)挖掘文件系統(tǒng)配置和編譯的基礎上,開發(fā)數(shù)據(jù)端口,犯罪證據(jù)挖掘指定HP E1433A所使用的數(shù)據(jù)傳輸通道為局部總線和VME總線的混合傳輸?shù)漠惒酵ǖ?,?shù)據(jù)采集系統(tǒng)的應用軟件設計重點在于對HP E1433A和HP E1562E的軟件編程,根據(jù)具體的測試需求,設置采集參數(shù),選擇UI界面進行集時間等參數(shù)設置以及相應的數(shù)據(jù)傳輸模式、數(shù)據(jù)端口設置等。軟件實現(xiàn)過程描述如圖3所示。
圖3 軟件實現(xiàn)流程
在所有采集參數(shù)配置成功后啟動對網(wǎng)絡取證數(shù)據(jù)的采集,讀取HP E1562E實際完成的數(shù)據(jù)記錄量,代碼為:
class Read E1562E HP Actual completion data records: public vpApp
{
public: SDICmdCon () {}; //構造寄存器的特殊標志
~myApp Unsigned char ZLG () {}; //析構函數(shù)
:initialize Create collection channel group (“vp”)
//virtual bit IRcvStr(uchar sla Custom Function ZLG7290_GetKey ()::Key key, int mod) //myApp類自定義
private: uchar suba //自定義循環(huán)讀取HP E1562E
初始化靜態(tài)變量(static variables),采用簡單的類(single classes)提示用戶正確的設置參數(shù)信息,在/lib目錄下建立會話、傳輸序列,實現(xiàn)網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計和犯罪證據(jù)挖掘,對挖掘輸出數(shù)據(jù)生成一個rootfs.yaffs文件,通過VME總線傳送數(shù)據(jù)到主計算機,建立起了網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的犯罪證據(jù)挖掘的根文件系統(tǒng),通過上述軟件設計,實現(xiàn)了基于弱關聯(lián)挖掘的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)優(yōu)化設計。
為了測試改進的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)在網(wǎng)絡犯罪證據(jù)數(shù)據(jù)挖掘與采集方面的性能,進行系統(tǒng)調(diào)試和仿真實驗。實驗中,測試的數(shù)據(jù)樣本來自于海量的網(wǎng)絡日志數(shù)據(jù)和服務器數(shù)據(jù),采用Matlab數(shù)學編程工具進行海量網(wǎng)絡日志和服務器數(shù)據(jù)中,犯罪相關信息挖掘模型的建立,在程序設計的基礎上,采用s3c2440_adc_open()函數(shù)進行海量網(wǎng)絡日志和服務器數(shù)據(jù)犯罪取證數(shù)據(jù)挖掘的程序加載,以此進行數(shù)據(jù)挖掘和網(wǎng)絡取證數(shù)據(jù)的采集仿真。設置實驗環(huán)境:初始采樣頻率為1.25 Hz,截止頻率為14 kHz,數(shù)據(jù)采樣的最大誤差為0.04 dB,根據(jù)上述參數(shù)設定,利用FrameBuffe數(shù)據(jù)回放函數(shù)庫作為底層數(shù)據(jù)采樣的接口,程序安裝完成后,進行原始數(shù)據(jù)采樣,得到在網(wǎng)絡日志和服務器中待挖掘的數(shù)據(jù)樣本時域波形如圖4所示。
圖4 原始數(shù)據(jù)樣本時域波形
以上述數(shù)據(jù)樣本為測試研究對象,進行網(wǎng)絡取證數(shù)據(jù)的挖掘仿真,采用本文設計的弱關聯(lián)規(guī)則特征提取算法進行數(shù)據(jù)挖掘,并在本文設計的軟件系統(tǒng)中實現(xiàn)數(shù)據(jù)回放,得到網(wǎng)絡犯罪取證數(shù)據(jù)在時頻面的分布亮點軌跡如圖5所示。
圖5 網(wǎng)絡犯罪取證數(shù)據(jù)在時頻面的分布亮點軌跡
從圖可見,采用本文設計的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)進行網(wǎng)絡犯罪證據(jù)采集,具有較好的數(shù)據(jù)識別和甄別能力,通過弱關聯(lián)規(guī)則特征提取,提高了數(shù)據(jù)挖掘的抗干擾性能,網(wǎng)絡犯罪證據(jù)數(shù)據(jù)在時頻特征空間內(nèi)的亮點軌跡分布明顯,說明采集精度較高,準確性較好。為了對比性能,采用本文設計的數(shù)據(jù)采集系統(tǒng)和傳統(tǒng)方法進行對比,以網(wǎng)絡取證數(shù)據(jù)的采集精度為測試指標,得到對比結果如圖6所示。
圖6 性能對比
從圖可見,采用傳統(tǒng)方法時,其采集精度約為72.3%,且隨著信噪比的增加,精確度增長緩慢;采用本文方法進行網(wǎng)絡取證數(shù)據(jù)采集時,其精度約為95.4%,相比傳統(tǒng)方法,精確度提高了約23.1%,證明本位方法性能較好,優(yōu)于傳統(tǒng)方法。
針對傳統(tǒng)的采集系統(tǒng),數(shù)據(jù)采集不準確,精度低的問題,提出基于弱關聯(lián)挖掘的網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)設計方法,進行網(wǎng)絡取證數(shù)據(jù)采集系統(tǒng)的開發(fā)設計,通過系統(tǒng)的軟件設計和挖掘算法優(yōu)化設計,提高了對網(wǎng)絡取證數(shù)據(jù)的挖掘和采集性能。實驗分析表明,采用本文設計系統(tǒng)在網(wǎng)絡日志和服務器數(shù)據(jù)中進行犯罪證據(jù)取證采集,可靠性較高,精確度優(yōu)于傳統(tǒng)方法,展示了較好的應用價值。
[1] 鄭道寶, 王懷杰. 基于ARM/GPRS的遠程圖像報警系統(tǒng)的設計[J]. 計算機測量與控制, 2013, 21(1): 149-151.
[2] 陸興華,吳恩燊,黃冠華.基于Android的智能家居控制系統(tǒng)軟件設計研究[J].物聯(lián)網(wǎng)技術,2015, 35(5): 692-695.
[3] 劉茂旭,何怡剛,鄧芳明,等.融合RFID的無線濕度傳感器節(jié)點設計研究[J]. 電子測量與儀器學報,2015,29(8):1171-1178.
[4] 李 楠, 宋曉梅, 鞏學芳. 一種支持USB和以太網(wǎng)端口的數(shù)據(jù)采集器設計[J]. 西安工程大學學報, 2014,28(5):593-597.
[5] 李 鵬, 劉思峰. 基于灰色關聯(lián)分析和D-S 證據(jù)理論的區(qū)間直覺模糊決策方法[J]. 自動化學報, 2011, 37(8): 993-999.
[6] Eldemerdash Y A, Dobre O A, and Liao B J. Blind identification of SM and Alamouti STBC-OFDM signals[J]. IEEE Transactions on Wireless Communications, 2015, 14(2): 972-982.
[7] 崔永君,張永花.基于特征尺度均衡的Linux系統(tǒng)雙閾值任務調(diào)度算法[J].計算機科學,2015,42(6):181-184.
[8] Li L, XIE W. Intuitionistic fuzzy joint probabilistic data association filter and its application to multitarget tracking[J]. Signal Processing, 2014, 96: 433-444.
[9] 劉 俊,劉 瑜,何 友,等. 雜波環(huán)境下基于全鄰模糊聚類的聯(lián)合概率數(shù)據(jù)互聯(lián)算法[J]. 電子與信息學報, 2016, 38(6): 1438-1445.
[10] 王 銳,何聚厚.基于領域本體學習資源庫自動構建模型研究[J].電子設計工程,2015,(24):32-35.
Design and Implementation of Network Forensics Data Acquisition System Based on Weak Association Mining
Xu Xuetian,Zou Tonghao
(Department of Information Management, Guandong Justice Police Vocational College,Guangzhou 510520,China)
The massive web logs to data mining and server data, access to the network forensics, based on the analysis of criminal evidence has great application value. Traditional data acquisition system, the main increase to filter network forensics data processing module, increase the accuracy of sampling system, there are long acquisition time, the problem of low efficiency. Based on weak association mining network forensics data acquisition system design method of the overall design description of network forensics data acquisition system and technical index analysis. And on this basis, the design is based on the data network forensics is feature extraction of weak association rules mining algorithm, and realize the network forensics accurate detection and data acquisition. On the embedded Linux platform for network forensics data acquisition system software development and system design. Experimental results show that the system of criminal evidence in web logs and server data to obtain evidence collection, its reliability is higher, forensics data acquisition precision is higher than the traditional method, shows a good application value.
data mining; network; crime evidence; system design
2016-06-15;
2016-07-14。
許學添(1984-),男,廣東揭陽人,碩士研究生,講師,主要從事數(shù)據(jù)挖掘,生物信號處理方向的研究。
1671-4598(2017)01-0123-04DOI:10.16526/j.cnki.11-4762/tp
TP
A