彭英杰
(青海民族大學計算機學院青海西寧 810007)
當前總線網(wǎng)絡(luò)取證信息的安全檢索成為了未來人們獲取取證信息與知識的主要手段[1]。由于信息站的建立,信息發(fā)布是大量、自由和無順序的,且在取證信息的傳輸存儲過程中,常會發(fā)生異變風險造成取證信息殘缺、被篡改等現(xiàn)象,如果沒有有效的風險控制措施,在總線網(wǎng)絡(luò)中檢索有用且安全的取證信息較為困難[2]??偩€網(wǎng)絡(luò)取證信息自動檢索風險控制技術(shù)主要是搜索引擎風險控制技術(shù),搜索引擎風險控制的實質(zhì)就是一個專用控制器,該控制器可將總線網(wǎng)絡(luò)中網(wǎng)站的取證信息組成龐大的取證信息數(shù)據(jù)庫,用戶使用關(guān)鍵詞就可以在取證信息數(shù)據(jù)庫中進行取證信息的檢索,找出匹配的取證信息,同時該控制在檢索過程中會對取證信息潛在的檢索風險進行判斷,將判斷出的具有檢索風險的取證信息進行過濾,并對其風險進行控制,從而降低取證信息的風險,使其能夠?qū)崿F(xiàn)后續(xù)的安全檢索。要實現(xiàn)總線網(wǎng)絡(luò)取證信息自動檢索時的風險控制,已經(jīng)有大部分的相關(guān)專家和學者對其進行研究,但至今仍未找到比較有效的風險控制途徑[3-4]?,F(xiàn)有的總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)采用眾包的方法進行設(shè)計?;诒姲J?,利用架構(gòu)設(shè)計總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng),該系統(tǒng)主要包括服務(wù)端、客戶端以及存儲系統(tǒng)和主題系統(tǒng)4個模塊。通過主題系統(tǒng)的分布式信息節(jié)點向服務(wù)器請求上傳取證信息數(shù)據(jù),利用分布式系統(tǒng)對取證信息數(shù)據(jù)進行快速處理并將處理的結(jié)果進行存儲,然后進行檢索風險控制軟件設(shè)計。實驗結(jié)果表明,該總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的配置較為簡單,支持功能擴展,雖然具有較高的信息檢索效率,但無法準確過濾出具有潛在檢索風險的取證信息,致使風險控制效果差[5]。
針對上述問題,提出設(shè)計一種總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)。實驗結(jié)果證明,所提系統(tǒng)能有效地對總線網(wǎng)絡(luò)取證信息自動檢索的風險進行高精度控制,從而實現(xiàn)取證信息的安全檢索。
要對總線網(wǎng)絡(luò)中取證信息的自動檢索風險進行控制,需對總線網(wǎng)絡(luò)取證信息的自動檢索系統(tǒng)進行改進,在改進的總線網(wǎng)絡(luò)取證信息自動檢索系統(tǒng)的基礎(chǔ)上,設(shè)計總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)。對總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)進行設(shè)計,需以系統(tǒng)的整體結(jié)構(gòu)為基礎(chǔ)。
在設(shè)計總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的過程中,依據(jù)取證信息自動檢索的功能以及自動檢索的要求,建立檢索風險控制系統(tǒng)的整體結(jié)構(gòu),該總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)由取證信息采集模塊、檢索風險控制模塊、電源電路、接口電路和取證信息自動檢索模塊組成,圖1表示總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的整體結(jié)構(gòu)示意圖。
圖1 總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)整體結(jié)構(gòu)示意圖
圖1中,首先從取證信息數(shù)據(jù)庫中輸入取整信息數(shù)據(jù),將輸入的取證信息數(shù)據(jù)通過取證信息采集模塊進行采集,取證信息采集后經(jīng)過檢索風險控制模塊對采集后取證信息數(shù)據(jù)潛在的檢索風險進行預測并加以控制,同時檢索風險控制模塊與電源電路相連接,使得受檢索控制后的取證信息數(shù)據(jù)發(fā)送給DSP[6],經(jīng)過DSP進行取證信息自動檢索,接口電路與取證信息采集模塊和取證信息自動檢索模塊相連接。最終組成了總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的整體結(jié)構(gòu)。
以總線網(wǎng)絡(luò)取證信息檢索風險控制系統(tǒng)的整體結(jié)構(gòu)為依據(jù),對控制系統(tǒng)的硬件部分進行劃分設(shè)計??偩€網(wǎng)絡(luò)取證信息自動檢索系統(tǒng)的硬件部分是由取證信息采集模塊、檢索風險控制模塊、應(yīng)用 STM32F407[7]完成的接口電路、電源電路和取證信息自動檢索模塊組成。各模塊的具體設(shè)計過程如下:
總線網(wǎng)絡(luò)取證信息采集模塊主要是完成取證信息的采集任務(wù),采集的取證信息直接影響后續(xù)對這些取證信息數(shù)據(jù)進行處理、檢索效率以及檢索風險控制的效果,因此取證信息采集模塊很重要。該取證信息采集模塊首先經(jīng)過數(shù)據(jù)庫,進行取證信息的剝離、取證信息的隔離和取證信息的轉(zhuǎn)換,而采集模塊由通信接口和總線接口連接總控制區(qū)域,由總控制中心對其采集過程進行有效控制。
圖2 取證信息采集模塊
經(jīng)由取證信息采集模塊采集到的取證信息,在進行自動檢索前,需對其潛在風險進行過濾和控制,即設(shè)計了檢索風險控制模塊。通過進行全局總線網(wǎng)絡(luò)中取證信息的搜索,對取證信息是否具有潛在風險進行判斷,將有風險的取證信息進行過濾,進而對過濾后的取證信息的檢索風險進行控制處理。借鑒過濾規(guī)則組織模式,結(jié)合該過濾規(guī)則具有一定的擴展性對檢索風險控制模塊進行設(shè)計。檢索風險控制模塊的示意圖由圖3所示。
圖3 檢索風險控制模塊
檢索風險控制模塊主要采用控制器風險控制技術(shù),結(jié)合過濾規(guī)則與基礎(chǔ)的關(guān)鍵字過濾技術(shù),經(jīng)由取證信息過濾子模塊對取證信息進行過濾,提高了信息檢索風險控制的準確率??刂破麈溄拥娜∽C信息過濾模塊在提交過濾后的取證信息前,先對取證信息是否具有潛在檢索風險進行判斷,不帶有潛在檢索風險的取證信息則被過濾出來,進行搜索總線網(wǎng)絡(luò)的檢索,亦或是訪問總線網(wǎng)絡(luò)檢索,最后到達內(nèi)部用戶。
圖4表示網(wǎng)絡(luò)信息自動過濾檢索的電源電路圖。
圖4 電源電路圖
電源電路的設(shè)計主要選用的型號為ENC28J60,具有PBI接口,符合電路要求。該系統(tǒng)采用 STM32F407結(jié)合ENC28J60完成總線網(wǎng)絡(luò)取證信息的傳輸,STM32F407透過對芯片控制實現(xiàn)取證信息的收發(fā)通信。芯片連接PB11接口,分別連接 PBI進行中斷輸出,連接 PB12、PB13、PB14、PB15進行信息輸入引腳。
接口電路主要用于當總線網(wǎng)絡(luò)產(chǎn)生故障時,將采集的取證信息數(shù)據(jù)進行存儲,待總線網(wǎng)絡(luò)恢復正常時,將總線信息傳輸至STM32F407芯片[8]。連接通過ASS接口進行實現(xiàn),STM32F407依據(jù)服務(wù)器工作的情況進行讀寫,從芯片的CSLK的引腳輸入到ID引腳,進行讀取取證信息時,由OD引腳輸入至STM32F407的SC引腳。取證信息的信號進行同步輸入與輸出。
取證信息自動檢索模塊主要為實現(xiàn)對總線網(wǎng)絡(luò)取證信息基本數(shù)據(jù)與模糊多條件的自動檢索。同時還為實現(xiàn)對總線網(wǎng)絡(luò)取證信息的數(shù)據(jù)代碼以及取證信息的名稱進行自動檢索,為檢索過程提供自動二次模糊檢索功能,以提高檢索結(jié)果的準確性。取證信息自動檢索模塊針對總線網(wǎng)絡(luò)中取證信息間的隸屬關(guān)系進行自主式查詢,能查詢出取證信息間的層次關(guān)系[9]。此外取證信息自動檢索模塊還可提供用戶檢索日志與檢索信息量統(tǒng)計,實現(xiàn)動態(tài)的統(tǒng)計功能。
根據(jù)以上各模塊的功能結(jié)構(gòu)設(shè)計,整個總線網(wǎng)絡(luò)取證信息檢索風險控制系統(tǒng)主要包括取證信息的采集、取證信息的風險控制、無風險取證信息的過濾以及取證信息的自動檢索,信息量檢索統(tǒng)計,取證信息的新增以及取證信息的校驗等主要功能。由此完成了總線網(wǎng)絡(luò)取證信息檢索風險控制系統(tǒng)硬件部分的設(shè)計,為系統(tǒng)軟件部分的設(shè)計提供了優(yōu)質(zhì)的硬件環(huán)境。
總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)軟件部分的主要核心問題是對檢索過程的風險進行控制,其本質(zhì)則是怎樣有效地選擇與檢索相關(guān)度高的節(jié)點,找到檢索相關(guān)度高的節(jié)點即可對檢索風險進行有效控制。與檢索相關(guān)度高的節(jié)點主要是指具有較多的與檢索相關(guān)的文檔,節(jié)點內(nèi)的文檔與檢索相關(guān)度高的節(jié)點[10]。綜合對量和質(zhì)兩個因素的考慮,信息檢索的節(jié)點公式表示為:
公式 (1)中,rel(q,pj)表示考慮質(zhì)與量得出的查詢q與節(jié)點pj的相關(guān)度,rel(q,Cj)表示質(zhì),1g(|Cj|d)表示量。α與β表示可調(diào)的系數(shù),取值決定rel(q,Cj)計算信息的準確性。
總線網(wǎng)絡(luò)取證信息自動檢索系統(tǒng)中的節(jié)點構(gòu)建并維護節(jié)點資源描述 (PRD),PRD包含節(jié)點內(nèi)的詞條。對于取證信息詞條tn,運用語言模型(p(tn|Mdk))可計算出tn在總線網(wǎng)絡(luò)取證信息Cj中權(quán)重wn:
公式 (2)中,|Cj|d表示pj節(jié)點的總線網(wǎng)絡(luò)取證信息文檔集Cj的大小,RAD表示總線網(wǎng)絡(luò)取證信息文檔的索引信息。利用散度計算檢索q與總線網(wǎng)絡(luò)取證信息文檔Cj的相關(guān)度(rel(q,Cj))可表示為:
由公式 (3)能看出,rel(q,Ci)的值越大,pj與q就越相關(guān)。
對于擁有取證信息文檔集C,在取證信息文檔集C中存在與q相關(guān)的信息概率為:
公式 (4)中,R(q,di)表示取證信息文檔di與檢索的q有關(guān),C包含的取證信息較多,C存在的和檢索相關(guān)的取證信息概率就越大。
pi依據(jù)所在節(jié)點與檢索的相關(guān)度rel(q,pi),選擇部分與q相關(guān)度高的節(jié)點,令這些取證信息節(jié)點進行檢索任務(wù),再返回查詢的結(jié)果。將總線網(wǎng)絡(luò)取證信息節(jié)點按與檢索q的相關(guān)度進行從大到小排列,選擇一部分的總線網(wǎng)絡(luò)取證信息節(jié)點作為真正執(zhí)行檢索任務(wù)的節(jié)點。
所有和pi在同一總線網(wǎng)絡(luò)取證信息節(jié)點都需要利用rel(q,pj)進行計算。由公式 (1)可知,rel(q,pj)需要計算的量較小,其他計算的開銷可以忽略不計。由于pi管理的取證信息節(jié)點較少,進行排序的操作量也就較少,同時發(fā)送檢索與返回結(jié)果占用的網(wǎng)絡(luò)帶寬也就較少??偩€網(wǎng)絡(luò)取證信息節(jié)點的優(yōu)點是將檢索的任務(wù)限定在與檢索相關(guān)的節(jié)點,節(jié)省了總線網(wǎng)絡(luò)取證信息節(jié)點的計算資源,還同時提高了總線網(wǎng)絡(luò)取證信息自動檢索結(jié)果的查準率,從而降低了取證信息的檢索風險,實現(xiàn)對取證信息自動檢索過程中檢索風險的有效控制。
綜合以上步驟,增加檢索風險控制模塊使得系統(tǒng)硬件結(jié)構(gòu)充分對取證信息的潛在檢索風險進行控制,并利用風險控制軟件應(yīng)用于檢索風險控制模塊,對取證信息的潛在檢索風險進行精準控制,以確保后續(xù)檢索的結(jié)果具有較高的準確性。
為證明總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的性能,需要進行一次實驗。在DSP環(huán)境下搭建總線網(wǎng)絡(luò)取證信息自動檢索風險控制實驗平臺。實驗數(shù)據(jù)來自KDDcup2016取證信息數(shù)據(jù)集,該數(shù)據(jù)集中包括150萬條取證信息數(shù)據(jù)。利用改進系統(tǒng)進行實驗,觀察改進系統(tǒng)的有效性。
硬件配置實驗平臺的CPU為Inter(R)CPUE5-26700,具有16個節(jié)點,內(nèi)存為64G×11節(jié)點,存儲為8T經(jīng)過NFS進行共享,網(wǎng)絡(luò)為千兆的以太網(wǎng),操作系統(tǒng)為RedHatEnterpriseLinux6.3,Kernel2.6.32。JDKWEI1.7.0-79。總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)具有取證信息過濾轉(zhuǎn)換等設(shè)備,可完成取證信息風險過濾等功能。實驗的軟件平臺為BBS2.1,能有效的進行取證信息的檢索。利用上述實驗數(shù)據(jù)對總線網(wǎng)絡(luò)取證信息自動檢索風險控制完成實驗。
表1表示改進系統(tǒng)與文獻 [8]系統(tǒng)、文獻 [9]系統(tǒng)的總線網(wǎng)絡(luò)取證信息風險過濾效準確率對比。
表1 不同系統(tǒng)取證信息風險過濾準確率對比
分析表1可知,文獻[8]系統(tǒng)的對總線網(wǎng)絡(luò)取證信息潛在檢索風險的過濾準確率要高于文獻[9]系統(tǒng)對總線網(wǎng)絡(luò)取證信息潛在檢索風險的過濾準確率,是因為文獻[8]系統(tǒng)是利用眾包的模式對取證信息潛在風險過濾的過程進行分析,利用眾包的方法是通過主題系統(tǒng)的分布式節(jié)點向服務(wù)器請求上傳數(shù)據(jù),利用分布式系統(tǒng)對取證信息進行快速處理并將處理的結(jié)果進行存儲,文獻[8]系統(tǒng)有效地提高了取證信息潛在檢索風險的過濾準確率。文獻[9]系統(tǒng)是利用分詞算法進行取證信息潛在檢索風險的過濾,采用結(jié)合主索引與增量索引的方案,該系統(tǒng)包含取證信息采集模塊、取證信息風險過濾模塊以及存儲模塊,系統(tǒng)執(zhí)行的主機主要采用多進程方式,進行總線網(wǎng)絡(luò)取證信息風險的過濾,并將索引進行合并。但是文獻[9]系統(tǒng)的風險顧慮精度較差。改進系統(tǒng)對總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的硬件方面進行全面的改進設(shè)計,以取證信息風險控制為前提,實現(xiàn)取證信息自動檢索,其中對取證信息的風險過濾過程提高了取證信息潛在風險過濾的準確率。由此證明該方法具有可行性。
網(wǎng)絡(luò)帶寬利用率的大小同樣對風險控制的有效性有直接的影響。為此分別對文獻 [8]系統(tǒng)、文獻 [9]系統(tǒng)改進系統(tǒng)的網(wǎng)絡(luò)帶寬利用率進行測試,圖5表示改進系統(tǒng)與文獻 [8]系統(tǒng)、文獻 [9]系統(tǒng)的網(wǎng)絡(luò)帶寬利用率 (%)對比結(jié)果。
圖5 表示不同系統(tǒng)網(wǎng)絡(luò)帶寬利用率對比
分析圖5可知,改進的總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)的網(wǎng)絡(luò)帶寬利用率明顯低于文獻 [8]系統(tǒng)基于眾包方法的網(wǎng)絡(luò)帶寬利用率,且明顯低于文獻 [9]系統(tǒng)基于分詞算法的網(wǎng)絡(luò)帶寬利用率。是因為改進系統(tǒng)的取證信息自動檢索風險控制是通過選擇與檢索相關(guān)度高的節(jié)點,與檢索相關(guān)度高的節(jié)點主要是指具有較多的與檢索相關(guān)的文檔,節(jié)點內(nèi)的文檔與檢索相關(guān)度高的節(jié)點。該風險控制過程能有效地降低網(wǎng)絡(luò)帶寬的利用率。而文獻[8]系統(tǒng)是通過眾包對總線網(wǎng)絡(luò)的取證信息進行檢索風險控制,文獻[9]系統(tǒng)是通過分詞算法對總線網(wǎng)絡(luò)取證信息進行檢索風險控制,文獻[8]系統(tǒng)的帶寬利用率相比文獻[9]系統(tǒng)的帶寬利用率還更低一些,利用率的波動也較明顯,由此說明文獻 [8]系統(tǒng)與文獻 [9]系統(tǒng)可行性較低,由此說明改進系統(tǒng)的取證信息自動檢索風險控制具有可行性。
CPU空間占用率同樣會對風險控制的效果產(chǎn)生直接影響。為此測試不同系統(tǒng)的CPU空間占用率大小。圖6表示改進系統(tǒng)與文獻 [9]系統(tǒng)、文獻 [10]系統(tǒng)的CPU空間占用率 (%)對比結(jié)果。
圖6 不同系統(tǒng)的CPU空間占用率對比
對圖6進行分析可知,文獻 [9]系統(tǒng)的取證信息自動檢索風險控制的CPU空間占用率明顯高于文獻 [10]系統(tǒng)的CPU空間占用率,文獻[10]系統(tǒng)采用拓撲特征對總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)進行設(shè)計,主要是對各模塊的功能進行設(shè)計與實現(xiàn),利用這些功能進行總線網(wǎng)絡(luò)取證信息的自動檢索,然后進行系統(tǒng)的風險控制軟件設(shè)計完成對取證信息自動檢索時的風險進行控制。雖然文獻[10]系統(tǒng)相對于文獻[9]系統(tǒng)CPU占用空間低一些,但和改進系統(tǒng)相對比CPU空間占用率還是高一些,由此說明改進系統(tǒng)對取證信息自動檢索風險的控制有效性較強。
對比不同系統(tǒng)對取證信息自動檢索風險的控制效果,圖7表示改進系統(tǒng)與文獻 [8]系統(tǒng)、文獻 [10]系統(tǒng)的風險控制精度 (%)對比。
圖7 不同系統(tǒng)取證信息自動檢索風險控制精度對比
對圖7進行分析可知,改進系統(tǒng)的取證信息自動檢索風險控制精度明顯高于文獻 [8]系統(tǒng)與文獻 [10]系統(tǒng)。文獻[8]系統(tǒng)的取證信息自動檢索風險的控制精度曲線雖然波動不明顯,但和改進系統(tǒng)的控制精度曲線相對還是波動較大一些。而文獻 [10]系統(tǒng)的取證信息自動檢索風險的控制精度從信息少時就較低,隨著取證信息數(shù)據(jù)的增加并沒有改善。由此說明改進系統(tǒng)能有效得對取證信息自動檢索的風險進行控制。
采用當前系統(tǒng)對總線網(wǎng)絡(luò)取證信息自動檢索系統(tǒng)進行檢索風險控制時,忽略了對取證細膩潛在檢索風險的過濾,致使風險控制效果差,檢索效率低和檢索誤差較高的問題。為此,提出一種總線網(wǎng)絡(luò)取證信息自動檢索風險控制系統(tǒng)。并通過實驗進行驗證,所提系統(tǒng)能有效地對總線網(wǎng)絡(luò)取證信息自動檢索過程中的潛在檢索風險進行控制,滿足取證信息的大批量安全檢索的需求,提高了風險控制效果,檢索效率,降低了檢索的誤差。隨著網(wǎng)絡(luò)信息檢索風險控制的廣泛應(yīng)用和更多的研究者參與到檢索風險控制理論與研究中,能夠在為用戶檢索出更有效、更準確、更安全的取證信息方面,發(fā)揮巨大的作用。