摘要:本文以數(shù)據(jù)挖掘技術為基礎,提出了信息安全監(jiān)督與控制的基本框架結(jié)構,該框架以多種方式對網(wǎng)絡數(shù)據(jù)與信息進行收集加工,最終形成信息安全數(shù)據(jù)庫,之后對數(shù)據(jù)進行挖掘,生成信息安全監(jiān)督與控制的對象與監(jiān)控對象之間的關聯(lián)特征,進而推動對信息的有效監(jiān)督與控制。
關鍵詞:數(shù)據(jù)挖掘;信息安全;監(jiān)督控制
中圖分類號:TP393.08 文獻標識碼:A 文章編號:1007-9599 (2012) 17-0000-02
1 數(shù)據(jù)挖掘與網(wǎng)絡信息安全
數(shù)據(jù)挖掘技術最早產(chǎn)生于上世紀80年代,當時主要作用在于從大量的魔術隨機數(shù)據(jù)中,提取人們事先不清楚但又有潛在利用價值的信息。之后隨著計算機技術的不斷發(fā)展與成熟,以網(wǎng)絡應用為基礎的數(shù)據(jù)挖掘技術開始出現(xiàn)并大范圍擴展開來。這里網(wǎng)絡數(shù)據(jù)挖掘技術主要是以計算機網(wǎng)絡為基礎,利用數(shù)據(jù)挖掘相關技術,自動對數(shù)據(jù)進行抽取的過程,從影響數(shù)據(jù)的相關因素入手分析用戶所需要的深層信息。通常網(wǎng)絡數(shù)據(jù)挖掘主要包括網(wǎng)絡結(jié)構挖掘、內(nèi)容挖掘、使用挖掘等幾方面。
在計算機網(wǎng)絡系統(tǒng)中,會有很多包含信息安全的數(shù)據(jù)被隱藏于文本文件或者音頻、視頻等文件中。而網(wǎng)絡數(shù)據(jù)挖掘技術恰好可以針對數(shù)據(jù)的這類特點對數(shù)據(jù)進行分析與整理,發(fā)現(xiàn)數(shù)據(jù)之間的關系及數(shù)據(jù)本身所存在的某些特征,進而對信息安全進行有效監(jiān)督與控制。
2 以數(shù)據(jù)挖掘技術為基礎的信息安全監(jiān)督與控制框架基本原理
隨著現(xiàn)代化計算機技術的不斷發(fā)展與進步,社會逐步進入網(wǎng)絡化和信息化的時代,網(wǎng)絡時代信息的有效收集、提取、存儲與分析等勢必也會與網(wǎng)絡產(chǎn)生千絲萬縷的聯(lián)系,而數(shù)據(jù)挖掘技術可以及時有效的發(fā)現(xiàn)信息本身的特征及不同信息系統(tǒng)之間的關系,進而追蹤信息發(fā)展,以實現(xiàn)對信息的監(jiān)督與控制的目的。
現(xiàn)階段,網(wǎng)絡信息的安全性受到很大的威脅,而保證網(wǎng)絡信息安全的監(jiān)督與控制手段主要集中在多種工具的綜合利用上,通過多元化的收集工具對信息進行收集,并在此基礎上采用一定的計算機算法對數(shù)據(jù)進行綜合處理,之后將信息進行歸類,提取需要的信息。這一信息收集處理過程與數(shù)據(jù)挖掘技術結(jié)合,使得整個過程分為數(shù)據(jù)的采集、預處理、挖掘、結(jié)果四部分,程序變得相對簡單。但如果與互聯(lián)網(wǎng)相連接,則會衍生出多種技術的綜合使用,比如針對某一特定網(wǎng)站或者數(shù)據(jù)庫的搜索等。通過網(wǎng)絡數(shù)據(jù)挖掘技術與信息處理分析與歸類技術對互聯(lián)網(wǎng)所收集的信息與數(shù)據(jù)進行整理存儲,在以某種特定算法對數(shù)據(jù)進行分析,之后找出數(shù)據(jù)的基本特征和數(shù)據(jù)之間的某種關系,從而為相關方面的決策提供建議。
隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,目前在包括銀行、保險、零售等行業(yè)在內(nèi)的多種行業(yè)領域都成功使用了數(shù)據(jù)挖掘技術,有效實現(xiàn)了對信息的監(jiān)督與控制。
3 以網(wǎng)絡數(shù)據(jù)挖掘技術為基礎的信息安全監(jiān)督控制框架構建
3.1 數(shù)據(jù)獲取。數(shù)據(jù)的獲取主要是對包括圖片、文本、視頻、音頻等在內(nèi)的多種數(shù)據(jù)形式進行信息的收集,數(shù)據(jù)來源主要包括網(wǎng)站、博客、論壇等,而數(shù)據(jù)的獲取途徑主要由垂直搜索、人工方式、網(wǎng)絡爬蟲等幾種。
首先,垂直搜索。垂直搜索主要是針對一些泄密率相對較高的網(wǎng)站(比如政府部門網(wǎng)站、電子政務網(wǎng)站及國家軍事部門網(wǎng)站等)所設計出來的監(jiān)督控制方式,垂直搜索更多的是對網(wǎng)站的數(shù)據(jù)與信息進行一定結(jié)構與形式的抽取,將抽取出來的信息設計成特定的結(jié)構,從而方便數(shù)據(jù)的挖掘。另外在對信息進行收集的過程中,也可以設定詞語控制表,對數(shù)據(jù)進行篩選與過濾,從而提高數(shù)據(jù)獲取的準確性,提高數(shù)據(jù)獲取的效率。
其次,網(wǎng)絡爬蟲。網(wǎng)絡爬蟲主要是一種計算機程序,以一定的算法將整個Web網(wǎng)頁進行鏈接,形成特定的網(wǎng)絡。互聯(lián)網(wǎng)也正是通過多種超級鏈接的方式將不同層次與內(nèi)容的信息聯(lián)系起來,形成一種信息網(wǎng)絡。網(wǎng)絡爬蟲信息獲取方式有時需要對特定的信息進行收集,因此就不需要將所有網(wǎng)絡進行分析與瀏覽,而只需要建立一個搜索詞語的控制表,對需要檢索的信息進行IP地址或者URL地址的限制,則可自動刪除部分不需要的項目,從而提高信息檢索的效率。
再次,人工方式。上述垂直搜索與網(wǎng)絡爬蟲搜索兩種數(shù)據(jù)收集方式,均是以計算機程序為基礎所形成的網(wǎng)絡自動查找方式,這種方式由于有計算機系統(tǒng)的參與,因此信息收集的速度快,信息量大,但其準確性卻不可同日而語,尤其是針對一些相對隱蔽的信息來講。因此在對數(shù)據(jù)進行收集的過程中,還需要加入人工采集的方法,有針對性的采集需要的信息,提高數(shù)據(jù)采集的準確性。
3.2 數(shù)據(jù)預處理。以計算機和互聯(lián)網(wǎng)為基礎所收集的信息具有量大、復雜等特點,如果對這些數(shù)據(jù)進行直接使用,會在很大程度上降低系統(tǒng)本身的準確性,因此需要對這些數(shù)據(jù)進行預處理,比如數(shù)據(jù)的清洗、集成、變換、消減等。
首先,數(shù)據(jù)的清洗主要是填補遺漏的數(shù)據(jù)、除去明顯錯誤的數(shù)據(jù)等,保證數(shù)據(jù)來源的準確性與完整性。其次數(shù)據(jù)的集成,即將多種來源的數(shù)據(jù)合并起來,比如通過網(wǎng)絡爬蟲收集到的數(shù)據(jù)和通過垂直搜索搜集的數(shù)據(jù),要將其有效統(tǒng)一起來形成數(shù)據(jù)集。之后對數(shù)據(jù)進行轉(zhuǎn)換,主要是對數(shù)據(jù)的一種標準化操作過程,比如采用哪種格式化的數(shù)據(jù)庫,有些是文本形式的數(shù)據(jù),有些是文本結(jié)合視頻形式的數(shù)據(jù),需要將其轉(zhuǎn)換為統(tǒng)一的格式。最后還需要對數(shù)據(jù)進行消減,因為并不是所有的數(shù)據(jù)都是有價值的,需要根據(jù)數(shù)據(jù)的最終價值區(qū)分哪些數(shù)據(jù)有用,哪些數(shù)據(jù)沒用,將沒用的數(shù)據(jù)剔除出去,以保證數(shù)據(jù)挖掘的高效性與準確性。
3.3 數(shù)據(jù)挖掘。經(jīng)過前期數(shù)據(jù)獲取與預處理之后,生成統(tǒng)一的數(shù)據(jù)庫,之后便需要對這些數(shù)據(jù)進行數(shù)據(jù)挖掘處理。首先從數(shù)據(jù)庫中提取需要進行處理的數(shù)據(jù),之后從模型庫中選擇相對應的模型,從算法庫中選取要采用的算法,將三者進行有效結(jié)合對數(shù)據(jù)進行處理?,F(xiàn)階段模型庫模型主要包括綜合平衡模型、預測類模型及結(jié)構優(yōu)化模型等;數(shù)據(jù)挖掘的算法主要包括關聯(lián)分析、聚類分析、序列分析、集成挖掘、圖挖掘等。
另外,要提高數(shù)據(jù)挖掘的整體準確性與針對性,還需要不斷進行挖掘方法的試錯,通過試錯來找到最好的算法,也就是我們所熟悉的挖掘訓練。這個過程主要表現(xiàn)如下:首先從數(shù)據(jù)庫中抽取一部分數(shù)據(jù)作為訓練樣本,之后從算法庫中選取某種算法,從模型庫中選取某種模型,將數(shù)據(jù)挖掘的結(jié)果與參照集進行一定的對比,如果結(jié)合與要求相符則開始正式的挖掘,反之則需要重新選擇。
3.4 結(jié)果應用。通過對數(shù)據(jù)進行數(shù)據(jù)挖掘技術分析,可以發(fā)現(xiàn)兩點內(nèi)容,首先對象的特定,即在網(wǎng)絡中使用者所關心的信息安全對象的某種信息,通常這類信息可能是個人的資料,或者圖片,或者文本等。比如通過數(shù)據(jù)挖掘技術,發(fā)現(xiàn)某個IP地址在某個網(wǎng)站上經(jīng)常散步黃色消息,或者在某個論壇上發(fā)布國家安全信息等,則這些人就會被列入信息安全監(jiān)督對象。其次數(shù)據(jù)之間的關聯(lián)性,比如通過數(shù)據(jù)挖掘技術發(fā)現(xiàn)某兩個或者多個對象之間存在某種關聯(lián),通過對關聯(lián)數(shù)據(jù)分析便可確定關聯(lián)網(wǎng),比如在某網(wǎng)站對某一IP地址進行攻擊,而此IP地址又在某論壇經(jīng)常出現(xiàn),則可認為這個論壇與攻擊者之間存在某種聯(lián)系,需要對其進行監(jiān)督。
4 結(jié)論
綜上所述,隨著計算機網(wǎng)絡的不斷發(fā)展,尤其是3G、云計算等先進技術的出現(xiàn),在很大程度上對信息的安全性造成了一定的威脅。本文從數(shù)據(jù)挖掘的角度對信息安全的有效監(jiān)督與控制進行了分析,并構建了信息安全監(jiān)督與控制基本框架,在一定程度上為信息安全的監(jiān)控提供了思路,但實際的操作過程中,還存在許多問題,但隨著計算機技術與數(shù)據(jù)挖掘技術的不斷深入發(fā)展,信息安全監(jiān)督與控制體系必將越來越完善,信息的安全指數(shù)也會越來越高。
參考文獻:
[1]范建華,張肖.信息保護的重要手段——數(shù)據(jù)挖掘——以銀行業(yè)環(huán)境為例[J].金融經(jīng)濟:下半月,2012,2:32-35.
[2]劉勇國,李學明,廖曉峰.基于數(shù)據(jù)挖掘的入侵檢測[J].重慶大學學報(自然科學版),2002,25(10):128-131,135.