邱金龍
(上海市信息安全測評認證中心 上海市 200011)
當(dāng)前社會,信息發(fā)揮著越來越重要的作用,在信息大爆炸的時代背景下,隨著網(wǎng)絡(luò)應(yīng)用在社會發(fā)展、生活等各個方面的不斷滲透,各類大數(shù)據(jù)已越來越多的被重視和廣泛應(yīng)用,大數(shù)據(jù)時代已經(jīng)到來。在這樣的大環(huán)境下,由此而帶來的網(wǎng)絡(luò)的結(jié)構(gòu)及環(huán)境也更加的紛繁復(fù)雜,在為人們生活、工作帶來便捷的前提下,網(wǎng)絡(luò)安全問題也成為目前信息社會的一大問題,也對人們生產(chǎn)生活及社會發(fā)展產(chǎn)生重要影響。網(wǎng)絡(luò)安全已成為一門新興的學(xué)科和研究專題,隨著人們重視的提高,目前的網(wǎng)絡(luò)安全已經(jīng)在向更實用、更完善、更便捷的方向發(fā)展。目前網(wǎng)絡(luò)安全技術(shù)仍不完善,仍存在較多的安全漏洞,整體防護能力無法全面防范,也為信息的采集、存儲和加工等工作帶來了挑戰(zhàn),可以說網(wǎng)絡(luò)安全問題越來越嚴峻,也成為目前信息社會亟待解決的重要問題。在這樣的背景下,大數(shù)據(jù)挖掘技術(shù)這種新型的網(wǎng)絡(luò)信息安全處理手段應(yīng)運而生,其自身所具有的精準(zhǔn)分析和預(yù)測的功能,可以實現(xiàn)對網(wǎng)絡(luò)入侵的有效分析,精準(zhǔn)的監(jiān)測網(wǎng)絡(luò)入侵行為,從而進行有效防范,達到保障和提升網(wǎng)絡(luò)安全的目的。
第十一屆人工智能聯(lián)合會議于1989年8月在美國底特律市召開。本次會議中,科學(xué)家們首次提出知識發(fā)現(xiàn)(knowledge discover in database,KDD)的概念,這一概念也被有些人稱為數(shù)據(jù)挖掘,但兩者并不完全相同。1995年,在加拿大蒙特利爾市召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會議上,KDD這個術(shù)語得以認同接受,并通過分析確定了數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的子過程這一概念。
數(shù)據(jù)挖掘就是在龐大的、不完整的、模糊的、隨機的數(shù)據(jù)中挖掘、發(fā)現(xiàn)有效信息,提取人們現(xiàn)實所不知道,隱藏的但又有著潛在利用價值的信息,通過科學(xué)分析來發(fā)現(xiàn)數(shù)據(jù)之間的有效聯(lián)系、趨勢及模式。數(shù)據(jù)挖掘是一門技術(shù),其產(chǎn)生依托于近年來數(shù)據(jù)庫系統(tǒng)的大量建立以及互聯(lián)網(wǎng)的廣泛應(yīng)用。它是一門交叉性學(xué)科,融合了機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)、人工智能、統(tǒng)計學(xué)、模式識別、可視化分析等多門學(xué)科。
處理挖掘出的大數(shù)據(jù)需要復(fù)雜、綜合和多方位的系統(tǒng)支撐,這種系統(tǒng)中有很多處理模塊,大數(shù)據(jù)挖掘技術(shù)就是為了完成數(shù)據(jù)挖掘這項任務(wù)而采用的技術(shù)手段,在整個系統(tǒng)中是以一個獨立的身份而存在的,這一研究領(lǐng)域由多學(xué)科交叉組成,將人工智能、機器學(xué)習(xí)、數(shù)據(jù)庫信息檢索等技術(shù)相融合,與其他模塊是一個相輔相成、協(xié)調(diào)發(fā)展的關(guān)系。其地位在當(dāng)今的大數(shù)據(jù)時代中無可比擬。一般來說大數(shù)據(jù)挖掘技術(shù)的流程是通過對數(shù)據(jù)庫或源數(shù)據(jù)的分析,提煉出用戶所需要的具有一定潛在意義的信息。通過有針對性的加工處理,形成適合深度挖掘的數(shù)據(jù)模式。隨后通過符合實際的數(shù)據(jù)算法進行提取、評估,改變數(shù)據(jù)信息晦澀難懂的現(xiàn)象,通過簡單易懂的方式,方便用戶。通常情況下,數(shù)據(jù)提取、初步預(yù)處理、后續(xù)深度挖掘及最終信息模式評估等環(huán)節(jié)共同組成大數(shù)據(jù)挖掘技術(shù)。一般采用數(shù)據(jù)關(guān)聯(lián)、分類和聚類算法。
在學(xué)術(shù)領(lǐng)域,大數(shù)據(jù)挖掘技術(shù)研究的主力軍仍然是各大高校?;谄渲匾裕澜绺鲊谙嚓P(guān)領(lǐng)域研究上投入了大量的精力,并且越來越重視。從國家層面上來看,由于經(jīng)濟及科技上的優(yōu)勢,美國等發(fā)達國家仍然是這項工作研究的主體。我國由于人口眾多,具有較好的調(diào)查樣本數(shù)據(jù)基礎(chǔ),相對而言更容易采取到豐富的信息。
從目前的研究成果上來看,大數(shù)據(jù)的挖掘技術(shù)呈現(xiàn)出兩個方面的特點。一方面在網(wǎng)絡(luò)安全體系中主打應(yīng)用功能,通過應(yīng)用來推動該項技術(shù)在更多的領(lǐng)域?qū)r值發(fā)揮最大化。另一方面以研究為主。從目前的發(fā)展情況看,整體上數(shù)據(jù)挖掘技術(shù)在完善度和成熟度上還有欠缺,隱患較多,影響應(yīng)用效果,因此研究是下一步的主要趨勢,通過不斷的研究、完善來實現(xiàn)這一技術(shù)的日趨成熟,從而發(fā)揮更大的作用。
近些年,人工智能、5G通信、物聯(lián)網(wǎng)以及區(qū)塊鏈等技術(shù)的飛速發(fā)展,使信息呈現(xiàn)爆炸式增長,大量的數(shù)據(jù)為人們的生活、工作提供了幫助,可以說信息是當(dāng)下推動社會進步的一大重要因素。但同時,大量的信息在沒有經(jīng)過甄別和挑選的情況下,無效信息、負面信息等數(shù)據(jù)也十分龐大,這些信息在一定程度上影響著社會的進步,甚至起到相反的作用。如何在海量的信息中找到真正有意義的、正向的信息數(shù)據(jù),以滿足不同用戶、不同場景、不同領(lǐng)域的需要,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用就顯得十分重要和必要。
伴隨著社會的進步、科技水平的不斷提高,出現(xiàn)了越來越多的性能多元化的網(wǎng)絡(luò)設(shè)備,在實現(xiàn)高速傳輸信息數(shù)據(jù)的同時,更加要求信息數(shù)據(jù)采集的安全性。多年來,在傳統(tǒng)技術(shù)模式下,結(jié)構(gòu)化的數(shù)據(jù)庫是信息存儲的主要處理方式。不但成本較高,同時也會存在數(shù)據(jù)丟失的問題。而有效應(yīng)用大數(shù)據(jù)挖掘技術(shù)就可以降低這種信息數(shù)據(jù)丟失概率,進而確保數(shù)據(jù)采集以及加工、使用的精確度和實效性,以達到提升工作效率的作用。同時,大數(shù)據(jù)挖掘技術(shù)的深度應(yīng)用,在有效完善網(wǎng)絡(luò)安全防御體系上還發(fā)揮著重要作用。
數(shù)據(jù)信息時代下個人隱私數(shù)據(jù)的大量增加,對網(wǎng)絡(luò)安全的要求更高。而病毒代碼是導(dǎo)致數(shù)據(jù)信息泄露、損壞等現(xiàn)象的出現(xiàn)越來越多頻發(fā)的重要因素,危害著人們的信息安全,為生活帶來了不利影響。針對這種情況,大數(shù)據(jù)挖掘技術(shù)采取收集數(shù)據(jù)信息的方式減少網(wǎng)絡(luò)安全隱患,將病毒代碼從數(shù)據(jù)信息中找出,通過有效監(jiān)測、預(yù)防惡意攻擊及異常入侵等手段,確保網(wǎng)絡(luò)安全。網(wǎng)絡(luò)病毒往往以代碼的方式隱藏在計算機系統(tǒng)中,利用計算機系統(tǒng)的支持對系統(tǒng)進行滲透性破壞。這些病毒程序與部分軟件相似度極高,往往不容易判斷,因此會被忽視,最終導(dǎo)致系統(tǒng)的崩潰。而大數(shù)據(jù)挖掘技術(shù)就是通過充分分析各種代碼程序,掌握其關(guān)鍵點,及時發(fā)現(xiàn)不同程序中的異常問題,有針對性地采取預(yù)防措施。通過對這些病毒代碼程序信息的收集,分類分析彼此之間的共性特征,在數(shù)據(jù)上為建立網(wǎng)絡(luò)安全防御機制提供支持。
利用大數(shù)據(jù)挖掘技術(shù),依托對數(shù)據(jù)信息的深入挖掘,進而進行數(shù)據(jù)分析,用科學(xué)的方法精準(zhǔn)地找出并明確危害網(wǎng)絡(luò)安全的問題根源。程序代碼是破壞網(wǎng)絡(luò)安全的常見方式,因此需要破解與轉(zhuǎn)換存在安全隱患的程序代碼,以方便技術(shù)人員的甄別,從而發(fā)現(xiàn)其根本意圖,有針對性地采取相關(guān)防御措施。這種破解與轉(zhuǎn)換一般通過數(shù)據(jù)處理模塊實施,其主要方式是識別數(shù)據(jù)IP位置、數(shù)據(jù)源位置與相關(guān)信息,再通過充分的、深層次的挖掘,對IP目標(biāo)進行精準(zhǔn)定位,以此來找到網(wǎng)絡(luò)病毒的根源。在此基礎(chǔ)上,通過全面分析病毒類型,采取可行的封鎖措施,截斷其傳播路徑,將這類病毒的攻擊范圍最大限度的鎖定在一定的區(qū)間之內(nèi),從而阻斷病毒的深入傳播路徑。同時,數(shù)據(jù)信息終端的分析、分類及處理是數(shù)據(jù)處理的基礎(chǔ)工作,通過這些工作,大數(shù)據(jù)挖掘技術(shù)對后續(xù)網(wǎng)絡(luò)安全相關(guān)問題的破解將發(fā)揮更大的作用,從而保障網(wǎng)絡(luò)信息的安全。
在數(shù)據(jù)庫方面應(yīng)用是關(guān)聯(lián)分析大數(shù)據(jù)挖掘技術(shù)的主要形式,是數(shù)據(jù)聚類技術(shù)的應(yīng)用基礎(chǔ),同時結(jié)合網(wǎng)絡(luò)安全問題進行深入識別。利用關(guān)聯(lián)數(shù)據(jù)庫全面記錄和分析網(wǎng)絡(luò)病毒攻擊行為的特征、軌跡及執(zhí)行程度,依托聚類分析算法識別網(wǎng)絡(luò)病毒的基本特征,從而強化系統(tǒng)整體防御能力。
通過自帶的數(shù)據(jù)分析記憶功能,數(shù)據(jù)挖掘模塊對比分析的數(shù)據(jù)和模塊數(shù)據(jù),如果通過分析發(fā)現(xiàn)兩者有著較高的數(shù)據(jù)匹配度,則判斷為系統(tǒng)中存在安全隱患。在當(dāng)下的領(lǐng)域中,此類的防御系統(tǒng)不斷出現(xiàn)并持續(xù)進行迭代更新。其中以應(yīng)用較為廣泛的360防火墻為代表的軟件,就是通過這種模式對病毒代碼產(chǎn)生的安全隱患進行防御,但從實際應(yīng)用上來看,往往還會出現(xiàn)錯誤判斷的情況,從而造成對代碼的“誤殺”,在準(zhǔn)確性上還需要進一步地提高,網(wǎng)絡(luò)安全決策機制還需要進一步完善。因此,大數(shù)據(jù)挖掘技術(shù)需要配合決策模塊中發(fā)現(xiàn)、分析、總結(jié)網(wǎng)絡(luò)病毒特征等操作后進行相關(guān)應(yīng)用,同時在此基礎(chǔ)上進行科學(xué)有效地判斷及決策,防止出現(xiàn)系統(tǒng)誤判的問題,從而造成干預(yù)不當(dāng)?shù)默F(xiàn)象,防止為病毒代碼滲入系統(tǒng)留下可乘之機。
通過數(shù)據(jù)挖掘整理,全面了解病毒特征以及決策條件,同時在此基礎(chǔ)上進行更進一步的分類、分析及審核,從而完善數(shù)據(jù)處理結(jié)果,這就是對數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理通過科學(xué)的手段進一步驗證網(wǎng)絡(luò)安全問題,以提取出的驗證指標(biāo)和關(guān)鍵數(shù)據(jù)參數(shù)為構(gòu)建防御系統(tǒng)的重要依據(jù)。由此可見,數(shù)據(jù)預(yù)處理在大數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中精準(zhǔn)分析判斷系統(tǒng)漏洞、病毒類型等原始特征的功能可以得以全面實現(xiàn),使計算機系統(tǒng)的防御能力得到進一步的提升。
入侵檢測技術(shù)是網(wǎng)絡(luò)安全防護中的重要組成部分。主要有兩種檢測形式,異常入侵檢測和正常入侵檢測。兩者雖各有不同,但通常進行配合使用。大數(shù)據(jù)挖掘技術(shù)在入侵檢測中的應(yīng)用,可以實現(xiàn)入侵檢測技術(shù)水平的極大提高,從而強化整體網(wǎng)絡(luò)安全水平。
異常入侵檢測的第一步是收集異常數(shù)據(jù),要構(gòu)建科學(xué)有效的分析模型,對已發(fā)生的入侵行為的特征進行分析匯總,進一步豐富異常數(shù)據(jù)模型。在這種操作方式下,如果再次發(fā)生非法入侵,因為存在與之前的異常入侵行為相似的特征,通過入侵檢測技術(shù)就可以快速地得以識別其發(fā)生與擴散,從而保護網(wǎng)絡(luò)安全。從技術(shù)層面上來講,異常入侵檢測的數(shù)據(jù)信息相對較為簡單,比較容易建立數(shù)據(jù)模型。正是因為這種簡單的特征,就只能通過這種技術(shù)來識別曾經(jīng)發(fā)生過的異常入侵行為,卻沒有辦法準(zhǔn)確識別到還沒有發(fā)生或者是發(fā)生前還沒有攻破的入侵特征,由此可見仍存在較多漏洞。如果在這一過程中應(yīng)用大數(shù)據(jù)挖掘技術(shù),就能夠建立協(xié)助入侵檢測技術(shù)預(yù)測的功能,針對性地預(yù)測未知入侵行為。這一應(yīng)用就是依托數(shù)據(jù)關(guān)聯(lián)技術(shù),提取曾經(jīng)發(fā)生過的入侵行為的數(shù)據(jù),并進行分析。深度挖掘分析入侵行為的攻擊路徑中通過分析產(chǎn)生的數(shù)據(jù)分類參數(shù)的設(shè)定標(biāo)準(zhǔn),同時通過算法進行科學(xué)預(yù)測。通過二者的結(jié)合,使得大數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)分析預(yù)測功能得到充分發(fā)揮,也實現(xiàn)了異常入侵檢測對未知入侵行為的有效檢測與預(yù)測,使入侵檢測更加精準(zhǔn)。
相比較異常入侵檢測,正常的網(wǎng)絡(luò)行為是正常入侵檢測的對象,主要通過科學(xué)系統(tǒng)的分析與建模,以篩選、分析出正常模型特征。通過用戶行為的特征與正常模型的特征進行對比的匹配度,確定是否是正常的網(wǎng)絡(luò)行為。如果出現(xiàn)不相符的現(xiàn)象,即為不正常入侵。從技術(shù)層面講,這種判斷模式也會存在一定程度上的誤差。鑒于此,在使用正常入侵檢測技術(shù)時,可以通過對同類別數(shù)據(jù)信息的劃分,更加精準(zhǔn)的對數(shù)據(jù)進行分析,以確保其檢測的精準(zhǔn)度。
網(wǎng)絡(luò)應(yīng)用伴隨著網(wǎng)絡(luò)時代的到來越來越多地滲透到人們生活中的方方面面,為社會發(fā)展和人們生活提供了各種便利,為大數(shù)據(jù)挖掘技術(shù)也帶來了全新的變化和更多的機遇。與此同時,網(wǎng)絡(luò)安全問題也成為衍生物,影響著人們的生活。因此,在大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)安全管理尤為重要。網(wǎng)絡(luò)安全工作與大數(shù)據(jù)挖掘技術(shù)的融合,不但可以充分發(fā)揮大數(shù)據(jù)挖掘技術(shù)的優(yōu)勢,還可以顯著提升網(wǎng)絡(luò)防御病毒的能力,防止出現(xiàn)病毒程序入侵網(wǎng)絡(luò)導(dǎo)致系統(tǒng)受損的現(xiàn)象。相比較傳統(tǒng)網(wǎng)絡(luò)安全技術(shù),以發(fā)掘隱藏在網(wǎng)絡(luò)安全數(shù)據(jù)中的安全信息及關(guān)鍵屬性為手段,以及時發(fā)現(xiàn)并判斷未知侵入行為為目的的大數(shù)據(jù)挖掘技術(shù)已成為當(dāng)下網(wǎng)絡(luò)安全應(yīng)用的熱門研究方向。正是由于這一技術(shù)的廣泛、科學(xué)的運用,使得各種龐大的商業(yè)智能數(shù)據(jù)、科學(xué)應(yīng)用數(shù)據(jù)及網(wǎng)絡(luò)技術(shù)數(shù)據(jù)的安全性得以保障。未來,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用和研究還會進一步加強,網(wǎng)絡(luò)安全問題還將提升到一個戰(zhàn)略性的高度,只有這樣整體網(wǎng)絡(luò)環(huán)境才能更加健康。同時,也可以做出這樣的判斷,未來,關(guān)于大數(shù)據(jù)研究的相關(guān)技術(shù)應(yīng)用,數(shù)據(jù)信息領(lǐng)域的各類研究以及發(fā)展趨勢的判斷將會是IT產(chǎn)業(yè)在物聯(lián)網(wǎng)、5G網(wǎng)絡(luò)產(chǎn)業(yè)之后又一重大的技術(shù)變革,可以斷定這一變革勢必將影響未來整個行業(yè)的發(fā)展。