丁程程 崔艷榮
摘要:網絡安全事關國家安全,它已被多個國家納入國家安全戰(zhàn)略。在我國,網絡安全已得到政府的高度重視,國家層面明確意識到網絡安全對國家安全牽一發(fā)而動全身。與此同時,危害網絡的新手段正不斷涌現,導致網絡安全威脅與日俱增,全球的網絡安全形勢都不容樂觀。在這種嚴峻的網絡安全形勢大背景下,大量研究人員正不斷致力于尋找解決網絡安全問題的新技術。而機器學習正是能夠有效解決網絡安全問題的技術之一,為此,該文圍繞機器學習技術應用于網絡安全領域的最新研究成果,首先介紹了網絡安全的關鍵技術并闡述了機器學習技術在網絡安全領域中的應用流程,然后介紹了常見的網絡安全研究方法,著重介紹了機器學習在網絡安全中的解決方案,最后展望了機器學習在網絡安全研究中的發(fā)展趨勢。
關鍵詞:機器學習;網絡安全;入侵檢測;隱私保護
中圖分類號:TP393? ? ? ? ? ? ? ? 文章標識碼:A
文章編號:1009-3044(2019)26-0044-02
開放科學(資源服務)標識碼(OSID):
Abstract: Cyber security is a matter of national security, which has been incorporated into national security strategy by many countries.In our country, network security has been highly valued by the government, the national level clearly aware of the network security on national security.At the same time, new means to harm the network are emerging, leading to the increasing threat of network security, the global network security situation is not optimistic.In the context of this severe network security situation, a large number of researchers are constantly looking for new technologies to solve network security problems.And machine learning is one of the effective technology to solve the problem of network security, and to this end, the paper around the machine learning technique is applied to the latest research achievements in the field of network security, firstly this paper introduces the key technology of network security and expounds the machine learning technology application in the field of network security process, then introduces the common network security research methods, introduces the machine learning in the network security solution, finally prospects the development trend in the study of machine learning in network security.
Key words: machine learning; network security; intrusion detection; privacy protection
1? ?引言
網絡安全是一個比較寬泛的概念。百度百科上面對“網絡安全”的定義,是指網絡系統(tǒng)的硬件、軟件及其系統(tǒng)中的數據受到保護,不因偶然的或者惡意的原因而遭受到破壞、更改、泄露,系統(tǒng)連續(xù)可靠正常地運行,網絡服務不中斷。通常把計算機網絡面臨的安全性威脅分為被動攻擊和主動攻擊。被動攻擊指攻擊者從網絡上竊聽他人的通信內容,這類攻擊又稱為截獲。被動攻擊又被稱為流量分析,是指在被動攻擊中,攻擊者只是觀察和分析某一個協(xié)議數據單元PDU,以便了解所交換的數據的某種性質,但比干擾信息流。主動攻擊主要有故意篡改網絡上床送的報文,惡意程序(計算機病毒、計算機蠕蟲、特洛伊木馬、邏輯炸彈、流氓軟件等等),拒絕服務。拒絕服務指攻擊者向互聯(lián)網上的某個服務器不停地發(fā)送大量分組,使該服務器無法提供正常服務,甚至完全癱瘓。
通常機器學習被認為是一組能夠利用經驗數據來改善系統(tǒng)自身性能的算法集合。本文從機器學習技術應用于網絡安全的角度出發(fā),總結了機器學習的一般應用流程,如圖1所示,機器學習在網絡安全研究中的一般應用流程主要包括問題抽象、數據采集、數據預處理及安全特征提取、模型構建、模型驗證及效果評估六個階段。在整個應用流程中,各階段不能獨立存在,相互之間存在一定的關聯(lián)關系。
2? 常用的網絡安全研究
2.1 惡意軟件檢測技術
惡意軟件已經成為網絡安全的主要威脅之一,它在未經授權的情況下,自動在系統(tǒng)中進行安裝、執(zhí)行,以達到不正當的目的。在早期惡意軟件主要表現為計算機病毒,因此,惡意軟件檢測技術就是單純的計算機病毒掃描技術。隨著信息技術和軟件技術的不斷發(fā)展,惡意軟件已不再局限于計算機病毒,而是涌現出大量的新型惡意軟件。
目前常用的惡意軟件檢測技術有:特征碼技術、覆蓋法技術、駐留式軟件技術、特征碼過濾技術、虛擬機技術、啟發(fā)掃描技術、病毒疫苗等,最初并且現在還在用的是特征碼技術。特征碼技術就是在獲取病毒樣本后,提取出其特征值,然后通過該特征值對各個文件或內存等進行掃描,如果發(fā)現其特征值,就說明感染了其病毒。隨著病毒技術的發(fā)展,虛擬機技術出現,所謂虛擬機就是用軟件先虛擬一套運行環(huán)境,讓病毒先在該虛擬環(huán)境下運行,看其執(zhí)行效果。
2.2 入侵檢測技術
入侵檢測是對企圖入侵、正在進行的入侵或者已經發(fā)生的入侵進行識別的過程。它在不影響網絡性能的情況下能對網絡進行監(jiān)測,收集計算機網絡或系統(tǒng)中的關鍵信息,并對其進行分析,從中發(fā)現是否有被攻擊的跡象。目前,可以將入侵檢測的分析方法分為特征檢測和異常檢測。特征檢測又稱為誤用檢測,它是將已知的入侵用一種模式來表示,形成網絡特征攻擊庫,然后用網絡特征攻擊庫中的特征與輸入的待分析數據源進行比較,如果發(fā)現匹配的特征,則表示發(fā)生了一次攻擊。異常檢測不需要龐大的網絡攻擊特征庫,它是收集正?;顒拥囊?guī)律,將待檢測的活動與收集的正?;顒右?guī)律進行比較,對于違反正?;顒右?guī)律的行為認為是入侵行為。
3? 機器學習在網絡安全研究中的應用
3.1 機器學習在入侵檢測中的應用
在機器學習中,分類方法的任務就是要確定待分析的數據中,哪些對象屬于哪個預定義的目標類。將機器學習的分類方法應用到入侵檢測中,就是把入侵檢測看作一種分類問題,其目標就是將待檢測的源數據分類為正?;顒雍腿肭中袨?。
基于分類方法的入侵檢測過程可以歸納為:首先使用包含正常和各種入侵的歷史數據作為訓練模型,再應用分類算法在數據上進行學習,建立分類模型,分類模型可以轉化為識別正常活動和各種入侵行為的規(guī)則;最后使用這些規(guī)則對新的待檢測數據進行分類判斷,判斷它是正?;顒舆€是入侵行為。
機器學習中的分類方法能夠從大量的審計數據和網絡數據中抽取出能充分描述網絡連接和主機會話的特征,并學習出分類模型,發(fā)現待檢測數據中隱藏的入侵行為的分類規(guī)則。機器學習的分類方法已在入侵檢測中得到廣泛的應用,其中決策樹、貝葉斯定理、最鄰近、支持向量機、人工神經網絡等經典分類方法都已被應用到入侵檢測中。如圖2所示,描述了決策樹分類方法在入侵檢測中的應用。
3.2 機器學習在惡意軟件檢測中的應用
近年來,出現了許多基于機器學習算法的惡意軟件檢測的研究,同時機器學習以大量應用于惡意軟件檢測中,并取得了良好的成果。目前,研究人員將機器學習技術用于檢測惡意軟件比較成熟的技術有分類技術、聚類技術等。
分類技術在惡意軟件檢測中的基本原理是對已知的惡意軟件和正常樣本數據進行學習,采用合適的分類算法構建惡意軟件的分類模型,再通過這個分類模型對未知文件進行監(jiān)測,判斷其是否為惡意軟件。基于分類技術的惡意軟件檢測過程包含兩個步驟:訓練惡意軟件分類模型和檢測惡意軟件。分別如圖3、圖4所示。在訓練惡意軟件分類模型中首先從文本訓練樣本中提起文本特征,然后構建樣本特征數據庫,最后采用一定的機器學習算法訓練處惡意軟件分類模型。當惡意軟件分類模型生成后,提取待檢測樣本中的特征數據來構建文本樣本檢測數據集,結合訓練好的惡意軟件分類模型對待檢測數據集進行分類,最終得到檢測結果。在機器學習中,決策樹分類算法、貝葉斯分類算法、關聯(lián)分類算法在惡意軟件檢測中均以成功應用。
4? 總結
在迅猛發(fā)展的網絡空間中,大量的網絡安全難題有待解決,正是這種實際的網絡安全應用需求促使研究人員將經典的機器學習算法應用于網絡安全領域。近年來,基于機器學習的技術的網絡安全研究成果不斷出現在各種報道和文獻中,這些研究成果在解決網絡安全問題方面取得了良好的成效,許多機器學習算法都凸顯了其解決網絡安全惡疾的良好能力。但是,目前的技術解決方案還不能完全滿足網絡安全的應用需求,還存在著目前一些難以解決的問題和可以再進一步的研究方向。采用機器學習技術解決網絡安全問題仍是一件具有挑戰(zhàn)的工作,在解決網絡安全問題的同時,機器學習本身也存在著一定的難點。因此,如何選擇合適的機器學習算法來有效解決網絡安全問題需進一步深入研究。
參考文獻:
[1] 葉艷芳.惡意軟件智能檢測若干方法的研究及其應用[D].廈門大學,2010.
[2] Dash M,H Liu. Feature selection for classification[J]. Intelligent Data Analysis, 1997,1(s 1-4):131-156.
[3] 高志森.混合式入侵檢測系統(tǒng)中入侵檢測分類器模型的研究與實現[D].南京航空航天大學,2007.
[4] 張蕾,崔勇,等.機器學習在網絡空間安全研究中的應用[J].計算機學報,2018(9):1943-1975.
【通聯(lián)編輯:梁書】