陶 雯,王杉杉,李榮雨
(1.江蘇第二師范學(xué)院數(shù)學(xué)與信息技術(shù)學(xué)院,江蘇 南京 210013;2.南京工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816)
基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)研究
陶 雯1,王杉杉2,李榮雨2
(1.江蘇第二師范學(xué)院數(shù)學(xué)與信息技術(shù)學(xué)院,江蘇 南京 210013;2.南京工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816)
針對(duì)企業(yè)信息化系統(tǒng)存在的問(wèn)題,分析了當(dāng)前網(wǎng)絡(luò)安全存在的誤報(bào)和漏報(bào)現(xiàn)象,對(duì)海量信息分析代價(jià)大、無(wú)法預(yù)知安全策略?xún)?nèi)容、系統(tǒng)自身安全等方面問(wèn)題作了探討,設(shè)計(jì)并建立了基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)模型。該模型主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、算法檢測(cè)及響應(yīng)處理等模塊。在設(shè)計(jì)好基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)后,將該系統(tǒng)部署到原有系統(tǒng)中,并檢測(cè)入侵?jǐn)?shù)據(jù),數(shù)據(jù)檢測(cè)監(jiān)控界面顯示入侵檢測(cè)系統(tǒng)的檢測(cè)結(jié)果。針對(duì)未處理的網(wǎng)絡(luò)連接記錄,系統(tǒng)管理員可通過(guò)手動(dòng)方式判斷其是否為攻擊行為;而對(duì)于異常的數(shù)據(jù),系統(tǒng)會(huì)將此類(lèi)型的攻擊行為添加到樣本庫(kù)中。算法在適當(dāng)?shù)臅r(shí)間通過(guò)新的樣本庫(kù)來(lái)完善分類(lèi)器。該模型在不改變?cè)行畔⒒到y(tǒng)工作的基礎(chǔ)上,實(shí)現(xiàn)了入侵檢測(cè)系統(tǒng)的應(yīng)用。
多標(biāo)記學(xué)習(xí); 樣本庫(kù); 入侵檢測(cè); 類(lèi)別權(quán)重; 企業(yè)信息系統(tǒng); 分類(lèi)器
企業(yè)信息系統(tǒng)包括兩個(gè)部分,一部分是OA辦公類(lèi)系統(tǒng),另一部分是業(yè)務(wù)類(lèi)系統(tǒng),包括企業(yè)資源計(jì)劃系統(tǒng)、人力資源管理系統(tǒng)、客戶(hù)管理系統(tǒng)等。隨著企業(yè)信息化建設(shè)的不斷推進(jìn),信息系統(tǒng)不斷擴(kuò)大,企業(yè)的業(yè)務(wù)數(shù)據(jù)逐漸積累。來(lái)自外部的攻擊行為嚴(yán)重威脅著企業(yè)內(nèi)部機(jī)密,如何協(xié)調(diào)好企業(yè)信息安全的內(nèi)憂(yōu)外患,是目前大部分企業(yè)網(wǎng)站亟待解決的問(wèn)題。入侵檢測(cè)系統(tǒng)[1-3]不僅能夠檢測(cè)系統(tǒng)外部的攻擊行為,同時(shí)也能對(duì)系統(tǒng)內(nèi)部的攻擊行為有很好的防御效果,但是現(xiàn)有入侵檢測(cè)技術(shù)還存在很多不足之處,主要體現(xiàn)在誤報(bào)和漏報(bào)、海量信息分析代價(jià)大、無(wú)法預(yù)知安全策略、系統(tǒng)自身安全問(wèn)題等方面內(nèi)容[4]。
本文通過(guò)對(duì)企業(yè)信息化系統(tǒng)的研究,建立基于多標(biāo)記學(xué)習(xí)改進(jìn)算法[5]的入侵檢測(cè)系統(tǒng)模型,并對(duì)基于該模型的入侵檢測(cè)系統(tǒng)進(jìn)行了詳細(xì)設(shè)計(jì),在不改變?cè)行畔⒒到y(tǒng)工作的基礎(chǔ)上,實(shí)現(xiàn)了入侵檢測(cè)系統(tǒng)的應(yīng)用。
基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)流程如圖1所示。流程主要實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)處理、入侵檢測(cè)等功能。
圖1 系統(tǒng)流程圖
如圖1所示,系統(tǒng)首先在網(wǎng)絡(luò)接入點(diǎn)建立數(shù)據(jù)采集通道,然后由數(shù)據(jù)采集單元捕捉經(jīng)過(guò)此節(jié)點(diǎn)的數(shù)據(jù)流,并對(duì)數(shù)據(jù)流進(jìn)行清洗,從捕捉到的數(shù)據(jù)流中提取網(wǎng)絡(luò)連接記錄,對(duì)所有網(wǎng)絡(luò)連接的特征信息進(jìn)行提取。同時(shí),對(duì)提取的相關(guān)信息進(jìn)行預(yù)處理,得到作為多標(biāo)記學(xué)習(xí)改進(jìn)算法的輸入形式數(shù)據(jù),然后利用分類(lèi)器預(yù)測(cè)輸入的數(shù)據(jù),最后將預(yù)測(cè)結(jié)果進(jìn)行傳輸,送到?jīng)Q策響應(yīng)單元,進(jìn)而執(zhí)行相應(yīng)操作。
1.1 結(jié)合類(lèi)別權(quán)重及多示例的多標(biāo)記學(xué)習(xí)改進(jìn)算法
多標(biāo)記學(xué)習(xí)[6]是目前機(jī)器學(xué)習(xí)的重要研究方向。其已經(jīng)成為文本分類(lèi)[7-9]、生物信息學(xué)[10]、圖像視頻自動(dòng)標(biāo)注[11-13]等領(lǐng)域應(yīng)用最為廣泛的算法之一?,F(xiàn)階段,多標(biāo)記學(xué)習(xí)算法已經(jīng)應(yīng)用到入侵檢測(cè)系統(tǒng)[14]中。
W1(xi,σ)=
(1)
(2)
(3)
式中:Ni為具有類(lèi)別cl示例的標(biāo)記集;U為待學(xué)習(xí)樣本集合;Ul為具有類(lèi)別cl的示例集合;α、β分別為局部和全局調(diào)整系數(shù);τ為懲罰臨界值,數(shù)值范圍為[0,1]。
1.2 數(shù)據(jù)采集單元
數(shù)據(jù)采集單元采用Libpcap/TCPdump數(shù)據(jù)包嗅探器作為數(shù)據(jù)采集的工具,它能靈活地獲取網(wǎng)絡(luò)中的數(shù)據(jù)包信息,并對(duì)數(shù)據(jù)包中的信息作簡(jiǎn)要的協(xié)議分析,最終以統(tǒng)一的形式輸出數(shù)據(jù)包信息。下面對(duì)Libpcap及TCPdump的工作機(jī)制作簡(jiǎn)要分析。
Libpcap,即數(shù)據(jù)包捕獲函數(shù)庫(kù)。Libpcap用于對(duì)網(wǎng)絡(luò)端口的掃描,作為數(shù)據(jù)接收機(jī)制。Libpcap中的主要函數(shù)如下。
pcap_lookupdev()
//主要用于查找網(wǎng)絡(luò)設(shè)備。
pcap_open_live()
//主要利用描述字來(lái)操作相應(yīng)設(shè)備要求。
pcap_compile()
//編譯用戶(hù)制定的過(guò)略策略。
pcap_setfilter()
//用于過(guò)濾器的設(shè)置。
pcap_loop()和pcap_dispatch()
//對(duì)數(shù)據(jù)包進(jìn)行捕獲后處理。
pcap_next()和pcap_next_ex()
//可用來(lái)捕獲數(shù)據(jù)包。
pcap_close()
//用于關(guān)閉網(wǎng)絡(luò)設(shè)備,釋放資源。
Libpcap數(shù)據(jù)包捕獲流程如圖2所示。
TCPdump是嗅探軟件,用于截獲網(wǎng)絡(luò)分組,使用Libpcap作為其底層庫(kù),能夠?qū)崟r(shí)監(jiān)控和抓取網(wǎng)絡(luò)上流過(guò)的數(shù)據(jù)包。將TCPdump放在網(wǎng)關(guān)上捕獲通過(guò)網(wǎng)關(guān)的數(shù)據(jù)包信息。捕獲的數(shù)據(jù)保存為T(mén)CPdump格式,這些數(shù)據(jù)經(jīng)過(guò)清洗和預(yù)處理之后,才可以作為模型中多標(biāo)記學(xué)習(xí)改進(jìn)算法的輸入數(shù)據(jù)。
圖2 Libpcap數(shù)據(jù)包捕獲流程圖
1.3 數(shù)據(jù)清洗及預(yù)處理單元
數(shù)據(jù)采集單元采集到的數(shù)據(jù),不能直接用于多標(biāo)記學(xué)習(xí)算法分類(lèi)器的輸入,需要對(duì)捕獲的數(shù)據(jù)進(jìn)行清洗和預(yù)處理。
一般采集到的源數(shù)據(jù)中通常包含一些無(wú)用的噪聲數(shù)據(jù)或者無(wú)關(guān)數(shù)據(jù),因此需要對(duì)其進(jìn)行篩選,借助數(shù)據(jù)的處理來(lái)實(shí)現(xiàn)數(shù)據(jù)的清洗或去除空白數(shù)據(jù)。此外,對(duì)于每一條采集的原始數(shù)據(jù),通常會(huì)包含一些關(guān)聯(lián)性很小的數(shù)據(jù)特征屬性,甚至是沒(méi)有關(guān)聯(lián)的。這些屬性會(huì)增大數(shù)據(jù)分析空間的維度,影響檢測(cè)系統(tǒng)的檢測(cè)實(shí)時(shí)性與效率,最終影響檢測(cè)的準(zhǔn)確性。所以在原始數(shù)據(jù)基礎(chǔ)上采用特征選擇方式,以最大限度減少數(shù)據(jù)特征屬性,進(jìn)而對(duì)檢測(cè)空間維度予以降低。本文選取網(wǎng)絡(luò)連接中的一些關(guān)鍵特征作為學(xué)習(xí)樣本屬性,每個(gè)數(shù)據(jù)連接保留25個(gè)描述特征。
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)符號(hào)化數(shù)據(jù)和數(shù)據(jù)標(biāo)準(zhǔn)化處理。每條數(shù)據(jù)的特征屬性中都包含3個(gè)符號(hào)屬性:protocol-type、service和flag。其中:protocol-type屬性包含tcp、udp和icmp;service包含9種屬性,分別為http、private、urp_i、smtp、ftp_data、ecr_i、domain_u、other、others;flag包含有4種屬性,分別為sf、rej、so、others。為了能將數(shù)據(jù)作為算法的輸入,必須對(duì)數(shù)據(jù)進(jìn)一步處理,將字符型的數(shù)據(jù)進(jìn)行如下定義。
protocol-type:tcp=1,udp=2,icmp=3
service:http=1,private=2,urp_i=3,smtp=4,
ftp_data=5,ecr_i=6,domain_u=7,other=8,others=9
flag:sf=1,rej=2,so=3,others=4
數(shù)據(jù)經(jīng)過(guò)數(shù)值化處理之后,所有的特征屬性均轉(zhuǎn)化為數(shù)值。因?yàn)閿?shù)據(jù)中連續(xù)型的特種屬性均存在差異化的度量標(biāo)準(zhǔn),所以應(yīng)標(biāo)準(zhǔn)化處理數(shù)據(jù)特征屬性,具體變換如下:
(4)
(5)
(6)
經(jīng)過(guò)標(biāo)準(zhǔn)化處理后,所有特征屬性的值在[-1,1]之間,消除了屬性之間度量標(biāo)準(zhǔn)不同的影響,本文使用離差標(biāo)準(zhǔn)化對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行線(xiàn)性變換,使其結(jié)果值在[0,1]之間,其公式如下:
(7)
原始數(shù)據(jù)通過(guò)清洗、預(yù)處理步驟之后可以作為多標(biāo)記學(xué)習(xí)改進(jìn)算法分類(lèi)器的輸入,作為算法的檢測(cè)對(duì)象。對(duì)于訓(xùn)練樣本數(shù)據(jù),數(shù)據(jù)的特征屬性部分處理同樣經(jīng)過(guò)數(shù)據(jù)清洗和預(yù)處理步驟,另外還需要對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)注。本文將正常數(shù)據(jù)標(biāo)記為(+1,-1),其余入侵?jǐn)?shù)據(jù)標(biāo)記為(-1,+1)。數(shù)據(jù)標(biāo)記后則可作為算法的訓(xùn)練樣本。
1.4 入侵檢測(cè)算法單元
將多標(biāo)記學(xué)習(xí)改進(jìn)算法應(yīng)用到入侵檢測(cè)中,應(yīng)當(dāng)根據(jù)入侵檢測(cè)評(píng)價(jià)標(biāo)準(zhǔn)來(lái)改進(jìn)該算法。改進(jìn)算法主要是修改主程序中對(duì)該算法性能評(píng)價(jià)指標(biāo)部分,增加入侵檢測(cè)的評(píng)價(jià)指標(biāo)函數(shù)檢測(cè)率和誤報(bào)率來(lái)驗(yàn)證入侵檢測(cè)的性能。修改之后的算法可以面向入侵檢測(cè)。
多標(biāo)記學(xué)習(xí)算法單元分為示例分化階段和樣本訓(xùn)練階段。
示例分化階段是多標(biāo)記學(xué)習(xí)算法的核心階段,算法在輸入空間中對(duì)樣本示例包含的數(shù)據(jù)信息進(jìn)行深度挖掘。通過(guò)一個(gè)描述數(shù)據(jù)重要度的權(quán)重函數(shù)及自適應(yīng)懲罰策略,最終將輸入空間中單個(gè)樣本示例轉(zhuǎn)化為示例包形式。
示例分化階段將輸入空間的單示例形式化地轉(zhuǎn)化為示例包形式,轉(zhuǎn)化后的數(shù)據(jù)包作為多標(biāo)記學(xué)習(xí)改進(jìn)算法真正學(xué)習(xí)數(shù)據(jù)。
1.5 響應(yīng)及處理單元
當(dāng)算法單元分類(lèi)器檢測(cè)到入侵攻擊行為時(shí),系統(tǒng)會(huì)給出警報(bào)或?qū)粜袨椴扇∫恍┨幚泶胧?,響?yīng)機(jī)制包括以下幾種。
①自動(dòng)終止攻擊。當(dāng)系統(tǒng)檢測(cè)到當(dāng)前網(wǎng)絡(luò)訪(fǎng)問(wèn)連接是一個(gè)攻擊行為時(shí),則會(huì)自動(dòng)命令系統(tǒng)斷開(kāi)當(dāng)前的網(wǎng)絡(luò)連接,不需要外部設(shè)備的支持(如防火墻)。
②與防火墻聯(lián)動(dòng)。當(dāng)系統(tǒng)檢測(cè)到攻擊行為,本身無(wú)法斷開(kāi)攻擊行為的網(wǎng)絡(luò)連接時(shí),系統(tǒng)向防火墻發(fā)出警報(bào),通知防火墻對(duì)連接會(huì)話(huà)進(jìn)行阻斷或切斷,防火墻處理完成后會(huì)進(jìn)行結(jié)果反饋。
③隔離系統(tǒng)。入侵檢測(cè)系統(tǒng)為了避免攻擊行為對(duì)企業(yè)系統(tǒng)的攻擊,會(huì)把系統(tǒng)從網(wǎng)絡(luò)中暫時(shí)隔離。
④通知管理員。如果系統(tǒng)上述響應(yīng)失敗,會(huì)通過(guò)郵件形式向管理員發(fā)出警告或者向管理員平臺(tái)發(fā)出簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(simple network management protocol,SNMP)消息,系統(tǒng)管理員對(duì)警告信息作出應(yīng)急處理。
在設(shè)計(jì)好基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)后,需要將此系統(tǒng)部署到原有系統(tǒng)中,并檢測(cè)入侵?jǐn)?shù)據(jù)。
2.1 數(shù)據(jù)采集
為了全面采集經(jīng)過(guò)系統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù),采集數(shù)據(jù)時(shí),需要把計(jì)算機(jī)網(wǎng)卡的工作模式設(shè)定為混雜模式。采集數(shù)據(jù)抓包工具為Wireshark。使用Libpcap的Windows版本W(wǎng)inpcap作為接口抓取網(wǎng)絡(luò)數(shù)據(jù)。
界面中上部分為包的概要信息,包括采集序列、采集時(shí)間、訪(fǎng)問(wèn)的源地址、目標(biāo)地址、協(xié)議類(lèi)型、包長(zhǎng)等信息。中間部分為包的詳細(xì)信息,包括Frame、Ethernet II、Internet Protocol Version 4、Transmission Control Protocol、Hypertext Transfer Protocol。Frame為物理層數(shù)據(jù)幀概況,Ethernet II為數(shù)據(jù)鏈路層以太網(wǎng)幀頭部信息、Internet Protocol Version 4為網(wǎng)絡(luò)層IP包頭部信息、Transmission Control Protocol為傳輸層的數(shù)據(jù)段頭部信息、Hypertext Transfer Protocol為應(yīng)用層的信息。
采集到的數(shù)據(jù)保存在統(tǒng)一的文件中,并需要對(duì)這些原始數(shù)據(jù)進(jìn)行清洗。原始數(shù)據(jù)包中包含一些網(wǎng)絡(luò)連接特征的連接記錄。針對(duì)入侵檢測(cè)需要的信息對(duì)連接記錄數(shù)據(jù)進(jìn)行特征提取,輸出一條對(duì)應(yīng)的連接記錄,這些記錄包含:時(shí)間戳(timestamp)、持續(xù)連接時(shí)間duration、連接服務(wù)類(lèi)型service、源主機(jī)(src_host)、目標(biāo)主機(jī)(dst_host)、連接狀態(tài)標(biāo)志(flag)等。最終將處理完的數(shù)據(jù)存數(shù)文本數(shù)據(jù)庫(kù)中,作為入侵檢測(cè)系統(tǒng)的輸入數(shù)據(jù)。
2.2 數(shù)據(jù)檢測(cè)
采集到的原始數(shù)據(jù)經(jīng)過(guò)清洗及特征提取后,再經(jīng)過(guò)數(shù)值化和標(biāo)準(zhǔn)化處理后作為檢測(cè)單元的輸入數(shù)據(jù)。檢測(cè)單元讀取文本數(shù)據(jù)庫(kù)中的網(wǎng)絡(luò)數(shù)據(jù)作為輸入。檢測(cè)數(shù)據(jù)是否為入侵行為,系統(tǒng)提供了對(duì)數(shù)據(jù)檢測(cè)的監(jiān)控可視化界面。
數(shù)據(jù)檢測(cè)監(jiān)控界面顯示入侵檢測(cè)系統(tǒng)的檢測(cè)結(jié)果,分別為“正?!?、“異?!焙汀拔刺幚怼比N檢測(cè)參考結(jié)果。針對(duì)未處理的網(wǎng)絡(luò)連接記錄,系統(tǒng)管理員可以通過(guò)手動(dòng)方式判斷其是否為攻擊行為;而對(duì)于異常的數(shù)據(jù),系統(tǒng)會(huì)將此類(lèi)型的攻擊行為添加到樣本庫(kù)中,算法在適當(dāng)?shù)臅r(shí)間通過(guò)新的樣本庫(kù)來(lái)完善分類(lèi)器。
本文針對(duì)企業(yè)信息化系統(tǒng)存在的問(wèn)題,分析了當(dāng)前網(wǎng)絡(luò)安全存在的誤報(bào)和漏報(bào)、海量信息分析代價(jià)大、無(wú)法預(yù)知未知的安全策略?xún)?nèi)容、系統(tǒng)自身安全問(wèn)題等方面,建立基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)模型,并對(duì)該模型進(jìn)行了詳細(xì)設(shè)計(jì)。該數(shù)據(jù)分類(lèi)模型主要包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理和結(jié)果響應(yīng)。在設(shè)計(jì)好基于多標(biāo)記學(xué)習(xí)改進(jìn)算法的入侵檢測(cè)系統(tǒng)后,將該系統(tǒng)部署到原有系統(tǒng)中,并檢測(cè)入侵?jǐn)?shù)據(jù)。數(shù)據(jù)檢測(cè)監(jiān)控界面顯示檢測(cè)結(jié)果,根據(jù)檢測(cè)結(jié)果顯示檢測(cè)參考結(jié)果,展示了該入侵檢測(cè)系統(tǒng)的應(yīng)用價(jià)值。
[1] WENKE L,SALVATORE J.Data mining approaches for intrusion detection[C]//Proceedings of the 7th USENIX Security Symposium San Antonio,1998.
[2] LEE W,STOLFO S J,MOK K W.A data mining framework for building intrusion detection models[C]//Proceedings of the IEEE Symposium on Security & Privacy,1999:120-132.
[3] LEE W,STOLFO S J,ESKIN E,et al.Real Time Data Mining-Based Intrusion Detection[C]// DARPA Information Survivability Conference& Exposition II.2001,89-100.
[4] 牛承珍.關(guān)于入侵檢測(cè)技術(shù)及其應(yīng)用的研究[J].軟件導(dǎo)刊,2010,9(1):142-147.
[5] 楊小健,王杉杉,李榮雨.一種結(jié)合類(lèi)別權(quán)重及多示例的多標(biāo)記學(xué)習(xí)改進(jìn)算法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(4):857-862.
[6] TSOUMAKAS G,KATAKIS I,VLAHAVAS I.Mining multi-label data[M].Data Mining & Knowledge Discovery Handbook,US:Springer,2010:667-685.
[7] LI L,WANG M,ZHANG L,et al.Learning semantic similarity for multi-label text categorization [C]//Chinese Lexical Semantics Lecture Notes in Computer Science,2014:260-269.
[8] JIANG J Y,TSAI S C,LEE S J.FSKNN:multi-label text categorization based on fuzzy similarity and k nearest neighbors[J].Expert Systems with Applications,2012,39(3):2813-2821.[9] 高嘉偉,梁吉業(yè),劉楊磊,等.一種基于Tri-training的半監(jiān)督多標(biāo)記學(xué)習(xí)文檔分類(lèi)算法[J].中文信息學(xué)報(bào),2015,29(1):104-110.
[10]ZHANG M L,ZHOU Z.Multi label neural networks with applications to functional genomics and text categorization[J].IEEE Trans action on Knowledge and Data Engineering,2006,18(10):1338-1351.
[11]WANG C,YAN S,ZHANG L,et al.Multi-label sparse coding for automatic image annotation[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009:1643- 1650.
[12]WU B,LYU S,HU B G,et al.Multi-label learning with missing labels for image annotation and facial action unitrecognition[J].Pattern Recognition,2015,48(7):2279-2289.
[13]YU Y,PEDRYCZ W,MIAO D.Neighborhood rough sets based multi-label classification for automatic image annotation[J].International Journal of Approximate Reasoning,2013,54(9):1373-1387.
[14]錢(qián)燕燕,李永忠,章雷,等.一種多標(biāo)記學(xué)習(xí)入侵檢測(cè)算法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(7):929-933.
[15]ZHOU Z H,ZHANG M L,HUANG S J,et al.Multi-instance multi-label learning[J].Artificial Intelligence,2012,176(1):2291-2320.
StudyontheIntrusionDetectionSystemBasedonImprovedMulti-LabelLearningAlgorithm
TAO WEN1,WANG Shanshan2,LI Rongyu2
(1.College of Mathematics and Information Technology,Jiangsu Second Normal University,Nanjing 210013,China;2.College of Computer Science and Technology,Nanjing Tech University,Nanjing 211816,China)
Considering the problems existing in enterprise information system,the phenomenon of false positives and omission in network safety are analyzed,and many aspects of problems are discussed,such as the high cost of mass information analysis,unpredictable and unknown content of security policy,and own safety of security system,etc.,and the intrusion detection model based on improved multi-label learning algorithm is designed and established.The model mainly consists of the modules for data acquisition,data pre-processing,algorithm detection and response processing,etc.Having been designed the intrusion detection model based on improved multi-label learning algorithm,this system is deployed into the original system,to detect intrusion data; the detection results of the intrusion system are displayed by the monitoring interface.According to the unprocessed network connection records,the system administrators can manually judge whether it is aggressive behavior or not; for the abnormal data,the system will add this kind of aggressive behavior into the sample library.The algorithm will improve the classifier at the right time through the new sample library.Without changing original information system,the model realizes the application of the intrusion detection system.
Multi-label learning; Sample library; Intrusion detection; Class weights; Enterprise information system; Classifier
TH-39;TP309
: A
10.16086/j.cnki.issn1000-0380.201709014
修改稿收到日期:2017-04-06
江蘇省教育廳自然科學(xué)基金資助項(xiàng)目 (12KJB510007)
陶雯(1979—),女,碩士,講師,主要從事人工智能與優(yōu)化方向的研究。E-mail:awen_tao@163.com。