王蘇南+李瀅瀅+王永學(xué)+鄭智華
摘 要: 對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)準(zhǔn)確挖掘?qū)崿F(xiàn)入侵檢測(cè),保障網(wǎng)絡(luò)安全。針對(duì)當(dāng)前的K分布挖掘方法的漏檢率大的問(wèn)題,提出一種基于柯西分布的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘技術(shù)。構(gòu)建網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的柯西分布時(shí)間序列分析模型,采用雙線性Hough變換進(jìn)行入侵?jǐn)?shù)據(jù)的雙曲跳頻分解,得到網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的頻譜特征,對(duì)提取的入侵?jǐn)?shù)據(jù)頻譜特征進(jìn)行柯西分布下的時(shí)頻分析,實(shí)現(xiàn)數(shù)據(jù)挖掘優(yōu)化。最后進(jìn)行仿真測(cè)試,結(jié)果表明,采用該方法進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘的準(zhǔn)確概率較高,抗干擾性能較強(qiáng)。
關(guān)鍵詞: 柯西分布; 網(wǎng)絡(luò)入侵; 數(shù)據(jù)挖掘; 跳頻數(shù)據(jù)
中圖分類號(hào): TN711?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)08?0029?04
Network intrusion frequency hopping data mining technology in Cauchy distribution
WANG Sunan1,2, LI Yingying1,3, WANG Yongxue1, ZHENG Zhihua1
(1. School of Electronic & Communication Engineering, Shenzhen Polytechnic, Shenzhen 518005, China;
2. College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China;
3. College of Optoelectronic Engineering, Shenzhen University, Shenzhen 518005, China)
Abstract: Accurate mining of network intrusion frequency hopping data can achieve intrusion detection and ensure network security. Aiming at the problem of the great detection loss rate of the current K distribution mining method, a network intrusion frequency hopping data mining technology based on Cauchy distribution is proposed to structure the time series data analysis model of Cauchy distribution of the network intrusion frequency hopping data network. The bilinear Hough transform is used for hyperbolic frequency hopping decomposition of intrusion data to get spectrum feature of network intrusion data. The Cauchy distribution time?frequency analysis of the extracted intrusion data spectrum feature is performed to realize data mining optimization. The simulation test results show that the proposed method has high accuracy and high anti?jamming performance for network intrusion frequency hopping data mining.
Keywords: Cauchy distribution; network intrusion; data mining; frequency hopping data
在網(wǎng)絡(luò)信息技術(shù)快速發(fā)展的今天,網(wǎng)絡(luò)安全受到人們的極大關(guān)切,其是人們有效利用網(wǎng)絡(luò)系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)和信息傳輸?shù)谋貍洵h(huán)境條件,網(wǎng)絡(luò)入侵是通過(guò)病毒木馬植入方式進(jìn)行信息竊取和系統(tǒng)攻擊,導(dǎo)致網(wǎng)絡(luò)用戶的系統(tǒng)崩潰和數(shù)據(jù)泄露,影響網(wǎng)絡(luò)用戶的隱私和財(cái)產(chǎn)安全[1?2]。在網(wǎng)絡(luò)入侵中,常見(jiàn)的如拒絕服務(wù)(Denial of Service,DoS)入侵、拖庫(kù)入侵、撞庫(kù)入侵等[3?4],上述入侵方法通過(guò)跳頻數(shù)據(jù)植入,實(shí)現(xiàn)對(duì)用戶信息的竊取或者對(duì)網(wǎng)絡(luò)拒絕服務(wù),網(wǎng)絡(luò)入侵者發(fā)送大量入侵?jǐn)?shù)據(jù)降低用戶的使用性能,導(dǎo)致系統(tǒng)用戶崩潰,需要通過(guò)對(duì)網(wǎng)絡(luò)入侵的跳頻數(shù)據(jù)進(jìn)行有效挖掘,實(shí)現(xiàn)入侵檢測(cè),保障網(wǎng)絡(luò)安全。
1 入侵?jǐn)?shù)據(jù)柯西分布時(shí)間序列分析模型
1.1 網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的狀態(tài)轉(zhuǎn)移特征建模
本文研究的網(wǎng)絡(luò)結(jié)構(gòu)為分布式異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)模型。為了實(shí)現(xiàn)對(duì)分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的準(zhǔn)確挖掘,首先進(jìn)行分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的信號(hào)擬合及時(shí)間序列分析,網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)為一組非線性時(shí)間序列[5],采用信號(hào)擬合方法把分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)擬合為一組寬平穩(wěn)的高斯隨機(jī)狀態(tài)轉(zhuǎn)移模型。首先進(jìn)行分布式異構(gòu)網(wǎng)絡(luò)傳輸數(shù)據(jù)的原始信息采集,假設(shè)網(wǎng)絡(luò)節(jié)點(diǎn)分布結(jié)構(gòu)定義為一個(gè)二元有向圖模型,,網(wǎng)絡(luò)入侵信源為一組多源節(jié)點(diǎn)分布的嚴(yán)平穩(wěn)隨機(jī)模型,在網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)挖掘中,受到網(wǎng)絡(luò)隨機(jī)信息的干擾。干擾項(xiàng)為,其中,。在網(wǎng)絡(luò)環(huán)境中的大數(shù)據(jù)信息干擾下,分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)接收路由單元采集到的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)信號(hào)模型為:
(1)
在柯西分布下,進(jìn)行分布式異構(gòu)網(wǎng)絡(luò)入侵的跳頻數(shù)據(jù)的頻譜檢測(cè),采用最小二乘估計(jì)算法進(jìn)行入侵?jǐn)?shù)據(jù)的柯西特征分解[6],得到網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)序列的跳頻躍遷幅度為:
(2)
采用自適應(yīng)頻譜分離,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的信號(hào)擬合和非線性時(shí)間序列分析,進(jìn)而得到網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的狀態(tài)轉(zhuǎn)移特征方程建模結(jié)果為:
(3)
式中:表示入侵?jǐn)?shù)據(jù)的前期統(tǒng)計(jì)測(cè)量值;表示色噪聲分量。
1.2 柯西分布時(shí)間序列分析模型
在上述進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的狀態(tài)轉(zhuǎn)移特征建模的基礎(chǔ)上,構(gòu)建網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的柯西分布時(shí)間序列分析模型,提取網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)時(shí)間序列有效的主成分特征,進(jìn)行數(shù)據(jù)挖掘算法改進(jìn),通過(guò)自相關(guān)檢驗(yàn)和誤差修正方法進(jìn)行入侵?jǐn)?shù)據(jù)的特征提取,采用自適應(yīng)學(xué)習(xí)方法實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的挖掘[7?8],得到本文設(shè)計(jì)的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘的總體流程如圖1所示。
根據(jù)圖1所示的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘流程,進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的非線性時(shí)間序列分析和特征提取,假設(shè)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)分布特征信息滿足柯西分布為:
(4)
式中,網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的隨機(jī)變量Y服從參數(shù)為λ0的柯西分布,則其概率密度函數(shù)和概率分布函數(shù)如下:
(5)
(6)
設(shè)Y1,Y2,…,YN為Y的一組樣本,此時(shí)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的一階原點(diǎn)矩的數(shù)學(xué)期望和方差為:
(7)
(8)
在柯西分布模型約束下,網(wǎng)絡(luò)入侵時(shí)間序列模型為:
(9)
式中:Ai和τi分別第i個(gè)網(wǎng)絡(luò)路由節(jié)點(diǎn)接收到的入侵?jǐn)?shù)據(jù)的幅度和時(shí)延;A0和τ0分別是幅度和初始入侵時(shí)延,設(shè)Y1,Y2,…,YN為Y的一組樣本。則網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的匹配濾波參數(shù)λ0的矩估計(jì)為:
(10)
式中,m1為Y的樣本一階原點(diǎn)矩,其計(jì)算公式為:
(11)
定義柯西決策變量進(jìn)行分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的時(shí)間序列重構(gòu),在滿足柯西分布下進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的均勻采樣,結(jié)合尺度匹配,構(gòu)建網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的柯西分布時(shí)間序列分析模型,以此為基礎(chǔ)進(jìn)行數(shù)據(jù)挖掘算法設(shè)計(jì)。
2 入侵?jǐn)?shù)據(jù)挖掘改進(jìn)實(shí)現(xiàn)
2.1 入侵?jǐn)?shù)據(jù)的雙曲跳頻分解計(jì)算
在上述進(jìn)行了網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的狀態(tài)轉(zhuǎn)移特征建模和柯西分布時(shí)間序列分析模型構(gòu)建的基礎(chǔ)上,進(jìn)行入侵?jǐn)?shù)據(jù)挖掘改進(jìn)設(shè)計(jì)。為了克服當(dāng)前的K分布挖掘方法存在漏檢率大的弊端,本文提出一種基于柯西分布的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘技術(shù)。在構(gòu)建網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的柯西分布時(shí)間序列分析模型的基礎(chǔ)上,采用雙線性Hough變換進(jìn)行入侵?jǐn)?shù)據(jù)的雙曲跳頻分解,分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)在基函數(shù)集D中的張成子空間描述為:
(12)
式中:為原始的網(wǎng)絡(luò)入侵的波束域直線高速函數(shù);為網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的初始采樣時(shí)間;為頻譜特征伸縮尺度;為混響包絡(luò);為干擾強(qiáng)度。
在柯西分布域中采用雙曲跳頻分解方法進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的最佳尺度匹配,得到分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的頻譜函數(shù)和基底函數(shù)之間的概率密度函數(shù)為:
(13)
計(jì)算出隨機(jī)變量Y的數(shù)學(xué)期望和方差,則得到通過(guò)雙曲跳頻分解后參數(shù)λ0的似然比估計(jì)為:
(14)
采用似然比估計(jì)的方法估計(jì)參數(shù)μ和σ,則可以得到參數(shù)μ和σ的似然比估計(jì):
(15)
(16)
式中,Y服從參數(shù)為(μ,σ)的 Lognormal分布,采用雙線性Hough變換進(jìn)行網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的頻譜特征的跳頻分解,推導(dǎo)柯西分布下的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的跳頻特征概率分布函數(shù),如下:
(17)
由概率分布函數(shù)的性質(zhì),則有:
(18)
令:
(19)
結(jié)合Kv(z)函數(shù)的性質(zhì),采用雙線性Hough變換進(jìn)行入侵?jǐn)?shù)據(jù)的雙曲跳頻分解,可以獲得柯西分布的所有2k階原點(diǎn)矩,則得到入侵?jǐn)?shù)據(jù)的雙曲跳頻分解的計(jì)算結(jié)果為:
(20)
根據(jù)雙曲跳頻分解,利用Kv(z)函數(shù)的性質(zhì)推導(dǎo)柯西分布的2k階原點(diǎn)矩的表達(dá)式,進(jìn)而推導(dǎo)出網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)隨機(jī)變量Y的二階和四階原點(diǎn)矩,實(shí)現(xiàn)頻譜特征提取。
2.2 網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)頻譜特征提取挖掘?qū)崿F(xiàn)
在網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的雙曲跳頻分解的基礎(chǔ)上,采用頻譜特征學(xué)習(xí)和提取模型對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)進(jìn)行挖掘,假設(shè)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)表示為,為了去除原始數(shù)據(jù)的量綱,得到柯西分布下的時(shí)頻分析模型為:
(21)
式中:為初始網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的采樣幅值;為具有相同的均值、方差的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)標(biāo)量時(shí)間序列;為網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的振蕩幅值。
通過(guò)自相關(guān)特征匹配得到網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的特征映射為:,在特征分布空間中進(jìn)行頻譜特征提取,進(jìn)行數(shù)據(jù)挖掘,入侵?jǐn)?shù)據(jù)挖掘的步驟為:
(1) 對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)時(shí)間序列進(jìn)行Fourier變換,得到。
(2) 測(cè)量二階原點(diǎn)矩和四階原點(diǎn)矩,通過(guò)替代數(shù)據(jù)法對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)進(jìn)行振幅隨機(jī)化處理,得到。
(3) 采用基于二階和四階原點(diǎn)矩的柯西分布檢驗(yàn)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的非線性成分,生成替代數(shù)據(jù),對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)序列的替代數(shù)據(jù)求Fourier逆變換,得到。
(4) 生成的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)替代數(shù)據(jù)保留了原始數(shù)據(jù)的指數(shù)分布特征,提取網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)信息流的頻譜主成分特征,進(jìn)行入侵檢測(cè),以匹配濾波器輸出包絡(luò)為基礎(chǔ)的檢測(cè)問(wèn)題,如下:
(22)
(5) 對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的頻譜特征檢測(cè)輸出的結(jié)果在灰度模型中進(jìn)行學(xué)習(xí)訓(xùn)練,以混響包絡(luò)的某個(gè)函數(shù)作為檢驗(yàn)統(tǒng)計(jì)量,檢驗(yàn)統(tǒng)計(jì)量l可以統(tǒng)一表示為以下形式:
(23)
式中,g(x)表示以x為自變量的某個(gè)函數(shù),對(duì)提取的入侵?jǐn)?shù)據(jù)頻譜特征進(jìn)行柯西分布下的時(shí)頻分析,實(shí)現(xiàn)數(shù)據(jù)挖掘優(yōu)化。
3 實(shí)驗(yàn)測(cè)試分析
采用分布式異構(gòu)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的挖掘問(wèn)題為研究對(duì)象進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)建立在Matlab仿真環(huán)境中,硬件環(huán)境為:Intel Core3?530 1 GB內(nèi)存,操作系統(tǒng)為Windows 7,分布式異構(gòu)網(wǎng)絡(luò)的病毒數(shù)據(jù)來(lái)自于MIT林肯實(shí)驗(yàn)室KDD Cup 2015網(wǎng)絡(luò)入侵病毒數(shù)據(jù)庫(kù)。在一個(gè)時(shí)間采樣周期內(nèi)取病毒數(shù)據(jù)庫(kù)中的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)對(duì)分布式異構(gòu)網(wǎng)絡(luò)的服務(wù)層、網(wǎng)絡(luò)組件層和中間件結(jié)構(gòu)層進(jìn)行持續(xù)性攻擊,特征采樣的歸一化初始頻率Hz,特征采樣的終止頻率Hz,網(wǎng)絡(luò)病毒入侵環(huán)境的干擾為色噪聲干擾,強(qiáng)度介于SNR取值-20~10 dB之間,根據(jù)上述仿真環(huán)境,得到不同路由節(jié)點(diǎn)中采集到的原始網(wǎng)絡(luò)傳輸數(shù)據(jù)時(shí)域波形如圖2所示。
以上述采樣的數(shù)據(jù)為研究對(duì)象,進(jìn)行入侵跳頻數(shù)據(jù)挖掘,得到提取的頻譜特征如圖3所示。
由圖3可見(jiàn),采用本文方法入侵?jǐn)?shù)據(jù)挖掘,能有效實(shí)現(xiàn)對(duì)原始傳輸數(shù)據(jù)中的合法數(shù)據(jù)的分離,實(shí)現(xiàn)對(duì)入侵跳頻數(shù)據(jù)特征點(diǎn)的準(zhǔn)確標(biāo)記,數(shù)據(jù)挖掘的準(zhǔn)確性得到保證。在此基礎(chǔ)上,進(jìn)行挖掘性能測(cè)試,為了測(cè)試入侵檢測(cè)的實(shí)時(shí)性,得到數(shù)據(jù)挖掘的時(shí)延誤差迭代曲線見(jiàn)圖4。圖5給出了不同方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確概率ROC圖。
分析圖4和圖5結(jié)果得知:
(1) 采用本文方法進(jìn)行數(shù)據(jù)挖掘,時(shí)延誤差快速收斂到零,保證了數(shù)據(jù)挖掘的實(shí)時(shí)性;
(2) 本文方法進(jìn)行入侵跳頻數(shù)據(jù)挖掘的準(zhǔn)確概率高于傳統(tǒng)方法,且能在信噪比較低的情況下實(shí)現(xiàn)有效挖掘,說(shuō)明抗干擾性能較強(qiáng),且準(zhǔn)確概率收斂到100%,具有很好的可行性。
4 結(jié) 語(yǔ)
為了提高網(wǎng)絡(luò)入侵檢測(cè)能力,本文提出一種基于柯西分布的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘技術(shù),構(gòu)建網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的柯西分布時(shí)間序列分析模型,采用雙線性Hough變換進(jìn)行入侵?jǐn)?shù)據(jù)的雙曲跳頻分解,得到網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的頻譜特征,對(duì)提取的入侵?jǐn)?shù)據(jù)頻譜特征進(jìn)行柯西分布下的時(shí)頻分析,實(shí)現(xiàn)數(shù)據(jù)挖掘優(yōu)化。最后進(jìn)行仿真測(cè)試,結(jié)果表明,采用該方法進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)挖掘的準(zhǔn)確概率較高,抗干擾性能較強(qiáng),具有較好的實(shí)踐價(jià)值。
注:本文通訊作者為李瀅瀅。
參考文獻(xiàn)
[1] KOLHE J P, SHAHEED M, CHANDAR T S, et al. Robust control of robot manipulators based on uncertainty and disturbance estimation [J]. International journal of robust and nonlinear control, 2013, 23(1): 104?122.
[2] LIU Yuntong. k?pruning algorithm for semantic relevancy calculating model of natural language [J]. Journal of theoretical and applied information technology, 2013, 48(3): 231?235.
[3] ZHANG Q, ZHU Q Y, ZHANI M F, et al. Dynamic service placement in geographically distributed clouds [J]. IEEE journal on selected areas in communications, 2013, 31(12): 762?772.
[4] 楊雷,李貴鵬,張萍.改進(jìn)的Wolf一步挖掘的網(wǎng)絡(luò)異常流量檢測(cè)[J].科技通報(bào),2014,30(2):47?49.
[5] 任志剛,趙松云,黃姍姍,等.求解多維背包問(wèn)題的蟻群?拉格朗日松弛混合優(yōu)化算法[J].控制與決策,2016,31(7):1178?1184.
[6] 劉俊,劉瑜,何友,等.雜波環(huán)境下基于全鄰模糊聚類的聯(lián)合概率數(shù)據(jù)互聯(lián)算法[J].電子與信息學(xué)報(bào),2016,38(6):1438?1445.
[7] 黎峰,吳春明.基于能量管理的網(wǎng)絡(luò)入侵防波動(dòng)控制方法研究[J].計(jì)算機(jī)仿真,2013,30(12):45?48.
[8] 滕書(shū)華,魯敏,楊阿峰,等.基于一般二元關(guān)系的粗糙集加權(quán)不確定性度量[J].計(jì)算機(jī)學(xué)報(bào),2014,37(3):649?665.