李 菲,梁振宇
(1.中國人民武裝警察部隊遼寧省總隊,遼寧 沈陽 110000;2.沈陽大學(xué)建筑工程學(xué)院,遼寧 沈陽 110000)
電子通信網(wǎng)絡(luò)具有多線程性,用戶在不斷地交換、傳輸數(shù)據(jù)流的過程中,會產(chǎn)生大量的冗余流量或數(shù)據(jù)碎片,這些冗余的數(shù)據(jù)流會不斷增加存儲負(fù)擔(dān),降低網(wǎng)絡(luò)速度。因此,消除電子通信中數(shù)據(jù)流的冗余是十分必要的,目前,它在信息技術(shù)領(lǐng)域受到了廣泛的關(guān)注,是現(xiàn)階段的研究熱點之一。
文獻(xiàn)[1]為減少測試變異數(shù),縮短測試運行時間,研究了變異測試優(yōu)化技術(shù),提出了基于數(shù)據(jù)流分析的冗余變異概念和冗余變異識別方法。通過11 C程序?qū)υ摲椒ǖ目尚行院陀行赃M(jìn)行了分析,但由于過于注重數(shù)據(jù)之間的相關(guān)性,容易忽略網(wǎng)絡(luò)環(huán)境的約束,影響冗余數(shù)據(jù)關(guān)聯(lián)規(guī)則的準(zhǔn)確性,增加冗余數(shù)據(jù)的誤判率,降低了消除效率。文獻(xiàn)[2]冗余消除方法是將數(shù)據(jù)分割成數(shù)據(jù)塊。該方法需要建立一個基于冗余數(shù)據(jù)特征的關(guān)系空間,將切割后的數(shù)據(jù)片段輸入到該空間中,然后利用特征關(guān)系屬性找到與冗余特征相關(guān)的數(shù)據(jù)塊,最后逐個剔除,完成對冗余數(shù)據(jù)的清理。但是,由于需要對所有的數(shù)據(jù)逐一進(jìn)行剪切,任務(wù)龐大,目標(biāo)范圍過大。對于數(shù)據(jù)量大的網(wǎng)絡(luò)環(huán)境,會出現(xiàn)冗余干擾等現(xiàn)象,降低了消除效率。
本文基于上述問題,提出一種多線程電子通信網(wǎng)絡(luò)數(shù)據(jù)流冗余量消除方法。
網(wǎng)絡(luò)信息環(huán)境下數(shù)據(jù)特征具有相似性,在剔除冗余數(shù)據(jù)時,特征相似的數(shù)據(jù)往往會導(dǎo)致多重分類處理的現(xiàn)象,容易產(chǎn)生錯誤,影響剔除的準(zhǔn)確性。此時,有必要對具有相似特征的數(shù)據(jù)進(jìn)行查找和分類,有助于提高后續(xù)冗余數(shù)據(jù)流消除的速度,減少相似性對消除過程的干擾,提高整體效率。
分類前需要提取數(shù)據(jù)的特征,并采用假設(shè)和主動抽樣的方法提取數(shù)據(jù)的特征,并以計算出的特征值作為判斷依據(jù)來確定相似數(shù)據(jù)。
首先,假設(shè)對初始數(shù)據(jù)進(jìn)行采樣的所有樣本合集數(shù)目為N,則樣本合集的最大類別表示為Nmax;最小類別表示為Nmin,基于此可引出,當(dāng)包含初始數(shù)據(jù)的最大類別的樣本合集數(shù)量多于最小類別的樣本數(shù)量時,可表示為Nmax?Nmin,設(shè)ρl為每類數(shù)據(jù)樣本集合中的分類密度特征[5],計算公式為
ρl=Ml/K(l=1,2,…,Nmin)
(1)
其中,K表示活躍在數(shù)據(jù)特征空間中,且最符合歐式距離關(guān)系的鄰近數(shù)據(jù)值[6-7],Ml表示包含此鄰近數(shù)據(jù)值K的最大類別的特征樣本合集,以此可以準(zhǔn)確判斷出ρl∈[0,1],與其相關(guān)的分類密度ρl可表示為
(2)
假設(shè),第p個數(shù)據(jù)特征的樣本集合在第j次提取表現(xiàn)時的特征目標(biāo)數(shù)值為dpj,輸出數(shù)值為ypj(τ),根據(jù)此關(guān)系,推導(dǎo)出符合約束條件的數(shù)據(jù)特征表達(dá)式為
(3)
其中,τ表示數(shù)據(jù)進(jìn)行多次迭代的次數(shù)[8],n表示最終輸出的特征數(shù)據(jù)數(shù)量,m表示最后一個樣本訓(xùn)練合集包含數(shù)據(jù)的數(shù)量,根據(jù)數(shù)據(jù)迭代的所有次數(shù)將其表示為
w(τ+1)=w(τ)+ηΔw(τ)+α(w(τ)-w(τ-1))
(4)
其中,η表示數(shù)據(jù)迭代的效率,α表示基于相似特征的動態(tài)變量因子[9],根據(jù)式(4)進(jìn)行數(shù)據(jù)提取時的特征收縮量表示為[10]
(5)
式中,φpj(τ)表示輸入初始數(shù)據(jù)的總數(shù)目,o(τ)表示輸出相似特征數(shù)據(jù)的總數(shù)目,以此為基礎(chǔ),完成基于網(wǎng)絡(luò)大環(huán)境下的相似性數(shù)據(jù)特征提取。
設(shè)含有正常數(shù)據(jù)的訓(xùn)練樣本集合表示為Nh,線性激勵函數(shù)表達(dá)關(guān)系為g(x),包含相似特征數(shù)據(jù)的樣本表示為(xq,tq),且符合以下約束條件
xq=[xq1,xq2,xq3,…,xqn]T∈Rn
(6)
tq=[tq1,tq2,tq3,…,tqm]T∈Rm
(7)
根據(jù)上述兩種公式關(guān)系,可建立最終的相似性特征數(shù)據(jù)的提取公式如下
(8)
其中,f表示相似數(shù)據(jù)的數(shù)量。
基于相似特征數(shù)據(jù)的有效提取,采取數(shù)據(jù)動態(tài)特性的頻譜分析法對其進(jìn)行有效分類。
冗余數(shù)據(jù)的特征會呈現(xiàn)一種離散狀態(tài)[11],根據(jù)此特性建立相關(guān)分析公式,設(shè)數(shù)據(jù)采集空間關(guān)于時間的關(guān)系為z=z0,其冗余數(shù)據(jù)特征在空間內(nèi)的離散狀態(tài)表示為
S+(zm)=W+(zm,z0)S+(z0)
(9)
其中,W+(zm,z0)表示空間內(nèi)時間點z0到zm的特征分類的數(shù)據(jù)算子,S+(z0)表示冗余數(shù)據(jù)的分類合集,在進(jìn)行有效分類時,可以通過減去前M階級再進(jìn)行逐一分類,M階級前的分類處理結(jié)果為
p(z0)S+(z0)
(10)
其中,p(z0)表示初始數(shù)據(jù),t(z0)表示冗余數(shù)據(jù)的關(guān)鍵特征。
假設(shè),f0表示原始數(shù)據(jù)的離散動態(tài)頻率,冗余數(shù)據(jù)的分類處理結(jié)果為
(11)
基于上述過程,利用頻譜關(guān)系[12]的線性分析法可以得到最終的適應(yīng)函數(shù),能實現(xiàn)對大量冗余數(shù)據(jù)的分類,其表示為
F=XmaxA+(1-Xmax)B
(12)
其中,A表示分類精準(zhǔn)度,B表示消除的比例,對此實現(xiàn)加權(quán)操作,得出最終分類處理結(jié)果
(13)
基于上述步驟可完成最終的冗余數(shù)據(jù)分類方法,為后續(xù)消除處理打下良好基礎(chǔ)。
根據(jù)上述過程中相似特征數(shù)據(jù)的計算和分類,可以根據(jù)相似特征閾值快速確定數(shù)據(jù)的離散狀態(tài),在一定程度上保證了后續(xù)冗余數(shù)據(jù)流搜索和消除的效率。
利用網(wǎng)絡(luò)環(huán)境中冗余數(shù)據(jù)的動態(tài)變化特性和更新狀態(tài),進(jìn)行實時跟蹤記錄,標(biāo)記網(wǎng)絡(luò)中字節(jié)頻率變化最大的數(shù)據(jù)流,實時觀察其變化情況,并且所有數(shù)據(jù)流狀態(tài)表現(xiàn)最相似的數(shù)據(jù)都可以判斷為冗余數(shù)據(jù),從而完成多線程電子通信,查找網(wǎng)絡(luò)中所有冗余數(shù)據(jù)流的具體操作步驟如下。
1)首先,假設(shè)在多線程電子通信網(wǎng)絡(luò)中有256種不同類別的冗余數(shù)據(jù)流,且在實時狀態(tài)下出現(xiàn)的頻率為[p0,p1,p2,…,p255],而在這之中,所有數(shù)據(jù)流的字節(jié)值在初始時表現(xiàn)的不同狀態(tài)的概率為[f0,f1,f2,…,f255],挑選在其中表現(xiàn)狀態(tài)不同的字節(jié)值表示為x0,x1,x2,…,x255,并將其進(jìn)行串聯(lián)合并就可得到
(14)
此公式代表,挑選出的所有經(jīng)過標(biāo)記后的冗余數(shù)據(jù)的出現(xiàn)概率都要小于且等于此數(shù)值1/p。
(15)
其中,fi表示動態(tài)查找的最大限度值,且利用greedy算法,對此公式進(jìn)行求解即可得到離散狀態(tài)下的實時冗余數(shù)據(jù)位置。該算法的計算特征是不考慮整體的數(shù)據(jù)情況,只以其中某一個測量點為選擇重點,進(jìn)行計算,在一定程度上可減少耗用時間,增強查找效率。
利用加權(quán)算法對冗余數(shù)據(jù)進(jìn)行有效消除,步驟如下所示:
首先,建立冗余數(shù)據(jù)消除空間,然后將上述過程中發(fā)現(xiàn)的冗余數(shù)據(jù)放入空間,實時跟蹤記錄冗余字節(jié)值的數(shù)量和頻率,并對冗余頻率不同的數(shù)據(jù)片段進(jìn)行加權(quán)和集成,以去除重復(fù)數(shù)據(jù)片段。具體步驟如下:
假設(shè),在對冗余數(shù)據(jù)進(jìn)行統(tǒng)計計算時,將標(biāo)記的首個字節(jié)為A的冗余數(shù)據(jù)片段的左右距離表示為L,其中,挑選左右距離為L的有效數(shù)據(jù)片段,表示為LS。這時如果選中前一位數(shù)據(jù),后一位就會被覆蓋,此時就需要進(jìn)行消除處理,步驟如圖1所示。
圖1 重復(fù)覆蓋數(shù)據(jù)處理流程
在實際的網(wǎng)絡(luò)冗余數(shù)據(jù)消除過程中,其數(shù)據(jù)流在離散狀態(tài)下的貢獻(xiàn)頻率為
(16)
式中,cA表示重復(fù)冗余數(shù)據(jù)的修正頻率。
處理重復(fù)數(shù)據(jù)后,通過隨機映射的方式將冗余數(shù)據(jù)包與正常數(shù)據(jù)包進(jìn)行交換,設(shè)BF為隨機映射函數(shù),長度為m,其網(wǎng)絡(luò)代碼的二進(jìn)制數(shù)目為q,e表示隨機映射合集。當(dāng)將其輸入至冗余數(shù)據(jù)空間時,可以通過映射檢測得出其中的比特元素編碼,該編碼可以對冗余數(shù)據(jù)實現(xiàn)有效替換,它們的替換關(guān)系表示為
p≈(1-e-qn/m)q
(17)
其中,n表示替換元素。為了有效保證冗余數(shù)據(jù)替換消除的時效性,需要選取距離長度為m=2.5MB的二進(jìn)制數(shù)據(jù)編碼,可以在最大程度上實現(xiàn)冗余數(shù)據(jù)的消除。
在多線程電子通信網(wǎng)絡(luò)中對冗余量的整體消除流程下所示。
圖2 冗余數(shù)據(jù)的消除流程
為了確認(rèn)多線程電子通信網(wǎng)絡(luò)中冗余消除過程的有效性,采用數(shù)據(jù)配置為Intel XeonE3-1230V2的終端服務(wù)器,4核配置的CPU處理器,8G內(nèi)存,128G固態(tài)硬盤等作為實驗工具。采取某地區(qū)的三種電子通信網(wǎng)絡(luò),將其引入大小為70.2GB的流量包,進(jìn)行冗余數(shù)據(jù)的特征和查找以及最后的消除,確保實驗環(huán)境的可實施性。
將文獻(xiàn)[1]和文獻(xiàn)[2]方法與本文進(jìn)行對比分析,保證實驗結(jié)果的真實性及合理性,其網(wǎng)絡(luò)環(huán)境及流量參數(shù)如表1所示。
表1 實驗環(huán)境及流量參數(shù)
挑選表1中的1號和5號大范圍跟蹤數(shù)據(jù)作為實驗背景,其目標(biāo)范圍較大,可以保證實驗的直觀性。通過三種方法分別對兩種跟蹤數(shù)據(jù)下的所有冗余數(shù)據(jù)進(jìn)行消除,得出實驗的字節(jié)數(shù)據(jù)節(jié)省空間對比結(jié)果如圖3所示。
圖3 跟蹤數(shù)據(jù)1號的字節(jié)數(shù)據(jù)節(jié)省空間
從圖3和圖4的對比分析結(jié)果可以看出,無論在哪種流量環(huán)境下,基于本文的冗余數(shù)據(jù)消除方法的字節(jié)節(jié)省率都要高于其它兩種算法30GB以上。其它兩種方法中,字節(jié)節(jié)省率曲線呈現(xiàn)出波動大、狀態(tài)不穩(wěn)定的下降趨勢。這主要是因為它過于依賴冗余數(shù)據(jù)的特征屬性,而忽略了原始數(shù)據(jù)造成的冗余干擾。數(shù)據(jù)之間的相似性會導(dǎo)致多次分類處理無果的現(xiàn)象,導(dǎo)致離散狀態(tài)的冗余數(shù)據(jù)頻繁出現(xiàn),無法消除或殘存,數(shù)據(jù)完整性較差,從而降低了準(zhǔn)確率和效率。但是因為本文方法在搜索和消除冗余數(shù)據(jù)之前,該方法首先計算并分類原始數(shù)據(jù)相關(guān)特征的相似度,可以有效地對特征相似數(shù)據(jù)進(jìn)行區(qū)分,而不存在冗余干擾,從而減少后續(xù)消元過程中的判斷誤差,提高整體準(zhǔn)確度,保證消元過程的有效實施。
圖4 跟蹤數(shù)據(jù)5號的字節(jié)數(shù)據(jù)節(jié)省空間
以表1中的4號跟蹤數(shù)據(jù)作為實驗背景。通過三種方法分別對兩種跟蹤數(shù)據(jù)下的所有冗余數(shù)據(jù)進(jìn)行消除,得出消除過程的整體加速比指標(biāo)的對比結(jié)果如圖5所示。
圖5 跟蹤數(shù)據(jù)4號的加速比對比
加速比表示基于同一項目任務(wù)的任意兩種處理系統(tǒng)的數(shù)據(jù)運行耗用與時間消耗的比值,其表達(dá)公式如下所示
(18)
式中,p表示CPU耗用數(shù)量;T1表示整體耗用時間;Tp表示任務(wù)處理時整體耗用的時間。
從圖5的對比分析結(jié)果可以看出,使用本文方法的加速比曲線整體走勢平緩,穩(wěn)定性較強,
表明消除過程耗用時間較少,速度較快,可以降低網(wǎng)絡(luò)的延遲性,改善數(shù)據(jù)儲存問題。
1)對原始數(shù)據(jù)進(jìn)行特征相似度搜索和分類的預(yù)處理,可以有效地改善原始數(shù)據(jù)造成的冗余干擾和處理的惡性循環(huán),加速比最高可達(dá)8,大幅提高后續(xù)的消除效率和處理難度。
2)采用數(shù)據(jù)替換的方法可以有效地消除冗余數(shù)據(jù)流量,同時又不破壞數(shù)據(jù)的原有特性,保證數(shù)據(jù)的完整性,高于其它兩種算法30GB以上,可以節(jié)省大量的網(wǎng)絡(luò)空間,優(yōu)化多線程電子通信網(wǎng)絡(luò)。