李金武
(鄭州科技學(xué)院信息工程學(xué)院,河南 鄭州 450064)
多元數(shù)據(jù)由多維不同類型的數(shù)據(jù)組成,數(shù)據(jù)形式多種多樣,且具有多種不同特點(diǎn).多元數(shù)據(jù)存在多個(gè)影響因素,不同影響因素融合為多元[1-2].近年來(lái),隨著大數(shù)據(jù)和網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,各種各樣的數(shù)據(jù)呈指數(shù)形式增長(zhǎng),同時(shí),數(shù)據(jù)在社會(huì)經(jīng)濟(jì)發(fā)展中的作用也越來(lái)越突出.如何在海量數(shù)據(jù)中提取重要信息,將多元數(shù)據(jù)進(jìn)行有效融合,對(duì)多元數(shù)據(jù)進(jìn)行綜合評(píng)價(jià),提高人們決策有效性,已成為人工智能、知識(shí)發(fā)現(xiàn)、自動(dòng)控制、圖像處理等領(lǐng)域研究的熱點(diǎn)問(wèn)題[3].現(xiàn)有的數(shù)據(jù)融合算法主要有D-S 證據(jù)理論、貝葉斯理論、模糊理論和神經(jīng)網(wǎng)絡(luò)等[4-8],每種算法都有其自身優(yōu)缺點(diǎn).
目前針對(duì)信息的不確定性,常采用多元數(shù)據(jù)融合方法進(jìn)行處理,首先建立數(shù)據(jù)評(píng)價(jià)指標(biāo)體系,并對(duì)各個(gè)指標(biāo)進(jìn)行賦權(quán),最后對(duì)各指標(biāo)數(shù)據(jù)進(jìn)行融合評(píng)價(jià).但是,指標(biāo)權(quán)重的確定主觀性較強(qiáng),定性和定量指標(biāo)的統(tǒng)一問(wèn)題少有解決.徐衛(wèi)亞等[4]將D-S 證據(jù)理論與云模型相結(jié)合,引入權(quán)重系數(shù)對(duì)D-S 證據(jù)理論進(jìn)行改進(jìn),將多元數(shù)據(jù)進(jìn)行融合,實(shí)現(xiàn)對(duì)滑坡安全性的綜合評(píng)價(jià).陳雍君等[5]在模糊評(píng)價(jià)基礎(chǔ)上,引入貝葉斯理論,構(gòu)建城市地下綜合管廊運(yùn)維風(fēng)險(xiǎn)指標(biāo)體系,對(duì)其進(jìn)行綜合評(píng)價(jià),并推理各風(fēng)險(xiǎn)指標(biāo)之間因果概率關(guān)系.張武毅等[6]將灰色關(guān)聯(lián)度和模糊層次分析法相結(jié)合,構(gòu)建智慧工程實(shí)驗(yàn)室評(píng)價(jià)指標(biāo)體系,對(duì)智慧工程實(shí)驗(yàn)室進(jìn)行綜合評(píng)價(jià).米慶等[7]整合單一神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì),采用混合神經(jīng)網(wǎng)絡(luò),從不同維度構(gòu)建源代碼可讀性信息評(píng)價(jià)指標(biāo),對(duì)代碼可讀性進(jìn)行量化評(píng)估.張明旺等[8]將云模型不確定性理論引入水庫(kù)泥沙淤積影響的評(píng)價(jià)中,通過(guò)主客觀組合賦權(quán)法確定影響因素指標(biāo)權(quán)重,給出定性評(píng)價(jià)結(jié)論.
傳統(tǒng)的多元數(shù)據(jù)融合方法,在精確數(shù)據(jù)與區(qū)間數(shù)據(jù)的統(tǒng)一表示上,在定性與定量指標(biāo)的統(tǒng)一表示上,還存在缺陷.同時(shí),在進(jìn)行數(shù)據(jù)融合處理和綜合評(píng)價(jià)時(shí),不能很好反映數(shù)據(jù)信息的不確定性,沒有給出有效的定性與定量相結(jié)合的綜合評(píng)價(jià)結(jié)論.本文針對(duì)多元數(shù)據(jù)的統(tǒng)一表示問(wèn)題,引入云模型理論,將不同屬性指標(biāo)統(tǒng)一用云模型表示,使用云模型對(duì)屬性指標(biāo)進(jìn)行賦權(quán),完成多元數(shù)據(jù)定性與定量評(píng)價(jià),驗(yàn)證評(píng)價(jià)方法的合理性.
設(shè)U 是用精確數(shù)值表示的定量論域,C 是該定量論域上的一個(gè)定性概念, 對(duì)于x∈U,x 是C 上的一次隨機(jī)實(shí)現(xiàn),x 關(guān)于C 的確定度μ(x)∈[0,1]是具有穩(wěn)定傾向的隨機(jī)數(shù),則x 在U 上的分布稱為云,x 稱為云滴.
云模型[9]使用3 個(gè)參數(shù)來(lái)描述其定性概念,即期望Ex,熵En 和超熵He.3 個(gè)參數(shù)稱為云模型的數(shù)字特征,記為C(Ex,En,He).其中期望Ex 是論域的正中心,反映了論域空間最能夠代表定性概念的點(diǎn),熵En是定性概念的不確定性度量,反映了概念隨機(jī)性和模糊性之間的關(guān)聯(lián)度,超熵Ee 是熵的不確定性度量,反映了云滴的厚度.
由于正態(tài)分布的普適性,云模型云滴的分布符合正態(tài)分布.對(duì)于云滴x,若滿足x~(Ex,En′),且En′~(En,He),即x 和En′均服從正態(tài)分布,則曲線y(x)=exp[-(x-Ex)2/2En2],稱為云模型期望曲線[9],該期望曲線貫穿整個(gè)云滴,直觀反映了云模型幾何特征,如圖1 所示.在云模型中,不同云滴對(duì)概念貢獻(xiàn)度不同,對(duì)概念有貢獻(xiàn)的云滴大多落在[Ex-3En,Ex+3En]區(qū)間內(nèi),稱為“3En”規(guī)則.
圖1 云模型示意圖Fig.1 Diagram of cloud model
相似度度量,即利用數(shù)學(xué)理論綜合評(píng)定兩事物之間相似性,常應(yīng)用于數(shù)據(jù)挖掘,圖像處理和評(píng)估決策等領(lǐng)域.云模型相似度,即計(jì)算待測(cè)評(píng)對(duì)象云和評(píng)價(jià)等級(jí)云之間的相似度,尋求相似度最大的某個(gè)等級(jí)云,作為定性評(píng)價(jià)結(jié)論.云模型相似度度量方法主要有:云滴距離法(SCM),向量夾角余弦法(LICM),期望曲線法(ECM),最大邊界曲線法(MCM)等.張勇等[10]提出了云滴距離法,通過(guò)計(jì)算兩云模型云滴之間距離來(lái)衡量其相似度,該方法計(jì)算量較大,且相似度閾值難以確定.張光衛(wèi)等[11]提出了向量夾角余弦法,以云模型數(shù)字特征構(gòu)造兩個(gè)特征向量,計(jì)算特征向量夾角余弦值,將其作為云模型相似度,該方法存在一定局限性,在特殊情況下,給出的相似度與實(shí)際不符.李海林等[12]提出了一種期望曲線法,將兩云模型期望曲線與軸所圍面積交集作為計(jì)算依據(jù),給出云模型相似度,該方法計(jì)算復(fù)雜度較高,且沒有考慮超熵對(duì)相似度的影響.同時(shí),在文獻(xiàn)[12]還提出了一種最大邊界曲線法,考慮云模型厚度,以兩邊界曲線重疊面積為依據(jù),計(jì)算云模型相似度.
多元數(shù)據(jù)云模型評(píng)價(jià)方法,基于多元屬性指標(biāo),綜合考慮實(shí)數(shù)型,區(qū)間型和模糊型屬性數(shù)據(jù)特性[13],對(duì)不同屬性數(shù)據(jù)進(jìn)行歸一化處理,并使用云模型統(tǒng)一表示.考慮人們主觀因素對(duì)權(quán)重的影響,依據(jù)層次分析法,確定各屬性云模型權(quán)重,即各屬性權(quán)重同樣使用云模型表示.然后利用云模型計(jì)算規(guī)則生成待評(píng)測(cè)綜合云,并建立五等級(jí)隸屬云標(biāo)尺,采用基于隸屬度的云模型相似度評(píng)價(jià)方法進(jìn)行定性評(píng)價(jià),并依據(jù)云模型定性與定量的不確定性轉(zhuǎn)換關(guān)系,給出定量評(píng)價(jià)結(jié)論,最終完成多屬性數(shù)據(jù)定性與定量相結(jié)合的綜合評(píng)價(jià).評(píng)價(jià)模型如圖2 所示.
圖2 多元數(shù)據(jù)綜合評(píng)價(jià)模型Fig.2 Multivariate data comprehensive evaluation model
2.2.1 數(shù)據(jù)歸一化處理 本文將多元數(shù)據(jù)劃分為實(shí)數(shù)型,區(qū)間型和模糊型3 種類型,并將各類型數(shù)據(jù)區(qū)分為正屬性和負(fù)屬性.正屬性即期望其數(shù)值越大,負(fù)屬性即期望其數(shù)值越小.例如,計(jì)算機(jī)網(wǎng)絡(luò)性能指標(biāo),網(wǎng)絡(luò)帶寬屬于正屬性,網(wǎng)絡(luò)時(shí)延和網(wǎng)絡(luò)丟包率等屬于負(fù)屬性.pi表示實(shí)數(shù)型屬性數(shù)據(jù),[pLi,pRi]表示區(qū)間型屬性數(shù)據(jù),“優(yōu),良,中,差,特差”5 個(gè)等級(jí)表示模糊型屬性數(shù)據(jù).
對(duì)于實(shí)數(shù)型屬性數(shù)據(jù),對(duì)其進(jìn)行歸一化處理如下
對(duì)于區(qū)間型屬性數(shù)據(jù),對(duì)其進(jìn)行歸一化處理如下
式中,maxpi和minpi為實(shí)數(shù)型數(shù)據(jù)理論最大值和最小值,maxpLi和minpLi為區(qū)間型數(shù)據(jù)左端理論最大值和最小值,maxpRi和minpRi為區(qū)間型數(shù)據(jù)右端理論最大值和最小值.
對(duì)于模糊型屬性數(shù)據(jù),其歸一化處理與云化處理同步實(shí)現(xiàn).
2.2.2 數(shù)據(jù)云化處理 數(shù)據(jù)云化處理是將各屬性數(shù)據(jù)統(tǒng)一用云模型Ci(Ex,En,He)表示,方便對(duì)其進(jìn)行不確定性評(píng)價(jià).對(duì)于實(shí)數(shù)型屬性數(shù)據(jù),利用逆向云算法計(jì)算云模型參數(shù),n 個(gè)抽樣樣本pi(i=1,2,3,…,n),計(jì)算則Ex=p,En=(π/2)1/2×B,He=|S2-En2|1/2.對(duì)于區(qū)間型屬性數(shù)據(jù),利用指標(biāo)近似法計(jì)算云模型參數(shù),區(qū)間則根據(jù)評(píng)價(jià)數(shù)據(jù)隨機(jī)性和模型性確定.對(duì)于模糊型屬性數(shù)據(jù),使用“優(yōu),良,中,差,特差”5 個(gè)模糊評(píng)價(jià)值,根據(jù)專家經(jīng)驗(yàn)和基于黃金分割率模型驅(qū)動(dòng)法[14],給出云模型如表1 所示,“優(yōu)”采用半升云描述,“特差”采用半降云描述,其他模糊評(píng)價(jià)值采用完整云描述.
表1 模糊評(píng)價(jià)值云模型Tab.1 Cloud model of fuzzy evaluation
2.2.3 屬性權(quán)重確定 屬性權(quán)重采用層次分析法進(jìn)行確定,傳統(tǒng)層次分析法AHP,是一種系統(tǒng)性的模糊綜合評(píng)價(jià)方法,通過(guò)判斷低層指標(biāo)相較于高層指標(biāo)的重要程度,使用1~9 的數(shù)值標(biāo)度構(gòu)造兩兩比較判斷矩陣,進(jìn)而確定指標(biāo)權(quán)重,該方法容易受到人為主觀因素的影響,導(dǎo)致權(quán)重確定不夠合理[15].本文對(duì)傳統(tǒng)層次分析法進(jìn)行改進(jìn),使用云模型權(quán)重,即對(duì)屬性權(quán)重使用云模型進(jìn)行標(biāo)度,考慮隨機(jī)性和模型性及其之間關(guān)聯(lián)性,主要改進(jìn)方法在于兩兩比較判斷矩陣的構(gòu)造,屬性權(quán)重云模型期望依然使用1~9 的標(biāo)度方法,熵和超熵的標(biāo)度方法重新進(jìn)行定義,改進(jìn)后層次分析法云模型標(biāo)度如表2 所示.利用表2 的標(biāo)度方法構(gòu)造兩兩比較判斷矩陣,進(jìn)行一致性校驗(yàn),確定屬性云模型權(quán)重wi(Ex,en,He).
表2 云模型標(biāo)度含義Tab.2 The scale with cloud model
2.2.4 生成待評(píng)價(jià)對(duì)象云 對(duì)多元屬性數(shù)據(jù)云進(jìn)行一維線性加權(quán)計(jì)算,利用公式(1)生成待評(píng)價(jià)對(duì)象云.
由于采用云模型權(quán)重,待評(píng)價(jià)對(duì)象云三個(gè)數(shù)字特征均采用加權(quán)平均計(jì)算求得.按照以下規(guī)則進(jìn)行云模型乘法和加法運(yùn)算,對(duì)于權(quán)重云W1(Exw1,Enw1,Hew1)和屬性云C1(Ex1,En1,He1)乘法運(yùn)算運(yùn)用公式(2),對(duì)于Cz1(Exz1,Enz1,Hez1)和Cz2(Exz2,Enz2,Hez2)兩個(gè)云的加法運(yùn)算運(yùn)用公式(3)
2.2.5 構(gòu)建隸屬云標(biāo)尺 多元屬性數(shù)據(jù)評(píng)價(jià)云標(biāo)尺分為“優(yōu),良,中,差,特差”5 個(gè)等級(jí),云標(biāo)尺各等級(jí)依舊采用表1 中云模型表示方法,其云標(biāo)尺如圖3 所示.
圖3 多元數(shù)據(jù)評(píng)價(jià)云標(biāo)尺Fig.3 Cloud scale of multivariate data evaluation
2.2.6 定性評(píng)價(jià) 多元數(shù)據(jù)定性評(píng)價(jià),需要計(jì)算待評(píng)價(jià)對(duì)象云與各等級(jí)云相似度,并進(jìn)行比較,找出與待評(píng)價(jià)對(duì)象云相似度最大的等級(jí)云作為定性評(píng)價(jià)結(jié)論.文獻(xiàn)[12]直接基于云模型相交面積計(jì)算其相似度,僅考慮低層次云模型的不確定性,且算法復(fù)雜度較高.本文將相交面積躍升至更高層次,基于基礎(chǔ)云和綜合云的相交面積計(jì)算相似度,綜合云利用基礎(chǔ)云截?cái)囔赜?jì)算得出,文獻(xiàn)[16]給出了詳細(xì)計(jì)算方法,本文不再贅述.假設(shè)云C1和云為C2待計(jì)算相似度基礎(chǔ)云,云Cz為基礎(chǔ)云對(duì)應(yīng)的綜合云,基礎(chǔ)云與綜合云相交面積越大,說(shuō)明基礎(chǔ)云對(duì)綜合云的貢獻(xiàn)度越高,云C1和C2云越接近.以此定義云C1和云C2的相似度為
式(4)中:S1為云C1和云Cz的相交面積,S2為云C2和云Cz的相交面積,Sz為云Cz的面積,S1、S2和Sz
均采用云期望曲線積分計(jì)算給出,方法見文獻(xiàn)[16],不再贅述.
本文將云模型相似度計(jì)算躍升至更高層次,更加注重評(píng)價(jià)過(guò)程的不確定性,體現(xiàn)了云模型亦此亦彼的特性,評(píng)價(jià)結(jié)論合理穩(wěn)定.依據(jù)公式(4)分別計(jì)算待評(píng)價(jià)對(duì)象云與五等級(jí)云相似度,Di(i=1,2,…,5)通過(guò)比較,將與待評(píng)價(jià)對(duì)象云相似度最大的等級(jí)云作為定性評(píng)價(jià)結(jié)論.
2.2.7 定量評(píng)價(jià) 定性評(píng)價(jià)反映了多元數(shù)據(jù)整體特征,而定量評(píng)價(jià)可以用精確數(shù)值表示多元數(shù)據(jù)評(píng)價(jià)結(jié)果,有利于比對(duì)分析.云模型本身可以實(shí)現(xiàn)定性與定量的不確定性轉(zhuǎn)化,本文考慮云模型相似度,提出一種由定性評(píng)價(jià)到定量評(píng)價(jià)轉(zhuǎn)換的方法,給出定量評(píng)價(jià)值,從而實(shí)現(xiàn)多元數(shù)據(jù)定量評(píng)價(jià).在定性評(píng)價(jià)中,找出與待評(píng)價(jià)對(duì)象云相似度較大的兩個(gè)等級(jí)云C1和C2(此處假設(shè)Ex1<Ex2),相似度分別為D1和D2.令則多元數(shù)據(jù)定量評(píng)價(jià)值定義為
以上方式依據(jù)云模型相似度,并考慮“3En”規(guī)則和超熵的影響,待評(píng)價(jià)對(duì)象云與等級(jí)云相似度越大,定量評(píng)價(jià)值越接近該等級(jí)云期望值,傳統(tǒng)方法直接將待評(píng)價(jià)對(duì)象云期望Ex 作為定量評(píng)價(jià)值,本文采用間接方式,保留了多元數(shù)據(jù)評(píng)價(jià)中的不確定性,將計(jì)算方式轉(zhuǎn)換至與評(píng)價(jià)對(duì)象云相似度較大的兩個(gè)等級(jí)云上,并采用均值計(jì)算,減小計(jì)算誤差.
通過(guò)分析某校園網(wǎng)絡(luò)安全態(tài)勢(shì),驗(yàn)證本文多元數(shù)據(jù)融合評(píng)價(jià)方法的有效性.從網(wǎng)絡(luò)運(yùn)行狀態(tài)、脆弱性、風(fēng)險(xiǎn)指數(shù)三方面分析,影響該校園網(wǎng)絡(luò)安全態(tài)勢(shì)的屬性因素有峰值流量、帶寬利用率、CPU 利用率等12 個(gè)屬性指標(biāo),包含實(shí)數(shù)型、區(qū)間型和模糊型三種,同時(shí)又區(qū)分正屬性指標(biāo)和負(fù)屬性指標(biāo).各屬性指標(biāo)數(shù)據(jù)的處理及云模型表示如表3 所示.對(duì)于實(shí)數(shù)型數(shù)據(jù)取多次測(cè)量的平均值;在數(shù)據(jù)歸一化處理時(shí),對(duì)于正屬性數(shù)據(jù),maxpi=1,[maxpLi,maxpRi]=[0.95];對(duì)于負(fù)屬性數(shù)據(jù),minpi=0.1,[minpLi,minpRi]=[0.05,0.30];對(duì)于區(qū)間型數(shù)據(jù),數(shù)據(jù)云模型表示時(shí),He 取0.01.
表3 屬性指標(biāo)數(shù)據(jù)及云模型表示Tab.3 Attribute data and cloud model representation
利用改進(jìn)層次分析法得出表3 中各屬性指標(biāo)的云模型權(quán)重wi=[C(0.1370,0.1641,0.1641),C(0.1381,0.1722,0.1722),C(0.0139,0.0303,0.0303),C(0.0429,0.0580,0.0580),C(0.0219,0.0394,0.0394),C(0.0737,0.0394,0.0394),C(0.0840,0.0576,0.0576),C(0.0226,0.0649,0.0649),C(0.0819,0.0510,0.0510),C(0.0515,0.0877,0.0877),C(0.1490,0.1177,0.1177),C(0.1836,0.1177,0.1177)].利用公式1~3,計(jì)算待評(píng)價(jià)對(duì)象云C(0.6020,0.0892,0.0120), 通過(guò)正向云發(fā)生器算法生成待評(píng)價(jià)對(duì)象云和隸屬云標(biāo)尺,如圖4 所示.
圖4 基于云模型網(wǎng)絡(luò)安全態(tài)勢(shì)Fig.4 Network security situation based on cloud model
利用相似度計(jì)算公式(4),計(jì)算待評(píng)價(jià)對(duì)象云C(0.6020,0.0892,0.0120)與各等級(jí)云“優(yōu),良,中,差,特差”相似度分別為(0.2791,0.4003,0.6037,0.6613,0.3990).由相似度分析,待評(píng)價(jià)對(duì)象云與等級(jí)云“良”的相似度最大,相似度值為0.6613,該網(wǎng)絡(luò)安全態(tài)勢(shì)定性評(píng)價(jià)結(jié)論為“良”.與待評(píng)價(jià)對(duì)象云相似度較大的兩個(gè)等級(jí)云為“良”和“中”,相似度分別為0.6613 和0.6037,“良”的云模型表示C(0.7000,0.0809,0.0162),“中”的云模型表示C(0.5000,0.0500,0.0100),計(jì)算T1=0.7838,T2=0.5606,依據(jù)定量評(píng)價(jià)計(jì)算公式(5),均值計(jì)算該網(wǎng)絡(luò)安全態(tài)勢(shì)定量評(píng)價(jià)值為0.6722,相較直接采用定性評(píng)價(jià)結(jié)論“良”的期望值0.7000 作為定量評(píng)價(jià)結(jié)論,本文的方法更加合理,考慮了評(píng)價(jià)的不確定性.
針對(duì)多元數(shù)據(jù)的融合評(píng)價(jià)問(wèn)題,本文將實(shí)數(shù)型、區(qū)間型和模糊型數(shù)據(jù)統(tǒng)一用云模型表示,提出了基于云模型的多元數(shù)據(jù)評(píng)價(jià)方法.通過(guò)云模型研究各屬性指標(biāo)權(quán)重,改進(jìn)主客觀賦權(quán)法,構(gòu)建各屬性指標(biāo)云模型權(quán)重.利用云模相似度理論對(duì)多元數(shù)據(jù)進(jìn)行定性定量評(píng)價(jià),并實(shí)現(xiàn)定性定量評(píng)價(jià)的不確定性轉(zhuǎn)換.通過(guò)實(shí)例驗(yàn)證分析,該評(píng)價(jià)方法合理有效,優(yōu)化了多元數(shù)據(jù)的融合問(wèn)題.另外,如何將云模型權(quán)重與主客觀賦權(quán)法相結(jié)合,如何優(yōu)化不同屬性指標(biāo)的量化標(biāo)準(zhǔn),還需做進(jìn)一步研究.