周向軍
(廣東省外語(yǔ)藝術(shù)職業(yè)學(xué)院 信息學(xué)院,廣東 廣州 510640)
基于相似度的多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)的聚類(lèi)填充算法設(shè)計(jì)
周向軍
(廣東省外語(yǔ)藝術(shù)職業(yè)學(xué)院 信息學(xué)院,廣東 廣州 510640)
傳統(tǒng)基于概率分布的不完整數(shù)據(jù)聚類(lèi)填充算法,未綜合分析數(shù)據(jù)對(duì)象的類(lèi)別屬性,數(shù)據(jù)填充效率和精度較低。因此,本文提出一種新的聚類(lèi)填充算法,利用近鄰傳播(AP)算法聚類(lèi)不完整數(shù)據(jù),采用元祖相似度算法對(duì)不同類(lèi)別的不完整數(shù)據(jù)實(shí)施填充。通過(guò)數(shù)據(jù)挖掘方法獲取多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)系統(tǒng)中的加權(quán)關(guān)聯(lián)規(guī)則,實(shí)施常規(guī)缺失數(shù)據(jù)的填充,采用數(shù)據(jù)推薦篩選方案實(shí)施元組相似度運(yùn)算,完成異常缺失數(shù)據(jù)的填充,最終獲取完整的云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)集,提高云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)的有效利用率。實(shí)驗(yàn)表明,本文設(shè)計(jì)的聚類(lèi)填充算法具有較高的填充效率和精度。
云計(jì)算網(wǎng)絡(luò);相似度聚類(lèi);元祖相似度算;加權(quán)關(guān)聯(lián)規(guī)則
隨著云計(jì)算網(wǎng)絡(luò)應(yīng)用價(jià)值的逐漸提升,云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)缺失問(wèn)題成為重點(diǎn)研究方向。不完整數(shù)據(jù)使云計(jì)算網(wǎng)絡(luò)終端運(yùn)行異常產(chǎn)生,容易引起采集數(shù)據(jù)全部或部分屬性值缺失,大大降低了云計(jì)算網(wǎng)絡(luò)的數(shù)據(jù)融合以及數(shù)據(jù)挖掘的效率和精度,削弱云計(jì)算網(wǎng)絡(luò)的應(yīng)用價(jià)值[1]。傳統(tǒng)的基于概率分布的不完整數(shù)據(jù)聚類(lèi)填充算法,采用總體數(shù)據(jù)集填充的方式處理不完整數(shù)據(jù),沒(méi)有綜合分析數(shù)據(jù)對(duì)象的類(lèi)別屬性,使得數(shù)據(jù)填充效率和精度較低。相關(guān)學(xué)者已取得一些研究成果。趙亮等[2]提出一種基于分布式減法聚類(lèi)的不完整數(shù)據(jù)填充算法,利用改進(jìn)的減法聚類(lèi)算法對(duì)整個(gè)數(shù)據(jù)集進(jìn)行聚類(lèi),并結(jié)合云計(jì)算技術(shù)對(duì)聚類(lèi)算法進(jìn)行優(yōu)化,該方法填充處理時(shí)間消耗較少,但聚類(lèi)精度較差。李翠霞等[3]提出基于馬氏距離的文本聚類(lèi)算法。該算法在不需要先驗(yàn)知識(shí)的情況下,僅通過(guò)數(shù)學(xué)迭代即可得到聚類(lèi)結(jié)果,具有較高的聚類(lèi)精度,但計(jì)算時(shí)間較長(zhǎng)。為了解決以上問(wèn)題,本文提出基于相似度的多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)的聚類(lèi)填充算法設(shè)計(jì),從多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)集中分析數(shù)據(jù)缺失類(lèi)型,采用加權(quán)關(guān)聯(lián)規(guī)則完成常規(guī)型數(shù)據(jù)缺失的數(shù)據(jù)填充,采用基于元祖相似度的數(shù)據(jù)推薦篩選算法完成異常型缺失的數(shù)據(jù)填充,最終獲取完整的云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)集。
近鄰傳播(Affinity propagation,AP)聚類(lèi)算法中數(shù)據(jù)間的距離可采用任意度量方法。本文先采用AP聚類(lèi)算法對(duì)多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)實(shí)施聚類(lèi),相同的簇里接收同一類(lèi)數(shù)據(jù),根據(jù)對(duì)應(yīng)原則補(bǔ)充缺失數(shù)據(jù),這樣可成功屏蔽其他對(duì)象對(duì)填充值的不利影響,使填充值的精確性得到保障。
AP聚類(lèi)算法是一種在數(shù)據(jù)點(diǎn)之間傳遞吸引度和歸屬度的算法。吸引度表示其它節(jié)點(diǎn)向中心節(jié)點(diǎn)的聚攏程度,節(jié)點(diǎn)k對(duì)節(jié)點(diǎn)i的吸引度是r(i,k),節(jié)點(diǎn)i向節(jié)點(diǎn)k聚攏,節(jié)點(diǎn)k是節(jié)點(diǎn)i的聚攏中心目標(biāo)。歸屬度表示節(jié)點(diǎn)將其它節(jié)點(diǎn)作為中心節(jié)點(diǎn)的可能性。節(jié)點(diǎn)i相對(duì)于對(duì)另一節(jié)點(diǎn)k的歸屬度是a(i,k),節(jié)點(diǎn)k有向節(jié)點(diǎn)i靠近的趨勢(shì),則節(jié)點(diǎn)i可確定為另一節(jié)點(diǎn)k的中心目標(biāo)。
為了不斷提升聚類(lèi)中心的精確度,AP聚類(lèi)算法采用連續(xù)刷新吸引度矩陣R=[r(i,k)]和歸屬度矩陣A=[a(i,k)]完成AP聚類(lèi)算法,吸引度矩陣R的刷新依據(jù)歸屬矩陣以及相似度矩陣的變化,用公式表示為
矩陣A的刷新依據(jù)吸引度矩陣可表示為
式中:點(diǎn)i與點(diǎn)k的相似度為s(i,k);點(diǎn)i對(duì)點(diǎn)k的吸引度是r(i,k);點(diǎn)i對(duì)點(diǎn)k的歸屬度是a(i,k)。如果i=k,則輸入的偏向參數(shù) p(k)設(shè)定s(k,k),隨著p(k)增大,點(diǎn)k成為聚攏中心目標(biāo)的可能性就越大且聚類(lèi)個(gè)數(shù)增多[4];相反,聚類(lèi)個(gè)數(shù)隨著 p(k)的減小而減少。
多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)聚類(lèi),是在AP算法基礎(chǔ)上完成的,具體過(guò)程為:
(1)設(shè)置多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)的數(shù)據(jù)集O由完整數(shù)據(jù)集C以及非完整數(shù)據(jù)集I構(gòu)成。
(2)統(tǒng)一收集對(duì)完整數(shù)據(jù)集C中數(shù)據(jù)進(jìn)行屬性值的離散處理得到的數(shù)值。
(3)對(duì)數(shù)據(jù)集C的所有數(shù)據(jù)對(duì)象進(jìn)行相似度矩陣S的求解。
(4)在式(1)和式(2)的基礎(chǔ)上刷新吸引度R和歸屬度矩陣A,并將吸引度矩陣R以及歸屬度矩陣A設(shè)定為初始狀態(tài)。
(5)當(dāng)完成刷新后聚類(lèi)中心處于穩(wěn)定狀態(tài),終止運(yùn)算[5],以免重復(fù)運(yùn)算。
(6)當(dāng)對(duì)角線值a(k,k)+r(k,k)>0時(shí),數(shù)據(jù)點(diǎn)k會(huì)自發(fā)向聚類(lèi)中心靠攏,而a(i,k)+r(i,k)成為數(shù)據(jù)點(diǎn)i歸屬聚類(lèi)中心的可能性最大。
(7)當(dāng)數(shù)據(jù)集C中數(shù)值屬性處于不間斷狀態(tài)時(shí),相似度的度量系數(shù)α與β可在其對(duì)應(yīng)的簇中運(yùn)算求得。
(8)如果將相似度最高的簇中心選為聚攏中心,也就是式(6)中求出的每個(gè)對(duì)應(yīng)簇中數(shù)據(jù)的相似度,則需要將非完整數(shù)據(jù)集I的全部數(shù)據(jù)分配到相應(yīng)的簇中。
采用AP聚類(lèi)算法對(duì)云計(jì)算網(wǎng)絡(luò)中的數(shù)據(jù)實(shí)施聚類(lèi)后,對(duì)云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)不完整數(shù)據(jù)類(lèi)別進(jìn)行分類(lèi),也就是對(duì)數(shù)據(jù)缺失類(lèi)別實(shí)施分類(lèi)[6]。根據(jù)數(shù)據(jù)是否存在相關(guān)性,劃分成常規(guī)缺失類(lèi)別和異常缺失類(lèi)別。采用加權(quán)關(guān)聯(lián)規(guī)則可完成常規(guī)缺失類(lèi)別數(shù)據(jù)的填充。
本文將云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)集內(nèi)不含缺失值以及含有缺失值的變量(屬性),分別當(dāng)成完整變量以及非完整變量[7]。
設(shè)置A=(Aij)用于描述總體云計(jì)算網(wǎng)絡(luò)數(shù)據(jù),M=(Mij)用于描述缺失模型,Mij用于描述相關(guān)的Aij是否缺失,依據(jù)A的M條件分布描述數(shù)據(jù)缺失模型[8],則有 f(M|A,?),? 用于描述缺失值,A 中的完整變量和非完整變量分別是Aobs以及Amis。數(shù)據(jù)缺失類(lèi)別有:
(1)常規(guī)缺失。若某數(shù)據(jù)的缺失同其它完整屬性值存在一定的關(guān)聯(lián)性,采用完整屬性能夠完成缺失值的預(yù)測(cè),則該種缺失為常規(guī)性數(shù)據(jù)缺失,則有
(2)異常缺失。若某數(shù)據(jù)的缺失同其它屬性間不存在關(guān)聯(lián)性,無(wú)法通過(guò)完整屬性預(yù)測(cè)缺失值,該種缺失則為異常型數(shù)據(jù)缺失,則有
關(guān)聯(lián)規(guī)則的挖掘可塑造數(shù)據(jù)屬性間的關(guān)聯(lián),基于關(guān)聯(lián)規(guī)則可得到數(shù)據(jù)集缺失的數(shù)據(jù)屬性值。本文基于用戶(hù)對(duì)項(xiàng)目的感興趣度不同[9-10],設(shè)置不同項(xiàng)目具有不同的權(quán)重,進(jìn)而增強(qiáng)規(guī)則的價(jià)值度和填充的精度。
用二維表S描述云計(jì)算網(wǎng)絡(luò)的關(guān)系數(shù)據(jù)集D,而含有缺失值的二維表S′用表1描述。
表1 不完整數(shù)據(jù)表S′Tab.1 Incomplete data tableS′
表1中的行稱(chēng)為元組(記錄),列稱(chēng)為屬性,行用于描述各列屬性的可能取值。表S′中的“?”表示屬性存在的缺失值。一個(gè)屬性值稱(chēng)為一個(gè)項(xiàng)目,D內(nèi)全部項(xiàng)目集稱(chēng)為全總項(xiàng)目集,用I={i1,i2,…,ik}描述。各項(xiàng)都是I的一個(gè)子集,則表1中的I可表示成:I={A1=a,A1=b,A1=c,A1=d,A2=a,A2=b,A2=c,A2=d,A2=f,A3=a,…,A3=j,A4=c,A4=d,A4=e,A4=f。W={ω1,ω2,…,ωk}是 I的權(quán)重集,ωj用于描述項(xiàng)目的權(quán)重,同時(shí)存在0≤ωj≤1,j={1,2,…,k}。設(shè)置 X={x1,x2,…,xp},Y={y1,y2,…,yq}是I的子集,同時(shí)存在X∩Y=?,數(shù)據(jù)集D內(nèi)項(xiàng)目集X的支持率以及置信度分別是Support(X)以及Confidence(X)。
設(shè)置項(xiàng)集加權(quán)的支持度是
加權(quán)關(guān)聯(lián)規(guī)則X?Y的支持度是
加權(quán)關(guān)聯(lián)規(guī)則的可信度是
將同時(shí)符合最小加權(quán)支持度以及最小加權(quán)可信度的條件作為加權(quán)關(guān)聯(lián)規(guī)則。
設(shè)置表2中的用戶(hù)檢索規(guī)范是A1=a,用三個(gè)不同的表存放A1=a、A1=?以及剩余元組,在存放A1=a以及剩余元組的標(biāo)準(zhǔn)中實(shí)施關(guān)聯(lián)規(guī)則檢索[11],產(chǎn)生原始規(guī)則集,過(guò)濾掉規(guī)則集中的矛盾規(guī)則后,獲取無(wú)歧義規(guī)則集,在無(wú)歧義規(guī)則集中填充缺失值,則獲取A1的完整元組,實(shí)現(xiàn)數(shù)據(jù)的填充。
其中產(chǎn)生原始規(guī)則集后,挖掘出的規(guī)則為A2=b?A1=a以及 A2=b?A1=b,在 A2=b的情況下,A1需要對(duì)哪個(gè)值實(shí)施填充,應(yīng)通過(guò)加權(quán)關(guān)聯(lián)規(guī)則完成精確填充[12-13]。依據(jù)相關(guān)項(xiàng)目頻率大小設(shè)置權(quán)值,A1=a,A1=b,A2=a,A2=b,A4=c項(xiàng)目權(quán)重分別是0.6、0.3、0.1、0.2以及 0.3?;谑剑?)和(7)運(yùn)算出加權(quán)置信度,進(jìn)而判斷 A2=b?A1=a哪條規(guī)則優(yōu)先等級(jí)更高,則用該規(guī)則填充缺失值,并融入無(wú)歧義規(guī)則集中,最終獲取完整元組,實(shí)現(xiàn)數(shù)據(jù)填充。
本文采用上小節(jié)分析的基于加權(quán)關(guān)聯(lián)規(guī)則填充常規(guī)型缺失類(lèi)別數(shù)據(jù);采用數(shù)據(jù)推薦方案運(yùn)算元組相似度,完成異常缺失類(lèi)別數(shù)據(jù)的填充。
1.5.1 元組相似度的運(yùn)算 相似矩陣是基于元組相似度運(yùn)算組建的,依據(jù)目標(biāo)元組集合確定相似元組,也就是與目標(biāo)元組有同類(lèi)項(xiàng),但可能出現(xiàn)缺失值[14]。本文分別從確定相似元祖以及相似矩陣的運(yùn)算兩方面對(duì)目標(biāo)元組的缺失值實(shí)施填充。
采用余弦相似度計(jì)算法求得兩個(gè)元組的相似度。用N(u)以及N(v)分別表示記錄u和v全部的非空項(xiàng)集,則u和v的余弦相似度運(yùn)算式
其中A1是填補(bǔ)表1中ID9屬性值,在總數(shù)據(jù)表中確定ID9的同類(lèi)項(xiàng)元組,基于該元組塑造項(xiàng)目元組順序表,用表2描述。
表2 項(xiàng)目-元組的排列表Tab.2 List of items tuples
基于表2塑造一個(gè)4×4的矩陣,用式(9)描述,該矩陣的主對(duì)角線用于描述元組的關(guān)聯(lián)[15],本文設(shè)置其值是0。如果元組中存在同類(lèi)項(xiàng),則每?jī)身?xiàng)間增加1。以 A2=d為例,在元組中存在ID9、ID12、ID14,在矩陣中每?jī)身?xiàng)增加1,則有
根據(jù)式(9)得到相似矩陣,式(9)形成的初始矩陣是式(8)的分支,再實(shí)施下一步的運(yùn)算得到相似矩陣為
分析式(10)可得,ID12是與ID9最相似的元組,如果ID12中沒(méi)有A1屬性值,則再查看ID14的屬性值。
1.5.2 異常缺失數(shù)據(jù)填充算法過(guò)程 基于元組相似度的數(shù)據(jù)填補(bǔ)方法的關(guān)鍵是建立相似矩陣,如算法1所示。
算法1 ArrayGen HinlcaRoq
Input:不完整數(shù)據(jù)集D
Output:完整數(shù)據(jù)集 D′
第一步:設(shè)置排列表S為項(xiàng)目元組
設(shè)置數(shù)組A為同類(lèi)項(xiàng)組
For various Characteristics in D
If Characteristics not zero
For various Array benchmark
If Array.Characteristics==Characteristics Array ID->A,A->S
第二步:初始化矩陣
設(shè)置矩陣M為空項(xiàng)狀態(tài)
For various Characteristics in S
If Id in S M[x][y]++
第三步:得到相似矩陣
For various engineer in D
For various engineer in M
//T(ID(x))T(ID(y))非缺失屬性個(gè)數(shù)
M[x][y]=M[x][y]/T(ID(x))×T(ID(y))
第四步:補(bǔ)充缺失值
For various engineer in M
If M[x][y] is max and engineer.Characteristicsnot zero D Characteristics=engineer.Characteristics
將某云計(jì)算網(wǎng)絡(luò)數(shù)字圖書(shū)館采集的數(shù)據(jù)集當(dāng)成實(shí)驗(yàn)數(shù)據(jù)集[16]。實(shí)驗(yàn)數(shù)據(jù)集的數(shù)據(jù)對(duì)象是個(gè),各數(shù)據(jù)對(duì)象擁有30個(gè)屬性。
通過(guò)聚類(lèi)精度評(píng)估聚類(lèi)效果,聚類(lèi)精度為
式中:ωk用于描述聚類(lèi)后的第k個(gè)集;cj用于描述數(shù)據(jù)實(shí)際分類(lèi)后的第 j個(gè)集。
(1)任意從原始數(shù)據(jù)集P內(nèi)采集不同比例的數(shù)據(jù)對(duì)象,將這些數(shù)據(jù)中的局部屬性值去掉,獲取不完整數(shù)據(jù)集O和相對(duì)不完整數(shù)據(jù)C,結(jié)合得到的數(shù)據(jù)集,考察數(shù)據(jù)缺失率對(duì)AP算法精度的影響,如圖1描述。
圖1 不同數(shù)據(jù)缺失率下的數(shù)據(jù)聚類(lèi)精度對(duì)比Fig.1 Comparison of data clustering accuracy under different data loss rates
分析圖1可得,AP聚類(lèi)算法對(duì)相同原始數(shù)據(jù)集P實(shí)施多次聚類(lèi),結(jié)果一致,精度始終為85%。對(duì)C實(shí)施聚類(lèi)過(guò)程中,呈現(xiàn)波動(dòng)變化,平均聚類(lèi)精度也都在80%以上。對(duì)不完整數(shù)據(jù)集O實(shí)施聚類(lèi)過(guò)程中,精確度下降明顯。主要是因?yàn)椋跀?shù)據(jù)不存在缺失的情況下,數(shù)據(jù)P完成較高水平聚類(lèi),不存在波動(dòng)。對(duì)不完整數(shù)據(jù)進(jìn)行聚類(lèi)過(guò)程中,由于抽取過(guò)程呈現(xiàn)周期性,因此,得到的結(jié)果也成周期性波動(dòng),與事實(shí)符合,一旦存在較大程度缺失,會(huì)呈現(xiàn)明顯的下降趨勢(shì)。
(2)從原始數(shù)據(jù)集內(nèi)采集不同數(shù)量的數(shù)據(jù)對(duì)象組成7個(gè)數(shù)據(jù)集,從這些數(shù)據(jù)集內(nèi)任意采集8%的數(shù)據(jù)對(duì)象,將數(shù)據(jù)中的局部屬性去掉,獲取7個(gè)不完整數(shù)據(jù)集O和5個(gè)不完整數(shù)據(jù)C,獲取不同數(shù)據(jù)量下AP的聚類(lèi)精度,用圖2描述。
圖2 不同數(shù)據(jù)對(duì)象量下的聚類(lèi)精度對(duì)比Fig.2 Comparison of clustering accuracy under different data objects
分析圖2可得,隨著數(shù)據(jù)量逐漸提升,對(duì)C實(shí)施聚類(lèi)的精度略微降低,但整體聚類(lèi)精度高于83%,是一種精度較高的聚類(lèi)算法。AP聚類(lèi)算法對(duì)O的聚類(lèi)精度比C低,但是也在50%以上,在嚴(yán)重缺少局部可識(shí)別的屬性下,聚類(lèi)也能滿(mǎn)足一定的精度。說(shuō)明在相似度的判斷下,缺少的局部數(shù)據(jù)屬性可以得到較好的補(bǔ)充,彌補(bǔ)了在屬性缺失情況下,造成的聚類(lèi)中心選取弊端。
檢測(cè)本文算法在不同環(huán)境下的運(yùn)行結(jié)果如圖3所示。數(shù)據(jù)量不斷增加情況下,本文算法在兩種環(huán)境下的運(yùn)行時(shí)間都不斷增加。并且在單節(jié)點(diǎn)的運(yùn)行時(shí)間隨著數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)提升,在云計(jì)算網(wǎng)絡(luò)平臺(tái)的運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)低于單節(jié)點(diǎn)運(yùn)行時(shí)間,在數(shù)據(jù)對(duì)象數(shù)目達(dá)到6.5萬(wàn)個(gè)時(shí),算法的聚類(lèi)時(shí)間仍小于0.7 h。說(shuō)明本文算法在處理云計(jì)算網(wǎng)絡(luò)中的大數(shù)據(jù)具有較高的效率。
圖3 算法并行執(zhí)行時(shí)間Fig.3 Parallel algorithm running time
利用符合指數(shù)d2分析本文算法的數(shù)據(jù)填充精度。d2可檢測(cè)實(shí)際值同估測(cè)值間的相似度
式中:n用于描述全部缺失值;ri用于描述第i行缺失值的實(shí)際值;ei用于描述第i行缺失值的預(yù)測(cè)值;R用于描述實(shí)際值的均值;E用于描述預(yù)測(cè)值ei(i=1,2,…,N)的均值。d2值越高,預(yù)測(cè)值同實(shí)際值越一致。
從原始數(shù)據(jù)集P內(nèi)任意采集不同缺失比例的數(shù)據(jù),將這些數(shù)據(jù)中的局部屬性值去掉,得到不完整數(shù)據(jù)集O。實(shí)驗(yàn)對(duì)比分析本文算法、分布式減法聚類(lèi)算法以及廣義馬氏聚類(lèi)算法,在不同缺失率情況下的數(shù)據(jù)填充精度,結(jié)果用圖4描述。
圖4 算法在不同缺失率下的填充精度對(duì)比Fig.4 Comparison of filling accuracy at different loss rates
分析圖4可得,隨著數(shù)據(jù)缺失率不斷增加,三種算法的數(shù)據(jù)填充精度均降低,本文算法始終保持較高的填充精度,在數(shù)據(jù)缺失率大于15%后,隨著缺失數(shù)據(jù)量的增加,其他兩種方法的填充精度出現(xiàn)了大幅度下降,但是本文算法始終保持平穩(wěn),對(duì)缺失率較高的數(shù)據(jù)集仍然具有較好的填充精度。
從原始數(shù)據(jù)集內(nèi)采集不同數(shù)量的數(shù)據(jù),獲取不同數(shù)量的數(shù)據(jù)集。從這些數(shù)據(jù)集內(nèi)任意采集9.5%的數(shù)據(jù)對(duì)象,將其局部屬性去掉,得到7個(gè)不完整數(shù)據(jù)集O。分別采用三種算法對(duì)不同的數(shù)據(jù)集O進(jìn)行聚類(lèi)填充,結(jié)果如圖5。隨著數(shù)據(jù)量的不斷增加,三種算法的填充精度也不斷降低。當(dāng)數(shù)據(jù)量高于5.5萬(wàn)個(gè),則隨著數(shù)據(jù)量的逐漸提升,分布式減法聚類(lèi)算法和廣義馬氏聚類(lèi)算法的填充精度呈現(xiàn)顯著降低趨勢(shì),而本文算法的填充精度始終高于82%,說(shuō)明本文算法填充云計(jì)算網(wǎng)絡(luò)中的大規(guī)模數(shù)據(jù),具有較高的優(yōu)勢(shì)。
圖5 不同算法在不同數(shù)據(jù)對(duì)象數(shù)量下的填充精度對(duì)比Fig.5 Comparison of filling accuracy of different algorithms under different number of data objects
本文設(shè)計(jì)基于相似度的多類(lèi)別不完整云計(jì)算網(wǎng)絡(luò)的聚類(lèi)填充算法,先采用AP算法對(duì)不完整數(shù)據(jù)實(shí)施聚類(lèi)后,再采用基于元祖相似度的不完整數(shù)據(jù)填充算法,對(duì)不同類(lèi)別的不完整數(shù)據(jù)實(shí)施填充,實(shí)驗(yàn)發(fā)現(xiàn),本文所提算法在數(shù)據(jù)對(duì)象數(shù)目由0~6.5萬(wàn)個(gè)下,聚類(lèi)精度始終在85%以上,且在數(shù)據(jù)對(duì)象數(shù)目達(dá)到6.5萬(wàn)個(gè)時(shí),算法的聚類(lèi)時(shí)間仍小于0.7小時(shí),極大提高了云計(jì)算網(wǎng)絡(luò)數(shù)據(jù)填充的效率和精度。
[1]康英健,馬蕾.基于量子群聚類(lèi)的云存儲(chǔ)調(diào)度執(zhí)行開(kāi)銷(xiāo)建模[J].科技通報(bào),2015,31(8):87-89.
[2]趙亮,陳志奎,張清辰.基于分布式減法聚類(lèi)的不完整數(shù)據(jù)填充算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(7):1409-1414.
[3]李翠霞,譚營(yíng)軍,孔金生.基于馬氏距離的文本聚類(lèi)算法在自動(dòng)閱卷系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2015,23(4):80-82.
[4]廉文武,傅凌玲,黃潮.云計(jì)算環(huán)境下數(shù)據(jù)弱關(guān)聯(lián)挖掘模型的仿真[J].計(jì)算機(jī)仿真,2015,32(4):359-362.
[5]ZHANG Q,CHEN Z.A weighted kernel possibilistic cmeans algorithm based on cloud computing for clustering big data[J].International Journal of Communication Systems,2015,27(9):1378-1391.
[6]馬華,胡志剛,張紅宇,等.云計(jì)算環(huán)境下可信服務(wù)的個(gè)性化推薦框架[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(5):967-972.
[7]WANG K,TAN J J,PAN N.Application of improved ant colony algorithm in the network cloud data clustering and intrusion detection[J].Applied Mechanicsamp;Materials,2015,713-715:2431-2434.
[8]樊同科.云環(huán)境下基于MapReduce的用戶(hù)聚類(lèi)研究與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2016,24(10):35-37.
[9]潘少明,李紅,湯戈.云計(jì)算下的空間統(tǒng)計(jì)數(shù)據(jù)點(diǎn)云聚類(lèi)壓縮算法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,42(4):64-67.
[10]衛(wèi)波,王晉東,張恒巍,等.基于加權(quán)多屬性云的服務(wù)信任評(píng)估方法[J].計(jì)算機(jī)應(yīng)用,2014,34(3):678-682.
[11]ZHANG S M,ZHAO S,WANG B Y.Research of power load curve clustering algorithm based on cloud computing and quantum particle swarm optimization[J].Power System Protectionamp;Control,2014,42(21):93-98.
[12]冷泳林,陳志奎,張清辰,等.不完整大數(shù)據(jù)的分布式聚類(lèi)填充算法[J].計(jì)算機(jī)工程,2015,41(5):19-25.
[13]徐達(dá)宇,楊善林,羅賀,等.基于廣義模糊軟集理論的云計(jì)算資源需求組合預(yù)測(cè)研究[J].中國(guó)管理科學(xué),2015,23(5):56-64.
[14]王興茂,張興明,吳毅濤,等.基于啟發(fā)式聚類(lèi)模型和類(lèi)別相似度的協(xié)同過(guò)濾推薦算法[J].電子學(xué)報(bào),2016,44(7):1708-1713.
[15]曾志,周永福,杜震洪,等.云環(huán)境下基于Entropy-KNN算法的節(jié)點(diǎn)選擇策略[J].浙江大學(xué)學(xué)報(bào)(理學(xué)版),2015,42(3):359-364.
[16]鄭倫川.云計(jì)算機(jī)環(huán)境資源配置技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(7):24-28.
Clustering filling algorithm design based on similar multiple categories and incomplete cloud computing network
ZHOU Xiangjun
(School of Informatics,Guangdong Teachers College of Foreign Language and Arts,Guangzhou 510640,China)
The traditional incomplete data filling algorithm based on probability distribution clustering is not able to be used to comprehensively analyze the objects’data,due to the low filling efficiency and accuracy.Therefore,a kind of cluster filling algorithm was put forward by using affinity propagation(AP)algorithm clustering incomplete data and filling different categories’incomplete data into Yuan Zuxiang algorithm.Computing weighted association rules in network system through the data mining,filled the routine missing data,data recommendation filtering scheme is used to calculate similarity.Then,abnormal missing data is filled and,finally the complete cloud computing data is obtained.Experimental results show that the clustering filling algorithm designed in this paper has higher filling efficiency and accuracy.
cloud computing network;similarity clustering;similarity calculation;weighted association rules
June 29,2017)
TP311
A
1674-1048(2017)04-0298-07
10.13988/j.ustl.2017.04.011
2017-06-29。
廣東省外語(yǔ)藝術(shù)職業(yè)學(xué)院科研團(tuán)隊(duì)資助基金項(xiàng)目(2014KYTD03)。
周向軍(1971—),男,廣東汕頭人,副教授。