黃 雯,胡 強(qiáng),任志考
(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
隨著云計(jì)算、大數(shù)據(jù)等新一代信息技術(shù)與先進(jìn)制造技術(shù)的融合,云制造作為一種新的模式應(yīng)運(yùn)而生[1]。在云制造環(huán)境下,資源提供方將自身?yè)碛械募庸ぴO(shè)備資源或制造能力通過(guò)虛擬化、服務(wù)化的方式發(fā)布到云制造平臺(tái)[2]。用戶可以在平臺(tái)中尋找所需要的云制造服務(wù),通過(guò)租用這些云制造服務(wù)來(lái)實(shí)現(xiàn)超出自身制造能力的業(yè)務(wù)需求,以一種低成本代價(jià)的方式彌補(bǔ)業(yè)務(wù)制造能力的不足,從而提高企業(yè)競(jìng)爭(zhēng)力。
相比普通云服務(wù),云制造服務(wù)的屬性參數(shù)數(shù)量更多,參數(shù)的取值類型較為豐富,不僅有短文本類型的功能描述,也有數(shù)值型的工藝屬性參數(shù)。在同一類云制造服務(wù)中,不同屬性的取值通常也會(huì)跨越多個(gè)數(shù)量級(jí)。在查找云制造服務(wù)時(shí),不僅要考慮服務(wù)的功能描述,也要同時(shí)兼顧制造工藝參數(shù)屬性值的約束,因此,從大量功能相似的云制造服務(wù)中發(fā)現(xiàn)適合用戶需求的云制造服務(wù)難度大、效率低。
服務(wù)聚類可將服務(wù)按照功能的相似性劃分為若干個(gè)簇,縮減搜索空間,有效提高服務(wù)查找速度[3]。目前,直接以云制造服務(wù)作為聚類對(duì)象相關(guān)研究成果仍然較少,有關(guān)工作主要關(guān)注制造設(shè)備或資源的聚類,例如,高新勤等對(duì)k-means算法進(jìn)行改進(jìn),提出了基于相似度的加工設(shè)備云服務(wù)聚類方法,利用可拓論建立了服務(wù)請(qǐng)求與云服務(wù)類簇的物元模型,實(shí)現(xiàn)服務(wù)供給與服務(wù)請(qǐng)求的快速匹配[4]。辜振譜等將馬氏距離引入到密度峰值聚類算法的密度中心測(cè)定中,基于改進(jìn)密度峰值聚類算法實(shí)現(xiàn)航空發(fā)動(dòng)機(jī)故障診斷,所提出算法在故障特征的分類與識(shí)別上均優(yōu)于K均值聚類和模糊C均值聚類[5]。郝予實(shí)等提出基于場(chǎng)景識(shí)別的云制造服務(wù)推薦模型,該模型重構(gòu)服務(wù)組合描述的功能信息,對(duì)服務(wù)組合進(jìn)行應(yīng)用場(chǎng)景的服務(wù)聚類,為各場(chǎng)景建立加權(quán)庫(kù)進(jìn)行服務(wù)推薦,該方法在推薦效果上有很大提升[6]。
以K-means++、層次聚類等為代表的聚類方法因?qū)崿F(xiàn)簡(jiǎn)單且聚類效果良好而得到廣泛應(yīng)用,但這些方法多適用于線性分布的數(shù)據(jù)樣本空間。云制造服務(wù)存在多個(gè)維度的功能和屬性特征描述,且這些特征描述所采用的數(shù)據(jù)類型種類較多,數(shù)據(jù)取值差異大,因此,云制造服務(wù)在聚類時(shí)構(gòu)成非線性數(shù)據(jù)樣本空間,上述聚類算法在對(duì)云制造服務(wù)聚類時(shí)效果不理想,算法容易陷入局部最優(yōu)。為了更高質(zhì)量地實(shí)現(xiàn)云制造服務(wù)聚類,選取能夠識(shí)別任意形狀樣本空間且能快速收斂于全局最優(yōu)解的譜聚類算法作為云制造服務(wù)聚類算法。
為了充分利用云制造服務(wù)所擁有的多維屬性約束信息來(lái)提高聚類質(zhì)量,本文提出一種基于改進(jìn)譜聚類的云制造服務(wù)聚類算法。針對(duì)文本型和數(shù)值型服務(wù)屬性參數(shù),分別構(gòu)建相似度計(jì)算方法,并提出一種適用于文本型和數(shù)值型相似度矩陣融合函數(shù),實(shí)現(xiàn)云制造服務(wù)多維屬性相似度的融合計(jì)算,引入服務(wù)相似矩陣的本征間隙確定聚類個(gè)數(shù),提高譜聚類的聚類數(shù)量確定的合理性,進(jìn)而實(shí)現(xiàn)高質(zhì)量的云制造服務(wù)聚類。
云制造服務(wù)S定義為三元組S={n,SF,SQ}, 其中,n為服務(wù)的名稱,SF表示服務(wù)的功能屬性集合,SQ表示服務(wù)的非功能屬性集合。
不同類型的云制造服務(wù)在工藝流程、制造參數(shù)和性能上存在差異,難以統(tǒng)一給出SF和SQ的具體屬性參數(shù)組成,通常情況下,有關(guān)工藝流程和制造參數(shù)方面的屬性在SF中刻畫,SQ則由云制造服務(wù)性能層面的屬性組成,以某服務(wù)商提供的輪胎結(jié)構(gòu)加工服務(wù)為例,SF和SQ的構(gòu)成參數(shù)見表1。
表1 輪胎結(jié)構(gòu)加工服務(wù)信息
云制造服務(wù)描述中,各類屬性的取值通??梢詣澐譃槲谋拘秃蛿?shù)值型兩類。文本型屬性主要包含加工對(duì)象、功能描述、類別、隸屬行業(yè)、材質(zhì)等信息的描述,這些屬性值中既有段落級(jí)別的短文本,也有單個(gè)名詞或詞組。為精確地獲取服務(wù)的功能語(yǔ)義,本文采用GSDMM對(duì)段落級(jí)短文本信息提取主題向量,對(duì)于單個(gè)名詞或詞組,則采用Word2Vec生成對(duì)應(yīng)的文本向量,然后利用上述向量求解對(duì)應(yīng)屬性的相似度,將所有文本型屬性相似度的平均值作為兩個(gè)服務(wù)之間的文本型屬性的最終相似度。
對(duì)于屬性值為單詞或組詞的文本屬性,利用Word2vec生成詞向量。Word2vec分為兩種模型:CBOW和Skip-Gram,本文采用Skip-Gram模型,Skip-Gram模型是通過(guò)特定詞來(lái)預(yù)測(cè)上下文,生成詞向量[7]。Skip-Gram模型定義詞出現(xiàn)概率p(wo|wc), 其計(jì)算方法參見式(1)
(1)
式中:wo,wc分別代表上下文詞和中心詞,vc表示中心詞的詞向量,uo代表上下文詞的詞向量,ui表示除中心詞以外第i個(gè)單詞的詞向量,V表示全體詞庫(kù)。Skip-Gram模型訓(xùn)練函數(shù)如式(2)所示
(2)
此處,c是上下文窗口大小。
對(duì)于段落級(jí)別短文本描述的屬性值,采用GSDMM生成描述文本的主題向量。GSDMM模型是一種無(wú)監(jiān)督主題概率模型,該模型基于狄利克雷混合模型(DMM)生成文檔,然后采用吉布斯采樣(Gibbs Sampling)求解模型[8],能夠快速獲取文本集中每個(gè)文本的潛在主題。GSDMM模型中由文檔得到主題的概率為式(3)
(3)
(3)對(duì)文檔集中的所有文檔初始化完成后,得到K個(gè)屬于不同主題的集合,且每個(gè)文檔只屬于一個(gè)主題。
(5)重復(fù)步驟(4),直到i大于最大迭代次數(shù)。
在為段落級(jí)文本屬性值生成向量時(shí),首先借助Python工具包對(duì)文本進(jìn)行分詞、去停用詞、還原詞干等操作,通過(guò)GSDMM為每個(gè)段落級(jí)別的短文本屬性值生成一個(gè)主題向量。再利用Word2Vec和GSDMM將全部文本類型的屬性值生成對(duì)應(yīng)的向量后,可通過(guò)余弦夾角公式計(jì)算兩個(gè)服務(wù)對(duì)應(yīng)屬性文本值之間的相似度,兩個(gè)服務(wù)最終的文本屬性值相似度定義為所有服務(wù)所有文本屬性值相似度的均值,具體參見定義1。
定義1TA={t1,t2,…,tn} 和VTA={vt1,vt2,…,vtn} 分別是云制造服務(wù)si和sj的文本屬性集合與屬性值對(duì)應(yīng)的文本向量集合,即?ti∈TA,vti為ti對(duì)應(yīng)的屬性文本值生成的向量,si和sj的文本屬性值相似度定義為
(4)
表2給出5個(gè)云制造服務(wù)的文本型屬性,在依據(jù)文本類型的屬性值生成對(duì)應(yīng)的向量后,參考定義1計(jì)算兩個(gè)服務(wù)的文本型屬性相似度,構(gòu)建了云制造服務(wù)的文本型相似度矩陣SM_T
表2 云制造服務(wù)文本型屬性信息
表3給出表2中5個(gè)云制造服務(wù)所對(duì)應(yīng)的數(shù)值型屬性,為了能夠使用這些參數(shù)進(jìn)行服務(wù)聚類,首先對(duì)這些參數(shù)按照類別采用“最大-最小標(biāo)準(zhǔn)化”方式進(jìn)行歸一化。歸一化后的各個(gè)屬性參數(shù)值均在區(qū)間[0,1]內(nèi),兩個(gè)服務(wù)的數(shù)值型屬性相似度計(jì)算方法參見定義2。
表3 云制造服務(wù)數(shù)值型屬性信息
定義2si和sj是一組云制造服務(wù)中的兩個(gè)服務(wù),NA={t1,t2,…,tn} 和NNA={nt1,nt2,…,ntn} 分別是服務(wù)si和sj的數(shù)值型屬性集合與屬性值對(duì)應(yīng)的歸一化數(shù)值集合,即?ti∈NA,nti為ti對(duì)應(yīng)的歸一化后的屬性值,si和sj的數(shù)值型屬性值相似度定義為
(5)
從定義2可知,兩個(gè)服務(wù)的數(shù)值型屬性之間的相似度通過(guò)融合冪指函數(shù)的歐式距離計(jì)算得到。在計(jì)算時(shí),首先將屬性值進(jìn)行了歸一化,然后將歸一化后的屬性值作為樣本數(shù)據(jù),利用歐式距離公式計(jì)算兩個(gè)服務(wù)的歐式距離。由于歐氏距離的值越小,樣本數(shù)據(jù)越相似,因此引入冪指函數(shù)將歐式距離正向映射為服務(wù)之間的數(shù)值型屬性相似度。
利用表3中的5個(gè)服務(wù)的數(shù)值型屬性,構(gòu)建了服務(wù)s1~s5的服務(wù)-數(shù)值型屬性矩陣(SNA_M),將其歸一化后可得矩陣SNA_NM,利用定義2可以計(jì)算獲得服務(wù)s1~s5的數(shù)值型屬性相似度矩陣SM_N
為了能夠使用譜聚類算法對(duì)云制造服務(wù)進(jìn)行聚類,需要將云制造服務(wù)的文本型屬性相似度矩陣SM_T與數(shù)值型屬性相似度矩陣SM_N進(jìn)行融合,構(gòu)建云制造服務(wù)相似度矩陣SM。本文構(gòu)建如式(6)所示的矩陣融合函數(shù)實(shí)現(xiàn)SM_T與SM_N的融合
(6)
算法1給出了如何求解云制造服務(wù)集合中兩個(gè)服務(wù)相似度的算法。第(1)行獲取集合S中的服務(wù)個(gè)數(shù),以及該服務(wù)集合中服務(wù)的屬性數(shù)量。算法(2)至(8)行,分別獲取服務(wù)的每一個(gè)屬性,通過(guò)valtype()函數(shù)判定屬性的類型。若屬性值為短文本類型則采用GSDMM為其訓(xùn)練文本向量,若屬性值為單詞或詞組,則采用Word2Vec生成單詞的向量;若屬性值為數(shù)值型,則對(duì)該集合中所有服務(wù)進(jìn)行屬性值的歸一化。算法第(9)至(14)行用于構(gòu)建服務(wù)的文本型屬性相似度矩陣SM_T和數(shù)值型服務(wù)相似度矩陣SM_N。對(duì)于給定服務(wù)si和sj,在進(jìn)行文本型屬性相似度和數(shù)值型屬性相似度計(jì)算時(shí),分別采用定義1中的TS(si,sj) 和定義2中的NS(si,sj)。 算法第(15)行利用式(6)實(shí)現(xiàn)文本型屬性相似度矩陣SM_T和數(shù)值型服務(wù)相似度矩陣SM_N的融合,最終返回集合S中服務(wù)的相似度矩陣SM。
算法1:CAL_ServiceSim
輸入:the set of Cloud serviceS
輸出:Service similarity matrixSM
(1)m=|S|,n=|S.TA|+|S.NA|;
(2)fori=1 tom
(3)fori=1 ton
(4)ifthe valtype(ti) is a word or phrase, trainvtiby Word2Vec;
(5)ifthe valtype(ti) is short text, trainvtiby GSDMM;
(6)ifthe valtype(ti) is numerical value, normalized it to getnti;
(7)endfor
(8)endfor
(9)fori=1 tom
(10)forj=1 tom
(11) compute theTS(si,sj) and build the similarity matrix for text-type attributesSM_T;
(12) compute the NS(si,sj) and build the similarity matrix for numeric attributesSM_N;
(13)endfor
(14)endfor
(15)generate service similarity matrixSMbased onSM_TandSM_Nby formula (6);
(16)returnSM;
本節(jié)為云制造服務(wù)中文本型和數(shù)值型屬性分別建立了相似度計(jì)算方法,在此基礎(chǔ)上設(shè)計(jì)了一種多維度屬性相似度融合策略,實(shí)現(xiàn)了云制造服務(wù)相似度的計(jì)算,全面有效刻畫云制造服務(wù)資源間的差異性,從而更精確地實(shí)現(xiàn)聚類。
譜聚類算法是從譜圖劃分理論演化而來(lái)的,譜聚類算法可以歸納為以下3個(gè)步驟:①構(gòu)造數(shù)據(jù)集的相似矩陣;②計(jì)算矩陣的特征值和特征向量;③利用聚類算法對(duì)特征向量進(jìn)行聚類。
分布式能源行業(yè)能效高、低排放、技術(shù)密集決定了其投資高,再加上承擔(dān)園區(qū)供熱管網(wǎng)建設(shè),以及主要設(shè)備燃機(jī)屬高端制造業(yè),國(guó)產(chǎn)化進(jìn)程有待時(shí)日,行業(yè)投資高于燃煤發(fā)電。
傳統(tǒng)的譜聚類算法能夠?qū)?shù)據(jù)進(jìn)行較為精確的聚類,但仍有很多不足之處[9]。例如,在第(1)步構(gòu)造相似矩陣時(shí),通常采用高斯核函數(shù)來(lái)確定相似矩陣,相關(guān)參數(shù)需要人為設(shè)置,并需反復(fù)調(diào)試才能確定最優(yōu)值。在第(3)步中需要人為指定聚類個(gè)數(shù),造成聚類數(shù)量受人為主觀因素影響較大。
針對(duì)上述問題,在算法1中提出了一個(gè)多維屬性相似度計(jì)算與融合方法,提出了一種適用于云制造服務(wù)的相似度矩陣構(gòu)建方法,解決了傳統(tǒng)高斯核函數(shù)在計(jì)算云制造服務(wù)相似度時(shí)的不足。本節(jié)引入本征間隙來(lái)確定聚類的個(gè)數(shù),彌補(bǔ)傳統(tǒng)譜聚類算法中人為確定聚類數(shù)量的不足。根據(jù)矩陣的擾動(dòng)理論,計(jì)算數(shù)據(jù)之間的本征間隙,自動(dòng)計(jì)算聚類個(gè)數(shù)。
在云制造服務(wù)相似矩陣SM基礎(chǔ)上構(gòu)建度矩陣D,在度矩陣D中,對(duì)角線元素的值為相對(duì)應(yīng)行的元素值總和,非對(duì)角線元素上的值為0。在度矩陣的基礎(chǔ)上參照文獻(xiàn)[16]中的式(11)構(gòu)造規(guī)范型拉普拉斯矩陣L
假設(shè)規(guī)范型拉普拉斯矩陣L存在n個(gè)特征值λ=[λ1,λ2…λn], 對(duì)上述求得的特征值按由大到小進(jìn)行排序,排序后的特征值為λsort=[λ1≥λ2≥…≥λn], 上述L對(duì)應(yīng)的λ和λsort分別為
λ=[0,0.789 626 48,0.887 051 8,0.858 900 5,0.848 123 38]
λsort=[0.887 051 8,0.858 900 5,0.848 123 38,0.789 626 48,0]
本征間隙序列定義為 {g1,g2,…,gn-1|gi=λi-λi+1}, 在序列中尋找第一個(gè)極大值gi,該值的索引i為聚類的個(gè)數(shù)k[10]
g=[0.028 151 3,0.010 777 12,0.058 496 9,0.789 626 48]
上述序列中第一個(gè)極大值為g3,g3-g1>0,g3-g2>0,g3-g4<0,第一個(gè)極大值所對(duì)應(yīng)的索引為3,所以聚類個(gè)數(shù)k為3。在此基礎(chǔ)上,構(gòu)建融合多維屬性相似度的云制造服務(wù)譜聚類算法,具體參見算法2。
算法2:FMA_SC
輸入:Cloud manufacturing service similarity matrixSM;
(1) construct degree matrixDforSM
(2) compute canonical Laplace matrixL
(3) obtain the eigenvalues of normalized Laplacian matrix
(4) sort the eigenvalues byλ1≥λ2≥…≥λn
(5)fori=1 ton-1
(6) compute eigengap sequencegi=λi-λi+1
(7)endfor
(8)fori=1 ton
(9) find the first argmin {gi-gj,j0&gi-gi+1<0}
(10)endfor
(11) assign the number of clusterskasi
(12) calculate the firstkmaximum eigenvectors [Xi,X2,…,Xk]
(13) cluster eigenvectors [Xi,X2,…,Xk] by K-means++
(14) returnkservice clusters
算法2中第(1)行計(jì)算云制造服務(wù)相似度矩陣SM的度矩陣D。度矩陣D對(duì)角線上元素的值D(i,i) 為服務(wù)相似度矩陣SM第i行元素之和,其余元素設(shè)置為0。第(2)行到第(3)行構(gòu)建規(guī)范拉普拉斯矩陣并計(jì)算出該矩陣的特征值。第(4)行將特征值按由大到小進(jìn)行排序。第(5)行到第(7)行,計(jì)算本征間隙序列 {g1,g2,…,gn-1|gi=λi-λi+1}。 第(8)行到第(11)行在本征間隙序列中尋找第一個(gè)極大值gi,該值所對(duì)應(yīng)的索引i為聚類的個(gè)數(shù)k。第(12)行計(jì)算前k個(gè)特征值對(duì)應(yīng)的特征向量,構(gòu)造特征向量矩陣。第(13)到第(14)行對(duì)向量矩陣采用K-Means++算法進(jìn)行聚類,得到k個(gè)服務(wù)類簇。
從航天云網(wǎng)、卡奧斯工業(yè)互聯(lián)網(wǎng)平臺(tái)等知名云服務(wù)平臺(tái)爬取有關(guān)制造加工類服務(wù)2215條,從中選擇1892條數(shù)據(jù)描述較為完備的云制造服務(wù)用于實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)機(jī)器配置采用i7-8750H處理器,Windows10操作系統(tǒng),16 GB內(nèi)存,利用PyCharm程序進(jìn)行編寫。采用聚類評(píng)價(jià)中的常用指標(biāo)CH、SC、NMI、FMI作為本文服務(wù)聚類實(shí)驗(yàn)的性能評(píng)估指標(biāo),相關(guān)指標(biāo)定義參見文獻(xiàn)[11]。所有實(shí)驗(yàn)均開展10輪次,取所有輪次實(shí)驗(yàn)的平均值作為最終聚類效果的對(duì)比值[12]。
本文方法FMA-SC對(duì)比了4種近年來(lái)發(fā)表的譜聚類改進(jìn)算法,在構(gòu)建的數(shù)據(jù)集上進(jìn)行聚類,通過(guò)上述4種指標(biāo)對(duì)比算法的性能。
(1)NHASC算法[13]:一種適用于非線性高維數(shù)據(jù)的譜聚類算法,將數(shù)據(jù)映射到隨機(jī)特征空間,把非線性數(shù)據(jù)映射為非線性數(shù)據(jù),然后使用譜聚類算法進(jìn)行聚類,解決非線性高維數(shù)據(jù)的聚類問題。
(2)SC_SD算法[14]:一種自適應(yīng)譜聚類算法,避免樣本點(diǎn)的局部尺度參數(shù)受噪音點(diǎn)的影響,將樣本的鄰域標(biāo)準(zhǔn)差作為譜聚類的局部尺度參數(shù),構(gòu)建服務(wù)相似矩陣進(jìn)行聚類。
(3)SCTSCI算法[15]:提出了一種混合型數(shù)據(jù)的度量方式,構(gòu)造尺度參數(shù)自適應(yīng)的核函數(shù)來(lái)構(gòu)建相似矩陣,并在譜聚類中運(yùn)用集成K-means算法增加算法穩(wěn)定性。
(4)FITS-MSC算法[16]:設(shè)計(jì)了一種細(xì)粒度相似性融合策略來(lái)獲得最終的一致性親和矩陣。在融合過(guò)程中,探索了局部視圖間和全局視圖內(nèi)的權(quán)重關(guān)系,采用稀疏子空間聚類來(lái)構(gòu)造初始相似矩陣。
圖1中的CH指標(biāo)和圖2中SC指標(biāo)是聚類內(nèi)部評(píng)價(jià)指標(biāo),從聚類的中心點(diǎn)距離、內(nèi)部結(jié)構(gòu)凝聚度等層面對(duì)服務(wù)聚類的質(zhì)量進(jìn)行評(píng)價(jià)。從圖1中數(shù)據(jù)可以看出,本文算法FMA-SC的CH指標(biāo)得分值顯著優(yōu)于NHASC、SC_SD和FITS-MSC算法,文獻(xiàn)[15]中的SCTSCI算法得分值略高于FMA-SC算法。此外,從圖2中的數(shù)據(jù)可以看出,本文方法在SC評(píng)價(jià)指標(biāo)獲取的分?jǐn)?shù)得到大幅提高,從分值上看,文獻(xiàn)[16]中的FITS-MSC算法的得分值最高,略優(yōu)于本文方法。此外,本文算法SCTSCI性能優(yōu)于NHASC、SC_SD和STSCI算法,相比其它指標(biāo)提升幅度均超過(guò)40%。因此,從聚類質(zhì)量的內(nèi)部評(píng)價(jià)指標(biāo)看,本文所提出的FMA-SC方法顯著優(yōu)于已有譜聚類算法。
圖1 譜聚類類型算法的CH指標(biāo)對(duì)比
圖2 譜聚類類型算法的SC指標(biāo)對(duì)比
圖3和圖4所示數(shù)據(jù)對(duì)比為聚類外部評(píng)價(jià)指標(biāo)NMI和FMI在不同方法中的評(píng)分,可以看出本文方法FMA-SC均優(yōu)于其它方法,相比其它4種方法,本文方法在NMI和FMI性能分別平均提升了約37%和55.8%。
圖3 譜聚類類型算法的NMI指標(biāo)對(duì)比
圖4 譜聚類類型算法的FMI指標(biāo)對(duì)比
除與改進(jìn)譜聚類算法進(jìn)行對(duì)比,F(xiàn)MA-SC算法還與其它非譜聚類型算法進(jìn)行了對(duì)比,主要對(duì)比算法如下:
(1)K-means算法[4]:該算法對(duì)加工設(shè)備的制造屬性進(jìn)行描述,改進(jìn)了K-means算法隨機(jī)選取初始聚類中心和聚類數(shù)目的不足,提出一種基于相似度的加工設(shè)備云服務(wù)K-means聚類方法。
(2)E-DBSCAN算法[17]:采用LDA-DBSCAN算法進(jìn)行聚類,首先基于改進(jìn)的LDA算法挖掘發(fā)現(xiàn)隱含數(shù)據(jù),提取數(shù)據(jù)資源特征,解決數(shù)據(jù)資源無(wú)法映射到一個(gè)向量空間問題,采用DBSCAN算法進(jìn)行聚類。
(3)LDA-FCM算法[18]:提出一種基于LDA-FCM方法的Web服務(wù)發(fā)現(xiàn)聚類方法,該算法使用LDA模型進(jìn)行Web服務(wù)資源數(shù)據(jù)的重組和自適應(yīng)調(diào)度,以提取web服務(wù)數(shù)據(jù)資源特征,依據(jù)數(shù)據(jù)資源特征確定其相似度,在FCM算法中,通過(guò)相似度計(jì)算隸屬度,實(shí)現(xiàn)web服務(wù)聚類。
各個(gè)指標(biāo)的對(duì)比結(jié)果如圖5~圖8所示。從圖5中數(shù)據(jù)可以看出,本文算法FMA-SC的CH指標(biāo)得分值顯著優(yōu)于K-means、E-DBSCAN和LDA-FCM算法,在CH評(píng)價(jià)指標(biāo)獲取的分?jǐn)?shù)得到大幅提高,平均提升了35%。此外,從圖6的數(shù)據(jù)中SC指標(biāo)可以看出,E-DBSCAN算法的得分值最高,其次是本文FMA-SC算法,F(xiàn)MA-SC算法在SC指標(biāo)上優(yōu)于K-means算法和LDA-FCM算法,本文FMA-SC算法與 K-means、E-DBSCAN、LDA-FCM算法相比,在SC性能上平均提升了31%。從聚類質(zhì)量的內(nèi)部評(píng)價(jià)指標(biāo)看,本文所提出的FMA-SC方法顯著優(yōu)于已有的聚類算法。
圖5 非譜聚類類型算法的CH指標(biāo)對(duì)比
圖6 非譜聚類類型算法的SC指標(biāo)對(duì)比
從算法運(yùn)行的時(shí)間復(fù)雜度來(lái)看,NHASC算法時(shí)間復(fù)雜度為O(n×D), 其中n為數(shù)據(jù)個(gè)數(shù),D為數(shù)據(jù)空間維度。SC_SD算法時(shí)間復(fù)雜度為O(n2), SCTSCI算法時(shí)間復(fù)雜度為O(n3), FITS-MSC算法的時(shí)間復(fù)雜度為O(t(dmaxn2+n3)),dmax表示數(shù)據(jù)維度,t表示迭代次數(shù)。本文算法FMA-SC的時(shí)間復(fù)雜度為O(n2), 在5個(gè)算法中并列排名第二,時(shí)間復(fù)雜度較低。
從圖7和圖8中的數(shù)據(jù)可以看出,F(xiàn)MA-SC算法在NMI和FMI指標(biāo)上均優(yōu)于K-means、E-DBSCAN、LDA-FCM聚類方法,在NMI和FMI性能上,本文提出的方法與文獻(xiàn)[17]中的方法在評(píng)分上較為接近。相比于其它3種方法,本文方法在NMI和FMI性能上分別平均提升了31%和36%。因此,從聚類質(zhì)量的外部評(píng)價(jià)指標(biāo)看,本文所提出的FMA-SC方法顯著優(yōu)于已有的其它聚類算法。
圖7 非譜聚類類型算法的NMI指標(biāo)對(duì)比
圖8 非譜聚類類型算法的FMI指標(biāo)對(duì)比
K-means算法計(jì)算云服務(wù)之間的綜合相似度,構(gòu)造服務(wù)相似矩陣的時(shí)間復(fù)雜度為O(n2),n為數(shù)據(jù)個(gè)數(shù),對(duì)數(shù)據(jù)進(jìn)行處理的時(shí)間復(fù)雜度為O(nm),m表示云服務(wù)屬性個(gè)數(shù),獲取最佳聚類個(gè)數(shù)的時(shí)間復(fù)雜度為O(q2),q代表類簇個(gè)數(shù),該算法綜合時(shí)間復(fù)雜度為O(n2)。 E-DBSCAN算法對(duì)數(shù)據(jù)集的每個(gè)對(duì)象進(jìn)行考察,通過(guò)檢查檢查每個(gè)點(diǎn)的鄰域進(jìn)行聚類,該算法時(shí)間復(fù)雜度為O(n×logn)。 LDA-FCM算法提取數(shù)據(jù)特征、初始化隸屬度函數(shù)、確定聚類中心時(shí)間復(fù)雜度為O(n2), 優(yōu)化隸屬度函數(shù)的時(shí)間復(fù)雜度為O(tn),t為迭代次數(shù),該算法綜合時(shí)間復(fù)雜度為O(n2)。 本文算法與上述算法相比,時(shí)間復(fù)雜度處于同一個(gè)級(jí)別。
從聚類內(nèi)外部評(píng)價(jià)指標(biāo)評(píng)分可以得到:本文方法所構(gòu)建的云制造服務(wù)聚類的質(zhì)量顯著優(yōu)于其它聚類方法,因此,本文所提出的融合多維相似度的云制造服務(wù)聚類方法可以有效提升云制造服務(wù)聚類的質(zhì)量。
本文提出一種融合多維屬性相似度的云制造服務(wù)譜聚類算法。分別構(gòu)建了云制造服務(wù)的文本型和數(shù)值型屬性相似度矩陣,設(shè)計(jì)了一種相似度矩陣融合函數(shù),將上述兩種矩陣融合,通過(guò)融合多維度信息提升了云制造服務(wù)的相似度計(jì)算精度。引入本征間隙法確定聚類個(gè)數(shù),采用的譜聚類算法可以高質(zhì)量地實(shí)現(xiàn)具有非線性樣本特征的云制造服務(wù)聚類。實(shí)驗(yàn)驗(yàn)證,本文方法的聚類質(zhì)量明顯優(yōu)于當(dāng)前流行的譜聚類改進(jìn)算法和其它類型的服務(wù)聚類算法。
未來(lái)工作主要是結(jié)合服務(wù)描述文本的語(yǔ)境權(quán)重進(jìn)一步提高文本型屬性相似度的計(jì)算精度,并在服務(wù)聚類的基礎(chǔ)上研究相關(guān)推薦方法,以進(jìn)一步提高服務(wù)發(fā)現(xiàn)的準(zhǔn)確度和效率。