鄧 璇,呂晟凱
(1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢 430062;2.應(yīng)用數(shù)學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430062;3.湖北省軟件工程技術(shù)研究中心,湖北 武漢 430062)
協(xié)同過(guò)濾(Collaborative Filtering)是目前應(yīng)用廣泛的QoS預(yù)測(cè)方法之一[3],傳統(tǒng)計(jì)算用戶(hù)(或服務(wù))相似性的方法是基于皮爾遜相關(guān)系數(shù)或余弦相似性計(jì)算相似度,實(shí)際上只挖掘了用戶(hù)之間的二階相似度,而忽略了用戶(hù)之間更高階的隱式關(guān)系[4]。
為解決以上問(wèn)題,我們?cè)诳紤]用戶(hù)信譽(yù)的同時(shí)引入網(wǎng)絡(luò)嵌入式學(xué)習(xí)(Network Embedding Learning),提出一種基于信譽(yù)感知的QoS預(yù)測(cè)方法。該方法能從歷史數(shù)據(jù)中充分挖掘用戶(hù)(或服務(wù))間的高階隱式關(guān)系,為目標(biāo)用戶(hù)找到更多潛在的可靠相似用戶(hù),不僅考慮了不可信用戶(hù)對(duì)預(yù)測(cè)精度的影響,也在一定程度上緩解了數(shù)據(jù)稀疏性問(wèn)題[5-6]。
本文方法主要包括如下4部分。
(1)用戶(hù)信譽(yù)計(jì)算:利用K-means聚類(lèi)對(duì)Web服務(wù)的歷史Q(chēng)oS值進(jìn)行聚類(lèi),聚類(lèi)結(jié)果用于計(jì)算用戶(hù)的信譽(yù)度,將信譽(yù)度低于閾值的用戶(hù)標(biāo)記為不可信用戶(hù),并過(guò)濾。
(2)網(wǎng)絡(luò)建模:將計(jì)算得到的用戶(hù)信譽(yù)度作為用戶(hù)節(jié)點(diǎn)屬性,構(gòu)建帶屬性的用戶(hù)-服務(wù)二分網(wǎng)絡(luò)。
(3)網(wǎng)絡(luò)嵌入式學(xué)習(xí):對(duì)帶屬性的用戶(hù)-服務(wù)二分網(wǎng)絡(luò)進(jìn)行嵌入式學(xué)習(xí),獲得用戶(hù)的表征向量。
(4)QoS預(yù)測(cè):給定一個(gè)目標(biāo)用戶(hù),為其返回Top-K個(gè)相似用戶(hù),并利用相似用戶(hù)提供的信息預(yù)測(cè)缺失的QoS值。
對(duì)每一項(xiàng)服務(wù),使用K-means聚類(lèi)對(duì)其所有用戶(hù)標(biāo)記的QoS值進(jìn)行聚類(lèi)。聚類(lèi)后,包含元素個(gè)數(shù)最少的集群中的用戶(hù)視為不可信用戶(hù)。聚類(lèi)算法中的參數(shù)K為確定要?jiǎng)澐值慕M數(shù),表示服務(wù)j的第k個(gè)集群,其中k是集群的索引,0≤k 長(zhǎng)陽(yáng)縣水產(chǎn)局局長(zhǎng)田繼橋向記者解讀該項(xiàng)工作的艱巨難行之處時(shí)說(shuō),整個(gè)清理取締概算需要2億元以上的資金,這相當(dāng)于該縣過(guò)去30年農(nóng)業(yè)投入的總和。當(dāng)這個(gè)數(shù)字報(bào)到縣人大常委會(huì)時(shí),大家都愣住了。 矩陣A是由m個(gè)用戶(hù)和n個(gè)服務(wù)組成的m×n矩陣,用來(lái)記錄用戶(hù)的不可信索引,初始化矩陣A,其每一項(xiàng)值均為0。如果用戶(hù)i被標(biāo)識(shí)為服務(wù)j上的候選不可信用戶(hù),則aij設(shè)置為1。重復(fù)聚類(lèi)過(guò)程,對(duì)每個(gè)服務(wù)更新矩陣A,直到所有服務(wù)的QoS值均已聚類(lèi)。 用戶(hù)信譽(yù)度:在對(duì)所有QoS值聚類(lèi)后,使用以下公式得到用戶(hù)不可信索引集: 式中,wu表示用戶(hù)u被識(shí)別為不可信用戶(hù)的次數(shù),wu越大,表示該用戶(hù)的信譽(yù)度越低,即ru=1?wu。 1.2.1 帶屬性的用戶(hù)-服務(wù)二分網(wǎng)絡(luò)建模 結(jié)合用戶(hù)信譽(yù)和用戶(hù)與服務(wù)的交互信息,可以構(gòu)建一個(gè)帶屬性的用戶(hù)-服務(wù)二分網(wǎng)絡(luò)G={U,S,R,E},其中,U={u1,u2,...,um}是用戶(hù)集合,S={s1,s2,...,sn}是服務(wù)集合,R是用戶(hù)信譽(yù),E={eij|i=1, 2,...,m;j=1, 2,...,n}是邊集合,在邊集合中eij=QoSij,表示用戶(hù)ui對(duì)服務(wù)sj的個(gè)性化QoS值。用戶(hù)u1,u2,u3的信譽(yù)值分別為r(u1),r(u2),r(u3),其用戶(hù)-服務(wù)二分網(wǎng)絡(luò)如圖1所示。 圖1 用戶(hù)-服務(wù)二分網(wǎng)絡(luò) 1.2.2 網(wǎng)絡(luò)嵌入學(xué)習(xí) 二分網(wǎng)絡(luò)嵌入(Bipartite Network Embedding)用于學(xué)習(xí)二分網(wǎng)絡(luò)中的節(jié)點(diǎn)表示[7]。它通過(guò)執(zhí)行有偏和自適應(yīng)的隨機(jī)游走,很好地保持了原始二分網(wǎng)絡(luò)中節(jié)點(diǎn)的長(zhǎng)尾分布。它在學(xué)習(xí)節(jié)點(diǎn)表示時(shí),同時(shí)對(duì)顯式關(guān)系(即觀察到的連接)和高階隱式關(guān)系(即未觀察到但可傳遞的連接)進(jìn)行建模。通過(guò)二分網(wǎng)絡(luò)嵌入式學(xué)習(xí),可以為目標(biāo)用戶(hù)發(fā)掘更多可信的間接相似用戶(hù),有效減少不可信用戶(hù)和數(shù)據(jù)稀疏性對(duì)預(yù)測(cè)精度的影響。 對(duì)目標(biāo)用戶(hù)i,選擇與其相似度最高的前K個(gè)用戶(hù)作為其相似用戶(hù)集合。 依據(jù)相似用戶(hù)提供的信息,缺失的QoS值可以用以下公式計(jì)算: 本文在公開(kāi)數(shù)據(jù)集[8]WS-Dream上進(jìn)行實(shí)證分析,與3種已有方法進(jìn)行對(duì)比。采用常用的平均絕對(duì)誤差(Mean Absolute Error, MAE)作為測(cè)量預(yù)測(cè)方法準(zhǔn)確性的評(píng)價(jià)指標(biāo),MAE定義為: 式中:N為所有預(yù)測(cè)值的個(gè)數(shù);Ru,i表示實(shí)際QoS值;u,i表示預(yù)測(cè)的QoS值。 將QoS矩陣密度以1%的步長(zhǎng)從5%增加到10%。在K-means聚類(lèi)中K取值為5,選擇反饋20個(gè)相似用戶(hù)進(jìn)行預(yù)測(cè)。嵌入式學(xué)習(xí)中的負(fù)采樣數(shù)為4,窗口為5,游走停止概率p為 0.15,損失權(quán)衡參數(shù)α=0.01,β=0.01,γ=4,學(xué)習(xí)率λ=0.15。表1顯示了在不同密度條件下不同方法的MAE結(jié)果,實(shí)驗(yàn)結(jié)果表明:隨著矩陣密度的增加,所有方法的MAE值都呈下降趨勢(shì)。說(shuō)明矩陣的密度越大,可獲得的用戶(hù)和服務(wù)交互信息越多,預(yù)測(cè)精度也就越高。在各密度條件下,本文方法與已有方法相比,MAE值更小,即預(yù)測(cè)精度更高。說(shuō)明采用信譽(yù)感知的網(wǎng)絡(luò)嵌入式方法,能夠緩解數(shù)據(jù)稀疏性對(duì)預(yù)測(cè)精度的影響。具體而言,與TAP方法相比,本文方法的預(yù)測(cè)精度最大可提高20.93%。 表1 各方法在不同矩陣密度條件下取得的MAE結(jié)果 本文將網(wǎng)絡(luò)嵌入式方法引入QoS預(yù)測(cè)過(guò)程中,考慮用戶(hù)的實(shí)際信譽(yù)度,提出了一種基于信譽(yù)感知網(wǎng)絡(luò)嵌入的QoS預(yù)測(cè)方法。該方法能夠充分利用用戶(hù)-服務(wù)二分網(wǎng)絡(luò)信息與用戶(hù)信譽(yù)度信息,能從歷史數(shù)據(jù)中充分挖掘用戶(hù)-服務(wù)間的高階隱式關(guān)系,為目標(biāo)用戶(hù)找到更多潛在的可靠相似用戶(hù)。實(shí)驗(yàn)表明,本文方法不僅考慮了用戶(hù)信譽(yù)對(duì)預(yù)測(cè)精度的影響,也在一定程度上緩解了數(shù)據(jù)稀疏性問(wèn)題,相比已有三種其他方法準(zhǔn)確度更高[9-10]。1.2 用戶(hù)-服務(wù)二分網(wǎng)絡(luò)學(xué)習(xí)
1.3 協(xié)同過(guò)濾
2 實(shí)驗(yàn)與結(jié)果分析
3 結(jié) 語(yǔ)
物聯(lián)網(wǎng)技術(shù)2021年12期