亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于知識圖譜的隱私保護推薦算法

2023-04-27 04:00:42周雨晴湯衛(wèi)東劉美玲

電腦知識與技術 2023年7期

周雨晴湯衛(wèi)東劉美玲

關鍵詞：知識圖譜；隱私保護；推薦算法；RippleNet；差分隱私

0 引言

智能技術與人類生活緊密結(jié)合在一起，為人類的衣食住行各個方面提供了極大的便利，但也存在信息冗雜的問題。為了挖掘用戶的興趣并輔助用戶在大量的數(shù)據(jù)信息中快速找到自己的目標信息，本文采用推薦算法能夠較好地解決這一需求。通過對用戶和項目之間的交互行為的深入研究，推薦算法可以準確地識別出用戶的興趣偏好，并將最適合他們的選擇作為最終的決策依據(jù)。當前，推薦算法的發(fā)展趨勢表明，協(xié)同過濾、內(nèi)容分析和深度學習等技術已經(jīng)成為主流，并且在不斷改進和完善[1]。然而，由于推薦內(nèi)容和用戶數(shù)量的不斷增加，傳統(tǒng)的推薦算法面臨瓶頸，包括諸如數(shù)據(jù)稀疏、冷啟動和用戶偏好的變化等問題[2]。為了解決上述推薦算法存在的問題，考慮通過融合知識圖譜加以改善[3]。

知識圖譜通過將推薦項目中的實體和關系表達為由頭實體、尾實體以及描述這兩個實體之間的關系組成的結(jié)構(gòu)化三元組的形式，能夠有效提取用戶和推薦項目中的關系，探索用戶有可能感興趣的項目，進一步提升推薦的準確率。盡管融合知識圖譜的推薦算法可以提高推薦的準確性，但它也會增加用戶的信息量，可能會使攻擊者獲得更多的背景知識，從而給用戶帶來更大的隱私安全風險[4]。

差分隱私技術（Differential Privacy，DP）能夠有效地阻止攻擊者利用其豐富的背景知識來竊取用戶敏感信息，從而為用戶提供更加安全的隱私保護。差分隱私技術通過對數(shù)據(jù)查詢結(jié)果進入隨機噪聲，從而有效地防止攻擊者利用公開的查詢結(jié)果來推測出數(shù)據(jù)集中單個元素的敏感信息，并且可以保證查詢結(jié)果不會因為單個元素的變化而產(chǎn)生顯著變化。這種查詢結(jié)果的不可區(qū)分性為數(shù)據(jù)集中的個體信息提供了語義保證，因而能夠?qū)崿F(xiàn)數(shù)據(jù)隱私保護。差分隱私技術是一種有效的數(shù)據(jù)安全保護機制，面對處理數(shù)據(jù)挖掘任務時能夠起到更為良好的效果[5]。

近年來，差分隱私技術在數(shù)據(jù)挖掘領域得到了廣泛的應用，如分類、推薦等，以確保用戶隱私安全。Boutet等人[6]提出矩陣分解算法可以利用差分隱私機制，將用戶評級數(shù)據(jù)和隨機梯度下降過程中添加不同隱私預算的噪聲保護用戶隱私，但這并不適用于包含多個實體及其關系的知識圖譜推薦中；Yu等人[7]提出一種隱私保護的多任務推薦框架，該推薦框架通過在梯度下降過程和多任務模型的相關參數(shù)中添加噪聲提高推薦效率和隱私安全，但也存在較高的計算量。

本文提出了一種基于知識圖譜的隱私保護推薦算法。該算法將用戶歷史交互記錄作為知識圖譜中的種子集，根據(jù)用戶興趣與歷史交互數(shù)據(jù)的相關度分配不同額度的隱私預算，對與種子集中歷史交互數(shù)據(jù)的特征向量中添加拉普拉斯噪聲，以種子集為中心，通過水波紋的形式沿知識圖譜向外擴散探索用戶的興趣傳播，發(fā)掘用戶對項目的潛在興趣，并計算用戶對項目的交互概率。

1 知識圖譜

“知識圖譜”通常被描述為在某一知識領域中包含許多相互聯(lián)系的實體的語義網(wǎng)絡圖，這種語義網(wǎng)絡圖通常具有有向性，并且能夠幫助更好地理解這些實體之間的相互聯(lián)系。知識圖譜應用在推薦算法中能夠體現(xiàn)精準、多樣和可解釋的特點。通過采用知識圖譜，能夠清晰地展示出特定領域內(nèi)的實體之間的關系，并且能夠更加直觀地展示出這些實體之間的相互聯(lián)系[8]。

知識圖譜G可以以三元組的形式（h，r，t）來描述，其中h 表示頭實體，t 表示尾實體，r 代表頭尾實體間的關系。例如三元組（大話西游，主演，周星馳）表達了《大話西游》電影是由“周星馳”主演，“大話西游”是該三元組中的頭節(jié)點，“周星馳”是尾節(jié)點，“主演”是兩個節(jié)點間的語義關系。將若干個相同領域的三元組放入特定的空間，就可以建立起一個完整的知識圖譜。

2 差分隱私

Dwork等人[9]于2006年提出的差分隱私技術旨在要求攻擊者不能通過分析發(fā)布的結(jié)果來推斷出其所屬的數(shù)據(jù)集。差分隱私算法實現(xiàn)隱私保護的主要方法是在公開的輸出結(jié)果中添加噪聲，從而避免遭到差分攻擊而泄露用戶的隱私信息，同時需要控制加入噪聲的大小以確保公開的輸出結(jié)果不會受到顯著的影響。差分隱私不僅能夠防止被攻擊，同時也能夠提供更加嚴格的語義安全，使其成為一種廣泛應用于隱私保護領域的有力工具。

定義1 差分隱私：Pm 是一個隨機算法M 可以輸出的所有值的集合，Sm 是Pm 的任意子集，如果隨機算法M 作用于任意的一對相鄰數(shù)據(jù)集D 和D’上都能滿足如下性質(zhì)：

可以認為算法M 滿足ε -差分隱私，其中參數(shù)ε為隱私保護預算。隨著隱私保護預算ε 的降低，差分隱私算法對于一對相鄰數(shù)據(jù)集的檢索結(jié)果的準確性會有顯著提升，使得攻擊者更加困難地識別和分析這對數(shù)據(jù)集，進而提升了隱私安全的水平。反之，參數(shù)ε越大時，保護程度越低。

定義2 全局敏感度：差分隱私在查詢結(jié)果上加入的噪聲是影響隱私保護以及數(shù)據(jù)效用的關鍵量。為了確保用戶的隱私得到較好的保護，同時避免由于添加的噪聲過多而降低數(shù)據(jù)的性價比，可以通過設置全局敏感度對加入的噪聲量進行控制。

對于一個形式為f：D → Rd 的查詢函數(shù)f，R 是查詢函數(shù)的返回結(jié)果。當其作用于任意一對相鄰數(shù)據(jù)集D和D’上，則將查詢函數(shù)f 全局敏感度定義為：

其中，d 表示函數(shù)f 的查詢維度，p 代表度量Δf 所使用的Lp 距離，通常是L1。

定義3 拉普拉斯機制：給定任意查詢函數(shù)f：D → Rd，其全局敏感度為Δf，如果算法M 的輸出結(jié)果滿足下列等式，則稱算法M滿足ε -差分隱私。

3 融合知識圖譜和隱私保護的推薦方法

RippleNet框架的輸入為一個用戶u 和一個推薦項目v，輸出為該用戶u 訪問該項目v 的預測概率。u ={u1，u2…}和v = { v1，v2…}分別表示推薦場景中的用戶集合和待推薦項目的集合，根據(jù)用戶是否與某個待推薦項目產(chǎn)生過交互行為，可以定義一個用戶—項目交互矩陣yuv：

RippleNet推薦過程中除了采用交互矩陣yuv外，還需要采用知識圖譜G。知識圖譜G 由包含著大量實體及實體間關系構(gòu)成的實體三元組（h，r，t）組成。通過RippleNet，可以利用用戶的歷史交互信息，自動地從知識圖譜G 中推斷出用戶在實體集上的潛在偏好。當給定知識圖譜G和用戶—項目交互矩陣yuv 時，可以將用戶u的k 階相關實體集合定義為：

其中，ε0u = vu 代表用戶u 的歷史交互記錄，這些記錄可以成為用戶u 在知識圖譜G上進行興趣傳播的基礎，而H則是最大傳播跳數(shù)。

與用戶u 的偏好相符度較高的項目可以被視為用戶u 的在該知識圖譜G 上的延伸偏好項目；根據(jù)用戶的歷史交互記錄，以vu為起點，生成用戶u 相關的各階偏好波紋集，頭實體在εk - 1 u 中的三元組集合可定義為用戶u的k 跳的偏好波紋集合（ripple set）：

RippleNet通過將所有推薦內(nèi)容映射到一個向量v，然后利用推薦內(nèi)容v，用戶u 的歷史交互記錄vu和一階波紋集上的三元組（hi，ri，ti ）計算相關性概率pi：

可以將相關性概率pi 定義為在關系ri 的前提下用戶的歷史交互記錄vu與推薦內(nèi)容v 的關聯(lián)程度，Ri 表示關系ri 的嵌入，是一個d*d 的矩陣，其中d 是特征維度。在一階波紋集S1u中，用戶的潛在偏好將會由頭實體hi 傳播到尾實體ti，最終在尾部形成潛在興趣偏好的累積。最終，將相關性概率pi 作為一階波紋集S1u上與其相應的尾實體ti 的權(quán)重，并對所有一階波紋集S1u上的尾實體ti 按其相應的權(quán)重進行累加，從而獲取一階波紋集S1u上的潛在興趣偏好表示O1u：

通過使用O1u來替換候選推薦內(nèi)容v 向量，可以有效地表示用戶u 在二階波紋集的潛在興趣偏好。因此，重復上述迭代步驟，可獲得更高階數(shù)的偏好波紋集。用戶u 的向量可以用來表示其在不同階的波紋集上的興趣偏好的累積值，以反映其偏好特征：

本算法主要通過對用戶u 的歷史交互記錄vu 添加拉普拉斯噪聲來實現(xiàn)隱私保護。本文考慮了用戶歷史交互記錄對推薦結(jié)果的影響權(quán)重不同，將根據(jù)相關性概率pi 對歷史交互記錄vu 分配不同的隱私預算，因為這些相關性概率較高的歷史交互記錄對推薦內(nèi)容的影響更大，因此根據(jù)相關性概率pi 來添加不同大小的噪聲能有效地保證推薦結(jié)果的準確率不會因為加入的噪聲而產(chǎn)生太大的變化。其中特征向量的全局敏感度△f 計算如下：

其中，va 和vb 分別為用戶u 的歷史交互記錄vu 中兩個不同的歷史交互記錄所表示的向量。

根據(jù)相關性概率pi，可以對推薦內(nèi)容的向量表示v 分配不同大小的隱私預算，以保證推薦內(nèi)容的準確性。對于具有較高的相關性概率的特征向量，給予更多的隱私預算，以求減少噪聲的影響。因此，vu 中每個特征向量vi對應的隱私預算εi可計算如下：

4 實驗分析

在實驗數(shù)據(jù)方面，本實驗使用了movielen這個電影推薦領域中最流行的數(shù)據(jù)集，從https：//grouplens.org/datasets/movielens/1m/獲取，movielen 數(shù)據(jù)集包含了6 036個用戶以及他們對2 445部電影的評分數(shù)據(jù)。

實驗參數(shù)方面，本文的知識圖譜嵌入模型選取TransE，將數(shù)據(jù)集中評分低于4選取為負樣本，評分高于4的選取為正樣本。通過對模型的驗證集的分析不斷改善模型的性能，在其他參數(shù)不變的情況下，把嵌入維度d設置為16；考慮到用戶偏好興趣將隨著傳播逐漸減弱，波紋集的跳數(shù)Hop的次數(shù)設置為2，學習率l設置為0.02。將電影數(shù)據(jù)集細分為訓練集、評估集和測試集，其中訓練集、評估集與測試集的數(shù)據(jù)量之比為6∶2∶2，最終的測試結(jié)果將由10次實驗的平均值來決定。

本實驗使用準確率（Accuracy，ACC）和曲線下面積（Area Under Curve，AUC）作為評價指標。ACC可以作為一個重要的參考指標來評估推薦的精確性，其值越大，說明推薦的有效性就越強。AUC是一種常用的分類器評估指標，可以幫助解決樣本分布不均衡的問題。AUC越接近1，說明分類器的性能越優(yōu)秀。

通過本次實驗發(fā)現(xiàn)，改進后的算法在處理推薦問題時，其表現(xiàn)優(yōu)于CKE、SHINE和DKN等傳統(tǒng)模型，具有顯著的提升。本文提出的算法ACC和AUC的性能都有顯著改善，而且實驗數(shù)據(jù)也有明顯差異，詳情可見表1。

5 結(jié)論

基于知識圖譜推薦算法，本文提出了一種新的方法，將差分隱私技術應用于Ripplenet推薦模型，以有效降低用戶隱私泄露的風險，實現(xiàn)更加安全、可靠的知識圖譜推薦。經(jīng)過多次實驗，該算法不僅可以保護數(shù)據(jù)隱私，而且能夠提供準確可靠的推薦結(jié)果。下一步的工作方向是進一步優(yōu)化算法以爭取兼顧推薦的準確度、算法的效率以及隱私的保護。