亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種權(quán)衡性能與隱私保護(hù)的推薦算法

2021-07-13 14:37:44馬黛露絲朱海萍田鋒馮沛陳妍計(jì)湘婷李玉杰

西安交通大學(xué)學(xué)報(bào) 2021年7期

馬黛露絲,朱海萍,田鋒,馮沛,陳妍,計(jì)湘婷,李玉杰

(1.西安交通大學(xué)電子與信息學(xué)部,710049,西安;2.西安交通大學(xué)陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,710049,西安;3.百度時(shí)代網(wǎng)絡(luò)技術(shù)(北京)有限公司,100085,北京;4.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,210094,南京)

推薦算法在電商系統(tǒng)、學(xué)習(xí)平臺(tái)等的應(yīng)用為用戶(hù)高效、便捷的使用提供了有力保障。但是,由于推薦的結(jié)果建立在用戶(hù)各類(lèi)數(shù)據(jù)之上,推薦系統(tǒng)也存在隱私泄露的風(fēng)險(xiǎn)。以在線學(xué)習(xí)為例,根據(jù)推薦系統(tǒng)提供的推薦列表,攻擊者可以推測(cè)出不同學(xué)習(xí)者的偏好,再結(jié)合學(xué)習(xí)日志等輔助信息,甚至可以反向推測(cè)出特定偏好對(duì)應(yīng)的學(xué)習(xí)者,從而獲取其姓名、學(xué)校、專(zhuān)業(yè)、學(xué)號(hào)、客戶(hù)端IP地址等真實(shí)身份信息[1]。雖然用戶(hù)的姓名、電話等信息往往不作為推薦系統(tǒng)使用的特征,不影響推薦精度,但是若攻擊者反推得到用戶(hù)偏好,進(jìn)而反推得到對(duì)應(yīng)該偏好的用戶(hù),便會(huì)造成用戶(hù)真實(shí)身份信息及偏好數(shù)據(jù)的隱私泄露,相比于電商系統(tǒng)中的虛擬賬戶(hù)信息,此類(lèi)包含真實(shí)身份的信息需要的隱私保護(hù)程度更高,因此在線學(xué)習(xí)平臺(tái)的隱私保護(hù)越來(lái)越受到公眾的關(guān)注。在線學(xué)習(xí)平臺(tái)大多缺少顯式評(píng)分,存在數(shù)據(jù)不平衡問(wèn)題,并且大多使用基于隱式反饋的推薦系統(tǒng),此類(lèi)系統(tǒng)相比于顯式系統(tǒng),在數(shù)據(jù)處理、用戶(hù)偏好建模等階段更為復(fù)雜,實(shí)施代價(jià)更大[2-4],因此如何在隱私保護(hù)程度與推薦精度之間均衡十分重要。

針對(duì)推薦系統(tǒng)的隱私保護(hù)安全問(wèn)題,國(guó)內(nèi)外學(xué)者的研究主要分為數(shù)據(jù)加密技術(shù)、基于數(shù)據(jù)模糊技術(shù)和差分隱私保護(hù)技術(shù)[5-6]。差分隱私保護(hù)技術(shù)在保證算法對(duì)特定統(tǒng)計(jì)結(jié)果的輸出概率不發(fā)生顯著變化的前提下,利用算法對(duì)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果隨機(jī)化處理,保護(hù)原始數(shù)據(jù)信息,其差分隱私保護(hù)參數(shù)能夠描述使用的隨機(jī)算法給出的最高隱私保護(hù)水平[7]。差分隱私已被應(yīng)用到矩陣分解推薦模型中,評(píng)估隱私保護(hù)和推薦效率的權(quán)衡效果[8]。之后的研究將差分隱私技術(shù)與貝葉斯后驗(yàn)采樣融合,能夠得到推薦準(zhǔn)確率更高的差分隱私推薦框架[9]。Meng等通過(guò)在敏感和非敏感數(shù)據(jù)的訓(xùn)練集中引入不同的噪聲強(qiáng)度,保護(hù)了社交推薦系統(tǒng)的隱私[10]?，F(xiàn)有的針對(duì)在線學(xué)習(xí)平臺(tái)的基于鄰域的差分隱私保護(hù)推薦算法[11],在計(jì)算用戶(hù)或項(xiàng)目相似度矩陣時(shí),會(huì)因稠密的矩陣臨時(shí)存儲(chǔ)表而占用相當(dāng)?shù)膬?nèi)存,而矩陣分解的推薦算法在訓(xùn)練過(guò)程中不需要存儲(chǔ)與維護(hù)相關(guān)表,節(jié)省內(nèi)存,如在包括4多萬(wàn)用戶(hù)的Netflix Prize數(shù)據(jù)集中,使用基于鄰域的推薦方法,大約需要30 GB內(nèi)存,而矩陣分解推薦方法只需要4 GB內(nèi)存。

本文針對(duì)在線學(xué)習(xí)資源推薦平臺(tái)隱式反饋的性質(zhì),提出基于資源熱度負(fù)采樣算法,解決隱式反饋系統(tǒng)中數(shù)據(jù)不平衡的問(wèn)題,使用差分隱私保護(hù)參數(shù)ε描述隱私保護(hù)程度分級(jí),提出性能與隱私保護(hù)均衡的推薦算法,研究矩陣分解的差分隱私保護(hù)算法中隱私保護(hù)參數(shù)與推薦精度的關(guān)系。

1 基于矩陣分解推薦模型的隱私泄露風(fēng)險(xiǎn)分析

在推理攻擊與重構(gòu)攻擊[12]兩種攻擊模型的攻擊下,矩陣分解模型存在隱私泄露的風(fēng)險(xiǎn)。其中,推理攻擊通常被用于推斷某個(gè)模型的訓(xùn)練集中是否包含某個(gè)體的評(píng)級(jí);重構(gòu)攻擊是根據(jù)目標(biāo)受害者的一些背景信息,預(yù)測(cè)其敏感特征的準(zhǔn)確值。當(dāng)兩種攻擊結(jié)合起來(lái)[13],在基于矩陣分解的推薦過(guò)程中,攻擊者首先借助推理攻擊推斷數(shù)據(jù)集中是否包括目標(biāo)攻擊用戶(hù)的評(píng)級(jí),其次通過(guò)重構(gòu)攻擊,利用已知的部分評(píng)級(jí)反向預(yù)測(cè)受害用戶(hù)的潛在特征,便能發(fā)現(xiàn)用戶(hù)的偏好信息以及其他潛在敏感信息[14]。

矩陣分解推薦模型中攻擊者的反向預(yù)測(cè)過(guò)程如文獻(xiàn)[15]所述,受害者用戶(hù)u1與攻擊者共享更新后的項(xiàng)目因子V,若攻擊者掌握的背景信息為受害者非敏感的偏好評(píng)級(jí)R12,則可以通過(guò)u1=v2R12-1反推出受害者向量u1,從而進(jìn)一步根據(jù)R1i=u1V獲取受害者的其余敏感的偏好評(píng)級(jí),造成用戶(hù)向量、偏好向量等隱私泄露。

2 性能與隱私保護(hù)均衡的推薦算法

根據(jù)上述對(duì)推薦中矩陣分解模型隱私泄露風(fēng)險(xiǎn)的分析,本文在所提出的性能與隱私保護(hù)均衡的推薦算法中,使用基于矩陣分解的差分隱私保護(hù)推薦算法[6]作為基礎(chǔ)推薦模型,分析其中隱私保護(hù)參數(shù)與推薦精度的關(guān)系,以在線學(xué)習(xí)資源推薦平臺(tái)為例,研究框圖如圖1所示。因矩陣分解的目標(biāo)優(yōu)化函數(shù)為非凸函數(shù),對(duì)求解結(jié)果的敏感度較高,在輸出模塊引入噪聲會(huì)使預(yù)測(cè)結(jié)果的可用性大大降低,因此本文只分析矩陣分解模型中分別在數(shù)據(jù)輸入和模型訓(xùn)練模塊引入差分隱私保護(hù)方法的結(jié)果。在數(shù)據(jù)準(zhǔn)備部分,本文針對(duì)在線學(xué)習(xí)用戶(hù)數(shù)據(jù)的隱式反饋特點(diǎn),提出基于資源熱度負(fù)采樣算法,對(duì)推薦模型的輸入數(shù)據(jù)進(jìn)行樣本平衡處理。

圖1 性能與隱私保護(hù)均衡的推薦算法研究框架

2.1 基于輸入擾動(dòng)的差分隱私矩陣分解推薦算法

基于輸入擾動(dòng)的差分隱私矩陣分解推薦算法是基于差分隱私保護(hù)的原理,在推薦模型訓(xùn)練之前對(duì)構(gòu)建的隱式反饋評(píng)分引入噪聲,之后再構(gòu)建矩陣分解模型。對(duì)于樣本平衡處理后得到的用戶(hù)項(xiàng)目偏好評(píng)分矩陣R使用下式引入噪聲,即

(1)

式中:Δf表示敏感度。根據(jù)差分隱私保護(hù)的性質(zhì),最終得到的偏好評(píng)分矩陣Λ(R)滿(mǎn)足ε差分隱私保護(hù)。

2.2 基于模型擾動(dòng)的差分隱私矩陣分解推薦算法

基于模型擾動(dòng)的差分隱私矩陣分解保護(hù)推薦算法在梯度下降的每一步迭代中,對(duì)誤差函數(shù)進(jìn)行Laplace噪聲的添加,此過(guò)程也稱(chēng)梯度加擾[16]。同時(shí),每一次迭代算法都滿(mǎn)足ε/e差分隱私,根據(jù)差分隱私保護(hù)的組合性質(zhì),則在e次迭代計(jì)算后,最終整個(gè)偏置項(xiàng)矩陣分解滿(mǎn)足ε=eε/e差分隱私保護(hù)。

2.3 基于資源熱度負(fù)采樣算法

隱式反饋推薦系統(tǒng)中只有用戶(hù)的操作歷史行為,缺少用戶(hù)的負(fù)反饋樣本,導(dǎo)致的樣本不平衡問(wèn)題會(huì)影響到推薦精度,為此參考已有的引入負(fù)樣本的4種策略[13],結(jié)合湯普森采樣算法[17]在推薦系統(tǒng)中的應(yīng)用,針對(duì)在線學(xué)習(xí)資源推薦系統(tǒng),提出基于資源熱度負(fù)采樣算法,其中資源熱度與資源item出現(xiàn)的次數(shù)成正比,熱門(mén)資源是指資源熱度大于所設(shè)閾值的資源。使用基于資源熱度負(fù)采樣算法使得負(fù)采樣后的平衡數(shù)據(jù)滿(mǎn)足以下3點(diǎn)特征:

(1)對(duì)于每個(gè)學(xué)習(xí)者,負(fù)采樣后保證正負(fù)樣本的數(shù)目均衡;

(2)對(duì)于每個(gè)學(xué)習(xí)者,進(jìn)行負(fù)樣本的選擇時(shí),負(fù)樣本取自同一課程下的資源庫(kù)中;

(3)在進(jìn)行負(fù)采樣的時(shí)候,在學(xué)習(xí)者沒(méi)有操作的熱門(mén)資源中,利用β分布隨機(jī)選取資源。

基于資源熱度負(fù)采樣算法的具體步驟如算法1所述,在同類(lèi)課程下,item_list_all是所有視頻資源的列表,item_list則是代表學(xué)習(xí)者已經(jīng)有過(guò)操作行為的資源視頻的集合。

算法1基于資源熱度負(fù)采樣算法:

輸入學(xué)習(xí)者編號(hào)user_id,學(xué)習(xí)者有操作行為的某課程視頻資源列表item_list,某課程所有視頻資源列表item_list_all

輸出正負(fù)樣本均衡的樣本數(shù)據(jù)sample

1: sample={}

2: for item in item_list do

3: sample[item]=user_item_rating

4: end for

5: candidate_list=Thompson(item_list_all)

∥在熱門(mén)資源中使用湯普森采樣獲得資源列表

6: for item in candidate_list do ∥負(fù)采樣

7: if item in sample then

8: continue

9: end if

針對(duì)旅游英語(yǔ)專(zhuān)業(yè)學(xué)生跨文化交際能力這一測(cè)試主體，筆者對(duì)我校旅游英語(yǔ)專(zhuān)業(yè)的80名學(xué)生進(jìn)行了調(diào)查，并根據(jù)調(diào)查結(jié)果進(jìn)行了定量分析。

10: sample[item]=0 ∥負(fù)樣本評(píng)分置零

11:n+=1

12: ifn=len(item_list) then

13: break ∥保證正負(fù)樣本數(shù)均衡

14: end if

15: end for

16: return sample

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

3.1.1 實(shí)驗(yàn)數(shù)據(jù)集本文主要依托西安交通大學(xué)網(wǎng)絡(luò)學(xué)院學(xué)習(xí)平臺(tái)(以下簡(jiǎn)稱(chēng)網(wǎng)絡(luò)學(xué)院),選取網(wǎng)絡(luò)學(xué)院計(jì)算機(jī)專(zhuān)業(yè)第4學(xué)期的《操作系統(tǒng)原理》《計(jì)算機(jī)網(wǎng)絡(luò)原理》《數(shù)據(jù)結(jié)構(gòu)》《計(jì)算機(jī)組成原理》《編譯原理》和《Java語(yǔ)言》6門(mén)課程,分析在線學(xué)習(xí)者與視頻學(xué)習(xí)資源的交互行為,將其總結(jié)為學(xué)習(xí)者的視頻學(xué)習(xí)次數(shù)偏好、視頻學(xué)習(xí)時(shí)長(zhǎng)偏好、視頻學(xué)習(xí)暫停拖動(dòng)次數(shù)偏好3種操作行為,以三者的算數(shù)加權(quán)作為學(xué)習(xí)者對(duì)課程視頻的評(píng)分,具體表示如下

(2)

式中:α=1;β=5;γ=4[11];pf(ui,vk)∈[0,1]為視頻學(xué)習(xí)次數(shù)偏好,由學(xué)習(xí)者ui觀看視頻vk的累計(jì)次數(shù)f(ui,vk)計(jì)算得到;pd(ui,vk)∈[0,1]為視頻學(xué)習(xí)時(shí)長(zhǎng)偏好;d(ui,vk)為累計(jì)時(shí)長(zhǎng);dvk為原始時(shí)長(zhǎng);ppd(ui,vk)∈[0,1]為視頻學(xué)習(xí)暫停拖動(dòng)次數(shù)偏好[18];p(ui,vk)為ui暫停vk的累計(jì)次數(shù);g(ui,vk)為ui拖動(dòng)vk的累計(jì)次數(shù)。對(duì)于給定的學(xué)習(xí)者與給定課程,可以得到基于學(xué)習(xí)行為偏好的評(píng)分,從而得到基于學(xué)習(xí)者學(xué)習(xí)行為偏好的學(xué)習(xí)者課程視頻評(píng)分矩陣,以下統(tǒng)稱(chēng)為學(xué)習(xí)者學(xué)習(xí)資源評(píng)分矩陣,并以此作為后續(xù)實(shí)驗(yàn)的基礎(chǔ)。

3.1.2 實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo) 依據(jù)所選取的網(wǎng)絡(luò)學(xué)院的99 732條視頻資源日志作為原始數(shù)據(jù),計(jì)算得到學(xué)習(xí)者對(duì)資源的偏好評(píng)分矩陣,使用五折交叉驗(yàn)證方法選取測(cè)試集與訓(xùn)練集,實(shí)驗(yàn)應(yīng)用百度飛槳深度學(xué)習(xí)框架平臺(tái)完成。

本文實(shí)驗(yàn)首先選取不同的隱私保護(hù)參數(shù),計(jì)算最終算法得到的推薦精度,探討隱私保護(hù)參數(shù)與推薦精度的關(guān)系;其次,比較是否使用基于資源熱度負(fù)采樣算法進(jìn)行數(shù)據(jù)處理的推薦精度,分析樣本平衡性對(duì)模型的影響。實(shí)驗(yàn)采用的算法性能評(píng)測(cè)指標(biāo)為均方根誤差r,這類(lèi)指標(biāo)常被用于評(píng)估推薦算法的預(yù)測(cè)評(píng)分精度(以下簡(jiǎn)稱(chēng)推薦精度)。r越小,預(yù)測(cè)的評(píng)分越準(zhǔn)確,計(jì)算式如下

(3)

3.2 輸入擾動(dòng)差分隱私推薦算法實(shí)驗(yàn)與結(jié)果分析

3.2.1 實(shí)驗(yàn)設(shè)計(jì) 為驗(yàn)證在輸入擾動(dòng)模型下所提資源熱度負(fù)采樣算法的有效性,以及探討隱私保護(hù)參數(shù)與推薦精度的關(guān)系,采用的對(duì)比實(shí)驗(yàn)有不添加噪聲的基于隨機(jī)梯度下降法求解的基本矩陣分解推薦算法(Clean MF)、不添加噪聲的偏置項(xiàng)矩陣分解推薦算法(Clean Biased MF),以及添加噪聲的基本矩陣分解推薦算法(INR MF)。其中,Clean MF用來(lái)對(duì)比偏置優(yōu)化后的矩陣分解推薦算法與Clean Biased MF的推薦精度,INR MF用來(lái)與INR Biased MF對(duì)比在不同隱私保護(hù)參數(shù)下的推薦精度損失程度。

3.2.2 實(shí)驗(yàn)結(jié)果分析選取不同的隱私保護(hù)參數(shù),根據(jù)Laplace噪聲的生成方法可視化其噪聲分布發(fā)現(xiàn),當(dāng)ε的取值越小,所添加的噪聲分布越分散且噪聲值大,此時(shí)算法的隱私保護(hù)程度比較高;反之,當(dāng)ε取值越大,所添加的噪聲趨于0,此時(shí)算法所損失的效用性最小,但相應(yīng)的隱私保護(hù)程度也降低。

(1)算法推薦精度與隱私保護(hù)參數(shù)的關(guān)系分析。分析在不同的隱私保護(hù)參數(shù)下推薦算法的推薦精度,其中參數(shù)設(shè)置如下:隱式分解維度為3,正則化參數(shù)為0.1,迭代次數(shù)為30,梯度下降學(xué)習(xí)速率為0.02。

實(shí)驗(yàn)結(jié)果如圖2所示,其中紅色曲線明顯低于綠色曲線,表示在無(wú)噪聲添加的情況下,考慮用戶(hù)以及項(xiàng)目的偏置因素會(huì)使得推薦精度更高。在進(jìn)行噪聲的添加后,如藍(lán)色與橘色曲線所示,在基于輸入擾動(dòng)的情況下,偏置項(xiàng)矩陣分解對(duì)噪聲的敏感度更低。橘色曲線表示隨著ε的增加,帶偏置項(xiàng)矩陣分解的推薦r逐漸降低,并在ε=15時(shí)趨近于無(wú)噪聲的推薦精度,這與我們的理論分析也相符合,即r∝1/ε,因此針對(duì)不同的推薦系統(tǒng)隱私保護(hù)程度需求以及推薦精度要求,可以選取對(duì)應(yīng)的ε。

圖2 平衡樣本中輸入擾動(dòng)時(shí)不同算法的推薦精度比較

(2)樣本的平衡性對(duì)于算法推薦精度的影響。在未經(jīng)過(guò)樣本平衡處理的原始評(píng)分矩陣上進(jìn)行相同的推薦實(shí)驗(yàn),結(jié)果如圖3所示,與圖2所得均方根誤差曲線趨勢(shì)相同。

圖3 非平衡樣本中輸入擾動(dòng)時(shí)不同算法的推薦精度比較

輸入擾動(dòng)下平衡樣本與非平衡樣本上的實(shí)驗(yàn)結(jié)果如圖4所示。由圖可知,無(wú)論是否添加噪聲擾動(dòng),平衡樣本下的推薦r都低于非平衡樣本下的,并且ε取值越大影響越明顯,說(shuō)明在隱式反饋的矩陣分解推薦中進(jìn)行樣本平衡處理是必要的。

圖4 輸入擾動(dòng)下樣本平衡性對(duì)推薦精度的影響

3.3 模型擾動(dòng)差分隱私推薦算法實(shí)驗(yàn)與結(jié)果分析

3.3.1 實(shí)驗(yàn)設(shè)計(jì) 為驗(yàn)證在模型擾動(dòng)算法下的結(jié)果,采用的對(duì)比實(shí)驗(yàn)有Clean MF、clean Biased MF、添加噪聲的基本矩陣分解算法(MNR MF)、帶偏置項(xiàng)矩陣分解算法(MNR Biased MF)以及文獻(xiàn)[20]中的差分隱私保護(hù)全局平均值(Global average)和差分隱私保護(hù)項(xiàng)目平均值(Item average)兩種方法。

3.3.2 實(shí)驗(yàn)結(jié)果分析

(1)算法推薦精度與隱私保護(hù)參數(shù)的關(guān)系分析。不同ε下推薦算法精度的比較如圖5所示。實(shí)驗(yàn)中相關(guān)參數(shù)的設(shè)置如下:隱式分解維度為3,正則化參數(shù)為0.05,梯度下降學(xué)習(xí)速率為0.01。由圖5可知,當(dāng)ε≥5時(shí),本文所使用的MNR Biased MF推薦精度高于Global average和Item average的推薦精度。觀察圖5中MNR MF與MNR Biased MF的推薦精度與隱私保護(hù)參數(shù)的關(guān)系發(fā)現(xiàn):ε=1時(shí),推薦精度相近;ε<1時(shí),即隱私保護(hù)程度比較高的時(shí)候,MNR MF算法推薦精度更高;ε>1時(shí),MNR Biased MF算法推薦精度更高。這表示MNR Biased MF的矩陣分解對(duì)過(guò)高的噪聲引入敏感性較高,但在隱私保護(hù)程度適中(ε≥5)的情況下,推薦精度在不損失過(guò)多時(shí)遠(yuǎn)高于MNR MF。

圖5 平衡樣本中模型擾動(dòng)時(shí)不同算法的推薦精度比較

(2)樣本的平衡性對(duì)于算法推薦精度的影響。在未經(jīng)過(guò)樣本平衡處理的原始評(píng)分矩陣上進(jìn)行相同的推薦實(shí)驗(yàn),結(jié)果如圖6所示,與圖5所得均方根誤差曲線趨勢(shì)相同。

圖6 非平衡樣本下模型擾動(dòng)時(shí)不同算法的推薦精度比較

樣本平衡與非平衡下的實(shí)驗(yàn)結(jié)果如圖7所示。無(wú)論是MNR MF還是 MNR Biased MF,樣本平衡后的推薦精度都更高。對(duì)于MNR Biased MF,當(dāng)ε≤4時(shí)樣本平衡處理的效果更加明顯,而對(duì)于MNR MF,ε≤2時(shí)樣本平衡處理的效果更加明顯。這表明樣本平衡性對(duì)于MNR MF的影響更顯著,因此實(shí)際中采用本節(jié)提出的MNR Biased MF能更好地均衡推薦精度與隱私保護(hù)程度。

圖7 模型擾動(dòng)下樣本平衡性對(duì)推薦精度的影響

3.4 均衡優(yōu)化與對(duì)比分析

根據(jù)上述實(shí)驗(yàn)中發(fā)現(xiàn)的ε越小隱私保護(hù)程度越高,r越小推薦精度越好,以及r與1/ε正相關(guān)的關(guān)系,可對(duì)min-max標(biāo)準(zhǔn)化后的兩個(gè)變量構(gòu)造優(yōu)化目標(biāo)如下

min(w1r+w2ε),w1+w2=1

(4)

經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)w1<0.6時(shí),r精度差,ε傾向取最小值;當(dāng)w1=0.6,輸入擾動(dòng)下在ε=7時(shí),模型擾動(dòng)下在ε=3時(shí),平衡樣本與樣本非平衡實(shí)驗(yàn)場(chǎng)景下的推薦精度與隱私保護(hù)程度達(dá)到均衡最優(yōu)。

同時(shí)對(duì)比分析發(fā)現(xiàn):在不同的ε下,如表1所示,相同隱私保護(hù)程度下無(wú)論樣本平衡與否,在ε取值較小時(shí),基于模型擾動(dòng)的推薦精度優(yōu)于基于輸入擾動(dòng)的,但當(dāng)ε取較大值(ε>5)時(shí),基于輸入擾動(dòng)的推薦精度優(yōu)于基于模型擾動(dòng)的。

表1 模型擾動(dòng)算法與輸入擾動(dòng)算法推薦預(yù)測(cè)評(píng)分精度比較

4 結(jié)論及展望

根據(jù)本文實(shí)驗(yàn)結(jié)果可知,矩陣分解的差分隱私保護(hù)推薦方案中,無(wú)論是輸入擾動(dòng)還是模型擾動(dòng),樣本平衡處理后推薦精度會(huì)提高,其對(duì)應(yīng)的推薦精度與差分隱私保護(hù)參數(shù)的倒數(shù)均呈正比關(guān)系,特別地,輸入擾動(dòng)與模型擾動(dòng)分別在ε取值7和3時(shí),推薦精度與隱私保護(hù)程度達(dá)到均衡。當(dāng)隱私保護(hù)程度較高,即ε≤5時(shí),基于模型擾動(dòng)的差分隱私矩陣分解推薦在相同的隱私保護(hù)程度下,優(yōu)于基于輸入擾動(dòng)的;當(dāng)隱私保護(hù)程度較低,即ε>5時(shí),基于輸入擾動(dòng)的差分隱私矩陣分解推薦在相同的隱私保護(hù)程度下,優(yōu)于基于模型擾動(dòng)的。根據(jù)模型擾動(dòng)算法對(duì)系統(tǒng)模型維護(hù)有更高要求的特點(diǎn)可得,對(duì)于隱私保護(hù)程度要求很高的推薦系統(tǒng),建議采用基于模型擾動(dòng)的矩陣分解差分隱私推薦,對(duì)于隱私保護(hù)程度要求適中的推薦系統(tǒng),建議采用維護(hù)成本較低的基于輸入擾動(dòng)的矩陣分解差分隱私推薦算法。

目前,差分隱私保護(hù)與在線學(xué)習(xí)資源推薦相結(jié)合的研究還相對(duì)較少,本文所提出的方案是一次很有意義的嘗試,有較強(qiáng)的實(shí)際應(yīng)用價(jià)值,但仍有優(yōu)化和完善的空間,下一步的工作將研究在增量隱式反饋數(shù)據(jù)下推薦算法的隱私保護(hù)問(wèn)題。