亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)用戶評(píng)分相似度的協(xié)同過濾推薦算法

        2022-02-03 07:12:02王詩淞劉偉哲孫雪蓮
        現(xiàn)代計(jì)算機(jī) 2022年21期
        關(guān)鍵詞:余弦計(jì)算方法修正

        王詩淞,劉偉哲,孫雪蓮

        (大連民族大學(xué)理學(xué)院,大連 116650)

        0 引言

        現(xiàn)如今,隨著計(jì)算機(jī)硬軟件技術(shù)的高速發(fā)展,數(shù)據(jù)規(guī)模呈現(xiàn)爆發(fā)式增長(zhǎng)的趨勢(shì),帶來了嚴(yán)重的“信息超載”問題[1],而個(gè)性化推薦算法成為解決這一問題的主要方式。憑借著原理較為簡(jiǎn)單、可解釋性較強(qiáng)等優(yōu)點(diǎn),協(xié)同過濾算法成為應(yīng)用最廣泛、最成功的推薦算法[2]。其中最常用的三種協(xié)同過濾算法為基于用戶的協(xié)同過濾[3]、基于項(xiàng)目的協(xié)同過濾[4]、基于模型的協(xié)同過濾[5]?;谟脩舻膮f(xié)同過濾推薦算法作為本文主要的研究算法,相似度計(jì)算作為其核心,其好壞直接影響著推薦結(jié)果。而在實(shí)際中,項(xiàng)目和用戶數(shù)量的龐大都會(huì)使評(píng)分矩陣變稀疏,從而影響推薦準(zhǔn)確度。

        為了解決上述問題,大量學(xué)者提出創(chuàng)新與改進(jìn)。吳錦昆等[6]提出一種引入用戶差異因子的皮爾遜相似度計(jì)算方法,解決用戶在不同評(píng)價(jià)體系中存在偏差的問題。潘錦豐等[7]提出一種相似度修正參數(shù)并與基于用戶屬性特征向量相融合,以此改進(jìn)相似度計(jì)算方法,解決用戶屬性存在偏差的問題。魏浩等[8]提出一種基于用戶與項(xiàng)目特征興趣的相似度算法,通過生成項(xiàng)目特征興趣矩陣提升推薦的準(zhǔn)確率。李港[9]將用戶評(píng)分信息熵與改進(jìn)的皮爾遜相似度計(jì)算方法相融合,形成一種新的相似度計(jì)算方法,提升了用戶之間相似度的精確性。

        上述研究工作雖在一定程度上提高了相似度計(jì)算的準(zhǔn)確性與推薦精度,但并不能很好地解決共同評(píng)分集合的數(shù)量差異、用戶評(píng)分?jǐn)?shù)值差異、項(xiàng)目熱門度差異和用戶興趣隨時(shí)間因素變化差異的問題。因此,本文提出一種融合權(quán)重因子、修正因子與時(shí)間衰減因子的改進(jìn)用戶相似度的協(xié)同過濾算法(IMPCOS-CF),以提升用戶相似度的準(zhǔn)確率與推薦算法的性能。

        1 傳統(tǒng)相似度計(jì)算方法

        1.1 余弦相似度

        余弦相似度(Cosine Similarity),也稱為余弦距離,它通過計(jì)算兩個(gè)向量之間的夾角對(duì)應(yīng)的余弦值來衡量二者間差異的標(biāo)準(zhǔn)[10]。計(jì)算公式如式(1)所示:

        1.2 Pearson相關(guān)系數(shù)

        Pearson 相關(guān)系數(shù)表示兩個(gè)隨機(jī)變量之間的相關(guān)程度,它的取值范圍為[-1,1],其絕對(duì)值越大,則兩個(gè)隨機(jī)變量之間的相關(guān)性就越強(qiáng)[11]。計(jì)算公式如式(2)所示:

        1.3 修正余弦相似度

        修正余弦相似度(Adjust Cosine Similarity)在計(jì)算中考慮到評(píng)分偏向?qū)υu(píng)分所造成的影響與評(píng)分尺度[12],使得相似度度量更加合理。計(jì)算公式如式(3)所示:

        上述三個(gè)公式中,sim(u,v)表示用戶u與用戶v 之間的相似度;ru,i表示用戶u對(duì)項(xiàng)目i的評(píng)分,rv,i表示用戶v對(duì)項(xiàng)目i的評(píng)分;Tu,v表示用戶u與用戶v的共同評(píng)分項(xiàng)目集合;表示項(xiàng)目i的平均評(píng)分;表示用戶u與用戶v對(duì)所有存在評(píng)分的項(xiàng)目的評(píng)分均值。

        2 本文改進(jìn)算法

        2.1 權(quán)重因子

        在使用傳統(tǒng)相似度計(jì)算方法時(shí),首先需要找到用戶之間的共同評(píng)分項(xiàng)目集合,其數(shù)量影響著相似度度量的準(zhǔn)確性。比如,有3 個(gè)用戶、5 個(gè)項(xiàng)目,他們對(duì)這5 個(gè)項(xiàng)目進(jìn)行評(píng)分,評(píng)分尺度為10 分制度,具體評(píng)分如表1 所示,空白部分代表用戶未進(jìn)行評(píng)分。

        表1 用戶-項(xiàng)目評(píng)分表1

        分別使用余弦相似度、修正余弦相似度、皮爾遜相關(guān)系數(shù)計(jì)算用戶A 與用戶B、用戶C 之間的相似度,具體結(jié)果如表2所示。

        表2 三種相似度計(jì)算方法得到的結(jié)果1

        皮爾遜相關(guān)系數(shù)的計(jì)算結(jié)果表明,用戶A與用戶B更為相似。但并非如此,通過表1可以看出,用戶A 與用戶B 的共同評(píng)分項(xiàng)僅有兩項(xiàng),而用戶A 與用戶C 有四項(xiàng),并且評(píng)分較為接近,所以用戶A 應(yīng)與用戶C 更為相似,這是皮爾遜相關(guān)系數(shù)在計(jì)算相似度時(shí)不合理的地方。而余弦相似度在計(jì)算中結(jié)合了用戶所有評(píng)分項(xiàng)目,修正余弦相似度在計(jì)算中結(jié)合了用戶所有共同評(píng)分的評(píng)分均值,它們都考慮到了共同評(píng)分?jǐn)?shù)量差異。因此,本文提出權(quán)重因子,將余弦相似度與修正余弦相似度相融合。具體公式如式(4)所示:

        其中:

        α的具體范圍為(0,1),其具體數(shù)值根據(jù)后續(xù)實(shí)驗(yàn)結(jié)果進(jìn)行選取。

        2.2 修正因子

        在實(shí)際中,用戶喜歡某個(gè)項(xiàng)目的程度與其評(píng)分有關(guān)。但傳統(tǒng)的計(jì)算方法考慮的是兩個(gè)向量的趨勢(shì)相關(guān)性,忽略了不同用戶對(duì)相同項(xiàng)目的具體評(píng)分?jǐn)?shù)值差異,導(dǎo)致結(jié)果缺乏準(zhǔn)確性。

        比如,有2 個(gè)用戶、5 個(gè)項(xiàng)目,他們對(duì)這5個(gè)項(xiàng)目進(jìn)行評(píng)分,評(píng)分尺度為10 分制度,具體評(píng)分如表3所示。

        表3 用戶-項(xiàng)目評(píng)分表2

        根據(jù)上一小節(jié),選取余弦相似度與修正余弦相似度分別計(jì)算用戶A 與用戶B 的相似度,具體結(jié)果如表4所示。

        表4 不同相似度計(jì)算方法的結(jié)果2

        根據(jù)表4 的結(jié)果,用戶A 與用戶B 的興趣十分相似。通過表3中具體評(píng)分?jǐn)?shù)值來看,雖然他們都對(duì)5個(gè)項(xiàng)目進(jìn)行了評(píng)分,但他們對(duì)于每個(gè)項(xiàng)目的評(píng)分?jǐn)?shù)值都有很大差異。比如項(xiàng)目1,用戶B給出滿分10分,而用戶A只打了4分,這表明用戶B 對(duì)項(xiàng)目1 很感興趣,而用戶A 對(duì)它不是特別的滿意,所以二者的興趣點(diǎn)有很大差異。

        在使用余弦相似度與修正余弦相似度進(jìn)行用戶的相似度計(jì)算時(shí),只考慮了用戶的評(píng)分記錄,忽略了用戶的具體評(píng)分?jǐn)?shù)值。因此,本文提出評(píng)分?jǐn)?shù)值差異修正因子,具體公式如式(7)所示:

        式中:fac1(u,v)表示衡量用戶u與用戶v之間具體評(píng)分?jǐn)?shù)值差異的修正因子;ru,i表示用戶u對(duì)項(xiàng)目i的評(píng)分,rv,i為用戶v對(duì)項(xiàng)目i的評(píng)分;Tu,v為用戶u與用戶v的所有已評(píng)分項(xiàng)目中的共同該項(xiàng)目集合;n為用戶u與用戶v的共同評(píng)分項(xiàng)目集合的數(shù)量。當(dāng)修正因子越小時(shí),兩個(gè)用戶之間的評(píng)分?jǐn)?shù)值差距越大。

        傳統(tǒng)的相似度計(jì)算方法對(duì)任何一個(gè)項(xiàng)目的權(quán)重值是一致的,這種方法不能完全體現(xiàn)出用戶之間的相似性[13],本文提出項(xiàng)目熱門度差異的修正因子,具體公式如式(8)所示:

        其中,fac2(i)為衡量項(xiàng)目i的熱門度差異的修正因子;N(i)為對(duì)項(xiàng)目i有過評(píng)分記錄的所有用戶個(gè)數(shù),即項(xiàng)目i的評(píng)分?jǐn)?shù)量;all為用戶-項(xiàng)目評(píng)分矩陣的所有用戶數(shù)量。

        2.3 時(shí)間衰減因子

        用戶的興趣偏好會(huì)受到時(shí)間因素的影響[14]。在計(jì)算相似度時(shí),將時(shí)間因素考慮至其中,捕捉用戶的興趣偏好的動(dòng)態(tài)變化,從而提升相似度計(jì)算的準(zhǔn)確性。本文提出時(shí)間衰減因子,函數(shù)如式(9)所示:

        其中,λ=T0-1為衰減率,即為用戶的興趣偏好的衰減速度,在實(shí)際應(yīng)用中,用戶的興趣偏好變化是通過調(diào)整λ的大小來實(shí)現(xiàn)的,若用戶的興趣偏好改變速度較快,則通過增大λ來適應(yīng)。

        2.4 最終改進(jìn)的相似度計(jì)算方法

        綜合上述小節(jié),將修正因子、時(shí)間衰減因子分別引入式(4)中,得到本文提出的新的用戶相似度計(jì)算方法,如式(10)所示:

        其中:

        Tu,v表示用戶u與用戶v的共同評(píng)分項(xiàng)目集合;tu,i與tv,i分別表示用戶u與用戶v對(duì)項(xiàng)目i的評(píng)價(jià)時(shí)間。tu,v越小,兩位用戶對(duì)于同一個(gè)項(xiàng)目的評(píng)分時(shí)間就越接近,其相似性就越高。

        3 仿真實(shí)驗(yàn)

        3.1 所用數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        本文仿真實(shí)驗(yàn)采用MovieLens-1M 數(shù)據(jù)集[15],它是6040 名用戶對(duì)3952 部電影約一百萬條評(píng)分?jǐn)?shù)據(jù),每名用戶至少有20 個(gè)評(píng)分。本文通過交叉驗(yàn)證法進(jìn)行實(shí)驗(yàn),訓(xùn)練集選取其中80%的數(shù)據(jù),測(cè)試集選取其中20%的數(shù)據(jù)。

        實(shí)驗(yàn)對(duì)于算法的預(yù)測(cè)評(píng)分準(zhǔn)確性所采用的評(píng)價(jià)標(biāo)準(zhǔn)為平均絕對(duì)誤差MAE,如式(15)所示:

        式中:Rtest表示測(cè)試集;Ru,i表示用戶u對(duì)項(xiàng)目i的評(píng)分;表示用戶u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分。平均絕對(duì)誤差值越小,說明算法的預(yù)測(cè)準(zhǔn)確度越高。

        算法的分類評(píng)分準(zhǔn)確性所采用的評(píng)價(jià)標(biāo)準(zhǔn)為召回率Reacll,如式(16)所示:

        其中,R(u)為按照用戶u在訓(xùn)練集上的行為預(yù)測(cè)出的推薦列表,T(u)為用戶u在測(cè)試集上的實(shí)際的物品列表。值越高,說明算法的分類準(zhǔn)確性越高。

        3.2 實(shí)驗(yàn)流程

        步驟1:根據(jù)數(shù)據(jù)集中用戶歷史行為信息構(gòu)建用戶-項(xiàng)目評(píng)分矩陣、用戶-項(xiàng)目評(píng)分時(shí)間信息矩陣。

        步驟2:計(jì)算目標(biāo)用戶的時(shí)間衰減因子、評(píng)分?jǐn)?shù)值差異修正因子、每個(gè)項(xiàng)目的熱門度差異的修正因子。

        步驟3:通過改進(jìn)的相似度計(jì)算方法計(jì)算目標(biāo)用戶與其他用戶的評(píng)分相似度。

        步驟4:將步驟3 中的評(píng)分相似度結(jié)果進(jìn)行降序排列,將前N名用戶集合作為該用戶的最近鄰集合。

        步驟5:預(yù)測(cè)目標(biāo)用戶尚未進(jìn)行評(píng)分的項(xiàng)目的評(píng)分。

        步驟6:根據(jù)得到的評(píng)分預(yù)測(cè)結(jié)果計(jì)算MAE值。

        3.3 實(shí)驗(yàn)結(jié)果及對(duì)比分析

        3.3.1 實(shí)驗(yàn)一:相關(guān)參數(shù)確定

        首先,選取最優(yōu)的最近鄰用戶集合數(shù)量N,分別使用余弦相似度(COS)、修正余弦相似度(ACOS)、引入修正因子的余弦相似度(NEWCOS)、引入修正因子的修正余弦相似度(NEWACOS)的協(xié)同過濾算法在MovieLens-1M數(shù)據(jù)集上進(jìn)行仿真對(duì)比實(shí)驗(yàn),最近鄰用戶集數(shù)量N取值范圍為[10,80],步長(zhǎng)為10。實(shí)驗(yàn)結(jié)果如圖1所示。

        圖1 引入修正因子后的MAE值對(duì)比

        由圖1 可知,當(dāng)N=30 時(shí),NEWCOS 與NEWACOS 計(jì)算出的MAE值最小,因此在后續(xù)實(shí)驗(yàn)中N取30。繼續(xù)使用NEWCOS 與NEWACOS 進(jìn)行實(shí)驗(yàn),λ的取值范圍為[0.01,0.1],步長(zhǎng)設(shè)置為0.01,鄰居數(shù)N取30,實(shí)驗(yàn)結(jié)果如圖2所示。

        通過圖2,當(dāng)λ=0.04 時(shí),NEWCOS 與NEWA-COS 的的召回率Reacll值均達(dá)到最大。因此,選取λ=0.04 作為時(shí)間衰減因子,以達(dá)到最好的推薦效果。

        圖2 不同λ取值下的召回率

        通過使用引入權(quán)重因子、修正因子、時(shí)間衰減的相似度計(jì)算方法的協(xié)同過濾算法(IMPCOS-CF)在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),α 的取值范圍為[0,1],步長(zhǎng)設(shè)置為0.1,鄰居數(shù)N取30,時(shí)間衰減因子λ取0.04,實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 不同α取值下的MAE值

        由圖3 可知,當(dāng)α=0.4 時(shí),MAE值最低,其中當(dāng)α在[0.1,0.4]時(shí),MAE值不斷降低,之后隨著α的不斷增加,MAE值逐漸升高。因此當(dāng)權(quán)重因子α=0.4時(shí),基于IMPCOS-CF 得到的相似度度量的準(zhǔn)確性最高,推薦算法的性能最優(yōu)。

        3.3.2 實(shí)驗(yàn)二:與其他算法對(duì)比

        根據(jù)上述實(shí)驗(yàn)確定時(shí)間衰減因子、權(quán)重因子后,為了進(jìn)一步驗(yàn)證本文所提出算法的性能,在本實(shí)驗(yàn)條件環(huán)境下將其與傳統(tǒng)基于用戶的協(xié)同過濾算法(User-CF)、基于袁正午[16]提出的基于多層次混合相似度的協(xié)同過濾推薦算法(LEVUser-CF)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。

        由圖4可知,隨著最近鄰用戶集合數(shù)量N的增加,三種算法的MAE值均呈現(xiàn)出減小并趨于穩(wěn)定的趨勢(shì)。不僅如此,IMPCOS-CF的MAE值低于其他兩種算法。當(dāng)N為30 時(shí),IMPCOS-CF的MAE值達(dá)到最低;當(dāng)N為50時(shí),LEVUser-CF的MAE值略高于IMPCOS-CF算法。IMPCOS-CF相比User-CF,其MAE值平均降低了5.43%;相比于LEVUSer-CF,其MAE值平均降低了0.082%,說明本IMPCOS-CF 的用戶評(píng)分預(yù)測(cè)準(zhǔn)確性更高,算法的性能更強(qiáng)。

        圖4 不同算法的MAE值對(duì)比

        4 結(jié)語

        針對(duì)基于用戶的協(xié)同過濾算法在相似度計(jì)算時(shí)的不足之處,本文引入權(quán)重因子、針對(duì)用戶評(píng)分?jǐn)?shù)值差異與項(xiàng)目熱門度差異的修正因子、時(shí)間衰減因子對(duì)傳統(tǒng)的余弦相似度與修正余弦相似度進(jìn)行融合與改進(jìn);并在MovieLens 數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),通過與傳統(tǒng)協(xié)同過濾算法、其他改進(jìn)的協(xié)同過濾算法進(jìn)行對(duì)比,結(jié)果表明本文提出的IMPCOS-CF 算法能有效提高推薦算法的性能。

        猜你喜歡
        余弦計(jì)算方法修正
        浮力計(jì)算方法匯集
        Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
        修正這一天
        快樂語文(2021年35期)2022-01-18 06:05:30
        合同解釋、合同補(bǔ)充與合同修正
        法律方法(2019年4期)2019-11-16 01:07:28
        軟件修正
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
        亚洲综合av永久无码精品一区二区| 国产精品久久夜伦鲁鲁| 国产女人精品一区二区三区| 精品亚洲a∨无码一区二区三区| 亚洲av无码之国产精品网址蜜芽| 夜夜春精品视频| 中文字幕这里都是精品| 久久精品国产亚洲av超清| 国产精品制服| 国产成人精品三级在线影院| 极品新娘高清在线观看| 99精品国产在热久久无毒不卡| 青青草中文字幕在线播放| 亚洲精品中文字幕乱码三区| 亚洲av中文无码字幕色三| 中文字幕大乳少妇| 国产成人av三级在线观看韩国| 无码中文亚洲av影音先锋| 亚洲а∨天堂久久精品2021| 超碰日韩AV在线| 97中文乱码字幕在线| 欧美做受又硬又粗又大视频| 国产第一页屁屁影院| 亚洲综合国产成人丁香五月小说| 亚洲视频在线观看第一页| 日韩精品久久久久久免费| 久久无码人妻一区二区三区午夜| 亚洲日韩精品久久久久久| 一区二区三区免费自拍偷拍视频| 在线观看人成视频免费| 又爆又大又粗又硬又黄的a片| 日韩人妻无码精品二专区| 日韩有码在线观看视频| 国产精品永久在线观看| 蜜桃av噜噜一区二区三区| 少妇高潮无码自拍| 中文字幕文字幕视频在线| 成人麻豆日韩在无码视频| 熟女俱乐部五十路二区av| 日本高清一区二区在线观看| 无码伊人66久久大杳蕉网站谷歌|