亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        相似性與置信系數(shù)為基礎(chǔ)的推薦系統(tǒng)評(píng)分預(yù)測(cè)

        2021-05-10 07:14:50王佳偉沈昱明
        關(guān)鍵詞:用戶方法

        蘇 湛,王佳偉,艾 均,沈昱明

        (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

        1 引 言

        用戶在互聯(lián)網(wǎng)上尋找合適內(nèi)容的時(shí)候,往往會(huì)遇到海量的信息和物品,像是電影、書籍、商品等等.為了解決這類問題,推薦算法經(jīng)常使用不同類型模型進(jìn)行推薦系統(tǒng)中的評(píng)分預(yù)測(cè)或鏈路預(yù)測(cè)(將評(píng)分考慮成邊連接,分值考慮成邊權(quán)重)進(jìn)行預(yù)測(cè),然后預(yù)測(cè)權(quán)重或評(píng)分最高的物品推薦給用戶.在此基礎(chǔ)上,可以節(jié)省用戶搜索物品所花費(fèi)的時(shí)間.鏈路預(yù)測(cè)(包括評(píng)分預(yù)測(cè))方法通常分為基于內(nèi)容的算法[1]和協(xié)同過(guò)濾算法[2,3].

        現(xiàn)實(shí)推薦系統(tǒng)中的評(píng)分預(yù)測(cè)通常結(jié)合基于內(nèi)容的方法和協(xié)同過(guò)濾算法,以達(dá)到最佳的預(yù)測(cè)準(zhǔn)確度.前者是充分利用用戶的個(gè)人數(shù)據(jù)、物品內(nèi)容、物品特征,根據(jù)用戶以前喜歡的內(nèi)容推薦對(duì)象[4].后者通過(guò)使用目標(biāo)用戶的歷史評(píng)分生成推薦.

        一般來(lái)說(shuō),推薦算法[5]通常分為3類,包括基于用戶的算法[6]、基于物品的方法[7]和基于模型的方法[8].基于用戶的算法在興趣愛好或評(píng)分方面找出與目標(biāo)用戶相似的鄰居,然后選擇相似鄰居喜歡的物品,并將其推薦給目標(biāo)用戶[9].

        相比之下,基于物品的算法會(huì)找出目標(biāo)用戶喜歡的物品,找出與其相似的物品,然后過(guò)濾掉相似度低的物品,并向目標(biāo)用戶推薦相似的物品[10].此外,基于模型的算法首先基于歷史數(shù)據(jù)構(gòu)建模型,并使用該模型進(jìn)行預(yù)測(cè)[11].

        在這個(gè)過(guò)程中,相似鄰居的選擇有著重要的影響.許多學(xué)者對(duì)這一課題做了大量的研究.Ma等人提出了一種基于奇異值分解(SVD)符號(hào)的聚類方法來(lái)收集用戶評(píng)分以外的社會(huì)信任信息,有效地解決了冷啟動(dòng)問題[12].Nikolaos Polatidi 等提出了一種基于協(xié)同過(guò)濾算法的多層次方法,通過(guò)共同評(píng)分的物品的數(shù)量,劃分為不同的計(jì)算方法,更細(xì)膩地計(jì)算用戶之間的相似性[13].徐毅等提出一種新的基于概率矩陣分解的推薦算法,運(yùn)用信任關(guān)系與相似度獲取用戶之間的加權(quán)關(guān)系,從而提出一種融合用戶信任度與相似度的推薦算法[14].

        Liu等提出了一種新的節(jié)點(diǎn)相似度計(jì)算模型,即共同影響集.所提出的鏈路預(yù)測(cè)算法使用兩個(gè)不相連節(jié)點(diǎn)的共同影響集來(lái)計(jì)算兩個(gè)節(jié)點(diǎn)之間的相似度得分[15].尹永超等通過(guò)節(jié)點(diǎn)與其對(duì)應(yīng)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的結(jié)構(gòu)相似度來(lái)計(jì)算節(jié)點(diǎn)對(duì)之間的連接概率,從而預(yù)測(cè)兩個(gè)節(jié)點(diǎn)之間產(chǎn)生連接的可能性[16].

        另一方面,由于物品和用戶之間的復(fù)雜性,推薦系統(tǒng)通常被建模為復(fù)雜網(wǎng)絡(luò)[17-19]模型.因此,人們通過(guò)網(wǎng)絡(luò)科學(xué)進(jìn)行了各種各樣的探索以完成預(yù)測(cè)和推薦[20,21].以用戶和物品為節(jié)點(diǎn),以用戶和物品之間的評(píng)分為邊,利用復(fù)雜網(wǎng)絡(luò)中的中心性、社團(tuán)發(fā)現(xiàn)[22]等方法,對(duì)推薦系統(tǒng)進(jìn)行建模和分析,并基于此對(duì)用戶評(píng)分進(jìn)行預(yù)測(cè).

        除了推薦系統(tǒng)之外,鏈路預(yù)測(cè)可以應(yīng)用于更多相關(guān)領(lǐng)域.例如,研究人員可以使用鏈路預(yù)測(cè)算法向社交網(wǎng)絡(luò)中的個(gè)人推薦潛在朋友.在生物網(wǎng)絡(luò)中,鏈接預(yù)測(cè)算法可用于發(fā)現(xiàn)蛋白質(zhì)之間缺失的連接,以防止高成本的實(shí)驗(yàn)[23].在這些預(yù)測(cè)過(guò)程中,預(yù)測(cè)的不單單是評(píng)分,而是節(jié)點(diǎn)間是否存在邊.

        通過(guò)對(duì)用戶或物品的復(fù)雜網(wǎng)絡(luò)進(jìn)行建模,結(jié)果表明,該方法可以提高鏈路預(yù)測(cè)或評(píng)分預(yù)測(cè)的準(zhǔn)確度,避免某類型的冷啟動(dòng)問題.例如,Ai和Su等人提出了一種基于空間分布模型的鏈路預(yù)測(cè)方法[20],基于物品共享標(biāo)簽相似度避免了物品冷啟動(dòng)問題.在這類方法中,還可以利用用戶節(jié)點(diǎn)的屬性和用戶評(píng)分的行為對(duì)復(fù)雜網(wǎng)絡(luò)進(jìn)行建模,并基于多因素社區(qū)檢測(cè)預(yù)測(cè)鏈路及其權(quán)重[24].作者認(rèn)為,通過(guò)建立復(fù)雜網(wǎng)絡(luò)模型和社區(qū)檢測(cè)可以提高推薦系統(tǒng)預(yù)測(cè)的準(zhǔn)確度.

        另一方面,該領(lǐng)域中一些研究揭示了聚類也是一種有效的預(yù)測(cè)輔助方法.V.Subramaniyaswamy提出了一個(gè)基于語(yǔ)義的上下文挖掘推薦框架.在用戶聚類過(guò)程中,采用自適應(yīng)k近鄰(AKNN)算法,通過(guò)選擇合適屬性提高預(yù)測(cè)準(zhǔn)確度[25].除此以外,該文作者認(rèn)為該方法能有效地解決了系統(tǒng)的可擴(kuò)展性、稀疏性和冷啟動(dòng)問題.

        一般的聚類方法比如kNN都是以一種指標(biāo)作為聚類的指標(biāo),這樣就受到單一指標(biāo)的局限性,并且如果為每一用戶進(jìn)行聚類就需要花費(fèi)大量的時(shí)間.

        在現(xiàn)有的大多數(shù)工作中,用戶之間的相似性是選擇鄰居的關(guān)鍵.領(lǐng)域內(nèi)現(xiàn)有方法大多基于相似性選最高值選擇k個(gè)鄰居或kNN對(duì)鄰居相似性進(jìn)行聚類,選擇其中的部分鄰居是常見的方法.然而,該類型算法往往所需較多的鄰居才能到達(dá)評(píng)分預(yù)測(cè)準(zhǔn)確度的最優(yōu)值,在大規(guī)模的推薦系統(tǒng)中,更多鄰居意味著系統(tǒng)計(jì)算時(shí)間大增.同時(shí),基于單一因素選擇鄰居必然存在一定誤差,從而影響評(píng)分預(yù)測(cè)準(zhǔn)確性的進(jìn)一步提升.

        本文的主要科學(xué)問題和貢獻(xiàn)是針對(duì)目標(biāo)節(jié)點(diǎn)與潛在鄰居間的相似性和置信系數(shù)兩個(gè)因素對(duì)其鄰居進(jìn)行聚類,從而為目標(biāo)用戶找到更加有效的鄰居進(jìn)行推薦系統(tǒng)評(píng)分預(yù)測(cè).并通過(guò)研究復(fù)雜網(wǎng)絡(luò)模型中的不同聚類和社團(tuán)檢測(cè)算法對(duì)評(píng)分預(yù)測(cè)過(guò)程中鄰居選擇的影響,研究了如何對(duì)鄰居聚類的有效方法進(jìn)行進(jìn)一步的簡(jiǎn)化,以降低計(jì)算復(fù)雜度.本文的研究表明,在鄰居選擇中考慮相似度和置信度系數(shù)的情況下,最優(yōu)評(píng)分預(yù)測(cè)準(zhǔn)確性需要的鄰居數(shù)量減少60%,并且最優(yōu)預(yù)測(cè)準(zhǔn)確性在鄰居數(shù)量更少的情況下,準(zhǔn)確性也得到提高.

        2 算法設(shè)計(jì)

        2.1 推薦系統(tǒng)定義與評(píng)分預(yù)測(cè)算法步驟

        在本文研究的方法中,有m個(gè)用戶和n個(gè)物品,它們分別構(gòu)成了兩個(gè)集合:用戶集合U={u1,u2,…,um}和物品集合O={o1,o2,…,on},每個(gè)用戶對(duì)其使用過(guò)的物品評(píng)分組成矩陣R={riα}∈Rm,n,其中riα表示用戶i對(duì)物品α的評(píng)分值,評(píng)分范圍在[1,5]之間取整數(shù).為了方便知道某位用戶是否對(duì)某件物品進(jìn)行評(píng)分,設(shè)立矩陣A={aiα}∈Rm,n,aiα若為1表示用戶i評(píng)價(jià)過(guò)物品α,為0則表示用戶i沒有評(píng)價(jià)過(guò)物品α.根據(jù)上面的信息構(gòu)建一個(gè)用戶-物品網(wǎng)絡(luò),ki和kα分別表示用戶節(jié)點(diǎn)和物品節(jié)點(diǎn)的度值.

        在上述推薦系統(tǒng)中,本文算法包含的主要流程如圖1所示.

        圖1 推薦系統(tǒng)評(píng)分預(yù)測(cè)流程圖

        針對(duì)每個(gè)劃分好的數(shù)據(jù)集,算法和核心步驟包括:1)從訓(xùn)練集中提取用戶對(duì)物品的評(píng)分,然后進(jìn)行歸一化;2)基于歸一化數(shù)據(jù)計(jì)算用戶之間相似性與相似性的對(duì)應(yīng)置信系數(shù);3)基于相似性和置信系數(shù)結(jié)果對(duì)用戶進(jìn)行聚類;4)選擇相似性和置信系數(shù)都較大的用戶社團(tuán)作為鄰居;5)基于鄰居預(yù)測(cè)目標(biāo)用戶對(duì)某物品的評(píng)分.

        通過(guò)對(duì)給定集合中用戶對(duì)物品的評(píng)分進(jìn)行預(yù)測(cè),算法對(duì)測(cè)試集中評(píng)分預(yù)測(cè)的結(jié)果可以用來(lái)度量算法預(yù)測(cè)結(jié)果誤差,誤差越小,算法性能越好.在實(shí)際系統(tǒng)中,對(duì)目標(biāo)用戶未評(píng)分的物品集合進(jìn)行評(píng)分預(yù)測(cè),再將預(yù)測(cè)評(píng)分最高的若干項(xiàng)物品推薦給該目標(biāo)用戶,就完成了推薦系統(tǒng)的推薦任務(wù).

        該算法中的步驟3)與步驟4)是其核心,與以往算法單獨(dú)依據(jù)相似性進(jìn)行鄰居選擇不同,本文算法應(yīng)用相似度和置信系數(shù)兩個(gè)參數(shù)進(jìn)行鄰居的選擇研究.

        基于相似度和置信系數(shù),本文通過(guò)聚類方法對(duì)目標(biāo)用戶的潛在鄰居進(jìn)行分類,選出相似性核置信系數(shù)均較高的那一組用戶作為鄰居.隨后對(duì)鄰居聚類方法進(jìn)行了進(jìn)一步改進(jìn)研究,以找出聚類效果最佳且時(shí)間復(fù)雜度較低的方法.最后在MovieLens數(shù)據(jù)集上對(duì)設(shè)計(jì)的多種方法進(jìn)行了驗(yàn)證.

        2.2 相似度和置信系數(shù)的定義

        2.2.1 評(píng)分的歸一化

        相似度計(jì)算需要用戶對(duì)物品的評(píng)分.但不同的用戶可能對(duì)同一商品有不同的評(píng)分習(xí)慣.例如,一些用戶有更高的要求,他們通常只會(huì)給出較低的評(píng)分.而另一些用戶更隨和一些,他們往往會(huì)給予更高的評(píng)分.為了減少來(lái)自用戶的偏差,從[26]中采用了歸一化的評(píng)分公式.

        (1)

        2.2.2 用戶間相似度

        本文中所用的相似性計(jì)算公式是李林志提出的基于傳播的相似性公式[27]:

        (2)

        該相似性計(jì)算公式中ki表示用戶的度,kα表示物品的度.歸一化后用戶i和用戶j對(duì)共同評(píng)價(jià)過(guò)的電影α的評(píng)分越相近,共同評(píng)分過(guò)的電影越多,用戶i和用戶j越相似.例如有用戶i,j,k3人,他們對(duì)電影的評(píng)分記錄中最高分都為5分,最低分都為1分.他們對(duì)某部電影α的評(píng)分為3、3、5分.如果從這一條數(shù)據(jù)預(yù)測(cè)用戶i對(duì)這部電影α的評(píng)分,通過(guò)公式(1)可以計(jì)算出歸一化后的值為:eiα=0,ejα=0,ekα=1.通過(guò)公式(2)的計(jì)算結(jié)果可以看出用戶j對(duì)用戶i的影響為1,用戶k對(duì)用戶i的影響為0,用戶j對(duì)這部電影的評(píng)分比用戶k的評(píng)分更可靠一點(diǎn).從公式的計(jì)算結(jié)果看出這符合用戶評(píng)分的含義.

        在原來(lái)相似度公式的基礎(chǔ)上結(jié)合置信度系數(shù)f(n)得到新的相似度:

        (3)

        2.2.3 用戶間置信系數(shù)

        2.3 基于相似性與置信系數(shù)雙因素鄰居選擇的評(píng)分預(yù)測(cè)

        2.3.1 基于K-Means的雙因素鄰居聚類選擇算法

        其次考慮使用K-Means聚類來(lái)選取鄰居.K-Means聚類是一種常用的“無(wú)監(jiān)督學(xué)習(xí)”的算法,其目的是將n個(gè)觀測(cè)值分成k個(gè)聚類,其中每個(gè)觀測(cè)值都屬于最近均值聚類.在其中一個(gè)集群中假設(shè)可信鄰居用戶,因?yàn)樗麄兊南嗨菩院托湃蜗禂?shù)應(yīng)該相對(duì)高于其他鄰居.

        (4)

        如圖2所示Kmeans-2聚類結(jié)束后,樣本集Xi會(huì)分成兩個(gè)簇C1和C2,簇的質(zhì)心分別為μ1和μ2,質(zhì)心為μ2的簇C2相似度和置信系數(shù)較大,本文中選取C2內(nèi)的數(shù)據(jù)作為評(píng)分預(yù)測(cè)鄰居選擇的范圍.圖2是以用戶1為對(duì)象進(jìn)行聚類后的鄰居分布情況,圓形淺色節(jié)點(diǎn)為C2中的節(jié)點(diǎn),菱形深色節(jié)點(diǎn)為C1的節(jié)點(diǎn).圖3是以用戶1為對(duì)象進(jìn)行聚類后的網(wǎng)絡(luò)局部圖,深色節(jié)點(diǎn)屬于C2,淺色節(jié)點(diǎn)屬于C1.

        圖2 以用戶1為參照點(diǎn)進(jìn)行K-Means聚類分布圖

        圖3 以用戶1為參照點(diǎn)進(jìn)行K-Means聚類后的網(wǎng)絡(luò)局部圖

        Kmeans-2聚類后C2內(nèi)是否有充足的鄰居這是一個(gè)重要的問題,文中將樣本集Xi每次C2內(nèi)的數(shù)據(jù)點(diǎn)數(shù)進(jìn)行統(tǒng)計(jì),依據(jù)數(shù)據(jù)點(diǎn)數(shù)出現(xiàn)的次數(shù).可以從圖4中看出聚類后C2內(nèi)至少有42個(gè)鄰居,因此Kmeans-2聚類后C2內(nèi)有足夠的鄰居用來(lái)進(jìn)行預(yù)測(cè).

        圖4 針對(duì)各用戶聚類后C2內(nèi)鄰居數(shù)分布點(diǎn)圖

        2.3.2 針對(duì)K-Means鄰居聚類方法的改進(jìn)研究

        在對(duì)用戶i進(jìn)行聚類之后,C1中仍然有兩種類型的鄰居.本文稱C1中相似度和置信系數(shù)較小的鄰域?yàn)榇我従?相比之下,其他C1鄰居根據(jù)其與目標(biāo)用戶更高的相似度和置信度被稱為主要鄰居.換句話說(shuō),C1被分為兩個(gè)子組.

        為了詳細(xì)分析兩類鄰居對(duì)預(yù)測(cè)結(jié)果的影響,進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度,提出了基于Kmeans-2算法的主次鄰居平衡方法.

        2.3.3 降低聚類算法的時(shí)間復(fù)雜度

        由于在上述的聚類過(guò)程中,每個(gè)用戶都需要進(jìn)行K-Means聚類,因此該算法比其他算法需要更多的時(shí)間來(lái)完成.為了減少時(shí)間消耗,本文提出了如下改進(jìn)算法.

        由于每個(gè)用戶必須都需要重新進(jìn)行聚類,因此K-Means聚類必須重復(fù)多次.降低復(fù)雜性的一種方法是在圖2中為一組鄰居設(shè)置閾值.任何相似度大于相似度閾值且置信系數(shù)大于置信系數(shù)閾值的鄰居都被歸為C1.該方法是對(duì)潛在鄰居進(jìn)行無(wú)迭代聚類,在實(shí)驗(yàn)部分稱為簡(jiǎn)單聚類.在本文的工作中,本文選擇了閾值來(lái)保持最大的40%和30%的相似性和置信系數(shù).所以C1的鄰居數(shù)與其他方法大致相同.

        此外,如果本文把所有的目標(biāo)用戶和他們的鄰居放在一起考慮,計(jì)算復(fù)雜度會(huì)大大降低.因此提出了一種基于整體的聚類方法.所有用戶的所有鄰居都放置在一個(gè)二維空間中,僅僅一次聚類就確定C1和C2.此方法在實(shí)驗(yàn)部分標(biāo)記為All-Kmeans.

        2.3.4 目標(biāo)用戶對(duì)物品的評(píng)分預(yù)測(cè)

        通過(guò)相似度計(jì)算,通過(guò)公式(5)可以得到目標(biāo)用戶和目標(biāo)物品之間的預(yù)測(cè)評(píng)分.值得注意的是,相似性是由公式(3)的方法給出的.

        (5)

        此外,在上面公式的基礎(chǔ)上還可以進(jìn)一步考慮1級(jí)和2級(jí)鄰居,為此提出了公式(6):

        (6)

        其中n1是用戶i鄰居中主要鄰居的數(shù)量,n2是用戶i鄰居中次要鄰居的數(shù)量,W1和W2是設(shè)定的權(quán)值,它們之和為1.

        3 實(shí)驗(yàn)和結(jié)果分析

        3.1 數(shù)據(jù)集和預(yù)測(cè)準(zhǔn)確性度量

        為了驗(yàn)證本文提出的方法的有效性,本文利用MovieLens的數(shù)據(jù)進(jìn)行了實(shí)驗(yàn).該數(shù)據(jù)集包含671個(gè)用戶、9125部電影和100004個(gè)用戶的電影評(píng)分記錄.用戶的評(píng)分從1-5不等.此外,數(shù)據(jù)集被隨機(jī)分成10組,并使用折10交叉驗(yàn)證,以確保結(jié)果在統(tǒng)計(jì)學(xué)上是可靠的[29].最終結(jié)果是10倍交叉驗(yàn)證中所有實(shí)驗(yàn)的平均值.本文從1,3,5,10,20,30,…,140-150中選擇參考鄰居的數(shù)量.

        為了進(jìn)行預(yù)測(cè)準(zhǔn)確度的比較,文中引用了現(xiàn)有文獻(xiàn)中基于用戶的UOS和Pearson-RF方法.UOS方法是2017年發(fā)布的推薦系統(tǒng)中的鏈路預(yù)測(cè)方法.該方法將觀點(diǎn)傳播原理引入到鏈路預(yù)測(cè)中,考慮用戶的評(píng)分習(xí)慣,根據(jù)用戶的共享評(píng)分計(jì)算用戶的相似度.Pearson-RF方法是一種改進(jìn)的Pearson協(xié)作過(guò)濾算法[28],于2019年發(fā)表.近幾年的方法僅僅考慮了相似性和置信系數(shù)作為預(yù)測(cè)的重要因素,而沒有對(duì)潛在鄰居進(jìn)行聚類.因?yàn)閁OS在2018的文獻(xiàn)[30]中與領(lǐng)域內(nèi)的各種新方法進(jìn)行了橫向比較,故可以作為參照,從理論上進(jìn)一步推斷本文算法的性能.

        為了檢驗(yàn)這些算法的有效性,本文使用了平均絕對(duì)誤差(MAE)[31]和均方根誤差(RMSE)[28].通過(guò)比較算法給出的實(shí)際評(píng)分和預(yù)測(cè)評(píng)分,發(fā)現(xiàn)MAE和RMSE越小,算法的效率越高.由于RMSE對(duì)預(yù)測(cè)誤差進(jìn)行平方處理,因此會(huì)對(duì)誤差進(jìn)行更嚴(yán)厲的懲罰.

        (7)

        (8)

        3.2 結(jié)果和分析

        如圖5所示,本文所有提出的方法,包括Kmeans-2、Kmeans0、Kmeans-2-30、All-Kmeans和Simple-clustering,都只需要非常少的鄰居作為參考,就可以得到準(zhǔn)確的預(yù)測(cè)結(jié)果.而Pearson-RF在預(yù)測(cè)中比UOS[29]更準(zhǔn)確.

        圖5 各方法的MAE和RMSE結(jié)果圖

        令人驚訝的是,大多數(shù)算法只需要20個(gè)鄰居就可以在MAE和RMSE中達(dá)到最佳準(zhǔn)確度.相比之下,在MAE和RMSE中,UOS需要60個(gè)鄰居和140個(gè)鄰居,Pearson-RF則需要50個(gè)鄰居和130個(gè)鄰居.

        總之,與其它的方法相比,通過(guò)聚類的方法在鄰居較少的情況下達(dá)到了最優(yōu)準(zhǔn)確度,也就是說(shuō),Kmeans-2與Pearson-RF相比都將預(yù)測(cè)最優(yōu)準(zhǔn)確度的必要的鄰居數(shù)量減少了60%和84.6%.與Pearson-RF相比,Kmeans0將必要的鄰居數(shù)量分別減少了60%和69.2%,以做出最準(zhǔn)確的預(yù)測(cè).如果不需要計(jì)算復(fù)雜度并且使用簡(jiǎn)單的聚類,那么改進(jìn)后的數(shù)目與Kmeans-2相同.

        然而,本文所提出的方法不僅在所需鄰居的數(shù)量上具有明顯的優(yōu)越性,而且在預(yù)測(cè)準(zhǔn)確度上也有所提高.也就是說(shuō),在MAE值方面,Kmeans-2和Simple-clustering只需要20個(gè)鄰居的就能與Pearson-RF需要50個(gè)鄰居的預(yù)測(cè)準(zhǔn)確度相同.在RMSE方面與Pearson-RF相比,Kmeans2和Simple-clustering的預(yù)測(cè)準(zhǔn)確性分別提高了2.59%和2.49%.

        在另一方面,Kmeans-2-0作為目前最佳的預(yù)測(cè)方法,與Pearson-RF相比,MAE和RMSE的預(yù)測(cè)準(zhǔn)確性分別提高了1.71%和3.07%,所需鄰居減少了60%.

        對(duì)于Kmeans-2和簡(jiǎn)單聚類這3種方法,RMSE結(jié)果要優(yōu)于Pearson-RF,而MAE結(jié)果幾乎相同.這種現(xiàn)象背后的原因表明,基于鄰居聚類的鄰居選擇可以避免推薦系統(tǒng)評(píng)分預(yù)測(cè)中的較大誤差.

        從曲線上看Pearson-RF如果只有20個(gè)鄰居不足以得到最小的預(yù)測(cè)誤差,由此推斷用本文方法選擇的20個(gè)鄰居更可靠.

        為了進(jìn)一步探究公式(6)中的權(quán)重,圖6給出了進(jìn)一步的實(shí)驗(yàn).這里使用Kmeans-2方法,將w1和w2設(shè)置為一對(duì)(w1,w2),即(1.0,0.0),(0.9,0.1),(0.8,0.2),(0.7,0.3),(0.5,0.5),(0.0,1.0),(1.2,0.1)和(0.8,0.1).

        圖6 不同權(quán)重的算法MAE和RMSE結(jié)果圖

        實(shí)驗(yàn)表明,給主次鄰居給予不同權(quán)重,這種做法可以進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度.具體地說(shuō),圖6中的最讓人接受的方法是通過(guò)w1=1.0和w2=0.0和來(lái)實(shí)現(xiàn)的.然而,在實(shí)驗(yàn)中圖5中的結(jié)果相對(duì)較好的結(jié)果出現(xiàn)在當(dāng)w1=0.9和w2=0.1時(shí).因此,根據(jù)鄰居的不同的重要性來(lái)區(qū)分他們是很重要的.

        在一定范圍內(nèi),主要鄰居的權(quán)重越高,預(yù)測(cè)效果越好.當(dāng)權(quán)重超過(guò)一定范圍時(shí),預(yù)測(cè)結(jié)果就會(huì)變差,特別是只參考主要鄰居,不考慮次要鄰居的時(shí)候,這時(shí)預(yù)測(cè)結(jié)果不是最佳結(jié)果.這種現(xiàn)象說(shuō)明了次要鄰居在預(yù)測(cè)結(jié)果中的重要性.低權(quán)值的次要鄰居可以用來(lái)補(bǔ)償修正主要鄰居的預(yù)測(cè)趨勢(shì).

        4 總結(jié)與展望

        鄰居的有效選擇一直是評(píng)分預(yù)測(cè)和推薦算法中的一個(gè)重要課題.本文探討了基于用戶相似度和置信系數(shù),提出了一種相似性與置信系數(shù)為基礎(chǔ)的的推薦系統(tǒng)評(píng)分預(yù)測(cè)算法.

        實(shí)驗(yàn)表明,即使在所需鄰居數(shù)減少60%的情況下,該推薦算法仍可以達(dá)到最優(yōu)評(píng)分預(yù)測(cè)準(zhǔn)確度,揭示了置信系數(shù)和相似度這兩個(gè)因素對(duì)于可靠鄰居選擇的重要性.通過(guò)基于置信系數(shù)和相似度的聚類,在所需鄰居大量減少的情況下,該方法比對(duì)比方法預(yù)測(cè)的準(zhǔn)確度高1%-3%.更重要的是,該方法能有效地減少了評(píng)分預(yù)測(cè)中的大誤差.

        研究表明,在預(yù)測(cè)和推薦中,兩個(gè)用戶之間共同評(píng)分的物品數(shù)量與其相似度同樣重要.為了給目標(biāo)用戶選擇最可信的鄰居,用戶間的置信系數(shù)和相似性都是必要的因素.

        猜你喜歡
        用戶方法
        學(xué)習(xí)方法
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對(duì)
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        Camera360:拍出5億用戶
        国产av熟女一区二区三区| 国内精品极品久久免费看| 伊人精品成人久久综合97| 欧美顶级少妇作爱| 青青草原精品99久久精品66| 国产精品自产拍在线观看免费| 一区二区三区岛国av毛片| av手机在线观看不卡| 高清偷自拍亚洲精品三区| 国产精品永久免费视频| 国产成人久久精品亚洲小说| 国产精品亚洲二区在线| 中文字幕亚洲无线码在线一区| 亚洲av电影天堂男人的天堂| 国产精品午夜波多野结衣性色| 国产高清在线精品一区不卡| 国产精品视频永久免费播放| 全部孕妇毛片| 亚洲精品成人av观看| 日本老熟女一区二区三区| аⅴ天堂中文在线网| 搡老熟女老女人一区二区| 中文字幕无码高清一区二区三区| 精品一区二区三区亚洲综合| 亚洲精品无码专区| 久久婷婷综合色丁香五月| 日本少妇爽的大叫高潮了| 国产91色综合久久免费| 777亚洲精品乱码久久久久久| 精品国产免费Av无码久久久| 亚洲情精品中文字幕99在线| 久久国产劲爆∧v内射-百度| 236宅宅理论片免费| 国产男女乱婬真视频免费| 很黄很色的女同视频一区二区| 亚洲午夜福利在线视频| 亚洲国产精品久久久久久网站| 亚洲无人区一码二码国产内射| 免费无码一区二区三区a片百度| 伊伊人成亚洲综合人网7777 | 亚洲精品字幕在线观看|