亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考慮非對(duì)稱(chēng)用戶(hù)偏好的推薦算法

        2018-12-04 02:13:22鄧永恒李曉光
        關(guān)鍵詞:用戶(hù)方法

        王 永,鄧永恒,李曉光

        重慶郵電大學(xué) 經(jīng)濟(jì)管理學(xué)院,重慶 400065

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)及其信息科技的蓬勃發(fā)展,推薦技術(shù)已成功應(yīng)用于電子商務(wù)領(lǐng)域,解決了如何從日益激增的互聯(lián)網(wǎng)信息中挖掘出對(duì)線(xiàn)上用戶(hù)有價(jià)值的信息,并快速高效地推薦給目標(biāo)用戶(hù)[1]。推薦系統(tǒng)(RS)的核心任務(wù)是通過(guò)分析目標(biāo)用戶(hù)對(duì)已評(píng)產(chǎn)品或項(xiàng)目的偏好行為,去預(yù)測(cè)該用戶(hù)在未評(píng)產(chǎn)品或項(xiàng)目上的喜愛(ài)程度,以滿(mǎn)足用戶(hù)的個(gè)性化需求。協(xié)同過(guò)濾(CF)算法[2]因其擁有簡(jiǎn)單又高效的特點(diǎn),在推薦系統(tǒng)中應(yīng)用最為廣泛,深受研究者的青睞,是傳統(tǒng)推薦技術(shù)之一。算法假定用戶(hù)過(guò)去的偏好行為將會(huì)對(duì)其未來(lái)的偏好行為有重大影響,且具有相同或相似興趣偏好的用戶(hù)信息需求也是相似的。

        在推薦算法中,計(jì)算用戶(hù)或項(xiàng)目間的相似性是算法的首要任務(wù),也是最為核心的步驟。因此,相似性度量方法的選擇將直接決定推薦系統(tǒng)的好壞,對(duì)用戶(hù)體驗(yàn)有重大影響。常見(jiàn)的用戶(hù)相似性度量方法,如余弦相似性、皮爾遜相關(guān)系數(shù)等,在一定時(shí)期取得了較大成功,但隨著應(yīng)用環(huán)境的變化,它們已無(wú)法滿(mǎn)足用戶(hù)對(duì)推薦系統(tǒng)的精度要求。為改善推薦質(zhì)量,確保推薦系統(tǒng)的時(shí)效性,許多研究者在不同的應(yīng)用環(huán)境下提出了一些新的用戶(hù)相似性度量方法。為了解決啟發(fā)式相似性度量方法PIP[3]未考慮用戶(hù)對(duì)項(xiàng)目評(píng)分的全局偏好行為的問(wèn)題,Haifeng Liu等人提出了一種新的啟發(fā)式方法NHSM[4]。為了充分利用用戶(hù)的所有評(píng)分信息,一些研究者從項(xiàng)目概率分布的角度提出了一種新的相似性度量方法[5-6]。程偉杰等人通過(guò)利用動(dòng)態(tài)調(diào)節(jié)權(quán)重將基于全部評(píng)分信息的用戶(hù)相似性方法與傳統(tǒng)用戶(hù)相似性相結(jié)合,提出了一種混合的用戶(hù)相似性方法[7]。張滬寅等人將用戶(hù)間的共同評(píng)分項(xiàng)數(shù)目和PCC相似度閾值作為條件,提出了一種基于多分段改進(jìn) PCC的相似度計(jì)算方法[8]。上述算法都對(duì)共同評(píng)分項(xiàng)的數(shù)量沒(méi)有任何要求,能充分利用用戶(hù)所有評(píng)分值,較好地解決了數(shù)據(jù)稀疏性問(wèn)題。為了解決推薦系統(tǒng)中數(shù)據(jù)的高稀疏與高維度問(wèn)題,陶維成等人首先將灰色關(guān)聯(lián)度理論應(yīng)用到協(xié)同過(guò)濾中去計(jì)算用戶(hù)間的相似性,然后對(duì)用戶(hù)進(jìn)行灰色關(guān)聯(lián)度聚類(lèi)[9]。該方法具有良好的運(yùn)算效率,有效緩解了用戶(hù)冷啟動(dòng)問(wèn)題。李道國(guó)等人[10]通過(guò)分析用戶(hù)評(píng)分時(shí)間,并結(jié)合用戶(hù)評(píng)分方差相似性來(lái)改進(jìn)傳統(tǒng)相似性方法計(jì)算不準(zhǔn)確的問(wèn)題,且優(yōu)化了最近鄰居集的篩選方式。王穎等人從鄰居用戶(hù)選擇的角度出發(fā),考慮數(shù)據(jù)稀疏度對(duì)鄰居個(gè)數(shù)和對(duì)稱(chēng)關(guān)系的影響,提出了一種融合用戶(hù)自然最近鄰的推薦算法,該方法在鄰居選擇和推薦精準(zhǔn)度方面具有一定優(yōu)越性[11]。余以勝等人[12]將社群挖掘的思想引入到個(gè)性化情報(bào)信息推薦中,計(jì)算了在不同興趣細(xì)粒度社群中的用戶(hù)相似性,從而有效地提升了推薦算法的精確度。為了同時(shí)考慮用戶(hù)興趣偏好受時(shí)間和頻率共同影響問(wèn)題,李紅巍設(shè)計(jì)了一種基于本體相似度和時(shí)間衰減的動(dòng)態(tài)個(gè)性化推薦算法[13]。該算法不僅能計(jì)算用戶(hù)興趣點(diǎn)的時(shí)間衰減規(guī)律,還考慮了不同興趣點(diǎn)訪(fǎng)問(wèn)頻率對(duì)興趣點(diǎn)關(guān)注程度的影響,從而提升了整個(gè)系統(tǒng)的推薦效率。

        上述相似性度量方法均假定相似性是一種對(duì)稱(chēng)的模式,即sim(u,v)=sim(v,u)。這些方法使用共同評(píng)分進(jìn)行計(jì)算,計(jì)算用戶(hù)間的影響是對(duì)等的。在鄰居群體選擇階段,依據(jù)這種對(duì)稱(chēng)的相似度作為篩選標(biāo)準(zhǔn),會(huì)把一部分原本不相似的用戶(hù)納為鄰居;而預(yù)測(cè)階段又是以最近鄰居集為基礎(chǔ)的,從而使預(yù)測(cè)結(jié)果的準(zhǔn)確性受到干擾。此外,用戶(hù)在評(píng)分時(shí)存在某種偏好,如有的用戶(hù)的評(píng)分普遍偏高,而有的普遍偏低。評(píng)分偏好的差異導(dǎo)致相同分?jǐn)?shù)表示的興趣度存在較大差別。若未考慮偏好因素,將來(lái)自不同偏好的用戶(hù)的相同評(píng)分值視為價(jià)值相同,則計(jì)算得到的相似性結(jié)果不夠客觀(guān)。上述方法的設(shè)計(jì)中,并未考慮這些因素,所以,基于對(duì)稱(chēng)模式的相似性方法在度量的全面性、綜合性方面存在不足。

        本文在計(jì)算用戶(hù)相似性時(shí),為了考慮用戶(hù)間的非對(duì)稱(chēng)關(guān)系和用戶(hù)偏好行為,在常見(jiàn)的相似性方法上引入了兩個(gè)權(quán)重因子,提出了一種考慮用戶(hù)偏好的非對(duì)稱(chēng)推薦算法。非對(duì)稱(chēng)因子強(qiáng)調(diào)了目標(biāo)用戶(hù)與其他用戶(hù)間的共同評(píng)分項(xiàng)所占比例,將對(duì)稱(chēng)的用戶(hù)相似性轉(zhuǎn)化為非對(duì)稱(chēng)的用戶(hù)相似性,用于區(qū)分用戶(hù)間在評(píng)分?jǐn)?shù)量上的差別。偏好因子反映了用戶(hù)對(duì)所評(píng)項(xiàng)目的某種評(píng)分偏好,用于解決某些極端用戶(hù)習(xí)慣對(duì)項(xiàng)目評(píng)高分或低分的問(wèn)題,使計(jì)算結(jié)果更為客觀(guān)真實(shí)。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本文所提出的方法在一定程度上能緩解傳統(tǒng)相似性度量方法所存在的偏好問(wèn)題,降低了推薦誤差,推薦結(jié)果更為準(zhǔn)確。

        2 問(wèn)題分析

        為了利用用戶(hù)-項(xiàng)目評(píng)分矩陣中的數(shù)據(jù)去度量用戶(hù)間的相似性,常見(jiàn)的用戶(hù)相似性度量方法,如余弦相似性(COS)[14]、Pearson相關(guān)系數(shù)(PCC)[15]和均方差(MSD)[16]等被提出。但這些常見(jiàn)的相似性方法都存在同一個(gè)假設(shè):每個(gè)用戶(hù)都被分配同等權(quán)重的相似性,用戶(hù)間不存在任何偏好,用戶(hù)相似性完全對(duì)稱(chēng),即sim(u,v)=sim(v,u)。然而,在實(shí)際情況下,用戶(hù)間明顯存在不同的偏好行為,即便兩用戶(hù)十分相似,用戶(hù)間也有細(xì)微的評(píng)分偏好差別。因此,本文認(rèn)為用戶(hù)間的相似性應(yīng)該是不對(duì)稱(chēng),用戶(hù)間存在不同的評(píng)分偏好。

        為了更好展示一些常見(jiàn)的相似性方法所普遍存在的問(wèn)題,設(shè)計(jì)了一個(gè)示例來(lái)加以闡述。在表1用戶(hù)-項(xiàng)目評(píng)分矩陣中,共有5個(gè)用戶(hù)和6個(gè)項(xiàng)目,其中“—”表示用戶(hù)未對(duì)項(xiàng)目評(píng)分。根據(jù)表1數(shù)據(jù),采用常見(jiàn)的相似性度量方法COS、PCC和MSD計(jì)算用戶(hù)間的相似性,相關(guān)結(jié)果見(jiàn)圖1,其中“*”表示用戶(hù)相似性值無(wú)法被計(jì)算。

        表1 用戶(hù)-項(xiàng)目評(píng)分矩陣

        從圖1的相似性結(jié)果可知,這三種相似性度量方法各自都存在一些問(wèn)題。對(duì)這些問(wèn)題詳細(xì)分析如下:

        圖1 不同方法的用戶(hù)相似性值

        (1)問(wèn)題1:僅利用共同評(píng)分項(xiàng)

        從圖1中可知,所有用戶(hù)相似性矩陣都是對(duì)稱(chēng)的,即對(duì)任意兩用戶(hù)而言,存在sim(u,v)=sim(v,u)。其原因在于這些方法只利用了兩用戶(hù)間的共同評(píng)分項(xiàng),而忽略他們的其他評(píng)分的影響。從表1可以看到,用戶(hù)U1和U3的評(píng)分分別為(4,4,—,—,—,—)和(4,4,5,5,3,3),用戶(hù)U1的所有評(píng)分和用戶(hù)U3完全對(duì)應(yīng)相等,但用戶(hù)U3只有1/3的評(píng)分能和用戶(hù)U1完全匹配。存在這種差異的原因在于,這些相似性度量方法所計(jì)算出的相似性值往往只由評(píng)分?jǐn)?shù)量較少的那個(gè)用戶(hù)決定,而忽略用戶(hù)各自的評(píng)項(xiàng)目數(shù)量也對(duì)相似性結(jié)果有重要影響。因此,本文用一種非對(duì)稱(chēng)方法去計(jì)算用戶(hù)間的相似性更為合理。

        (2)問(wèn)題2:未考慮用戶(hù)評(píng)分偏好

        這個(gè)問(wèn)題主要為了凸顯PCC方法的缺陷。從PCC的結(jié)果矩陣圖1(b)可知,用戶(hù)U1和U3的相似性值為0,這意味著用戶(hù)U1和U3完全不相似。然而,從表1中可發(fā)現(xiàn)用戶(hù)U1和U3在項(xiàng)目I1和I2上有相同的評(píng)分,說(shuō)明用戶(hù)U1和U3間其實(shí)存在一定的相似性,而PCC方法卻計(jì)算出了一個(gè)完全錯(cuò)誤的相似性結(jié)果。

        此外,從表1中還可看出,用戶(hù)U2和用戶(hù)U3應(yīng)該比用戶(hù)U1和用戶(hù)U3更為相似,而從圖1中的所有相似性方法的值上看,COS和MSD的結(jié)論正好相反,且PCC的兩結(jié)果過(guò)于極端。由此說(shuō)明,這些方法僅考慮用戶(hù)間的共同評(píng)分項(xiàng)而忽略用戶(hù)本身的評(píng)分?jǐn)?shù)量,會(huì)造成相似性結(jié)果不準(zhǔn)確。本文認(rèn)為用戶(hù)U3對(duì)用戶(hù)U1的影響和用戶(hù)U1對(duì)用戶(hù)U3是完全不同的,用戶(hù)相似性的值不應(yīng)該是1或0。因此,本文將用戶(hù)評(píng)分偏好的問(wèn)題考慮在內(nèi)。

        3 考慮用戶(hù)偏好的非對(duì)稱(chēng)推薦算法

        本文算法包括兩個(gè)核心步驟:(1)計(jì)算考慮用戶(hù)偏好的非對(duì)稱(chēng)用戶(hù)相似性;(2)產(chǎn)生推薦列表。本文主要在常見(jiàn)的相似性方法(COS、PCC和MSD)上,引入兩個(gè)權(quán)重因子到用戶(hù)相似性計(jì)算中,有效地彌補(bǔ)了改進(jìn)前相似性方法未考慮用戶(hù)間共同評(píng)分項(xiàng)在目標(biāo)用戶(hù)所評(píng)項(xiàng)目中的比例以及用戶(hù)評(píng)分偏好的問(wèn)題,降低了預(yù)測(cè)誤差,提高了推薦質(zhì)量。

        3.1 權(quán)重因子

        (1)非對(duì)稱(chēng)因子

        對(duì)于用戶(hù)u和v,對(duì)稱(chēng)模式的相似度算法可概括為sim(u,v)=sim(v,u)。由表達(dá)式可知,對(duì)稱(chēng)的算法對(duì)輸入內(nèi)容和次序不敏感。同時(shí),實(shí)際上參與運(yùn)算的是共同評(píng)分項(xiàng)的分值信息,這組信息是數(shù)值的、等長(zhǎng)的,不會(huì)直接影響對(duì)稱(chēng)性。若用戶(hù)u和v的評(píng)分總數(shù)不同,其共同評(píng)分?jǐn)?shù)占二者評(píng)分總數(shù)的比例也是不同的。由此,可利用絕對(duì)數(shù)量、占比等方面的差異,構(gòu)造一個(gè)作用于算法外部的因子,從而調(diào)節(jié)對(duì)稱(chēng)性。

        用Iu,Iv分別表示用戶(hù)u和v所評(píng)分項(xiàng)目的集合,用戶(hù)u的評(píng)分總數(shù)用|Iu|表示,共同評(píng)分的數(shù)量占用戶(hù)u評(píng)分總數(shù)的比例為:

        Sigmoid函數(shù)具有單調(diào)性、非線(xiàn)性等性質(zhì),且對(duì)于差異較大的自變量,輸出值之間有很高的分辨度,因此在式(1)的基礎(chǔ)上,結(jié)合Sigmoid函數(shù)設(shè)計(jì)非對(duì)稱(chēng)因子如下:

        (2)偏好因子

        不同用戶(hù)對(duì)項(xiàng)目進(jìn)行評(píng)分時(shí),都存在一定的個(gè)人標(biāo)準(zhǔn)和偏好取向。例如,有的用戶(hù)對(duì)所評(píng)項(xiàng)目的評(píng)分普遍偏高,而有的普遍偏低。由于這種偏好的作用,不同用戶(hù)之間,即使評(píng)分的分值相同,實(shí)際的興趣度可能有較大的區(qū)別。如前面的示例中,用戶(hù)U3和U4對(duì)項(xiàng)目I5的評(píng)分均為3分,在U3的所有評(píng)分中3為其最低評(píng)分,代表其最低的興趣程度;而對(duì)于U4,3分是最高評(píng)分,表示U4對(duì)該項(xiàng)目可能最感興趣??梢?jiàn),正是評(píng)分偏好的存在,分值不能直接等同于用戶(hù)的感興趣程度。

        對(duì)于用戶(hù)u的所有評(píng)分?jǐn)?shù)據(jù),其均值rˉu反映了分值樣本的一般水平;標(biāo)準(zhǔn)差δu反映的是偏離均值的平均距離,是一種集中程度的體現(xiàn)。通過(guò)這些統(tǒng)計(jì)量,可發(fā)現(xiàn)用戶(hù)評(píng)分偏好的存在:u的均值越高(或越低)、數(shù)據(jù)分布越集中,其評(píng)高分(或低分)的偏好就越明顯。

        為了消除評(píng)分偏好對(duì)用戶(hù)相似性度量的影響,引入用戶(hù)評(píng)分的均值和標(biāo)準(zhǔn)差去構(gòu)造偏好因子,使得最終的相似性結(jié)果更為客觀(guān)。其公式為:

        其中,rui表示用戶(hù)u對(duì)項(xiàng)目i的評(píng)分值。

        將上述兩種權(quán)重因子引入到第二部分所提到的常見(jiàn)的用戶(hù)相似性中,得到修正后的公式如下:

        3.2 產(chǎn)生推薦列表

        推薦的過(guò)程如下:

        步驟1形成最近鄰居集(見(jiàn)圖2)。根據(jù)修正后的公式可計(jì)算出任意兩用戶(hù)間的相似性值,進(jìn)而獲得用戶(hù)間的相似性矩陣S。根據(jù)相似性矩陣中值的大小,得到用戶(hù)u的前K個(gè)相似性值最大的最近鄰居用戶(hù),最終形成最近鄰居集Ku={u1,u2,…,uk}。

        步驟2計(jì)算預(yù)測(cè)值。設(shè)用戶(hù)u的最近鄰居集為Ku,則用戶(hù)u對(duì)未評(píng)分項(xiàng)目i的預(yù)測(cè)評(píng)分值Pui的計(jì)算公式如下:

        步驟3產(chǎn)生推薦列表。根據(jù)項(xiàng)目預(yù)測(cè)值,系統(tǒng)可為目標(biāo)用戶(hù)進(jìn)行項(xiàng)目推薦,即取項(xiàng)目預(yù)測(cè)值最高的前N個(gè)項(xiàng)目作為用戶(hù)感興趣的推薦列表。

        4 算法分析

        (1)考慮用戶(hù)評(píng)分?jǐn)?shù)量

        在本文算法中,引入一個(gè)非對(duì)稱(chēng)因子A(u,v)去評(píng)估用戶(hù)v對(duì)用戶(hù)u的影響。在式(2)中,利用用戶(hù)u和v的共同評(píng)分項(xiàng)在目標(biāo)用戶(hù)u所評(píng)數(shù)量中的比例去度量用戶(hù)u和v間的非對(duì)稱(chēng)性。若共同評(píng)分的比例較大(接近1),則用戶(hù)v對(duì)用戶(hù)u有十分重大的影響;若共同評(píng)分的比例較?。ń咏?),則用戶(hù)v對(duì)用戶(hù)u幾乎無(wú)影響。對(duì)于A(yíng)(v,u),共同評(píng)分的比例值取決于用戶(hù)間的共同評(píng)分項(xiàng)和用戶(hù)v所評(píng)項(xiàng)目的數(shù)量。顯然,sim(u,v)≠sim(v,u),即用戶(hù)u和用戶(hù)v的相似性值有別于用戶(hù)v和用戶(hù)u的值。因此,式(1)為相似性度量方法提供了一個(gè)高效的方案去強(qiáng)調(diào)用戶(hù)間的相似性是非對(duì)稱(chēng)的,使得這些相似性方法計(jì)算出的結(jié)果更加符合實(shí)際情況。

        (2)消除極端用戶(hù)評(píng)分偏好

        為了加強(qiáng)所提算法的精確度,本文算法引入偏好因子去消除極端用戶(hù)評(píng)分偏好的影響。在式(3)中,通過(guò)利用用戶(hù)的平均評(píng)分和評(píng)分標(biāo)準(zhǔn)差去衡量用戶(hù)間的偏好差異。若用戶(hù)間的平均評(píng)分或評(píng)分標(biāo)準(zhǔn)差較大,則用戶(hù)間的偏好存在很大差異。根據(jù)式(3)可知,P(u,v)計(jì)算出的值很小,能較好地削弱極端用戶(hù)評(píng)分偏好的影響。

        (3)優(yōu)化鄰居用戶(hù)的選擇

        最近鄰居集的選擇是通過(guò)用戶(hù)相似性值進(jìn)行篩選的,因而鄰居集的選擇將直接影響后續(xù)對(duì)項(xiàng)目值的預(yù)測(cè)以及推薦。若用戶(hù)u和v的相似性是對(duì)稱(chēng)的,且相似性的值很大,則這兩用戶(hù)必互為最近鄰居。但依據(jù)式(2),假設(shè)用戶(hù)u的評(píng)分?jǐn)?shù)量遠(yuǎn)大于用戶(hù)v的數(shù)量,則A(u,v)?A(v,u),最終可能會(huì)導(dǎo)致用戶(hù)u是用戶(hù)v的最近鄰居,而用戶(hù)v未必是用戶(hù)u的最近鄰居,以達(dá)到獲得優(yōu)化鄰居的目的。

        根據(jù)所提算法的公式(5)~(7),本文利用表1中的評(píng)分?jǐn)?shù)據(jù)計(jì)算得到相應(yīng)的相似性矩陣。從圖3相似性結(jié)果可知,加入兩個(gè)權(quán)重因子后,用戶(hù)相似性的值變動(dòng)幅度不大,消除了各自評(píng)分偏好的影響,且用戶(hù)相似性是非對(duì)稱(chēng)的。引入因子后的模型修正了常見(jiàn)的相似性方法所存在的缺陷,能更好地突出每個(gè)用戶(hù)的偏好行為。然而,不可否認(rèn)的是改進(jìn)后的模型計(jì)算出的相似性值仍存在一定問(wèn)題,這是由這些相似性度量方法本身所引起的。因?yàn)檫@些常見(jiàn)的方法太過(guò)于依賴(lài)用戶(hù)間的共同評(píng)分項(xiàng),而不能充分利用用戶(hù)的所有評(píng)分信息。若將本文的兩個(gè)權(quán)重因子加入到更佳的相似性模型中,其推薦精度將會(huì)更高,這里將不再對(duì)比。

        (4)算法性能分析

        時(shí)間復(fù)雜度是評(píng)估算法效率的一種方式。表2列舉了原算法和改進(jìn)算法的時(shí)間復(fù)雜度,結(jié)果所示,這些方法的時(shí)間復(fù)雜度均為線(xiàn)性階,即O(n)。

        表2 各對(duì)比算法的時(shí)間復(fù)雜度

        圖3 引入權(quán)重因子后的用戶(hù)相似性值

        調(diào)整后的算法與原算法相比,時(shí)間復(fù)雜度保持不變,時(shí)效上的波動(dòng)較??;但調(diào)整后的算法在度量全面性、削弱偏好影響、鄰居集優(yōu)化等方面的提升是可見(jiàn)的;所以,加入非對(duì)稱(chēng)因子和偏好因子進(jìn)行改進(jìn),可以獲得更優(yōu)的綜合性能。

        5 實(shí)驗(yàn)結(jié)果與分析

        5.1 數(shù)據(jù)集

        為了驗(yàn)證本文所提算法的高效性,使用MovieLens數(shù)據(jù)集(http://www.grouplens.org)——ML-1M和Yahoo提供的公開(kāi)數(shù)據(jù)集Yahoo Music(https://webscope.sandbox.yahoo.com)作為本文算法測(cè)試和驗(yàn)證的數(shù)據(jù)集。其中MovieLens數(shù)據(jù)集包括了6 040位用戶(hù)的基本信息,如性別、年齡、職業(yè)等;3 900部電影的基本信息,如電影名稱(chēng)、電影類(lèi)別等;1 000 209條電影評(píng)分,評(píng)分區(qū)間為1~5,且每個(gè)用戶(hù)至少評(píng)過(guò)20部及其以上的電影。Yahoo Music數(shù)據(jù)集包括15 400位用戶(hù)和1 000首音樂(lè)的基本信息和183 179條音樂(lè)評(píng)分。為了測(cè)試推薦算法的性能,將數(shù)據(jù)集劃分為兩部分:訓(xùn)練集和測(cè)試集,大小比例為8∶2。

        5.2 評(píng)估指標(biāo)

        衡量推薦算法好與壞的指標(biāo)常用平均絕對(duì)誤差MAE(Mean Absolute Error)和根均方誤差RMSE(Root Mean Squared Error)去度量預(yù)測(cè)評(píng)分值和實(shí)際評(píng)分值間的偏差,以此來(lái)反映推薦算法的準(zhǔn)確性。誤差值越小,推薦精度越高。其公式如下[5]:

        其中,rui和分別為用戶(hù)u對(duì)項(xiàng)目i的實(shí)際評(píng)分值和預(yù)測(cè)評(píng)分值;n為待預(yù)測(cè)項(xiàng)目的個(gè)數(shù)。

        為了對(duì)以下公式描述方便,首先介紹兩個(gè)變量,分別是IRup和IRua。IRup表示推薦系統(tǒng)為目標(biāo)用戶(hù)u提供的預(yù)測(cè)推薦列表。IRua是在測(cè)試集中用戶(hù)u的真實(shí)推薦列表。下面,本文將介紹評(píng)估算法預(yù)測(cè)準(zhǔn)確性的三個(gè)重要指標(biāo):Precision、Recall和F1-Measure值。

        圖4 MAE的結(jié)果比較

        Precision定義為同時(shí)包含在IRup和IRua中的項(xiàng)目數(shù)與IRup中的所有項(xiàng)目數(shù)的比值。而Recall表示為同時(shí)包含在IRup和IRua中的項(xiàng)目數(shù)與IRua中的所有項(xiàng)目數(shù)的比值[6]。其表達(dá)式如下:

        其中,m表示待預(yù)測(cè)的目標(biāo)用戶(hù)數(shù)量。在實(shí)驗(yàn)中,算法假定出現(xiàn)在推薦列表的項(xiàng)目的評(píng)分值必須高于目標(biāo)用戶(hù)的平均評(píng)分,否則不予推薦。

        F1-Measure值是一個(gè)綜合評(píng)估Precision和Recall結(jié)果的指標(biāo),使得最終計(jì)算出的實(shí)驗(yàn)結(jié)果更為可靠。其公式如下:

        5.3 結(jié)果分析

        選取常用的相似性模型(COS[12]、PCC[13]和MSD[14]),首先分別測(cè)試每個(gè)因子引入到模型中后對(duì)預(yù)測(cè)結(jié)果的影響,之后再測(cè)試綜合兩因子后的預(yù)測(cè)效果,并與一些近年來(lái)提出的相似性方法(JMSD[4]、PIP[3]和NHSM[4])作對(duì)比。由于不同的鄰居個(gè)數(shù)K對(duì)測(cè)試結(jié)果有不同的影響,因此在實(shí)驗(yàn)中設(shè)置K值從20增加到100,間隔為20。實(shí)驗(yàn)結(jié)果如圖4至圖6所示。

        MAE和RMSE主要反映的是推薦系統(tǒng)的預(yù)測(cè)誤差精度。在圖4中,在兩個(gè)數(shù)據(jù)集上,引入兩個(gè)權(quán)重因子后的相似性方法的MAE值均優(yōu)于其他對(duì)比方法,且AP-PCC方法的誤差值比其他任何相似性方法都低,推薦效果最佳。隨著K值(用戶(hù)鄰居數(shù))的增加,所有方法的誤差均在逐漸降低。Movielens數(shù)據(jù)集上,引入兩因子后,AP-PCC方法表現(xiàn)最佳,其誤差范圍為:0.704≤MA E≤0.716;在Yahoo Music數(shù)據(jù)集上,當(dāng) K 值大于120時(shí),AP-COS的MAE最小,范圍為:1.251≤MAE≤1.265。在圖5中也可以得出類(lèi)似的結(jié)論,表明本文提出的兩個(gè)權(quán)重因子有效改善了預(yù)測(cè)模型的RMSE誤差。預(yù)測(cè)誤差較低,有效提高了推薦系統(tǒng)的質(zhì)量。

        圖5 RMSE的結(jié)果比較

        圖6 F1-Measure的結(jié)果比較

        F1-Measure主要是用于評(píng)估推薦質(zhì)量的好壞。從圖6可知,每個(gè)相似性方法的F1值都隨著K值的增加而增加。圖6(a)所示,在Movielens數(shù)據(jù)集中,AP-PCC的F1值最高且基本維持在0.726水平上;AP-COS、AP-MSD方法的F1曲線(xiàn)有所重合,接近0.718;而其他如COS、MSD、PIP和NHSM等方法的F1值均低于0.63。圖6(b)所示,在Yahoo Music數(shù)據(jù)集上,改進(jìn)后方法的F1曲線(xiàn)均處于更高的區(qū)間,AP-PCC表現(xiàn)最優(yōu),其值分布在0.277到0.282之間。上述結(jié)果說(shuō)明,兩權(quán)重因子的引入能有效地提高相似性模型的推薦結(jié)果。

        綜上所述,引入兩權(quán)重因子后的相似性方法在各個(gè)評(píng)估指標(biāo)上均優(yōu)于其他對(duì)比方法。因此,本次實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的兩個(gè)權(quán)重因子對(duì)改進(jìn)相似性模型有積極的作用,可以有效提高推薦系統(tǒng)的綜合性能。

        6 結(jié)論

        為了解決相似性度量方法普遍所存在的用戶(hù)偏好問(wèn)題,本文在常見(jiàn)的相似性方法中,引入兩個(gè)權(quán)重因子到其相似性計(jì)算中,提出了一種考慮用戶(hù)偏好的非對(duì)稱(chēng)推薦算法。第一個(gè)權(quán)重因子(非對(duì)稱(chēng)因子)將目標(biāo)用戶(hù)與其他用戶(hù)間的共同評(píng)分項(xiàng)所占的比例考慮在內(nèi),將完全對(duì)稱(chēng)的用戶(hù)相似性轉(zhuǎn)化為非對(duì)稱(chēng),這彌補(bǔ)了相似性方法為每個(gè)用戶(hù)都分配同等權(quán)重的相似性,即考慮了不同用戶(hù)對(duì)所評(píng)項(xiàng)目的數(shù)量。

        第二個(gè)權(quán)重因子(偏好因子)利用用戶(hù)間的均值和標(biāo)準(zhǔn)差去消除極端用戶(hù)的評(píng)分偏好。在引入這兩個(gè)權(quán)重因子后,與引入前的方法相比,引入后的方法有效地緩解修正前方法所存在的用戶(hù)偏好問(wèn)題,能更為精準(zhǔn)地為目標(biāo)用戶(hù)篩選鄰居用戶(hù),實(shí)現(xiàn)最佳的項(xiàng)目推薦。在數(shù)據(jù)集MovieLens上的實(shí)驗(yàn)結(jié)果表明,引入兩因子后的相似性方法要優(yōu)于其他所對(duì)比的相似性方法,其中APPCC方法能極大地降低了預(yù)測(cè)誤差,有效地提高了推薦系統(tǒng)的質(zhì)量。

        猜你喜歡
        用戶(hù)方法
        學(xué)習(xí)方法
        關(guān)注用戶(hù)
        可能是方法不對(duì)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        捕魚(yú)
        Camera360:拍出5億用戶(hù)
        欧美乱大交xxxxx潮喷| 丝袜美腿亚洲综合玉足| 国产亚洲一二三区精品| 亚洲欧洲成人a∨在线观看| 男男车车的车车网站w98免费| 国产福利小视频在线观看| 久久夜色精品国产三级| 亚洲国产精品久久久av| 日本公与熄乱理在线播放| 国产成人美女AV| 激情偷拍视频一区二区| 国产精品情侣呻吟对白视频| 久久99精品国产99久久6尤物| 亚洲欧美中文v日韩v在线| 国产激情小视频在线观看的| 中文区中文字幕免费看| 在教室伦流澡到高潮hgl视频| 精品人妻丰满久久久a| 91精品亚洲熟妇少妇| 欧美精品国产综合久久| 亚洲综合一区无码精品| 秋霞国产av一区二区三区| 日本熟女人妻一区二区| 男女上下猛烈啪啪免费看| 国产精品九九九久久九九| 人妻乱交手机在线播放| 无码国产精品一区二区免费式芒果| 久久精品无码免费不卡| 宅宅午夜无码一区二区三区| 国产成人亚洲精品91专区高清| 日日天干夜夜狠狠爱| 日韩AV不卡六区七区| 久久夜色精品国产九色| 亚洲综合国产成人丁香五月激情| 国产精品亚韩精品无码a在线| 亚洲加勒比无码一区二区在线播放| 成av人片一区二区久久| 精品丰满人妻无套内射| 亚洲国产成人AV人片久久网站| 国产风骚主播视频一区二区| 奶头又大又白喷奶水av|