胡必云 李舟軍
(北京航空航天大學(xué) 軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室,北京 100191)
王 君
(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191)
巢文涵
(北京航空航天大學(xué) 北京市網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100191)
評(píng)分偏差對(duì)于推薦質(zhì)量的影響
胡必云 李舟軍
(北京航空航天大學(xué) 軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室,北京 100191)
王 君
(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191)
巢文涵
(北京航空航天大學(xué) 北京市網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100191)
從理論上分析了評(píng)分偏差對(duì)于推薦質(zhì)量的影響;基于潛在偏好及已知評(píng)分對(duì)評(píng)分偏差進(jìn)行度量,其中潛在偏好通過心理測量學(xué)模型計(jì)算得出;通過設(shè)定不同的評(píng)分偏差水平,對(duì)評(píng)分偏差的影響進(jìn)行了實(shí)驗(yàn)驗(yàn)證.理論分析及實(shí)驗(yàn)驗(yàn)證表明:評(píng)分偏差可導(dǎo)致推薦準(zhǔn)確度及覆蓋度下降;基于高質(zhì)量的評(píng)分?jǐn)?shù)據(jù),協(xié)同過濾算法可為用戶作出好的推薦.
人工智能;信號(hào)過濾與預(yù)測;信息檢索;評(píng)分偏差;數(shù)據(jù)質(zhì)量;協(xié)同過濾;推薦準(zhǔn)確度;覆蓋度
個(gè)性化推薦是解決信息過載問題的行之有效的方法之一,并已廣泛應(yīng)用于大型的信息服務(wù)提供商,它旨在根據(jù)用戶的歷史偏好信息,向用戶主動(dòng)推薦他/她可能感興趣的項(xiàng)目,如新聞、書籍等.為了提高推薦質(zhì)量,研究者提出了許多推薦算法,這些算法可分為3類[1]:基于內(nèi)容的推薦、協(xié)同過濾(CF,Collaborative Filtering)及混合的推薦算法.在這些算法中,CF算法得到了廣泛的研究與應(yīng)用.CF算法可進(jìn)一步分為基于用戶、基于項(xiàng)目及基于模型的算法,它們通?;谟脩粼u(píng)分為用戶進(jìn)行推薦,其中廣泛使用的數(shù)據(jù)集包括MovieLens,EachMovie,Netflix,Jester等.一般認(rèn)為,評(píng)分?jǐn)?shù)據(jù)稀疏會(huì)導(dǎo)致CF算法的推薦質(zhì)量下降[2],因此,研究者提出了很多方法以解決該問題.然而,對(duì)于評(píng)分?jǐn)?shù)據(jù)的另一重要特征——數(shù)據(jù)質(zhì)量問題的研究卻較少,這可能是由于數(shù)據(jù)質(zhì)量相對(duì)于數(shù)據(jù)稀疏更加難以衡量造成的.
在少數(shù)涉及到數(shù)據(jù)質(zhì)量問題的研究中,文獻(xiàn)[3]將推薦算法不能準(zhǔn)確預(yù)測的評(píng)分看成是噪聲數(shù)據(jù)并將它們刪除,這使得推薦準(zhǔn)確度有了一定的提高,但卻造成了推薦覆蓋度(coverage)下降(推薦覆蓋度指算法可給出的評(píng)分預(yù)測數(shù)占待預(yù)測評(píng)分總數(shù)的比率),后者是容易理解的,因?yàn)閿?shù)據(jù)刪除加劇了數(shù)據(jù)稀疏問題;文獻(xiàn)[4]將符合隨機(jī)噪聲模式(CNP,Causal Noise Pattern)的用戶評(píng)分系列刪除,使得推薦準(zhǔn)確度有所提高,文中未報(bào)道評(píng)分刪除對(duì)推薦覆蓋度的影響;文獻(xiàn)[5]嘗試了使用專家評(píng)分對(duì)普通用戶進(jìn)行推薦,因?yàn)閷<业脑u(píng)分質(zhì)量更高.以上文獻(xiàn)雖然對(duì)數(shù)據(jù)質(zhì)量問題進(jìn)行了一定研究,并取得了一些初步的研究成果,但存在以下問題:①對(duì)數(shù)據(jù)質(zhì)量問題的定義過于模糊,即將某些評(píng)分[3]或用戶評(píng)分系列[4]整體地看作是噪聲.然而,用戶的評(píng)分可能只是在某種程度上偏離了其真實(shí)偏好,即一個(gè)評(píng)分?jǐn)?shù)據(jù)可能含有噪聲而不全部是噪聲;②對(duì)數(shù)據(jù)質(zhì)量對(duì)于CF算法推薦質(zhì)量的影響機(jī)制,特別是對(duì)于推薦覆蓋度的影響,沒有做明確的分析與驗(yàn)證;③對(duì)于噪聲數(shù)據(jù)的處理方式太極端,即將噪聲數(shù)據(jù)整體刪除,這雖然可使推薦準(zhǔn)確度有一定的提高,但卻導(dǎo)致推薦覆蓋度下降[3].
針對(duì)上述問題,本文首先從心理學(xué)角度對(duì)用戶評(píng)分過程進(jìn)行分析,并提出評(píng)分偏差的概念,以對(duì)數(shù)據(jù)質(zhì)量問題進(jìn)行明確的定義.同時(shí),分析評(píng)分偏差對(duì)于CF算法每一步驟的影響,以初步研究數(shù)據(jù)質(zhì)量問題對(duì)于推薦質(zhì)量的影響.其次,基于心理測量學(xué)模型對(duì)評(píng)分偏差加以度量.再次,通過設(shè)定不同的評(píng)分偏差水平,進(jìn)一步在現(xiàn)實(shí)世界數(shù)據(jù)集上驗(yàn)證評(píng)分偏差對(duì)于CF算法推薦質(zhì)量的影響.本文最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)分析并對(duì)未來工作進(jìn)行了說明.
CF算法常依據(jù)用戶評(píng)分為用戶作出推薦,而從心理學(xué)角度分析,用戶根據(jù)不同項(xiàng)目滿足他/她的潛在興趣的程度對(duì)不同項(xiàng)目進(jìn)行評(píng)分,因此觀測到的評(píng)分只是用戶潛在興趣的一種外在表現(xiàn).在評(píng)分過程中,用戶可能會(huì)受到各種因素的干擾,導(dǎo)致用戶的評(píng)分偏離于他/她的真實(shí)偏好,即產(chǎn)生了評(píng)分偏差.造成評(píng)分偏差的因素可以是錯(cuò)誤地使用了評(píng)分標(biāo)準(zhǔn),如對(duì)于一個(gè)5級(jí)評(píng)分量表來說,一個(gè)用戶偏向于使用1~3的評(píng)分(可稱該用戶為一個(gè)較嚴(yán)的評(píng)分人),那么該用戶的評(píng)分2代表其真實(shí)偏好為3(2和3分別為錯(cuò)誤的評(píng)分量表1~3和正確的評(píng)分量表1~5的中間值),即產(chǎn)生了評(píng)分偏差-1(觀測值2-真實(shí)值3).其它可以造成評(píng)分偏差的因素包括:對(duì)某些項(xiàng)目不在意而給出的隨意評(píng)分、輸入錯(cuò)誤等.更為具體的例子如Jester數(shù)據(jù)集,它使用了[-10,10]的連續(xù)評(píng)分,用戶通過在評(píng)分條上點(diǎn)擊以給出評(píng)分,這種評(píng)分方式則更傾向于產(chǎn)生評(píng)分偏差[6].
下文所提及的CF算法主要指基于用戶的CF算法(user-based CF)[7].CF 算法主要包含 3 個(gè)步驟:相似度計(jì)算、鄰居選取及預(yù)測.CF算法將用戶對(duì)于項(xiàng)目的評(píng)分看成用戶評(píng)分向量,然后基于兩個(gè)用戶共同評(píng)分的項(xiàng)目(co-rated items)計(jì)算用戶之間的相似度.常用的相似度計(jì)算方法有皮爾森(Pearson)相關(guān)系數(shù)、余弦相似度等[2].在鄰居選取階段,CF算法通常選擇和當(dāng)前用戶(需要為其作出推薦的用戶)最相似的若干個(gè)用戶作為他/她的鄰居;然后根據(jù)鄰居對(duì)于目標(biāo)項(xiàng)目(需要為其作出評(píng)分預(yù)測的項(xiàng)目)的評(píng)分情況預(yù)測當(dāng)前用戶對(duì)于目標(biāo)項(xiàng)目的評(píng)分;常用的預(yù)測公式如式(1)所示:
其中,pa,i是算法給出的當(dāng)前用戶a對(duì)于目標(biāo)項(xiàng)目i的評(píng)分預(yù)測值;為a的平均評(píng)分;k為鄰居個(gè)數(shù);s(a,un)為 a和其鄰居 un之間的相似度;run,i為un對(duì)于i的評(píng)分.值得注意的是,在鄰居選取階段選出的鄰居并非全部是有效的.
定義1 有效鄰居.在預(yù)測階段實(shí)際使用到的鄰居.即對(duì)于CF算法,有效用戶鄰居對(duì)于目標(biāo)項(xiàng)目的評(píng)分run,i(見式(1))是存在的.
1.3.1 評(píng)分偏差對(duì)于用戶相似度計(jì)算的影響
直觀地,評(píng)分偏差可導(dǎo)致兩個(gè)具有低相似度值的用戶變得更為相似,兩個(gè)具有高相似度值的用戶變得較不相似,即評(píng)分偏差可導(dǎo)致兩個(gè)用戶ui和uj之間的相似度值s(ui,uj)升高或降低.
例1 如表1所示,對(duì)于1~5的5級(jí)評(píng)分,其中用戶u1是一個(gè)理想的評(píng)分人,她的評(píng)分ru1代表了她的真實(shí)偏好tu1,而用戶u2是一個(gè)較嚴(yán)的評(píng)分人,他的觀測評(píng)分ru2集中于評(píng)分等級(jí)1~3.如果u2正確地使用了評(píng)分等級(jí)1~5,則他的真實(shí)偏好很可能為表中第4列所列的評(píng)分tu2.根據(jù)真實(shí)偏好計(jì)算得到的u1和u2之間的Pearson相關(guān)系數(shù)是0.4,而根據(jù)觀測評(píng)分計(jì)算得到的u1和u2之間的相關(guān)系數(shù)為0.2,即因?yàn)樵u(píng)分偏差的影響,u1和u2之間的相似程度s(u1,u2)降低;同樣地,用戶u3的真實(shí)偏好tu3列于表1中最后一列,但u3在評(píng)分過程中,總有值為1或-1的評(píng)分偏差,即觀測到的u3的評(píng)分為表中第5列數(shù)據(jù)ru3.當(dāng)使用真實(shí)偏好時(shí),u1和u3之間的Pearson相關(guān)系數(shù)為-0.1,但是當(dāng)使用觀測評(píng)分時(shí),兩者的相關(guān)系數(shù)為0.1,即因?yàn)樵u(píng)分偏差的影響,用戶u1和u3之間的相似程度s(u1,u3)升高.
表1 用戶u對(duì)于項(xiàng)目i的評(píng)分r及真實(shí)偏好t
1.3.2 評(píng)分偏差對(duì)于鄰居選取的影響
為了便于分析,首先給出關(guān)于相似用戶的假設(shè)及其推論.
假設(shè)1 兩個(gè)用戶共同評(píng)分的項(xiàng)目越多,則這兩個(gè)用戶傾向于越相似.
假設(shè)1是符合直覺的,即兩個(gè)用戶之間的共同點(diǎn)越多,則傾向于越相似;同時(shí),本文依據(jù)用戶評(píng)分計(jì)算得出的用戶平均相似度隨共評(píng)項(xiàng)目數(shù)變化的實(shí)驗(yàn)結(jié)果也反應(yīng)了該假設(shè).
基于假設(shè)1,可以得出以下推論:
推論1 兩個(gè)用戶之間的相似性越小,則這兩個(gè)用戶共同評(píng)分的項(xiàng)目傾向于越少.
在鄰居選取階段,評(píng)分偏差對(duì)于用戶相似度計(jì)算的影響會(huì)導(dǎo)致具有低相似度值的用戶被選擇為鄰居,而根據(jù)推論1,這些具有低相似度的鄰居是無效鄰居的可能性增大.
例2 如表2所示,由于評(píng)分偏差的影響,具有低相似度值的用戶u2被選擇為用戶u1的鄰居,CF算法目前需要為u1對(duì)于項(xiàng)目i4的評(píng)分進(jìn)行預(yù)測(以?表示).因?yàn)閡1和u2相似程度低,根據(jù)推論1,u2對(duì)于i4沒有進(jìn)行評(píng)分,即u2是無效鄰居的可能性增大.
表2 被用戶u1和u2共同評(píng)分的項(xiàng)目
1.3.3 評(píng)分偏差對(duì)于推薦質(zhì)量的影響
具有低相似度值的鄰居被使用會(huì)導(dǎo)致推薦準(zhǔn)確度下降,更進(jìn)一步地,由于低相似性鄰居是有效鄰居的可能性小,導(dǎo)致推薦覆蓋度下降.評(píng)分偏差對(duì)于推薦質(zhì)量的影響分析可總結(jié)為圖1.
圖1 評(píng)分偏差對(duì)于推薦質(zhì)量的影響分析
在心理測量學(xué)研究領(lǐng)域,潛在特質(zhì)模型(latent traitmodels)或稱項(xiàng)目反應(yīng)理論模型(item response theorymodels),是一系列旨在通過人對(duì)項(xiàng)目如試題、調(diào)查問卷等的反應(yīng)數(shù)據(jù),測量人的潛在特質(zhì)如能力、興趣、滿意度等的模型[8].典型的項(xiàng)目反應(yīng)理論模型有Rasch模型,如式(2)所示.Rasch模型最初用于教育測量學(xué)領(lǐng)域,隨著模型及其參數(shù)估計(jì)技術(shù)的發(fā)展,Rasch模型被用于越來越多的心理測量領(lǐng)域[9].
在不同的應(yīng)用領(lǐng)域中,Rasch模型的參數(shù)意義是不同的.在傳統(tǒng)的教育測量領(lǐng)域,式(2)建模了學(xué)生u答對(duì)題目i的概率p(ru,i=1)與學(xué)生能力θu及題目難度bi之間的關(guān)系[8];因?yàn)楸疚闹饕紤]通過用戶對(duì)于項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)測量用戶潛在興趣,所以將p(ru,i=1)解釋為用戶u對(duì)于項(xiàng)目i的反應(yīng)為積極(如表示感興趣或評(píng)分為1)的概率;將θu解釋為用戶的潛在興趣(latent interest);將bi解釋為項(xiàng)目的可接受程度(agreeability).因此,式(2)直觀上表示了用戶的潛在興趣越強(qiáng),則越可能表現(xiàn)出積極的反應(yīng).
文獻(xiàn)[11]將心理測量學(xué)模型引入個(gè)性化推薦算法的研究中,并提出了基于潛在興趣的CF算法,實(shí)驗(yàn)結(jié)果表明基于潛在興趣的CF算法相比于傳統(tǒng)CF算法可提高推薦準(zhǔn)確度.
上述研究結(jié)果表明,將心理測量學(xué)引入個(gè)性化推薦算法研究中是有益的.提出具有更高推薦準(zhǔn)確度的算法雖然重要,但對(duì)于評(píng)分?jǐn)?shù)據(jù)質(zhì)量問題的研究同樣重要,因?yàn)榈唾|(zhì)量的數(shù)據(jù)可能會(huì)造成研究結(jié)果產(chǎn)生偏差甚至誤導(dǎo).因此,鑒于用戶在評(píng)分過程中傾向于產(chǎn)生評(píng)分偏差,前期工作[12]提出了使用潛在偏好(latent preference)表示用戶偏好,其中潛在偏好通過心理測量學(xué)模型計(jì)算得出,并實(shí)驗(yàn)驗(yàn)證了潛在偏好相比于觀測評(píng)分可更準(zhǔn)確地表示用戶偏好.然而,文中并沒有對(duì)評(píng)分偏差對(duì)于推薦質(zhì)量的影響進(jìn)行實(shí)驗(yàn)分析.本文在前期研究的基礎(chǔ)上,提出評(píng)分偏差的度量方法,并分析評(píng)分偏差對(duì)于推薦質(zhì)量的影響,從而對(duì)推薦算法作出更為客觀的評(píng)價(jià).
具體地,評(píng)分偏差的度量分為3個(gè)步驟:
1)依據(jù)用戶評(píng)分及心理測量學(xué)模型估計(jì)用戶潛在興趣θu.本文用Rasch模型參數(shù)估計(jì)軟件Winsteps[13].Winsteps 首先將 θu,bi及 τx初始化為0,然后遍歷用戶評(píng)分?jǐn)?shù)據(jù)集,通過正態(tài)逼近算法(PROX,Normal Approximation Estimation Algorithm)迭代更新θu及bi,直至θu及bi的變化程度小于某一閾值(詳細(xì)的推導(dǎo)過程可參見文獻(xiàn)[14]).Winsteps然后通過 JML進(jìn)行第2階段的參數(shù)估計(jì).首先依據(jù)當(dāng)前 θu,bi,τx值及 Rasch 模型計(jì)算用戶評(píng)分期望值,然后依據(jù)評(píng)分期望值與評(píng)分的差別程度,通過 Newton-Raphson算法對(duì)θu,bi及τx進(jìn)行迭代更新.例如,如果依據(jù)目前參數(shù)計(jì)算得到的用戶期望評(píng)分總分小于實(shí)際總分,則提高用戶的潛在興趣值θu.具體的參數(shù)迭代更新公式可參見W right等的推導(dǎo)[15].
2)對(duì)于每一用戶評(píng)分,依據(jù)用戶潛在興趣,計(jì)算相應(yīng)的潛在偏好,如式(5),其中 lu,i為計(jì)算得到的用戶u對(duì)于項(xiàng)目i的潛在偏好:
3)依據(jù)潛在偏好,計(jì)算用戶的評(píng)分偏差R.計(jì)算公式見式(6),其中ru,i為用戶u對(duì)于項(xiàng)目i的評(píng)分.前期工作表明,潛在偏好lu,i相比于觀測評(píng)分 ru,i可更準(zhǔn)確地表示用戶偏好[12],因此,由式(6)度量用戶評(píng)分偏差是可行的.
實(shí)驗(yàn)采用了廣泛使用的數(shù)據(jù)集之一MovieLens[2].該數(shù)據(jù)集含有943個(gè)用戶對(duì)于1 682個(gè)電影項(xiàng)目的100000個(gè)評(píng)分.評(píng)分可取值為1~5.實(shí)驗(yàn)隨機(jī)選取了80%的用戶評(píng)分作為訓(xùn)練集,其余的評(píng)分作為測試集.
實(shí)驗(yàn)采用廣泛使用的平均絕對(duì)誤差(MAE,Mean Absolute Error)[2]作為推薦準(zhǔn)確度的度量標(biāo)準(zhǔn),用E表示:
其中,pu,i為算法給出的用戶u對(duì)于項(xiàng)目i的評(píng)分預(yù)測值;ru,i為測試集中的對(duì)應(yīng)評(píng)分.MAE值越小,則推薦準(zhǔn)確度越高;推薦覆蓋度(coverage)定義為算法可給出的預(yù)測值數(shù)目占測試評(píng)分總數(shù)N的比例[5].
實(shí)驗(yàn)首先通過訓(xùn)練集數(shù)據(jù)使用Rasch模型參數(shù)估計(jì)軟件Winsteps[13]估計(jì)用戶潛在興趣;然后針對(duì)訓(xùn)練集中的每一用戶評(píng)分ru,i,計(jì)算其對(duì)應(yīng)的潛在偏好 lu,i及評(píng)分偏差 Ru,i=ru,i- lu,i,接著,通過設(shè)定不同的評(píng)分偏差水平a(a分別取值0,0.2,0.4,…,1.0)形成不同的訓(xùn)練數(shù)據(jù)集 tu,i=aRu,i+lu,i.通過由不同評(píng)分偏差水平形成的訓(xùn)練集,分別分析評(píng)分偏差對(duì)于用戶相似度計(jì)算、鄰居選取及推薦質(zhì)量的影響.
實(shí)驗(yàn)采用Pearson相關(guān)系數(shù)[2]計(jì)算用戶相似度,鄰居數(shù) k分別設(shè)置為 5,10,…,60,評(píng)分預(yù)測公式為式(1).
3.3.1 評(píng)分偏差對(duì)于相似度計(jì)算的影響實(shí)驗(yàn)分析
實(shí)驗(yàn)計(jì)算了在不同評(píng)分偏差水平a下,含有不同共評(píng)項(xiàng)目數(shù)c>x(x分別取值為2,4,…,10,15,25,…,105)的用戶之間的平均相似度,結(jié)果如圖2所示(為了清楚的呈現(xiàn)實(shí)驗(yàn)結(jié)果,本文省略了某些參數(shù)取值下的結(jié)果,或?qū)⒉煌瑓?shù)下的結(jié)果分別呈現(xiàn)).
圖2 平均用戶相似度隨共評(píng)項(xiàng)目數(shù)c的變化情況
圖2的結(jié)果顯示,隨著偏差水平的增大,具有低相似度的用戶之間的相似水平相對(duì)提高;具有高相似度的用戶之間的相似水平相對(duì)降低.例如,對(duì)于a=0.2,c<10的這些低相似性用戶(圖2b),隨著偏差水平的升高,這些用戶之間的相似度值逐漸相對(duì)提高(相對(duì)于同一偏差水平下,c>10的那些用戶);而對(duì)于a=0.2,c>10的這些高相似性用戶,隨著偏差水平的升高,這些用戶之間的相似度值逐漸相對(duì)下降.這些相似度變化與本文第1.3.1節(jié)的分析結(jié)果一致(圖1中A→B).
3.3.2 評(píng)分偏差對(duì)于鄰居選取的影響實(shí)驗(yàn)分析
圖2的結(jié)果顯示,隨著偏差水平的升高,具有低相似度值的用戶在鄰居中占的比率增大(圖1中 B→C).例如,對(duì)于 a=0.2,c<10 的這些低相似性用戶(圖2b),當(dāng)偏差水平升至0.8及1.0時(shí),CF算法完全優(yōu)先選擇這些用戶作為鄰居,而這些用戶之間的共評(píng)項(xiàng)目數(shù)相對(duì)較少,即是有效鄰居的可能性小.
為了進(jìn)一步分析鄰居的有效性,定義平均有效鄰居比(average effective neighbor ratio),用e表示,如式(8),其中N為測試集中的評(píng)分個(gè)數(shù),ni1為預(yù)測任一測試集中的評(píng)分時(shí),有效鄰居的個(gè)數(shù),ni2為可選鄰居的個(gè)數(shù).
當(dāng)鄰居數(shù)k設(shè)為不同值時(shí),平均有效鄰居比的實(shí)驗(yàn)結(jié)果報(bào)告于圖3.圖3顯示,隨著偏差水平的升高,鄰居的有效性降低;而前述分析表明:偏差水平增大,鄰居中低相似度值的用戶比率增大;據(jù)此兩點(diǎn)可得出結(jié)論:具有低相似度值的用戶鄰居的有效性低(圖1:C→E).
圖3 不同評(píng)分偏差水平a下的平均鄰居有效比
3.3.3 評(píng)分偏差對(duì)于推薦質(zhì)量影響實(shí)驗(yàn)分析
圖4顯示了不同偏差水平下的推薦準(zhǔn)確度結(jié)果,可見,平均絕對(duì)誤差隨偏差水平a的增加而增加,即隨著偏差水平的提高,推薦準(zhǔn)確度下降.最大降幅達(dá)20%(當(dāng)鄰居數(shù)k為5時(shí),將偏差水平平均絕對(duì)誤差從0.2提高至0.8,a值從 0.785 增至0.945).
不同偏差水平下的推薦覆蓋度結(jié)果見圖5,可見,推薦覆蓋度隨偏差水平a的增加而下降,即隨著偏差水平的提高,推薦覆蓋度下降.最大降幅達(dá)12%(當(dāng)鄰居數(shù)k=60時(shí),將偏差水平a從0.2提高至0.8,推薦覆蓋度從 0.648 降至 0.572).
圖4 不同評(píng)分偏差水平a下的推薦準(zhǔn)確度
圖5 不同評(píng)分偏差水平a下的推薦覆蓋度
推薦準(zhǔn)確度主要與用戶相似度值有關(guān),即所選鄰居是否具有真實(shí)可靠的高相似性;推薦覆蓋度主要與鄰居有效性有關(guān),即針對(duì)每一測試評(píng)分,是否可找到有效的用戶鄰居.因此,在實(shí)驗(yàn)分析了評(píng)分偏差對(duì)于用戶相似度計(jì)算及鄰居選取的影響后,不難得出評(píng)分偏差對(duì)于推薦準(zhǔn)確度及覆蓋度的影響,即評(píng)分偏差使得相似度值低的用戶被選擇為鄰居,導(dǎo)致推薦準(zhǔn)確度下降(圖1中A→B→C→D);同時(shí),相似度值低的鄰居的有效性低,導(dǎo)致推薦覆蓋度下降(圖1中A→B→C→E→F).
本文的主要貢獻(xiàn)在于:①給出了評(píng)分?jǐn)?shù)據(jù)質(zhì)量問題的明確定義,即評(píng)分偏差;②對(duì)評(píng)分偏差對(duì)于推薦質(zhì)量(包括推薦準(zhǔn)確度及覆蓋度)的影響機(jī)制進(jìn)行了分析,并基于心理測量學(xué)模型對(duì)用戶評(píng)分偏差進(jìn)行了度量,通過實(shí)驗(yàn)驗(yàn)證了評(píng)分偏差的影響:評(píng)分偏差導(dǎo)致具有低相似度值的用戶被選擇為鄰居,從而導(dǎo)致推薦準(zhǔn)確度下降;同時(shí),由于具有低相似度值的鄰居的有效性低,導(dǎo)致推薦覆蓋度下降;③結(jié)果表明,基于高質(zhì)量的數(shù)據(jù),CF算法可獲得好的推薦準(zhǔn)確度及覆蓋度.
References)
[1] Gediminas A,Alexander T.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Trans on Knowledge and Data Engineering(TKDE),2005,17(6):734 -749
[2] Badrul S,George K,Joseph K,et al.Item-based collaborative filtering recommendation algorithms[C]//Proc of10th International World Wide Web Conference(WWW'01).New York:ACM Press,2001:285 -295
[3] O'Mahony M P,Hurley N J,Silvestre G CM.Detecting noise in recommender system databases[C]//Proc of the 10th International Conference on Intelligent User Interfaces(IUI'06).New York:ACM Press,2006:109 -115
[4] Cao Huanhuan,Chen Enhong,Yang Jie,et al.Enhancing recommender systems under volatile user interest drifts[C]//Proc of the 18th ACM Conference on Information and Knowledge Management(CIKM'09).New York:ACM Press,2009:1257 -1266
[5] Xavier A,Neal L,Pujol JM,et al.The wisdom of the few:a collaborative filtering approach based on expert opinions from the web[C]//Proc of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'09).New York:ACM Press,2009:532 -539
[6] Herlocker JL,Konstan JA,Terveen L G,et al.Evaluating collaborative filtering recommender systems[J].Transactions on Information Systems(TOIS),2004,22(1):5 -53
[7] Wang Jun,de Vries A P,Reinders M J T.Unifying user-based and item-based collaborative filtering approaches by similarity fusion[C]//Proc of the29th International ACM SIGIRConference on Research and Development in Information Retrieval(SIGIR'06).New York:ACM Press,2006:501 -508
[8]杜文久.高等項(xiàng)目反應(yīng)理論[M].重慶:西南師范大學(xué)出版社,2007:71-88 Du Wenjiu.Advanced item response theory[M].Chongqing:Southwest Normal University Press,2007:71 -88(in Chinese)
[9] Cheng Yunghsiang.Exploring passenger anxiety associated with train travel[J].Transportation,2010,37(6):875 -896
[10] David Andrich.A rating formulation for ordered response categories[J].Psychometrikia,1978,43(4):561 - 573
[11] HuBiyun,Li Zhoujun,Wang Jun.User's latent interest-based collaborative filtering[C]//Proc 32nd European Conference on Information Retrieval(ECIR'10).Berlin:Springer-Verlag,2010:619-622
[12] HuBiyun,Li Zhoujun,Chao Wenhan,et al.User preference representation based on psychometric models[C]//Proc 22nd Australia Database Conference(ADC'11).Sydney:ACS,2011:57-64
[13] LinacreMike.WINSTEPS Rasch measurement computer program[EB/OL].Chicago:Winsteps.com,2007[2011-05-15].http://www.winsteps.com
[14] Linacre Mike.PROX for polytomous data[J].Rasch Measurement Transactions,1995,8(4):400
[15] Wright B D,Masters G N.Rating scale analysis[M].Chicago:MESA Press,1982:100
(編 輯:文麗芳)
Effect of rating residual on recommendation quality
Hu Biyun Li Zhoujun
(State Key Laboratory of Software Development Environment,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)
Wang Jun
(School of Computer Science and Technology,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)
Chao Wenhan
(Key Laboratory of Network Technology of Beijing,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)
The effect of the rating residual on recommendation quality was analyzed.The rating residual was measured through user ratings and latent preferences.Latent preferences were computed with psychometric models.With different levels of rating residual,the effect of the rating residual was experimentally evaluated on real world datasets.Theoretical analysis and experimental results show that rating residual has negative effects on recommendation accuracy and coverage.Based on high quality of data,collaborative filtering algorithms can make precise recommendations for users.
artificial intelligence;signal filtering and prediction;information retrieval;rating residual;data quality;collaborative filtering;recommendation accuracy;coverage
TP 182
A
1001-5965(2012)06-0823-06
2011-03-18;網(wǎng)絡(luò)出版時(shí)間:2012-06-15 15:43
www.cnki.net/kcms/detail/11.2625.V.20120615.1543.024.htm l
國家自然科學(xué)基金資助項(xiàng)目(61170189,60973105);軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室自主研究課題資助項(xiàng)目(SKLSDE-2011ZX-03)
胡必云(1982 -),女,安徽六安人,博士生,hubiyun@cse.buaa.edu.cn.