潘拓宇,朱珍民,滕吉,葉劍,曾慶峰
(1中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100190;2湘潭大學(xué)信息工程學(xué)院,湖南湘潭411105)
網(wǎng)絡(luò)的快速發(fā)展帶來(lái)了信息量的指數(shù)級(jí)增長(zhǎng),如何從這些海量的信息中抽取出用戶(hù)感興趣的內(nèi)容變得意義重大,這就是當(dāng)前眾多大型網(wǎng)站,數(shù)字圖書(shū)館等廣泛研究的個(gè)性化服務(wù)推薦技術(shù)。個(gè)性化服務(wù)推薦技術(shù)主要分為基于內(nèi)容過(guò)濾,基于協(xié)同過(guò)濾,以及混合過(guò)濾三種類(lèi)型。目前應(yīng)用較為成功的是基于協(xié)同過(guò)濾的個(gè)性化信息推薦技術(shù)[1-2]。
本文對(duì)服務(wù)本身進(jìn)行描述,并對(duì)其內(nèi)容進(jìn)行過(guò)濾抽象出服務(wù)主題和特定主體。以此對(duì)整個(gè)服務(wù)項(xiàng)目集合進(jìn)行服務(wù)子類(lèi)的劃分,通過(guò)建立用戶(hù)興趣概率模型,來(lái)計(jì)算出要推薦的服務(wù)子類(lèi)集合,然后再對(duì)每個(gè)推薦服務(wù)子類(lèi)中特定的項(xiàng)目和用戶(hù)進(jìn)行項(xiàng)目協(xié)同過(guò)濾,從而得到某個(gè)用戶(hù)的推薦項(xiàng)目集合結(jié)果。
本文第二節(jié)介紹個(gè)性化推薦系統(tǒng)的相關(guān)工作和已有進(jìn)展。第三節(jié)描述該本體模型下的推薦過(guò)程,包括用戶(hù)子類(lèi)的興趣概率計(jì)算和在服務(wù)子類(lèi)中具體項(xiàng)目推薦計(jì)算。第四節(jié)為模型實(shí)現(xiàn)和實(shí)驗(yàn)結(jié)果分析。最后一節(jié)對(duì)全文總結(jié)和將來(lái)工作進(jìn)行展望。
基于協(xié)同過(guò)濾技術(shù)由于推薦精度較高且與服務(wù)資源的無(wú)關(guān)性,使得它成為近些年來(lái)個(gè)性化服務(wù)技術(shù)的主流,比較典型的方法包括:文獻(xiàn)[3]提出使用基于項(xiàng)目的協(xié)同過(guò)濾代替基于用戶(hù)的協(xié)同過(guò)濾,它首先計(jì)算項(xiàng)目之間的相關(guān)性,然后通過(guò)用戶(hù)對(duì)相關(guān)項(xiàng)目的評(píng)分預(yù)測(cè)用戶(hù)對(duì)未評(píng)分項(xiàng)目的評(píng)分。實(shí)驗(yàn)證明了前者在計(jì)算性能和推薦的品質(zhì)上明顯高于后者,在后續(xù)的工作中作者又進(jìn)一步擴(kuò)展該方法[4]。文獻(xiàn)[5]提出一種結(jié)合項(xiàng)目訪問(wèn)概率和協(xié)同過(guò)濾的方法,解決了普通協(xié)同過(guò)濾中的新用戶(hù)加入無(wú)法有效推薦問(wèn)題。文獻(xiàn)[6]提出一種利用聯(lián)合式檢索框架(associative retrieval framework)和相關(guān)傳播激活算法(related sp reading activation)從他們過(guò)去一些行為和反饋中提取傳遞聯(lián)合體(transitive associations),有效解決了用戶(hù)評(píng)分矩陣稀疏性問(wèn)題。單純的基于某種協(xié)同過(guò)濾的技術(shù)在實(shí)踐過(guò)程中容易遇到兩個(gè)很難解決的問(wèn)題,一個(gè)是稀疏性,也就是指在系統(tǒng)使用初期,由于系統(tǒng)資源還未獲得足夠多的評(píng)價(jià),該方法很難利用這些評(píng)價(jià)來(lái)發(fā)現(xiàn)相似的用戶(hù)。另一個(gè)是可擴(kuò)展性,也就是指隨著系統(tǒng)用戶(hù)和資源的增多,該方法的性能會(huì)越來(lái)越低。對(duì)于這些問(wèn)題,雖然最近人們通過(guò)聚類(lèi),矩陣劃分,粗糙集,模糊集,貝葉斯網(wǎng)絡(luò),修正相似度公式[7-11]等方法改進(jìn)但始終未從根本上解決上述問(wèn)題。
另一方面在特定領(lǐng)域資源模型表達(dá)較好的情況下,人們更加傾向使用簡(jiǎn)單快速的內(nèi)容過(guò)濾技術(shù)。但它往往使用向量模型精確表達(dá)用戶(hù)興趣,使得用戶(hù)和資源項(xiàng)目的相似度計(jì)算精度大大降低,雖然可以通過(guò)概率模型和模糊集加強(qiáng)相似計(jì)算的精度,但與協(xié)同過(guò)濾模型相比在沒(méi)有很好的預(yù)處理下,內(nèi)容過(guò)濾推薦精度要遠(yuǎn)遠(yuǎn)低于協(xié)同過(guò)濾技術(shù)。Bayesian網(wǎng)絡(luò)技術(shù)利用訓(xùn)練集創(chuàng)建相應(yīng)的模型,模型用決策樹(shù)表示,節(jié)點(diǎn)和邊表示用戶(hù)或者項(xiàng)目信息。訓(xùn)練得到的模型非常小,所以對(duì)模型的應(yīng)用非???。這種方法適合于用戶(hù)的興趣愛(ài)好變化比較慢的場(chǎng)合。內(nèi)容過(guò)濾方法最大的缺點(diǎn)就是每個(gè)用戶(hù)或者項(xiàng)目都只能被分到一個(gè)類(lèi)中。當(dāng)類(lèi)的粒度較大時(shí),在同一個(gè)類(lèi)下項(xiàng)目或用戶(hù)不能具體區(qū)分,而當(dāng)類(lèi)較小的時(shí)候,可能會(huì)出現(xiàn)有多個(gè)子類(lèi)符合同個(gè)項(xiàng)目或用戶(hù)的分配。
混合過(guò)濾是為了消除各種技術(shù)的缺點(diǎn),利用它們各自?xún)?yōu)點(diǎn)來(lái)達(dá)到一個(gè)較好的推薦效果。文獻(xiàn)[12]提出了基于內(nèi)容的協(xié)作過(guò)濾方法,也就是利用用戶(hù)瀏覽過(guò)的資源內(nèi)容來(lái)預(yù)期用戶(hù)對(duì)其他資源的評(píng)價(jià),這樣可以增加資源評(píng)價(jià)的密度,并利用這些評(píng)價(jià)再進(jìn)行協(xié)作過(guò)濾,從而提高協(xié)作過(guò)濾的性能。文獻(xiàn)[13]通過(guò)不同用戶(hù)對(duì)同一項(xiàng)目,同一用戶(hù)對(duì)不同項(xiàng)目以及其他用戶(hù)對(duì)相似項(xiàng)目三方面的預(yù)測(cè)融合,結(jié)合項(xiàng)目協(xié)同過(guò)濾和用戶(hù)分類(lèi)衰退,并利用這些評(píng)價(jià)再進(jìn)行協(xié)作過(guò)濾,從而提高協(xié)作過(guò)濾的性能。文獻(xiàn)[14]提出了一種混合項(xiàng)目和用戶(hù)兩方面的評(píng)分預(yù)測(cè)算法,改善協(xié)同過(guò)濾方法的數(shù)據(jù)稀疏性。文獻(xiàn)[15]提出了先進(jìn)行協(xié)作過(guò)濾,然后對(duì)中間結(jié)果再做內(nèi)容過(guò)濾的評(píng)分預(yù)測(cè),有效改善內(nèi)容過(guò)濾中不能發(fā)現(xiàn)新的其他用戶(hù)未訪問(wèn)過(guò)的可能感興趣的內(nèi)容。
基于內(nèi)容過(guò)濾的技術(shù)優(yōu)點(diǎn)是簡(jiǎn)單、有效,缺點(diǎn)是矢量模型計(jì)算精度較低,難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶(hù)發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)與用戶(hù)已有興趣相似的資源?;趨f(xié)作過(guò)濾的技術(shù)其優(yōu)點(diǎn)是能為用戶(hù)發(fā)現(xiàn)新的感興趣的資源,并且能夠?yàn)橐恍┓墙Y(jié)構(gòu)化對(duì)象進(jìn)行推薦比如電影,歌曲等,但是有兩個(gè)很難解決的缺點(diǎn),一個(gè)是稀疏性,即在系統(tǒng)使用初期,由于系統(tǒng)資源還未獲得足夠多的評(píng)價(jià),系統(tǒng)很難利用這些評(píng)價(jià)來(lái)發(fā)現(xiàn)相似用戶(hù)。另一個(gè)是系統(tǒng)的可擴(kuò)展性,即隨著系統(tǒng)資源和用戶(hù)數(shù)量增加,系統(tǒng)的性能會(huì)越來(lái)越低。
為了克服普通內(nèi)容過(guò)濾方法中矢量模型計(jì)算精度較低,改善協(xié)同過(guò)濾中用戶(hù)評(píng)分?jǐn)?shù)據(jù)的極端稀疏性,本文提出了一個(gè)基于內(nèi)容過(guò)濾和項(xiàng)目協(xié)同過(guò)濾的混合個(gè)性化服務(wù)推薦子模型。該模型對(duì)服務(wù)本身進(jìn)行描述,并對(duì)整個(gè)服務(wù)項(xiàng)目集合進(jìn)行以概率模型為基礎(chǔ)的服務(wù)子類(lèi)層次結(jié)構(gòu)劃分。通過(guò)先前的用戶(hù)訓(xùn)練和使用時(shí)的數(shù)據(jù)統(tǒng)計(jì),來(lái)計(jì)算出要推薦的服務(wù)子類(lèi)集合,然后再對(duì)每個(gè)推薦服務(wù)子類(lèi)中特定的項(xiàng)目和用戶(hù)進(jìn)行項(xiàng)目協(xié)同過(guò)濾,從而得到某個(gè)用戶(hù)的推薦項(xiàng)目集合結(jié)果。仿真實(shí)驗(yàn)結(jié)果表明,該子模型具有較高服務(wù)推薦的準(zhǔn)確率和召回率。
本服務(wù)推薦模型框架分為三個(gè)部分,按服務(wù)提供流程分為:服務(wù)內(nèi)容預(yù)處理部分,內(nèi)容過(guò)濾部分和協(xié)同過(guò)濾部分。我們通過(guò)服務(wù)子類(lèi)本體,對(duì)整個(gè)項(xiàng)目集合進(jìn)行服務(wù)子類(lèi)的劃分,為后續(xù)統(tǒng)計(jì)每個(gè)用戶(hù)興趣分布提供模板。當(dāng)用戶(hù)注冊(cè)登入后,根據(jù)一個(gè)時(shí)間窗內(nèi)(如兩個(gè)星期)的歷史訪問(wèn)信息的統(tǒng)計(jì),計(jì)算出新的興趣分布,然后以此為基礎(chǔ)對(duì)新的可能感興趣子類(lèi)進(jìn)行特定范圍內(nèi)的基于項(xiàng)目的協(xié)同過(guò)濾計(jì)算得到具體推薦服務(wù)項(xiàng)目返回給用戶(hù),從而完成推薦過(guò)程,如圖1。
圖1 服務(wù)推薦模型框架
通過(guò)服務(wù)內(nèi)容預(yù)處理,我們得到以服務(wù)子類(lèi)屬性為節(jié)點(diǎn)的服務(wù)層次結(jié)構(gòu)圖,如圖2。其中Si,F j,Ck,Al分別對(duì)應(yīng)著服務(wù)類(lèi)型,服務(wù)領(lǐng)域,服務(wù)主題,特定主體。路徑SiFjCkAl則對(duì)應(yīng)著一特定服務(wù)子類(lèi)。
假定每段路徑表示為某服務(wù)子類(lèi)屬性層次結(jié)構(gòu)下起點(diǎn)到終點(diǎn)的興趣概率,那么每個(gè)服務(wù)子類(lèi)的興趣概率為:
設(shè)不同服務(wù)子類(lèi)屬性粒度的集合為X,Y
圖2 服務(wù)子類(lèi)屬性本體層次結(jié)構(gòu)
在具體應(yīng)用中,我們使用專(zhuān)家經(jīng)驗(yàn)值或用戶(hù)使用項(xiàng)目的頻率Freq(一般是后者)來(lái)代替(1)式中每段部分路徑興趣概率P:
在沒(méi)有專(zhuān)家經(jīng)驗(yàn)值和用戶(hù)使用項(xiàng)目的頻率(或者是使用次數(shù)λ達(dá)不到某一啟動(dòng)閥值α,即用戶(hù)是偶爾使用該服務(wù)子類(lèi)中的項(xiàng)目,不考慮為用戶(hù)的真正興趣)的情況下,我們用剩余興趣量(即該服務(wù)子類(lèi)屬性粒度層下,總頻率減去其他已有使用項(xiàng)目的頻率)乘上一個(gè)估計(jì)因子 μ(在本模型中用該服務(wù)粒度下已有興趣量的最大值,即猜想在剩余興趣量中,沒(méi)有比已有興趣比值更大的剩余興趣分量,顯然比傳統(tǒng)的1/n更接近真實(shí)興趣,因?yàn)獒槍?duì)同一個(gè)領(lǐng)域或主題,用戶(hù)的興趣量很少是均勻的),即:
例1:假設(shè)圖2中實(shí)線路徑為系統(tǒng)對(duì)某個(gè)(或某類(lèi))用戶(hù)的項(xiàng)目服務(wù)使用頻率進(jìn)行學(xué)習(xí)和統(tǒng)計(jì)后,得到的k(這里設(shè)定k=3)個(gè)先前最感興趣(即使用頻率最高)的服務(wù)子類(lèi)S1 F2 C3 A4,S2 F2 C3 A4,S3F5C6A7。根據(jù)公式(1),(2)我們可得:p1=0.242 2,p2=0.061 8,p3=0.201 1。那么除了這k個(gè)可直接推薦的服務(wù)子類(lèi)外,與此類(lèi)似我們還應(yīng)該計(jì)算出其他相關(guān)子類(lèi)。如圖2中虛線路徑為三種典型代表。利用公式(1),(2),(3)可得路徑S2 F 4 C3 A4,S2F5C7A8,S3F2C3A4的p4=0.035 9,p5=0.036 3,p6=0.019 9。最后根據(jù)興趣概率 P值大小對(duì)所有結(jié)果選取前m個(gè)推薦服務(wù)子類(lèi)。
在選擇m個(gè)服務(wù)子類(lèi)后,根據(jù)每個(gè)子類(lèi)的興趣概率在m子類(lèi)中的比重依次確定各子類(lèi)的具體推薦項(xiàng)目數(shù)量。
圖3 某子類(lèi)中的項(xiàng)目—用戶(hù)評(píng)分矩陣及其項(xiàng)目之間相似關(guān)系
求出未訪問(wèn)過(guò)的其他項(xiàng)目的估計(jì)評(píng)分,Fu,j是第u個(gè)用戶(hù)對(duì)第j個(gè)項(xiàng)目的預(yù)測(cè)評(píng)分。最后根據(jù)下式
即在有預(yù)測(cè)評(píng)分情況下,選擇評(píng)分最高的前t個(gè)項(xiàng)目;在沒(méi)有預(yù)測(cè)評(píng)分但有其他用戶(hù)評(píng)分的情況下,選擇最熱點(diǎn)(訪問(wèn)次數(shù)最多)的前t個(gè)項(xiàng)目;否則隨機(jī)選取時(shí)間最新t個(gè)項(xiàng)目,推薦給用戶(hù)。
實(shí)驗(yàn)分為兩個(gè)部分,實(shí)驗(yàn)一與實(shí)驗(yàn)二為第一部分,實(shí)驗(yàn)三為第二部分。在第一部分中實(shí)現(xiàn)并驗(yàn)證以本文提出的理論模型為基礎(chǔ)的個(gè)性化混合Web服務(wù)推薦平臺(tái)。在第二部分中是用衡量推薦方法質(zhì)量中比較常用的M ovieLens數(shù)據(jù)集驗(yàn)證OHR方法的推薦質(zhì)量,并與傳統(tǒng)協(xié)同過(guò)濾方法進(jìn)行對(duì)比分析。
在第一部分中,沒(méi)有采用用戶(hù)手動(dòng)評(píng)分(因大多數(shù)用戶(hù)不會(huì)或不愿主動(dòng)參與評(píng)分),而是采取了用戶(hù)訪問(wèn)過(guò)某項(xiàng)目,則認(rèn)為他對(duì)該項(xiàng)目的評(píng)分是1否則為0.2的策略,評(píng)分高低的設(shè)定(有一定梯度)不影響推薦方法本身。在第二部分中,我們利用標(biāo)準(zhǔn)數(shù)據(jù)集,用訓(xùn)練集來(lái)推薦用戶(hù)未訪問(wèn)過(guò)的項(xiàng)目,用測(cè)試集來(lái)驗(yàn)證此方法的可靠性以及發(fā)現(xiàn)新興趣的能力。
采用信息檢索領(lǐng)域廣泛使用的準(zhǔn)確率(p recision)和召回率(recall)來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果。本實(shí)驗(yàn)準(zhǔn)確率和召回率的定義如下:
據(jù)實(shí)驗(yàn)統(tǒng)計(jì),實(shí)驗(yàn)數(shù)據(jù)集共有4種服務(wù)類(lèi)型覆蓋13個(gè)服務(wù)領(lǐng)域,63個(gè)主題和537個(gè)特定本體,共4 098個(gè)具體項(xiàng)目。它們分別來(lái)自各大門(mén)戶(hù)網(wǎng)站的新聞信息,中國(guó)農(nóng)業(yè)信息網(wǎng)的政策與科技信息,商務(wù)平臺(tái)中用戶(hù)自己發(fā)布的交易信息等。
【實(shí)驗(yàn)1】 隨機(jī)選取6組用戶(hù),每次隨機(jī)抽取40個(gè)用戶(hù)分別使用傳統(tǒng)基于項(xiàng)目協(xié)同過(guò)濾(IBCF),傳統(tǒng)基于用戶(hù)協(xié)同過(guò)濾(UBCF)和本文提出的基于本體的混合推薦方法(簡(jiǎn)稱(chēng)OHR)推薦10個(gè)頁(yè)面并計(jì)算出其相應(yīng)推薦的平均準(zhǔn)確率(實(shí)驗(yàn)結(jié)果見(jiàn)圖4)。
圖4 OHR方法與傳統(tǒng)協(xié)同過(guò)濾方法的準(zhǔn)確率比較
如圖4所示,OHR方法在推薦服務(wù)子類(lèi)范圍較小(k=3,m=6)的情況下,平均推薦精度比傳統(tǒng)基于項(xiàng)目過(guò)濾方法要提高了5%~8%。在推薦服務(wù)子類(lèi)范圍擴(kuò)大,推薦項(xiàng)目數(shù)量較少的情況下,推薦精度會(huì)略有下降(實(shí)驗(yàn)結(jié)果見(jiàn)圖5)。
圖5 OHR方法與傳統(tǒng)協(xié)同過(guò)濾方法的召回率比較
【實(shí)驗(yàn)2】 隨機(jī)選取上述全體用戶(hù)的某次會(huì)話。據(jù)統(tǒng)計(jì),大多數(shù)用戶(hù)訪問(wèn)服務(wù)子類(lèi)的數(shù)量在8~25個(gè)之間,用戶(hù)的平均訪問(wèn)項(xiàng)目為63個(gè),在此基礎(chǔ)上我們分別計(jì)算出4種方法在推薦項(xiàng)目數(shù)為10,20,30,40,50的召回率。
如圖5所示,本文提出的方法在推薦服務(wù)子類(lèi)范圍較大(k=5,m=10)的情況下,隨著推薦項(xiàng)目的增多其召回率的大小和上升速度明顯高于傳統(tǒng)協(xié)同過(guò)濾方法。
通過(guò)實(shí)驗(yàn)我們得知隨著k和m值增加,推薦服務(wù)子類(lèi)范圍隨之增大,推薦服務(wù)的召回率(recall)越高,但推薦服務(wù)的準(zhǔn)確率(precision)會(huì)有所越低。反之,雖然推薦服務(wù)的準(zhǔn)確率會(huì)很高,但是由于過(guò)濾掉了很多非主要興趣的服務(wù)子類(lèi),使得推薦服務(wù)的召回率(recall)會(huì)有所降低。
【實(shí)驗(yàn)3】 我們使用目前在衡量推薦方法質(zhì)量中比較常用的 M ovieLens數(shù)據(jù)集(http://movielens.umn.edu)對(duì)本文提出的方法與傳統(tǒng)協(xié)同過(guò)濾方法再次進(jìn)行比較驗(yàn)證。這個(gè)數(shù)據(jù)集由美國(guó)M innesota大學(xué)的GroupLens研究小組創(chuàng)建并維護(hù),它包括943個(gè)用戶(hù)對(duì)1 682部電影的100 000個(gè)評(píng)分(評(píng)分值 1~5,5表示“perfect”,而“1”表示“bad”)記錄,每個(gè)用戶(hù)至少評(píng)價(jià)了20部電影,并已經(jīng)以80%訓(xùn)練集,20%測(cè)試集的劃分比例生成了7組實(shí)驗(yàn)集,其中ua,ub組中的測(cè)試集中每個(gè)用戶(hù)評(píng)分?jǐn)?shù)量被標(biāo)準(zhǔn)化為10個(gè)。
在TopN的推薦結(jié)果評(píng)價(jià)中,既要考慮命中數(shù)量問(wèn)題(命中數(shù)量越多越好)又要考慮推薦精度問(wèn)題(推薦精度的評(píng)估標(biāo)準(zhǔn)一般采用平均絕對(duì)偏差MAE(m ean absolute error),通過(guò)計(jì)算預(yù)測(cè)用戶(hù)的評(píng)分與用戶(hù)的實(shí)際評(píng)分之間的偏差來(lái)度量預(yù)測(cè)的準(zhǔn)確性,MAE越小意味著推薦的精度越高),為了權(quán)衡兩者,本文建議提出一種新的評(píng)價(jià)TopN推薦結(jié)果的綜合標(biāo)準(zhǔn):每命中項(xiàng)目 M AE影響值M PH(MAE per hit)。即每推薦一個(gè)命中項(xiàng)目所帶來(lái)的平均絕對(duì)偏差代價(jià)。同MAE相似,MPH值越小,意味著每推薦一個(gè)命中項(xiàng)目所帶來(lái)的平均絕對(duì)偏差代價(jià)越小,TopN的推薦質(zhì)量越高。
對(duì)M ovieLens該數(shù)據(jù)集中的7個(gè)數(shù)據(jù)組,分別計(jì)算出 OHR4(k=m=4),OHR6(k=m=6),OHR8(k=m=8),IBCF Top10,Top15,Top20的NH,MAE,MPH值(如表1所示)。
從上表數(shù)據(jù)分析,可得到在推薦Top10的所有實(shí)驗(yàn)中,雖然OHR4,OH R6,OH R8比同條件下IBCF方法的平均MAE值分別要高3%,6%,8%,但平均推薦項(xiàng)目命中數(shù)量(NH)卻分別提高了13%,23%,22%(如圖6所示,Uavg為各組實(shí)驗(yàn)MPH的平均值)尤其是在標(biāo)準(zhǔn)Top10實(shí)驗(yàn)(即測(cè)試集中每個(gè)用戶(hù)評(píng)分?jǐn)?shù)量被標(biāo)準(zhǔn)化為 10個(gè))ua,ub組中OHR方法的優(yōu)勢(shì)更加明顯。在Top15,Top20的實(shí)驗(yàn)中,OH R對(duì)IBCF方法的綜合推薦質(zhì)量?jī)?yōu)勢(shì)逐漸減小。這是因?yàn)殡S著推薦項(xiàng)目數(shù)量的增多,次要興趣的項(xiàng)目也逐漸增多的緣故,導(dǎo)致了綜合推薦質(zhì)量相對(duì)優(yōu)勢(shì)有所下降。在實(shí)際應(yīng)用中,由于應(yīng)用系統(tǒng)本身信息表現(xiàn)空間有限,用戶(hù)的最感興趣信息集中,推薦數(shù)量一般不超過(guò)十個(gè),綜合考慮OH R方法推薦質(zhì)量明顯好于傳統(tǒng)方法。
表1 OHR方法與基于項(xiàng)目協(xié)同過(guò)濾方法在推薦TOP-10,15,20的NH,MAE,MPH
圖6 OHR方法與基于項(xiàng)目協(xié)同過(guò)濾方法在TOP-10的MPH比較
個(gè)性化服務(wù)推薦目前被廣泛地應(yīng)用于電子商務(wù),Web檢索,數(shù)字圖書(shū)館等各個(gè)領(lǐng)域,而現(xiàn)有的推薦方法存在著許多不足。本文提出的基于本體的個(gè)性化混合服務(wù)推薦模型(OHR),能夠簡(jiǎn)潔高效地表達(dá)服務(wù)的核心內(nèi)容,方便自然的描述用戶(hù)興趣的分布變化,以及較準(zhǔn)確和廣泛的向用戶(hù)提供服務(wù)。實(shí)驗(yàn)結(jié)果表明本模型在服務(wù)推薦上具有較高的準(zhǔn)確率和發(fā)現(xiàn)用戶(hù)新興趣的能力,但如何通過(guò)收集更多的上下文信息更加精確地描述用戶(hù)興趣仍是一個(gè)困難的問(wèn)題,而怎樣實(shí)現(xiàn)不同服務(wù)主元的跨類(lèi)型領(lǐng)域的服務(wù)推薦則是我們進(jìn)一步要研究的重點(diǎn)。
[1] 許海玲,吳瀟,李曉東,閻保平.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[2] Gediminas Adomavicius,A lexander Tuzhilin,Tow ard the NextGeneration of Recommender Systems:A Survey of the State-of-the-A rt and Possib le Extensions[C]//IEEE T ransactions on Know ledge and Data Engineering,2005,17(6):734-749.
[3] B.Sarwar,G.Karypis,J.Konstan,and J.Ried l,I-tem-Based Collaborative Filtering Recommendation A lgorithms[C]//Proc.10th Int'lWWW Conf.,2001.
[4] M ukund Ddeshpande,George Karypis,Item-Based Top-N Recommendation A lgorithms[J].ACM Transactions on Information Systems,2004,22(1):143-177.
[5] K.Yu,A.Schwaighofer,V.Tresp,X.Xu,and H.-P.K riegel,Probabilistic Memory-Based Collaborative Filtering[J].IEEE Trans.Know ledgeand Data Eng.,2004,16(1):56-69.
[6] Z.H uang,H.Chen,and D.Zeng,App lying Associative Retrieval Techniques to A lleviate the Sparsity Prob lem in Collaborative Filtering[J].ACM T rans.Information System s,2004,22(1):116-142.
[7] 王明文,陶紅亮,熊小勇.雙向聚類(lèi)迭代的協(xié)同過(guò)濾推薦算法[J].中文信息學(xué)報(bào),2008,22(4):61-65.
[8] 宗勝,姜麗紅.推薦系統(tǒng)中遺漏值解決方法的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2008,(6)
[9] 戴亞娥,龔松杰.個(gè)性化服務(wù)中基于模糊聚類(lèi)的協(xié)同過(guò)濾推薦[J].計(jì)算機(jī)工程與科學(xué),2009,(4)
[10] 羅喜軍,王韜丞,杜小勇,劉紅巖,何軍.基于類(lèi)別的推薦-種解決協(xié)同推薦中冷啟動(dòng)問(wèn)題的方法.計(jì)算機(jī)研究與發(fā)展,2007,z3.
[11] 歐潔.基于貝葉斯網(wǎng)絡(luò)模型的用戶(hù)興趣聯(lián)合推送[J].計(jì)算機(jī)科學(xué)2003,30(12):73-77.
[12] Balabanovic,M.,Shoham,Y.Fab:content-based,co llaborative recommendation[J].Communications of the ACM,1997,40(3):66-72.
[13] Jun Wang,A rjen P.de V ries,Marcel J.T.Reinders,Unifying User-based and Item-based Co llaborative Filtering App roaches by Sim ilarity Fusion[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval Pages:501-508.
[14] Rong Hu,Yansheng Lu,A Hybrid User and Item-Based Co llaborative Filtering w ith Smoothing on Sparse Data[C]//16th International Conference on A rtificial Reality and Telexistence——Workshops(ICAT'06),2006:184-189.
[15] James Sa lter,N ick Antonopou los,CinemaSc reen Recommender Agent:Combining Collaborative and Content-Based Filtering[C]//IEEE Intelligent Systems,2006,21(1):35-41.