亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法*

        2017-10-12 03:40:18萍,李鏘,關(guān)欣,呂
        計算機與生活 2017年10期
        關(guān)鍵詞:雙重相似性協(xié)同

        孫 萍,李 鏘,關(guān) 欣,呂 杰

        天津大學(xué) 電子信息工程學(xué)院,天津 300072

        融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法*

        孫 萍,李 鏘+,關(guān) 欣,呂 杰

        天津大學(xué) 電子信息工程學(xué)院,天津 300072

        Abstract:Collaborative filtering recommendation system suffers from series data sparsity problem.To solve the problem,this paper proposes a collaborative filtering recommendation method by combining rating preference and dual prediction.In the stage of calculating the nearest neighbors,to improve the calculation method of similarity,rating preference is introduced firstly.Then,in the stage of generating recommendation,a dual prediction method is proposed which is based on the user and the item nearest neighbors to predict the user preference more accurately.The experimental results on the MovieLens-1M data set indicate that the proposed method can relieve the influence of rating data sparsity on recommended results,significantly reduce the mean absolute error and effectively improve the recommendation precision.

        Key words:recommendation system;collaborative filtering;user preference;rating prediction

        協(xié)同過濾推薦算法面臨著嚴(yán)重的數(shù)據(jù)稀疏性問題,提出一種融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法以解決該問題。在選擇最近鄰階段,引入評分傾向度來改進(jìn)相似性度量方法,更加準(zhǔn)確地得到最近鄰居集;在推薦生成階段,利用基于用戶最近鄰和基于項目最近鄰的雙重預(yù)測方法來進(jìn)行評分預(yù)測,提高預(yù)測的準(zhǔn)確度。通過在MovieLens-1M數(shù)據(jù)集上的實驗結(jié)果表明:該算法能夠緩解數(shù)據(jù)稀疏性對推薦結(jié)果的影響,有效降低平均絕對誤差,提高推薦準(zhǔn)確率。

        推薦系統(tǒng);協(xié)同過濾;用戶偏好;評分預(yù)測

        1 引言

        伴隨大數(shù)據(jù)時代的到來,信息過載問題日益嚴(yán)重,在面對眾多可選項時,用戶會感到困惑。在此背景下,推薦系統(tǒng)應(yīng)運而生,它們可以有效地為在線用戶處理信息過載問題,已成為電子商務(wù)的得力助手。

        目前,推薦系統(tǒng)大致可以分為基于內(nèi)容的推薦系統(tǒng)、協(xié)同過濾(collaborative filtering,CF)推薦系統(tǒng)和混合推薦系統(tǒng)3個主要類別[1]?;趦?nèi)容的推薦算法,假設(shè)用戶在過去和將來有相似的偏好,或者用戶的偏好與個性相關(guān)。協(xié)同過濾推薦算法是目前發(fā)展最成熟和應(yīng)用最廣泛的推薦技術(shù),主要包括基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾。其中基于內(nèi)存的協(xié)同過濾又分為基于用戶的協(xié)同過濾(user-based CF)和基于項目的協(xié)同過濾(item-based CF)[2]。推薦算法的模型包括聚類模型和貝葉斯網(wǎng)絡(luò)模型。協(xié)同過濾算法假設(shè)過去具有相似偏好的用戶未來也會有相似的偏好,通過挖掘用戶過去的行為記錄尋找相似的用戶或項目,然后利用相似的用戶或項目來預(yù)測當(dāng)前用戶的偏好,從而為用戶推薦感興趣的項目,亞馬遜商城的推薦算法就是依此產(chǎn)生的[3]?;趦?nèi)存的協(xié)同過濾無需分析信息資源的內(nèi)容,可以發(fā)現(xiàn)用戶潛在的興趣,而且可解釋性強,易實現(xiàn),因此得到廣泛的研究和應(yīng)用,其也是本文的主要研究對象?;旌贤扑]系統(tǒng),即結(jié)合不同的協(xié)同過濾方法從而產(chǎn)生新的推薦算法。Liu等人[4]利用網(wǎng)絡(luò)服務(wù)相似性計算模型,集成基于用戶與基于項目的推薦算法,開發(fā)出混合協(xié)同過濾推薦技術(shù)。

        隨著互聯(lián)網(wǎng)科技的發(fā)展,推薦系統(tǒng)在電子商務(wù)、電影和視頻網(wǎng)站、社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)廣告、個性化閱讀、信息檢索、移動應(yīng)用、旅游、交通等眾多領(lǐng)域[5-7]得到廣泛應(yīng)用。

        盡管協(xié)同過濾推薦取得了很大成功,但面臨著嚴(yán)重的數(shù)據(jù)稀疏性問題[2]。在實際應(yīng)用中,用戶和項目規(guī)模不斷增加,數(shù)量巨大,但用戶通常只會對少量項目進(jìn)行關(guān)注或評分,造成用戶-項目評分矩陣的維度不斷增加,數(shù)據(jù)稀疏性問題愈發(fā)嚴(yán)重;常常出現(xiàn)由于用戶間的共同評分項目過少,無法準(zhǔn)確計算二者的相似性;在評分預(yù)測中,由于最近鄰用戶評分的缺失,難以準(zhǔn)確預(yù)測評分。

        本文針對上述問題,提出了一種融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法。算法主要分為三步:首先計算融合了評分傾向度的用戶相似性和項目相似性;然后確定最近鄰用戶集和最近鄰項目集;最后動態(tài)選擇基于最近鄰用戶集和最近鄰項目集的雙重預(yù)測方法進(jìn)行評分預(yù)測。相比傳統(tǒng)的userbased CF,本文算法具有以下優(yōu)點:(1)引入評分傾向度,綜合考慮了用戶評分、用戶間共同評分項目和評分差異對用戶相似性的影響,能更真實地反映用戶間的相似性。(2)綜合考慮了用戶最近鄰和項目最近鄰在評分預(yù)測中的作用,使評分預(yù)測更精確。在公開數(shù)據(jù)集MovieLens上的實驗表明:本文算法有效改善了數(shù)據(jù)稀疏性問題,能夠降低平均絕對誤差,提高推薦準(zhǔn)確率,并在一定程度上緩解了冷啟動問題。

        本文組織結(jié)構(gòu)如下:第2章簡要回顧傳統(tǒng)協(xié)同過濾推薦算法并分析存在的問題;第3章提出了一種融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法;第4章進(jìn)行實驗并分析實驗結(jié)果;第5章總結(jié)全文。

        2 基本理論

        2.1 推薦模型

        傳統(tǒng)的基于用戶的協(xié)同過濾算法主要分為3個階段:用戶偏好建模,選擇最近鄰居集,推薦生成。傳統(tǒng)協(xié)同過濾算法中用戶對項目評分表示用戶的偏好,評分值一般為1~5之間的整數(shù),評分值越大表示用戶對項目越喜歡,評分值為空表示用戶u未對項目i評分,評分值缺失,因此帶來數(shù)據(jù)稀疏性問題。用戶在項目空間上的偏好分布可以用一個m×n階用戶-項目的評分矩陣R表示,m表示用戶的個數(shù),n表示項目的個數(shù),行向量R(u)為用戶u的評分集合Iu,列向量R(i)為所有用戶對項目i的評分集合Ui。

        傳統(tǒng)的協(xié)同過濾算法在評分矩陣R上計算用戶(項目)間的相似性,然后選擇相似性最大的用戶(項目)作為最近鄰用戶(項目)集,常用的相似性度量方法有余弦相似性、Pearson相關(guān)性。設(shè)用戶ua和ub之間的相似度為sim(ua,ub),則兩種相似性的計算方法如式(1)、式(2)所示。

        式中,Iab={i∈I|rai≠ ?,rbi≠ ?},表示用戶a和用戶b的共同評分項目集;rai和rbi分別表示用戶ua和ub對項目i的評分值;和分別表示用戶ua和ub的評分均值。如果求項目ia和ib之間的相似性,則公式修正如下:

        式中,Uab={u∈U|rua≠ ?,rub≠ ?},表示對項目a和項目b共同評分的用戶集;表示用戶的評分均值。

        推薦生成過程的關(guān)鍵是評分預(yù)測,即通過利用最近鄰居集來預(yù)測目標(biāo)用戶對當(dāng)前項目的偏好,則評分預(yù)測計算方法表示如下:

        對于基于項目的協(xié)同過濾算法,公式修正如下:

        2.2 傳統(tǒng)協(xié)同過濾問題分析

        傳統(tǒng)協(xié)同過濾算法中,由于評分?jǐn)?shù)據(jù)的稀疏性問題,在利用傳統(tǒng)相似性度量方法計算相似性時,無法真實反映用戶間的相似性。例如:假設(shè)用戶a和用戶b分別對200個項目進(jìn)行評分,但只有一個共同評分項目,且評分相同,按Pearson相關(guān)系數(shù)計算,二者相似度為1,顯然這是不準(zhǔn)確的。而且在評分預(yù)測階段,由于數(shù)據(jù)稀疏性問題,導(dǎo)致缺失最近鄰用戶對當(dāng)前項目的評分?jǐn)?shù)據(jù),難以充分利用最近鄰用戶進(jìn)行評分預(yù)測。

        針對以上問題,國內(nèi)外學(xué)者提出了許多改進(jìn)算法,主要分為基于內(nèi)存的方法和基于模型的方法。Sarwar等人將信息檢索領(lǐng)域的奇異值分解技術(shù)(singular value decomposition,SVD)引入到推薦系統(tǒng)[8-9],將高維的評分矩陣R拆分成低維的近似矩陣,利用數(shù)據(jù)中的潛在關(guān)系觀察用戶或項目間的相似信息。該方法在一定條件下,可以過濾掉數(shù)據(jù)中存在的噪聲,提高推薦準(zhǔn)確度,但該方法容易導(dǎo)致有用信息丟失,在某些情況下推薦質(zhì)量較差。Hofmann等人將概率潛在語義分析(probabilistic latent semantic analysis,pLSA)引入推薦系統(tǒng)[10-11],該算法利用隱含變量發(fā)現(xiàn)用戶社區(qū)和評分?jǐn)?shù)據(jù)里隱藏的興趣,并按照興趣對用戶進(jìn)行劃分,能獲得比較高的準(zhǔn)確率。Breese等人提出了一種矩陣填充技術(shù)[12-13],將缺失的評分?jǐn)?shù)據(jù)填充為一個缺省值,以此來緩解數(shù)據(jù)稀疏性問題,但由于缺省值的設(shè)置存在誤差,導(dǎo)致評分預(yù)測不準(zhǔn)確,降低推薦準(zhǔn)確率。為了有效利用評分?jǐn)?shù)據(jù)之外的其他信息,避免評分?jǐn)?shù)據(jù)稀疏性對用戶相似度計算的影響,有學(xué)者提出將上下文信息、用戶信任網(wǎng)絡(luò)等引入到推薦系統(tǒng)中。文獻(xiàn)[14]將用戶附加信息,如性別、年齡等引入到推薦系統(tǒng)中,在一定程度上緩解了數(shù)據(jù)稀疏性問題。文獻(xiàn)[15-16]進(jìn)而提出了一種上下文感知推薦算法,將上下文信息融入到推薦系統(tǒng)中,包括用戶上下文信息,如性別、年齡、職業(yè)、心情等;環(huán)境上下文信息,如位置、天氣等時間上下文信息,社會化網(wǎng)絡(luò)等。但該方法面臨著獲取上下文信息困難,而且?guī)砀訃?yán)重的數(shù)據(jù)稀疏性等問題。Quan[17]提出加入用戶個性改善用戶模型的推薦算法,該算法可以在一定程度上緩解數(shù)據(jù)稀疏問題,但是加重了系統(tǒng)的計算負(fù)擔(dān)。Gupta等人[18]提出協(xié)同過濾與人口統(tǒng)計學(xué)相結(jié)合的推薦算法,該算法可以有效解決數(shù)據(jù)稀疏、冷啟動等問題,且算法的擴展性強,但是算法實現(xiàn)過程較復(fù)雜,計算量大,在實際應(yīng)用中可能會受到限制。本文針對上述方法中存在的問題,引入評分傾向度改善相似度的計算,并利用動態(tài)選擇基于用戶最近鄰和基于項目最近鄰的雙重預(yù)測方法來進(jìn)行評分預(yù)測,提出一種融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法。

        3 融合評分傾向度和雙重預(yù)測的協(xié)同過濾推薦算法

        本文算法的主要思想是利用用戶的評分傾向度更加準(zhǔn)確地計算用戶的相似性,并在評分預(yù)測階段采用動態(tài)選擇基于項目和基于用戶的雙重評分預(yù)測。本文將此算法命名為PDCF(collaborative filtering recommendation method combining rating preference and dual prediction)算法,下面詳細(xì)介紹PDCF算法的主要內(nèi)容。

        3.1 基于評分傾向度的相似度

        本文2.2節(jié)已經(jīng)指出,由于數(shù)據(jù)的稀疏性,用戶間的共同評分項目過少,在利用傳統(tǒng)相似性度量方法計算用戶或項目間相似性時,常常出現(xiàn)無法真實反映用戶間相似性的問題。例如表1,顯示了當(dāng)前用戶Alice和其他用戶的評分?jǐn)?shù)據(jù)。

        Table 1 User rating dataset表1 用戶評分?jǐn)?shù)據(jù)庫

        如果利用Pearson相關(guān)系數(shù)求當(dāng)前用戶Alice和用戶u1和u2的相似性,則分別為sim(Alice,u1)=1,sim(Alice,u2)=0.707,即當(dāng)前用戶Alice和用戶u2的相似性比和用戶u1的相似性低。顯然這是不正確的,因為當(dāng)前用戶Alice和用戶u2有兩個共同評分項,說明項目的關(guān)注傾向度更加趨于一致,而且共同評分差異小,綜合起來說明二者評分傾向度更加一致,二者的相似度應(yīng)該比和用戶u1的相似度大。

        首先,如果用戶間共同評分項目占二者所有評分過的項目比例越大,則二者對項目的關(guān)注傾向度越一致,二者的相似性也應(yīng)該更大,因此引入Jaccard系數(shù)來計算用戶對項目的關(guān)注傾向度Pi,具體計算方法如下:

        式中,Ia和Ib分別表示用戶a和b的評分項目集合。將Pi(ua,ub)乘以二者的Pearson相關(guān)系數(shù),即sim2(ua,ub)=Pi(ua,ub)×sim(ua,ub),來改進(jìn)上述缺陷,可以計算得到sim2(Alice,u1)=0.2,sim2(Alice,u2)=0.354。雖然sim2(Alice,u2)比原來的小,但當(dāng)前用戶Alice和用戶u2的相似性比和用戶u1的相似性提高了77%,顯然這更符合實際情況??紤]用戶對項目的關(guān)注傾向度雖然在一定程度上緩和了數(shù)據(jù)稀疏性,但也存在不足。因為即使兩個用戶對項目的關(guān)注傾向度相似,但如果評分存在較大不同,說明二者的偏好也不一致,所以對Jaccard系數(shù)進(jìn)行改進(jìn),使得用戶對項目的關(guān)注傾向度一致,而且評分也趨于相似時,二者的相似性才更大。

        定義1(評分傾向度)用P(ua,ub)和P(ia,ib)分別表示兩個用戶間和兩個項目間的評分傾向度,則計算公式如下:

        將用戶的評分傾向度融入到用戶或項目的相似度計算過程,則得到基于評分傾向度的相似性度量方法,具體計算公式如下:

        式中,P(ua,ub)表示用戶間的評分傾向度;sim3(ua,ub)和sim3(ia,ib)表示分別利用式(2)和式(3)求得的用戶間和項目間的皮爾森相關(guān)系數(shù)。

        最后,利用式(9)再次計算當(dāng)前用戶Alice和用戶u1和u2的相似性,分別為sim(Alice,u1)=0.16,sim(Alice,u2)=0.318。即雖然sim(Alice,u2)也有所減小,但當(dāng)前用戶和用戶u2的相似性比和用戶u1的相似性高98%,用此方法計算得到的最近鄰用戶更準(zhǔn)確。

        3.2 選擇最近鄰居集

        3.1節(jié)詳細(xì)介紹了基于用戶間評分傾向度的相似性度量方法,在本文PDCF算法中,首先利用式(9)和式(10)計算用戶相似度和項目相似度,然后選擇相似度最大的作為最近鄰居集。

        3.3 評分預(yù)測

        傳統(tǒng)協(xié)同過濾推薦系統(tǒng)利用式(4)和式(5)進(jìn)行評分預(yù)測,但由于數(shù)據(jù)的稀疏性,導(dǎo)致缺失最近鄰用戶對當(dāng)前項目的評分,難以進(jìn)行評分預(yù)測。為了充分利用最近鄰用戶集并提高評分預(yù)測的準(zhǔn)確度,本文借鑒矩陣填充技術(shù)的思想,用預(yù)測值填充缺失的數(shù)據(jù)。同時為了緩解新填充數(shù)據(jù)帶來新的誤差,本文提出雙重預(yù)測方法來進(jìn)行評分預(yù)測。首先動態(tài)監(jiān)測最近鄰用戶對當(dāng)前項目的評分,當(dāng)最近鄰用戶對當(dāng)前項目的評分缺失時,利用基于項目的協(xié)同過濾方法確定當(dāng)前項目的最近鄰項目集,并預(yù)測最近鄰用戶對當(dāng)前項目的評分,然后將此預(yù)測評分設(shè)置為最近鄰用戶對當(dāng)前項目的評分。最后再利用基于用戶的預(yù)測方法進(jìn)行評分預(yù)測。

        假設(shè)目標(biāo)用戶為ua,當(dāng)前項目為i,目標(biāo)用戶的最近鄰用戶集為Na,用戶b為最近鄰用戶集中的任一用戶,則用戶b對當(dāng)前項目的評分rbi為:

        式中,Na表示用戶a的最近鄰用戶集;sim(ua,ub)為利用式(9)求得的用戶間的相似度。

        3.4 PDCF推薦算法描述

        輸入:用戶-項目評分矩陣Rm×n。

        輸出:目標(biāo)用戶的top-N推薦列表。

        步驟1計算基于評分傾向度的用戶相似度。先利用式(7)確定用戶間的評分傾向度矩陣Pu,然后利用式(9)確定基于評分傾向度的用戶相似度矩陣Sp。

        步驟2生成目標(biāo)用戶的K個最近鄰用戶。利用用戶的相似度矩陣Sp,按照top-N最近鄰選擇策略為目標(biāo)用戶選擇最近鄰居集N。

        步驟3掃描所有最近鄰用戶對當(dāng)前項目的評分,如果評分為空值,則利用式(10)計算項目相似度,確定當(dāng)前項目的最近項目集,然后將利用式(11)求得的預(yù)測值填充為最近鄰用戶對當(dāng)前項目的評分。

        步驟4計算目標(biāo)用戶對所有未評分項目的偏好。利用式(12)預(yù)測目標(biāo)用戶對當(dāng)前項目的評分。

        步驟5生成目標(biāo)用戶的推薦項目集Ir,根據(jù)目標(biāo)用戶對未評分項目的偏好,選擇預(yù)測評分值前n個最大的項目作為top-N推薦列表推薦給目標(biāo)用戶。

        4 實驗及結(jié)果分析

        4.1 數(shù)據(jù)集及實驗環(huán)境

        本文使用美國明尼蘇達(dá)大學(xué)的Grouplens研究組提供的MovieLens-1M數(shù)據(jù)集。該數(shù)據(jù)集包含了6 040個用戶對3 952部電影的1 000 209條評分記錄,評分值為1~5的整數(shù),1表示最不喜歡,5表示最喜歡;每個用戶至少對20部電影進(jìn)行評分,數(shù)據(jù)的稀疏度為95.81%。

        為了驗證推薦算法的推薦質(zhì)量,本文采用5折交叉驗證的方法,將數(shù)據(jù)集按照80%和20%的比例隨機分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

        本文實驗環(huán)境為:Windows7 32位操作系統(tǒng),2 GB內(nèi)存,Intel?CoreTM2 Duo CPU E7500@2.93 GHz,實驗程序基于python2.7開發(fā)。

        4.2 評價指標(biāo)

        為了驗證推薦算法的推薦質(zhì)量,實驗使用平均絕對誤差(mean absolute error,MAE)和推薦準(zhǔn)確率Pu作為評價指標(biāo)。

        MAE通過計算所有測試用戶對測試項目的預(yù)測評分和實際評分的平均誤差大小來衡量推薦系統(tǒng)的質(zhì)量。MAE越小,推薦系統(tǒng)質(zhì)量越好,MAE越大,推薦系統(tǒng)質(zhì)量越差。計算方法如下:

        式中,Tu表示測試用戶集;Ti表示測試項目集,|表示測試項目的個數(shù);prui表示用戶對項目i的預(yù)測評分;rui表示用戶對項目i的真實評分。

        Pu是評價top-N推薦質(zhì)量的重要指標(biāo),通過計算top-N推薦列表中的項目在用戶top-N評分項目列表中的個數(shù)占所有推薦項目的比例來衡量推薦系統(tǒng)的質(zhì)量。具體計算方法如下:

        式中,Tu表示測試用戶集;Ir表示用戶的top-N推薦列表;表示用戶的top-N評分列表。

        4.3 實驗結(jié)果及分析

        本文共設(shè)計了4組實驗,分別從基于用戶上下文信息的相似度、基于用戶評分傾向度的相似度、動態(tài)選擇基于用戶和基于項目的評分預(yù)測以及CPCF算法的有效性四方面來驗證本文CPCF算法的性能。為了便于描述實驗結(jié)果,本文采用表2中的縮寫來表示對應(yīng)的算法,采用k表示最近鄰用戶的個數(shù)。

        Table 2 Method proposed in this paper and methods for comparison表2 本文算法和擬比較算法

        4.3.1 評分傾向度的有效性

        該實驗主要驗證基于用戶評分傾向度的相似度計算方法對推薦質(zhì)量的影響。實驗結(jié)果如圖1和圖2所示。表3、表4分別表示基于評分傾向度的相似度計算方法與余弦相似性方法、Pearson方法相比,MAE降低比例和Pu提高比例。

        Fig.1MAEcomparison of collaborative filtering methods with cos,Pearson and Rp-Pearson圖1 分別采用cos、Pearson和Rp-Pearson相似度的推薦算法MAE對比圖

        Fig.2Pucomparison of collaborative filtering methods with cos,Pearson and Rp-Pearson圖2 分別采用cos、Pearson和Rp-Pearson相似度的推薦算法Pu對比圖

        如圖1所示,在不同數(shù)量的最近鄰用戶的條件下,基于用戶評分傾向度的相似性計算方法(Rp-Pearson)與余弦相似性方法和Pearson方法相比,MAE最小,且改善效果非常明顯。當(dāng)最近鄰用戶從10增加到30時,MAE急劇降低;當(dāng)最近鄰個數(shù)從30逐漸增加到150時,MAE逐漸降低,并趨于平緩。通過表3可以更加清晰地看出,與余弦相似性方法和Pearson方法相比,采用基于用戶評分傾向度的方法MAE均明顯降低,分別平均降低69.08%和60.85%。

        如圖2所示,確定top-N的個數(shù)為10的情況下,取不同數(shù)量的最近鄰用戶時,基于用戶評分傾向度的推薦準(zhǔn)確率最高,當(dāng)最近鄰個數(shù)從10增加到80時,推薦準(zhǔn)確率逐漸升高,此后再增加最近鄰個數(shù),推薦準(zhǔn)確率達(dá)到最大值。通過表4可以更加清晰地看出,與余弦相似性方法和Pearson方法相比,采用基于用戶評分傾向度的方法Pu均明顯提高,與余弦相似性方法和Pearson方法相比,推薦準(zhǔn)確率平均分別提高42.56%和8.29%。由以上分析可知,基于用戶評分傾向度的相似性算法與余弦方法和Pearson方法相比,可以有效緩解數(shù)據(jù)的稀疏性,降低平均絕對誤差,提高推薦準(zhǔn)確率。

        Table 3MAEreduction percentage compared with different similarity methods表3 不同相似度計算方法的MAE降低比例

        Table 4Puraise percentage compared with different similarity methods表4 不同相似度計算方法的Pu提高比例

        4.3.2 雙重預(yù)測的有效性

        本實驗主要驗證在評分預(yù)測階段雙重預(yù)測的有效性,實驗結(jié)果如圖3~圖5所示。其中圖3為不同相似度計算方法在僅基于用戶的評分預(yù)測和融合了雙重預(yù)測的協(xié)同過濾推薦算法的MAE的對比圖。由于圖3中一部分曲線重合,故圖4將動態(tài)選擇基于用戶和基于項目的評分預(yù)測方法的MAE對比圖單獨畫出。表5、表6分別表示對于不同推薦算法,融合了雙重預(yù)測的方法后,MAE降低比例和Pu提高比例。

        Fig.3MAEcomparison of collaborative filtering methods with different similarity圖3 不同相似度的協(xié)同過濾算法的MAE對比圖

        Fig.4MAEcomparison of different similarity methods after combining dynamic prediction圖4 不同算法融合動態(tài)預(yù)測后的MAE對比圖

        由圖3、圖4和表5可以看出,對于余弦方法、Pearson方法,在不同數(shù)量的最近鄰用戶的條件下,融合了雙重預(yù)測的協(xié)同過濾推薦算法MAE均最小,平均分別降低62.94%、52.09%,改善效果明顯。對于基于用戶評分傾向度的推薦方法,當(dāng)最近鄰個數(shù)K<60時,融合了雙重預(yù)測的協(xié)同過濾推薦算法MAE較低,當(dāng)K≥60時,MAE逐漸趨于一致,二者基本持平,平均降低了10.05%。由圖5、表6可以看到,在top-10推薦中,對于余弦方法、Pearson方法和基于用戶評分傾向度的協(xié)同過濾方法,在不同數(shù)量的最近鄰用戶的條件下,融合了雙重預(yù)測的協(xié)同過濾方法的推薦準(zhǔn)確率均最高,平均分別提高了13.07%、4.25%、3.02%。綜合以上分析可以得知,動態(tài)選擇基于用戶和基于項目的方法,可以緩解數(shù)據(jù)的稀疏性,降低預(yù)測誤差,提高預(yù)測準(zhǔn)確率。

        Fig.5Pucomparison of collaborative filtering methods with different similarity圖5 不同相似度的協(xié)同過濾算法的Pu對比圖

        Table 5MAEreduction percentage of different similarity methods after combining dynamic prediction表5 融合雙重預(yù)測后不同相似度計算方法的MAE降低比例

        Table 6Puraise percentage of different similarity methods after combining dynamic prediction表6 融合雙重預(yù)測后不同相似度計算方法的Pu提高比例

        4.3.3 PDCF算法的有效性

        通過上述兩組實驗,可以確定本文提出的基于評分傾向度的算法和雙重預(yù)測方法均可以減低預(yù)測誤差,提高推薦準(zhǔn)確率。本實驗主要驗證融合了上述兩種方法的PDCF算法效果,實驗結(jié)果如圖6和圖7所示。表7、表8分別表示PDCF算法與余弦相似性方法、Pearson方法相比,MAE降低比例和Pu提高比例。

        由圖6可以看出,PDCF算法與余弦相似性方法、Pearson方法相比,在不同數(shù)量最近鄰用戶的條件下,MAE均最小。由表7可以更加直觀地看出,PDCF算法和余弦方法、Pearson方法相比,MAE均顯著降低,整體分別平均降低了72.53%、64.61%。由圖7可以看出,在top-10推薦中,DPCF算法和余弦相似性方法、Pearson方法的協(xié)同過濾推薦算法相比,在不同最近鄰用戶個數(shù)的情況下,推薦準(zhǔn)確率均最高,推薦更加準(zhǔn)確。通過表8可以看出,PDCF算法和余弦方法相比,Pu得到了很大提高,平均提高幅度為46.93%;PDCF算法和Pearson方法相比,Pu也得到不同程度的提高,平均改善率為11.57%。綜合以上分析,CPCF算法可以有效緩解數(shù)據(jù)的稀疏性,降低預(yù)測誤差,提高推薦準(zhǔn)確率。

        5 結(jié)論

        協(xié)同過濾推薦技術(shù)是應(yīng)用最廣泛和最成功的推薦技術(shù),但面臨數(shù)據(jù)稀疏性和冷啟動等問題的嚴(yán)峻挑戰(zhàn),導(dǎo)致推薦質(zhì)量較差,不能滿足企業(yè)和用戶的需求。

        本文針對傳統(tǒng)協(xié)同過濾算法的不足,提出基于用戶評分傾向度的相似性計算方法,與余弦、Pearson等相似度計算方法相比,能更加真實地計算用戶間的相似性。為了進(jìn)一步緩解數(shù)據(jù)稀疏性的影響,在評分預(yù)測階段提出動態(tài)選擇基于用戶和基于項目的雙重預(yù)測方法,進(jìn)而提出一種融合用戶上下文信息和雙重預(yù)測的協(xié)同過濾算法(PDCF)。實驗結(jié)果表明,PDCF算法可以有效緩解數(shù)據(jù)稀疏性,提高預(yù)測準(zhǔn)確度和推薦準(zhǔn)確度,改善推薦質(zhì)量。

        Fig.6MAEcomparison of collaborative filtering methods with cos,Pearson and PDCF圖6 分別采用cos、Pearson and PDCF相似度的推薦算法MAE對比圖

        Fig.7Pucomparison of collaborative filtering methods with cos,Pearson and PDCF圖7 分別采用cos、Pearson和PDCF相似度的推薦算法Pu對比圖

        Table 7MAEreduction percentage compared with different similarity methods表7 不同相似度計算方法的MAE降低比例

        Table 8Puraise percentage compared with different similarity methods表8 不同相似度計算方法的Pu提高比例

        [1]Revankar O S,Haribhakta Y V.Survey on collaborative filtering technique in recommendation system[J].International Journal ofApplication or Innovation in Engineering&Management,2015,3(4):85-91.

        [2]Burke R,Felfernig A,G?ker M H.Recommender systems:an overview[J].AI Magazine,2011,32(3):13-18.

        [3]Linden G,Smith B,York J.Amazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.

        [4]Jiang Yechun,Liu Jianxun,Tang Mingdong,et al.An effective Web service recommendation method based on personalized collaborative filtering[C]//Proceedings of the 2011 IEEE International Conference on Web Services,Washington,Jul 4-9,2011.Washington:IEEE Computer Society,2011:211-218.

        [5]West J D,Wesley-Smith I,Bergstrom C T.A recommendation system based on hierarchical clustering of an articlelevel citation network[J].IEEE Transactions on Big Data,2016,2(2):113-123.

        [6]He Yaobin,Zhang Fan,Li Ye,et al.Multiple routes recommendation system on massive taxi trajectories[J].Tsinghua Science and Technology,2016,21(5):510-520.

        [7]Jiang Shuhui,Qian Xueming,Mei Tao,et al.Personalized travel sequence recommendation on multi-source big socialmedia[J].IEEE Transactions on Big Data,2016,2(1):43-56.

        [8]Sarwar B,Karypis G,Konstan J,et al.Application of dimensionality reduction in recommender system—a case study[R].Minneapolis,USA:University of Minnesota,2000.

        [9]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

        [10]Hofmann T,Puzicha J.Latent class models for collaborative filtering[C]//Proceedings of the 16th International Joint Conference on Artificial Intelligence,Stockholm,Sweden,Jul 31-Aug 6,1999.San Francisco,USA:Morgan Kaufmann Publishers Inc,1999:688-693.

        [11]Hofmann T.Latent semantic models for collaborative filtering[J].ACM Transactions on Information Systems,2004,22(1):89-115.

        [12]Breese J S,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence,Madison,USA,Jul 24-26,1998.San Francisco,USA:Morgan Kaufmann Publishers Inc,1998:43-52.

        [13]Degemmis M,Lops P,Semeraro G.A content-collaborative recommender that exploits WordNet-based user profiles for neighborhood formation[J].User Modeling and User-Adapted Interaction,2007,17(3):217-255.

        [14]Pazzani M J.A framework for collaborative,content-based and demographic filtering[J].Artificial Intelligence Review,1999,13(5/6):393-408.

        [15]Adomavicius G,Sankaranarayanan R,Sen S,et al.Incorporating contextual information in recommender systems using a multidimensional approach[J].ACM Transactions on Information Systems,2005,23(1):103-145.

        [16]Adomavicius G,Tuzhilin A.Context-aware recommender systems[M]//Recommender Systems Handbook.Secaucus,USA:Springer-Verlag New York,Inc,2011:217-253.

        [17]Quan Zhichao.Collaborative filtering recommendation based on user personality[C]//Proceedings of the 6th International Conference on Information Management,Innovation Management and Industrial Engineering,Xi'an,China,Nov 23-24,2013.Piscataway,USA:IEEE,2013:307-310.

        [18]Gupta J,Gadge J.A framework for a recommendation system based on collaborative filtering and demographics[C]//Proceedings of the 2014 International Conference on Circuits,Systems,Communication and Information Technology Applications,Mumbai,India,Apr 4-5,2014.Piscataway,USA:IEEE,2014:300-304.

        Collaborative Filtering Recommendation Method Combining Rating Preference and Dual Prediction*

        SUN Ping,LI Qiang+,GUAN Xin,LV Jie
        School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China

        A

        TN911.7

        +Corresponding author:E-mail:liqiang@tju.edu.cn

        SUN Ping,LI Qiang,GUAN Xin,et al.Collaborative filtering recommendation method combining rating preference and dual prediction.Journal of Frontiers of Computer Science and Technology,2017,11(10):1642-1651.

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology

        1673-9418/2017/11(10)-1642-10

        10.3778/j.issn.1673-9418.1608002

        E-mail:fcst@vip.163.com

        http://www.ceaj.org

        Tel:+86-10-89056056

        *The National Natural Science Foundation of China under Grant No.61401307(國家自然科學(xué)基金);the Postdoctoral Science Foundation of China under Grant No.2014M561184(中國博士后科學(xué)基金);the Application Infrastructure and Cutting-Edge Technology Research Projects of Tianjin under Grant No.15JCYBJC17100(天津市應(yīng)用基礎(chǔ)與尖端技術(shù)研究項目).

        Received 2016-08,Accepted 2016-12.

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-12-21,http://www.cnki.net/kcms/detail/11.5602.TP.20161221.1128.002.html

        SUN Ping was born in 1990.She is an M.S.candidate at Tianjin University.Her research interests include recommending system and machine learning,etc.

        孫萍(1990—),女,河北三河人,天津大學(xué)人工智能實驗室碩士研究生,主要研究領(lǐng)域為推薦系統(tǒng),機器學(xué)習(xí)等。

        LI Qiang was born in 1974.He received the Ph.D.degree in signal and information processing from Tianjin University in 2003.Now he is a professor and Ph.D.supervisor at Tianjin University.His research interests include intelligence information processing,filter design,digital system and micro-system design,etc.

        李鏘(1974—),男,山西太原人,2003年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域為智能信息處理,濾波器設(shè)計,數(shù)字系統(tǒng)和微系統(tǒng)設(shè)計等。

        GUAN Xin was born in 1977.She received the Ph.D.degree from Tianjin University in 2009.Now she is a lecturer at School of Electronic Information Engineering,Tianjin University.Her research interests include music information retrieval,statistical learning and convex optimization,etc.

        關(guān)欣(1977—),女,河北石家莊人,2009年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)講師,主要研究領(lǐng)域為音樂信號檢索,統(tǒng)計學(xué)習(xí),凸優(yōu)化等。

        LV Jie was born in 1991.He is an M.S.candidate at Tianjin University.His research interests include recommending system and machine learning,etc.

        呂杰(1991—),男,河南駐馬店人,天津大學(xué)碩士研究生,主要研究領(lǐng)域為推薦系統(tǒng),機器學(xué)習(xí)等。

        猜你喜歡
        雙重相似性協(xié)同
        自然與成長的雙重變奏
        一類上三角算子矩陣的相似性與酉相似性
        蜀道難:車與路的協(xié)同進(jìn)化
        淺析當(dāng)代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        化解“雙重目標(biāo)”之困
        中國外匯(2019年7期)2019-07-13 05:44:56
        “四化”協(xié)同才有出路
        汽車觀察(2019年2期)2019-03-15 06:00:50
        三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
        低滲透黏土中氯離子彌散作用離心模擬相似性
        “雙重打擊”致恐龍滅絕
        協(xié)同進(jìn)化
        国产在线精品欧美日韩电影| 男女激情视频网站免费在线| 日本精品一区二区三区二人码| 丰满人妻一区二区三区视频53| 国产成+人+综合+亚洲 欧美| 久久丁香花综合狼人| 亚洲av高清一区二区| 久久不见久久见免费视频6| 免费精品一区二区三区第35| 国产福利小视频在线观看 | 日韩精品午夜视频在线| 精品亚洲成a人在线观看 | 欧洲熟妇色xxxx欧美老妇软件 | 国产中文aⅴ在线| 综合人妻久久一区二区精品| 蜜桃尤物在线视频免费看| 国产真实强被迫伦姧女在线观看 | 久久国产精品超级碰碰热| 91国产自拍精品视频| 97久久精品人妻人人搡人人玩| 俺来也俺去啦久久综合网| 亚洲无码美韩综合| 日本成人午夜一区二区三区| 妺妺窝人体色www看美女| 日本VA欧美VA精品发布| 亚洲一区久久久狠婷婷| 一边摸一边做爽的视频17国产 | 国产在线AⅤ精品性色| 自拍成人免费在线视频| 亚洲综合在线一区二区三区| 亚洲国产福利精品一区二区| 成人综合激情自拍视频在线观看| 国产情侣一区二区三区| 永久免费av无码网站yy| 99久久亚洲国产高清观看| 精品熟女视频一区二区三区国产| 色综合av综合无码综合网站| 亚洲成人中文| 国产日韩乱码精品一区二区| 人妻熟妇乱又伦精品视频| 人妻少妇精品视频一区二区三区 |