亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合社會(huì)化信息的改進(jìn)單類協(xié)同過濾方法研究

        2017-01-07 08:08:15吳燎原賀曦冉
        關(guān)鍵詞:用戶信息方法

        吳燎原, 賀曦冉, 王 剛

        (1.合肥工業(yè)大學(xué) 科學(xué)技術(shù)研究院,安徽 合肥 230009; 2.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009)

        一種融合社會(huì)化信息的改進(jìn)單類協(xié)同過濾方法研究

        吳燎原1, 賀曦冉2, 王 剛2

        (1.合肥工業(yè)大學(xué) 科學(xué)技術(shù)研究院,安徽 合肥 230009; 2.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009)

        文章在負(fù)例抽取階段考慮用戶的活躍度和項(xiàng)目間相似度,以及在概率矩陣分解時(shí)融合用戶好友關(guān)系和項(xiàng)目標(biāo)簽社會(huì)化信息的基礎(chǔ)上,提出了一種融合社會(huì)化信息的改進(jìn)單類協(xié)同過濾(one class collaborative filtering with social information,OCCF-SI)方法,并在科研社交網(wǎng)絡(luò)CiteULike的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。研究結(jié)果表明,與其他傳統(tǒng)的推薦方法相比,該文所提出的方法取得了較好的推薦結(jié)果,具有良好的可擴(kuò)展性。

        推薦系統(tǒng);單類協(xié)同過濾;社會(huì)化信息;科技論文推薦

        隨著信息技術(shù)的不斷發(fā)展,如何從海量數(shù)據(jù)中快速有效地找到用戶所需的信息,滿足各類用戶的個(gè)性化需求,已受到學(xué)術(shù)界的廣泛關(guān)注,在此背景下,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)可以根據(jù)用戶的歷史評(píng)分?jǐn)?shù)據(jù)來學(xué)習(xí)、預(yù)測用戶偏好從而推薦物品,被認(rèn)為是當(dāng)前能夠解決信息過載的最有效方法之一,其中,運(yùn)用最廣泛的是基于協(xié)同過濾的推薦算法[1-3]。協(xié)同過濾算法的核心是基于目標(biāo)用戶最近鄰居的評(píng)分?jǐn)?shù)據(jù),來預(yù)測目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,從而將預(yù)測評(píng)分最高的若干項(xiàng)目推薦給目標(biāo)用戶。近年來,協(xié)同過濾算法在國內(nèi)外得到了廣泛的研究,按處理的數(shù)據(jù)不同可分為如下2類:一類是能明確區(qū)分用戶偏好傾向的數(shù)據(jù),如評(píng)分;另一類則是未能明確表現(xiàn)出用戶喜好傾向的單類數(shù)據(jù),如是否購買過某種商品等,這類數(shù)據(jù)僅有正例可以明確區(qū)分開來,而負(fù)例具有不確定性,故把該類問題稱為單類協(xié)同過濾 (one class collaborative filtering,OCCF) 問題[4-6]。在單類協(xié)同過濾中,數(shù)據(jù)獲取不需要用戶額外的努力,僅搜集用戶與網(wǎng)頁的自然交互信息,收集成本更低、數(shù)據(jù)規(guī)模更大、應(yīng)用前景更廣,因此,研究利用單類數(shù)據(jù)進(jìn)行個(gè)性化推薦,具有重要的實(shí)踐價(jià)值[3-4]。

        目前,針對(duì)單類數(shù)據(jù)的個(gè)性化推薦已經(jīng)開始得到學(xué)術(shù)界的關(guān)注,并有一些學(xué)者就此進(jìn)行了相關(guān)研究[6-12]。文獻(xiàn)[7]在研究微博用戶的轉(zhuǎn)發(fā)行為時(shí),將夾在2條被轉(zhuǎn)發(fā)微博之間其他未被轉(zhuǎn)發(fā)的微博作為負(fù)例;文獻(xiàn)[8]基于未被用戶選擇的項(xiàng)目中絕大多數(shù)是用戶不會(huì)去選擇的假設(shè),將隨機(jī)抽樣得到的用戶未選擇項(xiàng)目作為負(fù)例;文獻(xiàn)[9]通過設(shè)置一個(gè)相對(duì)小的閾值,將小于閾值的用戶未選擇項(xiàng)目作為負(fù)例;文獻(xiàn)[10]將觀察到的點(diǎn)擊數(shù)據(jù)作為正例,其余混合數(shù)據(jù)作為負(fù)例。以上研究恰當(dāng)?shù)匾胴?fù)例,解決了數(shù)據(jù)的高度不平衡性問題[6-9]。文獻(xiàn)[11]提出在傳統(tǒng)的矩陣分解模型和最近鄰模型上融入用戶的情境信息;文獻(xiàn)[12]提出在傳統(tǒng)的最近鄰模型上融入屬于特定領(lǐng)域的社交網(wǎng)絡(luò)信息;以上研究恰當(dāng)?shù)乩妙~外數(shù)據(jù)信息,解決了數(shù)據(jù)的高度稀疏性問題[10-12]。雖然以上研究都在一定程度上緩解了數(shù)據(jù)不平衡性或稀疏性對(duì)推薦結(jié)果的影響,但是大多是從單一角度進(jìn)行研究的,只孤立地考慮了對(duì)數(shù)據(jù)不平衡性和稀疏性一個(gè)問題的改進(jìn)。近年來隨著社交媒體的不斷發(fā)展,對(duì)于數(shù)據(jù)中帶有評(píng)分的推薦問題,融合社會(huì)化信息的推薦方法已被證明可以很好地提升推薦精度[13],但是對(duì)于更加稀疏的單類數(shù)據(jù)的研究不多。

        為了進(jìn)一步提高OCCF方法的推薦準(zhǔn)確性,本文在現(xiàn)有研究的基礎(chǔ)上,提出了一種融合社會(huì)化信息的改進(jìn)單類協(xié)同過濾(one class collaborative filtering with social information,OCCF-SI)方法。首先,針對(duì)OCCF數(shù)據(jù)的高度不平衡性問題,本文采用基于用戶活躍度和項(xiàng)目相似度的負(fù)例抽取方法。利用用戶對(duì)所有已選項(xiàng)目標(biāo)注的標(biāo)簽來表征其喜好傾向,計(jì)算該用戶的喜好傾向與其未選項(xiàng)目所被標(biāo)注標(biāo)簽間的余弦相似度,再根據(jù)相似度的大小從用戶未采取選擇行為的項(xiàng)目中抽取與該用戶喜好傾向相似度較小的作為負(fù)例;并且用戶已選擇的項(xiàng)目正例數(shù)量越多,其活躍度越高,對(duì)其添加的負(fù)例相應(yīng)就越多,原因是用戶已選正例越多,說明其見過的項(xiàng)目越多,其他沒有被選擇的項(xiàng)目更多的是其看見了但是不喜歡,而不是沒看見,因此對(duì)該用戶抽取的負(fù)例應(yīng)該越多。其次,針對(duì)OCCF數(shù)據(jù)的高度稀疏性問題,本文利用已添加負(fù)例的用戶歷史選擇行為數(shù)據(jù)和項(xiàng)目被標(biāo)注的社會(huì)化標(biāo)簽信息,構(gòu)造用戶-項(xiàng)目矩陣,用戶-用戶關(guān)系矩陣以及項(xiàng)目-標(biāo)簽矩陣,并將獲取到的用戶-用戶關(guān)系矩陣和項(xiàng)目-標(biāo)簽矩陣融合到用戶-項(xiàng)目矩陣中,實(shí)施聯(lián)合概率矩陣分解,從而得到用戶和項(xiàng)目的潛在特征矩陣。最后,進(jìn)一步將本文提出的方法應(yīng)用于科研社交網(wǎng)絡(luò)中的科技論文推薦,根據(jù)其應(yīng)用場景特點(diǎn),抓取科研社交網(wǎng)絡(luò)CiteULike上的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與奇異值分解(singular value decomposition,SVD)、概率矩陣分解(probabilistic matrix factorization,PMF)、社會(huì)化概率矩陣分解(social-probabilistic matrix factorization,Social-PMF)、OCCF-AMAN(OCCF-all missing as negtive)、OCCF-EMAN(OCCF-equals missing as negtive)等傳統(tǒng)的推薦方法相比,本文所提出的方法能夠在平均準(zhǔn)確率均值(mean average precision,MAP)、平均召回率均值(mean average recall,MAR)和平均F-measure均值(mean average F-measure,MAF)上取得更好的推薦結(jié)果,從而有效提高了用矩陣分解方法解決OCCF問題的推薦準(zhǔn)確率。

        1 OCCF-SI推薦方法模型

        1.1 問題定義

        本文首先形式化地定義OCCF的推薦問題。假設(shè)在推薦系統(tǒng)中存在M個(gè)用戶U={u1,u2,…,ui,…,uM},N個(gè)項(xiàng)目V={v1,v2,…,vj,…,vN},H個(gè)標(biāo)簽Q={q1,q2,…,qh,…,qH}。建立用戶-項(xiàng)目歷史選擇行為矩陣R={Ri,j}M×N。若用戶ui選擇過項(xiàng)目vj,則Ri,j=1;反之,Ri,j為空。用戶之間的好友關(guān)系可表示為用戶-用戶好友關(guān)系矩陣S=(Si,k)M×M,若用戶ui與用戶uk是好友關(guān)系;則Si,k的值為ui與uk的Jaccard相似度;否則Si,k為空。矩陣S的每行記錄了用戶與其關(guān)注好友的相似程度;項(xiàng)目的內(nèi)容信息表示為項(xiàng)目-標(biāo)簽矩陣T={Tj,h}Ν×H,Tj,h的值表示項(xiàng)目vj被標(biāo)簽qh標(biāo)注的次數(shù),若項(xiàng)目vj未被標(biāo)簽qh標(biāo)注過,則Tj,h為空?;诰仃嚪纸獾腛CCF方法,利用矩陣分解模型學(xué)習(xí)用戶和項(xiàng)目的潛在特征向量,基于此特征向量預(yù)測未知的用戶行為。

        1.2 OCCF-SI方法

        負(fù)例抽取就是從用戶未選擇的項(xiàng)目中抽取樣本作為負(fù)例,從而緩解單類數(shù)據(jù)的高度稀疏性問題。已有研究大多采用隨機(jī)抽取的方式選取負(fù)例,即對(duì)每個(gè)用戶來說,所有未選擇的項(xiàng)目都有可能被選作負(fù)例,而不同項(xiàng)目作為負(fù)例的可能性是不同的。因此,針對(duì)以上問題,本文在現(xiàn)有研究的基礎(chǔ)上,提出了一種基于用戶和項(xiàng)目的社會(huì)化信息負(fù)例抽取方法。具體來說,就是利用用戶對(duì)所有已選項(xiàng)目標(biāo)注的社會(huì)化標(biāo)簽信息來表征其喜好傾向,然后基于該用戶的喜好傾向與其未選項(xiàng)目所被標(biāo)注標(biāo)簽間的余弦相似度,將相似度小的項(xiàng)目選作負(fù)例。負(fù)例選取數(shù)目根據(jù)用戶活躍度來確定,即Ni=β∑Ri,.,其中,用戶活躍度通過用戶已選擇的項(xiàng)目正例數(shù)量來表征,已選擇的正例越多,其活躍度越高,對(duì)其添加的負(fù)例相應(yīng)地就越多。這是因?yàn)橛脩魎i已選擇的正例越多,說明ui見過的項(xiàng)目數(shù)量越多,其他沒有被ui選擇的項(xiàng)目更多的是其看見了但是不喜歡,而不是沒看見,因此從ui未選擇的項(xiàng)目中抽取的負(fù)例應(yīng)該越多。β為負(fù)正例比例[3],由于用戶-項(xiàng)目歷史選擇行為矩陣R中用戶ui所有已選項(xiàng)目的Ri,·都為1,因此∑Ri,·就是用戶ui已選擇的正例項(xiàng)目數(shù)。另外,在表示用戶選擇行為的矩陣R={Ri,j}Μ×N中,1代表用戶真正選擇了項(xiàng)目,可以準(zhǔn)確表明用戶喜歡該項(xiàng)目,而對(duì)于抽取添加的負(fù)例,其并非是用戶真實(shí)的選擇,因此添加到矩陣中的值1>Ri,j>0,并且與用戶已選擇的項(xiàng)目相似度越小,該負(fù)例是用戶真正不喜歡的可能性就越大,其Ri,j值也就越接近0。基于以上分析,本文得到如下基于社會(huì)化信息的負(fù)例抽取算法。

        輸入:用戶-項(xiàng)目矩陣R,項(xiàng)目-標(biāo)簽矩陣T,標(biāo)簽集合Q={q1,q2,…,qh,…,qH},負(fù)例抽取比例β。

        輸出:添加完負(fù)例的用戶-項(xiàng)目矩陣R。

        根據(jù)矩陣R和T,構(gòu)造用戶-標(biāo)簽矩陣P={Pi,h}M×H,其中Pi,h表示用戶ui所有已選項(xiàng)目中標(biāo)簽qh出現(xiàn)的次數(shù)

        fori=1,2,…,M

        根據(jù)用戶-項(xiàng)目矩陣R中用戶ui已選擇的正例,確定ui應(yīng)抽取的負(fù)例數(shù)Ni=β∑Ri,·

        初始化一個(gè)負(fù)例候選列表list={0}

        forj=1,2,…,N

        if(用戶ui未選擇過vj)

        根據(jù)用戶-標(biāo)簽矩陣P={Pi,h}M×H和項(xiàng)目-標(biāo)簽矩陣T計(jì)算用戶ui已選項(xiàng)目集與vj的余弦相似度。Ci,j=cos(x,y)=x·y/‖x‖2‖y‖2,其中,x由P中用戶ui對(duì)應(yīng)的H維行向量(H是標(biāo)簽數(shù));y為T中項(xiàng)目vj對(duì)應(yīng)的H維行向量

        end if

        end for

        根據(jù)相似度Ci,j的值,將對(duì)應(yīng)的項(xiàng)目按照從小到大的順序添加到list中,Ci,j值相同的項(xiàng)目之間順序隨機(jī)。

        從list中按順序選取Ni個(gè)負(fù)例,將R中對(duì)應(yīng)位置置換為Ci,j

        end for

        基于社會(huì)化信息的單類協(xié)同過濾方法,主要通過在概率矩陣分解中融合用戶和項(xiàng)目的額外社會(huì)化信息,以此來緩解OCCF數(shù)據(jù)的高度稀疏性問題。具體來說,就是在已添加負(fù)例的基礎(chǔ)上,一方面,根據(jù)用戶及其好友對(duì)集中項(xiàng)目的歷史選擇行為,計(jì)算用戶與其好友之間的Jaccard相似度,據(jù)此構(gòu)造用戶-用戶關(guān)系矩陣。顯然,如果2個(gè)用戶之間的相似度越高,那么這2個(gè)用戶的潛在特征向量應(yīng)該越相似。另一方面,根據(jù)項(xiàng)目所被標(biāo)注的社會(huì)化標(biāo)簽信息構(gòu)造項(xiàng)目-標(biāo)簽信息矩陣,由于標(biāo)簽是用戶對(duì)項(xiàng)目特征的可視化描述,項(xiàng)目的潛在特征向量要受到其被標(biāo)注標(biāo)簽的影響。最后,將用戶-用戶關(guān)系矩陣和項(xiàng)目-標(biāo)簽信息矩陣均融合到用戶-項(xiàng)目矩陣中,使用戶-項(xiàng)目矩陣和項(xiàng)目-標(biāo)簽矩陣的數(shù)據(jù)信息通過共享的項(xiàng)目潛在特征矩陣結(jié)合在一起,實(shí)施聯(lián)合概率矩陣分解,得到用戶和項(xiàng)目的潛在特征矩陣。其概率模型圖如圖1所示,其中,Ui為用戶在潛在特征空間的分布向量;Vj為項(xiàng)目在潛在特征空間的分布向量;Bh為標(biāo)簽在潛在特征空間的分布向量;Sv,i為用戶ui與uk的Jaccard相似度;N(i)為用戶ui關(guān)注的好友集合。

        圖1 OCCF-SI分解圖模型

        本文提出的OCCF-SI方法主要是使用共享的項(xiàng)目潛在特征矩陣將項(xiàng)目的社會(huì)化標(biāo)簽信息與用戶-項(xiàng)目歷史選擇信息結(jié)合在一起,同時(shí)考慮到社會(huì)網(wǎng)絡(luò)中用戶潛在特征矩陣要受到其關(guān)注好友的影響,將用戶社會(huì)化好友關(guān)系與用戶-項(xiàng)目矩陣這2種信息進(jìn)行有效結(jié)合,實(shí)施聯(lián)合概率矩陣分解,得到用戶潛在特征矩陣U∈RD×M,項(xiàng)目潛在特征矩陣V∈RD×N和標(biāo)簽潛在特征矩陣B∈TD×H,使UTV和VTB的值盡可能分別逼近用戶歷史選擇信息矩陣R和項(xiàng)目標(biāo)簽信息矩陣T。其中,Ui為用戶ui的D維特征向量;Vj為項(xiàng)目vj的D維特征向量;Bh為標(biāo)簽bh的D維特征向量。根據(jù)以上定義,已有用戶歷史選擇行為及項(xiàng)目標(biāo)簽的條件概率定義如下:

        (1)

        (2)

        為了防止過擬合,本文假設(shè)Ui、Vj和Bh均服從均值為0的高斯分布且相互獨(dú)立,其中用戶的特征向量不僅要服從高斯分布,而且要受到其好友用戶特征向量的影響,即

        (3)

        (4)

        (5)

        經(jīng)過貝葉斯推斷可以得到U、V、B的后驗(yàn)概率分布為:

        (6)

        為便于求解,本文對(duì)(6)式得到的后驗(yàn)概率進(jìn)行對(duì)數(shù)處理,即

        (7)

        其中,D為特征向量的維數(shù);Q為不依賴參數(shù)的常量。而最大化(7)式可視為無約束問題即最小化以下這個(gè)目標(biāo)函數(shù):

        (8)

        (9)

        (10)

        (11)

        基于以上分析,本文提出如下融合社會(huì)化信息的改進(jìn)單類協(xié)同過濾方法的詳細(xì)算法。

        輸入:矩陣R、T和S的潛在特征維數(shù)D,正則化參數(shù)θU、θV、θB、θT、θS,學(xué)習(xí)率α,最大迭代次數(shù)I。

        輸出:用戶和項(xiàng)目的潛在因子矩陣U、V。

        根據(jù)用戶活躍度和項(xiàng)目相似度進(jìn)行抽取負(fù)例,添加到用戶-項(xiàng)目矩陣R中

        初始化U、V,生成隨機(jī)矩陣U和V

        for iter=1,2,…,Ido:

        for each〈i,j〉∈R:

        end for

        end for

        2 實(shí)驗(yàn)設(shè)計(jì)

        本文說明實(shí)驗(yàn)所用數(shù)據(jù)集、評(píng)價(jià)標(biāo)準(zhǔn)以及對(duì)比方法,給出OCCF-SI與其他方法的對(duì)比實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了相應(yīng)分析。

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        為了驗(yàn)證本文提出的OCCF-SI方法的有效性,本文使用從CiteULike抓取的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。CiteULike是一個(gè)針對(duì)學(xué)術(shù)論文的在線存儲(chǔ)、管理和分享平臺(tái)。在該網(wǎng)站中,用戶可以對(duì)感興趣的論文進(jìn)行收藏、分類、對(duì)單篇或一組論文貼標(biāo)簽等,同時(shí)CiteULike還允許用戶建立好友關(guān)系,分享自己的論文庫,這說明CiteULike數(shù)據(jù)集比較適合本文的實(shí)驗(yàn)研究。本文從CiteULike網(wǎng)站中抓取了包括1 300個(gè)用戶、59 851篇論文、45 427個(gè)標(biāo)簽、595 277次用戶收藏文章的信息以及49 156組用戶好友信息的數(shù)據(jù)。

        2.2 評(píng)價(jià)標(biāo)準(zhǔn)

        本文選用推薦系統(tǒng)領(lǐng)域常用的MAP、MAR和MAF作為評(píng)價(jià)指標(biāo)[3]。

        MAP和MAR分別是對(duì)所有用戶的平均準(zhǔn)確率(average precision,AP)、平均召回率(average recall,AR)的再一次平均,MAF為MAP和MAR的調(diào)和平均數(shù),具體定義為:

        (12)

        (13)

        (14)

        其中,precision(j)為top-j的準(zhǔn)確率,recall(j)為top-j的召回率,若Vj命中,則rec(j)=1;否則,rec(j)=0;N為推薦個(gè)數(shù);G為測試集中用戶感興趣的項(xiàng)目總數(shù)。

        MAF測度同時(shí)綜合考慮了MAP和MAR的值,并不掩蓋任何方面特別的不足,因此能較為全面地評(píng)價(jià)算法的優(yōu)劣。

        2.3 對(duì)比方法及參數(shù)設(shè)置

        為了驗(yàn)證所提出方法的有效性,根據(jù)OCCF應(yīng)用場景的特點(diǎn),本文選擇了5種方法作為對(duì)比方法。SVD[14]忽視所有未選擇項(xiàng)目,只對(duì)正例使用SVD方法建模;PMF[15]忽視所有未選擇項(xiàng)目,只對(duì)正例使用PMF方法建模;Social-PMF[13]忽視所有未選擇項(xiàng)目,在傳統(tǒng)的PMF方法基礎(chǔ)上融入用戶好友及項(xiàng)目標(biāo)簽的社會(huì)化信息;OCCF-AMAN[16]將所有未選擇項(xiàng)目作為負(fù)例,然后使用PMF方法建模;OCCF-EMAN[3,16]從用戶未選項(xiàng)目中隨機(jī)抽取與其已選正例數(shù)量等同的負(fù)例,然后使用PMF方法建模,在正負(fù)例平衡的條件下訓(xùn)練模型。

        在實(shí)驗(yàn)過程中,本文隨機(jī)選擇80%的實(shí)驗(yàn)數(shù)據(jù)集作為訓(xùn)練集,20%作為測試集。同時(shí),為了保證實(shí)驗(yàn)結(jié)果的可靠性,每次實(shí)驗(yàn)進(jìn)行10次,最終結(jié)果取10次實(shí)驗(yàn)的平均值[17]。另外,經(jīng)過實(shí)驗(yàn)的反復(fù)測試,本文發(fā)現(xiàn)參數(shù)設(shè)定為θU=θV=θB=0.001,θS=0.05,θT=0.0001,特征向量的維數(shù)D=20,推薦個(gè)數(shù)n=20,添加的負(fù)例比例β=20時(shí),方法效果最優(yōu),以下實(shí)驗(yàn)若非特別說明,上述所有參數(shù)均設(shè)定為最優(yōu)值。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)結(jié)果

        根據(jù)上述實(shí)驗(yàn)設(shè)計(jì),本文得到的實(shí)驗(yàn)結(jié)果見表1所列。

        表1 OCCF-SI與對(duì)比方法推薦結(jié)果比較

        由表1可知,OCCF-SI方法在MAP、MAR、MAF 3個(gè)評(píng)價(jià)指標(biāo)下均優(yōu)于另外5種推薦方法,說明了本文提出方法的有效性;在和SVD及PMF方法的比較中,Social-PMF在3個(gè)評(píng)價(jià)指標(biāo)下均取得了較大幅度的提高,在和PMF及OCCF-AMAN方法的比較中,OCCF-EMAN在3個(gè)評(píng)價(jià)指標(biāo)下也均取得了最優(yōu)推薦結(jié)果。由此可見,對(duì)于OCCF數(shù)據(jù)而言,融入用戶、項(xiàng)目的社會(huì)化信息和負(fù)例抽取分別有助于提高推薦質(zhì)量,這也進(jìn)一步驗(yàn)證了本文提出的同時(shí)綜合考慮社會(huì)化信息和負(fù)例抽取的OCCF-SI方法的有效性。

        3.2 結(jié)果分析與參數(shù)討論

        在本文所提出的OCCF-SI方法中,推薦個(gè)數(shù)n,分解出來的用戶、項(xiàng)目和標(biāo)簽的潛在特征維數(shù)D,以及負(fù)例抽取比例β都是對(duì)推薦結(jié)果產(chǎn)生重要影響的因素。因此,本文將進(jìn)一步研究不同參數(shù)設(shè)置下的方法推薦效果,以下實(shí)驗(yàn)均是在CiteULike數(shù)據(jù)集上進(jìn)行的。

        3.2.1 推薦個(gè)數(shù)n對(duì)方法的影響

        對(duì)于個(gè)性化推薦系統(tǒng)而言,最終目的不是使預(yù)測的分?jǐn)?shù)和真實(shí)分?jǐn)?shù)的誤差盡可能小,而是要在推薦列表中盡可能全面地展示用戶最感興趣的項(xiàng)目,因此,確定一個(gè)最佳的n值,具有重要意義。本文方法與對(duì)比方法在不同推薦個(gè)數(shù)下推薦結(jié)果的MAF如圖2所示。

        圖2 不同方法下n對(duì)MAF的影響

        由圖2可以看出,隨著推薦個(gè)數(shù)的增加,推薦效果先是越來越好,當(dāng)n值大于一定數(shù)值后(本文方法n=20最佳),推薦系統(tǒng)MAF反而降低。由圖2同樣可以看出,OCCF-SI方法在不同的推薦個(gè)數(shù)下都能取得較好的結(jié)果。

        3.2.2 潛在特征維數(shù)D對(duì)方法的影響

        D的選取對(duì)預(yù)測效果非常重要。如果D的選擇過小,那么用戶和項(xiàng)目的隱式特征就不能很好地在隱式空間中有效地表現(xiàn)出來;相反,如果D取值過大,那么計(jì)算復(fù)雜性就會(huì)大幅增加,并且會(huì)造成學(xué)習(xí)的過擬合。不同特征維數(shù)D下本文方法與對(duì)比方法推薦結(jié)果的MAF如圖3所示。由圖3可以看出,隨著矩陣分解維數(shù)D的增加,推薦的MAF不斷提高,但當(dāng)維數(shù)足夠大后(本文方法D=20最佳),MAF增長的速率開始逐漸降低,說明此時(shí)再增加維數(shù)對(duì)推薦的MAF的提高作用是有限的,并且會(huì)使模型過分?jǐn)M合訓(xùn)練數(shù)據(jù),同時(shí)顯著增加計(jì)算復(fù)雜性,反而對(duì)結(jié)果產(chǎn)生不良影響。

        圖3 不同方法下D對(duì)MAF的影響

        3.2.3 負(fù)例比例β對(duì)方法的影響

        在本文所提出的負(fù)例抽取方法中,負(fù)例比例β是重要的影響因素。在不同方法下對(duì)β推薦結(jié)果的MAF的影響如圖4所示。從圖4中可以看出,當(dāng)β較小時(shí),隨著β的增大,推薦結(jié)果的MAF不斷提高,在β為20附近MAF最高,但當(dāng)β大于20后MAF開始降低。這是因?yàn)檫^多的負(fù)例會(huì)造成訓(xùn)練結(jié)果趨于負(fù)向,影響結(jié)果的區(qū)分度。另外,隨著β的增大,需要訓(xùn)練的樣本數(shù)目也會(huì)增多,計(jì)算量也會(huì)相應(yīng)增加。從圖4還可以看出,本文方法都要優(yōu)于其他對(duì)比方法,從而證明了本文方法的有效性。

        圖4 不同方法下β對(duì)MAF的影響

        4 結(jié) 論

        本文針對(duì)OCCF方法存在的不平衡性和稀疏性問題,提出了一種融合社會(huì)化信息的改進(jìn)單類協(xié)同過濾(OCCF-SI)方法。根據(jù)用戶活躍度和項(xiàng)目相似度抽取添加負(fù)例,同時(shí)融合用戶和項(xiàng)目的社會(huì)化信息進(jìn)行聯(lián)合概率矩陣分解。將OCCF-SI方法應(yīng)用于科研社交網(wǎng)絡(luò)中的科技論文推薦,在CiteULike數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文方法在多個(gè)評(píng)價(jià)指標(biāo)下都取得了較好的推薦結(jié)果,具有良好的可擴(kuò)展性。在今后的工作中,將進(jìn)一步研究區(qū)分用戶好友關(guān)系的信任程度對(duì)推薦系統(tǒng)性能的影響以及單類協(xié)同過濾方法涉及的(如冷啟動(dòng))問題,以期進(jìn)一步提高推薦方法的有效性。

        [1] SU X Y,KHOSHGOFTAAR T M.A survey of collaborative filtering techniques[J].Advances in Artificial Intelligence,2009,2009:421425-1-19.

        [3] 李聰,梁昌勇,董珂.基于項(xiàng)目類別相似性的協(xié)同過濾推薦算法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,31(3):360-363.

        [4] PAN R,ZHOU Y H,CAO B,et al.One-class collaborative filtering[C]//IEEE International Conference on Data Mining,2008.ICDM'08 Washtington,D.C.:IEEE Computer Society,2008:502-511.

        [5] SUN J S,WANG G,CHENG X S,et al.Mining affective text to improve social media item recommendation[J].Information Processing & Management,2015,51(4):444-457.

        [6] PAPPAS N,POPESCU-BELIS A.Sentiment analysis of user comments for one-class collaborative filtering over ted talks[C]//Proceedings of the 36th international ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2013:773-776.

        [7] JIANG M,CUI P,LIU R,et al.Social contextual recommendation[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management.New York:ACM,2012:45-54.

        [8] CHEN K,CHEN T,ZHENG G,et al.Collaborative personalized tweet recommendation[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval.New York:ACM,2012:661-670.

        [9] HU Y F,KOREN Y,VOLINSKY C.Collaborative filtering for implicit feedback datasets[C]//IEEE International Conference on Data Mining.ICDM '08.Washtingtion.D.C.:IEEE Commuter Society,2008:263-272.

        [10] WANG C,BLEI D M.Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2011:448-456.

        [11] LI Yanen,HU Jia,ZHAI C X,et al.Improving one-class collaborative filtering by incorporating rich user information[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.New York:ACM,2010:959-968.

        [12] KAYA H,ALPASLAN F N.Using social networks to solve data sparsity problem in one-class collaborative filtering[C]//Proceedings of the 2010 Seventh International Conference on.Information Technology:New Generations Washington,D.C.:IEEE Computer Society,2010:249-252.

        [13] MA H,YANG H,LYU M R,et al.Sorec:social recommendation using probabilistic matrix factorization[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management. New York:ACM,2008:931-940.

        [14] ZHANG S,WANG W H,FORD J,et al.Using Singular Value Decomposition Approximation for Collaborative Filtering[C]//IEEE International Conference on E-Commerce Technology(CEC' 05).Washington,D.C.:IEEE Computer Socity,2005:257-264.

        [15] SALAKHUTDINOV R,MNIH A.Probabilistic matrix factorization[C]//Proc of the 21st Annual Conf on Neural Information Processing Systems.New York:Curran Associates Inc,2008:1257-1264.

        [16] PAPPAS N,POPESCU-BELIS A.Adaptive sentiment-aware one-class collaborative filtering[J].Expert Systems with Applications,2016,43:23-41.

        [17] LIANG T P,YANG Y F,CHEN D N,et al.A semantic-expansion approach to personalized knowledge recommendation[J].Decision Support Systems,2008,45(3):401-412.

        (責(zé)任編輯 萬倫來)

        Study of improved one class collaborative filtering method merged with social information

        WU Liaoyuan1, HE Xiran2, WANG Gang2

        (1.Institute of Science and Technology, Hefei University of Technology, Hefei 230009, China; 2.School of Management, Hefei University of Technology, Hefei 230009, China)

        In this paper, the improved one class collaborative filtering with social information(OCCF-SI) is proposed. On the one hand, the user’s activity and the similarity between projects are considered when extracting the negative cases; on the other hand, the social information of user’s friends relations and project’s labels is merged into the probability matrix factorization. The experiments on the real dataset in a scientific social network named CiteULike are conducted. The experimental results show that compared to other traditional recommendation methods, the proposed method gets the best recommendation results and performs well in scalability.

        recommendation system; one class collaborative filtering(OCCF); social information; scientific paper recommendation

        2016-06-02

        國家自然科學(xué)基金資助項(xiàng)目(71101042;71471054);安徽省自然科學(xué)基金資助項(xiàng)目(1608085MG150)

        吳燎原(1973-),男,安徽廬江人,博士生,合肥工業(yè)大學(xué)工程師.

        10.3969/j.issn.1003-5060.2016.12.022

        TP311

        A

        1003-5060(2016)12-1705-07

        猜你喜歡
        用戶信息方法
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對(duì)
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        如何獲取一億海外用戶
        展會(huì)信息
        免费夜色污私人影院在线观看| 偷拍一区二区三区四区| 最新亚洲av日韩av二区一区| 白嫩少妇高潮喷水av| 国产午夜av秒播在线观看| 国产做国产爱免费视频| 亚洲成a人v欧美综合天堂麻豆| 亚洲中文久久久久无码| 在线高清亚洲精品二区| 久久成人国产精品一区二区| 国产精品免费看久久久8| 国产精品久久无码不卡黑寡妇 | 夜夜未满十八勿进的爽爽影院| 久久久久中文字幕无码少妇| 国产成人精品中文字幕| 亚洲国产色一区二区三区| 国产亚洲一区二区在线观看| 欧美v亚洲v日韩v最新在线| 亚洲天天综合色制服丝袜在线| 99久久久69精品一区二区三区| 亚洲国产精品成人久久| 国外亚洲成av人片在线观看| 亚洲av无码一区二区乱子仑| 蜜臀久久99精品久久久久久| 国产av精品麻豆网址| 国产精品一区二区在线观看| 丝袜国产高跟亚洲精品91| av成人资源在线播放| 丰满人妻久久中文字幕| 亚洲综合无码无在线观看| 亚洲国产一区二区三区在线视频| 中文字幕成人精品久久不卡91 | 国产黄色一级到三级视频| 亚洲av综合av一区二区三区| 亚洲啪啪综合av一区| 中文字幕av无码一区二区三区电影 | 久久精品国产亚洲av精东| 另类内射国产在线| 国产精品亚洲综合色区韩国| 日本少妇熟女一区二区| 国产精品兄妹在线观看麻豆|