亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PCA降維的協(xié)同過(guò)濾推薦算法

2016-02-23 09:06:40李遠(yuǎn)博

計(jì)算機(jī)技術(shù)與發(fā)展 2016年2期

關(guān)鍵詞：用戶

李遠(yuǎn)博，曹菡

(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西西安 710062)

基于PCA降維的協(xié)同過(guò)濾推薦算法

李遠(yuǎn)博，曹菡

(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西西安 710062)

在信息過(guò)載的時(shí)代，推薦系統(tǒng)通過(guò)分析用戶的歷史行為，為用戶興趣建模，主動(dòng)給用戶推薦能夠滿足他們興趣和需求的信息,已經(jīng)被廣泛應(yīng)用于電子商務(wù)等多個(gè)領(lǐng)域。但是在推薦系統(tǒng)中，用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏，矩陣的稀疏性導(dǎo)致推薦算法在相似性計(jì)算時(shí)存在較大誤差，進(jìn)而導(dǎo)致最近鄰居選擇的不準(zhǔn)確，從而影響推薦質(zhì)量。針對(duì)上面存在的問(wèn)題，文中通過(guò)對(duì)評(píng)分矩陣采用PCA降維的方法，降低了評(píng)分矩陣的稀疏性，保留了最能代表用戶興趣的維數(shù)，使得相似性計(jì)算更加準(zhǔn)確，保證了最近鄰居選擇的準(zhǔn)確性，從而提高了推薦質(zhì)量。實(shí)驗(yàn)結(jié)果表明，在公開(kāi)數(shù)據(jù)集上與傳統(tǒng)的協(xié)同過(guò)濾推薦算法相比較，文中提出的算法具有較高的準(zhǔn)確度和覆蓋度。

主成分分析;降維;協(xié)同過(guò)濾;推薦算法

1 概述

隨著人類(lèi)進(jìn)入到信息化時(shí)代，信息呈現(xiàn)出快速、爆炸式增長(zhǎng)，信息出現(xiàn)過(guò)載。推薦系統(tǒng)[1]通過(guò)對(duì)用戶的歷史記錄的分析，為用戶建立興趣模型，主動(dòng)給用戶推薦能夠滿足他們興趣和需求的信息。從電子商務(wù)、音樂(lè)視頻網(wǎng)站，到在線廣告和個(gè)性化閱讀，到處都是推薦系統(tǒng)的應(yīng)用。

在推薦系統(tǒng)中，協(xié)同過(guò)濾(Collaborative Filtering，CF)[2]是應(yīng)用最廣泛的個(gè)性化推薦算法。首先通過(guò)分析歷史數(shù)據(jù)，計(jì)算出用戶之間或者項(xiàng)目之間的相似度；其次根據(jù)相似度建立起近鄰關(guān)系[3]，然后在近鄰關(guān)系中，選擇與目標(biāo)距離最近的用戶對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)特定項(xiàng)目的評(píng)分；最后針對(duì)目標(biāo)用戶產(chǎn)生相應(yīng)的推薦。

隨著電子商務(wù)信息規(guī)模的不斷擴(kuò)大，數(shù)據(jù)量都在增加，針對(duì)以前的推薦系統(tǒng)，很少有用戶對(duì)項(xiàng)目進(jìn)行評(píng)分，這就導(dǎo)致推薦系統(tǒng)評(píng)分?jǐn)?shù)據(jù)的稀疏性[4]。對(duì)于任何一個(gè)優(yōu)秀的推薦系統(tǒng)，用戶對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)往往只占有一小部分，而未評(píng)分?jǐn)?shù)據(jù)常常比用戶的已有評(píng)分更多，由于用戶之間選擇的差異也會(huì)加重?cái)?shù)據(jù)的稀疏性。在傳統(tǒng)的向量空間模型中，評(píng)分矩陣的稀疏性對(duì)于推薦系統(tǒng)中使用的統(tǒng)計(jì)方法都會(huì)產(chǎn)生計(jì)算不準(zhǔn)確的影響。在推薦系統(tǒng)中，用戶的最近鄰居就是通過(guò)統(tǒng)計(jì)學(xué)方法進(jìn)行相似性計(jì)算，因此如何解決矩陣的稀疏性成為推薦系統(tǒng)的關(guān)鍵。

為了降低評(píng)分矩陣的稀疏性，早期Pirasteh等通過(guò)將電影的類(lèi)型和導(dǎo)演信息進(jìn)行填充，進(jìn)而來(lái)降低矩陣的稀疏性問(wèn)題[5]，該方法需要用戶額外評(píng)價(jià)電影類(lèi)型和導(dǎo)演等信息；Wang等首先對(duì)用戶已經(jīng)評(píng)分的數(shù)據(jù)進(jìn)行聚類(lèi)，然后結(jié)合Slope One算法來(lái)對(duì)未評(píng)分?jǐn)?shù)據(jù)進(jìn)行預(yù)測(cè)填充，以此來(lái)降低矩陣的稀疏性問(wèn)題[6]；Pitsilis等首先使用已有的評(píng)分?jǐn)?shù)據(jù)建立信任關(guān)系模型，進(jìn)而來(lái)預(yù)測(cè)未評(píng)分的數(shù)據(jù)，通過(guò)該方法可以有效解決矩陣的稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題[7]，但是此方法并不是社會(huì)網(wǎng)中真正意義上的信任關(guān)系；文獻(xiàn)[8]中首先使用K-means算法對(duì)項(xiàng)目進(jìn)行聚類(lèi)分析，然后將聚類(lèi)分類(lèi)后的結(jié)果結(jié)合已評(píng)分的數(shù)據(jù)來(lái)計(jì)算用戶相似性；黃創(chuàng)光等針對(duì)傳統(tǒng)K近鄰算法中存在K固定這一缺陷，提出了利用不確定近鄰K來(lái)進(jìn)行計(jì)算的最近鄰居推薦[9]等。

2004年美國(guó)《連線》雜志主編ChrisAnderson發(fā)表了題為《TheLongTail》一文[10]。作者認(rèn)為，基于互聯(lián)網(wǎng)的銷(xiāo)售方式以及其他因素已經(jīng)將媒體和娛樂(lè)產(chǎn)業(yè)推向后一種模式為主導(dǎo)的世界，那些不起眼的產(chǎn)品“長(zhǎng)尾”吸引了大量的用戶，ChrisAnderson指出“你可以在長(zhǎng)尾中找到任何想要的，有以前的舊專輯，他們?nèi)匀槐蝗藗儜涯詈拖矏?ài)并不斷涌現(xiàn)出新的粉絲；有現(xiàn)場(chǎng)制作的音樂(lè)，B面的內(nèi)容，混錄版歌曲，設(shè)置封面；還有數(shù)千種風(fēng)格流派不同的利基項(xiàng)目：例如整個(gè)TowerRecords唱片公司在80年代推崇的長(zhǎng)發(fā)樂(lè)隊(duì)或節(jié)奏電子音樂(lè)”。在互聯(lián)網(wǎng)時(shí)代，由于網(wǎng)絡(luò)貨架成本的低廉，電子商務(wù)中物品不受貨架的限制，大多數(shù)不熱門(mén)商品都有機(jī)會(huì)銷(xiāo)售，這些商品由于其數(shù)量龐大，總體銷(xiāo)售額往往超過(guò)熱門(mén)商品。在長(zhǎng)尾分布中，熱門(mén)商品代表著大部分用戶的選擇，而長(zhǎng)尾商品則代表了用戶的個(gè)性化選擇。因此，在研究用戶的興趣需求的同時(shí)，如何挖掘長(zhǎng)尾商品，來(lái)提高對(duì)用戶的個(gè)性化推薦，進(jìn)而提升銷(xiāo)售額，這正是個(gè)性化推薦必須解決的主要問(wèn)題。

在推薦系統(tǒng)中，通過(guò)對(duì)商品長(zhǎng)尾分布的分析，挖掘用戶的歷史記錄，分析用戶的個(gè)性化需求，從而將那些不容易發(fā)現(xiàn)的但是用戶感興趣的長(zhǎng)尾商品精確地推薦給用戶。推薦系統(tǒng)本質(zhì)上旨在向用戶展示那些不那么廣泛流行的項(xiàng)目，但這些項(xiàng)目符合用戶的興趣，這一點(diǎn)可以從他們過(guò)去的購(gòu)買(mǎi)歷史中推斷。

文中通過(guò)對(duì)評(píng)分矩陣采用PCA降維，降低了評(píng)分矩陣的稀疏性，保留了最能代表用戶興趣的維數(shù)，使得相似性計(jì)算更加準(zhǔn)確，保證了最近鄰居選擇的準(zhǔn)確性，從而提高了推薦質(zhì)量，并且驗(yàn)證了算法具有較高的準(zhǔn)確度和覆蓋度。

2 現(xiàn)有算法分析

協(xié)同過(guò)濾推薦算法推薦原理：如果大多數(shù)用戶對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)相似，那么當(dāng)前用戶也會(huì)有類(lèi)似的項(xiàng)目評(píng)分[11]。協(xié)同過(guò)濾推薦利用用戶對(duì)項(xiàng)目數(shù)據(jù)的評(píng)分記錄，進(jìn)而生成評(píng)分矩陣來(lái)分析用戶的興趣，利用統(tǒng)計(jì)學(xué)知識(shí)在已評(píng)分的用戶中找到與目標(biāo)興趣相似的用戶，從而找到目標(biāo)用戶的最近鄰居，再結(jié)合這些鄰居用戶對(duì)項(xiàng)目的評(píng)分進(jìn)行預(yù)測(cè)并產(chǎn)生推薦。傳統(tǒng)的協(xié)同過(guò)濾算法步驟如下：

(1)求解用戶和項(xiàng)目間的相似度矩陣；

(2)根據(jù)相似度矩陣求出目標(biāo)的最近鄰居；

(3)對(duì)未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè)并進(jìn)行推薦。

2.1 相似性計(jì)算

在推薦系統(tǒng)中，算法的第一步就是計(jì)算用戶和用戶之間的相似性。余弦相似度、皮爾遜相關(guān)系數(shù)和修正的余弦相似度[12]是目前最重要的度量方法。

(1)余弦相似度。

通過(guò)計(jì)算空間夾角的余弦值來(lái)求解用戶之間的相似性。在推薦系統(tǒng)中，用戶的評(píng)分被看作是n維向量空間，用戶i和用戶j之間的相似性可以表述為：

(1)

(2)皮爾遜相關(guān)系數(shù)。

它是一種線性相關(guān)系數(shù)，通過(guò)兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商來(lái)計(jì)算，其表達(dá)式為：

(2)

(3)修正的余弦相似度。

余弦相似度在計(jì)算相似性時(shí)沒(méi)有考慮不同用戶的評(píng)分尺度，在推薦系統(tǒng)中，通常評(píng)分區(qū)間為1-5，有的用戶喜歡打高分，有的用戶打低分。此計(jì)算方法通過(guò)減去用戶的平均評(píng)分來(lái)改善這一缺陷。其表達(dá)式為：

(3)

2.2 基于用戶的協(xié)同過(guò)濾算法

基于用戶的協(xié)同過(guò)濾算法，首先會(huì)生成用戶的評(píng)分矩陣，其次根據(jù)用戶評(píng)分矩陣，利用相似性計(jì)算方法得到用戶之間的相似性，求出K近鄰，最后根據(jù)K近鄰來(lái)對(duì)未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè)，并產(chǎn)生推薦。計(jì)算公式[13]如下：

(4)

2.3 傳統(tǒng)的相似性計(jì)算分析

在傳統(tǒng)的計(jì)算方法中，相似性是利用用戶對(duì)所有項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)來(lái)計(jì)算，這就會(huì)導(dǎo)致最終的評(píng)分矩陣數(shù)據(jù)維數(shù)高，評(píng)分向量的維數(shù)過(guò)高會(huì)增加相似性計(jì)算的復(fù)雜度，而且維數(shù)過(guò)高的向量對(duì)于相似性的度量也會(huì)造成負(fù)面影響。在統(tǒng)計(jì)學(xué)中對(duì)于已知的樣本數(shù)目，存在維數(shù)的極限值，當(dāng)使用的數(shù)據(jù)向量的維數(shù)一直增加時(shí)，算法的性能并不會(huì)隨著維數(shù)的增加而增加，維數(shù)超過(guò)極限值之后，算法性能反而會(huì)退化。隨著電子商務(wù)規(guī)模的不斷擴(kuò)大，用戶和項(xiàng)目數(shù)據(jù)都在快速增長(zhǎng)，但是數(shù)據(jù)量卻極度稀疏，尤其是評(píng)分?jǐn)?shù)據(jù)，在大型電子商務(wù)網(wǎng)站中，用戶評(píng)分的項(xiàng)目數(shù)據(jù)一般不會(huì)超過(guò)總數(shù)的1%[14]。

文中對(duì)MovieLens數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析，其中有8.8%的電影僅僅被一個(gè)用戶進(jìn)行過(guò)評(píng)分，18%的電影被超過(guò)一百個(gè)用戶進(jìn)行過(guò)評(píng)分。如果將所有的項(xiàng)目都用來(lái)進(jìn)行相似性計(jì)算，不僅不能區(qū)分用戶之間的相似性，反而會(huì)給相似性計(jì)算帶來(lái)誤差，流行性物品不能反映用戶的興趣，而評(píng)分極其少的物品又會(huì)增加矩陣的稀疏性，對(duì)統(tǒng)計(jì)學(xué)方法而言沒(méi)有意義。

基于此，文中在分析數(shù)據(jù)集的基礎(chǔ)上提出了基于PCA降維的方法，將數(shù)據(jù)集進(jìn)行簡(jiǎn)化，在保留主要特征的同時(shí)降低數(shù)據(jù)集的維數(shù)，同時(shí)明顯降低了簡(jiǎn)化后的評(píng)分矩陣的稀疏性，由于降低了稀疏性，使得相似性計(jì)算更加準(zhǔn)確，提升了最近鄰居選擇的準(zhǔn)確性，從而提高了推薦質(zhì)量。

3 基于PCA降維的算法

3.1 數(shù)據(jù)表述

表1 用戶-項(xiàng)目評(píng)分矩陣

在統(tǒng)計(jì)學(xué)中，當(dāng)維數(shù)很高時(shí)，導(dǎo)致可用數(shù)據(jù)很稀疏，然而從統(tǒng)計(jì)學(xué)意義上說(shuō)，稀疏性也是一個(gè)重要問(wèn)題。在推薦系統(tǒng)中，用戶的最近鄰居搜索就是通過(guò)相似性進(jìn)行分組，然而在高維數(shù)據(jù)空間中，所有的可用數(shù)據(jù)變得很稀疏，因此使得相似性計(jì)算非常不準(zhǔn)確。

3.2 項(xiàng)目流行度分析

對(duì)很多互聯(lián)網(wǎng)數(shù)據(jù)的研究發(fā)現(xiàn)，互聯(lián)網(wǎng)上的很多數(shù)據(jù)都滿足一種稱為PowerLaw的分布，這個(gè)分布在互聯(lián)網(wǎng)領(lǐng)域稱為長(zhǎng)尾分布，其流行度滿足表達(dá)式：

f(x)=axk

(5)

長(zhǎng)尾分布出現(xiàn)在各個(gè)領(lǐng)域，其實(shí)長(zhǎng)尾分布最早是被統(tǒng)計(jì)學(xué)家發(fā)現(xiàn)的。1932年，哈佛大學(xué)的語(yǔ)言學(xué)家Zipf在研究英文單詞的詞頻時(shí)發(fā)現(xiàn)，如果將單詞按照出現(xiàn)的頻率進(jìn)行排列，那么每個(gè)單詞出現(xiàn)的頻率和它在熱門(mén)排行榜中排名的常數(shù)次冪成反比，這個(gè)分布后來(lái)被稱為Zipf定律。為了研究項(xiàng)目的流行度是否具有長(zhǎng)尾分布，文中對(duì)MovieLens數(shù)據(jù)集進(jìn)行分析。

圖1顯示了MovieLens數(shù)據(jù)集中電影流行度的分布曲線。電影的流行度是指對(duì)電影進(jìn)行過(guò)評(píng)分的用戶總數(shù)。圖中的曲線是雙對(duì)數(shù)曲線，而長(zhǎng)尾分布曲線就是這種雙對(duì)數(shù)曲線，從而證明物品流行度具有長(zhǎng)尾分布。

圖1 MovieLens數(shù)據(jù)集中物品流行度的長(zhǎng)尾分布

3.3 PCA降維

主成分分析(Principal Component Analysis，PCA)是一種分析、簡(jiǎn)化數(shù)據(jù)集的技術(shù)。主成分分析通常用于減少數(shù)據(jù)集的維數(shù)，同時(shí)保持?jǐn)?shù)據(jù)集中對(duì)方差貢獻(xiàn)最大的特征[15]。該方法依據(jù)樣本空間中的位置分布，把樣本點(diǎn)在多維空間中的最大變化方向，即方差最大方向，作為判斷向量來(lái)實(shí)現(xiàn)特征提取。主成分分析由卡爾·皮爾遜于1901年提出，用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過(guò)對(duì)協(xié)方差進(jìn)行特征分解，以得出數(shù)據(jù)的主成分與它們的權(quán)值。

對(duì)于一個(gè)給定的樣本空間Xm×n，用PCA對(duì)矩陣Xm×n進(jìn)行降維分析，具體步驟如下：

(1)求出樣本均值。

(2)計(jì)算Xm×n的協(xié)方差矩陣公式為：

(3)計(jì)算協(xié)方差矩陣的特征值和特征向量，其中特征值按照從大到小排列：

λ=(λ1,λ2,…,λn),λ1≥λ2…≥λn

(4)計(jì)算在每一維的投影：

得到一個(gè)降維的投影矩陣，該投影矩陣就是該樣本空間的主成分并且按照主成分從大到小排列。

3.4 基于PCA降維的推薦

傳統(tǒng)的向量空間模型存在數(shù)據(jù)災(zāi)難，對(duì)于成百上萬(wàn)的項(xiàng)目來(lái)說(shuō)，用戶的項(xiàng)目評(píng)分維度就會(huì)增加。在高維空間中的數(shù)據(jù)集可以通過(guò)削弱減至低維空間，而不必失去其重要性質(zhì)。這一點(diǎn)可以通過(guò)降維方法有效反映。

在文中提出的基于PCA降維的協(xié)同過(guò)濾推薦算法中，計(jì)算用戶和用戶的相似性時(shí)先采用PCA方法對(duì)評(píng)分矩陣進(jìn)行降維處理，然后進(jìn)行相似性計(jì)算。Sarwar利用MovieLens數(shù)據(jù)集對(duì)余弦相似度、皮爾遜相關(guān)系數(shù)和修正的余弦相似度進(jìn)行了對(duì)比[11]并將MAE作為評(píng)測(cè)指標(biāo)。實(shí)驗(yàn)結(jié)果表明，利用修正的余弦相似度進(jìn)行K近鄰計(jì)算，進(jìn)而進(jìn)行評(píng)分預(yù)測(cè)推薦可以獲得最優(yōu)的MAE。因此文中采用修正的余弦相似度來(lái)進(jìn)行相似度計(jì)算，在得到用戶的相似度之后采用最近鄰?fù)扑]。

鑒于降維的優(yōu)點(diǎn)，文中引入PCA降維技術(shù)對(duì)用戶評(píng)分矩陣進(jìn)行降維，然后通過(guò)降維后的用戶評(píng)分矩陣計(jì)算用戶的相似性，提高相似性計(jì)算的準(zhǔn)確性，保證最近鄰居選擇的準(zhǔn)確性。

算法流程如圖2所示。

圖2 基于PCA降維的協(xié)同過(guò)濾推薦算法基本流程

4 實(shí)驗(yàn)分析

4.1 數(shù)據(jù)集

文中以MovieLens數(shù)據(jù)集為例，來(lái)評(píng)測(cè)文中提出的基于PCA降維的協(xié)同過(guò)濾算法和傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法。在該數(shù)據(jù)集中，包含了943個(gè)用戶對(duì)1 682個(gè)項(xiàng)目的10萬(wàn)條評(píng)分記錄，每一個(gè)用戶至少對(duì)20部電影進(jìn)行評(píng)分，電影類(lèi)別為19類(lèi)，用戶的評(píng)分范圍為1-5。

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

在推薦系統(tǒng)中，平均絕對(duì)誤差(MAE)和覆蓋度(Coverage)是兩個(gè)最重要的評(píng)價(jià)指標(biāo)。

MAE數(shù)值越低說(shuō)明推薦算法越精準(zhǔn)，計(jì)算公式如下：

(6)

覆蓋度是一項(xiàng)被廣泛應(yīng)用于評(píng)價(jià)推薦算法發(fā)掘長(zhǎng)尾的能力，覆蓋率越高，說(shuō)明推薦算法越能夠?qū)㈤L(zhǎng)尾中的物品推薦給目標(biāo)用戶。計(jì)算公式如下：

(7)

其中，IP(u)是推薦算法為用戶u推薦的項(xiàng)目集；IR(u)是用戶u在測(cè)試集上進(jìn)行評(píng)分的項(xiàng)目集。

4.3 實(shí)驗(yàn)結(jié)果

最近鄰K的個(gè)數(shù)往往能夠影響推薦的效果，因此在實(shí)驗(yàn)中，針對(duì)不同的K，分別利用兩種算法進(jìn)行了MAE和Coverage的分析比較。

實(shí)驗(yàn)中通過(guò)PCA方法將用戶評(píng)分矩陣維數(shù)降低到用戶個(gè)數(shù)的矩陣，即將R943×1682降低到R943×943，實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

由圖3和圖4可以看出，文中提出的基于PCA降維的協(xié)同過(guò)濾推薦算法具有較小的MAE和較大的Coverage。這是因?yàn)樵谟?jì)算用戶相似性時(shí)，對(duì)用戶評(píng)分矩陣進(jìn)行了PCA降維，通過(guò)PCA降維，將用戶評(píng)分矩陣中最能反映用戶興趣的特征進(jìn)行了保留，去除了不能反映用戶興趣的噪聲數(shù)據(jù)，使得評(píng)分矩陣的維數(shù)和稀疏性都有了明顯降低。在此基礎(chǔ)上進(jìn)行用戶相似性的計(jì)算更加準(zhǔn)確，保證最近鄰居選擇的準(zhǔn)確性，從而使算法的推薦更準(zhǔn)確。

圖3 不同推薦算法的MAE比較

圖4 不同推薦算法的Coverage比較

5 結(jié)束語(yǔ)

文中首先分析在用戶評(píng)分?jǐn)?shù)據(jù)極度稀疏的情況下統(tǒng)計(jì)學(xué)方法在計(jì)算用戶相似性時(shí)存在的問(wèn)題。針對(duì)用戶評(píng)分矩陣的稀疏性，文中提出了如何用PCA方法對(duì)推薦系統(tǒng)中的用戶評(píng)分?jǐn)?shù)據(jù)進(jìn)行降維處理，通過(guò)降維不僅降低了稀疏性，而且使得相似性計(jì)算中保留的數(shù)據(jù)是最能代表用戶興趣的特征向量，使得在計(jì)算相似性時(shí)更加準(zhǔn)確，從而保證了最近鄰居選擇的準(zhǔn)確性。通過(guò)對(duì)MovieLens數(shù)據(jù)進(jìn)行降維處理，并通過(guò)實(shí)驗(yàn)驗(yàn)證了提出的算法可以降低評(píng)分矩陣的維數(shù)，并且有效降低了評(píng)分矩陣的稀疏性，解決了傳統(tǒng)相似性度量方法在高維數(shù)據(jù)中存在的弊端，提高了推薦系統(tǒng)的推薦質(zhì)量。

[1]KonstanJA.Introductiontorecommendersystems:algorithms

andevaluation[J].ACMTransactionsonInformationSystems,2004,22(1):1-4.

[2]BobadillaJ,OrtegaF,HernandoA,etal.Improvingcollaborativefilteringrecommendersystemresultsandperformanceusinggeneticalgorithms[J].Knowledge-basedSystems,2011,24(8):1310-1316.

[3]BellRM,KorenY.Improvedneighborhood-basedcollaborativefiltering[C]//Procof13thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.[s.l.]:ACM,2007.

[4]LiuLM,ZhangPX,LinL,etal.Researchofdatasparsitybasedoncollaborativefilteringalgorithm[J].AppliedMechanicsandMaterials,2014,462:856-860.

[5]PirastehP,JungJJ,HwangD.Item-basedcollaborativefilteringwithattributecorrelation:acasestudyonmovierecommendation[M]//Intelligentinformationanddatabasesystems.[s.l.]:SpringerInternationalPublishing,2014:245-252.

[6]WangJ,LinK,LiJ.Acollaborativefilteringrecommendationalgorithmbasedonuserclusteringandslopeonescheme[C]//Procof8thinternationalconferenceoncomputerscience&education.[s.l.]:IEEE,2013:1473-1476.

[7]PitsilisG,KnapskogSJ.Socialtrustasasolutiontoaddresssparsity-inherentproblemsofrecommendersystems[C]//ProcofACMrecommendersystemworkshoponrecommendersystem&thesocialweb.[s.l.]:ACM,2009:33-40.

[8]WeiS,YeN,ZhangS,etal.Collaborativefilteringrecommendationalgorithmbasedonitemclusteringandglobalsimilarity[C]//Procoffifthinternationalconferenceonbusinessintelligenceandfinancialengineering.[s.l.]:IEEE,2012:69-72.

[9] 黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377.

[10]AndersonC.Thelongtail[J].WiredMagazine,2004,12(10):170-177.

[11] 項(xiàng) 亮．推薦系統(tǒng)實(shí)踐[M]．北京:人民郵電出版社，2012:44-64．

[12]SarwarB,KarypisG,KonstanJ,etal.Item-basedcollaborativefilteringrecommendationalgorithms[C]//Proceedingsofthe10thinternationalconferenceonWorldWideWeb.[s.l.]:ACM,2001:285-295.

[13] 羅辛,歐陽(yáng)元新,熊璋,等.通過(guò)相似度支持度優(yōu)化基于K近鄰的協(xié)同過(guò)濾算法[J]．計(jì)算機(jī)學(xué)報(bào),2010,33(8):1437-1445.

[14]LindenG,SmithB,YorkJ.Amazon.comrecommendations:item-to-itemcollaborativefiltering[J].IEEEInternetComputing,2003,7(1):76-80.

[15]RaikoT,IlinA,KarhunenJ.Principalcomponentanalysisforlargescaleproblemswithlotsofmissingvalues[C]//ProcofECML2007.Berlin:Springer,2007:691-698.

Collaborative Filtering Recommendation Algorithm Based on PCA Dimension Reduction

LI Yuan-bo,CAO Han

(School of Computer Science,Shaanxi Normal University,Xi’an 710062,China)

In the era of information overload,recommender system can help users find their interest and recommend the satisfactory information to analyze their historical behavior,so it is widely used in electronic commerce and other fields.But the user rating matrix is extremely sparse in recommender systems.The sparsity of the matrix leads to great error in the calculation of similarity of recommendation algorithms,bringing about the nearest neighbor sections is not accurate,thus affecting the quality of recommendation.Aiming at the problems above,a dimension reduction method based on PCA was proposed to reduce the sparsity of user rating matrix,by this method the remain matrix retain the most representative characteristic of the user interest,so that the similarity calculation is more accurate to ensure the accuracy of the nearest neighbors,thereby improving the quality of the recommendation.The experimental results show that compared with the traditional collaborative filtering algorithm,the algorithm proposed reaches a high accuracy and coverage.

PCA;dimension reduction;collaborative filtering;recommendation algorithm

2015-01-28

2015-05-17

時(shí)間：2016-01-26

國(guó)家自然科學(xué)基金資助項(xiàng)目(41271387)；陜西師范大學(xué)院士創(chuàng)新基金資助項(xiàng)目(999521)；西安市科技計(jì)劃基金資助項(xiàng)目(SF1228-3)作者簡(jiǎn)介：李遠(yuǎn)博(1988-)，男，碩士研究生，研究方向?yàn)楦咝阅苡?jì)算、數(shù)據(jù)挖掘；曹菡，博士，教授，研究方向?yàn)閿?shù)據(jù)挖掘、智慧旅游、高性能計(jì)算。

http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1517.002.html

TP301.6

1673-629X(2016)02-0026-05

10.3969/j.issn.1673-629X.2016.02.006

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PCA降維的協(xié)同過(guò)濾推薦算法

1 概 述

2 現(xiàn)有算法分析

3 基于PCA降維的算法

4 實(shí)驗(yàn)分析

5 結(jié)束語(yǔ)

1 概述