亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于徑向基函數(shù)插值與SVM 的協(xié)同過(guò)濾算法

        2015-11-26 01:09:04詹增榮曾青松
        關(guān)鍵詞:分類用戶評(píng)價(jià)

        詹增榮,曾青松

        (廣州番禺職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣東 廣州 511483)

        0 引言

        隨著互聯(lián)網(wǎng)快速發(fā)展,電子商務(wù)網(wǎng)站的數(shù)量及信息量急劇上升。在面對(duì)如此過(guò)載的信息環(huán)境下,用戶需要花大量的時(shí)間找到自己感興趣的內(nèi)容。為此,通過(guò)各種人工智能技術(shù)來(lái)提高用戶獲取有價(jià)值信息的效率是當(dāng)前研究關(guān)注的熱點(diǎn)。推薦系統(tǒng)可以根據(jù)用戶的偏好自動(dòng)為用戶推薦感興趣的項(xiàng)目從而大量節(jié)省了用戶的時(shí)間,因此被廣泛應(yīng)用到如Amazon、CDNOW、Drugstore 和MovieFinder 等各種電子商務(wù)系統(tǒng)中。

        推薦算法作為整個(gè)推薦系統(tǒng)核心部分,它的性能直接影響到推薦的效果。目前,主要的推薦算法有基于內(nèi)容的推薦算法[1]、基于關(guān)聯(lián)規(guī)則的推薦算法[2]和協(xié)同過(guò)濾推薦算法[3]等。基于內(nèi)容的推薦算法主要根據(jù)某個(gè)活躍用戶對(duì)已經(jīng)被他評(píng)價(jià)過(guò)商品相關(guān)的信息來(lái)進(jìn)行推薦,即通過(guò)比較項(xiàng)目與用戶的描述文件為用戶提供推薦服務(wù)[4],如文獻(xiàn)[5]利用自適應(yīng)過(guò)濾技術(shù)來(lái)比較用戶描述文件從而達(dá)到更好的推薦效果?;陉P(guān)聯(lián)規(guī)則的推薦算法則是結(jié)合生成的關(guān)聯(lián)規(guī)則模型和用戶的購(gòu)買行為來(lái)為用戶推薦項(xiàng)目[6],如Agrawal[7]利用了該算法來(lái)提高Aprior 的運(yùn)行效率?;趨f(xié)同過(guò)濾算法的推薦系統(tǒng)最早由Goldberg[8]等于1992 年提出,并應(yīng)用在Tapestry 系統(tǒng)上。該算法預(yù)測(cè)某個(gè)活躍用戶對(duì)某種產(chǎn)品是否感興趣,通過(guò)查找并利用與他具有相同的偏好用戶的選擇進(jìn)行判斷。此類算法主要利用用戶對(duì)項(xiàng)目的反饋如評(píng)分等來(lái)判斷用戶或項(xiàng)目的相似性。Grouplens 提出基于用戶評(píng)分的自動(dòng)協(xié)同過(guò)濾推薦系統(tǒng)目前已經(jīng)被廣泛應(yīng)用[9],其中最為成功的是Amazon 以用戶歷史購(gòu)買記錄和其他消費(fèi)者購(gòu)買歷史為推薦依據(jù),利用此類算法實(shí)現(xiàn)的圖書推薦系統(tǒng)。協(xié)同過(guò)濾算法是當(dāng)前研究和應(yīng)用最為廣泛的算法[10],它可分為基于記憶(Memory-Based)的協(xié)同過(guò)濾算法和基于模型(Model-Based)的協(xié)同過(guò)濾算法2 種[11]。在一個(gè)推薦系統(tǒng)中也可能同時(shí)使用這2 種算法,如Google News[12]使用了混合這2 種方法的算法來(lái)處理。

        近2 年,很多學(xué)者在2 種推薦算法上做了很多的擴(kuò)展與優(yōu)化。Fan[13]等將用戶的活躍程度和項(xiàng)目的屬性來(lái)提高協(xié)同過(guò)濾算法的效率;Ji[14]等則利用關(guān)鍵字和類別信息提高個(gè)性化推薦系統(tǒng)的預(yù)測(cè)質(zhì)量;Xie[15]等針對(duì)協(xié)同過(guò)濾算法中的項(xiàng)目相似性問(wèn)題,提出了利用學(xué)習(xí)算法來(lái)提高Pearson 協(xié)相關(guān)系數(shù)的準(zhǔn)確率。而Datta[16]等在通過(guò)比較用戶的屬性對(duì)用戶進(jìn)行聚類來(lái)縮短系統(tǒng)過(guò)濾算法的時(shí)間。

        協(xié)同過(guò)濾的2 種算法中,基于記憶協(xié)同過(guò)濾算法利用了用戶在系統(tǒng)中的操作記錄來(lái)生成相關(guān)的推薦結(jié)果?;谀P偷乃惴▌t利用機(jī)器學(xué)習(xí)方法在歷史數(shù)據(jù)上進(jìn)行建模并在線下對(duì)于模型進(jìn)行預(yù)計(jì)算,從而能在線快速得出結(jié)果,主要有基于貝葉斯方法[17]、基于神經(jīng)網(wǎng)絡(luò)方法[18]、基于聚類方法[19],以及基于分類方法[20]等。

        利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)用戶的評(píng)價(jià)或偏好標(biāo)準(zhǔn)的做法是將預(yù)測(cè)問(wèn)題轉(zhuǎn)化成一個(gè)分類問(wèn)題來(lái)實(shí)現(xiàn)[21]。在眾多基于模型的協(xié)同過(guò)濾算法應(yīng)用中,基于SVM 分類方法由于具有諸多的優(yōu)良特性,已經(jīng)被很多學(xué)者應(yīng)用到推薦系統(tǒng)中,如Zhang[20]等人直接應(yīng)用標(biāo)準(zhǔn)的SVM 分類器到推薦系統(tǒng)中,而文獻(xiàn)[22]等則對(duì)比了KNN 和SVM 在協(xié)同過(guò)濾下的性能,給出SVM 方法能較好地處理高維度和高稀疏數(shù)據(jù)集的樣本。近年來(lái),許多學(xué)者都利用SVM 技術(shù)改進(jìn)協(xié)同過(guò)濾算法,如Ghazarian[23]等利用SVM 學(xué)習(xí)項(xiàng)目之間的相似性,Zhang[24]等則利用SVM 檢測(cè)和過(guò)濾非常規(guī)的評(píng)價(jià)用戶,而Lichtenth?ler[25]等則利用多個(gè)SVM組合對(duì)重復(fù)購(gòu)買的用戶進(jìn)行項(xiàng)目推薦。

        協(xié)同過(guò)濾算法面臨的最主要問(wèn)題是數(shù)據(jù)集的稀疏性問(wèn)題,在實(shí)際的推薦系統(tǒng)中項(xiàng)目的數(shù)量非常大而用戶評(píng)價(jià)的項(xiàng)目數(shù)非常少,導(dǎo)致很難計(jì)算相似性,從而無(wú)法進(jìn)行推薦。本文針對(duì)這個(gè)問(wèn)題提出結(jié)合徑向基函數(shù)插值和SVM 分類方法來(lái)實(shí)現(xiàn)協(xié)同過(guò)濾的推薦算法。該算法采用K-最近鄰方法找到缺失樣本點(diǎn)的K 個(gè)最近樣本,利用這些不同樣本點(diǎn)與缺失樣本點(diǎn)的距離及其標(biāo)簽分類進(jìn)行徑向基函數(shù)插值,從而降低用戶對(duì)項(xiàng)目評(píng)價(jià)數(shù)據(jù)的稀疏性,最后在徑向基函數(shù)插值后的數(shù)據(jù),利用SVM 方法進(jìn)行建模實(shí)現(xiàn)對(duì)不同用戶的項(xiàng)目推薦。

        1 協(xié)同過(guò)濾推薦算法

        在協(xié)同過(guò)濾算法中,推薦系統(tǒng)的數(shù)據(jù)表示為D=(U,T,R),其中U={u1,u2,...,um}是一個(gè)由m個(gè)用戶組成的集合,而T={t1,t2,…,tn}為推薦系統(tǒng)中的n 個(gè)項(xiàng)目集合。因此,用戶對(duì)各個(gè)項(xiàng)目的評(píng)價(jià)用一個(gè)m×n 的矩陣R 來(lái)表示:

        矩陣中rij表示用戶ui對(duì)項(xiàng)目tj的評(píng)價(jià)值,而矩陣中的?代表了缺失數(shù)據(jù),即對(duì)應(yīng)的用戶沒(méi)有對(duì)該項(xiàng)目進(jìn)行評(píng)價(jià)。對(duì)于一個(gè)活躍用戶ua,令I(lǐng)a為ua對(duì)已經(jīng)評(píng)價(jià)項(xiàng)目的集合,即Ia={i|rai≠?,1≤i≤n},為了預(yù)測(cè)用戶ua對(duì)項(xiàng)目tb(b?Ia)的偏好,協(xié)同過(guò)濾推薦系統(tǒng)將根據(jù)已有的用戶反饋來(lái)預(yù)測(cè)rab的值。

        1.1 基于記憶的協(xié)同過(guò)濾算法

        在基于記憶的協(xié)同過(guò)濾算法中,對(duì)rab的預(yù)測(cè)主要利用用戶ua對(duì)其他項(xiàng)目的評(píng)價(jià)均值和ua相鄰的用戶Na對(duì)該項(xiàng)目的評(píng)價(jià)值來(lái)實(shí)現(xiàn),而用戶之間的距離經(jīng)常根據(jù)用戶對(duì)項(xiàng)目評(píng)價(jià)的相似度來(lái)計(jì)算。此外,離ua越近的用戶對(duì)項(xiàng)目的評(píng)價(jià)則具有越高的權(quán)重。目前被廣泛使用的權(quán)重計(jì)算是Pearson 協(xié)相關(guān)系數(shù),即用戶ua與uj的相似度定義如下:

        1.2 基于模型的協(xié)同過(guò)濾算法

        由于基于記憶的協(xié)同過(guò)濾算法受數(shù)據(jù)稀疏性的影響很大,很多研究提出用基于模型的協(xié)同過(guò)濾算法來(lái)學(xué)習(xí)一個(gè)模型去預(yù)測(cè)用戶的評(píng)價(jià)值?;谀P偷膮f(xié)同過(guò)濾推薦算法包括聚類、神經(jīng)網(wǎng)絡(luò)和分類等,本文采用分類方法對(duì)評(píng)價(jià)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

        從概率角度來(lái)說(shuō),協(xié)同過(guò)濾的任務(wù)被看成是根據(jù)用戶之前的評(píng)價(jià)信息計(jì)算用戶對(duì)某個(gè)項(xiàng)目的評(píng)價(jià)值。如果用戶對(duì)項(xiàng)目的評(píng)價(jià)值為有限的整數(shù),如1 至L,則對(duì)于某個(gè)活躍用戶ua,對(duì)項(xiàng)目tb評(píng)價(jià)值rab的預(yù)測(cè)可以用概率表達(dá)式表示為:

        為此,如果用整數(shù)1 至L 來(lái)代表類別的話,基于分類方法模型的協(xié)同過(guò)濾推薦算法,就是如何將用戶或項(xiàng)目劃分到相應(yīng)的類別中,即系統(tǒng)可以從基于項(xiàng)目評(píng)分和基于用戶評(píng)分2 個(gè)角度來(lái)進(jìn)行分類?;陧?xiàng)目角度中,將每個(gè)項(xiàng)目看做一個(gè)分類問(wèn)題,將用戶的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)構(gòu)造分類器,預(yù)測(cè)活躍用戶屬于在給定項(xiàng)目的哪種類型。基于用戶評(píng)分角度將每個(gè)用戶看做一個(gè)單獨(dú)的分類問(wèn)題,利用項(xiàng)目評(píng)分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)構(gòu)造分類器預(yù)測(cè)某個(gè)項(xiàng)目屬于用戶的哪一類型。

        2 基于徑向基函數(shù)插值與SVM 的協(xié)同過(guò)濾算法

        本文針對(duì)以上問(wèn)題首先利用徑向基函數(shù)插值方法對(duì)評(píng)價(jià)矩陣R 中的缺失數(shù)據(jù)進(jìn)行填補(bǔ),然后再轉(zhuǎn)換成分類問(wèn)題,并用SVM 方法對(duì)數(shù)據(jù)的類別標(biāo)簽進(jìn)行預(yù)測(cè)。

        2.1 評(píng)價(jià)矩陣缺失數(shù)據(jù)填補(bǔ)

        由于數(shù)據(jù)的稀疏性,在用戶-項(xiàng)目的評(píng)價(jià)矩陣中絕大多數(shù)的特征向量中的元素是沒(méi)有值的。SVM 學(xué)習(xí)機(jī)在這種數(shù)據(jù)缺乏的樣本上面無(wú)法達(dá)到較好的效果,為此需要填補(bǔ)缺失的數(shù)據(jù)。一種最直接的方法是用某個(gè)固定值如評(píng)價(jià)最小值直接填補(bǔ)到矩陣中,但是隨機(jī)的填補(bǔ)方法很大可能會(huì)誤導(dǎo)學(xué)習(xí)機(jī),因?yàn)橐粋€(gè)用戶對(duì)某個(gè)項(xiàng)目沒(méi)有評(píng)價(jià)并不等于該用戶不喜歡這個(gè)項(xiàng)目,只是該用戶還沒(méi)有購(gòu)買過(guò)而已。另一種方法是直接用用戶對(duì)其他項(xiàng)目評(píng)價(jià)的均值進(jìn)行填補(bǔ),這種取平均的方法并不能很好地?cái)M合用戶的評(píng)價(jià)數(shù)據(jù),因此效果也不理想。針對(duì)SVM 分類方法所需的樣本數(shù)量比較多,但在實(shí)際情況中用戶只評(píng)價(jià)了少數(shù)項(xiàng)目的問(wèn)題,本節(jié)給出了利用徑向基函數(shù)插值的方法填補(bǔ)矩陣中缺失的評(píng)價(jià)數(shù)據(jù)。

        徑向基函數(shù)插值能夠很好地逼近任意的非線性函數(shù),使得系統(tǒng)可以處理內(nèi)部難以解析的規(guī)律性,具有良好的泛化能力和快速的學(xué)習(xí)收斂速度,目前已成功應(yīng)用于非線性函數(shù)逼近、數(shù)據(jù)分類、模式識(shí)別、信息處理、時(shí)間序列分析和圖像處理等領(lǐng)域。在徑向基函數(shù)插值中,給定k 個(gè)d 維的數(shù)據(jù)點(diǎn)X={x1,x2,…,xp,…,xk},則對(duì)數(shù)據(jù)x 徑向基函數(shù)的插值表示為:

        其中‖·‖在本文中使用了式(2)中的相似度來(lái)表示2 點(diǎn)距離。w 為權(quán)重,由插值條件s(x)=f 決定,即通過(guò)求解以下線性方程得出。

        式(6)中的φ(·)為徑向基函數(shù),它可以是多項(xiàng)式函數(shù)、高斯函數(shù)等。本文采用高斯函數(shù),其表達(dá)式為:

        其中σ 為徑向基函數(shù)的擴(kuò)展常數(shù),它反應(yīng)了函數(shù)圖像的寬度,σ 越小,寬度越窄,函數(shù)越具有選擇性。

        針對(duì)式(1)中的評(píng)價(jià)矩陣R,令Θ={ri|ri=(ri1,ri2,…,rin)∈Rn,1≤i≤m},利用基于徑向基函數(shù)插值方法填補(bǔ)缺失數(shù)據(jù)的過(guò)程如下:

        1)從Θ 中選取一個(gè)用戶對(duì)所有項(xiàng)目的評(píng)價(jià)值向量ri,將ri分成2 部分,設(shè)ri=(),其中為已經(jīng)評(píng)價(jià)的部分,而rib為未評(píng)價(jià)的部分,即缺失數(shù)據(jù),令,對(duì)的第j 個(gè)元素(1≤j≤u)進(jìn)行高斯插值如下:

        ①令Ni={rs|rs∈Θ,且}為ri的鄰居,利用式(2)計(jì)算ri與Ni中所有樣本點(diǎn)的距離,找出k 個(gè)最近鄰樣本點(diǎn)集合記為。

        ②對(duì)Nik中的所有樣本點(diǎn)利用式(7)計(jì)算各個(gè)樣本點(diǎn)之間的徑向基函數(shù)的值,并代入式(6)求解到權(quán)重系數(shù)w,其中。

        ③將權(quán)重w 和ri到中的樣本點(diǎn)的徑向基函數(shù)的值代入式(5)求的插值s(ri)作為的預(yù)測(cè)值,從而進(jìn)行數(shù)據(jù)填補(bǔ)。

        2)重復(fù)1)直到Θ 中所有用戶評(píng)價(jià)的向量中的缺失數(shù)據(jù)被補(bǔ)齊為止。

        2.2 基于SVM 的數(shù)據(jù)分類方法

        支持向量機(jī)是由Vapnik[26]在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的分類算法,該方法與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,具有小樣本學(xué)習(xí)能力強(qiáng)、模型泛化性能好等特性,目前已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域。

        圖1 支持向量機(jī)超平面

        支持向量機(jī)的原理為,在給定訓(xùn)練樣本Χ={(xi,yi)|xi∈Rn,yi∈{-1,1},1≤i≤l},假設(shè)這些樣本可以被某個(gè)超平面w·x +b=0 沒(méi)有錯(cuò)誤地分開,則與2 類樣本的距離最大的分類超平面成為最優(yōu)超平面。如圖1 所示,其中H 為其最優(yōu)的超平面,而離最優(yōu)超平面最近的點(diǎn)落在H1和H2上,稱這些點(diǎn)為支持向量(Support Vector)。因此得出最優(yōu)超平面與這些支持向量有關(guān)而與其他點(diǎn)無(wú)關(guān)。Vapnik 將這個(gè)求超平面的問(wèn)題轉(zhuǎn)化為以下線性規(guī)劃問(wèn)題:

        但由于在很多情況下,樣本點(diǎn)并不是線性可分的,為此,針對(duì)近似線性可分問(wèn)題,引入了松弛變量ξi≥0,從而得到如下形式:

        其中,C 為懲罰參數(shù),用于對(duì)錯(cuò)誤分類樣本進(jìn)行懲罰,其值越大,則對(duì)錯(cuò)誤分類的懲罰越大。根據(jù)Wolf 對(duì)偶理論,得到以上問(wèn)題的對(duì)偶形式如下:

        通過(guò)對(duì)該問(wèn)題的求解可以得到最優(yōu)解a*=,其中不為0 的所對(duì)應(yīng)的向量xi則為支持向量,從而得到,進(jìn)一步確定b*=yi-w*xi,得到?jīng)Q策函數(shù):

        在非線性可分的問(wèn)題上,Vapnik 引入了核空間理論,即將低維的輸入數(shù)據(jù)通過(guò)非線性映射函數(shù)φ映射到高維特征空間,并在高維空間上進(jìn)行分類,從而使得在許多低維不可分問(wèn)題能轉(zhuǎn)化到高維特征空間上來(lái)進(jìn)行劃分。從上面可以看出目標(biāo)函數(shù)和決策函數(shù)只包括了2 點(diǎn)的內(nèi)積,為此只需在高維空間做內(nèi)積運(yùn)算,即使用核函數(shù)來(lái)定義2 點(diǎn)在高位空間的內(nèi)積K(xi,xj)=φ(xi)φ(xj)。由此得到目標(biāo)函數(shù)和決策函數(shù)為:

        目前常用的核函數(shù)有高斯核函數(shù)K(xi,xj)=exp(-γ‖xi-xj‖2)、線性核函數(shù)K(xi,xj)=xixj以及多項(xiàng)式核函數(shù)K(xi,xj)=[xixj+1]d等,本文采用了高斯核函數(shù)。

        根據(jù)前文中基于模型的協(xié)同過(guò)濾算法的描述,將用戶對(duì)項(xiàng)目評(píng)價(jià)數(shù)據(jù)的預(yù)測(cè)看作是分類問(wèn)題。給定數(shù)據(jù)D=(U,T,R),利用2.1 節(jié)所述的方法將R 中的缺失數(shù)據(jù)進(jìn)行填補(bǔ)后得到的評(píng)價(jià)矩陣記為R'。

        從基于用戶評(píng)分的角度上,在不失一般性情況下,假設(shè)活躍用戶為u1,且他評(píng)價(jià)了前面l 個(gè)項(xiàng)目,即I1={1,2,…,l};對(duì)任一項(xiàng)目tj可以用向量T,1≤j≤l 來(lái)表示,其中r'ij為插值后評(píng)價(jià)矩陣R'相應(yīng)的元素,而它的類別標(biāo)簽則為yj=r1j。然后,需要預(yù)測(cè)其他特征向量γh(l +1≤h≤n)的類別標(biāo)簽。為了簡(jiǎn)化問(wèn)題,將所有項(xiàng)目劃分成2 種類別,如喜歡和不喜歡,分別由1 和-1 來(lái)表示。對(duì)于多分類問(wèn)題,通過(guò)組合多個(gè)SVM 二分類器的方式來(lái)實(shí)現(xiàn)。

        因此,問(wèn)題可以被描述成,在給定一組服從獨(dú)立同分布的訓(xùn)練數(shù)據(jù)集},目標(biāo)是通過(guò)估計(jì)一個(gè)函數(shù))使得它可以正確地對(duì)未知數(shù)據(jù)進(jìn)行(l+1≤h≤n)分類。類似地也可以定義基于項(xiàng)目評(píng)分角度的二分類問(wèn)題。

        最后,對(duì)于活躍用戶u1,根據(jù)處理后的訓(xùn)練數(shù)據(jù)集Г,利用SVM 分類器對(duì)以上問(wèn)題進(jìn)行分類預(yù)測(cè)得到(l+1≤h≤n)的值,用來(lái)代表用戶對(duì)項(xiàng)目th(l+1≤h≤n)的喜歡偏好,并根據(jù)偏好形成列表提供給用戶。

        3 仿真實(shí)驗(yàn)及結(jié)果分析

        為了驗(yàn)證本文所提出的算法,選取了2 個(gè)推薦系統(tǒng)常用數(shù)據(jù)集MovieLens 和EachMovie 進(jìn)行實(shí)驗(yàn),表1 給出了每個(gè)數(shù)據(jù)集的用戶數(shù)目、項(xiàng)目數(shù)目、評(píng)分記錄數(shù)目,以及它們的稀疏程度。實(shí)驗(yàn)結(jié)果與標(biāo)準(zhǔn)的SVM 分類、基于用戶對(duì)其他項(xiàng)目評(píng)價(jià)的均值的插值的SVM 分類的結(jié)果進(jìn)行比較,并探討分析了隨著樣本數(shù)據(jù)的規(guī)模、K 近鄰數(shù)量的變化,導(dǎo)致的實(shí)驗(yàn)結(jié)果的變化情況。

        3.1 數(shù)據(jù)集

        第一個(gè)數(shù)據(jù)集取自GroupLens 所提供的MovieLens 數(shù)據(jù)集[27]。該數(shù)據(jù)集是明尼蘇達(dá)大學(xué)的GroupLens 項(xiàng)目組通過(guò)MovieLens(http://www.movielens.umn.edu)收集得來(lái),該網(wǎng)站提供了用戶對(duì)不同電影的評(píng)價(jià),所有的評(píng)分在1~5 之間,評(píng)分值越高代表對(duì)該項(xiàng)目越感興趣。項(xiàng)目組提供了3 個(gè)數(shù)據(jù)集,其中一個(gè)包含了943 人對(duì)1682 部電影的10 萬(wàn)條評(píng)價(jià)記錄,且每個(gè)用戶都評(píng)價(jià)了至少20 部電影。本文實(shí)驗(yàn)從該數(shù)據(jù)集中選取了前100、200、300、500、943(全部)個(gè)用戶的評(píng)價(jià)數(shù)據(jù)集,標(biāo)記為ML100、ML200、ML300、ML500、ML943。為了便于實(shí)驗(yàn),將評(píng)分值為1~3 的記錄定義為不感興趣,標(biāo)記為-1,而評(píng)分為4~5 定義為感興趣,標(biāo)記為+1。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        第二個(gè)數(shù)據(jù)集為EachMovie,它由Comaq 系統(tǒng)研究中心提供,包含了18 個(gè)月時(shí)間內(nèi)的72916 個(gè)用戶對(duì)1628 部電影的評(píng)價(jià)數(shù)據(jù)。所有的評(píng)分記錄分成6個(gè)層次0、0.2、0.4、0.6、0.8 和1,在本文實(shí)驗(yàn)中分別用1~6 來(lái)表示,數(shù)值越大代表越感興趣。為了便于對(duì)比實(shí)驗(yàn),從文獻(xiàn)[28]中提供的1000 個(gè)用戶對(duì)至少100 個(gè)以上項(xiàng)目進(jìn)行評(píng)價(jià)的數(shù)據(jù)集中,選取了前100、200、300、500、1000 個(gè)用戶的評(píng)價(jià)數(shù)據(jù)集,標(biāo)記為EM100、EM200、EM300、EM500、EM1000,并將評(píng)分為1~4 的數(shù)據(jù)定義為不感興趣,標(biāo)記為-1,而5~6 的數(shù)據(jù)定義為感興趣,標(biāo)記為+1。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)在Matlab 上進(jìn)行,支持向量機(jī)則使用LibSVM[29]。所有的實(shí)驗(yàn)都采用五折交叉驗(yàn)證法,即將數(shù)據(jù)集的80%的數(shù)據(jù)用作訓(xùn)練集,而剩余20%用作測(cè)試集。實(shí)驗(yàn)中支持向量機(jī)采用的核函數(shù)為廣泛使用的高斯核函數(shù)。采取真正類率作為平均預(yù)測(cè)準(zhǔn)確率來(lái)衡量實(shí)驗(yàn)結(jié)果,即預(yù)測(cè)準(zhǔn)確率P 定義為:

        表2 各種算法準(zhǔn)確率比較

        從表2 的實(shí)驗(yàn)結(jié)果可以看出本文方法相對(duì)于傳統(tǒng)的SVM 方法和基于用戶評(píng)價(jià)平均值插值方法具有更高的準(zhǔn)確率。在EachMovie 數(shù)據(jù)集上,準(zhǔn)確率更是提高了11%以上,特別當(dāng)樣本數(shù)據(jù)為1000 個(gè)時(shí),本文的算法比其他的算法準(zhǔn)確率提高了16%。此外,從實(shí)驗(yàn)結(jié)果看到隨著樣本數(shù)量的增加,算法的準(zhǔn)確率趨于平穩(wěn),并沒(méi)有太大的浮動(dòng),說(shuō)明算法具有較好的穩(wěn)定性。

        為了測(cè)試所選取的近鄰數(shù)目k 對(duì)實(shí)驗(yàn)結(jié)果的影響,選取ML500 和EM500 兩個(gè)數(shù)據(jù)集在對(duì)k 取不同值時(shí)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖2 所示,從圖中可以看出實(shí)驗(yàn)的準(zhǔn)確率,隨著k 增加的變化準(zhǔn)確率會(huì)細(xì)微地降低,說(shuō)明離活躍用戶較近的鄰域用戶對(duì)預(yù)測(cè)具有比較高的權(quán)重,k 值在取5 的時(shí)候具有很好的效果,從而保證了算法的效率。

        圖2 不同近鄰數(shù)目的實(shí)驗(yàn)結(jié)果

        4 結(jié)束語(yǔ)

        在協(xié)同過(guò)濾推薦系統(tǒng)中應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)用戶偏好進(jìn)行預(yù)測(cè)目前已經(jīng)被廣泛應(yīng)用。本文針對(duì)推薦系統(tǒng)中用戶-項(xiàng)目評(píng)價(jià)矩陣數(shù)據(jù)稀疏性問(wèn)題提出了利用徑向基函數(shù)插值方法來(lái)對(duì)數(shù)據(jù)進(jìn)行填補(bǔ),從而克服了實(shí)際情況中特征向量數(shù)據(jù)誤導(dǎo)學(xué)習(xí)機(jī)的情況,提高了對(duì)用戶興趣預(yù)測(cè)的準(zhǔn)確率。文中在2 個(gè)常用的推薦系統(tǒng)數(shù)據(jù)集上做實(shí)驗(yàn),將本文的方法與傳統(tǒng)的SVM 分類方法、基于用戶評(píng)價(jià)均值插值的SVM 分類方法進(jìn)行了比較,表明基于徑向基函數(shù)插值和SVM的協(xié)同過(guò)濾方法相比其他算法具有更高的準(zhǔn)確率和更好的穩(wěn)定性。

        [1]Symeonidis P,Nanopoulos A,Papadopoulos A N,et al.Collaborative recommender systems:Combining effectiveness and efficiency[J].Expert Systems with Applications,2008,34(4):2995-3013.

        [2]Leung Cane Wing-ki,Chan Stephen Chi-fai,Chung Fu-lai.An empirical study of a cross-level association rule mining approach to cold-start recommendations[J].Knowledge-Based Systems,2008,21(7):515-529.

        [3]Weng Sung-shun,Lin Binshan,Chen Wen-tien.Using contextual information and multidimensional approach for recommendation[J].Expert Systems with Applications,2009,36(2):1268-1279.

        [4]Liu Duen-ren,Shih Ya-yueh.Hybrid approaches to product recommendation based on customer lifetime value and purchase preferences[J].Journal of Systems and Software,2005,77(2):181-191.

        [5]Hernández del Olmo Félix,Gaudioso Elena,Martin Eduardo H.The task of guiding in adaptive recommender systems[J].Expert Systems with Applications,2009,36(2):1972-1977.

        [6]Kunaver Matev?,Po?rl Toma?,Pogacˇnik Matev?,et al.Optimisation of combined collaborative recommender systems[J].AEU-International Journal of Electronics and Communications,2007,61(7):433-443.

        [7]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases[J].ACM SIGMOD Record,1993,22(2):207-216.

        [8]Goldberg D,Nichols D A,Oki B M,et al.Using collaborative filtering to weave an information tapestry[J].Communications of the ACM,1992,35(12):61-70.

        [9]Huang Cheng-lung,Huang Wei-liang.Handling sequential pattern decay:Developing a two-stage collaborative recommender system[J].Electronic Commerce Research and Applications,2009,8(3):117-129.

        [10]Huang Zan,Zeng Daniel,Chen Hsinchun.A comparison of collaborative-filtering recommendation algorithms for ecommerce[J].Intelligent Systems,IEEE,2007,22(5):68-78.

        [11]Breese S J,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering[C]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence.1998:43-52.

        [12]Das S A,Datar M,Gstg A,et al.Google news personalization:Scalable online collaborative filtering[C]// Proceedings of the 16th International Conference on World Wide Web.2007:271-280.

        [13]Fan Jiaqi,Pan Weimin,Jiang Lisi.An improved collaborative filtering algorithm combining content-based algorithm and user activity[C]// Proceedings of 2014 International Conference on Big Data and Smart Computing (BIG-COMP).2014:88-91.

        [14]Ji Ke,Shen Hong.Using category and keyword for personalized recommendation:A scalable collaborative filtering algorithm[C]// 2014 6th International Symposium on Parallel Architectures,Algorithms and Programming(PAAP).2014:197-202.

        [15]Xie Feng,Chen Zhen,Shang Jiaxing,et al.Item similarity learning methods for collaborative filtering recommender systems[C]// 2015 IEEE 29th International Conference on Advanced Information Networking and Applications (AINA).2015:896-903.

        [16]Datta S,deep Das J,Gupta P,et al.SCARS:A scalable context-aware recommendation system[C]// 2015 3rd International Conference on Computer,Communication,Control and Information Technology(C3IT).2015:1-6.

        [17]Robles V,Larranaga P,Menasalvas E,et al.Improvement of naive Bayes collaborative filtering using interval estimation[C]// Proceedings of IEEE/WIC International Conference on Web Intelligence.2003:168-174.

        [18]張鋒,常會(huì)友.使用BP 神經(jīng)網(wǎng)絡(luò)緩解協(xié)同過(guò)濾推薦算法的稀疏性問(wèn)題[J].計(jì)算機(jī)研究與發(fā)展,2006,43(4):667-672.

        [19]Wei Suyun,Ye Ning,Zhang Shuo,et al.Collaborative filtering recommendation algorithm based on item clustering and global similarity[C]// 2012 5th International Conference on Business Intelligence and Financial Engineering(BIFE).2012:69-72.

        [20]Zhang Tong,Iyengar S V.Recommender systems using linear classifiers[J].The Journal of Machine Learning Research,2002,2:313-334.

        [21]Basu C,Hirsh H,Cohen W.Recommendation as classification:Using social and content-based information in recommendation[C]// Proceedings of the 15th National Conference on Artificial Intelligence.1998:714-720.

        [22]Grcˇar Miha,F(xiàn)ortuna Bla?,MladenicˇDunja,et al.kNN Versus SVM in the Collaborative Filtering Framework[M].Springer,2006:251-260.

        [23]Ghazarian S,Nematbakhsh M A.Enhancing memory-based collaborative filtering for group recommender systems[J].Expert Systems with Applications,2015,42(7):3801-3812.

        [24]Zhang Fuzhi,Zhou Quanqiang.HHT-VM:An online method for detecting profile injection attacks in collaborative recommender systems[J].Knowledge-Based Systems,2014,65:96-105.

        [25]Lichtenth?ler C,Schmidt-Thieme L.Multinomial SVM Item Recommender for Repeat-Buying Scenarios[M].Springer,2014:189-197.

        [26]Vapnik V.The Nature of Statistical Learning Theory[M].Springer,1999.

        [27]Grouplens Research.Movielens Data Sets.[EB/OL].http://grouplens.org/datasets/movielens/,2014-05-01.

        [28]Min Sung-hwan,Han Ingoo.Recommender Systems Using Support Vector Machines[M].Springer,2005:387-393.

        [29]Chang Chih-chung,Lin Chih-jen.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.

        猜你喜歡
        分類用戶評(píng)價(jià)
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        如何獲取一億海外用戶
        免费观看又色又爽又黄的| 日韩五码一区二区三区地址| 97精品人妻一区二区三区蜜桃| 国产午夜福利不卡在线观看| 亚洲妇女水蜜桃av网网站| 午夜国产精品视频免费看电影| 一区二区三区在线观看人妖| 人妻激情偷乱视频一区二区三区| 国产成人综合亚洲精品| 粗大挺进尤物人妻一区二区| av男人天堂网在线观看| 国产一区二区三区久久精品| 性一交一乱一伦a片| 国产一级淫片免费大片| 久久黄色精品内射胖女人| 在线播放五十路熟妇| 国产手机在线αⅴ片无码观看| 丰满少妇棚拍无码视频| 国产免费人成视频在线 | 日韩秘 无码一区二区三区| 激情视频在线播放一区二区三区| 精品含羞草免费视频观看| 少妇装睡让我滑了进去 | 久久婷婷夜色精品国产| 国产亚洲成性色av人片在线观| 草草浮力地址线路①屁屁影院| 伊香蕉大综综综合久久| 亚洲国产日韩综合天堂| 国产乱人对白| 色婷婷日日躁夜夜躁| 亚洲精彩视频一区二区| 青青草国产在线视频自拍| 国产精品自在线拍国产| 在线观看亚洲精品国产| 国产性感午夜天堂av| 少妇激情一区二区三区视频 | 少妇久久一区二区三区| 日日躁夜夜躁狠狠躁| 国产极品美女高潮无套在线观看| 日韩av在线不卡一二三区| 少妇激情av一区二区三区|