亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合相似度和層次聚類的冷啟動(dòng)推薦算法

        2022-05-10 08:45:38韓勝寶伊華偉李曉會(huì)
        關(guān)鍵詞:融合用戶信息

        韓勝寶,伊華偉,李曉會(huì),李 波,景 榮

        1(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)

        2(燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066044)

        1 引 言

        隨著互聯(lián)網(wǎng)以及社會(huì)化媒體的高速發(fā)展,在網(wǎng)絡(luò)資源愈加豐富的同時(shí),也出現(xiàn)了信息超載(Information Overload)[1,2]的問題.信息超載給用戶在選擇資源上帶來了很大的困惑(比如面對電商平臺(tái)五花八門的商品難以抉擇、在新聞資訊平臺(tái)不能及時(shí)獲取真正想要的新聞信息以及在視頻網(wǎng)站耗費(fèi)大量的時(shí)間尋找合適的影片等等).搜索引擎在一定程度上能夠幫助用戶進(jìn)行資源的選擇,但未能從本質(zhì)上解決信息過載的問題.在這種情況下,推薦系統(tǒng)(Recommendation System)應(yīng)運(yùn)而生,它利用數(shù)據(jù)挖掘等技術(shù),向用戶推送其可能感興趣的信息[3-5].不僅如此,高效的推薦結(jié)果會(huì)增加用戶與系統(tǒng)的粘合度,提升用戶的忠誠度,防止用戶的流失,為商家?guī)砹己玫慕?jīng)濟(jì)效益.推薦系統(tǒng)的核心是推薦算法,協(xié)同過濾推薦算法是目前最流行以及最成功的推薦技術(shù)之一[6,7],它分為基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法[8].基于用戶的協(xié)同過濾算法利用用戶對商品的評分記錄(包括隱式的交互,如瀏覽記錄、收藏的信息)尋找與目標(biāo)用戶相似的鄰居用戶,根據(jù)這些鄰居用戶喜歡的商品為目標(biāo)用戶做出推薦,其中的關(guān)鍵是需要大量的用戶歷史數(shù)據(jù).對于新用戶而言,歷史數(shù)據(jù)的缺乏使得系統(tǒng)難以計(jì)算他和其余用戶的相似性,也就不能很好地獲取新用戶的興趣與需求,從而系統(tǒng)無法為新用戶做出推薦或者推薦的準(zhǔn)確性不高,這個(gè)問題被稱作用戶冷啟動(dòng)(User Cold Start)[9,10]問題.因?yàn)槿魏我粋€(gè)用戶對產(chǎn)品的評價(jià)都是從無到有、從少量到眾多,所以冷啟動(dòng)問題是推薦系統(tǒng)無法避免的.用戶沒有對任何產(chǎn)品評價(jià)的情況被稱為純冷啟動(dòng)問題,用戶對少許產(chǎn)品評價(jià)的情況被稱為非純冷啟動(dòng)問題.本文主要是針對協(xié)同過濾算法中的用戶非純冷啟動(dòng)問題而展開研究的.

        2 相關(guān)工作

        近年來,研究人員就如何緩解用戶冷啟動(dòng)問題開展了諸多研究工作.Liu H F等人[11]提出了NHSM方法,將用戶評分行為因素融入到傳統(tǒng)的相似度計(jì)算公式中,擴(kuò)展了傳統(tǒng)的幾何距離式計(jì)算方法,從而提高了推薦精確度.Ahn H J[12]提出了一種啟發(fā)式度量計(jì)算相似度方法PIP,該方法綜合了相似度、鄰近度、影響力和受歡迎程度4種指標(biāo),在冷啟動(dòng)環(huán)境下能有效提高系統(tǒng)的推薦性能.張凱涵等人[13]提出了一種基于社區(qū)專家信息的協(xié)同過濾推薦算法,首先利用用戶的社交關(guān)系將用戶進(jìn)行劃分,然后根據(jù)相關(guān)規(guī)則確定社區(qū)專家,利用社區(qū)專家對新用戶的評分記錄進(jìn)行填充,最后計(jì)算用戶相似度,完成對目標(biāo)用戶的推薦.毛明松等人[14]首先對用戶構(gòu)建多重關(guān)系網(wǎng)絡(luò)和計(jì)算各關(guān)系網(wǎng)絡(luò)間的結(jié)構(gòu)差異性,然后利用多重圖排序模型得到目標(biāo)用戶的最近鄰集合,進(jìn)而對目標(biāo)用戶產(chǎn)生推薦.該方法能有效提高冷啟動(dòng)用戶的推薦準(zhǔn)確率,但圖形的構(gòu)建難度以及計(jì)算量會(huì)隨著數(shù)據(jù)規(guī)模的增大而增大.王媛媛等人[15]首先結(jié)合用戶人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和用戶評分矩陣計(jì)算用戶間的相似度,然后對用戶進(jìn)行分層近鄰傳播聚類,產(chǎn)生目標(biāo)用戶的最近鄰居列表,最后根據(jù)最近鄰對目標(biāo)用戶進(jìn)行推薦.Zheng X L等人[16]結(jié)合用戶的全局信任關(guān)系和局部信任關(guān)系,提出一種基于信任的推薦算法,有效提升了對冷啟動(dòng)用戶的推薦精度.Liu Y等人[17]在個(gè)性化方面利用矩陣分解求得項(xiàng)目的潛在特征個(gè)數(shù)以及用戶間的相似度,在非個(gè)性化方面利用K-means方法對用戶進(jìn)行聚類,最后不斷迭代更新用戶評分矩陣,使得預(yù)測結(jié)果達(dá)到最優(yōu),此方法可以提升推薦精度,但計(jì)算量會(huì)隨著用戶量增多而增大,而且精度的提升是有限的.潘一騰等[18]利用矩陣分解和社交關(guān)系獲取用戶之間的隱含信任關(guān)系,然后綜合利用評分相似度和隱含信任關(guān)系得到更精準(zhǔn)的最近鄰,進(jìn)而提升系統(tǒng)的推薦精度.郭磊等人[19]利用信任關(guān)系和興趣愛好對用戶進(jìn)行建模,在識別具有共同興趣愛好的用戶過程中對模型不斷進(jìn)行優(yōu)化,使得最后的推薦效果達(dá)到最好.Viktoratos I等人[20]將基于社區(qū)的知識與關(guān)聯(lián)規(guī)則挖掘相結(jié)合,采用了基于概率度量的創(chuàng)新評分函數(shù),緩解了推薦系統(tǒng)的冷啟動(dòng)問題.Gupta S等人[21]利用模糊C-means聚類算法對用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)進(jìn)行聚類,將冷啟動(dòng)用戶所在簇中評分最高的項(xiàng)目推薦給冷啟動(dòng)用戶,有效地提升了推薦質(zhì)量.

        上述方法雖然在一定程度上緩解了用戶冷啟動(dòng)問題,但仍然存在以下問題:1)在冷啟動(dòng)環(huán)境下,采用傳統(tǒng)用戶相似度計(jì)算方法為目標(biāo)用戶尋找近鄰,結(jié)果不夠準(zhǔn)確或者找不到近鄰;2)一些算法的計(jì)算量過于龐大,導(dǎo)致算法時(shí)間復(fù)雜度增加.

        本文在已有的研究工作基礎(chǔ)上,提出一種基于融合相似度和層次聚類的冷啟動(dòng)推薦算法.首先,針對傳統(tǒng)相似度尋找近鄰的不足,基于對人口統(tǒng)計(jì)學(xué)信息、用戶評分信息和項(xiàng)目種類信息的深入挖掘,以及對傳統(tǒng)的用戶相似度計(jì)算方法進(jìn)行改進(jìn),構(gòu)建一種融合相似度計(jì)算方法,克服了單一的從用戶關(guān)系角度去尋找近鄰的局限性.其次,針對隨著用戶的增多,算法計(jì)算量增大的情況,利用層次聚類算法快速獲取冷啟動(dòng)用戶的初始近鄰用戶集,以此來降低算法的復(fù)雜度,提升算法的運(yùn)行效率.通過與其他方法進(jìn)行實(shí)驗(yàn)對比,本文提出的方法在MAE和RMSE兩個(gè)推薦精度評價(jià)指標(biāo)上表現(xiàn)良好,有助于后續(xù)冷啟動(dòng)問題的研究.

        3 基于融合相似度和層次聚類的冷啟動(dòng)推薦算法

        本節(jié)提出基于融合相似度和層次聚類的冷啟動(dòng)推薦算法(Cold Start Recommendation Algorithm Based on Fusion Similarity and Hierarchical Clustering,CSRA-FH),算法的框架如圖1所示,本文所提的算法由融合相似度計(jì)算、基于層次聚類的初始近鄰用戶確定和為目標(biāo)用戶進(jìn)行推薦3個(gè)部分組成.

        圖1 基于融合相似度和層次聚類的冷啟動(dòng)推薦算法框架圖

        3.1 融合相似度

        通過對人口統(tǒng)計(jì)學(xué)信息、用戶評分信息和項(xiàng)目種類信息進(jìn)行深入挖掘,分別得到人口統(tǒng)計(jì)學(xué)相似度計(jì)算方法、興趣偏好相似度計(jì)算方法和基于動(dòng)態(tài)調(diào)整的用戶評分相似度計(jì)算方法,將三者進(jìn)行加權(quán)融合,得到融合相似度計(jì)算方法.

        3.1.1 人口統(tǒng)計(jì)學(xué)相似度

        冷啟動(dòng)用戶是系統(tǒng)新注冊的用戶,對商品的評價(jià)或者瀏覽記錄較少,而用戶注冊時(shí)填寫的人口統(tǒng)計(jì)學(xué)信息包括年齡、性別、職業(yè)、收入水平、文化程度以及地理位置等.相關(guān)研究[22]表明,具有相似的人口統(tǒng)計(jì)學(xué)信息特征的用戶在興趣愛好上有很大的相似性,因此本文引入用戶的人口統(tǒng)計(jì)學(xué)信息,選取年齡、性別和職業(yè)共3個(gè)維度的數(shù)據(jù),先計(jì)算用戶在各個(gè)維度的相似性,然后綜合3個(gè)維度的相似性,最后提出用戶在人口統(tǒng)計(jì)學(xué)信息屬性上的相似度計(jì)算方法.

        由于用戶的年齡從幾歲到幾十歲不等,年齡差距比較大.因此,本文參考文獻(xiàn)[23]提出的方法,利用負(fù)指數(shù)衰減函數(shù)將距離值映射到相似值,用戶u和用戶v之間的年齡相似性計(jì)算方法如公式(1)所示:

        sima(u,v)=exp(-ηdisσ(au,av))

        (1)

        其中,η=3.8,σ=2[23].本文利用最大最小縮放法將用戶au和av代表的用戶年齡值進(jìn)行相應(yīng)的處理,保證相似度的值在0~1之間,具體如公式(2)所示:

        (2)

        其中,uai表示用戶的實(shí)際年齡(i=u,v),maxa和mina分別表示用戶集中的最小年齡值和最大年齡值.

        對于人口統(tǒng)計(jì)學(xué)中的性別和職業(yè)屬性,本文將二者用同樣的方式進(jìn)行處理.因?yàn)閮烧呓詾榉菙?shù)值型數(shù)據(jù),所以需要將這些數(shù)據(jù)進(jìn)行量化,用0和1分別表示“男”和“女”,用不同的數(shù)字代表不同的職業(yè).基于量化后的數(shù)據(jù),利用歐氏距離計(jì)算用戶u和用戶v在性別和職業(yè)屬性上的相似程度,如公式(3)所示:

        (3)

        其中,ui和vi分別表示用戶u和用戶v的第i個(gè)屬性特征值.從公式中可以看出,距離越大,說明用戶之間在性別和職業(yè)屬性上的差異就越大,從而兩個(gè)用戶在這兩個(gè)屬性上的相似度就越??;反之亦然.因此,用戶在性別和職業(yè)屬性上的相似性可以用歐氏距離的倒數(shù)來表示,如公式(4)所示:

        (4)

        將上述獲得的用戶年齡相似度和性別職業(yè)相似度進(jìn)行加權(quán)融合,得到用戶在人口統(tǒng)計(jì)學(xué)上的相似度計(jì)算方法,如公式(5)所示:

        dem_simu,v=ω×sima(u,v)+θ×simg,o(u,v)

        (5)

        其中,ω和θ分別代表公式(1)和公式(4)計(jì)算出的相似度的權(quán)重,這兩個(gè)維度是相互獨(dú)立,互不影響的,它們對于用戶在人口統(tǒng)計(jì)學(xué)上的相似度的影響力應(yīng)該是一樣的,所以將ω和θ的值分別設(shè)置為0.5.

        3.1.2 興趣偏好相似度

        每個(gè)項(xiàng)目對應(yīng)著一個(gè)或者多個(gè)特征,統(tǒng)計(jì)用戶對每一類項(xiàng)目的評價(jià)次數(shù),就可以挖掘出用戶對某種類型項(xiàng)目的喜好程度.以推薦系統(tǒng)研究中的經(jīng)典數(shù)據(jù)集MovieLens為例,它包含了用戶對所有電影的評價(jià)記錄,每部電影至少屬于一種電影類型.統(tǒng)計(jì)所有用戶對每種類型電影的評價(jià)總次數(shù),就可以獲得用戶對各種類型電影的偏好程度.基于這種思想,提出用戶間的興趣偏好相似度計(jì)算方法,具體如下所示.

        該過程主要分為兩步:首先基于用戶評分信息以及項(xiàng)目的種類信息,獲得所有用戶的項(xiàng)目特征偏好矩陣M;然后根據(jù)已獲得的矩陣M,計(jì)算用戶之間的興趣偏好相似度.用戶的項(xiàng)目特征偏好矩陣M如公式(6)所示:

        (6)

        其中,m表示用戶的數(shù)量,n表示項(xiàng)目的類型個(gè)數(shù),Smn表示用戶m對項(xiàng)目類型n總共的評價(jià)次數(shù),其數(shù)值越大,表示用戶對這個(gè)類型產(chǎn)品的偏好程度越大.

        根據(jù)矩陣M提出用戶之間的興趣偏好相似度計(jì)算方法,具體如公式(7)所示:

        (7)

        其中,train代表訓(xùn)練集,test代表測試集(冷啟動(dòng)用戶集合),ut代表訓(xùn)練集用戶對某種類型項(xiàng)目的評價(jià)次數(shù)的映射值,vt代表冷啟動(dòng)用戶對某種類型項(xiàng)目的評價(jià)次數(shù)的映射值.規(guī)定:如果測試集中的冷啟動(dòng)用戶的第t種特征偏好統(tǒng)計(jì)數(shù)據(jù)大于或者等于1,則vt等于1,否則等于0.由于訓(xùn)練集中用戶對某種類型項(xiàng)目的評價(jià)次數(shù)存在較大的差異,所以首先計(jì)算出訓(xùn)練集用戶對所有項(xiàng)目每種類型的平均評價(jià)次數(shù)n,然后比較用戶的第t種特征偏好統(tǒng)計(jì)數(shù)據(jù)St和n的大小關(guān)系,對應(yīng)關(guān)系如公式(8)所示:

        (8)

        之所以進(jìn)行這樣的設(shè)置,是因?yàn)橛?xùn)練集中的用戶評價(jià)記錄較多,所以用戶的興趣偏好需要較大的特征偏好值來體現(xiàn).同理,冷啟動(dòng)用戶的評價(jià)記錄偏少,較小的特征偏好值可以體現(xiàn)出冷啟動(dòng)用戶的潛在興趣偏好.

        3.1.3 基于動(dòng)態(tài)調(diào)整的用戶評分相似度

        用戶對項(xiàng)目的評分可以體現(xiàn)用戶之間的相似性,但是對于一些流行程度較高的項(xiàng)目來說,雖然大多數(shù)用戶進(jìn)行了評分,但是偏好并不一定相似,所以,如果兩個(gè)用戶共同評分項(xiàng)中流行項(xiàng)目較多,就會(huì)影響相似度的準(zhǔn)確性.在傳統(tǒng)的Person相似度計(jì)算中,算法對所有的項(xiàng)目賦予同樣的計(jì)算權(quán)重,忽略了項(xiàng)目流行度對相似度結(jié)果的影響.所以,應(yīng)該降低流行項(xiàng)目在相似度計(jì)算中的權(quán)重.本文基于參考文獻(xiàn)[24],對傳統(tǒng)的Person相似度計(jì)算公式進(jìn)行改進(jìn),得到基于動(dòng)態(tài)調(diào)整的用戶評分相似度計(jì)算如公式(9)所示:

        (9)

        上述公式考慮了項(xiàng)目流行度對相似度計(jì)算的影響,使得計(jì)算獲得的用戶相似度更具合理性.

        為了克服單一的從用戶關(guān)系角度去尋找近鄰的局限性,綜合考慮3.1.1、3.1.2和3.1.3中提出的3種相似度計(jì)算方法,將三者進(jìn)行加權(quán)融合,得到融合相似度.該相似度計(jì)算綜合考慮了人口統(tǒng)計(jì)學(xué)信息、用戶評分信息和項(xiàng)目種類信息3個(gè)方面的因素,使得算法在冷啟動(dòng)環(huán)境下的預(yù)測評分更準(zhǔn)確.具體定義如公式(10)所示:

        F_simu,v=α×user_simu,v+β×dem_simu,v+γ×pre_simu,v

        (10)

        其中,α、β和γ分別是基于動(dòng)態(tài)調(diào)整的用戶評分相似度、人口統(tǒng)計(jì)學(xué)相似度以及興趣偏好相似度的權(quán)重,取值的依據(jù)見4.2節(jié).

        3.2 基于層次聚類的初始近鄰用戶確定

        本節(jié)采用層次聚類算法為冷啟動(dòng)用戶尋找初始近鄰用戶,提出基于層次聚類的初始近鄰用戶確定算法(Initial User Neighbor Determination Algorithm Based on Hierarchical Clustering,IUND_HC).傳統(tǒng)的協(xié)同過濾推薦算法根據(jù)用戶的評分相似度來確定用戶的近鄰集合.在冷啟動(dòng)環(huán)境下,冷啟動(dòng)用戶評分記錄較少,但是其人口統(tǒng)計(jì)學(xué)數(shù)據(jù)是相對比較完整且較為真實(shí)的,所以本節(jié)基于人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的內(nèi)部特征,利用層次聚類算法根據(jù)特征的關(guān)聯(lián)性將用戶進(jìn)行聚類.目的是在為冷啟動(dòng)用戶進(jìn)行推薦時(shí),只計(jì)算冷啟動(dòng)用戶與其所在類簇的其他用戶之間的相似度,可以減少計(jì)算量,提高算法的運(yùn)行效率.

        層次聚類[25]算法主要分為凝聚算法和分裂算法,本文采用凝聚算法.在算法的初始狀態(tài),將每個(gè)數(shù)據(jù)樣本看成一類,通過計(jì)算兩兩樣本之間的距離,將距離最小的兩個(gè)類合并成一個(gè)類,不斷地重復(fù)這個(gè)過程,直到類簇的數(shù)目達(dá)到預(yù)先設(shè)置的數(shù)目.在算法的設(shè)計(jì)過程中,主要涉及兩個(gè)樣本之間距離的計(jì)算和兩個(gè)類簇之間距離的計(jì)算.

        假設(shè)兩個(gè)數(shù)據(jù)樣本X和Y分別表示為X=(X1,X2,X3,…,Xn),Y=(Y1,Y2,Y3,…,Yn),他們之間的距離用D(X,Y)表示,兩個(gè)樣本之間距離的計(jì)算公式如公式(11)所示:

        (11)

        對于兩個(gè)類簇之間距離的計(jì)算,本文采用最短距離法,即將兩個(gè)類簇中最近的兩個(gè)點(diǎn)之間的距離作為類簇之間的距離,具體如公式(12)所示:

        D(C1,C2)=minq1∈C1,q2∈C2,(q1,q2)

        (12)

        式(12)中,C1和C2表示兩個(gè)不同的類簇,q1和q2表示不同類簇里面兩個(gè)樣本.

        綜上所述,算法IUND_HC的基本思想為:首先,基于人口統(tǒng)計(jì)學(xué)信息,利用層次聚類算法對用戶進(jìn)行聚類,將具有相似偏好的用戶聚到同一類簇內(nèi),方便冷啟動(dòng)用戶獲取初始近鄰用戶,通過對比不同聚類數(shù)目下的實(shí)驗(yàn)結(jié)果可知,當(dāng)聚類數(shù)目為3時(shí),本文算法的推薦結(jié)果達(dá)到最優(yōu).下面給出基于層次聚類的初始近鄰用戶確定的具體算法描述.

        算法1.基于層次聚類的初始近鄰用戶確定算法IUND_HC

        輸入:人口統(tǒng)計(jì)學(xué)數(shù)據(jù)矩陣Rg,類簇?cái)?shù)目t=3;

        輸出:用戶的聚類結(jié)果C.

        Begin

        1.Initialize(Rg);//將每個(gè)樣本(用戶)歸為一類;

        2.依據(jù)公式(11)計(jì)算每兩個(gè)樣本之間的距離;

        3.Repeat

        4. 將最近的兩個(gè)類歸為一類;

        5. 依據(jù)公式(12)計(jì)算新生成的類簇與每個(gè)已有類簇之間的距離;

        6.Untilt;

        7.ReturnC={c1,c2,…,ct};//返回新生成的t個(gè)類簇

        End

        3.3 算法CSRA-FH

        基于用戶的推薦算法(User-based Recommendation Algorithm)是協(xié)同過濾算法中常見的一種,它的中心思想是根據(jù)目標(biāo)用戶的最近鄰居對某個(gè)項(xiàng)目的評分來預(yù)測目標(biāo)用戶對該項(xiàng)目的評分.本節(jié)利用基于用戶的協(xié)同過濾推薦算法模型,結(jié)合3.1節(jié)提出的融合相似度計(jì)算方法和3.2節(jié)提出的基于層次聚類的初始近鄰用戶確定算法,設(shè)計(jì)基于融合相似度和層次聚類的冷啟動(dòng)推薦算法CSRA-FH.

        首先,通過對人口統(tǒng)計(jì)學(xué)信息、用戶對項(xiàng)目的評分信息和項(xiàng)目種類信息進(jìn)行深入挖掘,得到融合相似度計(jì)算方法;然后利用層次聚類將用戶分為不同的類簇,方便目標(biāo)用戶獲得初始近鄰用戶集合;再利用融合相似度計(jì)算方法對目標(biāo)用戶的初始近鄰用戶做進(jìn)一步的篩選,獲得最終的近鄰用戶集合,最后對目標(biāo)用戶作預(yù)測評分推薦,預(yù)測評分計(jì)算方法如公式(13)所示:

        (13)

        基于上述算法思想,給出用戶冷啟動(dòng)推薦算法CSRA-FH算法描述如下:

        算法2.用戶冷啟動(dòng)推薦算法CSRA-FH

        輸入:用戶-項(xiàng)目評分矩陣R,目標(biāo)用戶近鄰數(shù)目k,用戶人口統(tǒng)計(jì)學(xué)數(shù)據(jù)矩陣Rg,項(xiàng)目類型矩陣It,類簇?cái)?shù)目t;

        Begin

        1.similar_users←?;

        2.featureitem←count(R,It);//統(tǒng)計(jì)用戶的項(xiàng)目特征偏好;

        3.{c1,c2,…,ct}←IUND_HC(Rg,t);

        4.Fors=1 totdo

        5. Ifu∈{c1,c2,…,ct} then

        6. Forv∈{c1,c2,…,ct} andu≠vdo

        7.demsimilarity←dem_simu,v(Rg);

        8.presimilarity←pre_simu,v(featureitem);

        9.usersimilarity←user_simu,v(R);

        10.F_simu,v←α×user_simu,v+β×dem_simu,v+γ×pre_simu,v;

        11.similar_users←F_simu,v;

        12. End For

        13. End IF

        14.End For

        15.C1~k(u)←sort(similar_users);

        //將融合相似度從大到小排序,取前k個(gè)用戶

        End

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 數(shù)據(jù)集及評價(jià)標(biāo)準(zhǔn)

        1)數(shù)據(jù)集:本文采用MovieLens 100K數(shù)據(jù)集.該數(shù)據(jù)集總共有10萬條評分記錄,包含943個(gè)用戶以及1682部電影.用戶的評分范圍在1~5分,5分表示用戶對某部電影非常喜歡,如果用戶沒有看過或者沒有評價(jià)這部電影,相應(yīng)的評分記為0.

        本文首先在943個(gè)用戶中按20%的比例抽取評分記錄最少的用戶作為冷啟動(dòng)用戶,然后針對每個(gè)冷啟動(dòng)用戶隨機(jī)抽取10個(gè)項(xiàng)目評分,將抽出來的項(xiàng)目評分組成測試集,最后將冷啟動(dòng)用戶的其余評分記錄和剩余80%的用戶評分記錄作為訓(xùn)練集.

        在MovieLens數(shù)據(jù)集中,除了用戶評分?jǐn)?shù)據(jù),還包括用戶的人口統(tǒng)計(jì)學(xué)信息,它包括年齡、性別、職業(yè)和郵編(表示用戶的地理位置)4個(gè)屬性.本文在計(jì)算用戶基于人口統(tǒng)計(jì)學(xué)信息的相似度時(shí),使用年齡、性別以及職業(yè)三個(gè)維度的信息.其中,用戶年齡的范圍是7~73歲,職業(yè)總共有21種.在量化職業(yè)信息時(shí),因?yàn)榫哂邢嘟殬I(yè)的用戶相似程度是比較高的.因此,首先將21種職業(yè)進(jìn)行分類,然后同一個(gè)類別用統(tǒng)一的數(shù)值表示.本文將21種職業(yè)分為10個(gè)種類,分別用5~14來進(jìn)行量化.同時(shí)對于人口統(tǒng)計(jì)學(xué)信息中的年齡信息,本文也將其劃分為4個(gè)不同的階段,分別用1~4進(jìn)行量化.性別信息只有兩種,因此用兩種不同的數(shù)值分別表示即可.職業(yè)信息量化表示如表1所示:

        表1 職業(yè)信息量化表

        2)評價(jià)標(biāo)準(zhǔn):評價(jià)推薦算法的推薦精度主要有平均絕對誤差MAE和均方根誤差RMSE這兩個(gè)指標(biāo),二者的值越小,說明算法的推薦效果越好.

        (14)

        (15)

        4.2 參數(shù)設(shè)置

        在本文提出的融合相似度計(jì)算公式中,權(quán)重α、β和γ對推薦算法的性能尤為重要,因此,我們采用實(shí)驗(yàn)的手段對權(quán)重α、β和γ的取值進(jìn)行設(shè)置.

        從已經(jīng)劃分好的測試集中隨機(jī)抽取50%的用戶,將這些用戶的評分記錄作為驗(yàn)證集(剩余的用戶評分記錄作為4.3節(jié)實(shí)驗(yàn)使用的最終測試集),采用已劃分好的訓(xùn)練集進(jìn)行參數(shù)設(shè)置的實(shí)驗(yàn).首先將α、β和γ三者的取值范圍均確定在0.1~0.8之間,且α+β+γ=1,然后對α、β和γ進(jìn)行不同的取值,每次取值的間隔為0.1.

        根據(jù)以上設(shè)計(jì),針對算法CSRA-FH進(jìn)行多次實(shí)驗(yàn),算法的推薦精度(MAE)結(jié)果如表2所示.

        表2 算法CSRA-FH在不同權(quán)重下的MAE值

        從表2可以看出,當(dāng)權(quán)重α、β和γ值分別為0.4、0.5和0.1時(shí),算法CSRA-FH的MAE值最小,由于MAE值越小,推薦精度越高,所以我們設(shè)置α=0.4、β=0.5、γ=0.1.

        4.3 對比實(shí)驗(yàn)結(jié)果分析

        為了評價(jià)本文提出的基于融合相似度和層次聚類的冷啟動(dòng)推薦算法(CSRA-FH)的性能,將其與以下3種推薦算法進(jìn)行了實(shí)驗(yàn)對比及分析,具體結(jié)果如圖2和圖3所示.

        圖2 不同鄰居個(gè)數(shù)下4種算法的MAE值

        圖3 不同鄰居個(gè)數(shù)下4種算法的RMSE值

        1)UBCF:傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法.

        2)NPBM:文獻(xiàn)[26]提出基于統(tǒng)計(jì)用戶偏好的推薦算法.

        3)UCKF:文獻(xiàn)[27]提出改進(jìn)基于用戶聚類的推薦算法.

        從圖2和圖3中可以看出,在鄰居個(gè)數(shù)為50的時(shí)候,4種算法的MAE和RMSE值都達(dá)到各自的最小值,但是本文所提出的算法CSRA_FH的MAE和RMSE值要明顯小于其他3種對比算法.相比算法UBCF、算法NPBM和算法UCKF,算法CSRA_FH在MAE值上分別降低了2.9%、2.4%和2.7%,在RMSE值上分別降低了2.6%、3.0%和2.4%.由于MAE值和RMSE值越小,算法的推薦效果越好,因此,算法CSRA-FH在冷啟動(dòng)環(huán)境下的推薦效果是最優(yōu)的.主要原因是在非純冷啟動(dòng)的情況下,算法CSRA-FH除了根據(jù)少量的用戶評分記錄挖掘出用戶的興趣偏好,還提出了基于人口統(tǒng)計(jì)學(xué)信息的相似度計(jì)算方法和基于動(dòng)態(tài)調(diào)整的用戶相似度計(jì)算方法,最后將三者進(jìn)行融合,提高了用戶相似度計(jì)算的合理性及準(zhǔn)確性;除此之外,在不依靠更多的數(shù)據(jù)信息之下,利用層次聚類根據(jù)人口統(tǒng)計(jì)學(xué)信息初步確定目標(biāo)用戶的近鄰用戶,然后根據(jù)改進(jìn)后獲得的融合相似度進(jìn)一步確定近鄰用戶,使得整體的推薦效果得到優(yōu)化,同時(shí)提升了算法效率.

        5 結(jié) 語

        本文提出了一種推薦算法用于解決協(xié)同過濾推薦系統(tǒng)中存在的用戶冷啟動(dòng)問題.該算法首先在對用戶的人口統(tǒng)計(jì)學(xué)信息、評分信息和項(xiàng)目種類信息進(jìn)行深入挖掘、對傳統(tǒng)的評分相似度計(jì)算模型加以改進(jìn)的基礎(chǔ)上,提出了融合相似度計(jì)算模型.然后利用層次聚類方法初步確定冷啟動(dòng)用戶的近鄰.最后將融合相似度融入到基于用戶的推薦模型中對目標(biāo)用戶進(jìn)行推薦.實(shí)驗(yàn)結(jié)果表明所提算法在一定程度上緩解了用戶冷啟動(dòng)問題.本文的研究還存在一定的不足,如模型參數(shù)的選取采用實(shí)驗(yàn)的方式來確定,在后面的研究過程中,可以嘗試構(gòu)建一種自動(dòng)確定參數(shù)的算法.

        猜你喜歡
        融合用戶信息
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        展會(huì)信息
        久久精品国产亚洲av天美| 无码AV高潮喷水无码专区线| 亚洲第一无码精品久久| 亚洲成av在线免费不卡| 国产一区二区三区av免费| 天堂网www资源在线| 国产人澡人澡澡澡人碰视频| 国产精品国产午夜免费福利看| 美腿丝袜视频在线观看| 国产熟妇疯狂4p交在线播放| 成人性做爰aaa片免费看| 中文字幕久久久久久久系列| 国产优质av一区二区三区| 国产精品婷婷久久爽一下| 国产精品嫩草影院av| 国产乱子伦精品免费女| 国产精品国产三级国a| 欧美性猛交99久久久久99按摩| 精品国产一区二区三区av 性色 | 久久无码av中文出轨人妻| 亚洲国产精品国自产电影| 亚洲综合天堂av网站在线观看| 久久精品国产熟女亚洲| 蜜桃麻豆www久久囤产精品| 老汉tv永久视频福利在线观看 | 亚洲五月婷婷久久综合| 国产亚洲中文字幕久久网| 男人的天堂av网站| 国产成人无码区免费网站| 国产美女自拍国语对白| 91色老久久偷偷精品蜜臀懂色 | 亚洲国产精品成人久久久| 欧美性开放bbw| 国产成人av综合色| 亚洲av专区国产一区| 99亚洲男女激情在线观看| 亚洲熟妇网| 有码视频一区二区三区| 久久久www成人免费毛片| 色诱久久av| 久久2020精品免费网站|