亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合聚類與融合用戶興趣的協(xié)同過(guò)濾推薦算法*

        2022-04-19 10:49:22余本國(guó)宋文愛(ài)
        電子技術(shù)應(yīng)用 2022年4期
        關(guān)鍵詞:相似性標(biāo)簽聚類

        麻 天 ,余本國(guó) ,張 靜 ,宋文愛(ài) ,景 昱

        (1.中北大學(xué) 軟件學(xué)院,山西 太原 030051;2.山西省軍民融合軟件工程技術(shù)研究中心,山西 太原 030051;3.海南醫(yī)學(xué)院 生物醫(yī)學(xué)信息與工程學(xué)院,海南 ???571199)

        0 引言

        在信息快速發(fā)展的現(xiàn)代社會(huì)中,推薦算法已經(jīng)普遍出現(xiàn)在人們的生活中,給人類生活無(wú)形中帶來(lái)巨大便利[1],如短視頻推薦[2]、音樂(lè)歌曲推薦[3]、新聞信息推薦[4]。協(xié)同過(guò)濾推薦算法在工程上更容易實(shí)現(xiàn)。該算法分為兩類:基于用戶的協(xié)同過(guò)濾推薦算法(user-based collaborative filtering)和基于項(xiàng)目的協(xié)同過(guò)濾推薦算法(item-based collaborative filtering)[5]。簡(jiǎn)言之:物以類聚,人以群分。雖然協(xié)同過(guò)濾推薦算法與其他推薦算法相比有很多優(yōu)點(diǎn),但解決推薦效率低、推薦質(zhì)量低、冷啟動(dòng)和稀疏矩陣等問(wèn)題一直是研究者不斷努力改進(jìn)的方向[6]。其中在計(jì)算不同用戶之間的相似性時(shí)也存在很多問(wèn)題,相似度計(jì)算不精準(zhǔn)是影響推薦準(zhǔn)確性的一個(gè)關(guān)鍵因素[1]。

        很多研究學(xué)者提出很多方法改進(jìn)以上存在的問(wèn)題。趙偉等在傳統(tǒng)K-means 聚類算法的基礎(chǔ)上做了改進(jìn),有效地解決了有關(guān)用戶聚類的一些問(wèn)題[7]。王蓉等提出了一種混合聚類與融合屬性特征的協(xié)同過(guò)濾推薦算法,在一定程度上能提高推薦效率,解決冷啟動(dòng)問(wèn)題,為聚類算法在推薦系統(tǒng)中的研究開(kāi)辟了新思路[6]。

        本文依據(jù)上述學(xué)者的思路,改進(jìn)了算法,通過(guò)建立Canopy+bi-Kmeans 混合聚類模型[8]和一種改進(jìn)的相似度計(jì)算方法,提出一種基于混合聚類與融合用戶偏好的協(xié)同過(guò)濾推薦算法,從而可以達(dá)到提高推薦可靠性、提高推薦精度的效果。利用MovieLens 數(shù)據(jù)集進(jìn)行試驗(yàn)得出結(jié)果表明,該算法不僅能有效解決存在的冷啟動(dòng)問(wèn)題,而且可提高推薦算法效率。

        1 Canopy+bi-Kmeans 混合聚類算法

        1.1 Canopy 算法

        首先利用Canopy 算法對(duì)數(shù)據(jù)集進(jìn)行一次聚類,這種算法有利有弊,不需要指定k 值,可以快速得到聚類簇,但是精度較低[9]。算法過(guò)程如下:

        (1)從原始數(shù)據(jù)中生成樣本列表X=[x1,x2,…,xm],在設(shè)定初始距離閾值T1、T2時(shí),通過(guò)兩種方式調(diào)整參數(shù):先驗(yàn)知識(shí)和交叉驗(yàn)證,且T1>T2。

        (2)選取Canopy 質(zhì)心。從列表X 中任選一個(gè)樣本,令第一個(gè)樣本為P,并將P 從列表中刪除。

        (3)從列表X 中隨機(jī)選取一個(gè)樣本R,計(jì)算R 到所有Canopy 質(zhì)心的距離,判斷其中最小的距離D:如果D≤T1,則令R 為一個(gè)弱標(biāo)記,表示R 屬于該質(zhì)心,并將R 加入其中;如果D≤T2,則將R 進(jìn)行強(qiáng)標(biāo)記,表示R 屬于該質(zhì)心,更新強(qiáng)樣本標(biāo)記質(zhì)心,并將樣本R 從列表X 中移除[10];如果D>T1,則R 形成一個(gè)新的聚簇,并將R 從列表X 中刪除。

        (4)若列表X 中元素個(gè)數(shù)不為零,則不斷重復(fù)上述步驟(3)。

        1.2 bi-Kmeans 算法

        bi-Kmeans(bisecting K-means)聚類算法受隨機(jī)選擇初始質(zhì)心的影響比較小,改進(jìn)K-means算法隨機(jī)選擇初始質(zhì)心的隨機(jī)性造成聚類結(jié)果不確定性的問(wèn)題。簡(jiǎn)言之:“高內(nèi)聚,低耦合”。意思是讓每個(gè)類簇之間要有明顯的界限,類簇內(nèi)部的點(diǎn)要團(tuán)結(jié)緊湊[11]。bi-Kmeans 算法步驟如下:

        (1)從原始樣本集合中隨機(jī)取k 個(gè)初始中心點(diǎn)。

        (2)以這k 個(gè)中心點(diǎn)為標(biāo)準(zhǔn),計(jì)算所有樣本點(diǎn)到中心的距離,計(jì)算后將其加入到距離最近的類簇。這樣每個(gè)樣本都有自己的簇了。

        (3)重新計(jì)算每個(gè)簇中的樣本中心點(diǎn),如果中心點(diǎn)未發(fā)生變化轉(zhuǎn)到步驟(4),發(fā)生變化回到步驟(2)。

        (4)得出結(jié)果。

        輸出:劃分出的聚類簇以及聚類中心。

        在選擇聚類時(shí),利用SSE(Sum of Squared Error)當(dāng)作度量聚類效果的指標(biāo)。不同聚類算法對(duì)比見(jiàn)表1。

        表1 不同聚類算法對(duì)比

        從表1 以直觀地發(fā)現(xiàn),bi-Kmeans 計(jì)算出來(lái)的SSE值最小,并且趨于穩(wěn)定值,說(shuō)明聚類的效果也最好。因此,本文選用bi-Kmeans 這個(gè)聚類方法。

        1.3 Canopy+bi-Kmeans 算法

        Canopy+bi-Kmeans 這個(gè)聚類組合有很多優(yōu)點(diǎn),如增強(qiáng)了單獨(dú)聚類抗干擾的能力,加快了相似性計(jì)算的速率。Canopy+bi-Kmeans 算法流程圖如圖1 所示。

        圖1 Canopy+bi-Kmeans 算法流程圖

        2 計(jì)算用戶偏好相似性

        2.1 計(jì)算用戶偏好

        通常用戶會(huì)根據(jù)個(gè)人的興趣對(duì)項(xiàng)目打分。文獻(xiàn)[12]簡(jiǎn)單地根據(jù)標(biāo)簽的數(shù)量來(lái)判斷用戶的偏好,從而使得當(dāng)前潮流標(biāo)簽權(quán)重過(guò)高使得某些用戶選擇冷門標(biāo)簽時(shí)無(wú)法得到更準(zhǔn)確的推薦,未能將用戶的興趣偏好充分展現(xiàn)出來(lái)。這對(duì)上述問(wèn)題,本文利用TF-IDF 的方法對(duì)用戶偏好進(jìn)行計(jì)算。

        TF-IDF 用計(jì)量統(tǒng)計(jì)的方式來(lái)評(píng)估某個(gè)關(guān)鍵詞在其所在的語(yǔ)料庫(kù)中的重要性[13],公式如下:

        其中,Pua表示用戶u 對(duì)項(xiàng)目標(biāo)簽a 的偏好值,Pua值與偏好程度成正比;n 表示項(xiàng)目總數(shù),s 表示項(xiàng)目標(biāo)簽總數(shù);表示用戶u 標(biāo)注標(biāo)簽a 的次數(shù),表示用戶u 標(biāo)注的總次數(shù);numm表示用戶總數(shù),numua表示標(biāo)注過(guò)標(biāo)簽a 的用戶數(shù);表示標(biāo)簽總數(shù),表示標(biāo)簽a 的總數(shù)。

        由式(1)可以看出,用戶選擇的標(biāo)簽被用戶選得少并且此標(biāo)簽占整個(gè)標(biāo)簽集合的比重越小,這樣就能在一定程度上明確用戶偏好,從而提高推薦效率。

        2.2 融合時(shí)間系數(shù)的衰減函數(shù)

        傳統(tǒng)的推薦算法對(duì)用戶標(biāo)簽偏好常用靜態(tài)標(biāo)簽標(biāo)識(shí),一般用0 和1 來(lái)表示。這樣可以明顯看出在任何時(shí)候這些標(biāo)簽所起到的推薦作用都是相同的,對(duì)于某些時(shí)效性較強(qiáng)的推薦并不能起到較好的推薦效果。例如:某用戶以前喜歡古典音樂(lè),現(xiàn)在喜歡流行音樂(lè),如果不考慮用戶興趣偏好隨時(shí)間變化就會(huì)導(dǎo)致推薦不貼合用戶偏好[14]。在實(shí)際中用戶的興趣往往是處于動(dòng)態(tài)變化中的[15]。相對(duì)于早期的用戶行為,近期的用戶行為對(duì)于推薦更有意義,因此將用戶近期的標(biāo)簽給予較高的權(quán)重,從而使推薦更具有時(shí)效性,提高推薦效率。本文引入一種衰減函數(shù)并且融入時(shí)間系數(shù)來(lái)充分貼合用戶興趣偏好隨時(shí)間的變化,公式如下:

        其中,Tui∈(0,1),代表用戶u 對(duì)項(xiàng)目i 的時(shí)間權(quán)重;Ts表示時(shí)間窗口參數(shù),其值表示用戶偏好興趣持續(xù)時(shí)間;tnow表示當(dāng)前做推薦的時(shí)間,tui表示用戶對(duì)項(xiàng)目作出評(píng)價(jià)的時(shí)間;Tatt是時(shí)間衰減參數(shù),代表興趣偏好衰減速率;表示對(duì)計(jì)算結(jié)果進(jìn)行上舍入處理,Ts×表示用戶評(píng)價(jià)項(xiàng)目時(shí)間所處的時(shí)間段。若用戶在一周的時(shí)間內(nèi)興趣偏好基本沒(méi)變,則認(rèn)為該用戶興趣保持穩(wěn)定的周期為7 天,即Ts=7。若用戶評(píng)價(jià)完項(xiàng)目后在7 天內(nèi)進(jìn)行推薦,即tnow-tui≤7,則用戶興趣在第8 天后才開(kāi)始衰減,每7 天為一個(gè)衰減周期,衰減周期內(nèi)衰減系數(shù)相同。

        2.3 計(jì)算用戶偏好相似性

        根據(jù)前文分析,在利用TF-IDF 方法計(jì)算用戶興趣偏好時(shí)加入融入時(shí)間系數(shù)的衰減函數(shù)得出用戶興趣偏好,更新用戶標(biāo)簽矩陣中的值,公式如下:

        最后歸一化歐式距離,公式如下:

        2.4 融合用戶屬性相似度

        在計(jì)算相似度時(shí),采用常規(guī)的相似的算法不會(huì)將不同用戶的個(gè)人屬性進(jìn)行相似性對(duì)比,如性別和年齡等屬性。因此,本文考慮了上述用戶屬性,并且將這些基本的用戶屬性融入到相似度計(jì)算中。

        (1)年齡屬性相似度,公式如下:

        其中,u 和v 分別代表兩個(gè)用戶,N(u,v)的取值范圍為[0,1]之間,值越小相似度越小;nu和nv分別為用戶u 和v 的年齡。

        (2)性別屬性相似度,公式如下:

        其中,u 和v 代表不同的用戶,Xu和Xv分別是用戶u 和v 的性別。

        (3)根據(jù)上述用戶性別和年齡屬性相似度,根據(jù)實(shí)際情況分別給予不同的權(quán)重得出用戶屬性相似度,公式如下:

        其中,權(quán)重系數(shù)α∈[0,1],在不同的推薦場(chǎng)景和領(lǐng)域中可以根據(jù)實(shí)際情況對(duì)α 值進(jìn)行調(diào)整。

        3 融合用戶興趣的協(xié)同過(guò)濾推薦算法

        首先通過(guò)對(duì)sim1(u,v)和sim2(u,v)線性組合,將用戶興趣偏好和屬性融合得到綜合相似度,得到一種新的相似度計(jì)算模型,公式如下:

        式中,λ∈[0,1]為權(quán)重系數(shù),sim(u,v)值與兩個(gè)用戶的相似性成反比關(guān)系。

        然后對(duì)項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè),最后進(jìn)行推薦,公式如下:

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)采用開(kāi)源的數(shù)據(jù)集MovieLens-1M。實(shí)驗(yàn)中使用交叉驗(yàn)證方式對(duì)用戶評(píng)分進(jìn)行預(yù)測(cè)。

        4.2 評(píng)估指標(biāo)

        經(jīng)過(guò)多輪訓(xùn)練減小評(píng)分誤差,獲得最優(yōu)參數(shù)推薦模型。常用評(píng)價(jià)指標(biāo)是平均絕對(duì)誤差(MAE),這種誤差計(jì)算方式見(jiàn)式(10):

        其中,rui為用戶u 對(duì)項(xiàng)目i 的真實(shí)評(píng)分,Pui為用戶u 對(duì)于項(xiàng)目i 的預(yù)測(cè)評(píng)分。分母為測(cè)試集,分子為用戶u 對(duì)項(xiàng)目i 真實(shí)評(píng)分和預(yù)測(cè)分?jǐn)?shù)的差值。通過(guò)計(jì)算Test 中Pui與rui的平均絕對(duì)誤差,評(píng)估模型的性能。

        4.3 結(jié)果分析

        首先確定本文涉及到的參數(shù)值,參數(shù)分別為:Ts、Tatt和λ。

        實(shí)驗(yàn)1:通過(guò)MAE 值來(lái)確定時(shí)間窗口參數(shù)Ts的值。如圖2 所示,在K=50 時(shí),Tatt=20、Tatt=40、Tatt=60、Tatt=80、Tatt=100 的條件下,MAE 的值的變化趨勢(shì)都是先降后升。當(dāng)Tatt=40,Ts=4 時(shí),MAE 值最??;當(dāng)Tatt=100,Ts=5 時(shí),MAE值最小;當(dāng)Tatt分別為20、60 和80,Ts=6 時(shí),MAE 值最小。令Ts=6 來(lái)進(jìn)行后續(xù)的實(shí)驗(yàn),即用戶的興趣偏好的變化周期為6 天。

        圖2 不同Ts 值對(duì)應(yīng)的MAE 值

        實(shí)驗(yàn)2:判定Tatt的值。如圖3 所示,在K=50,Ts=6時(shí),Tatt=30、Tatt=40、Tatt=50、Tatt=60、Tatt=70、Tatt=80、Tatt=90時(shí),MAE 的值先下降;到Tatt=60 時(shí),MAE 值達(dá)到最低,然后上升。所以令Tatt=60,進(jìn)行后續(xù)實(shí)驗(yàn)。

        圖3 不同Tatt 值對(duì)應(yīng)的MAE

        實(shí)驗(yàn)3:確定式(8)中參數(shù)λ 的值。當(dāng)λ=1 時(shí),sim(u,v)=sim1(u,v),表示只利用用戶的興趣偏好來(lái)計(jì)算用戶之間的相似性;當(dāng)λ=0 時(shí),sim(u,v)=sim2(u,v),表示僅利用用戶的屬性計(jì)算用戶之間的相似性。如圖4 所示,在K=20、K=40、K=60、K=80 時(shí),MAE 值先下降后上升;當(dāng)λ=0.4 時(shí),MAE 值最小,推薦效果最好。

        圖4 不同λ 對(duì)應(yīng)的MAE 值

        實(shí)驗(yàn)4:在近鄰不同的情況下,比較了不同推薦算法的推薦性能,其中包括將基于用戶的協(xié)同過(guò)濾推薦算法(UBCF)[16]、基于K-means 聚類的協(xié)同過(guò)濾推薦算法(K-means UBCF)[17]、基于Canopy+K-means 混合聚類的協(xié)同過(guò)濾推薦算法(Canopy+K-means UBCF)與本文提出的算法進(jìn)行了對(duì)比。得出的實(shí)驗(yàn)結(jié)果如圖5 所示。

        圖5 不同算法對(duì)應(yīng)的MAE 值

        由圖5 可知,隨著目標(biāo)用戶最近鄰居個(gè)數(shù)的增加,實(shí)驗(yàn)中所用的UBCF、K-means UBCF、Canopy+K-means UBCF 和本文所提出的算法的MAE 值都會(huì)逐漸降低并趨于一個(gè)穩(wěn)定值。由圖5 可以直觀地發(fā)現(xiàn),本文所提出的算法相對(duì)于其他3 種算法推薦準(zhǔn)確度最高。例如,當(dāng)最近鄰居個(gè)數(shù)為35 時(shí),Canopy+K-means UBCF 的MAE 值為0.758,同樣條件下本文所提出的算法的MAE 值為0.741,推薦效果提升了1.7%。

        5 結(jié)論

        本文提出一種基于混合聚類與融合用戶偏好的協(xié)同過(guò)濾推薦算法,通過(guò)建立Canopy+bi-Kmeans 混合聚類模型并且將傳統(tǒng)的相似性度量算法中加入用戶屬性和用戶興趣偏好。實(shí)驗(yàn)結(jié)果表明,本文提出的基于混合聚類與融合用戶偏好的協(xié)同過(guò)濾推薦算法在一定程度上提高了推薦可靠性。由于本文的算法是在各方面條件較為理想的環(huán)境下實(shí)現(xiàn)的,其魯棒性和穩(wěn)定性有待提高,因此下一步的工作是將該算法運(yùn)用到現(xiàn)實(shí)項(xiàng)目中,并且不斷追求更高的推薦效率。

        猜你喜歡
        相似性標(biāo)簽聚類
        一類上三角算子矩陣的相似性與酉相似性
        淺析當(dāng)代中西方繪畫(huà)的相似性
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于DBSACN聚類算法的XML文檔聚類
        低滲透黏土中氯離子彌散作用離心模擬相似性
        標(biāo)簽化傷害了誰(shuí)
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        亚洲AV无码乱码1区久久| 女主播国产专区在线观看| 最好的99精品色视频大全在线| 蜜桃尤物在线视频免费看| 成 人色 网 站 欧美大片在线观看 | 色综合av综合无码综合网站| 天堂а√在线最新版中文在线| 无码人妻精品一区二区三区不卡 | 蜜桃免费一区二区三区| 妺妺窝人体色777777| 亚洲一区自拍高清亚洲精品| 久久国产色av| 无码丰满熟妇浪潮一区二区av| 熟女免费视频一区二区| 亚洲男人天堂一区二区| 中国丰满熟妇xxxx性| 国产人碰人摸人爱视频| 国产亚洲精品国产福利在线观看| 天天综合色中文字幕在线视频| 极品尤物在线精品一区二区三区| 午夜免费视频| 亚洲 欧美 唯美 国产 伦 综合| 亚洲av偷拍一区二区三区| 亚洲高清三区二区一区| 天天综合网天天综合色| 四虎成人精品国产一区a| 成人自拍三级在线观看| 西西午夜无码大胆啪啪国模| 婷婷四房色播| 在线观看国产精品自拍| 国产香蕉一区二区三区在线视频| 亚洲日韩精品无码专区网站| 久久精品久久精品中文字幕 | 国产二区中文字幕在线观看| 日本一二三区视频在线| 久久国产精品波多野结衣av| 中文字幕av久久激情亚洲精品| 国产精品蝌蚪九色av综合网| 中文字幕av一区中文字幕天堂| 久久丁香花综合狼人| 亚洲一区二区日韩精品|