亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多重相似度和CatBoost的個(gè)性化推薦

        2023-10-12 01:29:18楊懷珍
        關(guān)鍵詞:決策樹精度協(xié)同

        楊懷珍,張 靜,李 雷

        (1.桂林電子科技大學(xué) 商學(xué)院,廣西 桂林 541004;2.桂林理工大學(xué) 商學(xué)院,廣西 桂林 541004)

        0 引 言

        推薦系統(tǒng)通過(guò)挖掘用戶歷史行為數(shù)據(jù)如購(gòu)買記錄、評(píng)分信息等進(jìn)行個(gè)性化推薦,從而緩解“信息過(guò)載”問題[1,2]。協(xié)同過(guò)濾算法[3,4]通過(guò)分析“用戶-項(xiàng)目”評(píng)分矩陣實(shí)現(xiàn)推薦。但由于歷史數(shù)據(jù)存在稀疏性導(dǎo)致其推薦精度低[5],針對(duì)該問題,王建芳等[6]聯(lián)合用戶間協(xié)同相似度、偏好相似度和具有時(shí)序的用戶興趣信息預(yù)測(cè)評(píng)分。張潤(rùn)蓮等[7]將多種相似度加權(quán)構(gòu)造混合相似度并通過(guò)K-means聚類分析來(lái)提高協(xié)同過(guò)濾推薦算法的精度。張怡文等[8]通過(guò)分析用戶偏好,提出了雙極協(xié)同過(guò)濾算法。任永功等[9]利用相似物品評(píng)分信息對(duì)稀疏的用戶評(píng)分矩陣進(jìn)行填充,然后計(jì)算近鄰用戶對(duì)評(píng)分矩陣進(jìn)一步進(jìn)行填充。Shi等[10]利用奇異值分解加加模型探討用戶可靠性和受歡迎程度等內(nèi)部因素對(duì)推薦性能的影響。Nahta等[11]在協(xié)同過(guò)濾算法中嵌入元數(shù)據(jù),Liu等[12]K-means聚類分析提取新聞內(nèi)容特征并考慮新聞的受歡迎程度結(jié)合奇異值分解技術(shù)以解決協(xié)同過(guò)濾算法的數(shù)據(jù)矩陣稀疏問題。Panda等[13]提出了基于規(guī)范化的協(xié)同過(guò)濾算法。這類方法的實(shí)時(shí)性較差,主要應(yīng)用在數(shù)據(jù)量相對(duì)較小的場(chǎng)合。

        近年來(lái),一些學(xué)者[14,15]將機(jī)器學(xué)習(xí)算法與協(xié)同過(guò)濾算法相結(jié)合,提出了基于模型的協(xié)同過(guò)濾算法。Chen等[16]利用神經(jīng)網(wǎng)絡(luò)解決了單對(duì)相互作用問題。李凌等[17]利用隨機(jī)森林在不同子區(qū)域篩選特征,并由協(xié)同過(guò)濾算法進(jìn)行推薦。程明月等[18]利用貝葉斯模型對(duì)協(xié)同過(guò)濾算法進(jìn)行優(yōu)化,提升了其預(yù)測(cè)準(zhǔn)確性。神經(jīng)網(wǎng)絡(luò)具有良好的非線性逼近特性,王玉珍等[19]結(jié)合協(xié)同過(guò)濾算法和徑向基神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)推薦算法。Fu等[20]將受限玻爾茲曼機(jī)與協(xié)同過(guò)濾算法相結(jié)合用于設(shè)計(jì)推薦算法。以上算法通過(guò)挖掘歷史數(shù)據(jù)的深層特征,可緩解數(shù)據(jù)稀疏性對(duì)模型的影響,然而特征提取過(guò)程耗時(shí)較多且僅采用“用戶-項(xiàng)目”交互數(shù)據(jù)。

        針對(duì)以上問題,文中在評(píng)分矩陣中融入項(xiàng)目元數(shù)據(jù)并由大規(guī)模信息嵌入網(wǎng)絡(luò)(large-scale information network embedding,LINE)求解混合相似矩陣的精確近鄰集,將其輸入CatBoost預(yù)測(cè)項(xiàng)目評(píng)分并利用Top-N推薦項(xiàng)目。采用MovieLens數(shù)據(jù)集對(duì)評(píng)估其性能并與結(jié)合徑向基神經(jīng)網(wǎng)絡(luò)的協(xié)同過(guò)濾(collaborative filtering combined with radial basis function neural network,RBF-CF)、結(jié)合XGBoost的協(xié)同過(guò)濾(collaborative filtering combined with extreme gradient boosting,XGB-CF)、基于用戶的協(xié)同過(guò)濾(user-based collaborative filtering,UCF)和CatBoost進(jìn)行對(duì)比。

        1 推薦方法

        1.1 協(xié)同過(guò)濾

        協(xié)同過(guò)濾算法廣泛地應(yīng)用在各類推薦系統(tǒng)中,其依據(jù)用戶或項(xiàng)目的歷史信息實(shí)現(xiàn)最終的推薦。整個(gè)協(xié)同過(guò)濾推薦算法主要分為:評(píng)分矩陣構(gòu)建、相似度矩陣構(gòu)建和項(xiàng)目推薦3個(gè)階段,相似度矩陣的構(gòu)建處于核心地位,其好壞決定了推薦算法的精度。常見的相似度計(jì)量函數(shù)見表1。

        1.2 結(jié)合CatBoost的協(xié)同過(guò)濾算法

        CatBoost[21]是以梯度提升決策樹(gradient boosted decision tree,GBDT)框架為核心的集成學(xué)習(xí)方法,具有參數(shù)量少、穩(wěn)健性強(qiáng)等優(yōu)點(diǎn),常用于處理類別型變量。其通過(guò)將樣本特征組合達(dá)到利用樣本特征間信息的目的并采用排序提升的方法對(duì)數(shù)據(jù)進(jìn)行處理降低樣品數(shù)據(jù)中噪聲對(duì)模型的影響。此外,該方法可解決模型過(guò)擬合的問題,提升其準(zhǔn)確性及泛化能力。協(xié)同過(guò)濾算法能夠依據(jù)用戶的歷史數(shù)據(jù)實(shí)現(xiàn)目標(biāo)用戶感興趣項(xiàng)目的推薦。文中結(jié)合多重相似度分析和CatBoost提出了一種全新的推薦算法,其流程如圖1所示。該算法具有較高的推薦精度和較強(qiáng)的穩(wěn)定性,能夠?yàn)橛脩魷?zhǔn)確推薦其感興趣項(xiàng)目。

        與傳統(tǒng)協(xié)同過(guò)濾算法的不同之處在于,該算法首先對(duì)項(xiàng)目元數(shù)據(jù)和評(píng)分?jǐn)?shù)據(jù)進(jìn)行哈夫曼編碼,將項(xiàng)目元數(shù)據(jù)和用戶評(píng)分?jǐn)?shù)據(jù)利用修正的余弦函數(shù)求出對(duì)應(yīng)的相似度矩陣,并將得到的結(jié)果進(jìn)行融合;然后采用LINE提取混合相似矩陣的精確近鄰集并利用Skip-Gram提取其深層特征作為CatBoost的輸入對(duì)項(xiàng)目未知評(píng)分進(jìn)行預(yù)測(cè)。

        階段一:編碼及相似性分析

        傳統(tǒng)的協(xié)同過(guò)濾算法直接對(duì)原始數(shù)據(jù)進(jìn)行處理,會(huì)增加算法運(yùn)行時(shí)間。文中采用對(duì)項(xiàng)目元數(shù)據(jù)和評(píng)分?jǐn)?shù)據(jù)進(jìn)行哈夫曼編碼,以達(dá)到縮減運(yùn)行時(shí)間的目的。

        (1)評(píng)分?jǐn)?shù)據(jù)編碼及相似性分析

        假設(shè)Ui為用戶i,Ij為項(xiàng)目j,P={xi,j} 為用戶i對(duì)項(xiàng)目j的評(píng)分,則構(gòu)成的評(píng)分矩陣P見表2。

        表2 用戶-項(xiàng)目評(píng)分矩陣

        (1)

        (2)項(xiàng)目元數(shù)據(jù)編碼及相似性分析

        (2)

        (3)混合矩陣相似性分析

        大規(guī)模信息嵌入網(wǎng)絡(luò)(large-scale information network embedding,LINE)通過(guò)求解描述一階、二階鄰近關(guān)系目標(biāo)函數(shù)的解作為節(jié)點(diǎn)的近鄰節(jié)點(diǎn),這樣可以緩解稀疏數(shù)據(jù)對(duì)模型性能的影響。在LINE中相似數(shù)據(jù)結(jié)點(diǎn)關(guān)系如圖2所示,其主要有以下兩種類型:①直接相連接的結(jié)點(diǎn)5和結(jié)點(diǎn)7相似,這類結(jié)點(diǎn)主要位于網(wǎng)絡(luò)頂點(diǎn),采用1階鄰近關(guān)系模型進(jìn)行衡量;②共享較多數(shù)量的鄰近節(jié)點(diǎn)5和節(jié)點(diǎn)6相似,采用2階鄰近關(guān)系模型進(jìn)行衡量。

        圖2 LINE網(wǎng)絡(luò)中相似結(jié)點(diǎn)

        一階鄰近關(guān)系模型:以混合相似矩陣Λ中項(xiàng)目為節(jié)點(diǎn)構(gòu)建網(wǎng)絡(luò),任選網(wǎng)絡(luò)中節(jié)點(diǎn)vi和vj, 則其一階鄰近關(guān)系概率為

        (3)

        (4)

        (5)

        最終求解目標(biāo)函數(shù)g1的最小值

        (6)

        二階鄰近關(guān)系模型:二階鄰近關(guān)系模型主要用于判別共享鄰近節(jié)點(diǎn)的相似度。通常,網(wǎng)絡(luò)中節(jié)點(diǎn)還包含其它節(jié)點(diǎn)“上下文”,故首先采用節(jié)點(diǎn)vi計(jì)算節(jié)點(diǎn)vk生成的概率

        (7)

        (8)

        最終求解目標(biāo)函數(shù)g2的最小值

        (9)

        階段二:特征向量提取

        (10)

        為求解其精確近鄰集,對(duì)上式兩邊取對(duì)數(shù),即

        (11)

        (12)

        依據(jù)最小化式(12)對(duì)中心詞向量進(jìn)行優(yōu)化,求解出節(jié)點(diǎn)vi的精確集Fvi。

        階段三:預(yù)測(cè)評(píng)分并推薦

        將Skip-Gram提取的樣本特征向量Fvi送入CatBoost中訓(xùn)練評(píng)分預(yù)測(cè)模型,其中Fvi={(X1,Y1),(X2,Y2)…(Xn,Yn)},n為樣本個(gè)數(shù),Xn表示第n個(gè)樣本的m維特征,即Xn={x1,x2,…,xm};Yn為第n個(gè)樣本的屬性。在建立預(yù)測(cè)模型時(shí)首先利用數(shù)值s替換類別型變量,其中s為

        (13)

        然后對(duì)其弱學(xué)習(xí)器進(jìn)行訓(xùn)練,最終使損失函數(shù)的值趨于0。也就是說(shuō)CatBoost最終是使ht最小,即

        (14)

        式中:ht為CatBoost中的弱學(xué)習(xí)器,F(xiàn)t-1(x) 為上一輪訓(xùn)練得到的強(qiáng)學(xué)習(xí)器。經(jīng)過(guò)多次循環(huán)迭代最終得到的CatBoost模型為

        Ft(x)=Ft-1(x)+ht

        (15)

        2 模型評(píng)價(jià)

        MovieLens數(shù)據(jù)集中包含有1682部電影且943個(gè)用戶對(duì)電影的評(píng)分,評(píng)分值為0~5之間,此外統(tǒng)計(jì)了電影的標(biāo)題、類型和主演等信息。文中以MovieLens數(shù)據(jù)集為實(shí)例,隨機(jī)選取MovieLens數(shù)據(jù)集中20%的數(shù)據(jù)作為測(cè)試集、80%的數(shù)據(jù)作為訓(xùn)練集進(jìn)行評(píng)估實(shí)驗(yàn),并與RBF-CF、XGB-CF、UCF和CatBoost對(duì)比來(lái)進(jìn)一步驗(yàn)證文中方法的有效性。

        2.1 評(píng)價(jià)指標(biāo)

        文中采用預(yù)測(cè)精度、平均絕對(duì)偏差和運(yùn)行時(shí)間作為評(píng)價(jià)指標(biāo),對(duì)各模型的性能進(jìn)行評(píng)估。其中,預(yù)測(cè)精度用于評(píng)估用戶喜歡的項(xiàng)目在推薦項(xiàng)目總數(shù)中的占比,其值越大說(shuō)明模型性能越優(yōu),反之模型性能越差;平均絕對(duì)偏差用于衡量項(xiàng)目預(yù)測(cè)評(píng)分和項(xiàng)目實(shí)際評(píng)分的差值,其值越小說(shuō)明項(xiàng)目預(yù)測(cè)評(píng)分越接近項(xiàng)目真實(shí)評(píng)分,反之項(xiàng)目預(yù)測(cè)評(píng)分與項(xiàng)目實(shí)際評(píng)分差距越大。預(yù)測(cè)精度(Precision)和平均絕對(duì)偏差(mean absolute error,MAE)計(jì)算公式可表述為

        (16)

        (17)

        2.2 模型參數(shù)確定

        (1)相似度函數(shù)確定

        選擇合理的相似度函數(shù)可準(zhǔn)確求解出評(píng)分相似矩陣和項(xiàng)目元數(shù)據(jù)的相似矩陣,從而提高推薦模型的預(yù)測(cè)精度、降低平均絕對(duì)偏差。利用歐幾里得函數(shù)、余弦相似度函數(shù)、修正的余弦函數(shù)和皮爾遜函數(shù)求解的評(píng)分相似矩陣和項(xiàng)目元數(shù)據(jù)相似矩陣的預(yù)測(cè)精度如圖3所示。從圖中可看出,與歐幾里得函數(shù)、余弦函數(shù)和皮爾遜函數(shù)相比,修正的余弦函數(shù)求解的相似矩陣用于模型預(yù)測(cè)評(píng)分具有更高的精度,因此文中采用修正的余弦函數(shù)作為求解相似矩陣的衡量標(biāo)準(zhǔn)。

        (2)CatBoost中決策樹個(gè)數(shù)確定

        CatBoost選用決策樹作為其弱學(xué)習(xí)器對(duì)項(xiàng)目的評(píng)分進(jìn)行預(yù)測(cè),最終利用投票決策的方式求解出項(xiàng)目的預(yù)測(cè)評(píng)分。較少的決策樹數(shù)目會(huì)降低CatBoost對(duì)項(xiàng)目的預(yù)測(cè)精度,然而較多的決策樹數(shù)目則會(huì)增加CatBoost的運(yùn)行時(shí)間。表3給出了決策樹數(shù)目為50~450時(shí)CatBoost的預(yù)測(cè)精度及運(yùn)行時(shí)間。從表中可看出,當(dāng)CatBoost中決策樹數(shù)目小于300時(shí),隨著決策樹數(shù)目的增加CatBoost的預(yù)測(cè)精度和運(yùn)行時(shí)間均增加且決策樹數(shù)目為300時(shí)CatBoost的預(yù)測(cè)精度最高;當(dāng)CatBoost中決策樹數(shù)目超過(guò)300后,CatBoost的預(yù)測(cè)精度并未明顯增加但運(yùn)行時(shí)間卻大幅增加,故而文中將CatBoost中決策樹數(shù)目設(shè)定為300。

        表3 不同決策樹數(shù)目下模型的預(yù)測(cè)精度和運(yùn)行時(shí)間

        2.3 實(shí)驗(yàn)結(jié)果分析

        通過(guò)與RBF-CF、XGB-CF、UCF和CatBoost對(duì)比,從預(yù)測(cè)精度、運(yùn)行時(shí)間和平均絕對(duì)偏差3個(gè)方面對(duì)各模型的有效性進(jìn)行評(píng)估。RBF-CF、XGB-CF、UCF、CatBoost和CatBoost-CF(文中所提算法)在不同近鄰集數(shù)目下的預(yù)測(cè)精度見表4。從表中可看出,隨著近鄰集數(shù)目的增加,各模型的預(yù)測(cè)精度均逐漸增加。此外,在不同近鄰集數(shù)目中,CatBoost-CF的預(yù)測(cè)精度均最高、XGB-CF和RBF-CF的預(yù)測(cè)精度次之,UCF的預(yù)測(cè)精度最差。這主要是由于CatBoost-CF模型在評(píng)分?jǐn)?shù)據(jù)中融入了項(xiàng)目元數(shù)據(jù),并且采用修正的余弦相似度函數(shù)和LINE求解的項(xiàng)目近鄰集更準(zhǔn)確,從而提高了模型的預(yù)測(cè)性能;XGB-CF中采用集成學(xué)習(xí)的策略,能夠提升模型的非線性建模能力;RBF-CF中采用神經(jīng)網(wǎng)絡(luò)抽取用戶評(píng)分歷史數(shù)據(jù)的深層特征,可緩解評(píng)分?jǐn)?shù)據(jù)稀疏性導(dǎo)致的模型預(yù)測(cè)精度低的問題。

        表4 不同近鄰集數(shù)目下各算法的預(yù)測(cè)精度

        RBF-CF、XGB-CF、UCF、CatBoost和CatBoost-CF在不同近鄰集數(shù)目下的運(yùn)行時(shí)間見表5。從表中可容易的看出,UCF的運(yùn)行時(shí)間最短,這主要是由于UCF直接采用相似矩陣進(jìn)行預(yù)測(cè)評(píng)分無(wú)需其它操作;CatBoost-CF的運(yùn)行時(shí)間較UCF和CatBoost的運(yùn)行時(shí)間長(zhǎng),這主要是由于CatBoost-CF需要經(jīng)過(guò)LINE網(wǎng)絡(luò)求解多階相鄰節(jié)點(diǎn)。RBF-CF和XGB-CF的運(yùn)行時(shí)間相當(dāng)且前者運(yùn)行時(shí)間更長(zhǎng),這主要是由于RBF神經(jīng)網(wǎng)絡(luò)需要多次迭代尋優(yōu)而XGB中包含多棵決策樹需要多次運(yùn)算出最優(yōu)結(jié)果。

        表5 不同近鄰集數(shù)目下各算法的運(yùn)行時(shí)間

        為進(jìn)一步說(shuō)明CatBoost-CF在各階段的耗時(shí),文中以近鄰集數(shù)目為85時(shí)進(jìn)行實(shí)驗(yàn),其各階段及總運(yùn)行時(shí)間見表6。從表中可看出,CatBoost-CF中階段三耗時(shí)最多、階段一耗時(shí)次之、階段二耗時(shí)最少。這主要是由于CatBoost需要經(jīng)過(guò)多個(gè)弱學(xué)習(xí)器進(jìn)行項(xiàng)目評(píng)分的預(yù)測(cè)最后再投票決策,而階段一耗時(shí)則主要是由于LINE網(wǎng)絡(luò)迭代求解多階近鄰節(jié)點(diǎn)。

        表6 CatBoost-CF在近鄰集為85時(shí)各階段的運(yùn)行時(shí)間及總運(yùn)行時(shí)間

        模型的穩(wěn)定性決定了模型預(yù)測(cè)結(jié)果的可靠性,文中以MAE作為RBF-CF、XGB-CF、UCF、CatBoost和CatBoost-CF算法穩(wěn)定性的衡量標(biāo)準(zhǔn),各算法在不同近鄰集下的MAE值如圖4所示。從圖中可看出,隨著近鄰數(shù)集個(gè)數(shù)增加各推薦算法的MAE均逐漸降低,這說(shuō)明隨著訓(xùn)練集樣本增加,各模型的穩(wěn)定性也逐漸增強(qiáng)。此外,在不同近鄰集數(shù)目下CatBoost-CF的MAE均低于對(duì)比方法,XGB-CF次之,UCF的MAE值最高。這主要是評(píng)分?jǐn)?shù)據(jù)中融入了項(xiàng)目元數(shù)據(jù)并由修正的余弦相似度函數(shù)和LINE精確求解項(xiàng)目的近鄰集,從而增強(qiáng)了CatBoost-CF的穩(wěn)定性。然而傳統(tǒng)的UCF直接采用評(píng)分?jǐn)?shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)分而近鄰集數(shù)目越大其越不精確故而穩(wěn)定性最差。RBF-CF和XGB-CF的MAE值相當(dāng)且優(yōu)于UCF,說(shuō)明集成學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)均可以改善模型的穩(wěn)定性。

        圖4 各算法在不同近鄰集下的MAE

        3 結(jié)束語(yǔ)

        文中結(jié)合多重相似度分析和CatBoost提出了一種推薦算法,該算法具有較高的推薦精度、較強(qiáng)的穩(wěn)定性。與傳統(tǒng)推薦算法不同的是,其采用修正的余弦相似度函數(shù)和LINE求解項(xiàng)目元數(shù)據(jù)和評(píng)分?jǐn)?shù)據(jù)的精確近鄰集并由Skip-Gram挖掘其深層特征輸入CatBoost中預(yù)測(cè)項(xiàng)目評(píng)分最終由Top-N算法推薦項(xiàng)目。最后,采用MovieLens數(shù)據(jù)集對(duì)該算法性能進(jìn)行評(píng)估,結(jié)果表明,該算法推薦精度更高、穩(wěn)定性更強(qiáng),可緩解數(shù)據(jù)稀疏性帶來(lái)的推薦質(zhì)量低的問題。但是該算法較對(duì)比方法運(yùn)行時(shí)間較長(zhǎng),在后續(xù)工作中嘗試將該算法并行化處理以縮短其運(yùn)行時(shí)間。

        猜你喜歡
        決策樹精度協(xié)同
        蜀道難:車與路的協(xié)同進(jìn)化
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        “四化”協(xié)同才有出路
        汽車觀察(2019年2期)2019-03-15 06:00:50
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于DSPIC33F微處理器的采集精度的提高
        電子制作(2018年11期)2018-08-04 03:25:38
        三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
        基于決策樹的出租車乘客出行目的識(shí)別
        GPS/GLONASS/BDS組合PPP精度分析
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
        91成人自拍在线观看| 一区二区三区国产大片| 人妻少妇av中文字幕乱码| 在线观看免费无码专区| 免费a级毛片出奶水| 人妻被猛烈进入中文字幕| 国产一区二区杨幂在线观看性色| 国产极品美女高潮无套| 四虎国产精品免费久久| JIZZJIZZ国产| 蜜桃人妻午夜精品一区二区三区| 亚洲中文字幕午夜精品| 国产人妻人伦精品1国产盗摄| 久久频精品99香蕉国产| 翘臀诱惑中文字幕人妻| 一边做一边说国语对白| 人妻无码久久一区二区三区免费| 亚洲欧美日韩在线中文一| 日韩精品一区二区三区影音视频| 男女性爽大片视频| 久久tv中文字幕首页| 久久精品国产亚洲av麻豆四虎 | 毛片精品一区二区二区三区| 亚洲精品无码永久在线观看| 精品无码专区久久久水蜜桃| 国产 在线播放无码不卡| 日本人妻精品有码字幕| 激情综合丁香五月| 婷婷丁香五月亚洲| 色妞一区二区三区免费视频 | 一本大道香蕉最新在线视频| 99久久亚洲精品加勒比| 久久熟妇少妇亚洲精品| 国产一女三男3p免费视频| 第十色丰满无码| 在线中文字幕一区二区| 国产乱国产乱老熟300部视频 | 亚洲一区二区三区中文视频| 国产亚洲人成在线观看| 精产国品一二三产品蜜桃| 国产视频在线一区二区三区四区 |