亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于準(zhǔn)則級(jí)特征交叉融合的推薦算法

        2023-12-13 01:39:12張富國(guó)劉云鶴毛明松陳鴻宇
        關(guān)鍵詞:特征用戶方法

        張富國(guó),劉云鶴,李 輝,毛明松,陳鴻宇

        (江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌 330032)

        1 引 言

        近年來(lái),為了克服傳統(tǒng)的單一整體評(píng)分對(duì)商品評(píng)價(jià)反映能力薄弱的缺陷,越來(lái)越多的國(guó)內(nèi)外電子商務(wù)網(wǎng)站允許用戶對(duì)所提供的商品進(jìn)行多維度上的評(píng)分,如:全球最大的旅游網(wǎng)站Tripadvisor1允許客戶從服務(wù)、性價(jià)比、清潔、位置等維度對(duì)酒店進(jìn)行評(píng)分;而日本的雅虎電影網(wǎng)站JPYahoo2采用了情節(jié)、選角、編導(dǎo)、畫(huà)面、音樂(lè)等5個(gè)準(zhǔn)則來(lái)表示用戶對(duì)電影不同維度上的評(píng)分.

        推薦系統(tǒng)作為解決網(wǎng)絡(luò)信息過(guò)載的有效工具,在各個(gè)領(lǐng)域得到了廣泛應(yīng)用[1].因?yàn)槎鄿?zhǔn)則評(píng)分擁有更為豐富的用戶偏好信息,從而使推薦系統(tǒng)可以更加準(zhǔn)確地為用戶偏好以及商品特征進(jìn)行建模.相較于單一整體評(píng)分,多準(zhǔn)則推薦系統(tǒng)在提供決策支持時(shí)可以減少對(duì)其他多元異構(gòu)信息(如社交網(wǎng)絡(luò)、人口統(tǒng)計(jì)等)的依賴[2],從而降低決策所需要的空間以及時(shí)間上的花費(fèi),可以在保障推薦準(zhǔn)確度的同時(shí),一定程度上降低推薦系統(tǒng)的復(fù)雜度,提高決策效率.當(dāng)前對(duì)于多準(zhǔn)則推薦算法的研究大多是對(duì)傳統(tǒng)的單準(zhǔn)則推薦算法的拓展,如基于啟發(fā)式的方法通過(guò)拓展相似度計(jì)算,而基于模型的方法通過(guò)將各個(gè)準(zhǔn)則視為傳統(tǒng)的單一整體評(píng)分系統(tǒng)的推薦問(wèn)題,在此基礎(chǔ)上學(xué)習(xí)一個(gè)聚合函數(shù)進(jìn)行各維度評(píng)分的融合.很多研究表明,使用多準(zhǔn)則評(píng)分推薦系統(tǒng)的推薦精度優(yōu)于單一整體評(píng)分系統(tǒng),但大部分研究沒(méi)有深入挖掘多準(zhǔn)則評(píng)分對(duì)用戶偏好和商品特征的反映[3,4],推薦性能也因此沒(méi)能得到很大提升.本文結(jié)合信息熵理論和信任度計(jì)算,從多準(zhǔn)則評(píng)分?jǐn)?shù)據(jù)中挖掘用戶準(zhǔn)則偏好度和商品準(zhǔn)則特征值,并對(duì)兩者進(jìn)行匹配分析,提出了基于準(zhǔn)則級(jí)特征交叉融合的推薦算法(Multi-criteria Recommendation Algorithm Based on Criteria-level Feature Cross-fusion,MCFC),實(shí)驗(yàn)結(jié)果表明新算法有效提升了推薦的準(zhǔn)確性.

        2 相關(guān)工作

        當(dāng)前大多數(shù)研究人員將多準(zhǔn)則推薦方法視為對(duì)單準(zhǔn)則推薦方法的一種擴(kuò)展,并根據(jù)效用函數(shù)的生成分為基于啟發(fā)式的(即基于內(nèi)存或基于鄰居)方法和基于模型的方法[5].

        2.1 基于啟發(fā)式的方法

        基于啟發(fā)式的推薦方法的關(guān)鍵在于相似度的計(jì)算,多準(zhǔn)則推薦系統(tǒng)通過(guò)擴(kuò)展傳統(tǒng)的基于啟發(fā)式協(xié)同技術(shù)的相似度計(jì)算,從而反映多準(zhǔn)則評(píng)分信息.用戶之間的總體相似度是通過(guò)聚合每個(gè)準(zhǔn)則上的相似度或使用多維距離度量來(lái)計(jì)算的.Adomavicius等人提出了兩種準(zhǔn)則相似度的聚合方法:平均相似度和最壞相似度[3,6].Tang等人提出在論文推薦系統(tǒng)中通過(guò)加權(quán)方法聚合論文各準(zhǔn)則(背景、學(xué)者興趣度、總評(píng)分、推薦度等)上的相似度,基于個(gè)性化權(quán)重的推薦方式對(duì)比其他非個(gè)性化的處理方法,在預(yù)測(cè)準(zhǔn)確度和覆蓋面等指標(biāo)均有了較大的提升[7].與利用用戶評(píng)分向量來(lái)計(jì)算用戶之間相似度不同,Manouselis等人考慮到準(zhǔn)則權(quán)重本身就是用戶個(gè)性化偏好的描述,提出了3種不同的基于用戶準(zhǔn)則權(quán)重向量來(lái)計(jì)算用戶相似度的方法,即按照優(yōu)先級(jí)、平均數(shù)以及部分效用進(jìn)行計(jì)算,可以將其看作是另一類基于鄰居的啟發(fā)式推薦方法[8].

        2.2 基于模型的方法

        基于模型的方法是使用統(tǒng)計(jì)學(xué)習(xí)方法對(duì)已觀測(cè)到的數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得到一個(gè)可以用來(lái)估計(jì)未知評(píng)分的模型.雖然基于模型的方法相對(duì)于基于啟發(fā)式的方法存在著增量計(jì)算的問(wèn)題,但模型經(jīng)過(guò)一次訓(xùn)練后產(chǎn)生推薦的過(guò)程較快且可以反復(fù)使用,因此推薦模型的訓(xùn)練通常在線下進(jìn)行.對(duì)多準(zhǔn)則推薦算法的研究主要分為兩個(gè)方向:1)擴(kuò)展單一評(píng)分的基于模型的推薦算法;2)聚合函數(shù)法.

        2.2.1 擴(kuò)展傳統(tǒng)算法的方法

        擴(kuò)展傳統(tǒng)基于模型的在推薦算法的基本思路是:在現(xiàn)有推薦算法的基礎(chǔ)上,根據(jù)更高維度的數(shù)據(jù)特征,做出適當(dāng)?shù)恼{(diào)整或改變.概率算法擴(kuò)展方法的典型成果是Sahoo等人的工作[9],其擴(kuò)展了FMM[10](Flexible Mixture Model),用Chow-Liu樹(shù)結(jié)構(gòu)發(fā)現(xiàn)了總體評(píng)分與各準(zhǔn)則評(píng)價(jià)之間的依賴性結(jié)構(gòu),即總體評(píng)分將會(huì)影響用戶對(duì)所有規(guī)則的評(píng)分,并通過(guò)把這些依賴性關(guān)系整合在傳統(tǒng)的FMM算法中,使不同準(zhǔn)則之間能夠彼此獨(dú)立.Li等人在研究餐館推薦系統(tǒng)(包括菜品、環(huán)境、服務(wù)等10個(gè)準(zhǔn)則)時(shí),通過(guò)采用MSVD技術(shù)進(jìn)行特征降維,并計(jì)算用戶和飯店在高維空間中的相似度,與傳統(tǒng)的單值計(jì)算比較,該方法的準(zhǔn)確度有一定的提升[11].

        2.2.2 基于聚合函數(shù)的方法

        聚合函數(shù)方法的關(guān)鍵是找到一個(gè)合適的聚合函數(shù)來(lái)表示整體評(píng)分與多準(zhǔn)則評(píng)分之間的關(guān)系.如Jannach等人利用線性回歸計(jì)算用戶和特定商品準(zhǔn)則的相關(guān)性,研究各準(zhǔn)則如何影響不同用戶群體的滿意度[12].自適應(yīng)性模糊神經(jīng)推理系統(tǒng)(Adaptive Network-based Fuzzy Inference System,ANFIS)是近年研究較多的一種模型預(yù)測(cè)方法,結(jié)合了神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)能力和模糊邏輯的推理能力,克服了神經(jīng)網(wǎng)絡(luò)黑盒的難解釋性和模糊規(guī)則不合理的主觀確定等缺陷.Nilashi等人將ANFIS融入到多準(zhǔn)則推薦系統(tǒng)中,并結(jié)合了降維和聚類等新技術(shù),在TripAdvisor數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,基于EM聚類技術(shù)和ANFIS技術(shù)的混合算法的推薦精度比傳統(tǒng)協(xié)同過(guò)濾提高6%以上[13].Wasid等人使用馬氏距離方法計(jì)算聚類后各簇中用戶的相似性,將多準(zhǔn)則評(píng)分有效地融入到傳統(tǒng)的推薦系統(tǒng)中[14].Hassan和Hamada提出了一種基于多元線性奇異值分解方法的神經(jīng)網(wǎng)絡(luò)算法,其又將遺傳算法用來(lái)預(yù)測(cè)多準(zhǔn)則推薦問(wèn)題中的用戶偏好,將3種基于遺傳算法(標(biāo)準(zhǔn)遺傳算法、自適應(yīng)遺傳算法和復(fù)合啟發(fā)式遺傳算法)的多準(zhǔn)則推薦算法與傳統(tǒng)單準(zhǔn)則推薦算法比較,發(fā)現(xiàn)基于遺傳算法的多準(zhǔn)則推薦算法在準(zhǔn)確度上均有可觀的提升[15,16].Nassar等人提出的基于深度學(xué)習(xí)的多準(zhǔn)則協(xié)同過(guò)濾推薦算法包含兩個(gè)構(gòu)件:1)構(gòu)件通過(guò)獲取用戶和商品的特征作為神經(jīng)網(wǎng)絡(luò)的輸入以訓(xùn)練各準(zhǔn)則評(píng)分使用的預(yù)測(cè)模型;2)構(gòu)建通過(guò)學(xué)習(xí)多準(zhǔn)則評(píng)分?jǐn)?shù)據(jù)中各準(zhǔn)則評(píng)分與整體評(píng)分關(guān)系,從而將各準(zhǔn)則預(yù)測(cè)分整合為一個(gè)單一的整體評(píng)分.該算法在真實(shí)數(shù)據(jù)上的表現(xiàn)證明了在推薦系統(tǒng)中使用深度學(xué)習(xí)和多準(zhǔn)則數(shù)據(jù)是有效的[4].

        3 基于準(zhǔn)則級(jí)特征交叉融合的推薦算法

        如圖1所示,本文構(gòu)建的基于準(zhǔn)則級(jí)特征交叉融合的推薦算法(MCFC)框架由2個(gè)階段、3個(gè)模塊組成.其中,第1階段是偏好與特征挖掘模塊;第2階段包含數(shù)據(jù)離散化與嵌入模塊以及準(zhǔn)則級(jí)特征交叉融合模塊.偏好與特征挖掘模塊包括基于信息熵的用戶準(zhǔn)則偏好挖掘和基于信任度的商品準(zhǔn)則特征挖掘兩個(gè)部分.

        圖1 基于準(zhǔn)則級(jí)特征交叉融合的推薦算法框架圖Fig.1 MCFC algorithm framework diagram

        3.1 基于信息熵的用戶準(zhǔn)則偏好挖掘

        信息熵由信息論之父克勞德·艾爾伍德·香農(nóng)(Claude Elwood Shannon)于1948年提出,旨在從量化的角度解決信息度量問(wèn)題.在多準(zhǔn)則評(píng)分系統(tǒng)中,若用戶重視某一準(zhǔn)則,那么在對(duì)不同商品的該準(zhǔn)則進(jìn)行評(píng)分時(shí),用戶會(huì)更為挑剔,因此評(píng)分就會(huì)體現(xiàn)出差異性,該準(zhǔn)則的信息熵也就越大,反之亦然,故本文用信息熵來(lái)表示用戶的準(zhǔn)則偏好度.

        (1)

        3.2 基于信任度的商品準(zhǔn)則特征挖掘

        每個(gè)商品在各個(gè)準(zhǔn)則上評(píng)分的平均值可以在一定程度上表示商品準(zhǔn)則特征值,但考慮到每個(gè)用戶對(duì)各個(gè)準(zhǔn)則的鑒別能力、關(guān)注度以及評(píng)分的認(rèn)真程度不同,對(duì)應(yīng)到每個(gè)用戶在各個(gè)準(zhǔn)則上的評(píng)分可信度也就不同,因此,商品準(zhǔn)則特征更適合由用戶的準(zhǔn)則評(píng)分和該用戶的準(zhǔn)則評(píng)分可信度加權(quán)平均計(jì)算得到.

        用戶可信度的計(jì)算是關(guān)鍵因素,文獻(xiàn)[17]將推薦系統(tǒng)中的信任定義為:如果實(shí)體a認(rèn)定根據(jù)實(shí)體b的行為采取行動(dòng)將帶來(lái)好的結(jié)果,則a信任b.

        基于鄰居用戶的協(xié)同過(guò)濾算法使用公式(2)來(lái)計(jì)算用戶p對(duì)商品的評(píng)分預(yù)測(cè)值Pp,l.

        (2)

        (3)

        (4)

        其中,Op表示除了用戶u外給商品評(píng)過(guò)分的用戶集.在此基礎(chǔ)上,以用戶p評(píng)價(jià)過(guò)的所有商品的Trustc(u,i)均值來(lái)表示用戶u對(duì)預(yù)測(cè)準(zhǔn)則c評(píng)分上的可信度Trustc(u),計(jì)算公式如公式(5)所示:

        Trustc(u)=∑i∈IuTrustc(u,i)/|Iu|

        (5)

        其中,Iu表示用戶u評(píng)價(jià)過(guò)的商品集合.

        (6)

        3.3 基于準(zhǔn)則級(jí)特征交叉融合的推薦算法構(gòu)建

        不同于以往的基于聚合函數(shù)和啟發(fā)式多準(zhǔn)則推薦算法,基于準(zhǔn)則級(jí)特征交叉融合的推薦算法(MCFC)在對(duì)用戶偏好與商品特征挖掘(3.1節(jié)和3.2節(jié))的基礎(chǔ)上,采用對(duì)連續(xù)特征離散化后進(jìn)行嵌入的方式來(lái)增強(qiáng)算法的表達(dá)能力,并考慮用戶的多準(zhǔn)則決策過(guò)程,提出準(zhǔn)則級(jí)的特征交叉,最后產(chǎn)生預(yù)測(cè).給定用戶u和商品i,MCFC算法的評(píng)分預(yù)測(cè)如公式(7)所示:

        (7)

        3.3.1 用戶準(zhǔn)則偏好和商品準(zhǔn)則特征的離散化與嵌入

        為了平衡算法的推薦性能與時(shí)間復(fù)雜度,本文選擇簡(jiǎn)潔有效的等距離散化方法對(duì)用戶偏好特征和商品準(zhǔn)則特征離散化,即將連續(xù)的用戶偏好和商品特征變量的取值范圍均勻劃成H等份,具體如下.

        (8)

        (9)

        (10)

        (11)

        3.3.2 準(zhǔn)則級(jí)特征交叉融合

        (12)

        3.3.3 基于準(zhǔn)則級(jí)特征交叉融合的推薦算法的點(diǎn)擊率計(jì)算

        將用戶嵌入向量和商品嵌入向量進(jìn)行內(nèi)積運(yùn)算,并與fCPI(ε)以及公式(12)中的一階線性回歸部分進(jìn)行拼接后輸入到一個(gè)全連接單層神經(jīng)網(wǎng)絡(luò)中,最終得到如公式(13)所示的用戶u點(diǎn)擊商品i的預(yù)測(cè)概率值.

        (13)

        其中,σ(z)為sigmoid函數(shù),如公式(14)所示,作用是將一個(gè)(-∞,+∞)之內(nèi)的實(shí)數(shù)值變換到區(qū)間[0,1].

        (14)

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 數(shù)據(jù)集

        在多準(zhǔn)則推薦系統(tǒng)領(lǐng)域中目前還沒(méi)有公開(kāi)可用的標(biāo)準(zhǔn)數(shù)據(jù)集,大部分實(shí)驗(yàn)用數(shù)據(jù)集是研究人員從網(wǎng)站爬取得到的.日本雅虎電影數(shù)據(jù)集常被用來(lái)測(cè)試多準(zhǔn)則推薦算法的性能,本文也通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取了該網(wǎng)站的電影數(shù)據(jù).日本雅虎電影網(wǎng)站除了可以讓用戶對(duì)電影進(jìn)行總體評(píng)分外,還允許用戶從情節(jié)、人物、表演、畫(huà)面和音樂(lè)5個(gè)準(zhǔn)則對(duì)電影進(jìn)行評(píng)分,評(píng)分范圍均為從1~5.本文爬取的實(shí)驗(yàn)數(shù)據(jù)集總共包含97,927條數(shù)據(jù),其統(tǒng)計(jì)信息如表1所示.

        表1 JPYahoo數(shù)據(jù)集統(tǒng)計(jì)Table 1 JPyahoo dataset statistics

        JPYahoo有5個(gè)準(zhǔn)則分別為:情節(jié)、人物、表演、畫(huà)面和音樂(lè),數(shù)據(jù)集的各分段評(píng)分?jǐn)?shù)量統(tǒng)計(jì)如表2所示.分析表中數(shù)據(jù)可以得出,5個(gè)準(zhǔn)則各分段平均評(píng)論數(shù)的分布大體上與總體評(píng)分各分段的分布一致,這也說(shuō)明了準(zhǔn)則評(píng)分和整體評(píng)分存在一定的一致性.

        表2 各分段評(píng)分?jǐn)?shù)量分布統(tǒng)計(jì)Table 2 Statistics on the distribution of the number of ratings in each segment

        4.2 評(píng)測(cè)指標(biāo)

        1)召回率(Recall),指既出現(xiàn)在推薦列表中,又出現(xiàn)在用戶實(shí)際交互列表中的商品占用戶實(shí)際交互的商品總數(shù)的比重,其計(jì)算公式如公式(15)所示:

        (15)

        2)準(zhǔn)確率(Precision),指既出現(xiàn)在推薦列表中,又出現(xiàn)在用戶實(shí)際交互列表中的商品占推薦列表中商品總數(shù)的比重,其計(jì)算公式如公式(16)所示:

        (16)

        3)平均倒數(shù)排名(Mean Reciprocal Rank,MRR),通過(guò)計(jì)算出現(xiàn)在用戶實(shí)際交互列表中的商品在推薦列表中的排名來(lái)評(píng)估推薦系統(tǒng)的性能.MRR考慮了推薦商品在結(jié)果列表中的排列位置,更強(qiáng)調(diào)順序性,即評(píng)估推薦的這些商品是否放在更靠前、更顯眼的位置處.其計(jì)算公式如公式(17)所示:

        (17)

        4)歸一化折損累計(jì)增益(Normalized Discounted Cumulative Gain,NDCG),用于評(píng)價(jià)推薦列表與用戶真實(shí)交互列表的差距.推薦結(jié)果與真實(shí)交互列表的相關(guān)性越大,效果越好,指標(biāo)越高,其計(jì)算公式如公式(18)所示:

        (18)

        公式(18)中,折損累計(jì)增益(DCG)的思想是在推薦結(jié)果列表中排名靠后的位置上出現(xiàn)相關(guān)性較高的商品時(shí),應(yīng)該對(duì)評(píng)測(cè)得分施加懲罰,懲罰比例與商品所在位置的對(duì)數(shù)值有關(guān),其計(jì)算公式如公式(19)所示:

        (19)

        其中,δ(·)為指示函數(shù),對(duì)于δ(b),當(dāng)b為真時(shí)δ(b)否則為0.

        公式(18)中,最大累計(jì)增益(IDCG)是最理想推薦列表的DCG值,即依據(jù)推薦列表中的項(xiàng)目在實(shí)際交互列表中的排名來(lái)計(jì)算DCG,其計(jì)算公式如公式(20)所示:

        (20)

        5)命中率(Hit Ratio,HR),指成功推薦的次數(shù)占推薦總次數(shù)的比例,其計(jì)算公式如公式(21)所示.式中分子表示每個(gè)用戶推薦列表中屬于測(cè)試集合的個(gè)數(shù)的總和,分母是所有的測(cè)試集合.

        (21)

        4.3 實(shí)驗(yàn)設(shè)計(jì)

        為了保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性,防止隨機(jī)劃分?jǐn)?shù)據(jù)集的因素對(duì)實(shí)驗(yàn)結(jié)果的干擾,本文采用5折交叉驗(yàn)證法來(lái)劃分?jǐn)?shù)據(jù)集并進(jìn)行實(shí)驗(yàn),以此減小隨機(jī)劃分訓(xùn)練集所帶來(lái)的偶然性[20].

        為了使算法獲得更好的性能表現(xiàn),本文對(duì)實(shí)驗(yàn)數(shù)據(jù)集的總體評(píng)分進(jìn)行正負(fù)樣本采樣,將總體評(píng)分大于等于3分的視作1(正面樣本),而將總體評(píng)分小于3分的視為0(負(fù)面樣本).然后用交叉熵?fù)p失函數(shù)作為基于準(zhǔn)則級(jí)特征交叉融合的推薦算法以及基線算法的優(yōu)化目標(biāo),該損失函數(shù)能夠解決平方損失函數(shù)權(quán)重更新過(guò)慢的問(wèn)題,具有“誤差大的時(shí)候,權(quán)重更新快;誤差小的時(shí)候,權(quán)重更新慢”的良好性質(zhì)[21],其計(jì)算如公式(22)所示:

        (22)

        通過(guò)與不同的基線算法進(jìn)行對(duì)比,驗(yàn)證基于準(zhǔn)則級(jí)特征交叉融合的推薦算法的優(yōu)越性.用于對(duì)比的算法包含經(jīng)典算法、使用評(píng)分?jǐn)?shù)據(jù)的深度學(xué)習(xí)算法以及使用額外特征信息的深度學(xué)習(xí)算法3類中具有代表性的算法,具體如下.

        4.3.1 經(jīng)典算法

        1)最流行推薦(Pop),最基本的對(duì)照組,采用為所有用戶推薦最受歡迎的商品的策略.

        2)基于商品的協(xié)同過(guò)濾[22](ItemKNN),是一種經(jīng)典且有效的推薦算法,通過(guò)計(jì)算商品間相似度來(lái)確定鄰居,進(jìn)而產(chǎn)生推薦.

        3)因子分解機(jī)[23](FM),廣泛用于工業(yè)界的算法,通過(guò)任何兩個(gè)特征嵌入的內(nèi)積隱含地模擬了所有二階交叉特征.

        4.3.2 使用評(píng)分?jǐn)?shù)據(jù)的深度學(xué)習(xí)算法

        1)深度矩陣分解算法[24](DMF),是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)增強(qiáng)矩陣分解算法,用廣義的矩陣分解思想解決推薦問(wèn)題.

        2)神經(jīng)協(xié)同過(guò)濾[25](NeuCF),是基于協(xié)同過(guò)濾思想結(jié)合深度學(xué)習(xí)提出的一種先進(jìn)的算法,使用用戶嵌入向量和商品嵌入向量的內(nèi)積作為相似度.

        3)神經(jīng)網(wǎng)絡(luò)矩陣分解[26](ENMF),是使用非采樣學(xué)習(xí)的淺神經(jīng)網(wǎng)絡(luò)方法,其使用單層矩陣分解框架,輸入的是用戶和自身所有的交互商品或商品與其所有的交互用戶.

        4.3.3 使用額外特征信息的深度學(xué)習(xí)算法

        1)深度因子分解機(jī)[27](xDeepFM),將FM的vector-wise的思想引入DCN算法的Cross(特征交叉)部分,以增強(qiáng)對(duì)特征的交互能力.

        2)神經(jīng)因子分解機(jī)[28](NFM),將FM算法捕獲的二階線性組合特征以及神經(jīng)網(wǎng)絡(luò)捕獲的高階非線性組合特征組合起來(lái).

        對(duì)于使用嵌入向量的算法如DMF,NeuCF,xDeepFM,NFM,ENFM以及本文所提出的MCFC算法,嵌入向量的維度(Embedding Size,ES)設(shè)置為20.需要使用的額外特征信息為本文算法挖掘的用戶準(zhǔn)則偏好信息和商品準(zhǔn)則特征信息.此外,本文還執(zhí)行了早期停止(early stop)策略,如果驗(yàn)證集上的算法優(yōu)化目標(biāo)連續(xù)增加10次,就停止訓(xùn)練.

        4.4 評(píng)測(cè)結(jié)果

        針對(duì)Top-N推薦的算法,本小節(jié)使用4.3小節(jié)中提到的基線算法與本文所提出的基于準(zhǔn)則級(jí)特征交叉融合的推薦算法進(jìn)行比較,考察其在各個(gè)評(píng)價(jià)指標(biāo)上的性能優(yōu)勢(shì).圖2展示了各個(gè)算法在JPYahoo數(shù)據(jù)集上的表現(xiàn),圖中的性能數(shù)據(jù)為5折交叉驗(yàn)證的結(jié)果的平均值,具體數(shù)值在表3中列出.從中可以看出本文所提出的基于準(zhǔn)則級(jí)特征交叉融合的推薦算法(MCFC)在各個(gè)評(píng)價(jià)指標(biāo)上的表現(xiàn)均要好于現(xiàn)有的一些算法.FM、xDeepMF以及NFM在JPYahoo數(shù)據(jù)集上的表現(xiàn)一般.經(jīng)過(guò)分析,該實(shí)驗(yàn)中提供的特征信息為連續(xù)變量,而這些算法對(duì)于連續(xù)變量的學(xué)習(xí)能力有限,進(jìn)而導(dǎo)致算法效果不佳,而本文提出的算法將連續(xù)變量進(jìn)行了離散化,提高了其性能表現(xiàn).此外,結(jié)果也驗(yàn)證了本算法使用用戶偏好和商品特征進(jìn)行各個(gè)準(zhǔn)則上的匹配,相較于以往的兩兩特征交叉有更好的性能.基于準(zhǔn)則級(jí)特征交叉融合的推薦算法中的超參數(shù)有:計(jì)算商品特征時(shí)的最可信用戶數(shù)K,離散化時(shí)的分箱數(shù)H,以及嵌入向量的大小Embedding Size(ES).

        表3 MCFC算法與基線算法在JPYahoo數(shù)據(jù)集上的性能Table 3 Performance data table of MCFC and baseline algorithm on the JPYahoo dataset

        圖2 MCFC算法與基線算法在JPYahoo數(shù)據(jù)集上性能柱狀圖Fig.2 Performance histogram of MCFC and baseline algorithm on JPYahoo dataset

        圖3為不同最可信用戶數(shù)K下MCFC算法在NDCG@10(其余指標(biāo)上類似于NDCG@10)上的表現(xiàn).從圖中可以看出在K取20時(shí)MCFC的效果最好.也就是對(duì)于JPYahoo數(shù)據(jù)集中的用戶來(lái)說(shuō),選擇前20個(gè)最值得信賴的用戶對(duì)商品的評(píng)價(jià)來(lái)計(jì)算商品在各個(gè)準(zhǔn)則上的特征是最為恰當(dāng)?shù)?

        圖3 不同最可信用戶下MCFC算法的NDCG@10Fig.3 NDCG@10 of MCFC algorithm for different most trusted user

        圖4為特征離散化時(shí)不同分箱數(shù)H下MCFC算法在NDCG@10上的表現(xiàn).從圖中可以看出分箱數(shù)H為300時(shí),算法的性能較好.也就意味著,對(duì)于JPYahoo數(shù)據(jù)集來(lái)說(shuō),將用戶或者商品在各個(gè)準(zhǔn)則上的偏好或者特征劃分成300個(gè)類別(區(qū)間)是比較合適的.雖然可以對(duì)每一個(gè)用戶準(zhǔn)則或者商品準(zhǔn)則設(shè)置不同的分箱數(shù)H,但是這樣勢(shì)必會(huì)導(dǎo)致超參數(shù)過(guò)多,調(diào)整最佳的各準(zhǔn)則分箱數(shù)H給算法帶來(lái)的提升有限.因此,在本文所提出的算法中使用一個(gè)整體的H來(lái)對(duì)各個(gè)準(zhǔn)則進(jìn)行離散化.

        圖4 不同分箱數(shù)下MCFC算法的NDCG@10Fig.4 NDCG@10 of MCFC algorithm with different number of buckets H

        圖5為不同嵌入向量維度大小下MCFC算法在NDCG@10上的表現(xiàn).從圖中可以看出,隨著嵌入向量維度的增加,MCFC的準(zhǔn)確度也隨之增加,但是,相應(yīng)的參數(shù)也會(huì)成倍的增加,算法的訓(xùn)練時(shí)間也會(huì)隨之增加.

        圖5 不同嵌入向量大小下MCFC算法的NDCG@10Fig.5 NDCG@10 of MCFC algorithm under different embedding size

        關(guān)于嵌入向量的維度,應(yīng)當(dāng)根據(jù)算法的使用場(chǎng)景以及使用者所能夠提供的設(shè)備情況進(jìn)行動(dòng)態(tài)的調(diào)整.同時(shí)從圖中也可以看出,在嵌入向量的維度在60時(shí),算法性能已經(jīng)較為可觀(NDCG@10≈0.17),且相對(duì)來(lái)說(shuō)算法的參數(shù)在可以接受的范圍內(nèi).因此,推薦的Embedding Size大小為60.

        5 總結(jié)與展望

        以往采用聚合函數(shù)方法的多準(zhǔn)則推薦算法在計(jì)算資源和存儲(chǔ)資源上都有較大的消耗.聚合函數(shù)法在性能上帶來(lái)的小幅提升往往需要付出計(jì)算資源消耗成倍增加的代價(jià),相對(duì)于如今迅速發(fā)展的深度學(xué)習(xí)技術(shù),顯得競(jìng)爭(zhēng)力不足.考慮到在實(shí)際生活中,用戶會(huì)根據(jù)自己對(duì)于某類商品在各個(gè)屬性上的偏好,以及候選商品中各商品的屬性特征進(jìn)行對(duì)比、匹配,最終產(chǎn)生決策.而多準(zhǔn)則評(píng)分系統(tǒng)能將商品的重要屬性提煉成為各個(gè)準(zhǔn)則,作為用戶對(duì)商品進(jìn)行評(píng)分時(shí)的維度參考.在這些評(píng)分?jǐn)?shù)據(jù)中,隱含著用戶的準(zhǔn)則偏好和商品的準(zhǔn)則特征.通過(guò)準(zhǔn)確挖掘多準(zhǔn)則數(shù)據(jù)中用戶的準(zhǔn)則偏好和商品的準(zhǔn)則特征進(jìn)行推薦是本文對(duì)于多準(zhǔn)則推薦算法的一次探索.本文基于多準(zhǔn)則數(shù)據(jù)結(jié)合信息熵理論和信任度計(jì)算,提出一種從多準(zhǔn)則交互數(shù)據(jù)中挖掘用戶偏好和商品特征的方法.相對(duì)于可以嵌入的離散特征,連續(xù)型特征在神經(jīng)網(wǎng)絡(luò)中存在許多劣勢(shì),因此本文考慮將連續(xù)特征進(jìn)行離散化,隨后進(jìn)行嵌入操作,以提升算法的表達(dá)能力.同時(shí),考慮到在多準(zhǔn)則推薦系統(tǒng)中用戶進(jìn)行決策時(shí),關(guān)注的是其在某一準(zhǔn)則上的偏好與商品在對(duì)應(yīng)準(zhǔn)則上的特征相匹配的情況,本文又提出一種準(zhǔn)則級(jí)特征交叉方法對(duì)用戶偏好和商品特征進(jìn)一步凝練.實(shí)驗(yàn)結(jié)果表明,本文所提出的新算法在召回率、準(zhǔn)確率、平均排名倒數(shù)、歸一化折損累計(jì)增益以及命中率指標(biāo)上,相較于幾種經(jīng)典算法以及一些先進(jìn)的基于深度學(xué)習(xí)的算法都有更好的性能表現(xiàn).此外,本文還通過(guò)比較不同超參數(shù)下基于準(zhǔn)則級(jí)特征交叉融合的推薦算法的性能,給出了對(duì)于算法的超參數(shù)的建議.

        雖然本文做出了一些創(chuàng)新,但仍存在需要改善的地方.

        1)對(duì)于基于評(píng)分的推薦算法中普遍存在的數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,本文所提出的算法中也存在.該問(wèn)題仍然是基于評(píng)分的推薦系統(tǒng)中亟待解決的問(wèn)題之一.

        2)對(duì)用戶偏好和商品特征的挖掘,本文采用的是可解釋性較強(qiáng)的非機(jī)器學(xué)習(xí)算法,而是否存在其他性能更好的且不失可解釋性的機(jī)器學(xué)習(xí)方法還有待探究.

        猜你喜歡
        特征用戶方法
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        可能是方法不對(duì)
        關(guān)注用戶
        關(guān)注用戶
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        91国视频| 人人妻人人澡人人爽欧美一区双 | 女同在线网站免费观看| 无码免费无线观看在线视| 国模冰莲自慰肥美胞极品人体图| 亚洲精品乱码久久久久久蜜桃图片| 成人动漫久久| 亚洲国产成人av第一二三区 | 肉色丝袜足j视频国产| 女人被爽到呻吟gif动态图视看| av一区无码不卡毛片| 久久精品国产亚洲av调教| 久久婷婷综合激情亚洲狠狠| 精品含羞草免费视频观看| 亚洲成av人片在线观看ww| 中年人妻丰满AV无码久久不卡| 男女搞黄在线观看视频 | 亚洲熟妇丰满多毛xxxx| 久久人人爽人人爽人人av东京热| 国产精品98福利小视频| 国产女人av一级一区二区三区| 国产日产亚洲系列最新| 黄色视频在线免费观看| 国色天香精品亚洲精品| 亚洲国产国语对白在线观看| 久久精品aⅴ无码中文字字幕| 欧洲-级毛片内射| 国产精品麻豆A在线播放| 亚洲女人的天堂网av| 又大又紧又粉嫩18p少妇| 精品十八禁免费观看| 在线a人片免费观看国产| 亚洲成人av一区二区| 曰本女人与公拘交酡| 亚洲中久无码永久在线观看软件 | 亚洲蜜臀av一区二区三区漫画| 国产精品成人观看视频国产奇米| 丰满人妻av无码一区二区三区| www.91久久| 日本按摩偷拍在线观看| 国产综合无码一区二区辣椒|