亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多模態(tài)深度游走與偏差校準(zhǔn)因子的推薦模型

        2022-08-24 06:30:08武子騰宋承云
        計(jì)算機(jī)應(yīng)用 2022年8期
        關(guān)鍵詞:偏差模態(tài)節(jié)點(diǎn)

        武子騰,宋承云

        (重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)

        0 引言

        電商領(lǐng)域的流量逐漸從匱乏轉(zhuǎn)為過(guò)剩,導(dǎo)致不可避免的信息過(guò)載問(wèn)題[1]。為了讓用戶(hù)從大量產(chǎn)品中找到其感興趣的,讓產(chǎn)品方生產(chǎn)的產(chǎn)品得到用戶(hù)的反饋,平臺(tái)促成更多的交易,大多數(shù)電子商務(wù)和零售公司借助推薦系統(tǒng)為需求不明確的用戶(hù)過(guò)濾無(wú)效產(chǎn)品[2]。推薦算法利用各類(lèi)歷史行為記錄推測(cè)用戶(hù)的潛在偏好,為用戶(hù)提供個(gè)性化內(nèi)容,使推薦系統(tǒng)能最大限度地吸引用戶(hù)、留存用戶(hù),增加用戶(hù)黏性和提高用戶(hù)轉(zhuǎn)化率等,實(shí)現(xiàn)公司長(zhǎng)期的發(fā)展目標(biāo)[3-5]。

        隨著電商平臺(tái)業(yè)務(wù)覆蓋范圍逐步擴(kuò)大,互聯(lián)網(wǎng)中用戶(hù)和項(xiàng)目的數(shù)量呈指數(shù)型增長(zhǎng)[6],功能單一的信息篩選器已不能滿(mǎn)足海量用戶(hù)的個(gè)性化需求,電商協(xié)同過(guò)濾系統(tǒng)需要應(yīng)對(duì)更多的挑戰(zhàn)來(lái)留住忠誠(chéng)用戶(hù)[7]。國(guó)際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘領(lǐng)域頂級(jí)賽事KDD(Knowledge Discovery and Data mining)CUP 2020 競(jìng)賽由阿里巴巴達(dá)摩院主辦,旨在解決電商場(chǎng)景下的偏差(bias)問(wèn)題,以對(duì)抗推薦系統(tǒng)中長(zhǎng)期存在的馬修效應(yīng)。協(xié)同過(guò)濾推薦模型的核心是計(jì)算項(xiàng)目間的相似度和預(yù)測(cè)目標(biāo)用戶(hù)的潛在偏好,而用戶(hù)傾向于與推薦頁(yè)面曝光的項(xiàng)目交互[1],模型依據(jù)交互項(xiàng)目計(jì)算出與其相似的項(xiàng)目并推薦給用戶(hù),對(duì)用戶(hù)的行為產(chǎn)生影響,造成曝光偏差(Exposure bias)。曝光偏差在電商協(xié)同過(guò)濾系統(tǒng)中迭代反饋,導(dǎo)致TopN預(yù)測(cè)列表偏離用戶(hù)的真實(shí)興趣,加劇曝光偏差,長(zhǎng)此以往系統(tǒng)的推薦性能將越來(lái)越差,損害用戶(hù)對(duì)個(gè)性化推薦的滿(mǎn)意度[8]。

        偏差問(wèn)題在工業(yè)界引起了廣泛關(guān)注,然而學(xué)術(shù)界與此相關(guān)的研究工作相對(duì)欠缺,針對(duì)電商推薦系統(tǒng)中的曝光偏差問(wèn)題,本文提出一種融合多模態(tài)深度游走與偏差校準(zhǔn)因子(Multimodal DeepWalk and Bias Calibration factor,MmDWBC)的TopN推薦模型,將更多低曝光且感興趣的項(xiàng)目推薦給用戶(hù)。本模型首先利用用戶(hù)歷史交互記錄和高維多模態(tài)的項(xiàng)目屬性信息構(gòu)建多模態(tài)項(xiàng)目圖;其次在項(xiàng)目圖上進(jìn)行改進(jìn)的深度游走表示,學(xué)習(xí)得到多模態(tài)項(xiàng)目節(jié)點(diǎn)的低維嵌入表示;最后基于校準(zhǔn)思想以修正用戶(hù)興趣傾向性計(jì)算。

        本文的工作主要有以下幾點(diǎn):

        1)針對(duì)低曝光項(xiàng)目交互數(shù)據(jù)稀疏性和冷啟動(dòng)加劇問(wèn)題,將高維多模態(tài)的項(xiàng)目屬性特征作為輔助數(shù)據(jù),為構(gòu)建多模態(tài)項(xiàng)目圖引入更多低曝光項(xiàng)目信息,通過(guò)改進(jìn)的深度游走表示將多模態(tài)信息融入嵌入向量,有效緩解數(shù)據(jù)稀疏和冷啟動(dòng)。

        2)由于項(xiàng)目曝光度影響用戶(hù)興趣估計(jì)值,提出一種以校準(zhǔn)策略為指導(dǎo)的偏差校準(zhǔn)推薦計(jì)算新算法。

        3)提出了一種TopN推薦新模型MmDW-BC,通過(guò)融合多模態(tài)深度游走(Multimodal DeepWalk,MmDW)和偏差校準(zhǔn)因子(Bias Calibration factor,BC),有效地將不受關(guān)注且用戶(hù)感興趣的低曝光項(xiàng)目推薦給用戶(hù)。

        1 相關(guān)工作

        1.1 曝光偏差

        推薦系統(tǒng)的曝光機(jī)制由推薦器構(gòu)建者制定,相關(guān)學(xué)術(shù)研究人員無(wú)權(quán)限獲取和干預(yù)[9]。假設(shè)用戶(hù)只能與系統(tǒng)曝光的項(xiàng)目交互,則交互次數(shù)就代表曝光次數(shù),項(xiàng)目交互數(shù)越大,則項(xiàng)目曝光度越高,交互數(shù)與曝光度成正比。本文統(tǒng)計(jì)Amazon 用戶(hù)交互數(shù)據(jù)中每個(gè)項(xiàng)目的交互次數(shù),得到項(xiàng)目交互數(shù)(曝光度)分布圖,項(xiàng)目交互數(shù)越大越受用戶(hù)關(guān)注。從圖1 可以看出,項(xiàng)目交互數(shù)(曝光度)分布不均衡,只有極少一部分項(xiàng)目的交互次數(shù)達(dá)到100 以上,大多數(shù)項(xiàng)目的交互次數(shù)集中在[0,100]。

        圖1 項(xiàng)目交互數(shù)(曝光度)分布圖Fig.1 Distribution diagram of item interaction number(exposure)

        由圖1 可知,高曝光項(xiàng)目數(shù)量少,即使不推薦用戶(hù)也可以通過(guò)其他新媒體平臺(tái)獲得;相反,低曝光項(xiàng)目數(shù)量龐大且不受關(guān)注,用戶(hù)難以從除了推薦之外的其他途徑獲取到低曝光項(xiàng)目信息。因此與推薦高曝光項(xiàng)目相比,推薦低曝光項(xiàng)目將會(huì)帶來(lái)更大的價(jià)值。推薦系統(tǒng)受曝光偏差影響,只向用戶(hù)推薦高曝光項(xiàng)目忽視了滯留已久的低曝光項(xiàng)目,使越來(lái)越多的用戶(hù)被推薦系統(tǒng)局限在一個(gè)相對(duì)“狹窄”的推薦列表中,用戶(hù)的潛在興趣被帶有偏差的推薦結(jié)果忽略。因此,推薦低曝光且用戶(hù)感興趣的項(xiàng)目十分重要。

        1.2 協(xié)同過(guò)濾模型

        大型電子商務(wù)網(wǎng)站往往有龐大的用戶(hù)量,可利用推薦模型捕捉用戶(hù)的潛在偏好,為意圖不明確的用戶(hù)主動(dòng)提供個(gè)性化服務(wù)?;陧?xiàng)目相似度的協(xié)同過(guò)濾利用用戶(hù)-項(xiàng)目歷史交互數(shù)據(jù)建模用戶(hù)偏好模型,其輸入數(shù)據(jù)來(lái)源廣泛且語(yǔ)義豐富,展示給用戶(hù)的預(yù)測(cè)列表解釋性強(qiáng),例如推薦頁(yè)面向用戶(hù)推送電蚊香,推薦原因是用戶(hù)近期購(gòu)買(mǎi)過(guò)蚊帳。此模型的推薦依據(jù)是用戶(hù)歷史偏好行為,預(yù)測(cè)結(jié)果準(zhǔn)確率高,由于電商場(chǎng)景下項(xiàng)目及其屬性信息更新較為穩(wěn)定,項(xiàng)目相似度矩陣的更新和維護(hù)的代價(jià)相對(duì)較小。綜合上述優(yōu)點(diǎn),基于項(xiàng)目相似度的協(xié)同過(guò)濾成為大規(guī)模電商網(wǎng)站和工業(yè)界廣泛采用的推薦模型[6]。

        Jaccard 相關(guān)系數(shù)(Jaccard Similarity Coefficient)和余弦相似度(Cosine Similarity)是計(jì)算項(xiàng)目相似度矩陣常用的方式。假設(shè)sim(i,j)表示項(xiàng)目i和項(xiàng)目j之間的相似度,N(i)表示與項(xiàng)目i交互過(guò)的用戶(hù)集合,N(j)表示與項(xiàng)目j交互過(guò)的用戶(hù)集合,|N(i)|表示與項(xiàng)目i交互過(guò)的用戶(hù)數(shù)量,|N(j)|表示與項(xiàng)目j交互過(guò)的用戶(hù)數(shù)量,|N(i) ∩N(j)|表示同時(shí)與項(xiàng)目i和項(xiàng)目j交互過(guò)的用戶(hù)數(shù)量。項(xiàng)目i和項(xiàng)目j之間的Jaccard相關(guān)系數(shù)計(jì)算方式為:

        項(xiàng)目i和項(xiàng)目j之間的cosine 相似度計(jì)算方式為:

        得到項(xiàng)目相似度矩陣后,計(jì)算目標(biāo)用戶(hù)對(duì)歷史交互項(xiàng)目的相似項(xiàng)目的興趣傾向值:

        其中:N(u)表示用戶(hù)u交互的項(xiàng)目集合;sim(i,k)表示與項(xiàng)目i最相似的k個(gè)項(xiàng)目;ruj表示用戶(hù)u對(duì)項(xiàng)目j的偏好程度,在隱式反饋推薦中ruj取值為1。

        協(xié)同過(guò)濾機(jī)制容易過(guò)度推薦高曝光項(xiàng)目而放大偏差,曝光偏差使項(xiàng)目因曝光度不同而有不同的相似項(xiàng)目。一般來(lái)說(shuō),高曝光項(xiàng)目和其他項(xiàng)目間的相似程度要高于低曝光項(xiàng)目和其他項(xiàng)目間的相似度[10],這是因?yàn)轭l繁曝光在推薦頁(yè)面的項(xiàng)目(高曝光項(xiàng)目)通常具有其他項(xiàng)目的共性特征,且受到系統(tǒng)中大多數(shù)用戶(hù)的關(guān)注。由式(3)可知,兩個(gè)項(xiàng)目間的相似程度越高對(duì)計(jì)算用戶(hù)興趣傾向值貢獻(xiàn)越大,推送給用戶(hù)的預(yù)測(cè)列表自然也是曝光度較高的項(xiàng)目。結(jié)合式(1)~(3)可知,協(xié)同過(guò)濾推薦模型中計(jì)算相似度矩陣和預(yù)測(cè)用戶(hù)興趣傾向值加強(qiáng)了高曝光項(xiàng)目的貢獻(xiàn)度,削弱了低曝光項(xiàng)目的貢獻(xiàn)度,模型難以避免曝光偏差對(duì)用戶(hù)決策(瀏覽、點(diǎn)擊、收藏、購(gòu)買(mǎi)等)的影響,甚至加劇曝光偏差??梢?jiàn),降低曝光偏差帶來(lái)的影響對(duì)提高推薦精度是有效的。

        1.3 圖嵌入表示

        圖嵌入表示是利用深度學(xué)習(xí)模型的方法,將拓?fù)鋱D中的鄰接關(guān)系用低維度嵌入空間中的向量表示[11],即學(xué)習(xí)出一個(gè)低維稠密的向量來(lái)表示圖中的節(jié)點(diǎn)、邊和局部結(jié)構(gòu),同時(shí)包含一些附加特征,得以讓預(yù)測(cè)、分類(lèi)、可視化等任務(wù)更加方便地提取和利用圖結(jié)構(gòu)中蘊(yùn)含的特征[12]。圖嵌入的思想是使在原始圖結(jié)構(gòu)空間中彼此接近的點(diǎn),映射到嵌入后的低維度空間中也相應(yīng)地接近[13]。深度游走(DeepWalk)是典型的圖結(jié)構(gòu)數(shù)據(jù)挖掘模型[14],主要分為隨機(jī)游走和生成表示向量?jī)蓚€(gè)部分。首先利用截?cái)嚯S機(jī)游走算法從圖中提取一些節(jié)點(diǎn)序列,然后借助自然語(yǔ)言處理(Natural Language Processing,NLP)的思路,將生成的定點(diǎn)序列看作由單詞組成的句子,所有的序列組成一個(gè)大的語(yǔ)料庫(kù),最后輸入到神經(jīng)語(yǔ)言模型中生成Embedding 向量。

        隨著圖嵌入技術(shù)的發(fā)展,嵌入向量本身的表達(dá)能力進(jìn)一步增強(qiáng),而且能夠?qū)⒏黝?lèi)補(bǔ)充信息融入嵌入向量之中,使嵌入向量成為非常有價(jià)值的推薦系統(tǒng)特征[15-16]。文獻(xiàn)[17]從理論的角度證明了基于SkipGram 模型的DeepWalk 是一種隱式的矩陣分解技術(shù)并推導(dǎo)出其近似的矩陣分解形式,進(jìn)一步的研究發(fā)現(xiàn),DeepWalk 的隱式矩陣通過(guò)低秩變換可轉(zhuǎn)換為歸一化的圖拉普拉斯矩陣,這項(xiàng)工作提出了一個(gè)用于顯式分解閉式矩陣的一般框架NetMF(Network embedding as Matrix Factorization)。盡管NetMF 學(xué)習(xí)到的表征向量用于后續(xù)任務(wù)時(shí)表現(xiàn)出較優(yōu)的性能,但在學(xué)習(xí)大型圖的節(jié)點(diǎn)表征時(shí)需要付出相當(dāng)大的代價(jià),導(dǎo)致性能受限。之后,文獻(xiàn)[18]提出了基于譜傳播策略的ProNE 圖嵌入模型,可用于處理大規(guī)模圖數(shù)據(jù)。

        2 MmDW-BC推薦模型

        融合多模態(tài)深度游走與偏差校準(zhǔn)因子(MmDW-BC)的模型結(jié)構(gòu)如圖2 所示,其中包含三個(gè)組件:構(gòu)建項(xiàng)目圖組件、多模態(tài)深度游走M(jìn)mDW 組件和偏差校準(zhǔn)推薦BC 組件。

        圖2 MmDW-BC模型的結(jié)構(gòu)Fig.2 Structure of MmDW-BC model

        2.1 構(gòu)建項(xiàng)目圖

        由1.1 節(jié)的分析可知,電商推薦系統(tǒng)中存在大量低曝光項(xiàng)目,這些項(xiàng)目由于推薦頁(yè)面曝光次數(shù)不足而缺乏用戶(hù)交互,加劇項(xiàng)目交互數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題。項(xiàng)目屬性提供了高維多模態(tài)的元數(shù)據(jù),主要為項(xiàng)目的文本描述和圖像描述,應(yīng)用文獻(xiàn)[19]中已經(jīng)預(yù)訓(xùn)練得到的圖像特征向量和文本特征向量,將高維多模態(tài)的項(xiàng)目屬性特征引入作為輔助信息構(gòu)建多模態(tài)連接邊。

        本文用G表示構(gòu)建的項(xiàng)目圖,圖G中的節(jié)點(diǎn)是項(xiàng)目節(jié)點(diǎn),其中vi∈V,|V|表示圖G中的節(jié)點(diǎn)個(gè)數(shù),定義了點(diǎn)擊共現(xiàn)連接和屬性相似連接兩種連接類(lèi)型,連接邊分別屬于實(shí)邊集E={e11,e12,…,emn}和虛邊集依據(jù)用戶(hù)歷史點(diǎn)擊序列構(gòu)建實(shí)邊,如果用戶(hù)先后點(diǎn)擊過(guò)兩個(gè)項(xiàng)目,說(shuō)明兩項(xiàng)目間存在點(diǎn)擊共現(xiàn)連接關(guān)系,那么這兩個(gè)項(xiàng)目之間就由實(shí)線連接;通過(guò)計(jì)算兩個(gè)項(xiàng)目之間多模態(tài)屬性特征相似性生成虛邊,如果當(dāng)前項(xiàng)目用戶(hù)未交互且與交互項(xiàng)目間屬性特征相似的,說(shuō)明兩項(xiàng)目間存在屬性相似連接關(guān)系,則用虛線連接。由于項(xiàng)目的高維多模態(tài)特征是文本特征和圖像特征,計(jì)算項(xiàng)目間的文本相似性和圖像相似性得到項(xiàng)目間的屬性相似性。根據(jù)文獻(xiàn)[20]將相似度閾值b設(shè)為項(xiàng)目屬性的平均相似度,當(dāng)項(xiàng)目間屬性相似度達(dá)到閾值b時(shí),產(chǎn)生虛邊。

        其中:i_txt表示項(xiàng)目i的文本屬性特征;j_txt表示項(xiàng)目j的文本屬性特征;ij_txt_sim表示項(xiàng)目i和項(xiàng)目j間的文本屬性相似度;i_img表示項(xiàng)目i的圖像屬性特征,j_img表示項(xiàng)目j的圖像屬性特征;ij_img_sim表示項(xiàng)目i和項(xiàng)目j間的圖像屬性相似度表示項(xiàng)目i和項(xiàng)目j間的屬性相似度。

        圖3 未引入輔助邊和引入輔助邊的項(xiàng)目圖Fig.3 Item graphs without edges and with auxiliary edges

        2.2 多模態(tài)深度游走

        圖嵌入DeepWalk 模型在圖上進(jìn)行截?cái)嗟碾S機(jī)游走以探索更多節(jié)點(diǎn),但DeepWalk 只考慮了網(wǎng)絡(luò)結(jié)構(gòu),忽略了節(jié)點(diǎn)連接邊中蘊(yùn)含著豐富的附加信息。本文項(xiàng)目圖中,項(xiàng)目間的連接邊包括屬性相似虛邊和交互共現(xiàn)實(shí)邊,為了在游走采樣時(shí)對(duì)這兩種邊及其連接節(jié)點(diǎn)有所區(qū)分,改進(jìn)傳統(tǒng)DeepWalk 中均勻隨機(jī)采樣的策略,提出一種新的節(jié)點(diǎn)轉(zhuǎn)移概率,探索更多未交互項(xiàng)目并將項(xiàng)目多模態(tài)屬性信息融入嵌入向量。本文提出多模態(tài)深度游走(MmDW)圖嵌入新模型(詳細(xì)描述見(jiàn)算法1),得到的嵌入表示中不僅保留了圖結(jié)構(gòu)信息,還保留了有用的屬性信息,具體可歸納為四步:

        1)以多模態(tài)項(xiàng)目圖上的節(jié)點(diǎn)為起點(diǎn)進(jìn)行節(jié)點(diǎn)轉(zhuǎn)移,即到達(dá)節(jié)點(diǎn)vi時(shí),下一步要遍歷的節(jié)點(diǎn)根據(jù)跳轉(zhuǎn)概率選擇鄰接點(diǎn)vj,重新得到一個(gè)由項(xiàng)目節(jié)點(diǎn)構(gòu)成的序列。從節(jié)點(diǎn)vi轉(zhuǎn)移到vj的跳轉(zhuǎn)概率為:

        3)生成多模態(tài)項(xiàng)目圖中節(jié)點(diǎn)的表示向量。

        2.3 偏差校準(zhǔn)推薦算法

        推薦機(jī)制受曝光偏差影響使交互項(xiàng)目呈現(xiàn)不均衡分布,推薦系統(tǒng)通常會(huì)放大這種不均衡,當(dāng)下一次推送時(shí)傾向于推薦高曝光項(xiàng)目,低曝光項(xiàng)目往往得不到充分的展示,甚至不被展示。隨著系統(tǒng)的迭代反饋,曝光偏差被進(jìn)一步放大,導(dǎo)致預(yù)測(cè)結(jié)果偏離用戶(hù)的真實(shí)興趣。校準(zhǔn)是機(jī)器學(xué)習(xí)分類(lèi)任務(wù)中的一個(gè)常見(jiàn)概念,當(dāng)分類(lèi)算法的預(yù)測(cè)結(jié)果分布與實(shí)際分布一致時(shí),即為分類(lèi)校準(zhǔn)算法。本文為了緩解偏差放大,將校準(zhǔn)策略應(yīng)用于推薦任務(wù),提出了偏差校準(zhǔn)推薦算法(見(jiàn)算法2)。具體為,設(shè)計(jì)校準(zhǔn)因子修正項(xiàng)目對(duì)推薦得分的貢獻(xiàn)度,使推薦結(jié)果中項(xiàng)目的分布比例均衡且符合用戶(hù)真實(shí)的偏好分布,從而規(guī)避曝光偏差對(duì)用戶(hù)決策的影響。

        用戶(hù)傾向于與系統(tǒng)主動(dòng)提供的內(nèi)容進(jìn)行交互,因此頻繁曝光在推薦頁(yè)面的高曝光項(xiàng)目得到大多數(shù)用戶(hù)的關(guān)注。這種情況下,用戶(hù)被動(dòng)地接受推薦內(nèi)容而產(chǎn)生的交互并不能反映其真實(shí)偏好。因此應(yīng)削弱高曝光項(xiàng)目的貢獻(xiàn)度,本文提出項(xiàng)目曝光度校準(zhǔn)因子Cexposure,用于校準(zhǔn)項(xiàng)目曝光度對(duì)興趣傾向值的貢獻(xiàn),即高曝光項(xiàng)目的相似度貢獻(xiàn)值下降,低曝光項(xiàng)目的相似度貢獻(xiàn)值提高。

        研究表明,用戶(hù)活躍度對(duì)項(xiàng)目間相似性的貢獻(xiàn)程度不同,進(jìn)而影響用戶(hù)興趣傾向性得分。系統(tǒng)中存在大量低活躍用戶(hù),例如系統(tǒng)新用戶(hù)等,這些用戶(hù)需求不明確且偏好不穩(wěn)定,傾向于與推薦頁(yè)面曝光的項(xiàng)目直接交互,此行為為高曝光項(xiàng)目提供了高相似度貢獻(xiàn)值,加劇了系統(tǒng)中的曝光偏差。本文提出用戶(hù)活躍度校準(zhǔn)因子Cactivity,用于校準(zhǔn)用戶(hù)活躍度對(duì)興趣傾向值的貢獻(xiàn)。

        其中:|Ni|為項(xiàng)目i在歷史記錄中的交互次數(shù);|Ni∩Nj|為同時(shí)與項(xiàng)目i和項(xiàng)目j交互的用戶(hù)數(shù)。

        算法2 BC(Φ,Cexposure,Cactivity)。

        輸入低維稠密的項(xiàng)目節(jié)點(diǎn)表示矩陣Φ,項(xiàng)目曝光度校準(zhǔn)因子Cexposure,用戶(hù)活躍度校準(zhǔn)因子Cactivity。

        輸出下一次點(diǎn)擊的TopN預(yù)測(cè)列表。

        1)依據(jù)用戶(hù)歷史交互數(shù)據(jù)構(gòu)建用戶(hù)-項(xiàng)目倒排表。

        2)計(jì)算項(xiàng)目相似度矩陣:

        3)基于項(xiàng)目曝光度校準(zhǔn)因子和用戶(hù)活躍度校準(zhǔn)因子估計(jì)用戶(hù)興趣,進(jìn)一步校準(zhǔn)用戶(hù)興趣傾向性得分:

        其中:N(u)表示與用戶(hù)u交互過(guò)的項(xiàng)目集合;S(i,k)表示與項(xiàng)目i最相似的前k個(gè)項(xiàng)目的集合。

        4)將用戶(hù)對(duì)各個(gè)項(xiàng)目的興趣傾向性得分由高到低進(jìn)行排序,選取前N項(xiàng)推薦給用戶(hù)。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集及運(yùn)行環(huán)境

        本文選取被廣泛使用的評(píng)測(cè)協(xié)同過(guò)濾推薦模型性能的電影評(píng)分?jǐn)?shù)據(jù)集ML-1M(MovieLens-1M)和Amazon 電商數(shù)據(jù)集,從真實(shí)電商Amazon 平臺(tái)數(shù)據(jù)中選擇圖書(shū)類(lèi)和服飾類(lèi)作為實(shí)驗(yàn)數(shù)據(jù)集,數(shù)據(jù)包括從1996 年5 月截至2014 年7 月收集到的用戶(hù)評(píng)論信息(評(píng)分、評(píng)價(jià)、幫助性投票),產(chǎn)品元數(shù)據(jù)(文本信息、圖像信息、品牌、價(jià)格等)和鏈接(瀏覽/購(gòu)買(mǎi))。在真實(shí)推薦場(chǎng)景中,用戶(hù)的隱式交互更廣泛,本文通過(guò)預(yù)處理、采樣和篩選原始數(shù)據(jù)集最終將評(píng)級(jí)的出現(xiàn)視為隱式反饋,并使用時(shí)間戳確定用戶(hù)交互操作的順序。兩個(gè)數(shù)據(jù)集的細(xì)節(jié)描述如表1 所示。

        表1 數(shù)據(jù)集的細(xì)節(jié)描述Tab.1 Details of datasets

        Amazon 數(shù)據(jù)集中項(xiàng)目屬性元數(shù)據(jù)的字段含義如表2所示。

        表2 Amazon數(shù)據(jù)集中元數(shù)據(jù)字段的含義Tab.2 Meanings of metadata fields in Amazon dataset

        本實(shí)驗(yàn)在64 位Windows 10 專(zhuān)業(yè)版環(huán)境下運(yùn)行,處理器為Intel Core i7-8700 CPU @3.20 GHz,16 GB內(nèi)存,NVIDIA GeForce GTX 1660 Ti 的顯卡,Python 3.7.4。

        3.2 留一法劃分?jǐn)?shù)據(jù)集

        在評(píng)測(cè)推薦模型的性能之前,先用留一法(Leave-One-Out,LOO)劃分訓(xùn)練集和標(biāo)簽。留一法是機(jī)器學(xué)習(xí)中對(duì)學(xué)習(xí)器進(jìn)行評(píng)估的一種方法,利用整個(gè)數(shù)據(jù)集幾乎所有的數(shù)據(jù)進(jìn)行訓(xùn)練,留下一個(gè)數(shù)據(jù)進(jìn)行測(cè)試(驗(yàn)證)。本文實(shí)驗(yàn)的學(xué)習(xí)任務(wù)是利用用戶(hù)歷史交互記錄預(yù)測(cè)用戶(hù)下一次可能交互的項(xiàng)目,因此用LOO 方法進(jìn)行數(shù)據(jù)集預(yù)處理。對(duì)于每個(gè)用戶(hù),將歷史行為按時(shí)間戳排序,挑選出時(shí)間最近的一次交互項(xiàng)目作為標(biāo)簽,除最新一次交互之外的所有交互作為訓(xùn)練集,詳細(xì)過(guò)程見(jiàn)圖4。本文采用的預(yù)處理方法使訓(xùn)練集與初始數(shù)據(jù)集相比只少了最近一次交互的樣本,降低了隨機(jī)劃分帶來(lái)的偶然性,使結(jié)果具有確定性;同時(shí)又能最大限度地利用初始數(shù)據(jù)集,使數(shù)據(jù)利用率更高。

        圖4 LOO劃分?jǐn)?shù)據(jù)集Fig.4 LOO method to divide dataset

        3.3 評(píng)測(cè)指標(biāo)

        預(yù)測(cè)用戶(hù)下一次點(diǎn)擊的TopN項(xiàng)目列表,最常用的評(píng)價(jià)指標(biāo)是準(zhǔn)確度,該指標(biāo)衡量的是當(dāng)前推薦模型預(yù)測(cè)用戶(hù)未來(lái)興趣的精準(zhǔn)程度,得分越高說(shuō)明模型預(yù)測(cè)越準(zhǔn)確,推薦效果越好。本實(shí)驗(yàn)用到的預(yù)測(cè)準(zhǔn)確度指標(biāo)是召回率(recall),除了召回率指標(biāo),還有衡量排序質(zhì)量的評(píng)價(jià)指標(biāo),本文采用標(biāo)準(zhǔn)的歸一化折損累計(jì)增益(ndcg),用戶(hù)興趣度高的項(xiàng)目出現(xiàn)的位置越靠前說(shuō)明排序效果越好。

        recall 和ndcg 分別是衡量召回和排序的準(zhǔn)確性指標(biāo),除此之外,本文還引入了反映推薦系統(tǒng)整體多樣性的新穎性(novelty)和多樣性(diversity)指標(biāo),用于衡量本模型校準(zhǔn)不均衡分布的合理性[21]。其中,新穎性關(guān)注低曝光項(xiàng)目的推薦能力,常用推薦結(jié)果的平均曝光度計(jì)算新穎性;多樣性關(guān)注用戶(hù)廣泛且個(gè)性化的需求,常用推薦列表中項(xiàng)目間的不相似度來(lái)描述多樣性。上述指標(biāo)可以表示為recall@N、ndcg@N、novelty@N和diversity@N,用于評(píng)測(cè)推薦模型在列表長(zhǎng)度為N時(shí)的性能,指標(biāo)值越大,證明模型的效果越好。

        3.4 基線模型及參數(shù)設(shè)置

        基線模型的簡(jiǎn)要介紹如下:

        MostPop:此模型簡(jiǎn)單地將最熱門(mén)的項(xiàng)目推薦給所有用戶(hù),不考慮用戶(hù)的個(gè)性化需求。

        Item-KNN:基于鄰域的傳統(tǒng)協(xié)同過(guò)濾模型。

        DeepWalk[14]:基于隨機(jī)游走的圖嵌入模型,得到網(wǎng)絡(luò)結(jié)構(gòu)中節(jié)點(diǎn)的表示。

        NetMF[17]:整合傳統(tǒng)圖嵌入模型,統(tǒng)一為具有封閉形式的矩陣分解通用推薦模型。

        ProNE[18]:基于稀疏矩陣分解和譜傳播的快速且可擴(kuò)展的圖嵌入模型。

        RankALS+Re-ranking[22]:為了均衡系統(tǒng)中長(zhǎng)尾項(xiàng)目和短頭項(xiàng)目的覆蓋率,首先基于傳統(tǒng)協(xié)同過(guò)濾RankALS 模型生成推薦列表,在此基礎(chǔ)上進(jìn)行后處理控制(重排序)。

        MmDW-BC 實(shí)驗(yàn)的參數(shù)設(shè)置如表3 所示,基線模型的參數(shù)設(shè)置依據(jù)其原論文進(jìn)行微調(diào)。

        表3 本文用到的參數(shù)Tab.3 Parameters used in this paper

        3.5 實(shí)驗(yàn)結(jié)果與分析

        為了檢驗(yàn)本文模型的有效性,在真實(shí)電商Amazon 數(shù)據(jù)集和電影ML-1M 數(shù)據(jù)集上,先進(jìn)行整體效果比較,再進(jìn)行多組自身消融對(duì)比實(shí)驗(yàn),最后討論參數(shù)變化對(duì)實(shí)驗(yàn)結(jié)果的影響。

        3.5.1 推薦性能比較

        本文提出的MmDW-BC 模型與六個(gè)基準(zhǔn)模型應(yīng)用于稀疏性不同的數(shù)據(jù)集的整體效果比較結(jié)果見(jiàn)表4 所示。

        表4 本文模型與基線模型的性能對(duì)比Tab.4 Performance comparison of the proposed model and baseline models

        MmDW-BC 在四個(gè)評(píng)價(jià)指標(biāo)上的結(jié)果均高于除ML-1M中的ndcg@50 外的其他對(duì)比模型,充分說(shuō)明了本文明確考慮曝光偏差以提升推薦精度的必要性和有效性。MmDW-BC系統(tǒng)整體的多樣性較高,驗(yàn)證了偏差校準(zhǔn)的合理性。其中,MmDW-BC 模型在不同稀疏度的數(shù)據(jù)集上的表現(xiàn)略有差異,在recall@50、novelty@50 和diversity@50 指標(biāo)上,模型在稀疏的Amazon 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于稠密數(shù)據(jù)集ML-1M,這得益于MmDW-BC 中的多模態(tài)深度游走模塊可以充分挖掘項(xiàng)目屬性的隱含特征,從而有效地緩解數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題;而模型在ndcg@50 指標(biāo)上的表現(xiàn)與之相反,說(shuō)明MmDW-BC 模型在稠密數(shù)據(jù)上的排序質(zhì)量更高。

        3.5.2 自身消融研究

        Item-KNN 是先進(jìn)推薦模型的基礎(chǔ),本文在其基礎(chǔ)上對(duì)項(xiàng)目節(jié)點(diǎn)表示和計(jì)算用戶(hù)傾向性得分作改進(jìn)。為了探索多模態(tài)深度游走M(jìn)mDW 和偏差校準(zhǔn)因子BC 分別對(duì)低曝光項(xiàng)目的推薦作用,進(jìn)行了多組自身消融對(duì)比實(shí)驗(yàn)。其中,MmDW 為基于多模態(tài)深度游走的推薦模型,BC 為只引入項(xiàng)目曝光度校準(zhǔn)因子和用戶(hù)活躍度校準(zhǔn)因子的推薦模型,消融實(shí)驗(yàn)結(jié)果見(jiàn)表5 所示。

        表5 消融實(shí)驗(yàn)的結(jié)果Tab.5 Ablation experimental results

        從表5 可看出,在稀疏Amazon 數(shù)據(jù)集和稠密ML-1M 數(shù)據(jù)集上,消融實(shí)驗(yàn)結(jié)果表現(xiàn)出MmDW-BC>BC>MmDW>DeepWalk>Item-KNN,其中BC 在 recall@50、novelty@50 和diversity@50 指標(biāo)上的表現(xiàn)均高于MmDW,說(shuō)明通過(guò)引入偏差校準(zhǔn)因子來(lái)改進(jìn)用戶(hù)傾向性得分計(jì)算對(duì)緩解曝光偏差的貢獻(xiàn)更大,消融實(shí)驗(yàn)充分驗(yàn)證了偏差校準(zhǔn)的合理性和緩解偏差放大的有效性。以上MmDW-BC、MmDW 和BC 三個(gè)模型的實(shí)驗(yàn)結(jié)果都優(yōu)于基準(zhǔn)模型,且MmDW-BC 的結(jié)果達(dá)到最佳,驗(yàn)證了本文模型MmDW-BC 的有效性。

        3.5.3 參數(shù)N對(duì)推薦性能的影響實(shí)驗(yàn)

        為了探究推薦性能受預(yù)測(cè)列表的長(zhǎng)度N的影響,本文設(shè)置N=10,20,30,40,50,實(shí)驗(yàn)結(jié)果如圖5 所示。隨著N的增大,推薦指標(biāo)也逐漸升高,但上升幅度逐漸減小,考慮到模型運(yùn)行時(shí)間會(huì)隨N的增大而增加,因此本文設(shè)置模型的預(yù)測(cè)列表長(zhǎng)度N為50。

        圖5 推薦性能隨N值的變化Fig.5 Recommendation performance varying with value of N

        3.5.4 參數(shù)k對(duì)推薦性能的影響實(shí)驗(yàn)

        為了探究推薦性能受項(xiàng)目近鄰數(shù)k的影響,設(shè)置k=10,20,40,80,160,320,實(shí)驗(yàn)結(jié)果如圖6 所示。隨著k的增大,模型在Amazon 數(shù)據(jù)上的推薦指標(biāo)值先逐漸上升后保持不變,而在ML-1M 數(shù)據(jù)上持續(xù)上升,但當(dāng)k=160 后增長(zhǎng)緩慢,因此本文設(shè)置項(xiàng)目近鄰數(shù)k為160。

        圖6 推薦性能隨k值的變化Fig.6 Recommendation performance varying with value of k

        4 結(jié)語(yǔ)

        本文為了緩解曝光偏差對(duì)協(xié)同過(guò)濾推薦性能的影響,提出一種融合多模態(tài)深度游走與偏差校準(zhǔn)因子的TopN推薦模型MmDW-BC。與基線模型在不同稀疏性的數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文模型MmDW-BC 的整體推薦性能在四個(gè)評(píng)價(jià)指標(biāo)上均優(yōu)于基線模型,驗(yàn)證了本文模型在低曝光項(xiàng)目上具有良好的推薦能力。

        猜你喜歡
        偏差模態(tài)節(jié)點(diǎn)
        CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門(mén)窗節(jié)點(diǎn)圖快速構(gòu)建
        如何走出文章立意偏差的誤區(qū)
        兩矩形上的全偏差
        關(guān)于均數(shù)與偏差
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
        欧美亚洲尤物久久综合精品 | 亚洲成a人片在线观看无码专区| 骚片av蜜桃精品一区| 五月天激情综合网| 少妇高潮紧爽免费观看| 一区二区三区视频亚洲| 亚洲精品~无码抽插| 亚洲精品国产精品国自产观看| 国产精品久久久亚洲第一牛牛| 国产精品毛片毛片av一区二区| 亚洲精品成人无限看| 伊人色综合视频一区二区三区| 日日爽日日操| 国产中文字幕亚洲国产| 亚洲欧洲国产码专区在线观看| 少妇饥渴xxhd麻豆xxhd骆驼 | 国产黑丝美腿在线观看| 永久免费av无码入口国语片| 国产精品99久久久精品免费观看| 中国av一区二区三区四区| 夜夜爽夜夜叫夜夜高潮| 男女啪啪免费体验区| 96精品免费视频大全| 亚洲精品中文字幕91| 玩弄人妻少妇精品视频| 无遮无挡三级动态图| 日本av在线精品视频| 国产内射视频在线免费观看| 影音先锋男人站| av一区二区三区亚洲| 亚洲午夜精品第一区二区| 久久综合亚洲色一区二区三区 | 久久精品国产在热亚洲不卡| 偷柏自拍亚洲综合在线| 男女性行为免费视频网站| 国产在线精品一区二区中文| 精品2021露脸国产偷人在视频| 又爽又猛又大又湿的视频| 色婷婷精品久久二区二区蜜桃| 亚洲av永久无码国产精品久久| 免费一级a毛片在线播出|