亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合用戶動(dòng)態(tài)偏好和注意力機(jī)制的跨領(lǐng)域推薦方法

        2022-05-27 01:06:56錢(qián)忠勝俞情媛李端明孫志旺
        關(guān)鍵詞:用戶信息模型

        錢(qián)忠勝,涂 宇,俞情媛,李端明,孫志旺

        (江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌 330013)

        1 引 言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),各種各樣軟件產(chǎn)生了大量的信息,這些海量信息使人們的日常生活變得更加豐富.但是,這個(gè)過(guò)程中也出現(xiàn)了一些不可避免的問(wèn)題,例如信息泛濫和信息迷航.在此環(huán)境下,為了讓每個(gè)用戶能夠獲取自己想要的信息,針對(duì)不同用戶的個(gè)性化推薦技術(shù)應(yīng)運(yùn)而生.當(dāng)前,相關(guān)研究人員將個(gè)性化推薦技術(shù)應(yīng)用于各個(gè)領(lǐng)域的資源推薦,除了電影、音樂(lè)、體育之外,還包括了電子商務(wù)、基于位置的服務(wù)、醫(yī)療等領(lǐng)域.

        傳統(tǒng)推薦算法大都關(guān)注用戶的顯性偏好.隨著電商系統(tǒng)的發(fā)展壯大,越來(lái)越多的用戶參與其中,但大部分用戶只對(duì)一小部分商品有需求,也只會(huì)對(duì)部分商品進(jìn)行評(píng)分,進(jìn)而導(dǎo)致評(píng)分矩陣變得十分稀疏.因此,僅分析用戶的評(píng)分只能得到關(guān)于用戶的片面信息.主題模型是一種統(tǒng)計(jì)模型,主要挖掘潛在特征,并發(fā)現(xiàn)其中的抽象主題.通過(guò)主題模型提取各個(gè)項(xiàng)目評(píng)論的主題分布,并結(jié)合用戶對(duì)項(xiàng)目的評(píng)分,可獲取用戶的偏好分布信息,大大減少了數(shù)據(jù)的稀疏性.

        一般來(lái)說(shuō),無(wú)論是一小段話還是一整篇文章,總會(huì)有一個(gè)中心思想,那些與中心思想關(guān)聯(lián)度較高的詞出現(xiàn)的頻率通常高于其它詞.例如,在一篇介紹地區(qū)風(fēng)景的文章中,“高樓”、“瀑布”、“樹(shù)木”等詞出現(xiàn)的評(píng)論會(huì)相對(duì)較高,與之不相關(guān)或者相關(guān)度較低的詞出現(xiàn)的次數(shù)明顯減少.潛在狄利克雷分布(LDA)是一個(gè)3層貝葉斯概率模型,總體分為3部分,分別是詞、主題、文檔.LDA以若干個(gè)主題來(lái)表達(dá)將所有文本中的特征,不同文本隸屬于某個(gè)主題的程度以概率的方式呈現(xiàn).

        大部分用戶的歷史記錄中存在著一系列項(xiàng)目,但是這些內(nèi)容不一定能完全表達(dá)用戶的興趣.如果用戶在過(guò)去很長(zhǎng)的一段時(shí)間都喜歡聽(tīng)輕音樂(lè),而最近卻聽(tīng)了一首搖滾樂(lè),這并不能代表用戶喜歡此類(lèi)歌曲,可能這段時(shí)間這種類(lèi)型的歌曲比較受歡迎,故不能將它們視為同等重要.當(dāng)一個(gè)項(xiàng)目具有許多主題時(shí)(如音樂(lè)的歌手、作曲者、類(lèi)型、時(shí)間等),用戶往往會(huì)更傾向于其中的某個(gè)或多個(gè).

        基于注意力的模型是一種流行的深度學(xué)習(xí)方法,已成功應(yīng)用于問(wèn)答、神經(jīng)機(jī)器翻譯和語(yǔ)音識(shí)別等領(lǐng)域.基于注意力的模型有助于選擇最相關(guān)的信息,而不是使用所有可用的信息.

        一般來(lái)說(shuō),注意力機(jī)制對(duì)模型的學(xué)習(xí)效果能帶來(lái)明顯的提升.更重要的是,所獲得的中間注意力分?jǐn)?shù)可為預(yù)測(cè)提供富有成效的解釋.例如,在問(wèn)答中,注意力可顯示生成的答案與相應(yīng)上下文的相關(guān)性.

        目前,大多數(shù)推薦技術(shù)都為單領(lǐng)域的,即僅利用用戶在單一領(lǐng)域的興趣對(duì)用戶進(jìn)行推薦,而多領(lǐng)域相結(jié)合的推薦技術(shù)較少.通過(guò)單領(lǐng)域推薦能獲取的信息十分有限,往往只有用戶的一部分記錄,難以全面了解用戶,進(jìn)而使得推薦效果變得不可靠,準(zhǔn)確度降低.跨領(lǐng)域推薦[1-5]技術(shù)能綜合考慮用戶在不同領(lǐng)域的偏好信息,相對(duì)于單領(lǐng)域推薦冷啟動(dòng)問(wèn)題有了明顯的改善.不僅如此,跨領(lǐng)域推薦系統(tǒng)還能通過(guò)分析用戶在不同領(lǐng)域的偏好,使得推薦結(jié)果更具有多樣化的特點(diǎn).

        跨領(lǐng)域推薦可就不同側(cè)面,分為不同的場(chǎng)景.根據(jù)領(lǐng)域間的交叉關(guān)系,可劃分為用戶部分重疊、用戶完全重疊、用戶完全不重疊、項(xiàng)目部分重疊、項(xiàng)目完全重疊、項(xiàng)目完全不重疊.用戶/項(xiàng)目完全重疊的情況較為少見(jiàn),若用戶/項(xiàng)目完全不重疊,則難以實(shí)現(xiàn)跨領(lǐng)域推薦,而用戶/項(xiàng)目部分重疊的情況較為常見(jiàn).為了便于實(shí)現(xiàn)跨領(lǐng)域推薦,本文選取的應(yīng)用場(chǎng)景為領(lǐng)域間部分用戶重疊.

        人工神經(jīng)網(wǎng)絡(luò)模擬人的思維,將所有接收到的信息并行處理,然后按一定的方式轉(zhuǎn)換,得到最終的結(jié)果.BP神經(jīng)除了基礎(chǔ)的前饋傳到以外,還包含了反向傳播機(jī)制,在較強(qiáng)的擬合能力基礎(chǔ)上,增加了泛化能力和容錯(cuò)能力,能夠很好地解決分類(lèi)與回歸問(wèn)題.將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于跨領(lǐng)域推薦,能夠發(fā)現(xiàn)不同領(lǐng)域用戶偏好的對(duì)應(yīng)關(guān)系,充當(dāng)了領(lǐng)域間的橋梁.

        基于以上討論,本文提出了基于用戶動(dòng)態(tài)偏好和注意力機(jī)制的跨領(lǐng)域推薦方法.項(xiàng)目的評(píng)論信息包含了項(xiàng)目本身的相關(guān)特征,LDA主題模型能夠提取這些信息,將項(xiàng)目的評(píng)論信息轉(zhuǎn)換為項(xiàng)目的主題分布.將評(píng)分、時(shí)間以及項(xiàng)目主題分布三者結(jié)合,并引入注意力機(jī)制,得到用戶動(dòng)態(tài)偏好.接著,使用BP神經(jīng)網(wǎng)絡(luò)發(fā)掘不同領(lǐng)域間用戶偏好的映射關(guān)系,將用戶在源領(lǐng)域的偏好映射到目標(biāo)領(lǐng)域,并與用戶的目標(biāo)領(lǐng)域偏好結(jié)合.最后,利用用戶的偏好相似度來(lái)預(yù)測(cè)其對(duì)項(xiàng)目的評(píng)分.

        論文的余下部分安排如下:第2節(jié)介紹了相關(guān)工作,描述了跨領(lǐng)域推薦的相關(guān)技術(shù),以及LDA主題模型在推薦系統(tǒng)中的應(yīng)用.第3節(jié)詳細(xì)描述了本文采用的相關(guān)算法,3.1節(jié)介紹了基于主題模型的用戶動(dòng)態(tài)偏好提取過(guò)程,3.2節(jié)介紹了基于BP神經(jīng)網(wǎng)絡(luò)的跨領(lǐng)域興趣映射過(guò)程,3.3節(jié)對(duì)整體模型進(jìn)行整合,給出最終的推薦框架.第4節(jié)展開(kāi)實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析.第5節(jié)對(duì)全文進(jìn)行總結(jié),給出存在的不足及進(jìn)一步的研究.

        2 相關(guān)工作

        無(wú)論是在社交網(wǎng)站還是電商系統(tǒng)中,用戶的評(píng)論信息往往遠(yuǎn)多于用戶的評(píng)分信息,能更好地反應(yīng)用戶對(duì)商品的喜好程度以及觀點(diǎn).主題模型能夠處理項(xiàng)目的文本信息,統(tǒng)計(jì)每個(gè)項(xiàng)目相關(guān)文本中的詞語(yǔ),根據(jù)統(tǒng)計(jì)的結(jié)果來(lái)判斷哪些詞匯可以作為主題,以及作為主題的概率.

        張航等[6]提出了negLDA模型,在LDA模型的基礎(chǔ)上,結(jié)合用戶對(duì)項(xiàng)目的負(fù)面與正面評(píng)分,對(duì)用戶的偏好進(jìn)行綜合評(píng)價(jià),進(jìn)而使得用戶對(duì)項(xiàng)目的評(píng)分預(yù)測(cè)效果更佳.董晨露等[7]提出了TTCF模型,在User-CF算法的基礎(chǔ)上,加入了評(píng)論信息與艾賓浩斯遺忘曲線,同時(shí)計(jì)算用戶的整體相似度,進(jìn)而利用相似用戶來(lái)進(jìn)行評(píng)分預(yù)測(cè).彭敏等[8]提出了SACF模型,利用LDA主題模型挖掘用戶評(píng)論信息中的偏好分布,再結(jié)合情感分析技術(shù)預(yù)測(cè)用戶在項(xiàng)目屬性面上的評(píng)分.最后,結(jié)合用戶在屬性面上的評(píng)分與總體評(píng)分,計(jì)算不同用戶之間的相似度,使用協(xié)同過(guò)濾的方法預(yù)測(cè)用戶對(duì)未評(píng)分物品的評(píng)分值.高娜等[9]提出了嵌入LDA主題模型的協(xié)同過(guò)濾推薦算法,通過(guò)LDA主題模型對(duì)標(biāo)簽信息進(jìn)行處理,提取用戶與項(xiàng)目的主題分布,最后結(jié)合用戶評(píng)分與主題分布計(jì)算用戶的相似度.張斌等[10]提出了TSM/Forc推薦方法,通過(guò)LDA主題模型將用戶與項(xiàng)目的標(biāo)簽信息關(guān)聯(lián)起來(lái),再利用一個(gè)模型從整體上對(duì)這些文本信息進(jìn)行融合分析.

        近年來(lái),深度學(xué)習(xí)算法的性能越來(lái)越好,能夠很好地提取深層特征,已被廣泛使用.注意力機(jī)制是一種深度學(xué)習(xí)研究模式,能使無(wú)用信息的影響最小化.

        謝恩寧等[11]提出了DeepCF-A模型,在已有的DNN基礎(chǔ)上結(jié)合注意力機(jī)制,提高了隱式數(shù)據(jù)中潛在特征的提取效率,進(jìn)而使推薦性能有了很大改善.羅洋等[12]提出了一種融合注意力LSTM的推薦算法,基于已有的用戶評(píng)分及其它相關(guān)信息,通過(guò)自編碼器提取用戶的隱向量.然后結(jié)合LSTM與注意力機(jī)制將項(xiàng)目的輔助信息轉(zhuǎn)換為項(xiàng)目的隱向量.最后,將用戶與項(xiàng)目的隱向量結(jié)合預(yù)測(cè)評(píng)分.趙赟等[13]提出了一種基于注意力機(jī)制與文本信息的用戶關(guān)系抽取方法,通過(guò)分析任意兩個(gè)用戶的評(píng)論信息來(lái)判斷兩者是否存在好友關(guān)系,若兩者之間具有好友關(guān)系,則將兩者信息進(jìn)行拼接,輸入包含LSTM層和注意力層的網(wǎng)絡(luò)中.苑威威等[14]提出了一種基于自注意力機(jī)制的混合推薦算法,結(jié)合多重自注意力機(jī)制與DNN處理降維后的數(shù)據(jù)獲取用戶的潛在偏好,進(jìn)而得到用戶潛在偏好相似性與項(xiàng)目相似性.最后,結(jié)合兩種相似性對(duì)用戶進(jìn)行項(xiàng)目推薦.

        Yuan等[15]提出了ACA-GRU模型,在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入上下文信息,以區(qū)分評(píng)分序列中每個(gè)項(xiàng)目重要性,進(jìn)而預(yù)測(cè)用戶的動(dòng)態(tài)偏好.Chen等[16]提出了DeepUCF+a模型,在傳統(tǒng)的UserCF基礎(chǔ)上,使用深度神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制來(lái)區(qū)分每一個(gè)物品的被購(gòu)買(mǎi)記錄中不同用戶的重要性,使算法性能更佳.

        上述研究均為基于單領(lǐng)域的推薦算法,當(dāng)用戶在該領(lǐng)域數(shù)據(jù)稀疏時(shí),便無(wú)法給予精準(zhǔn)的個(gè)性化預(yù)測(cè).故引入跨領(lǐng)域推薦,結(jié)合用戶在其它領(lǐng)域的偏好與用戶在目標(biāo)領(lǐng)域的偏好,得到用戶的綜合偏好,為稀疏用戶提供更好的推薦結(jié)果.跨領(lǐng)域推薦系統(tǒng)中的常用技術(shù)包括:基于標(biāo)簽的推薦、遷移學(xué)習(xí)、協(xié)同過(guò)濾等.通過(guò)對(duì)源領(lǐng)域知識(shí)的學(xué)習(xí)來(lái)填充目標(biāo)領(lǐng)域中的缺失信息,最終完成對(duì)用戶的推薦.

        王俊等[17]提出了TRBT模型,在矩陣分解的基礎(chǔ)上結(jié)合了不同領(lǐng)域的評(píng)分模式,并通過(guò)聚類(lèi)算法構(gòu)造鄰接圖,最后將評(píng)分模式、鄰接圖結(jié)合預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分.Xu等[18]提出了CULS模型,引入信任關(guān)系,用戶之間若相互信任,則他們具有相似的偏好,再通過(guò)修改隨機(jī)漫步中的轉(zhuǎn)移矩陣進(jìn)行推薦,將領(lǐng)域間相似的用戶突出顯示.Taneja等[19]提出了提出了一種智能的基于跨領(lǐng)域的推薦方法,該方法通過(guò)張量分解技術(shù)更好地捕捉領(lǐng)域間的用戶因素和項(xiàng)目因素之間的交互,提高了預(yù)測(cè)的精準(zhǔn)度.Jiang等[20]提出了HRW模型,引入了基于圖的推薦算法,與其他項(xiàng)目領(lǐng)域相連接.通過(guò)這種創(chuàng)新的表達(dá)方式,來(lái)自輔助領(lǐng)域的有用知識(shí)可以通過(guò)社交領(lǐng)域轉(zhuǎn)移到目標(biāo)領(lǐng)域.

        李林峰等[21]提出了SKP模型,處理用戶在源領(lǐng)域和目標(biāo)領(lǐng)域的評(píng)分信息,得到領(lǐng)域間的知識(shí)模型以及目標(biāo)領(lǐng)域的知識(shí)模型,最后結(jié)合兩者使推薦結(jié)果更準(zhǔn)確.葛夢(mèng)凡等[22]提出了ITTCF模型,將用戶標(biāo)簽和用戶評(píng)分結(jié)合進(jìn)行跨領(lǐng)域推薦,解決了傳統(tǒng)跨領(lǐng)域推薦算法通常只將評(píng)分信息從源領(lǐng)域遷移到目標(biāo)領(lǐng)域,而其它信息均未能發(fā)揮作用的弊端.高升等[23]提出了一種基于潛在因子的跨領(lǐng)域推薦算法,將不同領(lǐng)域的潛在因子聚類(lèi),得到跨領(lǐng)域共性特征;再將目標(biāo)領(lǐng)域的潛在因子單獨(dú)聚類(lèi),得到單領(lǐng)域的個(gè)性特征;最后,將兩者加權(quán)求和,用于緩解目標(biāo)領(lǐng)域的數(shù)據(jù)稀疏性.Kumar等[24]提出了一種基于語(yǔ)義聚類(lèi)的跨領(lǐng)域推薦算法,引入了跨越多個(gè)領(lǐng)域的公共語(yǔ)義空間的概念,使用不同領(lǐng)域的語(yǔ)義聚類(lèi)詞匯的主題建模.

        上述跨領(lǐng)域推薦算法都存在一定的不足,有的未考慮用戶的評(píng)論信息,有的未考慮時(shí)間因素給評(píng)分信息或評(píng)論信息帶來(lái)的影響,導(dǎo)致挖掘用戶偏好不夠全面.本文將用戶的評(píng)分、評(píng)論信息用于構(gòu)建動(dòng)態(tài)偏好,再與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,應(yīng)用于跨領(lǐng)域推薦系統(tǒng)中,能夠更加全面地發(fā)掘用戶的偏好,彌補(bǔ)單領(lǐng)域推薦數(shù)據(jù)稀疏性的不足,并使得偏好的時(shí)效性更強(qiáng).

        3 融合用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦策略

        由于單領(lǐng)域數(shù)據(jù)的稀疏性,使得推薦的準(zhǔn)確度降低,若能將多個(gè)領(lǐng)域的數(shù)據(jù)結(jié)合可大大提高推薦結(jié)果的可靠性.本文的跨領(lǐng)域場(chǎng)景為源領(lǐng)域與目標(biāo)領(lǐng)域的部分用戶重疊,學(xué)習(xí)這些共同用戶在不同領(lǐng)域間偏好的映射關(guān)系進(jìn)而預(yù)測(cè)其他用戶的偏好.

        首先利用LDA主題模型[25]提取項(xiàng)目評(píng)論中的主題,得到各個(gè)項(xiàng)目的主題分布.再結(jié)合用戶對(duì)項(xiàng)目的評(píng)分,得到用戶的偏好向量.由于用戶的偏好具有時(shí)效性,故將時(shí)間因子引入用戶偏好向量的構(gòu)建過(guò)程.雖然用戶在不同領(lǐng)域的偏好分布不盡相同,但其中也有著一定的對(duì)應(yīng)關(guān)系,通過(guò)BP神經(jīng)網(wǎng)絡(luò)擬合用戶在源領(lǐng)域與目標(biāo)領(lǐng)域的映射關(guān)系.最后,通過(guò)用戶綜合偏好的相似度進(jìn)行評(píng)分預(yù)測(cè).本節(jié)所用的符號(hào)說(shuō)明如表1所示.

        表1 相關(guān)符號(hào)說(shuō)明

        3.1 基于主題模型的用戶動(dòng)態(tài)偏好提取方法

        現(xiàn)實(shí)中的各種項(xiàng)目有著豐富的信息,包含用戶的評(píng)分、評(píng)論等.大部分用戶的評(píng)分意愿都不強(qiáng),留下的信息也較少,故難以準(zhǔn)確地表達(dá)用戶喜好.而用戶對(duì)項(xiàng)目的評(píng)論信息則包含了項(xiàng)目的某些特征以及用戶的隱式偏好,使用LDA主題模型處理項(xiàng)目的評(píng)論信息,得到項(xiàng)目的主題分布.

        3.1.1 基于LDA的項(xiàng)目主題提取

        LDA是一種較為常用的主題概率模型,采用詞袋模型進(jìn)行文本向量化,即在一篇文檔中僅考慮一個(gè)詞匯是否出現(xiàn).它是一個(gè)文檔生成的過(guò)程,分為詞匯層、主題層、文檔層3個(gè)部分,是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法.文檔中的每一個(gè)詞有一定概率屬于某個(gè)主題,而每一個(gè)主題也會(huì)有一定概率包含某個(gè)詞語(yǔ).其中每一篇文檔可由向量θd=(Pd,1,Pd,2,…,Pd,k)表示,Pd,k表示主題k在文檔d中出現(xiàn)的概率;每一個(gè)主題可以由ψk=(Pk,1,Pk,2,…,Pk,n),Pk,n表示詞匯n在主題k中出現(xiàn)的概率.

        LDA模型由包含每個(gè)主題的概率分布ψk、每個(gè)文檔的主題概率分布θd,以及每個(gè)詞匯的主題分配序列Zdj組成.在本文中,每一個(gè)文檔的內(nèi)容即為每一個(gè)項(xiàng)目所有的評(píng)論信息,故文檔層為所有項(xiàng)目的評(píng)論信息,各個(gè)參數(shù)可通過(guò)吉布斯采樣獲取,目標(biāo)似然函數(shù)如式(1)所示.

        (1)

        其中,θZdj表示特定主題的產(chǎn)生概率,φZ(yǔ)dj,Wdj表示詞匯Wdj屬于該主題的概率,LDA經(jīng)典模型如圖1所示.

        圖1 LDA主題模型經(jīng)典結(jié)構(gòu)圖

        LDA模型的輸入為項(xiàng)目的評(píng)論信息,而這些信息中通常包含大量無(wú)意義或與用戶興趣無(wú)關(guān)的詞,在文本的預(yù)處理階段需將這些詞剔除,防止模型性能受到影響.

        3.1.2 用戶動(dòng)態(tài)偏好提取算法

        經(jīng)研究表明[26],大部分用戶更傾向于描述其喜歡的項(xiàng)目特征,而非不喜歡的項(xiàng)目特征,故本文將評(píng)論分布作為用戶偏好分布的近似.

        一般地,用戶對(duì)項(xiàng)目的偏好程度通常會(huì)隨時(shí)間的推移以一定的方式變化.在互聯(lián)網(wǎng)領(lǐng)域中,用戶不同時(shí)期的偏好對(duì)當(dāng)前偏好的影響程度不盡相同,通常近期偏好對(duì)當(dāng)前偏好的影響程度高于很久之前的偏好.因此,在計(jì)算用戶當(dāng)前偏好時(shí),距離當(dāng)前時(shí)間越近的偏好所占的權(quán)重應(yīng)越高.

        受文獻(xiàn)[7]的用戶偏好提取思想的啟發(fā),在完成對(duì)項(xiàng)目主題分布的提取后,將其與評(píng)分、時(shí)間因子、注意力權(quán)重結(jié)合,得到用戶的偏好向量,具體過(guò)程如式(2)-式(7)所示:

        (2)

        Query=θquery_index

        (3)

        (4)

        (5)

        (6)

        (7)

        其中tmax表示用戶u最近一次評(píng)分時(shí)間戳的數(shù)值;tmin表示用戶u最早一次評(píng)分時(shí)間戳的數(shù)值;tui表示用戶u對(duì)項(xiàng)目i評(píng)分的時(shí)間戳;Attentioni表示用戶偏好的注意力權(quán)重;Wui表示用戶綜合權(quán)重,綜合考慮了注意力權(quán)重與時(shí)間權(quán)重因子;rmax表示用戶u對(duì)項(xiàng)目評(píng)分的最大值,rui表示用戶u對(duì)項(xiàng)目i的評(píng)分.其過(guò)程如算法1所示.

        算法1.基于主題模型的用戶動(dòng)態(tài)偏好提取算法

        輸入:主題數(shù)K,狄利克雷參數(shù)α、β,用戶評(píng)分記錄R,商品評(píng)論記錄I

        輸出:用戶偏好分布向量U

        Begin

        1.θ←LDA(α,β,I);

        //提取項(xiàng)目主題分布

        //結(jié)合評(píng)分、時(shí)間因子、注意力權(quán)重計(jì)算偏好權(quán)重

        //(見(jiàn)式(2)-式(6))

        End

        在算法1中,步驟1為使用LDA主題模型提取項(xiàng)目評(píng)論的主題分布的過(guò)程,步驟2和步驟3為項(xiàng)目主題分布與用戶評(píng)分信息、時(shí)間因子、注意力權(quán)重結(jié)合的過(guò)程.通過(guò)這兩個(gè)步驟,完成了對(duì)用戶偏好分布的提取.

        3.2 基于BP神經(jīng)網(wǎng)絡(luò)的用戶偏好跨領(lǐng)域映射算法

        在不同的領(lǐng)域之間,用戶的偏好亦存在一定的對(duì)應(yīng)關(guān)系.例如,喜歡看喜劇片的用戶大都偏向于想看幽默搞笑類(lèi)的書(shū)籍,而喜歡看恐怖片的用戶一般想看靈異恐怖類(lèi)的書(shū)籍.這里通過(guò)BP神經(jīng)網(wǎng)絡(luò)完成用戶在不同領(lǐng)域間的興趣映射,利用3.1節(jié)中求得的重疊用戶在源領(lǐng)域和目標(biāo)領(lǐng)域的偏好,構(gòu)建跨領(lǐng)域映射網(wǎng)絡(luò).

        設(shè)Tus為用戶在源領(lǐng)域的偏好向量,Tut為用戶在目標(biāo)領(lǐng)域的偏好向量,將Tus作為輸入,Tut作為輸出,使用BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)Tus和Tut之間的映射關(guān)系,如式(8)-式(12)所示.

        1)輸入層到隱藏層

        b=Wh×x

        (8)

        2)經(jīng)過(guò)隱藏層的激活函數(shù)

        h=g(b-γ)

        (9)

        3)隱藏層到輸出層

        β=Wo×h

        (10)

        4)經(jīng)過(guò)輸出層的激活函數(shù)

        pre_y=g(β-η)

        (11)

        5)損失函數(shù)

        (12)

        在式(9)和式(11)中,g(x)=relu(x),具體模型結(jié)構(gòu)如圖2所示.

        圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        算法2.基于BP神經(jīng)網(wǎng)絡(luò)的用戶偏好跨領(lǐng)域映射算法

        輸入:重疊用戶在源領(lǐng)域和目標(biāo)領(lǐng)域的偏好向量,學(xué)習(xí)率

        輸出:訓(xùn)練完成的BP神經(jīng)網(wǎng)絡(luò)

        Begin

        1. initialize(v,w,γ,θ);//初始化參數(shù)

        2.Foriin range(N) //N為數(shù)據(jù)集大小

        3.b←Wh×x; //見(jiàn)式(8)

        4.h←g(b-γ); //見(jiàn)式(9)

        5.β←Wo×h; //見(jiàn)式(10)

        6.pre_y←g(β-θ); //見(jiàn)式(11)

        //損失函數(shù)極小化,見(jiàn)式(12)

        EndFor

        End

        在算法2的步驟1中,將包括權(quán)重矩陣和偏置向量在內(nèi)的各個(gè)參數(shù)賦予一個(gè)初值;步驟2-步驟6為映射過(guò)程,即擬合輸入與輸出的過(guò)程.在將用戶源領(lǐng)域的偏好向量映射到目標(biāo)領(lǐng)域后,以一定的方式與用戶在目標(biāo)領(lǐng)域的偏好向量加權(quán)求和,得到用戶的綜合偏好,該過(guò)程在下一節(jié)詳細(xì)描述.

        3.3 融合用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦框架

        在前兩個(gè)小節(jié)(3.1-3.2節(jié))的基礎(chǔ)上,下面從整體上描述跨領(lǐng)域推薦的過(guò)程.在將用戶源領(lǐng)域的偏好向量映射到目標(biāo)領(lǐng)域后,需要以一定的方式與用戶目標(biāo)領(lǐng)域的偏好向量加權(quán)求和.

        將推薦系統(tǒng)的范圍由單領(lǐng)域擴(kuò)展為多領(lǐng)域能有效減少數(shù)據(jù)量不足帶來(lái)的影響.若用戶在目標(biāo)領(lǐng)域的數(shù)據(jù)是稀疏的,則通過(guò)少量的信息難以準(zhǔn)確地發(fā)掘其偏好.此時(shí),將用戶在源領(lǐng)域的偏好與其在目標(biāo)領(lǐng)域的偏好結(jié)合,可減少數(shù)據(jù)稀疏的影響,我們給出融合用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦策略(Cross-Domain Recommendation Strategy Fusing Users′ Dynamic Preferences and Attention Mechanism,CDRS_FUDPAM),其整體框架如圖3所示.

        圖3 CDRS_FUDPAM跨領(lǐng)域推薦模型的整體框架

        (13)

        在得到用戶綜合偏好向量后,用余弦相似度計(jì)算用戶的偏好相似度.用戶m和用戶n的偏好相似度如式(14)所示:

        (14)

        其中,Um表示用戶m的偏好向量,Un表示用戶n的偏好向量.

        在完成對(duì)用戶之間相似度的計(jì)算后,對(duì)每個(gè)用戶的相似用戶列表按相似度從大到小排序,選取前K個(gè)用戶,通過(guò)他們的評(píng)分來(lái)預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,如式(15)和式(16)所示:

        (15)

        (16)

        其中Nu表示用戶u的相似用戶列表,rvi表示用戶v對(duì)項(xiàng)目i的評(píng)分,sim(u,v)表示用戶u和用戶v的相似度.

        融合用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦過(guò)程如算法3所示.

        算法3.融合用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦算法

        輸入:源領(lǐng)域用戶評(píng)分記錄{Rus},目標(biāo)領(lǐng)域用戶評(píng)分記錄{Rut},源領(lǐng)域用戶-項(xiàng)目評(píng)論{Is},目標(biāo)領(lǐng)域用戶-項(xiàng)目評(píng)論{It}

        輸出:用戶在目標(biāo)領(lǐng)域?qū)ξ丛u(píng)分項(xiàng)目的預(yù)測(cè)評(píng)分

        Begin

        1.Us←T_LDA(Is,Rus);

        //結(jié)合注意力機(jī)制、評(píng)分、時(shí)間因子計(jì)算源領(lǐng)域

        //用戶偏好向量(見(jiàn)算法1)

        2.Ut←T_LDA(It,Rut);

        //結(jié)合注意力機(jī)制、評(píng)分、時(shí)間因子計(jì)算目標(biāo)領(lǐng)域

        //用戶偏好向量(見(jiàn)算法1)

        //計(jì)算用戶的綜合偏好向量(見(jiàn)式(13))

        //計(jì)算用戶之間的相似度(見(jiàn)式(14))

        End

        在算法3中,其中步驟1和步驟2為算法1中用戶動(dòng)態(tài)偏好的提取過(guò)程,綜合考慮了注意力機(jī)制、評(píng)分、時(shí)間因子;步驟3為跨領(lǐng)域映射過(guò)程,將用戶源領(lǐng)域偏好映射到目標(biāo)領(lǐng)域;步驟4和步驟5為最終的推薦過(guò)程,將映射后源領(lǐng)域偏好與目標(biāo)領(lǐng)域偏好結(jié)合,得到用戶的綜合偏好,再通過(guò)綜合偏好來(lái)計(jì)算相似度,進(jìn)而預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分.

        4 實(shí)驗(yàn)設(shè)計(jì)與分析

        本節(jié)首先介紹了實(shí)驗(yàn)環(huán)境以及實(shí)驗(yàn)使用的數(shù)據(jù)集,然后選取了幾種典型的評(píng)價(jià)指標(biāo)以及相關(guān)的對(duì)比算法,最后給出面向用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦方法與其它方法的對(duì)比實(shí)驗(yàn)結(jié)果,并進(jìn)行了詳細(xì)的分析.

        4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

        4.1.1 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)環(huán)境為Win10 64位操作系統(tǒng),內(nèi)存為32G,處理器為AMD Ryzen 7 3700X 8-Core Process,使用的編程軟件為Pycharm,編程語(yǔ)言為Python,詳情如表2所示.

        表2 實(shí)驗(yàn)環(huán)境

        4.1.2 實(shí)驗(yàn)數(shù)據(jù)集

        為了體現(xiàn)相關(guān)因素對(duì)實(shí)驗(yàn)結(jié)果的影響,本文使用亞馬遜影視評(píng)分評(píng)論數(shù)據(jù)集及其音樂(lè)評(píng)分評(píng)論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),簡(jiǎn)稱(chēng)Video和Music.作為世界上影響力較大的購(gòu)物平臺(tái)之一,亞馬遜擁有海量的數(shù)據(jù),其中包括了圖書(shū)、音樂(lè)、食品等商品的銷(xiāo)售記錄、評(píng)分記錄以及關(guān)聯(lián)商品,用戶可以在亞馬遜網(wǎng)上搜索所需的資源,并對(duì)其進(jìn)行評(píng)分以及標(biāo)注.另外,用戶還可以通過(guò)郵件發(fā)現(xiàn)感興趣的好友.因此,可用亞馬遜的數(shù)據(jù)集進(jìn)行跨領(lǐng)域推薦研究.實(shí)驗(yàn)數(shù)據(jù)集包含了用戶ID、項(xiàng)目的ID、用戶對(duì)項(xiàng)目的評(píng)分以及評(píng)論、用戶評(píng)論項(xiàng)目的時(shí)間,刪除部分異常數(shù)據(jù)后,基本統(tǒng)計(jì)信息如表3所示.

        表3 Amazon數(shù)據(jù)集的樣本信息

        該數(shù)據(jù)集為Amazon數(shù)據(jù)集的兩個(gè)子數(shù)據(jù)集,由于樣本數(shù)量足夠多,故可用于驗(yàn)證跨領(lǐng)域推薦模型的性能.雖然整體的樣本數(shù)很多,但大部分用戶只對(duì)少數(shù)項(xiàng)目打過(guò)分,數(shù)據(jù)極為稀疏,如表4所示.

        從表4可看出,兩個(gè)領(lǐng)域的評(píng)分?jǐn)?shù)據(jù)都極其稀疏,無(wú)論是Video領(lǐng)域還是Music領(lǐng)域.如果僅僅通過(guò)評(píng)分信息來(lái)得出推薦結(jié)果,現(xiàn)有的模型都難以得到滿意的結(jié)果.本文通過(guò)LDA模型處理評(píng)論信息,同時(shí)結(jié)合評(píng)分信息,并引入輔助領(lǐng)域的數(shù)據(jù)來(lái)緩解目標(biāo)領(lǐng)域的數(shù)據(jù)稀疏性問(wèn)題.項(xiàng)目的評(píng)論信息如表5所示.

        表4 項(xiàng)目評(píng)分統(tǒng)計(jì)信息

        表5 項(xiàng)目評(píng)論統(tǒng)計(jì)信息

        從表5可看出,用戶對(duì)項(xiàng)目的評(píng)論信息十分豐富,無(wú)論是評(píng)論的數(shù)量還是每條評(píng)論的內(nèi)容都足夠多,能較好地緩解數(shù)據(jù)稀疏性帶來(lái)的影響.

        4.2 評(píng)價(jià)指標(biāo)與參數(shù)設(shè)置

        4.2.1 評(píng)價(jià)指標(biāo)

        平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)是目前推薦系統(tǒng)中較為常見(jiàn)的兩個(gè)評(píng)價(jià)指標(biāo),用于衡量預(yù)測(cè)評(píng)分和真實(shí)評(píng)分之間的誤差,而困惑度(Perplexity)可用來(lái)衡量概率分布與目標(biāo)文本的匹配程度.故本文使用MAE和RMSE來(lái)對(duì)比不同算法的性能,用困惑度來(lái)選擇合適的主題數(shù),進(jìn)而設(shè)置其它參數(shù).

        1)平均絕對(duì)誤差(MAE)

        由于本文的目標(biāo)是預(yù)測(cè)用戶對(duì)未瀏覽過(guò)的項(xiàng)目的評(píng)分,而MAE是評(píng)分誤差的平均絕對(duì)值,故MAE可作為本文中評(píng)分預(yù)測(cè)的評(píng)價(jià)指標(biāo).MAE的計(jì)算如式(17)所示:

        (17)

        2)均方根誤差(RMSE)

        除了MAE以外,RMSE也是一種用于衡量預(yù)測(cè)評(píng)分預(yù)測(cè)的準(zhǔn)確性的指標(biāo),反應(yīng)預(yù)測(cè)評(píng)分與真實(shí)評(píng)分的標(biāo)準(zhǔn)差.RMSE的計(jì)算如式(18)所示:

        (18)

        3)困惑度(Perplexity)

        評(píng)價(jià)主題模型中主題數(shù)的選取是否合理的指標(biāo),該值與模型的質(zhì)量呈負(fù)相關(guān),即Perplexity越小,主題概率模型的質(zhì)量越高.Perplexity計(jì)算如式(19)所示:

        (19)

        其中,P(ri)為第i個(gè)項(xiàng)目的全部評(píng)論信息的生成概率,Ni為第i個(gè)項(xiàng)目的全部評(píng)論信息的總詞數(shù).

        4.2.2 參數(shù)設(shè)置

        在實(shí)驗(yàn)過(guò)程中,相關(guān)參數(shù)的設(shè)置尤為重要,取值合適的參數(shù)能讓算法性能明顯提升.本文選擇Music作為源領(lǐng)域,Video作為目標(biāo)領(lǐng)域,同時(shí)將評(píng)分以及評(píng)論數(shù)量都少于5的用戶剔除,并將所有數(shù)據(jù)集中的80%和其它20%的數(shù)據(jù)分別作為訓(xùn)練集與測(cè)試集.本文的參數(shù)共有3部分,分別是LDA相關(guān)參數(shù),跨領(lǐng)域系數(shù)λ,近鄰數(shù)N.研究表明[27],當(dāng)近鄰數(shù)在30~60之間,推薦效果較好,故本文將近鄰數(shù)設(shè)置為其中值45.

        1)LDA相關(guān)參數(shù)

        LDA的參數(shù)的選擇決定了項(xiàng)目主題的提取效果,其中包括超參數(shù)α、β和主題數(shù)K.根據(jù)歷史經(jīng)驗(yàn),將α取值為50/K,β取值為0.01,主題數(shù)K設(shè)置13個(gè)值做對(duì)比實(shí)驗(yàn),分別為6,11,16,21,26,31,36,41,46,51,56,61,66.觀察源領(lǐng)域和目標(biāo)領(lǐng)域中Perplexity值隨主題數(shù)K的變化趨勢(shì),如圖4所示.

        圖4 源領(lǐng)域與目標(biāo)領(lǐng)域LDA主題數(shù)對(duì)Perplexity值的影響

        從圖4可看出,在源領(lǐng)域中,Perplexity值與主題數(shù)Ks呈負(fù)相關(guān).初始時(shí)刻,曲線的下降速率很快.約在Ks=21時(shí)下降速率逐漸變緩,說(shuō)明增加主題數(shù)的效果已不明顯.此后雖然隨著主題數(shù)K的增大,Perplexity值總體減小,但是過(guò)擬合的風(fēng)險(xiǎn)越來(lái)越大,因此Ks=21為最佳主題數(shù),此時(shí)的模型性能最好,故選取Ks=21作為源領(lǐng)域LDA的主題數(shù).與源領(lǐng)域類(lèi)似,在Kt=26時(shí),主題模型對(duì)文本的預(yù)測(cè)能力最佳,故選取Kt=26作為目標(biāo)領(lǐng)域LDA的主題數(shù).接下來(lái),在Ks=21,Kt=26的條件下設(shè)置后續(xù)參數(shù).

        2)跨領(lǐng)域系數(shù)

        用戶的偏好包括從源領(lǐng)域映射而來(lái)的和用戶在目標(biāo)領(lǐng)域的,將這兩部分偏好進(jìn)行加權(quán)求和,得到用戶的綜合偏好.在Ks=21,Kt=26的條件下,觀察目標(biāo)領(lǐng)域中MAE值隨跨領(lǐng)域系數(shù)的變化趨勢(shì),如圖5所示.

        圖5 跨領(lǐng)域系數(shù)對(duì)MAE值的影響

        從圖5中可以看出,隨著跨領(lǐng)域系數(shù)的增大,MAE呈現(xiàn)波浪式變化.剛開(kāi)始,MAE值隨著跨領(lǐng)域系數(shù)的增大而減小,當(dāng)跨領(lǐng)域系數(shù)達(dá)到臨界時(shí),MAE最小.隨后,隨著跨領(lǐng)域系數(shù)的增大,MAE值反而大幅度增大,說(shuō)明目標(biāo)領(lǐng)域所占的比例應(yīng)大于源領(lǐng)域,當(dāng)兩者所占比例為7:3時(shí),推薦效果最好,故本文的跨領(lǐng)域系數(shù)取值為0.3.

        4.3 對(duì)比算法

        本文提出的CDRS_FUDPAM算法結(jié)合用戶評(píng)分、評(píng)論以及輔助領(lǐng)域信息,主要解決了以下兩個(gè)問(wèn)題.

        問(wèn)題1.用戶評(píng)分與評(píng)論相結(jié)合的方式能否降低數(shù)據(jù)稀疏性對(duì)推薦結(jié)果的影響.

        系統(tǒng)中大部分用戶的活躍度都不高,往往只對(duì)少數(shù)感興趣的項(xiàng)目評(píng)分,這導(dǎo)致評(píng)分矩陣的稀疏度非常高,進(jìn)而很難從這有限的信息中充分提取用戶偏好.而評(píng)論信息包含了項(xiàng)目的某些特征以及用戶的偏好,信息豐富度遠(yuǎn)高于評(píng)分矩陣.通過(guò)LDA模型處理項(xiàng)目評(píng)論信息,再結(jié)合用戶的評(píng)分信息可得到用戶的偏好分布,進(jìn)而降低數(shù)據(jù)稀疏帶來(lái)的影響.

        問(wèn)題2.相比單領(lǐng)域的推薦算法,跨領(lǐng)域推薦算法能否提高評(píng)分預(yù)測(cè)的精度.

        在單領(lǐng)域推薦系統(tǒng)中,不同用戶的數(shù)據(jù)分布差異很大,有些用戶十分活躍,評(píng)分評(píng)論數(shù)很多,但大多數(shù)用戶只有很少的歷史記錄.歷史記錄豐富的用戶通常預(yù)測(cè)的準(zhǔn)確度較高,而歷史記錄稀少的用戶的偏好通常難以被準(zhǔn)確捕獲.在跨領(lǐng)域推薦中,由于輔助領(lǐng)域的引入,原本缺少的信息在一定程度上得到彌補(bǔ),進(jìn)而提高預(yù)測(cè)的準(zhǔn)確性.

        為了實(shí)現(xiàn)上述目標(biāo),我們將CDRS_FUDPAM與4個(gè)目前性能較好的模型進(jìn)行對(duì)比,分別是LFM、SVD++、HFT和USRMF.

        1)LFM:經(jīng)典推薦算法,通過(guò)矩陣分解預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分.

        2)SVD++:LFM使用了SVD矩陣分解來(lái)求預(yù)測(cè)評(píng)分,而SVD++在LFM的基礎(chǔ)上加入了隱性特征,使得算法性能得到進(jìn)一步提高.

        3)HFT[28]:將用戶對(duì)項(xiàng)目的評(píng)分與評(píng)論信息結(jié)合,并融入LDA主題模型,提取用戶更多的隱式偏好,使得推薦性能得到進(jìn)一步提升.

        4)USRMF[29]:使用LDA主題模型提取項(xiàng)目特征分布,結(jié)合用戶評(píng)分得到用戶的偏好分布與項(xiàng)目的隱特征,然后根據(jù)用戶偏好與項(xiàng)目的隱特征得到其近鄰用戶與項(xiàng)目,同時(shí)結(jié)合矩陣分解模型使得算法性能進(jìn)一步改善.

        5)CDRS_FUDPAM:本文提出的模型CDRS_FUDPAM,在使用LDA主題模型提取評(píng)論信息并結(jié)合評(píng)分信息、時(shí)間因子與注意力機(jī)制的基礎(chǔ)上,增加輔助領(lǐng)域信息,以降低單領(lǐng)域數(shù)據(jù)稀疏性的影響.

        如表6所示,LFM和SVD++僅僅依賴(lài)評(píng)分信息,而HFT和USRMF同時(shí)使用了評(píng)分和評(píng)論信息.最后一個(gè)是本文使用的CDRS_FUDPAM,除了評(píng)分與評(píng)論信息,還加入了不同領(lǐng)域的信息,能夠更全面地發(fā)掘用戶的偏好.

        表6 不同模型特點(diǎn)對(duì)比

        4.4 評(píng)分預(yù)測(cè)分析與討論

        4.4.1 評(píng)分預(yù)測(cè)對(duì)比

        通常,模型的性能受多個(gè)因素限制,本文通過(guò)隱因子數(shù)來(lái)對(duì)比各個(gè)模型的性能差異,隱因子數(shù)過(guò)少,所獲取的信息太少,造成模型欠擬合問(wèn)題;隱因子數(shù)過(guò)多,容易過(guò)擬合.故分別設(shè)定隱因子數(shù)為6,11,16,21,…,66,觀察各模型性能隨隱因子數(shù)的變化趨勢(shì).對(duì)于主題模型(HFT、USRMF和CDRS_FUDPAM),隱因子數(shù)和主題數(shù)相等,其中CDRS_FUDPAM的隱因子數(shù)為目標(biāo)領(lǐng)域的主題數(shù).對(duì)于矩陣分解模型(LFM和SVD++),隱因子數(shù)等于用戶或商品的隱向量長(zhǎng)度.各模型MAE和RMSE值隨隱因子數(shù)的變化趨勢(shì)分別如圖6和圖7所示.

        圖6 隱因子數(shù)對(duì)MAE值的影響

        圖7 隱因子數(shù)對(duì)RMSE值的影響

        圖6中,X軸為隱因子數(shù),Y軸為MAE值.圖中的各個(gè)曲線變化趨勢(shì)表明,MAE值一開(kāi)始與隱因子數(shù)呈負(fù)相關(guān),當(dāng)達(dá)到最小值后,繼續(xù)增大隱因子數(shù),MAE值的變化趨勢(shì)與之前相反.這說(shuō)明若要充分提取模型的特征就需要足夠的隱因子數(shù),隱因子數(shù)過(guò)少便無(wú)法實(shí)現(xiàn).此時(shí),通過(guò)增加隱因子數(shù)可以更充分地提取模型的特征.當(dāng)隱因子數(shù)超過(guò)臨界點(diǎn)后,繼續(xù)增加隱因子數(shù)無(wú)法改善模型的性能.

        圖7中,X軸為隱因子數(shù),Y軸為RMSE值.與MAE值隨隱因子數(shù)的變化趨勢(shì)類(lèi)似,RMSE值一開(kāi)始隨著隱因子數(shù)的增加而減小,當(dāng)達(dá)到最小值后,繼續(xù)增大隱因子數(shù),RMSE值非但不減小反而呈增大趨勢(shì).這說(shuō)明隱因子數(shù)過(guò)少時(shí),增加隱因子數(shù)可以更充分地提取模型的特征.當(dāng)隱因子數(shù)超過(guò)臨界點(diǎn)后,繼續(xù)增加隱因子數(shù)無(wú)法改善模型的性能.

        4.4.2 實(shí)驗(yàn)討論

        本文共選取了4種不同的典型算法與提出的CDRS_FUDPAM算法做對(duì)比,并對(duì)相應(yīng)的結(jié)果進(jìn)行分析.從圖6中可看出,MAE值和RMSE值隨著隱因子數(shù)的增加,均呈下降趨勢(shì).當(dāng)隱因子數(shù)超過(guò)臨界值時(shí),繼續(xù)增加隱因子數(shù),模型的性能沒(méi)有得到改善,反而越來(lái)越差,說(shuō)明此時(shí)模型逐漸趨于過(guò)擬合狀態(tài).而CDRS_FUDPAM算法的整體性能均優(yōu)于其它算法,說(shuō)明輔助領(lǐng)域信息的引入能夠有效改善數(shù)據(jù)稀疏帶來(lái)的影響.

        綜上所述,LFM和SVD++算法僅利用了數(shù)據(jù)集中的評(píng)分信息,但評(píng)分信息通常由于數(shù)據(jù)的稀疏性和評(píng)分的隨意性而難以完全反映用戶的偏好,故這兩種算法的MAE值和RMSE值偏高.而HFT和 USRMF在上面基礎(chǔ)上添加了評(píng)論信息,使用LDA發(fā)掘項(xiàng)目的隱特征,算法性能較前兩種算法有明顯提升.而本文提出的CDRS_FUDPAM算法加入了輔助領(lǐng)域信息,同時(shí)結(jié)合注意力機(jī)制,使得推薦的準(zhǔn)確性與時(shí)效性得到進(jìn)一步提升.

        5 總結(jié)與下一步工作

        本文給出了一種基于用戶動(dòng)態(tài)偏好和注意力的跨領(lǐng)域推薦方法,嘗試解決冷啟動(dòng)、數(shù)據(jù)稀疏性以及偏好時(shí)效性等傳統(tǒng)推薦算法的問(wèn)題.此方法將LDA提取的項(xiàng)目主題分布與用戶的評(píng)分信息結(jié)合,得到用戶動(dòng)態(tài)偏好,同時(shí)引入時(shí)間權(quán)重因子與注意力機(jī)制使得用戶的偏好更有時(shí)效性.最后,將源領(lǐng)域和目標(biāo)領(lǐng)域的用戶偏好進(jìn)行加權(quán)融合,使得推薦的準(zhǔn)確度進(jìn)一步增強(qiáng),推薦結(jié)果也更加豐富.

        論文的主要貢獻(xiàn)如下:

        1)通過(guò)LDA模型將項(xiàng)目的評(píng)論信息轉(zhuǎn)換為項(xiàng)目的主題分布,再結(jié)合用戶對(duì)項(xiàng)目的評(píng)分,得到用戶的動(dòng)態(tài)偏好.由于同時(shí)利用了評(píng)分和評(píng)論,使得評(píng)分?jǐn)?shù)據(jù)稀疏性帶來(lái)的影響明顯減小.

        2)引入時(shí)間影響因子與注意力機(jī)制,將用戶每個(gè)時(shí)刻的偏好與時(shí)間因子權(quán)重、注意力權(quán)重結(jié)合,使得對(duì)用戶整體偏好的估計(jì)更為準(zhǔn)確.

        3)利用BP神經(jīng)網(wǎng)絡(luò)來(lái)獲取源領(lǐng)域與目標(biāo)領(lǐng)域之間用戶偏好的映射關(guān)系,并將此映射關(guān)系應(yīng)用于所有用戶的偏好,將其從源領(lǐng)域映射到目標(biāo)領(lǐng)域,再結(jié)合目標(biāo)領(lǐng)域單獨(dú)的推薦結(jié)果,使得最終推薦結(jié)果更加準(zhǔn)確.

        本文也存在一定的不足,對(duì)于冷啟動(dòng)用戶和項(xiàng)目而言,推薦的準(zhǔn)確性仍有待提高.另外,用戶與項(xiàng)目的很多隱式特征并未充分利用.熱門(mén)程度較高的項(xiàng)目往往具有較高的評(píng)分,而熱門(mén)程度較低項(xiàng)目的評(píng)分往往具有隨機(jī)性.接下來(lái)的工作將逐步加入用戶的社交網(wǎng)絡(luò)、用戶的標(biāo)簽、資源的熱門(mén)程度等影響因子,提取更多的隱式特征用以改善模型的效果.

        猜你喜歡
        用戶信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        3D打印中的模型分割與打包
        關(guān)注用戶
        關(guān)注用戶
        如何獲取一億海外用戶
        展會(huì)信息
        无码一区二区三区AV免费换脸| 亚洲 欧美 日韩 国产综合 在线| 亚洲国产成人久久精品一区| 久久777国产线看观看精品| 成人欧美一区二区三区在线观看 | 一区二区高清免费日本| 人妻少妇被猛烈进入中文字幕| 天堂中文а√在线| 亚洲va无码手机在线电影| 天堂网在线最新版www中文网| 久久久国产不卡一区二区| 一区二区精品天堂亚洲av| 国产精品第一二三区久久| 伊人久久大香线蕉综合影院首页| 亚洲狠狠网站色噜噜| 福利网在线| 日本二区三区在线免费| 最新露脸自拍视频在线观看| 欧美交换配乱吟粗大25p| 久久一区二区三区四区| 在线免费观看视频播放| 免费人妖一区二区三区| 肉色欧美久久久久久久免费看| 真人无码作爱免费视频禁hnn| 91手机视频在线| 亚洲人成网站18男男| 人妻有码av中文幕久久| 三a级做爰片免费观看| 蜜臀久久99精品久久久久久小说| 欧美成人在线A免费观看| 午夜一区二区三区在线观看| 国产乱码一区二区三区精品| 亚洲av片一区二区三区| 亚洲AⅤ无码国精品中文字慕| 在线视频免费自拍亚洲| 五月四房播播| 欧美一片二片午夜福利在线快 | 国产一区二区三区色哟哟 | 国产无卡视频在线观看| 娜娜麻豆国产电影| 99视频在线国产|