熊文武 張守震
摘 要:通過一種基于RNN神經(jīng)網(wǎng)絡(luò)模型的推薦方法,對(duì)該模型進(jìn)行深入研究,該模型的目標(biāo)就是通過對(duì)非線性網(wǎng)絡(luò)的深層學(xué)習(xí),從而創(chuàng)建一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),利用此網(wǎng)絡(luò)結(jié)構(gòu)去獲取到用戶和項(xiàng)目之間的深層次特征信息,進(jìn)而預(yù)測(cè)其評(píng)分,進(jìn)行用戶的推薦。注意力交互網(wǎng)絡(luò)在信息推薦中的作用。包括三個(gè)功能模塊——注意力模型、交互中心模塊和用戶/項(xiàng)目中心模塊。注意力模型主要是學(xué)習(xí)文本中上下文作用的重要性。交互中心模型這是注重上下文中每個(gè)文本和用戶、項(xiàng)目之間的交互,同時(shí)去捕獲上下對(duì)用戶個(gè)項(xiàng)目的作用。最后,用戶/項(xiàng)目中心模塊的作用獲得上下文感知的用戶表示和項(xiàng)目表示。
關(guān)鍵詞:智能推薦系統(tǒng);貝葉斯網(wǎng);深度神經(jīng)網(wǎng)絡(luò)
一、數(shù)據(jù)特征提取和預(yù)處理
在特征提取的階段,不同物品的描述會(huì)被提取出來(lái)。盡管可以使用任意的一種表示,例如多維數(shù)據(jù)表示,但最常見的方法是從底層數(shù)據(jù)中提取關(guān)鍵詞。做出這種選擇是因?yàn)榉墙Y(jié)構(gòu)化文本描述通常在各種領(lǐng)域中廣泛使用,并且它們?nèi)匀皇亲钭匀坏拿枋鑫锲返姆绞?。在很多情況下,可以用多個(gè)字段來(lái)描述物品的各個(gè)方面。特征表示和清洗此過程在使用非結(jié)構(gòu)化表示時(shí)顯得尤為重要。特征提取階段能夠從產(chǎn)品或者網(wǎng)頁(yè)的非結(jié)構(gòu)化的描述中得到一系列單詞。
過從物品的描述中提取的大部分文本將包含許多與物品相關(guān)性不強(qiáng)的常用詞,詞干提取等步驟后,關(guān)鍵詞被轉(zhuǎn)換為向量空間表示。每個(gè)單詞也稱為項(xiàng)。在向量空間表示中,文檔被表示為一組單詞及它們出現(xiàn)的頻率。盡管使用單詞出現(xiàn)的原始頻率可能是誘人的想法,但這通常不可取。因?yàn)榻?jīng)常出現(xiàn)的詞通常在統(tǒng)計(jì)學(xué)上差異較小,所以這些詞經(jīng)常被降低權(quán)重。這與停用詞的原理相似,只不過采用的是“軟”的權(quán)重打折的方式,而不是完全剔除。
二、RNN神經(jīng)網(wǎng)絡(luò)的推薦模型
提出的架構(gòu)部分受到最近在自動(dòng)回答(QA)場(chǎng)景中提出的基于 LSTMs的模型的啟發(fā)。選擇基于一個(gè)簡(jiǎn)單的洞察力:在QA中,如果給出一個(gè)問題,基于可用事實(shí)提供答案,推薦系統(tǒng)可以根據(jù)用戶的個(gè)人資料對(duì)可用項(xiàng)的描述提供建議。因此,我們決定利用在問題和用戶配置文件之間進(jìn)行類比設(shè)計(jì)以下架構(gòu)。該體系結(jié)構(gòu)實(shí)現(xiàn)了基于內(nèi)容的推薦系統(tǒng),其能夠預(yù)測(cè)分?jǐn)?shù),并定義了用戶和一個(gè)特定的項(xiàng)目。簡(jiǎn)而言之,本章的方法基于兩個(gè)不同的模塊,它們共同學(xué)習(xí)每個(gè)用戶的連續(xù)矢量表示和產(chǎn)生偏好估計(jì)分類器的每個(gè)項(xiàng)目。
通過相關(guān)實(shí)驗(yàn),我們?cè)u(píng)估了利用 MSE 和 RMSE 為評(píng)價(jià)指標(biāo)的推薦任務(wù)中,上述深度神經(jīng)網(wǎng)絡(luò)架構(gòu)相比幾個(gè)基線的有效性。首先,我們將其與基于(淺層)神經(jīng)網(wǎng)絡(luò)的其他模型進(jìn)行了比較,然后,我們根據(jù)最先進(jìn)的技術(shù),如矩陣分解算法、用戶-用戶和項(xiàng)目-項(xiàng)目協(xié)同過濾,對(duì)其進(jìn)行了評(píng)估。針對(duì)數(shù)據(jù)集收集的方法描述如下圖1所示。
對(duì)該表的快速分析顯示,兩個(gè)數(shù)據(jù)集之間差異很大。ML1M 數(shù)據(jù)集的規(guī)模不管是在用戶、項(xiàng)目和評(píng)分的數(shù)量上都比Amazon數(shù)據(jù)集小很多,ML1M 數(shù)據(jù)集的稀疏性較小,因此更適合于基于協(xié)同過濾的算法。另一方面,Amazon 數(shù)據(jù)集更稀疏,這使得推薦任務(wù)非常具有挑戰(zhàn)性。
深度神經(jīng)網(wǎng)絡(luò)DNN:利用深度神經(jīng)網(wǎng)絡(luò)去處理大規(guī)模數(shù)據(jù)問題,把深度網(wǎng)絡(luò)應(yīng)用到推薦模型中,用來(lái)訓(xùn)練大規(guī)模數(shù)據(jù),利用訓(xùn)練結(jié)果去預(yù)估未來(lái),從而做出推薦。遞歸推薦網(wǎng)絡(luò)RRN:通過賦予用戶和長(zhǎng)短時(shí)記憶 LSTM 自回歸模型實(shí)現(xiàn),用來(lái)捕獲動(dòng)態(tài),以及更傳統(tǒng)的低秩分解。該模型不學(xué)習(xí)潛在狀態(tài),而只需要學(xué)習(xí)狀態(tài)轉(zhuǎn)換函數(shù)。從而提高預(yù)測(cè)精度。
三、基于CNN的深度建模推薦方法
一種融合CNN卷積神經(jīng)網(wǎng)絡(luò)和雙層注意力機(jī)制的深度建模的推薦方法,該方法基于深度學(xué)習(xí)的多交互的推薦模型,使用詞向量嵌入技術(shù)對(duì)評(píng)價(jià)文本進(jìn)行表示,基于Attention注意力機(jī)制的方法進(jìn)一步對(duì)輸入信息進(jìn)行優(yōu)化。使用Attention注意力機(jī)制方式改進(jìn)用戶、項(xiàng)目和評(píng)價(jià)文本的嵌入,利用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),充分挖掘評(píng)價(jià)文本中的隱含特征,并分別和用戶、項(xiàng)目進(jìn)行交互,得到交互的嵌入表示。
(一)基于文本的深度特征提取
深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的能力很強(qiáng)。同時(shí),深度神經(jīng)網(wǎng)絡(luò)也能自動(dòng)對(duì)非線性結(jié)構(gòu)進(jìn)行學(xué)習(xí)。并且針對(duì)各種復(fù)雜場(chǎng)景,深度神經(jīng)網(wǎng)絡(luò)能夠從中學(xué)習(xí)更深層次的特征并實(shí)現(xiàn)深層次的數(shù)據(jù)特征表示。設(shè)計(jì)評(píng)論文本的深度特征提取的建模方法,該方法的基礎(chǔ)是深度協(xié)作神經(jīng)網(wǎng)絡(luò)模型(DeepCoNN),在這基礎(chǔ)上對(duì)其DeepCoNN模型進(jìn)行了改進(jìn),并在把該模型作為本章對(duì)比實(shí)驗(yàn)?zāi)P?,從而根?jù)對(duì)比結(jié)果來(lái)驗(yàn)證本章設(shè)計(jì)模型的有效性。
(二)基于圖卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)協(xié)同推薦算法
基于圖卷積神經(jīng)協(xié)同推薦算法可以將用戶的歷史行為記錄與候選物品的高階隱藏信息挖掘出來(lái),彌補(bǔ)了協(xié)同過濾推薦算法無(wú)法利用項(xiàng)目對(duì)用戶的高階隱藏有用信息,有效解決傳統(tǒng)協(xié)同過濾算法面臨的反饋數(shù)據(jù)稀疏和推薦結(jié)果解釋性差的問題,提升推薦算法的性能。
傳統(tǒng)的協(xié)同過濾算法是根據(jù)用戶對(duì)物品的歷史交互記錄進(jìn)行推薦,忽略了很多高階有用的信息但是其具有方便快捷可快速部署的優(yōu)點(diǎn)。圖神經(jīng)網(wǎng)絡(luò)輔助的推薦算法可以通過鏈路預(yù)測(cè)的方式聚合本地化高階信息,但卻存在聚合效率慢和無(wú)法收斂的情況。圖卷積神經(jīng)網(wǎng)絡(luò)輔助的推薦算法繼承了圖神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),并改進(jìn)了聚合方式,因其自身需要全圖迭代的特性因此對(duì)于無(wú)監(jiān)督任務(wù)的效果不佳。為了改善上述問題本文提出基于自適應(yīng)圖卷積注意力神經(jīng)協(xié)同推薦算法,本算法通過添加自適應(yīng)填充矩陣和注意力機(jī)制重新分配權(quán)重在一定程度上能緩解稀疏程度,并通過自適應(yīng)聚合系數(shù)的迭代方式有效優(yōu)化了圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)于無(wú)監(jiān)督任務(wù)的特征處理方式。
四、總結(jié)
深度學(xué)習(xí)可以從海量的數(shù)據(jù)集中挖掘出數(shù)據(jù)的本質(zhì)特征,并且可以通過多源異構(gòu)數(shù)據(jù)中進(jìn)行自特征學(xué)習(xí)。將深度學(xué)習(xí)與推薦算法進(jìn)行融合,并且利用多源異構(gòu)數(shù)據(jù),去緩解數(shù)據(jù)稀疏性的問題。在這個(gè)方向進(jìn)行研究后發(fā)現(xiàn),利用深度學(xué)習(xí)的方法去分析上下文信息,可以有效的緩解數(shù)據(jù)稀疏問題,并提高推薦的準(zhǔn)確度。
參考文獻(xiàn):
[1]任悅,閆仁武.基于大數(shù)據(jù)的UserBased推薦算法的研究[J].計(jì)算機(jī)與數(shù)字工程,2022,50(01):75-79.
[2]杜雨晅,王巍,張闖,鄭小麗,蘇嘉濤,王楊洋.基于自適應(yīng)圖卷積注意力神經(jīng)協(xié)同推薦算法[J/OL].計(jì)算機(jī)應(yīng)用研究:1-9[2022-03-18]..
[3]李增暉. 融合深度學(xué)習(xí)與矩陣分解的推薦算法研究與應(yīng)用[D].河北工程大學(xué),2021.DOI:10.27104/d.cnki.ghbjy.2021.000547.
[4]王磊. 基于深度學(xué)習(xí)的推薦算法與系統(tǒng)研究[D].北京郵電大學(xué),2021.DOI:10.26969/d.cnki.gbydu.2021.000946.