亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合文本信息的多模態(tài)深度自編碼器推薦模型

        2021-11-16 01:53:08陳金廣徐心儀范剛龍
        關(guān)鍵詞:深度文本用戶

        陳金廣,徐心儀,范剛龍

        (1.西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710048;2.河南省電子商務(wù)大數(shù)據(jù)處理與分析重點(diǎn)實(shí)驗(yàn)室, 河南 洛陽(yáng) 471934;3.洛陽(yáng)師范學(xué)院 電子商務(wù)學(xué)院,河南 洛陽(yáng) 471934)

        0 引 言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),推薦系統(tǒng)作為緩解信息過(guò)載的重要技術(shù),已經(jīng)在電子商務(wù)[1]領(lǐng)域廣泛應(yīng)用。為了提供更好的個(gè)性化推薦服務(wù),準(zhǔn)確地預(yù)測(cè)用戶對(duì)商品的評(píng)分是推薦系統(tǒng)需要解決的關(guān)鍵問(wèn)題。目前推薦系統(tǒng)領(lǐng)域的研究方向主要分為基于內(nèi)容[2]的推薦、基于協(xié)同過(guò)濾[3-4]的推薦和混合推薦[5-6]3種。但是,傳統(tǒng)矩陣分解算法[7]難以適應(yīng)當(dāng)前復(fù)雜的環(huán)境。近年來(lái),深度學(xué)習(xí)技術(shù)飛速發(fā)展并在圖像等領(lǐng)域取得巨大的突破,越來(lái)越多的學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用到推薦系統(tǒng)中[8]。

        在基于深度學(xué)習(xí)并結(jié)合文本信息的推薦方法中,關(guān)鍵是獲取文本信息的上下文。在提取上下文特征方面,KIM等提出一種上下文感知的卷積矩陣分解模型[9],該模型將卷積神經(jīng)網(wǎng)絡(luò)融入概率矩陣分解模型中,提高了預(yù)測(cè)評(píng)分的準(zhǔn)確性,但在感知上下文方面存在較大欠缺。LIU等提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的CA-RNN模型[10],該模型引入了具有上下文感知的輸入矩陣和具有上下文感知的轉(zhuǎn)移矩陣,能夠較好地感知上下文,但是在聯(lián)系雙向上下文信息方面效果并不顯著。DEVLIN等提出BERT(bidirectional encoder representation from transformers)模型[11],該模型可以融合雙向上下文信息,進(jìn)一步地融合句中語(yǔ)義信息,從而更好地提取含有上下文信息的特征表示;在學(xué)習(xí)上下文特征方面,HOCHREITER等提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(long short-term memor,LSTM)[12],該模型只能獲得與前詞相關(guān)的前文信息,無(wú)法獲得上下文相關(guān)信息。ZHENG等在LSTM的基礎(chǔ)上提出雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型(bidirectional long short-term memory,BiLSTM)[13],該模型通過(guò)設(shè)計(jì)前后2個(gè)方向的LSTM,分別獲得當(dāng)前詞與上下文的關(guān)系。現(xiàn)有的推薦算法大多利用顯式的評(píng)級(jí)信息進(jìn)行推薦[14],但大部分平臺(tái)上的用戶只產(chǎn)生用戶瀏覽和點(diǎn)擊等隱式的交互信息[15],這使得傳統(tǒng)的基于評(píng)分預(yù)測(cè)的推薦算法不能滿足相關(guān)平臺(tái)的需要[16]。近年來(lái),基于用戶隱式歷史反饋信息的推薦算法受到了學(xué)術(shù)界的廣泛關(guān)注,研究發(fā)現(xiàn),隱式反饋在交互環(huán)境中可以成為顯式反饋的替代[17],這就為本文利用隱式反饋矩陣作為輸入進(jìn)行電影推薦提供了可能性。目前,主流的結(jié)合隱式反饋的推薦模型大多基于貝葉斯個(gè)性化排名框架[18]。DU等通過(guò)增加1個(gè)社會(huì)正則化項(xiàng)來(lái)擴(kuò)展貝葉斯個(gè)性化排名,算法同時(shí)針對(duì)用戶對(duì)商品的偏好及其社會(huì)關(guān)系進(jìn)行建模[19],雖然獲得了比BPR更好的推薦質(zhì)量,但存在建模的不確定性。PAN等在此基礎(chǔ)上進(jìn)一步提出了GBPR(group-based BPR)模型[20],這是一種將用戶對(duì)項(xiàng)目的偏好分組進(jìn)行聚合的方法,以減少建模的不確定性,提高推薦的準(zhǔn)確性。隨著深度學(xué)習(xí)的廣泛應(yīng)用,WU等提出協(xié)同降噪的自動(dòng)編碼器(denoising auto-encoders)[21],利用自動(dòng)編碼器技術(shù)結(jié)合隱式反饋,獲得了更好的推薦效果。

        本文通過(guò)BERT+BiLSTM結(jié)構(gòu)提取和學(xué)習(xí)電影標(biāo)題中短文本信息的上下文特征,融合文本信息做輔助推薦,解決了梯度消失和梯度爆炸的問(wèn)題。隱式反饋與深度自編碼器結(jié)合,通過(guò)矩陣分解,實(shí)現(xiàn)數(shù)據(jù)降維和特征抽取,解決了推薦過(guò)程中數(shù)據(jù)的稀疏問(wèn)題。在經(jīng)典數(shù)據(jù)集Movielens 100k和Movielens 1M上進(jìn)行實(shí)驗(yàn),平均絕對(duì)誤差損失值分別降低到0.045 8和0.046 0,均方誤差損失值分別降低到0.027 3和0.039 0。

        1 模型構(gòu)建技術(shù)

        1.1 隱式反饋

        在顯式反饋推薦中,用戶對(duì)電影的評(píng)分范圍為1~5,表示用戶對(duì)電影的傾向程度,分?jǐn)?shù)越高,傾向程度越大。而在隱式反饋推薦中,只包括了用戶對(duì)電影有評(píng)分和沒(méi)有評(píng)分2種情況,反映用戶對(duì)電影有傾向和暫時(shí)沒(méi)有傾向。顯式評(píng)分矩陣轉(zhuǎn)換為隱式評(píng)分矩陣如圖1所示。圖1中的空白部分表示用戶對(duì)電影沒(méi)有評(píng)分記錄。

        圖1 顯式評(píng)分矩陣轉(zhuǎn)換為隱式評(píng)分矩陣Fig.1 Explicit scoring matrix converted to implicit scoring matrix

        假設(shè)m和n分別表示用戶和電影的集合。定義用戶電影隱式評(píng)分矩陣:

        Rm×n=[rui|u∈m,i∈n]

        (1)

        (2)

        式中:Rm×n為使用隱式評(píng)分填充的矩陣;rui表示在Rm×n中用戶u對(duì)電影i的隱式評(píng)分,rui值為1,表示用戶對(duì)該電影有傾向,否則沒(méi)有。

        1.2 深度自編碼器

        對(duì)于深度自編碼器模型[22-23],網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 深度自編碼器模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of deep auto-encoder model

        輸入層為具有獨(dú)熱編碼的稀疏二進(jìn)制向量,向量傳入嵌入層進(jìn)行編碼和特征學(xué)習(xí)。嵌入層由編碼器和解碼器組成,用于映射向量。其中,編碼器的256維全連接層用于將高維原始數(shù)據(jù)轉(zhuǎn)換到低維空間,解碼器則為編碼器的逆過(guò)程,將低維數(shù)據(jù)轉(zhuǎn)換到高維原始空間。

        在編碼器和解碼器之間存在隱藏層,隱藏層中使用Relu作為激活函數(shù),其表達(dá)式為

        R(e)=max(e,0)

        (3)

        同時(shí),為了防止過(guò)擬合,還加入了dropout層。dropout率設(shè)置為0.1。

        輸出層的輸出由模型的具體功能決定。本文模型中,深度自編碼器的輸出為用戶對(duì)電影的預(yù)測(cè)評(píng)分。

        1.3BERT+BiLSTM

        BERT+BiLSTM結(jié)構(gòu)由BERT、BiLSTM模塊組成,BERT+BiLSTM結(jié)構(gòu)如圖3所示。圖3中,BERT模型是基于多層雙向Transformer的預(yù)訓(xùn)練語(yǔ)言理解模型[11],該模型由輸入層、編碼層和輸出層3部分構(gòu)成。本文利用其編碼層進(jìn)行字向量的特征提取,編碼層是Transformer[24],即“Trm”層?!癟rm”層是由多個(gè)重疊的單元組成,并且每個(gè)單元由多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,單元內(nèi)部的子層之間設(shè)計(jì)了殘差連接,可以將上一層的信息完整地傳到下一層,從而計(jì)算詞語(yǔ)之間的相互關(guān)系, 并利用所計(jì)算的關(guān)系調(diào)節(jié)權(quán)重,提取文本中的重要特征。

        圖3 BERT+BiLSTM結(jié)構(gòu)圖Fig.3 Structure of BERT+BiLSTM

        BiLSTM即雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的出現(xiàn)是為了解決LSTM在單向的處理中模型只分析到文本的“上文”信息,而忽略可能存在聯(lián)系的“下文”信息[25]。本文使用的BiLSTM結(jié)構(gòu)是由向前LSTM和向后LSTM組合而成,較單向的LSTM能夠?qū)W習(xí)到上下文特征信息,更好地捕捉雙向語(yǔ)義依賴。

        2 多模態(tài)深度自編碼器模型

        融合文本信息的多模態(tài)深度自編碼器模型結(jié)構(gòu)如圖4所示。

        圖4 模型結(jié)構(gòu)圖Fig.4 Model structure diagram

        2.1 數(shù)據(jù)預(yù)處理

        根據(jù)n個(gè)用戶對(duì)m部電影的評(píng)分生成隱式反饋評(píng)分矩陣Rm×n,根據(jù)電影類型文本信息和電影標(biāo)題文本信息分別生成用戶-電影類型矩陣Ru×g和用戶-電影標(biāo)題矩陣Ru×t,3個(gè)矩陣均為由one-hot向量組成的矩陣。

        2.2 模型輸入

        將Rm×n作為深度自編碼器的原始輸入,Ru×g作為模型中嵌入層的輸入,將Ru×t作為BERT+BiLSTM結(jié)構(gòu)的輸入。

        2.3 特征學(xué)習(xí)

        深度自編碼器對(duì)Rm×n進(jìn)行1次編碼解碼得到評(píng)分特征Tm×n。Ru×g經(jīng)過(guò)嵌入層、平滑層和全連接層進(jìn)行特征學(xué)習(xí),得到電影類型文本特征Tu×g;在BERT+BiLSTM結(jié)構(gòu)中,BERT部分實(shí)現(xiàn)對(duì)Ru×t進(jìn)行文本數(shù)據(jù)向量化和特征提取,BiLSTM部分則實(shí)現(xiàn)向量化特征學(xué)習(xí),得到電影標(biāo)題的上下文特征Tu×t。

        2.4 特征融合

        獲取學(xué)習(xí)到的特征Tm×n、Tu×g和Tu×t,假設(shè)T為融合后的特征,使用函數(shù)Concatenate(簡(jiǎn)記為C)對(duì)3個(gè)特征實(shí)現(xiàn)特征融合,即

        T=C(Tm×n,Tu×g,Tu×t)

        (4)

        將T再次輸入深度自編碼器中,對(duì)T實(shí)現(xiàn)二次編碼解碼,得到預(yù)測(cè)評(píng)分矩陣R′m×n。

        2.5 模型輸出

        輸出預(yù)測(cè)評(píng)分矩陣R′m×n,用于后續(xù)電影推薦。

        3 結(jié)果與分析

        3.1 數(shù)據(jù)集

        為了驗(yàn)證本文模型的有效性,采用Movielens 100k和Movielens 1M電影評(píng)分?jǐn)?shù)據(jù)集。它由明尼蘇達(dá)大學(xué)的Lens研究小組提供,用于測(cè)試和驗(yàn)證所提出的模型和其他用于比較的模型的性能。

        在讀取數(shù)據(jù)后,用評(píng)分?jǐn)?shù)據(jù)填充評(píng)分矩陣,以用戶為行,項(xiàng)目為列,分別構(gòu)成Movielens 100k和Movielens 1M的矩陣。Movielens 1M和Movielens 100k數(shù)據(jù)集描述信息見(jiàn)表1。

        表1 Movielens 1M和Movielens 100k數(shù)據(jù)集描述信息Tab.1 Movielens 1M and Movielens 100k datasets description information

        3.2 評(píng)價(jià)指標(biāo)

        采用均方誤差(MSE,簡(jiǎn)記為EMS)和平均絕對(duì)誤差(MAE,簡(jiǎn)記為EMA)評(píng)價(jià)模型的預(yù)測(cè)性能,即

        (5)

        (6)

        3.3 模型設(shè)置

        本文模型的整體實(shí)現(xiàn)環(huán)境為Keras=2.2.4,Tensorflow-gpu=1.12.0。在優(yōu)化器選取中,分別采用Adadelta、Adagrad、Adam、Adamax、RMSprop以及SGD等6個(gè)主流優(yōu)化器進(jìn)行對(duì)比實(shí)驗(yàn),在不同優(yōu)化器下取得的均方誤差見(jiàn)表2。

        表2 不同優(yōu)化器下取得的均方誤差Tab.2 MSE obtained under different optimizers

        從表2可以看出,在Movielens 1M數(shù)據(jù)集下,Adam優(yōu)化器取得了最低損失值;在Movielens 100k數(shù)據(jù)集下,Adagrad優(yōu)化器取得了最低損失值,而Adam優(yōu)化器的損失值與Adagrad優(yōu)化器相差0.003 6,均方誤差結(jié)果處于中等。究其原因可知,通過(guò)與Movielens 1M對(duì)比,Movielens 100k數(shù)據(jù)集的數(shù)據(jù)量過(guò)小,易造成精度過(guò)低和損失率升高,所以求取在2個(gè)數(shù)據(jù)集下MSE的平均值,以平均值作為衡量標(biāo)準(zhǔn),得到Adam優(yōu)化器明顯優(yōu)于其他優(yōu)化器。

        因此,本文模型采用Adam優(yōu)化器,設(shè)置初始學(xué)習(xí)率為0.000 1,batch-size為64,在數(shù)據(jù)集MovieLens 1M和Movielens 100k的基礎(chǔ)下訓(xùn)練模型。

        3.4 對(duì)比實(shí)驗(yàn)

        圖5~6分別為基于Movielens 1M和Movielens 100k數(shù)據(jù)集,MAE和MSE在訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)上隨訓(xùn)練輪數(shù)增加的變化情況。

        (a) Movielens 1M

        從圖5~6可以看出,在Movielens 1M和Movielens 100k數(shù)據(jù)集上,隨著訓(xùn)練輪數(shù)的增加,MAE和MSE損失值先迅速下降然后趨于平穩(wěn)。究其原因可知,隨著訓(xùn)練數(shù)據(jù)集的增加及訓(xùn)練輪數(shù)的增長(zhǎng),模型能夠?qū)W習(xí)到的用戶和電影的特征增多,使模型預(yù)測(cè)更準(zhǔn)確,因此損失下降。而當(dāng)模型能夠?qū)W習(xí)到的特征趨于飽和時(shí),隨著輪數(shù)的增長(zhǎng),損失值則趨于平穩(wěn)。

        (a) Movielens 1M

        因?yàn)镾VD和PMF是依照矩陣分解原理實(shí)現(xiàn)推薦的傳統(tǒng)算法以及實(shí)驗(yàn)條件的限制,所以選取這2種算法與本文模型進(jìn)行實(shí)驗(yàn)對(duì)比,以MAE作為評(píng)價(jià)指標(biāo)。不同模型在不同數(shù)據(jù)集上的MAE損失見(jiàn)表3。

        表3 不同模型在不同數(shù)據(jù)集上的MAE損失Tab.3 MAE loss of different models on different datasets

        從表3可以看出,在2個(gè)不同的數(shù)據(jù)集上,本文模型的結(jié)果明顯優(yōu)于所比較的傳統(tǒng)算法。在本文模型中,對(duì)不同矩陣實(shí)現(xiàn)了針對(duì)性處理,因此在訓(xùn)練模型的過(guò)程中,提升了矩陣分解的效率和模型的預(yù)測(cè)效果,從而使損失值降低。但是,在Movielens 1M數(shù)據(jù)集和Movielens 100k數(shù)據(jù)集上,單個(gè)模型的MAE值差別不大,針對(duì)本文模型而言,僅相差0.000 2。原因可能在于MAE評(píng)價(jià)指標(biāo)對(duì)數(shù)據(jù)集中的異常點(diǎn)有更好的魯棒性,而且使用固定學(xué)習(xí)率訓(xùn)練模型時(shí),更新的梯度始終相同,不利于MAE值的收斂以及模型的學(xué)習(xí)。

        由于數(shù)據(jù)集較為穩(wěn)定,并且MSE在固定的學(xué)習(xí)率下可以實(shí)現(xiàn)有效收斂,因此在MSE評(píng)價(jià)指標(biāo)下,進(jìn)行了更為詳細(xì)的對(duì)比實(shí)驗(yàn)。

        表4給出了本文模型、SVD、PMF、PMMMF、SCC、RMbDn及Hern的MSE損失值。

        表4 不同模型在不同數(shù)據(jù)集上的平均絕對(duì)誤差損失Tab.4 MSE loss of different models on different datasets

        從表4可以看出,本文模型在Movielens 1M數(shù)據(jù)集的基礎(chǔ)上進(jìn)行實(shí)驗(yàn)時(shí),損失值降低到0.027 3,明顯低于其他對(duì)比模型的損失值。而在Movielens 100k上進(jìn)行實(shí)驗(yàn)時(shí),得到的損失值與RMbDn模型以0.039 0并列第一。分析原因可知,RMbDn和本文模型均使用深度學(xué)習(xí)進(jìn)行推薦,能夠更好地捕捉到深層次的語(yǔ)義信息,因此對(duì)比其他模型,取得了更好的效果;同時(shí)觀察表4,發(fā)現(xiàn)本文模型在Movielens 100k上的損失相較在Movielens 1M上增加了0.011 7,存在較大差異。分析原因可知,Movielens 100k相較于Movielens 1M數(shù)據(jù)量小,因此在小樣本下使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)標(biāo)題、類型等文本數(shù)據(jù)的語(yǔ)義信息進(jìn)行理解時(shí),可能較難學(xué)習(xí)到語(yǔ)義信息對(duì)用戶興趣遷移的影響,從而使相同模型在不同數(shù)據(jù)集上的損失值升高。因此本文提出的模型更適合在數(shù)據(jù)量較大的情況下使用。

        綜上所述,與已有的主流模型相比,本文模型具有更低的損失值,說(shuō)明將文本信息融合在深度自編碼器中可獲得更多評(píng)分預(yù)測(cè)的信息,提高個(gè)性化推薦效率。

        4 結(jié) 論

        1) 提出了融合文本信息的多模態(tài)深度自編碼器推薦模型,在2個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了模型的有效性,達(dá)到了性能提升的效果。

        2) 該模型將隱式反饋評(píng)分矩陣作為基礎(chǔ),使用BERT+BiLSTM結(jié)構(gòu)和模型的嵌入層,實(shí)現(xiàn)不同文本信息的特征學(xué)習(xí),在深度自編碼器中完成不同特征的深層次融合,可明顯降低推薦過(guò)程中的損失。

        3) 由于顯式反饋仍存在研究的價(jià)值,應(yīng)考慮結(jié)合顯式反饋信息進(jìn)行混合推薦。

        猜你喜歡
        深度文本用戶
        深度理解一元一次方程
        在808DA上文本顯示的改善
        深度觀察
        深度觀察
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        深度觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国内精品人人妻少妇视频| 精品日韩欧美一区二区在线播放 | 在线视频观看国产色网| 一区二区三区国产| 欧美中文字幕在线| 中文字幕精品永久在线| 日韩av一区二区观看| 伊人久久大香线蕉av不卡| 久久免费视频国产| 午夜一区二区三区av| 人妻制服丝袜中文字幕| 成人综合网站| 激情丁香婷婷| 日本高清二区视频久二区| 亚洲av综合国产av日韩| 男女性高爱潮免费网站| 无码一区二区三区不卡AV| 国产伦奸在线播放免费| 老师开裆丝袜喷水视频| 久久久久国产精品熟女影院| 欧美日韩高清一本大道免费| 日本岛国一区二区三区四区| 人妻丰满熟妇岳av无码区hd| 国产日韩欧美亚洲精品中字| 亚洲精品高清av在线播放| 亚洲一区二区三区精品| 欧美最大胆的西西人体44| 久久久亚洲欧洲日产国产成人无码| 国产av熟女一区二区三区蜜臀| 国产在线第一区二区三区| 国产午夜福利小视频合集| 国产三级视频在线观看视主播| 亚洲中文字幕精品视频| 国产精品久久国产精品99| 国产在线91观看免费观看| 国产精品天堂在线观看| 一本久道综合色婷婷五月| 久热在线播放中文字幕| 亚洲一区二区三区99区| 人人妻人人澡人人爽精品日本| 真人直播 免费视频|