亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合LDA與注意力的網(wǎng)絡(luò)信息個性化推薦方法

        2022-02-09 02:05:14張永賓趙金樓
        計算機仿真 2022年12期
        關(guān)鍵詞:語義單詞用戶

        張永賓,趙金樓

        (1. 哈爾濱工程大學(xué)經(jīng)濟管理學(xué)院,黑龍江 哈爾濱 150001;2. 黑龍江科技大學(xué)管理學(xué)院,黑龍江 哈爾濱 150022)

        1 引言

        隨著各類資訊、短視頻,以及購物平臺的大量涌現(xiàn),信息的傳遞和商品的推廣變得越來越便利。平臺和用戶之間相互糾纏,為用戶提供便捷生活的同時,平臺和商家也能獲得更多利益。為了更好的達(dá)到用戶與平臺利益最大化,信息挖掘與推薦成為至關(guān)重要的環(huán)節(jié)[1]。根據(jù)用戶行為推測出其興趣方向,并為其提供個性化推薦。能夠促進(jìn)平臺的精準(zhǔn)服務(wù),提高用戶的搜索效率。對于當(dāng)前的各類網(wǎng)絡(luò)平臺而言,個性化推薦都是具有極大商業(yè)價值的技術(shù)板塊。

        為了反映用戶的偏好,大部分推薦系統(tǒng)采用標(biāo)簽的形式進(jìn)行資源整合??梢酝ㄟ^用戶選擇或者系統(tǒng)自動歸納的方法來為用戶分配標(biāo)簽,而系統(tǒng)分配標(biāo)簽可以依據(jù)圖或者關(guān)鍵詞[2]。其中用戶選擇很容易影響體驗感,并且容易出現(xiàn)標(biāo)簽稀疏與可信度較低等問題。系統(tǒng)分配標(biāo)簽則面臨非結(jié)構(gòu)化數(shù)據(jù)的處理問題。尤其是對主題和情感的挖掘處理,目前常見的分析方法有交叉熵[3]、TF-IDF[4]、PLSA[5]和LDA[6]等。LDA作為主題構(gòu)建模型,能夠采取無監(jiān)督的方法和概率的形式對主題進(jìn)行聚類。LDA不僅可以實現(xiàn)語義分析,還可以完成隱含主題的提取,以及文檔間聯(lián)系。但是,采取LDA生成模型的時候,容易產(chǎn)生語義缺失和興趣影響,從而降低標(biāo)簽的準(zhǔn)確性。在此基礎(chǔ)上,文本標(biāo)簽自身也受多重因素影響,不同因素對不同標(biāo)簽的影響程度也存在差異,且這種影響權(quán)重難以確定。為此,一些推薦算法采取注意力模型來解決該問題。如文獻(xiàn)[7]基于模型和訓(xùn)練得到標(biāo)簽之后,引入注意力來計算文本的特征,該方法的動態(tài)效果較好。同樣,文獻(xiàn)[8]也在網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ)上融合了注意力機制,通過加權(quán)方式來描述對不同特征的關(guān)注度。

        結(jié)合LDA與注意力機制的優(yōu)點和特性,本文將其采取融合處理。利用LDA進(jìn)行文檔標(biāo)簽的提取,引入HowNet的分層機制來計算相似度,從而避免采用距離方式求解相似度對精度的影響。構(gòu)建注意力模型,并進(jìn)行注意力注入。通過實體與語義兩部分的注入,有效挖掘隱藏興趣主題與實體的對應(yīng)關(guān)系。

        2 LDA模型

        LDA為文檔構(gòu)建模型,訓(xùn)練數(shù)據(jù)集文本采取one-hot編碼后,作為LDA輸入,經(jīng)過模型訓(xùn)練后得到數(shù)據(jù)集對應(yīng)的主題與詞分布情況。LDA模型的處理過程描述如圖1所示。其中,DT表示參與訓(xùn)練的數(shù)據(jù)集;di表示數(shù)據(jù)i;a表示訓(xùn)練數(shù)據(jù)的輸入?yún)?shù);θt表示文檔t對應(yīng)主題分布;nti表示單詞的主題編號;wti表示主題分布;N表示主題數(shù)量;φn表示主題n的分布;b表示主題分布參數(shù)。

        圖1 LDA模型的處理過程

        利用LDA模型,可以歸納出文檔中主題與詞的分布情況。但是,在這種框架下的主題單詞選取一般具有局限性,無法保證單詞選取的完整性,進(jìn)而影響推薦效果。于是,這里引入HowNet來處理單詞語義,增強算法的語義理解能力。HowNet庫能夠?qū)崿F(xiàn)對中文詞匯的處理,通過分層機制,將單詞分解成以義原為最小單位來描述,這正好與LDA的“主題—文檔—詞”相對應(yīng)。與其它詞典相比,它能夠不通過距離計算得到語義間的相似性。對于任意義原xi,其信息量的求解方式為

        (1)

        其中,n(xi)為xi的子節(jié)點數(shù)目;N為所有義原數(shù)目。根據(jù)最大信息量,義原xi與xj間的相似程度表示如下

        (2)

        由于底層義原與上層概念之間為多對一關(guān)系,概念Ci與Cj分別為Ci={xi1,xi2,…,xim}、Cj={xj1,xj2,…,xjk}。于是,概念Ci與Cj相似程度的計算公式表示如下

        (3)

        其中,S(Ai,Aj)代表Ci與Cj集合相似性;Ni與Nj依次代表Ci與Cj的記錄個數(shù)。通過引入Ni與Nj相關(guān)項,可以對S(Ai,Aj)的計算過程進(jìn)行偏差控制。

        單詞由多個概念描述構(gòu)成,依據(jù)概念相似性,可以進(jìn)一步求解得到單詞的相似性。將單詞wi與wj分別表示為wi={Ci1,Ci2,…,Cip}、wj={Cj1,Cj2,…,Cjq},那么wi與wj相似程度公式如下

        (4)

        利用HowNet分層結(jié)構(gòu),可以將相似單詞采取分層做細(xì)粒度分析,從而改善單詞與主題的映射精度?;贚DA的整體訓(xùn)練流程描述為:

        步驟1:得到文檔t的主題分布

        θt=Dirichlet(a),t∈[1,DT]

        (5)

        步驟2:得到主題詞分布

        φn=Dirichlet(b),t∈[1,N]

        (6)

        步驟3:利用θt確定nti所屬主題編碼與詞分布

        (7)

        步驟4:計算相似度。通過分層機制,結(jié)合義原與概念,計算得到任意兩個單詞wi與wj之間的匹配程度。

        3 注意力設(shè)計

        3.1 注意力模型

        注意力機制能夠更好的為關(guān)注事務(wù)服務(wù),針對重點信息進(jìn)行高效處理。此外,因為網(wǎng)絡(luò)學(xué)習(xí)無法較好的體現(xiàn)各特征詞的重要性,所以本文將注意力嵌入到網(wǎng)絡(luò)層中,通過權(quán)值的改變,優(yōu)化推薦內(nèi)容的精確程度。

        對于訓(xùn)練輸入的文本,采取BOW編碼,經(jīng)過LDA處理得到每一個文本對應(yīng)的主題分布情況。文本中的特征單詞分布可以表示為

        (8)

        其中,[w1,w2,…,wn]是對應(yīng)主題單詞分布;[p1,p2,…,pn]是分布概率;n為主題單詞數(shù)量。把文本與主題一起遞交給HowNet,通過訓(xùn)練得到詞向量。HowNet能夠最大程度獲取文本中的主題特征,并將詞向量[w1,w2,…,wn]提交至網(wǎng)絡(luò)學(xué)習(xí)。學(xué)習(xí)網(wǎng)絡(luò)會利用傳輸層提取出上下文內(nèi)容,并利用隱層求解出全部隱態(tài)結(jié)果,最終得到隱態(tài)輸出為

        (9)

        由于存在詞間依賴,網(wǎng)絡(luò)訓(xùn)練過程中需要考慮詞間關(guān)聯(lián),于是引入Softmax層,在該層采取特性分類

        (10)

        其中,X∈R為輸入數(shù)據(jù);din表示輸入數(shù)據(jù)的維度。在Softmax層中,會取最大概率進(jìn)行輸出。

        3.2 注意力注入

        在推薦算法進(jìn)行預(yù)測時,為了防止出現(xiàn)隱藏興趣主題無法找到實體情況的發(fā)生,在注意力層中將其分為實體與語義兩部分處理。其中,先啟動實體部分,完成重要語義實體注入。再啟動語義部分,根據(jù)傳輸路徑的關(guān)注度,注入合理的相近實體。

        由用戶和實體間的關(guān)系,可以構(gòu)建關(guān)于它們的圖G={(u,e)|u,e∈U∪E},其中,U與E分別表示用戶與實體集合。利用E中各元素的連接性,可以得到它們的關(guān)聯(lián)路徑

        (11)

        其中,l表示階數(shù);r表示實體關(guān)系。由u、e和r構(gòu)成的三元組(u,r,e),確定評價函數(shù)如下

        (12)

        其中,eu、ee分別是用戶和實體的映射,且eu+r和ee近似相等。評價函數(shù)Er(u,e)可以幫助更好的訓(xùn)練嵌入關(guān)系,但是,想要判斷(u,r,e)是否合理,需要進(jìn)行損失判斷,方式如下

        (13)

        其中,σ(·)為sigmoid函數(shù)。利用(u,r,e)中實體導(dǎo)致的差異來實現(xiàn)無效元組的更新,增強e元素的信息強度。針對傳輸路徑l而言,其上的實體注意力描述如下

        (14)

        M為注意力向量;ReLU為激活方程??紤]到在網(wǎng)絡(luò)學(xué)習(xí)過程中,任意傳輸路徑上實體和用戶的相互作用均具有非對稱特征,在計算得到實體和用戶關(guān)系后,緊接著采取歸一操作。經(jīng)過Softmax處理后,可以得到實體注意力加權(quán)因子如下

        (15)

        (16)

        (17)

        式中的E為實體集合;V、W依次為語義注意力和加權(quán)變量;activa(·)為非線性處理;off為偏移量。通過對V的非線性操作,突出重點語義的實體,對應(yīng)的注意力加權(quán)因子表示如下

        (18)

        根據(jù)加權(quán)因子的大小,確定傳輸路徑的重要程度,進(jìn)而得到相似實體的關(guān)聯(lián)程度。基于前述分析,最終的注入方程表示如下

        (19)

        4 仿真與結(jié)果分析

        4.1 實驗數(shù)據(jù)集與參數(shù)設(shè)置

        仿真選擇Amazon開放的TH和SO數(shù)據(jù)集。其中,TH的用戶數(shù)量為16638,項目數(shù)量為10217,用戶與商品的評論文本中詞量均值分別為903和1471。SO的用戶數(shù)量為35598,項目數(shù)量為18357,用戶與商品的評論文本中詞量均值分別為738和1431。

        實驗過程中,設(shè)定LDA模型中主題數(shù)量N∈[0,100],Dirichlet的超參數(shù)a=N/50,b=0.04,詞向量維數(shù)為100,訓(xùn)練次數(shù)為100。注意力模型中,參數(shù)V的維數(shù)是96,注入維數(shù)是54,傳輸路徑的多跳限定為3。

        4.2 評價指標(biāo)

        實驗在衡量網(wǎng)絡(luò)信息個性化推薦性能的時候,采取MSE、HR和NDCG三個指標(biāo)。MSE代表推薦信息的均方差,利用估計量與實際量的差值累計得到,公式描述如下

        (20)

        其中,f′i表示估計量;fi表示實際量;n表示樣本個數(shù)。MSE結(jié)果越小,意味著推薦結(jié)果的誤差越小,反映推薦精度越高。

        HR代表推薦的命中率,通過推薦結(jié)果內(nèi)樣本與全部測試樣本的比值求解得到,公式描述如下

        (21)

        其中,Numberhit表示推薦結(jié)果內(nèi)的樣本數(shù)量;Numbertest表示測試樣本的全部數(shù)量。HR結(jié)果越大,意味著推薦信息越滿足用戶意愿。

        NDCG代表折損積累,該指標(biāo)是通過推薦結(jié)果的折損值計算而來。公式描述如下

        (22)

        4.3 實驗結(jié)果分析

        對比模型選擇文獻(xiàn)[7]和文獻(xiàn)[8],首先在TH和SO兩個數(shù)據(jù)集下,分別測試得到三個算法推薦結(jié)果的均方差,如圖2所示。

        根據(jù)圖2結(jié)果,本文算法在TH和SO兩個數(shù)據(jù)集的MSE分別為0.934和0.982,都保持在1以內(nèi),相較對比算法,均方差得到明顯降低,而且對于不同數(shù)據(jù)集,MSE維持在相似水平,表明算法對于不同數(shù)據(jù)集具有良好的適用性和泛化能力。

        圖2 MSE結(jié)果比較

        為了比較各算法在不同推薦數(shù)量情況下的性能,將兩個數(shù)據(jù)集合并,同時調(diào)整推薦數(shù)量分別為5、10、15,得到各自對應(yīng)的HR和NDCG,結(jié)果比較如圖3和圖4。

        根據(jù)HR結(jié)果得出,在推薦數(shù)量增加時,各算法的命中率都在提高,這種趨勢是由于推薦數(shù)量的增加消除了模糊推薦的不準(zhǔn)確性。所以在推薦數(shù)量為5的時候,各算法的命中率差異較大,本文算法較文獻(xiàn)[7]和文獻(xiàn)[8]依次高出1.6%和4.5%;在推薦數(shù)量為15的時候,各算法的命中率差異則相對變小,本文算法較文獻(xiàn)[7]和文獻(xiàn)[8]依次高出1.3%和1.1%。從整體來看,本文算法的HR值均好于其它算法,表明在推薦的準(zhǔn)確度上較其它方法更具優(yōu)勢。

        圖3 HR結(jié)果比較

        根據(jù)NDCG結(jié)果,在推薦數(shù)量增加時,各算法的折損增益均在增加,和HR具有相同規(guī)律。在推薦數(shù)量為5的時候,本文算法較文獻(xiàn)[7]和文獻(xiàn)[8]依次高出5.0%和4.2%;在推薦數(shù)量為10的時候,本文算法較文獻(xiàn)[7]和文獻(xiàn)[8]依次高出4.5%和3.8%;在推薦數(shù)量為15的時候,本文算法較文獻(xiàn)[7]和文獻(xiàn)[8]依次高出3.3%和3.4%。

        通過三項指標(biāo)結(jié)果,證明了本文算法在網(wǎng)絡(luò)信息高維特征處理方面的優(yōu)越性,以及良好的泛化性能,推薦的個性化信息能夠高度符合用戶需求。

        圖4 NDCG結(jié)果比較

        5 結(jié)束語

        考慮到標(biāo)簽稀疏與可信度低,以及網(wǎng)絡(luò)非結(jié)構(gòu)化數(shù)據(jù)處理等問題,采取LDA模型進(jìn)行標(biāo)簽挖掘。同時引入HowNet,以義原為單位比較相似度??紤]到特征詞的重要程度差異,采用注意力模型,并將注意力注入到網(wǎng)絡(luò)層中,根據(jù)實體與語義來注入合理的相近實體。通過仿真實驗,得到本文算法在TH和SO兩個數(shù)據(jù)集的MSE分別為0.934和0.982,具有良好的均方偏差;此外,不管在何種推薦數(shù)量的情況下,HR和NDCG指標(biāo)均優(yōu)于對比方法,說明具有良好的推薦精度和泛化性能,個性化推薦結(jié)果更加合理準(zhǔn)確。

        猜你喜歡
        語義單詞用戶
        語言與語義
        單詞連一連
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        認(rèn)知范疇模糊與語義模糊
        如何獲取一億海外用戶
        国内少妇毛片视频| 一区二区三区熟妇人妻18| 精品国产免费一区二区久久| 18禁免费无码无遮挡不卡网站 | 日本高清不卡二区三区| 18禁免费无码无遮挡不卡网站| 熟妇的荡欲色综合亚洲| 国产短视频精品区第一页 | 把女邻居弄到潮喷的性经历| 国产jizzjizz视频免费看| 国产传媒剧情久久久av| 91三级在线观看免费| 亚洲精品无码久久久| 欧美自拍区| 丝袜美腿亚洲综合玉足| 蜜桃精品人妻一区二区三区| 欧美精品一区二区蜜臀亚洲| 一本久到久久亚洲综合| 国产精品久久一区二区蜜桃| 色偷偷色噜噜狠狠网站30根| 中文字幕无码不卡一区二区三区 | 久久视频在线| 欧美精品一级| 美女被搞在线观看一区二区三区 | 无码av一区在线观看| 看国产亚洲美女黄色一级片 | 色妞色视频一区二区三区四区| 日本免费人成视频播放| 亚洲在线一区二区三区| 亚洲最新无码中文字幕久久| 99热久久这里只精品国产www| 黄 色 成 年 人 网 站免费| 人妻夜夜爽天天爽三区麻豆av| 亚洲娇小与黑人巨大交| 亚洲AV无码精品呻吟| 熟女不卡精品久久av| 日本边添边摸边做边爱喷水| 国产亚洲视频在线观看网址| 日本av一区二区播放| 久久伊人最新网址视频| 亚洲精品久久久久久久久av无码|