亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合關(guān)系抽取的推薦系統(tǒng)

        2022-11-18 03:57:30高春曉盧士帥劉瓊昕宋祥
        關(guān)鍵詞:特征提取圖譜物品

        高春曉,盧士帥,劉瓊昕,宋祥

        (1. 北京理工大學(xué) 北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081;2. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081)

        隨著信息技術(shù)的快速發(fā)展,人們越來越難以從龐大的信息流中尋找自身感興趣的信息. 推薦系統(tǒng)通過用戶的歷史交互行為發(fā)掘用戶的興趣愛好,為用戶個(gè)性化推薦物品.

        基于內(nèi)容的推薦算法應(yīng)用廣泛,但存在知識利用不充分問題. 為了解決這一問題,本文提出了一種融合關(guān)系抽取的推薦系統(tǒng)FRE-RE(A REcommendation system with Fusion Relation Extraction),用補(bǔ)充模板的關(guān)系抽取技術(shù)構(gòu)建增強(qiáng)知識圖譜,進(jìn)而獲得增強(qiáng)實(shí)體特征,與文本特征、基礎(chǔ)實(shí)體特征融合后構(gòu)建物品特征,應(yīng)用到推薦系統(tǒng)中來. 實(shí)驗(yàn)證明,補(bǔ)充模板特征的關(guān)系抽取模型可以提高基礎(chǔ)模型的效果,具有廣泛的適用性;融合關(guān)系抽取的推薦系統(tǒng)效果優(yōu)于其它模型,模型改進(jìn)的各部分都是有效的.

        1 國內(nèi)外研究現(xiàn)狀

        推薦系統(tǒng)主要包含3 類:基于內(nèi)容的推薦系統(tǒng)、基于時(shí)間線的推薦系統(tǒng)和基于知識圖譜的推薦系統(tǒng).

        基于內(nèi)容的推薦算法根據(jù)物品的特性和用戶的特殊偏好等特征屬性進(jìn)行推薦. 矩陣分解是內(nèi)容推薦算法中一種常見的方法,DIETZ 等[1]提出了NRTCBR 模型,將對話引用到推薦系統(tǒng)中,讓用戶在對話回合中反饋更新數(shù)據(jù). OPPERMANN 等[2]提出了Viz-Commender 模型,在存儲(chǔ)庫中計(jì)算文本的相似性. 劉瓊昕等[3]提出了一種基于知識表示學(xué)習(xí)的協(xié)同矩陣分解方法,該方法從物品的知識圖譜中學(xué)習(xí)其向量表示,并在此基礎(chǔ)上聯(lián)合地分解反饋矩陣和物品關(guān)聯(lián)度矩陣,兩種矩陣共享物品向量,利用物品的語義信息彌補(bǔ)反饋數(shù)據(jù)的缺失.

        基于時(shí)間線的推薦系統(tǒng)將用戶與物品的交互時(shí)間信息融入模型中,YU 等[4]提出DREAM 模型,把用戶在不同時(shí)間的動(dòng)態(tài)偏好和用戶的全局序列特性結(jié)合. LI 等[5]提出NARM 模型,使用新的注意力機(jī)制,對用戶的行為進(jìn)行序列化建模并捕獲用戶在當(dāng)前會(huì)話中的主要目的.

        知識圖譜在多個(gè)領(lǐng)域取得了很多應(yīng)用,許多學(xué)者嘗試將其引入到推薦系統(tǒng)中. SUN 等[6]提出了NIAGCN 模型,使用逐層鄰居聚合(PNA)并行圖卷積網(wǎng)絡(luò)(Parallel-GCNs)和跨深度集成(CDE). JIN 等[7]把創(chuàng)新后的圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在知識圖譜推薦系統(tǒng)上來,提出了MBGCN 模型. SHI 等[8]使用深度神經(jīng)網(wǎng)絡(luò)搭配自注意力機(jī)制,提出了NeuACF 模型. KGAT[9]在CKG 嵌入層將用戶-項(xiàng)目交互矩陣與知識圖譜相結(jié)合,通過嵌入的方式得到圖譜項(xiàng)目向量表示,然后進(jìn)行推薦. 劉瓊昕等[10]提出了基于知識增強(qiáng)的深度新聞推薦網(wǎng)絡(luò),利用長短期記憶網(wǎng)絡(luò)提取知識圖譜中的實(shí)體路徑特征.

        2 融合關(guān)系抽取的推薦系統(tǒng)模型介紹

        系統(tǒng)的流程圖如圖1 所示,首先通過實(shí)體鏈接將歷史行為中交互物品的文本描述轉(zhuǎn)化為包含實(shí)體集合的文本描述,然后構(gòu)建基礎(chǔ)知識圖譜和增強(qiáng)知識圖譜;利用得到的兩個(gè)知識圖譜,進(jìn)行物品特征構(gòu)建;將用戶歷史行為中交互的物品特征向量用用戶興趣構(gòu)建模型進(jìn)行融合,得到用戶興趣特征向量,與目標(biāo)物品的特征向量通過多層感知機(jī)相關(guān)度預(yù)測,進(jìn)而進(jìn)行推薦.

        圖1 融合關(guān)系抽取的推薦系統(tǒng)整體流程Fig. 1 The whole process of recommendation system based on fusion relationship extraction

        2.1 模型架構(gòu)介紹

        本文提出的融合關(guān)系抽取的推薦系統(tǒng)由4 部分組成,分別是知識提取、物品特征構(gòu)建、用戶興趣構(gòu)建和多層感知機(jī)(如圖2 所示).

        圖2 融合關(guān)系抽取的推薦系統(tǒng)Fig. 2 Recommendation system with fusion of relation extraction

        模型定義如式(1)所示.

        2.2 補(bǔ)充模板特征的關(guān)系抽取模型

        傳統(tǒng)的關(guān)系抽取模型沒有充分挖掘?qū)嶓w在詞典中的深層次聯(lián)系,并且對WordNet 詞典信息利用過于簡單. 為此,提出了一種補(bǔ)充模板特征的關(guān)系抽取模型,使用WordNet 詞典中實(shí)體上位詞路徑,同時(shí)使用與傳統(tǒng)模型完全獨(dú)立的網(wǎng)絡(luò)結(jié)構(gòu)提取模板特征.

        2.2.1 模板特征

        模板特征是指一個(gè)句子按照一定規(guī)則用上位詞路徑替換實(shí)體之后得到的句子的語義特征. 某個(gè)實(shí)體的完全上位詞路徑是實(shí)體在WordNet 詞典中從頂層實(shí)體到該實(shí)體的一條路徑.

        本文中實(shí)體上位詞路徑定義為該實(shí)體的前n層完全上位詞路徑. 使用實(shí)體上位詞路徑替換實(shí)體后,得到的句子作為補(bǔ)充模板關(guān)系抽取模塊的一個(gè)訓(xùn)練樣本,通過模型訓(xùn)練提取模板特征.

        2.2.2 關(guān)系抽取模型框架

        模型分為3 個(gè)部分,分別是句子特征提取器、模板特征提取器和門限融合(如圖3 所示).

        圖3 補(bǔ)充模板特征的關(guān)系抽取模型Fig. 3 Relation extraction model supplemented with template features

        1)句子特征提取.

        2)模板特征提取器.

        模板特征提取器是通過神經(jīng)網(wǎng)絡(luò)提取句子模板特征,并在提取過程中盡可能減少實(shí)體信息. 由于模板是一個(gè)全局特征,而雙向LSTM 對提取全局特征有天然的優(yōu)勢,同時(shí)使用注意力機(jī)制可以進(jìn)一步提高特征的準(zhǔn)確性,所以采用雙向LSTM 和注意力機(jī)制結(jié)合的方式進(jìn)行特征抽取.

        模板特征提取器的架構(gòu)圖如圖3 右側(cè)所示,由5部分組成,分別是實(shí)體替換、嵌入層、自注意力層、BLSTM 層和注意力層.

        模型首先將句子中的實(shí)體替換為實(shí)體上位詞路徑. 具體地,采用迭代的方法,不斷地尋找當(dāng)前詞語的上位詞,直到WordNet 詞典中的頂層實(shí)體;然后截取實(shí)體的前s層完全上位詞路徑,即得到實(shí)體上位詞路徑,s為超參數(shù),實(shí)驗(yàn)中選取s=6(見算法1). 經(jīng)過實(shí)體替換后,句子可以表示為x=[x1,x2,···,xn], 其中,xi表示句子中第i個(gè) 詞,n為句子長度.

        2.2.3 關(guān)系預(yù)測

        在得到文本特征向量V后,本文使用全連接網(wǎng)絡(luò)和softmax 函數(shù)作為分類器進(jìn)行預(yù)測. 文本特征向量V作為輸入,得到關(guān)系類別的概率分布p?(y|S),則預(yù)測結(jié)果y? 是概率分布p?(y|S)的最大值所對應(yīng)的關(guān)系類別,如式(20)~(21)所示. 其中,S表示句子,WS∈Rm×mg為 文本特征與關(guān)系的映射矩陣,bS∈Rm為偏置向量.

        2.3 融入關(guān)系抽取的推薦系統(tǒng)

        2.3.1 知識提取

        為了獲取物品的描述文本中所包含的知識,本文通過一些流程進(jìn)行知識提取,如圖4 所示. 流程分為3 個(gè)部分,分別獲得詞嵌入集合Sw、基礎(chǔ)實(shí)體嵌入集合Sb和增強(qiáng)實(shí)體嵌入集合Se.

        圖4 知識提取流程Fig. 4 Knowledge extraction process

        在獲得詞嵌入集合的流程中,本文使用word2vec詞嵌入[12]方法,從大規(guī)模語料中訓(xùn)練得到詞嵌入集合Sw,其中每個(gè)詞嵌入的維度為dw.

        在獲得實(shí)體嵌入集合的流程中,本文采用實(shí)體鏈接技術(shù)[13-14],通過與知識庫進(jìn)行匹配消歧,獲得文本中包含的實(shí)體集合. 由于原始知識圖譜規(guī)模較大,本文從中抽取一個(gè)子圖,去除不在實(shí)體集合中的結(jié)點(diǎn),得到基礎(chǔ)知識圖譜. 此外,本文依據(jù)實(shí)體集合,在描述文本中標(biāo)注出對應(yīng)的實(shí)體,采用第2.2 節(jié)的補(bǔ)充模板特征的關(guān)系抽取模型進(jìn)行關(guān)系識別. 經(jīng)過實(shí)體鏈接后,一個(gè)句子中可能包含多個(gè)實(shí)體,本文對所有的實(shí)體進(jìn)行組合、預(yù)測,構(gòu)建出增強(qiáng)知識圖譜. 最后本文采用知識表示學(xué)習(xí)方法(如TransE、TransR、TransD等),將基礎(chǔ)知識圖譜和增強(qiáng)知識圖譜中的實(shí)體和關(guān)系映射到低維向量空間中,獲得基礎(chǔ)實(shí)體嵌入集合Sb和增強(qiáng)實(shí)體嵌入集合Se,其中每個(gè)基礎(chǔ)實(shí)體嵌入和增強(qiáng)實(shí)體嵌入的維度均為de.

        2.3.2 物品特征構(gòu)建

        本文構(gòu)建物品特征采用知識感知的卷積神經(jīng)網(wǎng)絡(luò)KCNN,考慮3 種特征,分別是文本特征、基礎(chǔ)實(shí)體特征和增強(qiáng)實(shí)體特征. 物品特征構(gòu)建如圖5 所示.

        圖5 物品特征構(gòu)建Fig. 5 Item feature construction

        2.3.3 用戶興趣構(gòu)建

        本文使用注意力機(jī)制構(gòu)建用戶興趣,如圖6 所示. 假定用戶u的歷史交互行為中包含n個(gè)物品,其描

        圖6 用戶興趣構(gòu)建Fig. 6 User interest building

        3 融入關(guān)系抽取的推薦系統(tǒng)實(shí)驗(yàn)

        實(shí)驗(yàn)包含兩部分,首先驗(yàn)證補(bǔ)充模板特征的關(guān)系抽取模型的有效性,然后證明融合關(guān)系抽取的推薦系統(tǒng)的有效性.

        3.1 補(bǔ)充模板特征的關(guān)系抽取模型

        3.1.1 數(shù)據(jù)集和對比實(shí)驗(yàn)

        實(shí)驗(yàn)使用SemEval-2010 Task 8[15]數(shù)據(jù)集進(jìn)行關(guān)系抽取.

        為了驗(yàn)證模板特征提取器的有效性和適用性,本文選擇不同的關(guān)系抽取模型作為句子特征提取器,對比添加模板特征提取器前后的模型效果,實(shí)驗(yàn)結(jié)果如表1 所示.

        本文在句子特征提取器中采用的模型包含3 類,分別是使用詞法的模型、基于句法的模型和端對端模型.

        由表1 可知,模型在補(bǔ)充模板特征后效果均有提升,這表明模板特征提取器對提升模型預(yù)測效果是有效的,并且具有普遍的適用性.

        表1 模型補(bǔ)充模板特征前后的效果對比Tab. 1 Comparison of effects before and after model supplement template features

        3.1.2 有效性實(shí)驗(yàn)

        為了驗(yàn)證實(shí)體上位詞路徑和模板位置標(biāo)志的有效性,本文采用P-CNN 模型作為句子特征提取器,設(shè)計(jì)了如表2 所示的有效性實(shí)驗(yàn).

        表2 模型中EHP 和TPI 的有效性驗(yàn)證Tab. 2 Validation of EHP and TPI in the model

        其中,SF 表示句子特征提取器;WE 和EHP 分別表示使用實(shí)體和實(shí)體上位詞路徑進(jìn)行關(guān)系抽??;TPI、PI 和PE 分別表示使用模板位置標(biāo)志、位置標(biāo)志和位置嵌入. TPI 指本文提出的模板位置標(biāo)志;PI 指不去除4 個(gè)位置標(biāo)志<e1>、</e1>、<e2>和</e2>,將其當(dāng)作句子中的詞,進(jìn)行關(guān)系抽??;PE 指獲得句子中詞語與實(shí)體對相對距離,通過嵌入矩陣獲得位置向量,與詞向量拼接作為輸入.

        當(dāng)使用詞嵌入時(shí),模板特征提取器模塊與句子特征提取器模塊功能類似,提取模板特征能力非常弱,提取句子特征能力非常強(qiáng),因此使用位置嵌入方式影響最大,模板位置標(biāo)志方式影響最??;當(dāng)使用實(shí)體上位詞路徑時(shí),模板特征提取器模塊可以實(shí)現(xiàn)提取模板功能,且能力非常強(qiáng),因此使用模板位置標(biāo)志方式影響最大,位置嵌入方式影響最小. 由表2 可知,同時(shí)使用句子特征提取器和模板特征提取器,并且使用模板位置標(biāo)志信息,模型可以獲得最好的效果.

        3.2 融合關(guān)系抽取的推薦系統(tǒng)

        3.2.1 數(shù)據(jù)集和對比實(shí)驗(yàn)

        融合關(guān)系抽取的推薦系統(tǒng)采用的數(shù)據(jù)集來自亞馬遜(Amazon.com),在Electronics 子集上進(jìn)行實(shí)驗(yàn).將FRE-RE 與其他模型進(jìn)行對比,結(jié)果如表3 所示.

        表3 Electronics 子集上與其他模型的對比結(jié)果Tab. 3 Comparison results with other models on Electronics data set

        FRE-RE 在Electronics 子集上的推薦效果要優(yōu)于其他推薦模型. FRE-RE 與DKN 模型相比增加了增強(qiáng)知識圖譜信息,采用補(bǔ)充模板特征的關(guān)系抽取模型等獲得增強(qiáng)實(shí)體特征,使得模型包含更多的知識信息;與RippleNet 模型相比區(qū)分了普適知識和專業(yè)知識,即基礎(chǔ)實(shí)體特征和增強(qiáng)實(shí)體特征,保留了更多的有效信息,預(yù)測效果進(jìn)一步提升.

        3.2.2 消融實(shí)驗(yàn)

        為了驗(yàn)證模型各個(gè)部分的有效性,本文設(shè)計(jì)了消融實(shí)驗(yàn),結(jié)果如表4 所示.

        表4 消融實(shí)驗(yàn)結(jié)果Tab. 4 Ablation experiment results

        其中,“-EnhancedEntity”表示模型僅使用文本特征和基礎(chǔ)實(shí)體特征;“-TemplateFeature”表示在知識提取中采用去除模板特征的關(guān)系抽取模型獲得增強(qiáng)實(shí)體特征;“-TransE”、“-TransR”和“-TransD”分別表示使用不同的知識表示學(xué)習(xí)方法獲得增強(qiáng)實(shí)體特征,使用不同知識表示學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果如表5所示.

        表5 不同知識表示學(xué)習(xí)方法實(shí)驗(yàn)結(jié)果Tab. 5 The results of different knowledge represent methods

        由表4 可以得出,在物品特征構(gòu)建中補(bǔ)充增強(qiáng)實(shí)體特征與未補(bǔ)充相比,前者模型效果比后者約高0.9%,這說明增強(qiáng)實(shí)體特征的有效性. FRE-RE 和去除模板特征后的實(shí)驗(yàn)結(jié)果相比約高0.4%,這說明模板特征在模型中的有效性. 由表5 可以得出,在知識表示學(xué)習(xí)方法的選擇中,TransE、TransR 和TransD 效果依次提高,相差較小.

        4 結(jié) 論

        為了解決傳統(tǒng)的推薦模型存在物品知識利用不充分的問題,本文提出了融合關(guān)系抽取的推薦系統(tǒng)FRE-RE,首先通過知識提取獲得詞嵌入集合、基礎(chǔ)實(shí)體嵌入集合和增強(qiáng)實(shí)體嵌入集合;然后將所有的知識信息融入到神經(jīng)網(wǎng)絡(luò)中,構(gòu)建物品特征;接著把用戶的歷史交互行為作為輸入信息,采用注意力網(wǎng)絡(luò)構(gòu)建用戶特征;最后使用多層感知機(jī)實(shí)現(xiàn)個(gè)性化推薦. 在獲取增強(qiáng)實(shí)體嵌入集合時(shí),需要使用關(guān)系抽取技術(shù),本文對其進(jìn)行深入研究,提出了補(bǔ)充模板特征的關(guān)系抽取模型,利用WordNet 詞典信息挖掘?qū)嶓w間深層次聯(lián)系. 該模型首先獲得句子特征,然后通過WordNet 詞典獲得實(shí)體上位詞路徑作為模型輸入,采用雙向LSTM 和注意力機(jī)制等獲得模板特征,最后通過門限融合的方式融合兩種特征,預(yù)測關(guān)系類別.

        實(shí)驗(yàn)表明補(bǔ)充模板特征的關(guān)系抽取模型可以提高基礎(chǔ)模型的效果,具有適用性;融合關(guān)系抽取的推薦系統(tǒng)的預(yù)測效果比其他模型好,且模型的各個(gè)部分都是有效的.

        在今后的研究工作中,可以考慮:在補(bǔ)充模板特征的關(guān)系抽取模型中使用蒸餾網(wǎng)絡(luò)對多條路徑進(jìn)行選擇;在融合關(guān)系抽取的推薦系統(tǒng)中把關(guān)系抽取和命名實(shí)體識別或事件抽取等任務(wù)聯(lián)合學(xué)習(xí). 通過這些手段,更加充分地挖掘現(xiàn)有數(shù)據(jù),獲取更加準(zhǔn)確的知識.

        猜你喜歡
        特征提取圖譜物品
        稱物品
        “雙十一”,你搶到了想要的物品嗎?
        繪一張成長圖譜
        誰動(dòng)了凡·高的物品
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        Bagging RCSP腦電特征提取算法
        主動(dòng)對接你思維的知識圖譜
        找物品
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        国产啪精品视频网站免| 奇米影视第四色首页| 国产精品老熟女露脸视频| 欧美老熟妇又粗又大| 久草久热这里只有精品| 久久亚洲中文字幕精品熟| 亚洲av成人片色在线观看高潮| 久久久国产一区二区三区四区小说 | 久久精品伊人久久精品伊人| 久久精品99国产精品日本| 国产乱人视频在线播放| 夜夜爽无码一区二区三区| 综合图区亚洲偷自拍熟女| 亚洲av久播在线一区二区| 精品9e精品视频在线观看| 亚洲a∨天堂男人无码| 午夜少妇高潮免费视频| 中文字幕精品一区久久| 亚洲国产午夜精品理论片在线播放| 国产亚洲精品看片在线观看| 日本一区二区三区一级免费| 亚洲一区二区三区高清在线| 一品二品三品中文字幕| 不卡高清av手机在线观看| 精品专区一区二区三区| 日韩亚洲中文有码视频| 成人妇女免费播放久久久| 精品91亚洲高清在线观看| 在线观看一区二区三区视频| 国产亚洲综合一区二区三区| 久久精品国产亚洲av忘忧草18| 无码av永久免费大全| 日本一级二级三级不卡| 久久久国产乱子伦精品作者| 午夜婷婷国产麻豆精品| 国产精品国产三级在线专区| 337p日本欧洲亚洲大胆色噜噜| 无码人妻黑人中文字幕| 无码视频一区二区三区在线播放| 中文字幕人妻久久久中出| 人妻丰满熟妇av无码区|