亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種融合關(guān)系抽取的推薦系統(tǒng)

2022-11-18 03:57:30高春曉盧士帥劉瓊昕宋祥

北京理工大學(xué)學(xué)報 2022年11期

高春曉，盧士帥，劉瓊昕，宋祥

（1. 北京理工大學(xué) 北京市海量語言信息處理與云計算應(yīng)用工程技術(shù)研究中心，北京 100081；2. 北京理工大學(xué) 計算機學(xué)院，北京 100081）

隨著信息技術(shù)的快速發(fā)展，人們越來越難以從龐大的信息流中尋找自身感興趣的信息. 推薦系統(tǒng)通過用戶的歷史交互行為發(fā)掘用戶的興趣愛好，為用戶個性化推薦物品.

基于內(nèi)容的推薦算法應(yīng)用廣泛，但存在知識利用不充分問題. 為了解決這一問題，本文提出了一種融合關(guān)系抽取的推薦系統(tǒng)FRE-RE（A REcommendation system with Fusion Relation Extraction），用補充模板的關(guān)系抽取技術(shù)構(gòu)建增強知識圖譜，進而獲得增強實體特征，與文本特征、基礎(chǔ)實體特征融合后構(gòu)建物品特征，應(yīng)用到推薦系統(tǒng)中來. 實驗證明，補充模板特征的關(guān)系抽取模型可以提高基礎(chǔ)模型的效果，具有廣泛的適用性；融合關(guān)系抽取的推薦系統(tǒng)效果優(yōu)于其它模型，模型改進的各部分都是有效的.

1 國內(nèi)外研究現(xiàn)狀

推薦系統(tǒng)主要包含3 類：基于內(nèi)容的推薦系統(tǒng)、基于時間線的推薦系統(tǒng)和基于知識圖譜的推薦系統(tǒng).

基于內(nèi)容的推薦算法根據(jù)物品的特性和用戶的特殊偏好等特征屬性進行推薦. 矩陣分解是內(nèi)容推薦算法中一種常見的方法，DIETZ 等[1]提出了NRTCBR 模型，將對話引用到推薦系統(tǒng)中，讓用戶在對話回合中反饋更新數(shù)據(jù). OPPERMANN 等[2]提出了Viz-Commender 模型，在存儲庫中計算文本的相似性. 劉瓊昕等[3]提出了一種基于知識表示學(xué)習(xí)的協(xié)同矩陣分解方法，該方法從物品的知識圖譜中學(xué)習(xí)其向量表示，并在此基礎(chǔ)上聯(lián)合地分解反饋矩陣和物品關(guān)聯(lián)度矩陣，兩種矩陣共享物品向量，利用物品的語義信息彌補反饋數(shù)據(jù)的缺失.

基于時間線的推薦系統(tǒng)將用戶與物品的交互時間信息融入模型中，YU 等[4]提出DREAM 模型，把用戶在不同時間的動態(tài)偏好和用戶的全局序列特性結(jié)合. LI 等[5]提出NARM 模型，使用新的注意力機制，對用戶的行為進行序列化建模并捕獲用戶在當(dāng)前會話中的主要目的.

知識圖譜在多個領(lǐng)域取得了很多應(yīng)用，許多學(xué)者嘗試將其引入到推薦系統(tǒng)中. SUN 等[6]提出了NIAGCN 模型，使用逐層鄰居聚合(PNA)并行圖卷積網(wǎng)絡(luò)(Parallel-GCNs)和跨深度集成(CDE). JIN 等[7]把創(chuàng)新后的圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在知識圖譜推薦系統(tǒng)上來，提出了MBGCN 模型. SHI 等[8]使用深度神經(jīng)網(wǎng)絡(luò)搭配自注意力機制，提出了NeuACF 模型. KGAT[9]在CKG 嵌入層將用戶-項目交互矩陣與知識圖譜相結(jié)合，通過嵌入的方式得到圖譜項目向量表示，然后進行推薦. 劉瓊昕等[10]提出了基于知識增強的深度新聞推薦網(wǎng)絡(luò)，利用長短期記憶網(wǎng)絡(luò)提取知識圖譜中的實體路徑特征.

2 融合關(guān)系抽取的推薦系統(tǒng)模型介紹

系統(tǒng)的流程圖如圖1 所示，首先通過實體鏈接將歷史行為中交互物品的文本描述轉(zhuǎn)化為包含實體集合的文本描述，然后構(gòu)建基礎(chǔ)知識圖譜和增強知識圖譜；利用得到的兩個知識圖譜，進行物品特征構(gòu)建；將用戶歷史行為中交互的物品特征向量用用戶興趣構(gòu)建模型進行融合，得到用戶興趣特征向量，與目標(biāo)物品的特征向量通過多層感知機相關(guān)度預(yù)測，進而進行推薦.

圖1 融合關(guān)系抽取的推薦系統(tǒng)整體流程Fig. 1 The whole process of recommendation system based on fusion relationship extraction

2.1 模型架構(gòu)介紹

本文提出的融合關(guān)系抽取的推薦系統(tǒng)由4 部分組成，分別是知識提取、物品特征構(gòu)建、用戶興趣構(gòu)建和多層感知機(如圖2 所示).

圖2 融合關(guān)系抽取的推薦系統(tǒng)Fig. 2 Recommendation system with fusion of relation extraction

模型定義如式（1）所示.

2.2 補充模板特征的關(guān)系抽取模型

傳統(tǒng)的關(guān)系抽取模型沒有充分挖掘?qū)嶓w在詞典中的深層次聯(lián)系，并且對WordNet 詞典信息利用過于簡單. 為此，提出了一種補充模板特征的關(guān)系抽取模型，使用WordNet 詞典中實體上位詞路徑，同時使用與傳統(tǒng)模型完全獨立的網(wǎng)絡(luò)結(jié)構(gòu)提取模板特征.

2.2.1 模板特征

模板特征是指一個句子按照一定規(guī)則用上位詞路徑替換實體之后得到的句子的語義特征. 某個實體的完全上位詞路徑是實體在WordNet 詞典中從頂層實體到該實體的一條路徑.

本文中實體上位詞路徑定義為該實體的前n層完全上位詞路徑. 使用實體上位詞路徑替換實體后，得到的句子作為補充模板關(guān)系抽取模塊的一個訓(xùn)練樣本，通過模型訓(xùn)練提取模板特征.

2.2.2 關(guān)系抽取模型框架

模型分為3 個部分，分別是句子特征提取器、模板特征提取器和門限融合(如圖3 所示).

圖3 補充模板特征的關(guān)系抽取模型Fig. 3 Relation extraction model supplemented with template features

1）句子特征提取.

2）模板特征提取器.

模板特征提取器是通過神經(jīng)網(wǎng)絡(luò)提取句子模板特征，并在提取過程中盡可能減少實體信息. 由于模板是一個全局特征，而雙向LSTM 對提取全局特征有天然的優(yōu)勢，同時使用注意力機制可以進一步提高特征的準確性，所以采用雙向LSTM 和注意力機制結(jié)合的方式進行特征抽取.

模板特征提取器的架構(gòu)圖如圖3 右側(cè)所示，由5部分組成，分別是實體替換、嵌入層、自注意力層、BLSTM 層和注意力層.

模型首先將句子中的實體替換為實體上位詞路徑. 具體地，采用迭代的方法，不斷地尋找當(dāng)前詞語的上位詞，直到WordNet 詞典中的頂層實體；然后截取實體的前s層完全上位詞路徑，即得到實體上位詞路徑,s為超參數(shù)，實驗中選取s=6（見算法1）. 經(jīng)過實體替換后，句子可以表示為x=[x1,x2,···,xn]，其中，xi表示句子中第i個詞，n為句子長度.

2.2.3 關(guān)系預(yù)測

在得到文本特征向量V后，本文使用全連接網(wǎng)絡(luò)和softmax 函數(shù)作為分類器進行預(yù)測. 文本特征向量V作為輸入，得到關(guān)系類別的概率分布p?(y|S)，則預(yù)測結(jié)果y? 是概率分布p?(y|S)的最大值所對應(yīng)的關(guān)系類別，如式（20）～（21）所示. 其中，S表示句子，WS∈Rm×mg為文本特征與關(guān)系的映射矩陣，bS∈Rm為偏置向量.

2.3 融入關(guān)系抽取的推薦系統(tǒng)

2.3.1 知識提取

為了獲取物品的描述文本中所包含的知識，本文通過一些流程進行知識提取，如圖4 所示. 流程分為3 個部分，分別獲得詞嵌入集合Sw、基礎(chǔ)實體嵌入集合Sb和增強實體嵌入集合Se.

圖4 知識提取流程Fig. 4 Knowledge extraction process

在獲得詞嵌入集合的流程中，本文使用word2vec詞嵌入[12]方法，從大規(guī)模語料中訓(xùn)練得到詞嵌入集合Sw，其中每個詞嵌入的維度為dw.

在獲得實體嵌入集合的流程中，本文采用實體鏈接技術(shù)[13-14]，通過與知識庫進行匹配消歧，獲得文本中包含的實體集合. 由于原始知識圖譜規(guī)模較大，本文從中抽取一個子圖，去除不在實體集合中的結(jié)點，得到基礎(chǔ)知識圖譜. 此外，本文依據(jù)實體集合，在描述文本中標(biāo)注出對應(yīng)的實體，采用第2.2 節(jié)的補充模板特征的關(guān)系抽取模型進行關(guān)系識別. 經(jīng)過實體鏈接后，一個句子中可能包含多個實體，本文對所有的實體進行組合、預(yù)測，構(gòu)建出增強知識圖譜. 最后本文采用知識表示學(xué)習(xí)方法（如TransE、TransR、TransD等），將基礎(chǔ)知識圖譜和增強知識圖譜中的實體和關(guān)系映射到低維向量空間中，獲得基礎(chǔ)實體嵌入集合Sb和增強實體嵌入集合Se，其中每個基礎(chǔ)實體嵌入和增強實體嵌入的維度均為de.

2.3.2 物品特征構(gòu)建

本文構(gòu)建物品特征采用知識感知的卷積神經(jīng)網(wǎng)絡(luò)KCNN，考慮3 種特征，分別是文本特征、基礎(chǔ)實體特征和增強實體特征. 物品特征構(gòu)建如圖5 所示.

圖5 物品特征構(gòu)建Fig. 5 Item feature construction

2.3.3 用戶興趣構(gòu)建

本文使用注意力機制構(gòu)建用戶興趣，如圖6 所示. 假定用戶u的歷史交互行為中包含n個物品，其描

圖6 用戶興趣構(gòu)建Fig. 6 User interest building

3 融入關(guān)系抽取的推薦系統(tǒng)實驗

實驗包含兩部分，首先驗證補充模板特征的關(guān)系抽取模型的有效性，然后證明融合關(guān)系抽取的推薦系統(tǒng)的有效性.

3.1 補充模板特征的關(guān)系抽取模型

3.1.1 數(shù)據(jù)集和對比實驗

實驗使用SemEval-2010 Task 8[15]數(shù)據(jù)集進行關(guān)系抽取.

為了驗證模板特征提取器的有效性和適用性，本文選擇不同的關(guān)系抽取模型作為句子特征提取器，對比添加模板特征提取器前后的模型效果，實驗結(jié)果如表1 所示.

本文在句子特征提取器中采用的模型包含3 類，分別是使用詞法的模型、基于句法的模型和端對端模型.

由表1 可知，模型在補充模板特征后效果均有提升，這表明模板特征提取器對提升模型預(yù)測效果是有效的，并且具有普遍的適用性.

表1 模型補充模板特征前后的效果對比Tab. 1 Comparison of effects before and after model supplement template features

3.1.2 有效性實驗

為了驗證實體上位詞路徑和模板位置標(biāo)志的有效性，本文采用P-CNN 模型作為句子特征提取器，設(shè)計了如表2 所示的有效性實驗.

表2 模型中EHP 和TPI 的有效性驗證Tab. 2 Validation of EHP and TPI in the model

其中，SF 表示句子特征提取器；WE 和EHP 分別表示使用實體和實體上位詞路徑進行關(guān)系抽?。籘PI、PI 和PE 分別表示使用模板位置標(biāo)志、位置標(biāo)志和位置嵌入. TPI 指本文提出的模板位置標(biāo)志；PI 指不去除4 個位置標(biāo)志＜e1＞、＜/e1＞、＜e2＞和＜/e2＞，將其當(dāng)作句子中的詞，進行關(guān)系抽取；PE 指獲得句子中詞語與實體對相對距離，通過嵌入矩陣獲得位置向量，與詞向量拼接作為輸入.

當(dāng)使用詞嵌入時，模板特征提取器模塊與句子特征提取器模塊功能類似，提取模板特征能力非常弱，提取句子特征能力非常強，因此使用位置嵌入方式影響最大，模板位置標(biāo)志方式影響最??；當(dāng)使用實體上位詞路徑時，模板特征提取器模塊可以實現(xiàn)提取模板功能，且能力非常強，因此使用模板位置標(biāo)志方式影響最大，位置嵌入方式影響最小. 由表2 可知，同時使用句子特征提取器和模板特征提取器，并且使用模板位置標(biāo)志信息，模型可以獲得最好的效果.

3.2 融合關(guān)系抽取的推薦系統(tǒng)

3.2.1 數(shù)據(jù)集和對比實驗

融合關(guān)系抽取的推薦系統(tǒng)采用的數(shù)據(jù)集來自亞馬遜（Amazon.com），在Electronics 子集上進行實驗.將FRE-RE 與其他模型進行對比，結(jié)果如表3 所示.

表3 Electronics 子集上與其他模型的對比結(jié)果Tab. 3 Comparison results with other models on Electronics data set

FRE-RE 在Electronics 子集上的推薦效果要優(yōu)于其他推薦模型. FRE-RE 與DKN 模型相比增加了增強知識圖譜信息，采用補充模板特征的關(guān)系抽取模型等獲得增強實體特征，使得模型包含更多的知識信息；與RippleNet 模型相比區(qū)分了普適知識和專業(yè)知識，即基礎(chǔ)實體特征和增強實體特征，保留了更多的有效信息，預(yù)測效果進一步提升.

3.2.2 消融實驗

為了驗證模型各個部分的有效性，本文設(shè)計了消融實驗，結(jié)果如表4 所示.

表4 消融實驗結(jié)果Tab. 4 Ablation experiment results

其中，“-EnhancedEntity”表示模型僅使用文本特征和基礎(chǔ)實體特征；“-TemplateFeature”表示在知識提取中采用去除模板特征的關(guān)系抽取模型獲得增強實體特征；“-TransE”、“-TransR”和“-TransD”分別表示使用不同的知識表示學(xué)習(xí)方法獲得增強實體特征，使用不同知識表示學(xué)習(xí)方法的實驗結(jié)果如表5所示.

表5 不同知識表示學(xué)習(xí)方法實驗結(jié)果Tab. 5 The results of different knowledge represent methods

由表4 可以得出，在物品特征構(gòu)建中補充增強實體特征與未補充相比，前者模型效果比后者約高0.9%，這說明增強實體特征的有效性. FRE-RE 和去除模板特征后的實驗結(jié)果相比約高0.4%，這說明模板特征在模型中的有效性. 由表5 可以得出，在知識表示學(xué)習(xí)方法的選擇中，TransE、TransR 和TransD 效果依次提高，相差較小.

4 結(jié) 論

為了解決傳統(tǒng)的推薦模型存在物品知識利用不充分的問題，本文提出了融合關(guān)系抽取的推薦系統(tǒng)FRE-RE，首先通過知識提取獲得詞嵌入集合、基礎(chǔ)實體嵌入集合和增強實體嵌入集合；然后將所有的知識信息融入到神經(jīng)網(wǎng)絡(luò)中，構(gòu)建物品特征；接著把用戶的歷史交互行為作為輸入信息，采用注意力網(wǎng)絡(luò)構(gòu)建用戶特征；最后使用多層感知機實現(xiàn)個性化推薦. 在獲取增強實體嵌入集合時，需要使用關(guān)系抽取技術(shù)，本文對其進行深入研究，提出了補充模板特征的關(guān)系抽取模型，利用WordNet 詞典信息挖掘?qū)嶓w間深層次聯(lián)系. 該模型首先獲得句子特征，然后通過WordNet 詞典獲得實體上位詞路徑作為模型輸入，采用雙向LSTM 和注意力機制等獲得模板特征，最后通過門限融合的方式融合兩種特征，預(yù)測關(guān)系類別.

實驗表明補充模板特征的關(guān)系抽取模型可以提高基礎(chǔ)模型的效果，具有適用性；融合關(guān)系抽取的推薦系統(tǒng)的預(yù)測效果比其他模型好，且模型的各個部分都是有效的.

在今后的研究工作中，可以考慮：在補充模板特征的關(guān)系抽取模型中使用蒸餾網(wǎng)絡(luò)對多條路徑進行選擇；在融合關(guān)系抽取的推薦系統(tǒng)中把關(guān)系抽取和命名實體識別或事件抽取等任務(wù)聯(lián)合學(xué)習(xí). 通過這些手段，更加充分地挖掘現(xiàn)有數(shù)據(jù)，獲取更加準確的知識.