亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合TuckER嵌入和強(qiáng)化學(xué)習(xí)的知識(shí)推理①

        2022-09-20 04:10:54于鐵忠王利琴董永峰
        關(guān)鍵詞:三元組圖譜實(shí)體

        于鐵忠, 羅 婧, 王利琴,3,4, 董永峰,3,4

        1(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院, 天津 300401)

        2(石家莊學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院, 石家莊 050035)

        3(河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室, 天津 300401)

        4(河北省數(shù)據(jù)驅(qū)動(dòng)工業(yè)智能工程研究中心, 天津 300401)

        1 引言

        知識(shí)圖譜(knowledge graph, KG)[1]本質(zhì)上是一種概念網(wǎng)絡(luò), 其基本組成單位是形式為(實(shí)體, 關(guān)系, 實(shí)體)的三元組, 目前已經(jīng)構(gòu)建了許多知識(shí)圖譜, 如WordNet[2]、NELL[3]、Freebase[4]等, 并成功應(yīng)用于信息檢索、推薦系統(tǒng)、問(wèn)答系統(tǒng)等智能服務(wù)領(lǐng)域. 因?yàn)闃?gòu)建的大規(guī)模知識(shí)圖譜通常是不完備的, 需要不斷對(duì)其進(jìn)行補(bǔ)充, 而知識(shí)推理[5,6]是從現(xiàn)有的數(shù)據(jù)中推理出新的實(shí)體或關(guān)系, 從而不斷完善知識(shí)圖譜, 因此知識(shí)推理近年來(lái)成為知識(shí)圖譜研究領(lǐng)域的熱點(diǎn)問(wèn)題之一.

        使用張量因子分解或神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實(shí)體和關(guān)系的嵌入是目前較為流行的知識(shí)推理方法[7-9], 它們將知識(shí)圖譜中的實(shí)體和關(guān)系表示成低維稠密向量, 然后利用向量的相似性推理出實(shí)體之間的關(guān)系或者判定給定的三元組是否為真, 從而補(bǔ)全知識(shí)圖譜. 這些方法效率較高, 但是依賴于知識(shí)圖譜的三元組表示形式, 大多數(shù)都沒有捕捉到多跳路徑的關(guān)系, 從而限制了其在更復(fù)雜的推理任務(wù)中的應(yīng)用. 因此, 結(jié)合實(shí)體對(duì)之間的多跳路徑信息成為知識(shí)推理的另一種解決方案. 路徑排序算法(path ranking algorithm, PRA)[10]使用基于重啟推理機(jī)制的隨機(jī)游走來(lái)執(zhí)行多個(gè)有界深度優(yōu)先搜索, 通過(guò)監(jiān)督學(xué)習(xí)選擇更合理的路徑, 在一定程度上解決了上述問(wèn)題. 由于具有可解釋性和良好的性能, 最近的工作將多跳推理表述為馬爾可夫決策過(guò)程(Marcov decision process, MDP)[11], 并利用強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)[12,13]執(zhí)行有效路徑搜索. 其中DeepPath[14]是第一個(gè)將強(qiáng)化學(xué)習(xí)遷移到知識(shí)圖譜中的多跳推理方法, 該方法將實(shí)體對(duì)應(yīng)強(qiáng)化學(xué)習(xí)中的狀態(tài), 關(guān)系對(duì)應(yīng)動(dòng)作, 旨在使用RL對(duì)關(guān)系進(jìn)行采樣來(lái)擴(kuò)展路徑, 這類方法的提出為知識(shí)圖譜的推理提供了新的研究思路.

        然而在實(shí)際知識(shí)推理任務(wù)當(dāng)中, 使用強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行路徑搜索的效率并不高, 一方面, 多數(shù)強(qiáng)化學(xué)習(xí)方法在構(gòu)建知識(shí)圖譜環(huán)境時(shí)沒有對(duì)實(shí)體和關(guān)系進(jìn)行較好的嵌入, 從而導(dǎo)致智能體的路徑搜索成功率偏低; 另一方面, 知識(shí)圖譜中存在大量無(wú)效路徑, 比如對(duì)于三元組(人物A, 出生于, 北京)、(北京, 位于, 中國(guó))、(人物A,結(jié)婚, 人物B)而言, 可以推出(人物B, 出生于, 中國(guó)).在推理過(guò)程中, 關(guān)系“結(jié)婚”是實(shí)體, “北京”和“中國(guó)”的無(wú)效動(dòng)作, 因?yàn)閷?shí)體“北京”和“中國(guó)”不能作為“結(jié)婚”的主語(yǔ)或者賓語(yǔ). 當(dāng)智能體在游走的過(guò)程中選擇了某無(wú)效動(dòng)作時(shí), 會(huì)停止并退回上一步重新進(jìn)行選擇, 然而智能體可能會(huì)不斷選擇該無(wú)效動(dòng)作; 當(dāng)選擇有效路徑時(shí),也會(huì)存在同一條路徑重復(fù)被選擇的情況, 均會(huì)造成游走死循環(huán). 上述情況都有可能導(dǎo)致智能體在游走初始階段難以獲得策略網(wǎng)絡(luò)給予的獎(jiǎng)勵(lì), 使得路徑選擇的準(zhǔn)確率降低.

        針對(duì)以上提出的在進(jìn)行知識(shí)推理時(shí)路徑選擇效率和準(zhǔn)確率偏低的問(wèn)題, 本文實(shí)現(xiàn)了表示學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的融合, 提出一種融合TuckER嵌入和強(qiáng)化學(xué)習(xí)的知識(shí)圖譜推理方法TuckRL (TuckER reinforcement learning, TuckRL), 將路徑選擇問(wèn)題轉(zhuǎn)化為序列決策問(wèn)題. 通過(guò)使用TuckER嵌入得到知識(shí)圖譜中實(shí)體和關(guān)系的向量表示, 使智能體在與知識(shí)圖譜環(huán)境的交互中能夠更精準(zhǔn)的搜索路徑, 提高了推理方法的效率; 為了減少無(wú)效動(dòng)作對(duì)智能體的干擾, 并鼓勵(lì)策略網(wǎng)絡(luò)選擇不同的關(guān)系, 通過(guò)對(duì)動(dòng)作執(zhí)行隨機(jī)丟棄操作, 使智能體得到更全面的訓(xùn)練, 提高了模型的泛化能力; 使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM) 存儲(chǔ)智能體歷史動(dòng)作, 在關(guān)系選擇時(shí)強(qiáng)制智能體選擇其他動(dòng)作來(lái)避免在同一實(shí)體節(jié)點(diǎn)上不斷停頓, 使其在訓(xùn)練過(guò)程中盡可能為推理任務(wù)找到成功率較高的路徑.

        2 相關(guān)工作

        目前面向知識(shí)圖譜的知識(shí)推理方法可分為以下3類: 基于嵌入的方法、基于關(guān)系路徑的方法以及基于強(qiáng)化學(xué)習(xí)的方法, 本節(jié)將按照此分類對(duì)知識(shí)推理方法的國(guó)內(nèi)外研究工作進(jìn)行概述.

        基于嵌入的推理是將實(shí)體和關(guān)系映射到向量空間中, 通過(guò)計(jì)算得到的向量相似度完成推理. 其中最經(jīng)典的模型是Bordes等[8]于2013年提出來(lái)的TransE, 該模型將關(guān)系視為實(shí)體對(duì)之間的某種翻譯, 在處理簡(jiǎn)單關(guān)系時(shí)表現(xiàn)良好, 但在面對(duì)1-N、N-1、N-N等復(fù)雜關(guān)系時(shí)會(huì)存在錯(cuò)誤; Wang等[15]提出的TransH通過(guò)設(shè)置一個(gè)關(guān)系超平面, 使不同關(guān)系下的實(shí)體有不同的表示,解決了TransE在處理復(fù)雜關(guān)系時(shí)的局限性. Ji等[16]提出的TransD同時(shí)考慮實(shí)體和關(guān)系的多樣性, 通過(guò)設(shè)置兩個(gè)投影矩陣分別將頭尾實(shí)體投影到關(guān)系空間, 模型更加靈活; 陳文杰等[17]提出的TransGraph模型學(xué)習(xí)三元組信息的同時(shí), 還考慮到知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu)特征和語(yǔ)義信息, 從而增強(qiáng)三元組的表示效果; Trouillon等[18]提出的ComplEx將實(shí)體和關(guān)系嵌入到復(fù)數(shù)向量空間中, 以推理對(duì)稱和反對(duì)稱關(guān)系; Bala?evi?等[19]提出的TuckER將知識(shí)圖譜表示成三階二元張量, 每個(gè)元素對(duì)應(yīng)一個(gè)三元組, 具有較強(qiáng)的學(xué)習(xí)特征能力.

        基于關(guān)系路徑的推理方法側(cè)重于捕捉KG中路徑上的信息, 也就是說(shuō), 此類方法不僅可以預(yù)測(cè)實(shí)體之間的直接關(guān)系, 還考慮其多跳關(guān)系的豐富語(yǔ)義. 早期的研究路徑排序算法PRA通過(guò)在KG上隨機(jī)游走得到實(shí)體對(duì)之間的所有路徑, 并利用二分類器推理缺失的關(guān)系. Lin等[20]提出的PTransE通過(guò)組合每條路徑中的所有關(guān)系得到路徑的嵌入, 并設(shè)計(jì)了路徑約束資源分配算法(path-constraint resource allocation, PCRA)衡量關(guān)系路徑的可靠性. Das等[21]提出Path-RNN (pathrecurrent neural network, Path-RNN)神經(jīng)網(wǎng)絡(luò)模型, 將每條路徑分解為關(guān)系序列, 通過(guò)RNN組合關(guān)系路徑的語(yǔ)義信息, 構(gòu)造出路徑的向量表示. Wang等[22]提出知識(shí)感知的路徑循環(huán)網(wǎng)絡(luò)(knowledge-aware path recurrent network, KPRN)模型, 在嵌入實(shí)體和向量之后,LSTM通過(guò)組合實(shí)體和關(guān)系的語(yǔ)義生成路徑表示, 利用路徑中的序列依賴項(xiàng)進(jìn)行關(guān)系補(bǔ)全.

        基于強(qiáng)化學(xué)習(xí)的推理方法將實(shí)體之間的路徑游走視為馬爾可夫決策過(guò)程, 使用基于策略的智能體搜索推理路徑. Xiong等[14]提出第一個(gè)考慮在知識(shí)圖譜中學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)方法DeepPath; Das等[23]提出的MINERVA是使用強(qiáng)化學(xué)習(xí)訓(xùn)練用于多跳KG查詢應(yīng)答的端到端模型; Shen等[24]提出的M-Walk是一個(gè)由RNN和蒙特卡洛樹組成的智能體, 用來(lái)編碼路徑狀態(tài)以及生成有效路徑. Li等[25]提出的DIVINE是一種基于生成對(duì)抗學(xué)習(xí)的框架, 通過(guò)學(xué)習(xí)推理策略和獎(jiǎng)勵(lì)函數(shù)來(lái)增強(qiáng)知識(shí)圖譜中基于RL的推理. Meilicke等[26]提出基于規(guī)則的多跳推理模型, 引入強(qiáng)化學(xué)習(xí)指導(dǎo)規(guī)則采樣過(guò)程, 有助于獲取更有價(jià)值的規(guī)則. Lei等[27]提出的RuleGuider利用基于符號(hào)方法生成的高質(zhì)量規(guī)則為智能體提供獎(jiǎng)勵(lì)監(jiān)督. 崔員寧等[28]提出的TransPath通過(guò)在目標(biāo)任務(wù)之外增加單步游走選擇有效動(dòng)作的源任務(wù)來(lái)提高路徑選擇的成功率.

        從以上研究可以發(fā)現(xiàn), 很少有將嵌入模型和強(qiáng)化學(xué)習(xí)相結(jié)合的方法, 且在使用強(qiáng)化學(xué)習(xí)進(jìn)行推理的過(guò)程中, 沒有充分利用智能體的歷史路徑信息. 因此, 本文提出采用TuckRL方法解決此類問(wèn)題, 首先將實(shí)體和關(guān)系進(jìn)行低維嵌入, 完成知識(shí)圖譜環(huán)境的創(chuàng)建; 然后在強(qiáng)化學(xué)習(xí)的框架中, 為減少無(wú)效動(dòng)作對(duì)推理結(jié)果的干擾, 通過(guò)隨機(jī)丟棄智能體的輸出邊進(jìn)行動(dòng)作修剪, 并引入LSTM網(wǎng)絡(luò)作為記憶組件存儲(chǔ)歷史路徑, 以提高路徑選擇的效率.

        3 融合TuckER嵌入和強(qiáng)化學(xué)習(xí)的知識(shí)推理

        知識(shí)推理的具體任務(wù)是在實(shí)體對(duì)之間找到可靠的預(yù)測(cè)路徑, 所以為了提高路徑搜索的效率和質(zhì)量, 本文提出了一種融合TuckER嵌入和強(qiáng)化學(xué)習(xí)的知識(shí)推理方法TuckRL, 將尋找實(shí)體對(duì)之間可能存在的關(guān)系以及路徑信息轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的序列決策問(wèn)題. 模型如圖1所示, 分為3部分.

        圖1 融合TuckER嵌入和強(qiáng)化學(xué)習(xí)的知識(shí)推理模型框架圖

        其中, 第1部分為知識(shí)圖譜環(huán)境模塊: 使用TuckER嵌入將實(shí)體和關(guān)系映射成含有三元組語(yǔ)義信息的向量;第2部分為強(qiáng)化學(xué)習(xí)環(huán)境模塊: 將TuckER嵌入得到的實(shí)體和關(guān)系的連續(xù)向量化表示作為基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的輸入, 使得模型能夠充分利用知識(shí)圖譜已經(jīng)存在的三元組信息, 且RL智能體在游走的過(guò)程中進(jìn)行策略網(wǎng)絡(luò)的訓(xùn)練, 使用動(dòng)作修剪和LSTM網(wǎng)絡(luò)來(lái)控制關(guān)系選擇和路徑搜索, 幫助智能體選擇有效動(dòng)作, 以便提高模型的性能; 第3部分為策略引導(dǎo)的路徑推理模塊: 智能體與知識(shí)圖譜環(huán)境進(jìn)行交互, 在知識(shí)推理階段采用訓(xùn)練好的策略, 完成推理任務(wù).

        3.1 TuckER嵌入

        知識(shí)圖譜嵌入是KG建模的方法, 通過(guò)學(xué)習(xí)評(píng)分函數(shù) f(eH,eT)來(lái)定義空間中的三元組, 使得語(yǔ)義相近的實(shí)體在嵌入空間中的向量表示距離也相近. TuckER具備完全表達(dá)能力, 即通過(guò)訓(xùn)練學(xué)習(xí), 能夠?qū)⒄M和負(fù)三元組完全區(qū)分開, 且性能較優(yōu)于當(dāng)前的線性嵌入模型. 圖2為TuckER嵌入模型的可視化表示.

        圖2 TuckER嵌入模型圖

        在該嵌入模型中, 知識(shí)圖譜被表示為一個(gè)三階二元張量, 而TuckER分解的核心思想是將該三階張量分解為1個(gè)核心張量和3個(gè)矩陣, 每一個(gè)元素表示一條事實(shí)三元組, 值為1表示真實(shí)三元組, 為0表示錯(cuò)誤或缺失事實(shí). 定義一個(gè)原始張量X ∈RI×J×K, 通過(guò)TuckER可以分解為核心張量Z ∈RP×Q×R和 3個(gè)矩陣A∈RI×P、B∈RJ×Q、C∈RK×R, 如式(1)所示:

        其中, ×n表示沿第n階模的張量積, 3個(gè)矩陣每一行分別為頭實(shí)體eH、關(guān)系r 和尾實(shí)體eT的向量表示, 而核心張量 Z 表征了它們之間的交互級(jí)別. 頭實(shí)體和尾實(shí)體是等價(jià)的, 均用實(shí)體嵌入矩陣 E 來(lái)表示, 即E=A=C∈Rne×de ,且關(guān)系矩陣嵌入為R =B∈Rnr×dr, 其中ne和nr表示實(shí)體和關(guān)系的數(shù)量, de和dr表示實(shí)體和關(guān)系嵌入向量的維數(shù).

        綜上, 定義出TuckER的得分函數(shù)如式(2)所示:

        其中,W∈Rde×dr×de為 核心張量, 即模型參數(shù);wr∈Rdr為R的關(guān)系表示.

        3.2 強(qiáng)化學(xué)習(xí)

        TuckRL模型是將知識(shí)圖譜推理問(wèn)題轉(zhuǎn)化為馬爾科夫決策問(wèn)題, 智能體的狀態(tài)轉(zhuǎn)移和動(dòng)作選擇都在知識(shí)圖譜環(huán)境中完成, 故本節(jié)介紹將知識(shí)圖譜G 建模為強(qiáng)化學(xué)習(xí)智能體決策環(huán)境的過(guò)程.

        該過(guò)程主要由< S, A , γ, P >四部分構(gòu)成, 其中S表示智能體的連續(xù)狀態(tài)空間, A={a1, a2, …, an}是動(dòng)作空間, 表示所有可用動(dòng)作的集合, γ(s, a)為獎(jiǎng)勵(lì)函數(shù), P是狀態(tài)轉(zhuǎn)移策略.

        (1) 狀態(tài)空間

        知識(shí)圖譜中的實(shí)體集合E作為智能體的狀態(tài)S,將智能體在每個(gè)時(shí)間步驟的狀態(tài)表示成 st∈S , 且et表示第t步訪問(wèn)的實(shí)體. 為了更好地表達(dá)其語(yǔ)義內(nèi)涵, 采用TuckER嵌入將實(shí)體表示成低維稠密向量.

        (2) 動(dòng)作空間

        動(dòng)作空間A被定義為KG中的關(guān)系集合R, At表示狀態(tài) st所對(duì)應(yīng)的實(shí)體et在KG中所有可能的輸出邊, 智能體要選擇一個(gè)邊進(jìn)行路徑搜索, 游走步數(shù)T作為路徑搜索的終止條件. 動(dòng)作集合表示如下:

        其中, r′、 e′分別表示下一步有可能選擇的關(guān)系和實(shí)體.

        (3) 狀態(tài)轉(zhuǎn)移

        狀態(tài)轉(zhuǎn)移是指智能體根據(jù)當(dāng)前狀態(tài)做出動(dòng)作移動(dòng)到下一個(gè)狀態(tài)的過(guò)程. 具體來(lái)說(shuō), 智能體在當(dāng)前狀態(tài)下,通過(guò)選擇某動(dòng)作后, 并基于環(huán)境的交互實(shí)現(xiàn)從當(dāng)前狀態(tài)到下一狀態(tài)的轉(zhuǎn)移. 狀態(tài)轉(zhuǎn)移P表示如下:

        (4) 獎(jiǎng)勵(lì)函數(shù)

        當(dāng)智能體從初始狀態(tài)開始搜索, 最終能夠到達(dá)目標(biāo)狀態(tài), 則獲得正向獎(jiǎng)勵(lì)1, 否則無(wú)獎(jiǎng)勵(lì). 智能體會(huì)根據(jù)獎(jiǎng)勵(lì)及時(shí)更新自己的策略, 盡可能實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化, 獎(jiǎng)勵(lì)函數(shù)定義如下:

        其中, rq表 示查詢到的關(guān)系, eT表示最終的尾實(shí)體.

        3.3 基于MDP的策略網(wǎng)絡(luò)

        基于MDP的策略網(wǎng)絡(luò)是TuckRL的關(guān)鍵部分, 主要用于引導(dǎo)智能體在知識(shí)圖譜和強(qiáng)化學(xué)習(xí)的交互環(huán)境中進(jìn)行游走, 做出高效且準(zhǔn)確的決策. 在該策略網(wǎng)絡(luò)中,首先使用Dropout動(dòng)作修剪, 目的是減少無(wú)效動(dòng)作對(duì)于智能體游走的干擾, 提高動(dòng)作的選擇效率, 然后引入長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM作為記憶組件, 避免智能體在同一實(shí)體節(jié)點(diǎn)上不斷停滯的同時(shí), 編碼完整的路徑游走歷史軌跡, 并采用策略梯度下降算法更新策略網(wǎng)絡(luò)的參數(shù), 以便在推理過(guò)程中引導(dǎo)智能體走向更可靠的路徑.

        (1) 動(dòng)作修剪

        由于無(wú)效路徑通常比正確路徑多, 且更容易被發(fā)現(xiàn), 從而增加了路徑搜索的負(fù)擔(dān), 尤其是當(dāng)KG隨著路徑跳數(shù)的增長(zhǎng), 動(dòng)作空間也會(huì)呈指數(shù)型增加, 從而加大搜索負(fù)擔(dān), 對(duì)于出度較大的實(shí)體(即與之相連的關(guān)系較多), 這種現(xiàn)象會(huì)更嚴(yán)重. 而枚舉出來(lái)實(shí)體對(duì)之間所有可能的關(guān)系路徑在大型知識(shí)圖譜上是不可行的, 因此如何進(jìn)行有效的路徑探索, 找出推理路徑格外重要.

        針對(duì)這類問(wèn)題, TuckRL借鑒深度神經(jīng)網(wǎng)絡(luò)中Dropout丟棄神經(jīng)元來(lái)緩解過(guò)擬合的思想, 提出了一種新的訓(xùn)練機(jī)制: 將隨機(jī)丟棄思想用到強(qiáng)化學(xué)習(xí)的路徑選擇中, 按照一定的概率屏蔽當(dāng)前實(shí)體的輸出邊, 從而實(shí)現(xiàn)動(dòng)作的修剪. 在智能體采樣路徑的時(shí)候, 隨機(jī)屏蔽當(dāng)前狀態(tài)的一些輸出邊, 智能體根據(jù)修剪后的關(guān)系分布來(lái)采樣動(dòng)作. 這樣不僅可以減少智能體的搜索空間,防止GPU內(nèi)存溢出, 同時(shí)還能進(jìn)一步擴(kuò)大對(duì)于不同路徑集的有效探索, 提高路徑選擇的隨機(jī)性.

        (2) LSTM編碼路徑

        KG中的每一個(gè)實(shí)體和關(guān)系都通過(guò)TuckER嵌入分別得到具有語(yǔ)義信息的低維稠密向量e ∈E, r ∈R, 為保存搜索歷史路徑, 利用3層LSTM記憶和編碼智能體的歷史動(dòng)作. 假設(shè)初始狀態(tài)為 h0=0 , 搜索歷史ht=(eH,r1,e1,···,rt,eT)由從第1步到第t步所采取的動(dòng)作序列構(gòu)成.

        其中, r0表 示初始關(guān)系, eH為初始實(shí)體.

        (3) 策略神經(jīng)網(wǎng)絡(luò)優(yōu)化

        在知識(shí)推理中, 基于策略網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)將輸入狀態(tài) st映射到所有可能被選擇的動(dòng)作的概率向量中, 本文將組合得到的狀態(tài)向量輸入到由兩個(gè)隱藏層組成的神經(jīng)網(wǎng)絡(luò)中, 且每個(gè)隱藏層后面會(huì)有一個(gè)ReLU層, 輸出層使用Softmax進(jìn)行歸一化. 策略網(wǎng)絡(luò)π定義如下:

        其中, θ為神經(jīng)網(wǎng)絡(luò)參數(shù), 動(dòng)作空間At為所有動(dòng)作嵌入的集合, W為隱藏層的權(quán)重.

        對(duì)于上述策略網(wǎng)絡(luò)πθ, 模型使用REINFORCE梯度策略方法來(lái)優(yōu)化參數(shù)θ, 如式(10)所示:

        其中, J (θ) 表示一個(gè)批次的獎(jiǎng)勵(lì), E 表示訓(xùn)練集上不同三元組對(duì)應(yīng)的期望值.

        REINFORCE梯度策略方法使用當(dāng)前的策略生成的一系列歷史軌跡(迭代遍歷所有在 G 中的三元組)來(lái)估計(jì)隨機(jī)梯度, 然后用隨機(jī)梯度來(lái)更新參數(shù), 如式(11)和式(12)所示:

        其中, θ為需要更新的參數(shù), eH表示頭實(shí)體, rt表示當(dāng)前關(guān)系, πθ(at|st)為 在 st狀 態(tài)下策略網(wǎng)絡(luò)選擇at的概率. γ為執(zhí)行該動(dòng)作所獲得的獎(jiǎng)勵(lì)值, β為學(xué)習(xí)率.

        3.4 模型訓(xùn)練

        在進(jìn)行知識(shí)推理之前, 對(duì)RL智能體進(jìn)行策略網(wǎng)絡(luò)的訓(xùn)練, 目的是讓智能體在路徑游走的過(guò)程中盡可能地直接選擇正確的動(dòng)作, 從而更高效的完成多步關(guān)系推理. 在訓(xùn)練中, 首先輸入知識(shí)圖譜訓(xùn)練集Train、限制游走長(zhǎng)度的最大步數(shù)T, 然后是智能體和圖譜環(huán)境之間的迭代: 根據(jù)策略網(wǎng)絡(luò)的輸出結(jié)果, 選擇一個(gè)關(guān)系r作為下一步的執(zhí)行動(dòng)作, 此時(shí)判斷起始狀態(tài) s0和目前選擇的關(guān)系r組成的三元組是否在知識(shí)圖譜 G 中, 若是, 給予獎(jiǎng)勵(lì)并更新策略網(wǎng)絡(luò), 具體訓(xùn)練過(guò)程如算法1.

        算法1. 策略網(wǎng)絡(luò)訓(xùn)練算法G輸入: 知識(shí)圖譜 , 訓(xùn)練集Train, 最大步數(shù)大小T πθ輸出: 策略網(wǎng)絡(luò) 的參數(shù)θ 1) for episode 1 to N do 2) initial st = s0, h0 = 0, step = 0 3) while step < T do 5) st=TuckER(et), at=TuckER(rt)πθ(at|st)6) Update ht = LSTM(ht-1, at-1) //根據(jù)策略 執(zhí)行動(dòng)作a, 得到獎(jiǎng)勵(lì)Reward和狀態(tài)St+1 7) if Reward = 0 8) step++9) if Reward = 1 or step = T 10) break 11) end while g∝?θT∑t=1 Reward(st|es,r)logπθ(at|st)12) //更新策略網(wǎng)絡(luò)13) end for

        4 實(shí)驗(yàn)分析

        4.1 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

        為了評(píng)估本文所提方法, 在NELL-995、WN18RR、FB15K-237這3個(gè)大規(guī)模數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn). 其中NELL-995是基于語(yǔ)義機(jī)器學(xué)習(xí)系統(tǒng)NELL的第995次迭代產(chǎn)生的數(shù)據(jù)集, 包含7.5k個(gè)實(shí)體、200個(gè)關(guān)系以及16.9k個(gè)三元組, WN18RR的三元組數(shù)據(jù)來(lái)自大型英文語(yǔ)義知識(shí)庫(kù)WordNet, 包含4.0k個(gè)實(shí)體、11個(gè)關(guān)系和14.6k個(gè)三元組; FB15K-237是包含常見信息的世界知識(shí)庫(kù)FB15K的子集, 通過(guò)從驗(yàn)證集和測(cè)試集中移除許多關(guān)系的逆關(guān)系構(gòu)建, 包含1.4k個(gè)實(shí)體、237個(gè)關(guān)系和29.2k個(gè)三元組; 數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.

        表1 數(shù)據(jù)集的信息

        在關(guān)系預(yù)測(cè)任務(wù)中, 通常使用平均倒數(shù)排名(mean reciprocal rank, MRR)和推理結(jié)果命中率Hits@N作為評(píng)估指標(biāo). 對(duì)于三元組中缺失的關(guān)系, 模型會(huì)對(duì)測(cè)試集中的實(shí)體對(duì)(e1, e2), 依據(jù)評(píng)分函數(shù)預(yù)測(cè)出帶有順序的關(guān)系集合r={r1, r2, …, rn}, 正確的關(guān)系r在關(guān)系集合中排名越靠前, 則說(shuō)明模型的預(yù)測(cè)效果越好.

        MRR是指正確結(jié)果在所有預(yù)測(cè)結(jié)果中排名的倒數(shù)平均值, 計(jì)算如式(13)所示:

        Hits@N表示正確的結(jié)果在所有預(yù)測(cè)結(jié)果中排在前n位所占的比例, 計(jì)算如式(14)所示:

        其中, N是需預(yù)測(cè)關(guān)系的實(shí)體對(duì)數(shù)量; r anki是對(duì)需預(yù)測(cè)的第i個(gè)實(shí)體對(duì)而言正確的關(guān)系在所有預(yù)測(cè)結(jié)果中的排序位置. I 為指示函數(shù), 表示當(dāng)r anki≤n 時(shí) , I =1, 否則I=0.

        4.2 參數(shù)設(shè)置

        到的所有實(shí)體和關(guān)系向量維度設(shè)置為100, 這也是策略網(wǎng)絡(luò)Policy Network的輸入大小, 路徑編碼器LSTM的隱藏層維度設(shè)置為100. 選擇Adam作為優(yōu)化器, 學(xué)習(xí)率 β分別設(shè)置為{0.001, 0.002, 0.003}, 對(duì)于整個(gè)訓(xùn)練過(guò)程, Dropout分別為{0, 0.1, 0.2, 0.3, 0.4}, 迭代次數(shù)num_epoches和批大小batch_size分別為20和128.

        實(shí)驗(yàn)使用與RuleGuider[27]相同的訓(xùn)練集、驗(yàn)證集和測(cè)試集. 對(duì)于每個(gè)實(shí)體, 將實(shí)體的最大輸出邊數(shù)設(shè)置為閾值η, 以防止GPU內(nèi)存溢出, 并保留其具有最高PageRank分?jǐn)?shù)的前n個(gè)鄰居. 將TuckER模型嵌入得

        4.3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證所提方法的性能, 與嵌入模型TransE、DistMult、ComplEx和ConVKB[29], 使用強(qiáng)化學(xué)習(xí)進(jìn)行推理的模型DeepPath、MINERVA、AnyBURL和RuleGuider進(jìn)行對(duì)比實(shí)驗(yàn), 得出本模型TuckRL優(yōu)于大部分模型, 實(shí)驗(yàn)結(jié)果如表2所示, 其他模型的實(shí)驗(yàn)結(jié)果使用文獻(xiàn)[27]給出的結(jié)果. 由表2可知, 基于嵌入的模型雖然比較簡(jiǎn)單, 但是在多個(gè)數(shù)據(jù)集上的整體結(jié)果是不錯(cuò)的, 原因可能是基于嵌入的方法可以將KG中的每個(gè)三元組映射到嵌入空間, 從而可以編碼整個(gè)圖譜的連通性; 而TuckRL也正是利用了嵌入模型的這個(gè)優(yōu)點(diǎn), 也得到了不錯(cuò)的實(shí)驗(yàn)結(jié)果. 在WN18RR和FB15K-237數(shù)據(jù)集上比其他方法有較明顯提升, 尤其在FB15K-237數(shù)據(jù)集上, 主要原因可能是FB15K-237實(shí)體之間路徑長(zhǎng)度較長(zhǎng), 在其他模型中動(dòng)作選擇的正確率較低,而TuckRL中使用動(dòng)作修剪和LSTM編碼路徑有效避免了選擇無(wú)效動(dòng)作. 雖然在大型數(shù)據(jù)集NELL-995上本文的方法相對(duì)于MINERVA沒有得到顯著改善, 但Hits@1、Hits@3和MRR指標(biāo)略優(yōu)于最新模型Rule-Guider和多數(shù)嵌入模型.

        表2 不同推理方法在不同數(shù)據(jù)集上的命中率實(shí)驗(yàn)結(jié)果分析比較 (%)

        4.4 Dropout分析

        為了考察動(dòng)作修剪策略對(duì)于模型性能的影響, 在FB15K-237引入Dropout={0, 0.1, 0.2, 0.3, 0.4}進(jìn)行實(shí)驗(yàn), 命中率Hits@N和平均倒數(shù)排名MRR的實(shí)驗(yàn)結(jié)果如圖3所示, 可以觀察到, Hits@N和MRR一開始隨著Dropout的增加而得到提升. 在Dropout=0.3達(dá)到最高值, 并之后開始有所下降, 尤其在Hits@10評(píng)價(jià)指標(biāo)上最為明顯. 分析可知, 一開始Dropout實(shí)現(xiàn)了動(dòng)作修剪,減少了動(dòng)作空間的大小, 提高了路徑選擇的正確性和效率, 但是隨著Dropout的增加, 有一些有效動(dòng)作也會(huì)伴隨著大量的舍棄, 從而導(dǎo)致結(jié)果的降低.

        圖3 在FB15K-237數(shù)據(jù)集上不同Dropout率的實(shí)驗(yàn)結(jié)果

        4.5 消融實(shí)驗(yàn)

        為了研究本文模型TuckRL中各個(gè)組件的重要性,在NELL-995、WN18RR和FB15K-237數(shù)據(jù)集上通過(guò)替換TuckER嵌入方法(-TuckER)、移除Dropout(-Dropout)和移除路徑編碼器LSTM (-LSTM)進(jìn)行消融實(shí)驗(yàn)的研究, 并將最終的Hits@3和MRR結(jié)果與整個(gè)模型進(jìn)行了比較, 實(shí)驗(yàn)結(jié)果如表3所示. 由表3可知,移除每個(gè)組件都會(huì)導(dǎo)致模型性能的下降, 每個(gè)組件對(duì)模型的最終結(jié)果都有不同的影響.

        表3 消融實(shí)驗(yàn)結(jié)果

        在該消融實(shí)驗(yàn)中, 首先將TuckER嵌入替換為ComplEx嵌入, 原始結(jié)果在NELL-995、FB15K-237和WN18RR數(shù)據(jù)集上的Hits@3和MRR分別有不同程度的下降, 由此可見, 一個(gè)性能較好的嵌入方法對(duì)于知識(shí)推理的作用也是較為明顯的; 當(dāng)移除Dropout動(dòng)作丟棄組件時(shí), 發(fā)現(xiàn)對(duì)應(yīng)的結(jié)果也均得到了降低, 由此可見, 刪除動(dòng)作丟棄組件會(huì)對(duì)策略網(wǎng)絡(luò)中路徑的游走有一定的影響; 最后是去掉可以記憶歷史路徑的LSTM組件, 也就是說(shuō), 智能體僅根據(jù)當(dāng)前的實(shí)體和策略函數(shù)來(lái)選擇下一步的動(dòng)作, 并且無(wú)法得到歷史路徑ht, 從實(shí)驗(yàn)結(jié)果可以觀察到記憶組件LSTM對(duì)于模型的性能具有重要影響.

        5 結(jié)論與展望

        本文提出了一種基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜推理方法TuckRL, 該方法融合了表示學(xué)習(xí)和強(qiáng)化學(xué)習(xí), 設(shè)計(jì)出一個(gè)全新的路徑游走策略, 在強(qiáng)化學(xué)習(xí)智能體進(jìn)行關(guān)系選擇和路徑游走的過(guò)程中, 引入了Dropout動(dòng)作修剪機(jī)制和LSTM神經(jīng)網(wǎng)絡(luò), 相比之前的強(qiáng)化學(xué)習(xí)工作, 更有利于智能體在推理過(guò)程中更有效的挖掘高質(zhì)量路徑, 從而完成知識(shí)圖譜推理任務(wù). 實(shí)驗(yàn)部分驗(yàn)證了本文模型的性能, 但是基于RL的方法與基于嵌入的方法在個(gè)別指標(biāo)上的差距仍然存在. 在未來(lái)的研究中, 將引入注意力機(jī)制來(lái)對(duì)鄰居節(jié)點(diǎn)分配不同的權(quán)重, 從而更好地捕獲兩個(gè)實(shí)體之間每條路徑的語(yǔ)義相關(guān)性, 來(lái)得到更好的推理效果.

        猜你喜歡
        三元組圖譜實(shí)體
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        關(guān)于余撓三元組的periodic-模
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        精品人妻人人做人人爽夜夜爽| 国产精品久久久久高潮| 特级av毛片免费观看| 精品十八禁免费观看| 日本久久精品在线播放| 蜜桃视频在线观看网址| 亚洲综合色婷婷七月丁香| 中文天堂在线www| 国产精品毛片99久久久久| 国产精品久久婷婷免费观看| 亚洲精品国产一区二区| 无码h黄动漫在线播放网站| 国产韩国精品一区二区三区| 韩国一区二区三区黄色录像| 久久久久亚洲av无码专区喷水| 亚洲一区二区观看播放| 国产桃色精品网站| 亚洲一区二区刺激的视频| 久久久久久久综合综合狠狠 | 色欲av亚洲一区无码少妇| 亚洲成a人网站在线看| 男人无码视频在线观看| 人妻少妇中文字幕久久69堂| 丝袜美腿国产一区二区| 狠狠色噜噜狠狠狠777米奇小说| 久久99精品久久久久久久清纯| 国产高清精品在线二区| 自拍偷自拍亚洲精品第按摩| 无码av无码天堂资源网| 欧洲熟妇乱xxxxx大屁股7| 久久青青草视频免费观看| 久久99精品国产麻豆| 女人喷潮完整视频| 最新精品国偷自产在线婷婷| 国产优质av一区二区三区| 久久久久国色av免费观看性色| 又爽又黄禁片视频1000免费 | 日韩在线精品视频观看| 精品一区二区三区芒果| 午夜成人无码福利免费视频| 国产亚洲欧美在线播放网站|