亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        TransPath:一種基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法

        2022-03-03 13:46:24崔員寧陸正嘉
        關(guān)鍵詞:圖譜成功率動(dòng)作

        崔員寧,李 靜,陳 琰,陸正嘉

        1(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106) 2(國(guó)網(wǎng)上海市電力公司 信息通信公司,上海 200000)

        1 引 言

        近年來(lái),F(xiàn)reebase[1],NELL[2],WordNet[3]等大型知識(shí)圖譜的迅速發(fā)展,為推薦系統(tǒng)[4,5]、智能問(wèn)答[6,7]等大量下游自然語(yǔ)言處理任務(wù)的研究推進(jìn)提供了數(shù)據(jù)支撐.但是,無(wú)論是人工整理的知識(shí)圖譜,還是借助實(shí)體關(guān)系自動(dòng)抽取獲得的知識(shí)圖譜,通常都是不完整的,實(shí)體間的鏈接存在大量缺失,嚴(yán)重制約了下游任務(wù)的性能提升.知識(shí)推理旨在通過(guò)挖掘路徑來(lái)推理和發(fā)現(xiàn)缺失的三元組,補(bǔ)全知識(shí)圖譜,是知識(shí)圖譜領(lǐng)域重要的基礎(chǔ)研究方向.

        近年來(lái),由于具有可解釋性和良好的性能,基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜補(bǔ)全方法迅速成為研究熱點(diǎn).Xiong[8]等人于2017年首次提出基于深度強(qiáng)化學(xué)習(xí)的知識(shí)推理方法DeepPath,將知識(shí)圖譜建模為馬爾可夫決策過(guò)程[9](Markov Decision Process,MDP),將實(shí)體作為狀態(tài)空間,關(guān)系作為動(dòng)作空間,智能體在知識(shí)圖譜上游走并搜索路徑,與傳統(tǒng)的路徑排序算法[10]和基于嵌入表示的方法相比,具有更好的性能和良好的可解釋性.但由于DeepPath模型簡(jiǎn)單,而且需要預(yù)挖掘的路徑作為預(yù)訓(xùn)練樣本,其推理性能和訓(xùn)練效率都有較大的提升空間.因此,近年來(lái)AttnPath[11]、DIVINE[12]等大量基于RL的方法被提出,知識(shí)推理性能得到快速提升.

        盡管如此,在實(shí)際的知識(shí)圖譜環(huán)境中,大多數(shù)RL方法的路徑搜索成功率卻不高.一方面,對(duì)于一個(gè)特定實(shí)體來(lái)說(shuō),動(dòng)作空間中存在大量無(wú)效動(dòng)作,如圖1所示,對(duì)于實(shí)體London來(lái)說(shuō),WorkFor、BornIn、PlaySports等都是無(wú)效的動(dòng)作,因?yàn)閷?shí)體London無(wú)法作為這些謂語(yǔ)的主語(yǔ);另一方面,知識(shí)推理是一項(xiàng)多步的復(fù)雜任務(wù),RL智能體不僅要在每一步都選擇有效動(dòng)作,還要在知識(shí)圖譜多階子圖中搜索唯一的目標(biāo)結(jié)點(diǎn).這兩個(gè)問(wèn)題導(dǎo)致智能體在初始階段難以獲取獎(jiǎng)勵(lì),路徑搜索成功率低.

        圖1 無(wú)效動(dòng)作問(wèn)題示例Fig.1 An example of invalid actions

        強(qiáng)化學(xué)習(xí)需要從成功的經(jīng)驗(yàn)中學(xué)習(xí)如何更好的完成任務(wù),而知識(shí)圖譜環(huán)境中的無(wú)效動(dòng)作使強(qiáng)化學(xué)習(xí)在初始階段就難以挖掘成功的經(jīng)驗(yàn).因此,我們認(rèn)為智能體的學(xué)習(xí)過(guò)程應(yīng)循序漸進(jìn),在學(xué)習(xí)復(fù)雜的多步推理之前,應(yīng)當(dāng)讓智能體先學(xué)習(xí)如何單步游走選擇有效動(dòng)作.

        遷移學(xué)習(xí)能夠?qū)⒃慈蝿?wù)中學(xué)習(xí)到的經(jīng)驗(yàn)用到目標(biāo)任務(wù),因此本文將遷移學(xué)習(xí)應(yīng)用到知識(shí)推理場(chǎng)景,在目標(biāo)推理任務(wù)之前增加了一個(gè)有效性驅(qū)動(dòng)的源任務(wù)—單步游走選擇有效動(dòng)作,并提出一種基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理模型TransPath.首先在源任務(wù)上訓(xùn)練RL智能體單步選擇有效動(dòng)作的能力,然后遷移到目標(biāo)推理任務(wù)上進(jìn)行多步推理的微調(diào)學(xué)習(xí),這一遷移訓(xùn)練機(jī)制有效提升了路徑搜索的成功率.

        本文的主要貢獻(xiàn)包括:

        1)提出一種基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法TransPath,在源任務(wù)和目標(biāo)任務(wù)上依次訓(xùn)練智能體,幫助智能體循序漸進(jìn)地學(xué)習(xí)多步推理任務(wù);

        2)提出一種有效性驅(qū)動(dòng)的源任務(wù),其目的是訓(xùn)練智能體單步游走選擇有效動(dòng)作的能力,消融實(shí)驗(yàn)結(jié)果表明源任務(wù)有效提升了智能體的選擇有效動(dòng)作的能力;

        3)在FB15K-237[32]和NELL-995[8]公開(kāi)標(biāo)準(zhǔn)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文提出的模型不僅大幅提升了路徑挖掘的成功率,也在大多數(shù)知識(shí)推理任務(wù)上取得了最優(yōu)性能.

        本文后續(xù)章節(jié)安排如下:第2節(jié)主要介紹了知識(shí)推理和遷移強(qiáng)化學(xué)習(xí)領(lǐng)域的相關(guān)工作;第3節(jié)介紹本文提出的基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法;第4節(jié)通過(guò)在兩個(gè)公開(kāi)測(cè)評(píng)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證本文方法的有效性,并用遷移學(xué)習(xí)消融實(shí)驗(yàn)分析了源任務(wù)和目標(biāo)任務(wù)對(duì)模型性能的影響;第5節(jié)對(duì)本文方法進(jìn)行總結(jié),并探討進(jìn)一步的研究方向.

        2 相關(guān)工作

        自DeepPath模型在2017年被提出,深度強(qiáng)化學(xué)習(xí)已廣泛應(yīng)用于知識(shí)推理領(lǐng)域,本文的TransPath模型主要是結(jié)合了傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)模型和遷移學(xué)習(xí)實(shí)現(xiàn)的,因此本節(jié)將介紹知識(shí)推理與遷移強(qiáng)化學(xué)習(xí)的國(guó)內(nèi)外相關(guān)工作.

        2.1 基于嵌入與路徑的知識(shí)推理模型

        知識(shí)圖譜普遍存在缺失問(wèn)題,僅靠實(shí)體發(fā)現(xiàn)和關(guān)系抽取很難實(shí)現(xiàn)完整抽取,因此知識(shí)圖譜補(bǔ)全是知識(shí)圖譜領(lǐng)域長(zhǎng)期的問(wèn)題.知識(shí)推理通過(guò)挖掘路徑來(lái)推理補(bǔ)全知識(shí)圖譜,是知識(shí)圖譜領(lǐng)域的一項(xiàng)基礎(chǔ)研究.知識(shí)推理的方法大致可以分為3類:基于嵌入表示的方法、基于路徑的方法和基于強(qiáng)化學(xué)習(xí)的方法.

        基于嵌入表示的方法.近年來(lái),大量基于嵌入表示的方法被提出,如TransE[13]、TransD[14]、TransR[15]、TransH[16]等,它們基于知識(shí)圖譜中的三元組將實(shí)體和關(guān)系映射到連續(xù)的向量空間,并用這些向量表示進(jìn)行鏈接預(yù)測(cè)和事實(shí)預(yù)測(cè).盡管基于嵌入表示的方法在知識(shí)圖譜補(bǔ)全各項(xiàng)任務(wù)中已經(jīng)取得了不錯(cuò)的成績(jī),但這些方法大多缺少多步推理的能力.

        基于路徑的方法.路徑排序算法[10](Path Ranking Algorithm,PRA)在路徑約束的組合下選擇關(guān)系路徑,并進(jìn)行最大似然分類.為了改善路徑搜索,Gardner[17]等人通過(guò)結(jié)合文本內(nèi)容,在隨機(jī)工作中引入了向量空間相似性啟發(fā)法,緩解了PRA中的特征稀疏性問(wèn)題.Neelakantan[18]等人開(kāi)發(fā)了一個(gè)RNN模型,通過(guò)遞歸應(yīng)用組成性來(lái)構(gòu)成關(guān)系路徑,其推理鏈?zhǔn)且环N支持多因素的神經(jīng)注意力機(jī)制.DIVA[19]提出了一個(gè)統(tǒng)一的變分推理框架,該框架將多跳推理分為路徑發(fā)現(xiàn)和路徑推理的兩個(gè)子步驟,大幅提升了推理效果.

        2.2 基于深度強(qiáng)化學(xué)習(xí)的知識(shí)推理模型

        近年來(lái),由于具有可解釋性和良好的性能,基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜補(bǔ)全方法迅速成為研究熱點(diǎn).Xiong[8]等人于2017年首次提出基于深度強(qiáng)化學(xué)習(xí)的知識(shí)推理方法DeepPath,它將知識(shí)圖譜建模為馬爾可夫決策過(guò)程,將實(shí)體作為狀態(tài)空間,關(guān)系作為動(dòng)作空間,RL智能體在知識(shí)圖譜上游走并挖掘路徑.MINERVA[20]通過(guò)最大化期望獎(jiǎng)勵(lì),將從起始實(shí)體到目標(biāo)實(shí)體的路徑作為一個(gè)順序優(yōu)化問(wèn)題,它不依賴目標(biāo)答案實(shí)體,并提供了更強(qiáng)大的推理能力.Multi-Hop[21]針對(duì)獎(jiǎng)勵(lì)稀疏問(wèn)題提出一種軟獎(jiǎng)勵(lì)機(jī)制來(lái)代替二進(jìn)制獎(jiǎng)勵(lì)函數(shù),為了實(shí)現(xiàn)更有效的路徑探索,在訓(xùn)練過(guò)程中還采用Action Drop來(lái)掩蓋某些向外的邊.M-Walk[22]用RNN控制器捕獲歷史軌跡,并使用蒙特卡洛樹(shù)搜索生成有效路徑.CPL[23]提出了協(xié)作策略學(xué)習(xí),通過(guò)利用文本語(yǔ)料庫(kù)與當(dāng)前實(shí)體的句袋,從文本中查找路徑和提取事實(shí).DIVINE[12]提出一種基于生成對(duì)抗模擬的深度強(qiáng)化學(xué)習(xí)方法,該方法不需要人工設(shè)定獎(jiǎng)勵(lì),避免人為獎(jiǎng)勵(lì)設(shè)置不合理影響智能體的訓(xùn)練.AttnPath[11]基于LSTM[24]和圖注意力[25]在DeepPath 基礎(chǔ)上增加了記憶單元,并提出一種強(qiáng)制回退的推理機(jī)制提高智能體獲取獎(jiǎng)勵(lì)的能力和推理成功率.

        2.3 遷移學(xué)習(xí)在強(qiáng)化學(xué)習(xí)中的應(yīng)用

        強(qiáng)化學(xué)習(xí)智能體通過(guò)不斷與環(huán)境交互,來(lái)學(xué)習(xí)策略以最大化獎(jiǎng)勵(lì)并實(shí)現(xiàn)特定的目標(biāo).然而,在實(shí)際復(fù)雜的任務(wù)中,強(qiáng)化學(xué)習(xí)往往面臨一個(gè)嚴(yán)峻的問(wèn)題:RL智能體無(wú)法得到足夠多的、有效的獎(jiǎng)勵(lì).這一問(wèn)題會(huì)導(dǎo)致智能體學(xué)習(xí)緩慢甚至無(wú)法進(jìn)行有效學(xué)習(xí).

        遷移學(xué)習(xí)能夠?qū)⒃慈蝿?wù)中學(xué)習(xí)到的經(jīng)驗(yàn)應(yīng)用到目標(biāo)任務(wù),讓目標(biāo)任務(wù)的訓(xùn)練更靈活高效.因此將遷移學(xué)習(xí)應(yīng)用在強(qiáng)化學(xué)習(xí)中,可以降低任務(wù)難度,有效緩解獎(jiǎng)勵(lì)稀疏的問(wèn)題.近幾年,遷移學(xué)習(xí)已被廣泛應(yīng)用在多種強(qiáng)化學(xué)習(xí)場(chǎng)景中.

        Yaser[26]等人于2018年將遷移學(xué)習(xí)用于文本摘要場(chǎng)景,提出一種基于自我批評(píng)策略梯度方法的強(qiáng)化學(xué)習(xí)框架,預(yù)訓(xùn)練后僅用幾個(gè)微調(diào)樣本就可達(dá)得最優(yōu)性能;Ammanabrolu[27]等人于2019年將遷移學(xué)習(xí)用于基于知識(shí)圖譜的文本冒險(xiǎn)游戲,在多項(xiàng)計(jì)算機(jī)生成和人工創(chuàng)作的游戲中不僅能夠更快學(xué)習(xí)強(qiáng)化學(xué)習(xí)策略,而且也提升了智能體策略質(zhì)量;Gamrian[28]等人于2019年將遷移學(xué)習(xí)用于打磚塊和賽車游戲等強(qiáng)化學(xué)習(xí)場(chǎng)景,克服了傳統(tǒng)方法無(wú)法適應(yīng)背景圖像變化的問(wèn)題.Liu[29]等人于2019年將遷移學(xué)習(xí)用于多智能體的強(qiáng)化學(xué)習(xí),提出一種基于新型MDP相似性概念的可擴(kuò)展的遷移學(xué)習(xí)方法,顯著加速多智能體強(qiáng)化學(xué)習(xí),同時(shí)具有更好的性能.

        從以上研究工作中可以發(fā)現(xiàn),遷移學(xué)習(xí)適用于源任務(wù)樣本豐富但目標(biāo)任務(wù)樣本稀少的場(chǎng)景.在知識(shí)圖譜場(chǎng)景中,盡管智能體在目標(biāo)任務(wù)上難以獲取成功的樣本,但知識(shí)圖譜中每個(gè)三元組(h,r,t)中都包含兩個(gè)單步游走的成功樣本(h,r)和(t,r-1),源任務(wù)樣本豐富而容易獲取.因此,本文將單步游走作為源任務(wù),將多步推理作為目標(biāo)任務(wù),提出一種基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法TransPath.

        3 基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法

        為了解決知識(shí)圖譜環(huán)境中無(wú)效動(dòng)作的問(wèn)題,本文提出一種基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法TransPath.如圖2所示,首先通過(guò)有效性驅(qū)動(dòng)的預(yù)訓(xùn)練,提高RL智能體單步游走能力,幫助智能體學(xué)習(xí)選擇有效動(dòng)作;然后通過(guò)目標(biāo)任務(wù)的多步推理訓(xùn)練,提高RL智能體在目標(biāo)推理任務(wù)上的多步路徑搜索能力.

        圖2 基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理模型框架圖Fig.2 Overall framework of deep transfer reinforcement learning model for knowledge reasoning

        3.1 深度強(qiáng)化學(xué)習(xí)環(huán)境建模

        RL智能體的行動(dòng)和狀態(tài)轉(zhuǎn)移都在知識(shí)圖譜中完成,因此本節(jié)對(duì)知識(shí)圖譜進(jìn)行強(qiáng)化學(xué)習(xí)環(huán)境建模.

        一個(gè)知識(shí)圖譜K由{E,R,V}組成,其中E是實(shí)體的集合,R是關(guān)系的集合,V是形如(頭實(shí)體,關(guān)系,尾實(shí)體)的RDF事實(shí)三元組的集合.將知識(shí)圖譜K建模為RL智能體的強(qiáng)化學(xué)習(xí)環(huán)境KE=,其中S是智能體的狀態(tài)空間,A是智能體的動(dòng)作空間,Υ是智能體的獎(jiǎng)勵(lì),P是智能體的狀態(tài)轉(zhuǎn)移策略.

        3.1.1 狀態(tài)空間

        本文將知識(shí)圖譜中的實(shí)體集合E作為智能體的狀態(tài)空間.知識(shí)圖譜中的實(shí)體以符號(hào)的形式存在,無(wú)法表示其語(yǔ)義內(nèi)涵,因此本文采用嵌入表示模型TransE[13]將實(shí)體表示為連續(xù)的嵌入向量:

        st=TransE(et)

        (1)

        其中et為當(dāng)前實(shí)體,st為當(dāng)前實(shí)體的狀態(tài)表示向量.

        3.1.2 動(dòng)作空間

        智能體選擇動(dòng)作,實(shí)現(xiàn)從當(dāng)前狀態(tài)到下一狀態(tài)的轉(zhuǎn)移.本文將知識(shí)圖譜中的關(guān)系集合R作為智能體的動(dòng)作空間.同時(shí),為了使智能體能夠逆向推理,將關(guān)系集合中的所有關(guān)系的逆關(guān)系也加入動(dòng)作空間:

        (2)

        3.1.3 獎(jiǎng)勵(lì)設(shè)置

        當(dāng)智能體完成任務(wù)或失敗時(shí),環(huán)境都會(huì)反饋一個(gè)正向或負(fù)向的獎(jiǎng)勵(lì),智能體根據(jù)獎(jiǎng)勵(lì)更新自己的策略,以最大化獎(jiǎng)勵(lì).由于智能體的預(yù)訓(xùn)練和微調(diào)訓(xùn)練(fine-tune)的任務(wù)不同,3.2和3.3節(jié)中將會(huì)詳細(xì)介紹面向兩項(xiàng)任務(wù)的不同獎(jiǎng)勵(lì).

        3.1.4 策略神經(jīng)網(wǎng)絡(luò)

        策略網(wǎng)絡(luò)將輸入的狀態(tài)表示et映射到選擇各項(xiàng)動(dòng)作的概率向量.本文采用全連接網(wǎng)絡(luò)(Full-Connected Network.FCN)來(lái)參數(shù)化策略函數(shù),該神經(jīng)網(wǎng)絡(luò)由兩個(gè)層隱藏層和一個(gè)輸出層組成,輸出層采用softmax函數(shù)歸一化,對(duì)于一個(gè)輸入的狀態(tài)st,其策略為:

        d(st)=softmax(f(f(st×w1+b1)×w2+b2)))

        (3)

        其中f為激活函數(shù),w和b為隱藏層的權(quán)重和偏置.d(st)是一個(gè)|A|×1的矩陣,每一位表示選擇一個(gè)動(dòng)作的概率.

        3.1.5 參數(shù)優(yōu)化

        本文模型采用策略梯度下降算法[31]更新策略網(wǎng)絡(luò)的參數(shù):

        (4)

        1https://github.com/thunlp/Fast-TransX

        其中θ為需要更新的參數(shù),π(a=rt|st;θ)為在狀態(tài)為st時(shí)策略網(wǎng)絡(luò)選擇動(dòng)作為rt的概率,Υ為執(zhí)行這個(gè)動(dòng)作獲得的獎(jiǎng)勵(lì).

        3.2 源任務(wù)的預(yù)訓(xùn)練

        在執(zhí)行路徑推理任務(wù)訓(xùn)練之前,本文先對(duì)RL智能體進(jìn)行有效性驅(qū)動(dòng)的預(yù)訓(xùn)練,其目的在于幫助智能體學(xué)會(huì)選擇有效動(dòng)作,提高單步游走的成功率.

        3.2.1 生成訓(xùn)練集

        在知識(shí)圖譜中,事實(shí)三元組集合V包含了狀態(tài)和有效動(dòng)作的所有組合.將V中的每個(gè)三元組(ehead,r,etail)拆分為兩個(gè)狀態(tài)-動(dòng)作二元組(ehead,r)和(etail,r-1),然后合并相同的二元組,得到預(yù)訓(xùn)練的有效動(dòng)作訓(xùn)練集Tvalid.

        3.2.2 獎(jiǎng)勵(lì)函數(shù)

        預(yù)訓(xùn)練任務(wù)的目標(biāo)是學(xué)習(xí)選擇有效動(dòng)作,智能體在狀態(tài)et選擇了動(dòng)作ai,若二元組(et,ai)包含在Tvalid中時(shí),給予智能體以正向獎(jiǎng)勵(lì),否則無(wú)獎(jiǎng)勵(lì).其獎(jiǎng)勵(lì)定義為:

        (5)

        3.2.3 預(yù)訓(xùn)練算法

        由于知識(shí)圖譜中已經(jīng)包含了狀態(tài)和有效動(dòng)作的所有組合,不需要智能體在與環(huán)境的交互中獲取獎(jiǎng)勵(lì),所以本文將Tvalid作為訓(xùn)練集離線訓(xùn)練智能體.有效性驅(qū)動(dòng)的預(yù)訓(xùn)練算法如算法1所示.

        算法1.預(yù)訓(xùn)練算法

        輸入:Tvalid

        輸出:RL智能體的策略網(wǎng)絡(luò)參數(shù)

        1. forTvalid中的每個(gè)(et,ai)

        2.st←TransE(et)

        3. 更新策略網(wǎng)絡(luò)參數(shù):

        4. end for

        3.3 目標(biāo)任務(wù)的微調(diào)訓(xùn)練

        智能體在預(yù)訓(xùn)練中學(xué)會(huì)了如何選擇有效動(dòng)作,微調(diào)訓(xùn)練模塊將智能體遷移到具體的推理任務(wù)上,使其在知識(shí)圖譜環(huán)境中繼續(xù)學(xué)習(xí)如何完成多步推理任務(wù).

        3.3.1 推理任務(wù)

        與預(yù)訓(xùn)練的單步任務(wù)不同,推理任務(wù)旨在搜索兩個(gè)實(shí)體之間的路徑.對(duì)于事實(shí)(estart,rtask,etarget),其中rtask為推理任務(wù),estart和etarget為初始結(jié)點(diǎn)和目標(biāo)結(jié)點(diǎn),智能體從初始結(jié)點(diǎn)出發(fā),搜索除rtask外其他能夠到達(dá)目標(biāo)結(jié)點(diǎn)的路徑.

        3.3.2 獎(jiǎng)勵(lì)函數(shù)

        因?yàn)槲⒄{(diào)訓(xùn)練是一項(xiàng)多步任務(wù),所以環(huán)境不能直接對(duì)智能體選擇的每一個(gè)動(dòng)作即時(shí)給出獎(jiǎng)勵(lì).本文采用蒙特卡洛方法[31],當(dāng)智能體在知識(shí)圖譜中成功到達(dá)目標(biāo)結(jié)點(diǎn)或步數(shù)到達(dá)預(yù)定上限時(shí),對(duì)這條路徑p上的每個(gè)狀態(tài)-關(guān)系二元組(et,ai)給出獎(jiǎng)勵(lì).其獎(jiǎng)勵(lì)設(shè)置為:

        (6)

        其中l(wèi)ength(p)為路徑的長(zhǎng)度.正向獎(jiǎng)勵(lì)取路徑長(zhǎng)度的倒數(shù),是為了降低路徑長(zhǎng)度,提高推理效率.

        3.3.3 微調(diào)訓(xùn)練流程與算法

        在完成預(yù)訓(xùn)練后,將智能體遷移到目標(biāo)任務(wù)上,每個(gè)目標(biāo)任務(wù)都是知識(shí)圖譜中的一種關(guān)系,智能體在微調(diào)訓(xùn)練中學(xué)習(xí)搜索能夠替代目標(biāo)關(guān)系的路徑.從數(shù)據(jù)集中抽取所有包含目標(biāo)任務(wù)的三元組組成目標(biāo)任務(wù)的訓(xùn)練集trainset.目標(biāo)任務(wù)的微調(diào)訓(xùn)練算法如下.

        算法2.目標(biāo)任務(wù)的微調(diào)訓(xùn)練算法

        輸入:目標(biāo)任務(wù)的trainset

        輸出:RL智能體的策略網(wǎng)絡(luò)參數(shù)

        1. 重載預(yù)訓(xùn)練后的RL策略網(wǎng)絡(luò)

        2. fortrainset中的每個(gè)(estart,rtask,etarget)

        3.st←TransE(estart)

        4. steps=0,succ=False

        5. while steps

        6.d(st)=softmax(f(f(st×w1+b1)×w2+b2)))

        7. 基于d(st)隨機(jī)選擇動(dòng)作ai,若無(wú)效則終止

        8. 狀態(tài)-動(dòng)作二元組集合T記錄(et,ai)

        9. 執(zhí)行動(dòng)作ai,跳轉(zhuǎn)到下一實(shí)體enext

        10. ifenext==etarget:

        11. succ=True

        12. end if

        13.st←TransE(enext)

        14. end while

        15. 計(jì)算T中每個(gè)(et,ai)的獎(jiǎng)勵(lì)

        16. 更新策略網(wǎng)絡(luò)參數(shù):

        17. end for

        4 實(shí)驗(yàn)與分析

        4.1 數(shù)據(jù)集與參數(shù)分析

        本文實(shí)驗(yàn)性能分析中采用FB15K-237[32]和NELL-995[8]作為對(duì)比實(shí)驗(yàn)數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集是知識(shí)推理領(lǐng)域通用的基準(zhǔn)數(shù)據(jù)集.其中FB15K-237包含14.5k個(gè)實(shí)體、237個(gè)關(guān)系、310.1k個(gè)三元組事實(shí)和20個(gè)推理任務(wù),它是將FB15K[13]中的冗余三元組刪除后得到的.NELL-995包含7.5k個(gè)實(shí)體、200個(gè)關(guān)系、154.2k個(gè)三元組事實(shí)和12個(gè)推理任務(wù).數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.

        表1 數(shù)據(jù)集統(tǒng)計(jì)Table 1 Statistics of the datasets

        本文訓(xùn)練模型時(shí),策略網(wǎng)絡(luò)最后一層采用softmax函數(shù)激活函數(shù),兩個(gè)全連接隱藏層都使用ReLu[33]作為激活函數(shù),結(jié)點(diǎn)數(shù)分別設(shè)置為512和1204,選擇Adam[34]作為訓(xùn)練優(yōu)化的算法,初始的學(xué)習(xí)率設(shè)置為0.001.本文按照Fast-TransX1中的方法訓(xùn)練TransE[13]模型,嵌入維度設(shè)置為100維;源任務(wù)上的預(yù)訓(xùn)練batchsize設(shè)置為1000,訓(xùn)練2000個(gè)epochs;目標(biāo)任務(wù)上的微調(diào)訓(xùn)練batchsize設(shè)置為500,訓(xùn)練500個(gè)epochs.本文提出的TransPath基于TensorFlow框架實(shí)現(xiàn),并且在NVIDIA1080Ti GPU上進(jìn)行訓(xùn)練.

        4.2 評(píng)價(jià)標(biāo)準(zhǔn)和基線方法

        對(duì)于基于深度強(qiáng)化學(xué)習(xí)的知識(shí)推理質(zhì)量評(píng)價(jià),常用的指標(biāo)主要是路徑搜索成功率(Path Finding Success Rate,PFSR)、事實(shí)預(yù)測(cè)(Fact Prediction,F(xiàn)P)的平均精度均值(Mean Average Precision,MAP)和鏈接預(yù)測(cè)(Link Prediction,LP)的平均精度均值.

        1)路徑搜索成功率:該指標(biāo)主要衡量RL智能體挖掘路徑的能力,是指在訓(xùn)練過(guò)程中每個(gè)epoch上RL智能體能夠從初始結(jié)點(diǎn)游走到目標(biāo)結(jié)點(diǎn)并找到一條路徑的樣本與總數(shù)的比率,其定義如下:

        (7)

        其中SuccNum為每個(gè)epoch中成功搜索到路徑的樣本個(gè)數(shù),batchsize為批處理大小.PFSR越大,說(shuō)明RL智能體路徑搜索能力越強(qiáng).

        2)平均精度均值:FP和LP的平均精度均值分別用來(lái)衡量事實(shí)預(yù)測(cè)和鏈接預(yù)測(cè)的效果.事實(shí)預(yù)測(cè)是指在給定三元組(eh,r,et)的條件下判斷此三元組是否正確,鏈接預(yù)測(cè)是指在給定缺失尾實(shí)體的三元組(eh,r,ex)條件下預(yù)測(cè)三元組的尾實(shí)體ex,在每個(gè)數(shù)據(jù)集上用于測(cè)試的正負(fù)樣本的比例約為1∶10,其中負(fù)樣本是替換正樣本的尾實(shí)體生成的.

        為了驗(yàn)證本文方法的有效性,我們將TransPath模型與3類方法做對(duì)照試驗(yàn):

        1)嵌入模型.嵌入模型在鏈接預(yù)測(cè)和事實(shí)預(yù)測(cè)任務(wù)上具有較好的性能,在本節(jié)中我們與傳統(tǒng)的嵌入模型TransE[13]、TransD[14]、TransR[15]和TransH[16]方法做對(duì)照試驗(yàn).

        2)基于路徑的模型.基于路徑的模型比嵌入模型具有更好的多步推理的能力,我們選用經(jīng)典的PRA[10]方法和目前效果較好的DIVA[19]方法與本文模型做對(duì)照試驗(yàn).

        3)基于RL的模型.DeepPath[8]方法是第1個(gè)被提出的基于RL的方法,AttnPath[11]在DeepPath基礎(chǔ)上增加了LSTM[24]和圖注意力機(jī)制[25]作為記憶單元.另外MINERVA[20]重新建模知識(shí)圖譜,提出基于查詢的方法,DIVINE[12]提出基于生成對(duì)抗的強(qiáng)化學(xué)習(xí)方法.

        4.3 路徑搜索實(shí)驗(yàn)

        為了分析模型的路徑搜索能力,本文將TransPath模型與同類方法DeepPath和AttnPath方法的路徑搜索成功率進(jìn)行對(duì)比.在源任務(wù)上預(yù)訓(xùn)練后,智能體在目標(biāo)任務(wù)上訓(xùn)練500個(gè)epochs,結(jié)果如表2所示.

        表2 路徑搜索成功率實(shí)驗(yàn)結(jié)果(%)Table 2 Path finding success rate results(%)

        其中DeepPathNoPre表示DeepPath[8]方法中沒(méi)有預(yù)訓(xùn)練的模型,AttnPathForce表示AttnPath[11]方法包含強(qiáng)制游走的版本.表2所示的實(shí)驗(yàn)結(jié)果表明,盡管沒(méi)有強(qiáng)制游走機(jī)制,本文方法的路徑搜索成功率比其他方法有顯著提升,尤其是在FB15K-237上,成功率提升了114%.這主要是由于在源任務(wù)上的預(yù)訓(xùn)練使智能體學(xué)會(huì)了在單步游走中選擇有效動(dòng)作,大大提高了單步游走的成功率,進(jìn)而提升了多步推理的成功率.

        為了更清楚的展示路徑搜索成功率的提升,我們從NELL-995中選擇了任務(wù)athletePlaysInLeague并繪制了該目標(biāo)任務(wù)上微調(diào)訓(xùn)練時(shí)路徑搜索成功率的變化曲線.結(jié)果如圖3所示.

        圖3 路徑搜索成功率(PFSR)結(jié)果Fig.3 Results of path finding success rate(PFSR)

        由圖3可知,在目標(biāo)任務(wù)athletePlaysInLeague上本文方法的路徑搜索成功率有較明顯的提升,而且由于源任務(wù)上的預(yù)訓(xùn)練,在前0-50個(gè)epochs上,本文方法就能夠很快達(dá)到較高的成功率.遷移學(xué)習(xí)不僅使路徑搜索的成功率得以提升,訓(xùn)練的初始階段起步也更快.

        4.4 事實(shí)預(yù)測(cè)實(shí)驗(yàn)

        事實(shí)預(yù)測(cè)旨在判斷事實(shí)是否為真,對(duì)于給定的三元組(eh,r,et),模型通過(guò)打分來(lái)對(duì)其正確性做出評(píng)價(jià).傳統(tǒng)的基于深度強(qiáng)化學(xué)習(xí)的方法延續(xù)了PRA[10]中的評(píng)價(jià)方法,即采用已挖掘的路徑作為打分依據(jù),將這個(gè)三元組符合的路徑個(gè)數(shù)作為分?jǐn)?shù),分?jǐn)?shù)越高則認(rèn)為它越有可能是正樣本.

        表3 事實(shí)預(yù)測(cè)實(shí)驗(yàn)結(jié)果Table 3 Fact prediction results

        與先前的方法不同,本文用RL智能體直接為三元組(eh,r,et)打分,打分的步驟如下:1)以eh為起始節(jié)點(diǎn),將狀態(tài)向量輸入策略網(wǎng)絡(luò);2)策略網(wǎng)絡(luò)將當(dāng)前狀態(tài)的向量映射為選擇每個(gè)動(dòng)作的概率,并據(jù)此選擇一個(gè)動(dòng)作;3)RL智能體在知識(shí)圖譜環(huán)境中執(zhí)行動(dòng)作,移到下一結(jié)點(diǎn);4)若此時(shí)走過(guò)的動(dòng)作鏈組成了已挖掘的一條路徑,判斷當(dāng)前結(jié)點(diǎn)是否為et,如果是則分?jǐn)?shù)+1并終止,否則分?jǐn)?shù)-1并終止;5)重復(fù)步驟2)~4),若達(dá)到最大步數(shù)則終止并記分?jǐn)?shù)為0.

        本文方法可以將智能體直接用于事實(shí)預(yù)測(cè),主要是因?yàn)樵慈蝿?wù)上的預(yù)訓(xùn)練使得路徑搜索成功率很高.為了降低偶然因素的影響,本文還采用了多次測(cè)試取分?jǐn)?shù)均值的策略.事實(shí)預(yù)測(cè)的實(shí)驗(yàn)結(jié)果如表3所示,其中TransPath后的數(shù)字表示測(cè)試次數(shù).

        由表3所示的實(shí)驗(yàn)結(jié)果可知,本文方法在兩個(gè)數(shù)據(jù)集上均達(dá)到了最優(yōu)的事實(shí)預(yù)測(cè)性能.其中,在測(cè)試次數(shù)為1時(shí),就能夠超越DeepPath[8]方法,在測(cè)試次數(shù)為20時(shí),就能超越AttnPath[11]方法.隨著測(cè)試次數(shù)的增加,結(jié)果逐漸趨于穩(wěn)定,我們測(cè)試了在測(cè)試次數(shù)取500時(shí),在FB15K-237上本文方法結(jié)果約為0.42,在NELL-995上約為0.74.

        4.5 鏈接預(yù)測(cè)實(shí)驗(yàn)

        鏈接預(yù)測(cè)旨在預(yù)測(cè)缺失的實(shí)體,對(duì)于一個(gè)測(cè)試樣本(eh,r,ex),預(yù)測(cè)缺失的ex.模型通過(guò)打分給候選的尾實(shí)體排序.在鏈接預(yù)測(cè)實(shí)驗(yàn)中,生成負(fù)樣本后的數(shù)據(jù)集被分為訓(xùn)練集和測(cè)試集,我們采用DeepPath[8]中的測(cè)試方法,將樣本對(duì)每條路徑適配與否作為二值特征,在訓(xùn)練集上預(yù)訓(xùn)練一個(gè)分類模型,并用此模型為測(cè)試集中的尾實(shí)體打分.鏈接預(yù)測(cè)實(shí)驗(yàn)結(jié)果如表4所示.

        表4 鏈接預(yù)測(cè)實(shí)驗(yàn)結(jié)果Table 4 Link prediction results

        如表4所示,本文方法在FB15K-237上的鏈接預(yù)測(cè)實(shí)驗(yàn)達(dá)到了最優(yōu)性能,在NELL-995數(shù)據(jù)集上也達(dá)到了不錯(cuò)的效果,略遜于MINERVA及其改進(jìn)方法,而且本文方法在FB15K-237數(shù)據(jù)集上比在NELL-995上的性能提升更明顯.一方面,F(xiàn)B15K-237中的平均路徑長(zhǎng)度大于NELL-995,無(wú)效動(dòng)作導(dǎo)致的獎(jiǎng)勵(lì)稀疏也更為嚴(yán)重,而本文方法的優(yōu)勢(shì)在于緩解無(wú)效動(dòng)作問(wèn)題,因此在FB15K-237數(shù)據(jù)集上效果提升更明顯;另一方面,本文方法是在DeepPath基礎(chǔ)上提出的一個(gè)改進(jìn)模型,訓(xùn)練與測(cè)試過(guò)程也與DeepPath方法類似,雖然在NELL-995數(shù)據(jù)集上未達(dá)到最優(yōu)性能,但相比于原DeepPath方法,本文方法的性能已有較大提升.

        4.6 遷移學(xué)習(xí)消融實(shí)驗(yàn)

        為了進(jìn)一步分析遷移學(xué)習(xí)中源任務(wù)預(yù)訓(xùn)練和目標(biāo)任務(wù)微調(diào)訓(xùn)練的影響,我們對(duì)TransPath方法做了如下消融實(shí)驗(yàn).

        4.6.1 刪除源任務(wù)

        為了研究源任務(wù)的影響,我們將RL智能體直接在目標(biāo)任務(wù)上訓(xùn)練,得到模型Target-only,訓(xùn)練完成后在路徑搜索任務(wù)和單步游走任務(wù)上測(cè)試此模型.

        4.6.2 刪除目標(biāo)任務(wù)

        為了研究目標(biāo)任務(wù)的影響,我們將目標(biāo)任務(wù)上的微調(diào)學(xué)習(xí)刪除,在完成源任務(wù)上的預(yù)訓(xùn)練后得到模型Pre-only,直接將模型用于路徑搜索任務(wù)和單步游走任務(wù).

        本文將這兩個(gè)生成的殘缺模型和TransPath原模型在NELL-995數(shù)據(jù)集上進(jìn)行路徑搜索和事實(shí)預(yù)測(cè)的對(duì)比實(shí)驗(yàn),消融實(shí)驗(yàn)的結(jié)果如表5所示,其中事實(shí)預(yù)測(cè)任務(wù)上3個(gè)模型的測(cè)試次數(shù)統(tǒng)一設(shè)為1.

        表5 遷移學(xué)習(xí)消融實(shí)驗(yàn)結(jié)果Table 5 Transfer learning ambition study results

        如表5所示,Pre-only模型在搜索路徑實(shí)驗(yàn)和事實(shí)預(yù)測(cè)實(shí)驗(yàn)的結(jié)果都很差,這主要是因?yàn)镻re-only模型訓(xùn)練的只有單步的源任務(wù),而路徑搜索和事實(shí)預(yù)測(cè)都建立在多步的推理任務(wù)之上.Target-only模型雖然在目標(biāo)任務(wù)上做了訓(xùn)練,但由于缺少源任務(wù)的訓(xùn)練,模型選擇有效動(dòng)作的能力不足,路徑搜索的成功率不高.因此,實(shí)驗(yàn)結(jié)果表明,源任務(wù)的預(yù)訓(xùn)練對(duì)于目標(biāo)任務(wù)的完成具有明顯的提升效果,單一的目標(biāo)任務(wù)訓(xùn)練無(wú)法使模型性能得到充分提高.

        上述消融實(shí)驗(yàn)僅驗(yàn)證了源任務(wù)對(duì)于目標(biāo)任務(wù)的影響,缺乏目標(biāo)任務(wù)對(duì)源任務(wù)影響的進(jìn)一步分析.因此我們將3個(gè)模型在源任務(wù)和目標(biāo)任務(wù)上分別進(jìn)行測(cè)試,并在FB15K-237中的filmCountry任務(wù)上繪制了它們?cè)谀繕?biāo)任務(wù)的訓(xùn)練過(guò)程中的成功率變化曲線.源任務(wù)上的實(shí)驗(yàn)結(jié)果如圖4所示,目標(biāo)任務(wù)上的實(shí)驗(yàn)結(jié)果如圖5所示.

        圖4 源任務(wù)消融實(shí)驗(yàn)結(jié)果(PFSR)Fig.4 Ambition study results on source task(PFSR)

        源任務(wù)上的消融實(shí)驗(yàn)結(jié)果如圖4所示,Pre-only模型在預(yù)訓(xùn)練后在源任務(wù)上的成功率約為92%,而Target-only模型由于缺乏源任務(wù)上的訓(xùn)練,在源任務(wù)上單步游走的成功率從0%開(kāi)始逐漸提升,最高達(dá)到20%左右.值得注意的是,TransPath原模型在目標(biāo)任務(wù)的訓(xùn)練過(guò)程中,在源任務(wù)上的成功率逐漸下降,最終穩(wěn)定在83%左右.這說(shuō)明任務(wù)遷移后,目標(biāo)任務(wù)上的訓(xùn)練對(duì)智能體源任務(wù)具有一定的負(fù)面影響,使其在源任務(wù)上的成功率下降了約9%.

        目標(biāo)任務(wù)上的消融實(shí)驗(yàn)結(jié)果如圖5所示,完整的TransPath模型的路徑搜索成功率比僅有目標(biāo)任務(wù)訓(xùn)練的Target-only起步更高,提升更快,在前50個(gè)epochs就能基本達(dá)到最優(yōu)性能,而且在充分訓(xùn)練后性能仍明顯比Target-only模型更好.所以,源任務(wù)不僅顯著加速智能體強(qiáng)化學(xué)習(xí),同時(shí)使模型具有更好的性能.另外,由于此任務(wù)推理路徑較短,Pre-only模型盡管只在源任務(wù)上進(jìn)行了訓(xùn)練,在目標(biāo)任務(wù)上仍取得了不錯(cuò)的性能.

        圖5 目標(biāo)任務(wù)消融實(shí)驗(yàn)結(jié)果(PFSR)Fig.5 Ambition study results on target task(PFSR)

        5 結(jié) 論

        本文提出一種新的基于深度遷移強(qiáng)化學(xué)習(xí)的知識(shí)推理方法TransPath,該模型通過(guò)增加有效性驅(qū)動(dòng)的源任務(wù),幫助智能體先學(xué)習(xí)在單步游走中選擇有效動(dòng)作,然后再遷移到目標(biāo)任務(wù)上做微調(diào)訓(xùn)練,有效提高了RL智能體的路徑搜索成功率.實(shí)驗(yàn)部分驗(yàn)證了本文模型不僅有效提升了路徑搜索成功率,而且在事實(shí)預(yù)測(cè)和鏈接預(yù)測(cè)的大多數(shù)任務(wù)上表現(xiàn)明顯優(yōu)于同類方法.本文還通過(guò)消融實(shí)驗(yàn)對(duì)遷移學(xué)習(xí)的源任務(wù)和目標(biāo)任務(wù)的影響做了進(jìn)一步分析,驗(yàn)證了源任務(wù)的加入有效提高了智能體單步游走和路徑搜索的成功率.

        接下來(lái),我們計(jì)劃繼續(xù)研究基于深度強(qiáng)化學(xué)習(xí)的模型存在的無(wú)效動(dòng)作問(wèn)題,嘗試用漸進(jìn)式強(qiáng)化學(xué)習(xí)與課程學(xué)習(xí)相結(jié)合的方式,提出更有效的解決方案.同時(shí),我們計(jì)劃對(duì)搜索得到的路徑進(jìn)行評(píng)價(jià),篩除質(zhì)量較差的路徑,對(duì)智能體選擇的路徑質(zhì)量加以限制,以實(shí)現(xiàn)更優(yōu)的模型性能.另外,在消融實(shí)驗(yàn)中我們發(fā)現(xiàn)目標(biāo)任務(wù)上的訓(xùn)練會(huì)影響智能體單步游走的成功率,因此通過(guò)多智能體協(xié)作或任務(wù)拆分降低遷移學(xué)習(xí)對(duì)源任務(wù)的影響也是值得探索的方向.

        猜你喜歡
        圖譜成功率動(dòng)作
        成功率超70%!一張冬棚賺40萬(wàn)~50萬(wàn)元,羅氏沼蝦今年將有多火?
        如何提高試管嬰兒成功率
        繪一張成長(zhǎng)圖譜
        如何提高試管嬰兒成功率
        動(dòng)作描寫要具體
        畫動(dòng)作
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        動(dòng)作描寫不可少
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        非同一般的吃飯動(dòng)作
        亚洲精品中文字幕乱码影院| 国产精品视频一区日韩丝袜 | 麻豆高清免费国产一区| 无码之国产精品网址蜜芽| 日本人妖一区二区三区| 不卡的高清av一区二区三区| 中文字幕乱偷无码av先锋蜜桃| 97无码人妻Va一区二区三区| 中文字幕精品一区二区日本| 男奸女永久免费视频网站| 天天躁日日躁狠狠躁| 毛片免费在线观看网址| 久久精品国产亚洲一级二级| 亚洲中文字幕在线一区| 美女无遮挡免费视频网站| 青春草国产视频| 精品黄色一区二区三区| 伊人久久大香线蕉午夜av| 国产成人精品一区二区三区免费 | 亚洲av网站在线观看一页| 曰本无码人妻丰满熟妇啪啪| 人妻丰满熟妇av无码区hd| 免费人成网在线观看品观网| 精品香蕉一区二区三区| 欧美日韩亚洲国内综合网| 在线a人片免费观看高清| 青青草视频在线观看入口| 精品国内在视频线2019| 欧美人妻日韩精品| 精品av一区二区在线| 最美女人体内射精一区二区| 一本大道久久香蕉成人网| av大片在线无码永久免费网址| 国产自拍偷拍视频免费在线观看 | 香蕉久久福利院| 午夜国产精品久久久久| 亚洲第一区二区精品三区在线| 少妇厨房愉情理伦bd在线观看 | 果冻国产一区二区三区| 一区二区三区视频在线观看| 特级av毛片免费观看|