洪錦堆,陳 偉,趙 雷
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)E-mail:zhaol@suda.edu.cn
在自然語(yǔ)言處理、信息檢索和推薦系統(tǒng)等領(lǐng)域中,知識(shí)圖譜得到了廣泛應(yīng)用.通常將知識(shí)圖譜視為儲(chǔ)存大規(guī)模知識(shí)的網(wǎng)絡(luò),其中三元組(h,r,t)是知識(shí)圖譜組織知識(shí)的常用形式,頭實(shí)體h和尾實(shí)體t是網(wǎng)絡(luò)中的節(jié)點(diǎn),關(guān)系r表示一條由h指向t的帶有標(biāo)記的邊.如(北京,首都,中國(guó))表示北京是中國(guó)首都的事實(shí).可是,基于網(wǎng)絡(luò)形式的知識(shí)表示面臨以下挑戰(zhàn):1)在大規(guī)模知識(shí)圖譜的計(jì)算中效率低下;2)因?yàn)閿?shù)據(jù)稀疏而不能有效地處理罕見(jiàn)實(shí)體[1].為應(yīng)對(duì)這些挑戰(zhàn),學(xué)者們提出了知識(shí)表示學(xué)習(xí)方法,將知識(shí)圖譜映射為連續(xù)的向量空間,采用低維向量進(jìn)行運(yùn)算來(lái)提高計(jì)算的效率.而且對(duì)低維向量的學(xué)習(xí)使罕見(jiàn)的實(shí)體也可以捕捉到全局的信息從而較好的緩解數(shù)據(jù)稀疏問(wèn)題.目前的知識(shí)表示模型利用衡量給定三元組置信度的評(píng)分函數(shù)fr(h,t)來(lái)學(xué)習(xí)知識(shí)的向量表示.例如TransE[2],ComplEx[3],ConvE[4],RotatE[5]等,其中RotatE在公開(kāi)數(shù)據(jù)集上取得了最優(yōu)結(jié)果.上述知識(shí)表示模型使用三元組來(lái)學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)信息.但是,真實(shí)世界的知識(shí)圖譜中存在著大量可以豐富知識(shí)表示模型的擴(kuò)展信息,包括從外部獲取的圖像、屬性、實(shí)體描述文本等外部信息和從知識(shí)圖譜內(nèi)部挖掘的關(guān)系路徑、實(shí)體鄰居等內(nèi)部特征和信息.
在已有的研究中,一些研究者把知識(shí)圖譜的擴(kuò)展信息引入到了知識(shí)表示模型中.TA-DistMult[6]通過(guò)引入時(shí)間信息來(lái)豐富關(guān)系的表示.但是來(lái)自外部的信息往往獲取的成本高昂或者含有大量的噪聲.PTransE[7]則將從知識(shí)圖譜內(nèi)部挖掘的關(guān)系路徑信息融入TransE模型中.然而,不是所有的數(shù)據(jù)都含有較多的關(guān)系路徑.相比于知識(shí)圖譜中數(shù)量較少的關(guān)系,為數(shù)量龐大的實(shí)體引入擴(kuò)展信息具有更大的研究?jī)r(jià)值和發(fā)展?jié)摿?DKRL和Jointly等模型[8-10]通過(guò)引入外部的實(shí)體描述文本信息來(lái)強(qiáng)化實(shí)體的向量表示.然而,目前為實(shí)體引入擴(kuò)展信息的模型中存在以下不足:1)在現(xiàn)實(shí)世界中,從外部獲取完整有效的擴(kuò)展信息存在較大困難.來(lái)自外部的擴(kuò)展信息往往帶有較大的噪聲,而且由于較高的信息獲取成本或者其它技術(shù)原因容易導(dǎo)致缺失部分?jǐn)U展信息;2)對(duì)擴(kuò)展信息和結(jié)構(gòu)信息的整合效率較為低下.在這類(lèi)模型中,實(shí)體除了有一個(gè)表示結(jié)構(gòu)信息的結(jié)構(gòu)向量,還會(huì)有一個(gè)表示擴(kuò)展信息的擴(kuò)展向量.這些模型一般使用較為簡(jiǎn)單的聯(lián)合表示方法將實(shí)體的結(jié)構(gòu)向量和擴(kuò)展向量結(jié)合在一起作為實(shí)體的向量表示.可是,目前的聯(lián)合表示方法不僅沒(méi)有考慮結(jié)構(gòu)向量和擴(kuò)展向量因?yàn)椴煌瑏?lái)源表示的不同語(yǔ)義,而且容易使知識(shí)表示模型丟失結(jié)構(gòu)信息.這些問(wèn)題導(dǎo)致目前基于擴(kuò)展信息的模型的效率都較為低下.
最近,NKGE[11]引入實(shí)體的鄰居作為擴(kuò)展信息,該模型中實(shí)體的鄰居由從文本獲取的語(yǔ)義鄰居和從知識(shí)圖譜三元組獲取的結(jié)構(gòu)鄰居組成.實(shí)體鄰居的引入有效地降低了擴(kuò)展信息中可能含有的噪聲.但是NKGE的主要目標(biāo)是編碼實(shí)體鄰居得到擴(kuò)展信息的有效表示,在擴(kuò)展信息和結(jié)構(gòu)信息的整合上仍然較為低效.
針對(duì)擴(kuò)展信息和結(jié)構(gòu)信息在整合上較為低效的問(wèn)題,本文提出了一種基于線性變換的短接聯(lián)合表示方法.該方法首先對(duì)結(jié)構(gòu)向量和擴(kuò)展向量使用不同的線性變換,將兩個(gè)不同來(lái)源的向量變換到同一個(gè)語(yǔ)義空間.然后,結(jié)合兩種經(jīng)過(guò)變換的向量得到基礎(chǔ)聯(lián)合表示.最后,為了保持結(jié)構(gòu)信息,受殘差網(wǎng)絡(luò)啟發(fā)[12],通過(guò)加法運(yùn)算把結(jié)構(gòu)向量和基礎(chǔ)聯(lián)合表示短接在一起得到實(shí)體的聯(lián)合表示,將結(jié)構(gòu)向量從實(shí)體的聯(lián)合表示中直接傳遞出去.此外,考慮到實(shí)體的鄰居具有豐富的特征和信息以及從外部引入信息時(shí)可能遇到的問(wèn)題,本文在不引入外部信息的條件下,從給定知識(shí)圖譜內(nèi)部的三元組集合中為實(shí)體構(gòu)建擴(kuò)展信息.首先獲取實(shí)體的鄰居列表,接著考慮到數(shù)據(jù)集的實(shí)際情況,利用實(shí)體鄰居的統(tǒng)計(jì)特征使用自動(dòng)關(guān)鍵詞抽取技術(shù)[13]從鄰居列表中選取部分鄰居作為實(shí)體的擴(kuò)展信息.
最后,結(jié)合上述的短接聯(lián)合表示方法和由鄰居集合構(gòu)建的擴(kuò)展信息,本文提出了結(jié)合鄰居信息的知識(shí)表示模型CombiNe.該模型從實(shí)體的鄰居集合為實(shí)體引入擴(kuò)展信息來(lái)豐富實(shí)體的表示,避免了從外部獲取擴(kuò)展信息時(shí)可能遇到的問(wèn)題.而且該模型通過(guò)提出的短接聯(lián)合表示方法有效地整合了不同語(yǔ)義的信息向量,提高了基于擴(kuò)展信息的模型的效率.在兩個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集FB15k-237和WN18RR上的評(píng)估了知識(shí)表示模型CombiNe在鏈接預(yù)測(cè)任務(wù)上的效果.實(shí)驗(yàn)結(jié)果表明,CombiNe優(yōu)于最優(yōu)模型RotatE.
近年來(lái),知識(shí)表示學(xué)習(xí)受到研究者們的廣泛關(guān)注.TransE基于h+r≈t的基本思想建模三元組(h,r,t),其中加粗字母h、r、t分別是頭實(shí)體、關(guān)系、尾實(shí)體的低維向量表示.TransH[14],TransR[15]等致力于解決TransE在處理自反及一對(duì)多、多對(duì)一和多對(duì)多等復(fù)雜關(guān)系時(shí)表示能力不足的問(wèn)題.還有大量的工作從另外的角度出發(fā),致力于滿足模型對(duì)不同關(guān)系模式的完全表達(dá)能力.DistMult[16]是一個(gè)能夠建模對(duì)稱關(guān)系模式的簡(jiǎn)單雙線性模型.ComplEx可以看作是DistMult在復(fù)數(shù)空間的擴(kuò)展,該模型可以滿足非對(duì)稱關(guān)系模式和逆關(guān)系模式.RotatE則將每個(gè)關(guān)系定義為在復(fù)數(shù)空間中從頭實(shí)體到尾實(shí)體的旋轉(zhuǎn),該模型可以同時(shí)滿足對(duì)稱/非對(duì)稱關(guān)系模式、逆關(guān)系模式以及組合關(guān)系模式,并且在用于知識(shí)表示學(xué)習(xí)的基準(zhǔn)數(shù)據(jù)集中取得了最優(yōu)結(jié)果.此外,ConvE利用非線性的卷積網(wǎng)絡(luò)從拼接的實(shí)體和關(guān)系向量中提取特征然后建模三元組.以上都是經(jīng)典的知識(shí)表示模型,這些模型僅利用了知識(shí)圖譜的結(jié)構(gòu)信息,而引入擴(kuò)展信息則能夠進(jìn)一步豐富實(shí)體的表示提高性能表現(xiàn).
已有為實(shí)體引入信息的模型主要是從含有噪聲的擴(kuò)展信息中,通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度學(xué)習(xí)方法獲得擴(kuò)展信息的有效表示,然后由實(shí)體聯(lián)合表示方法融合結(jié)構(gòu)向量和擴(kuò)展向量得到實(shí)體的聯(lián)合表示.目前對(duì)擴(kuò)展信息的學(xué)習(xí)已經(jīng)有了較好的研究,但是針對(duì)實(shí)體聯(lián)合表示方法的研究還停留在較為初級(jí)的階段.有以下常見(jiàn)的實(shí)體聯(lián)合表示方法可以結(jié)合結(jié)構(gòu)向量和擴(kuò)展向量:
1)DKRL[8]中結(jié)構(gòu)向量和擴(kuò)展向量未經(jīng)任何處理的經(jīng)過(guò)組合,得到多組輸入后,分別輸入到評(píng)分函數(shù)中計(jì)算得到多個(gè)評(píng)分,再通過(guò)不同的權(quán)重,組合多個(gè)評(píng)分得到最后的評(píng)分.這種聯(lián)合表示方法雖然能將部分結(jié)構(gòu)向量直接傳遞到評(píng)分函數(shù),但是更為混亂的輸入不僅增加了計(jì)算量而且破壞了知識(shí)表示模型原有的結(jié)構(gòu).
2)如圖1左邊所示,兩種不同的向量經(jīng)過(guò)預(yù)處理后通過(guò)加法運(yùn)算組合在一起從而得到實(shí)體聯(lián)合表示.在加法運(yùn)算前還有幾種預(yù)處理的方法.AATE[9]引入了一個(gè)權(quán)重因子,利用權(quán)重因子調(diào)整不同向量的重要性,但是各個(gè)維度的重要性被一致對(duì)待,忽略了可能只有部分維度是比較重要的情況;門(mén)控機(jī)制則能較好的應(yīng)對(duì)不同的維度,Jointly[10]中每個(gè)實(shí)體都有自己的一個(gè)門(mén)控向量,通過(guò)sigmoid函數(shù)控制聯(lián)合表示的每一維是依賴于結(jié)構(gòu)向量還是擴(kuò)展向量.門(mén)控機(jī)制不僅增加了大量參數(shù),而且門(mén)控單元中結(jié)構(gòu)向量和擴(kuò)展向量是相互排斥的,不能同時(shí)兼顧兩種向量.
圖1 常見(jiàn)的實(shí)體聯(lián)合表示方法
3)如圖1右邊所示,兩種向量被拼接在一起后作為輸入,之后使用線性或者非線性的方法還原維度得到實(shí)體的聯(lián)合表示.LiteralE[17]中使用了類(lèi)似的方法,將實(shí)體的結(jié)構(gòu)向量和擴(kuò)展向量拼接在一起,經(jīng)處理之后,使用類(lèi)似于門(mén)控循環(huán)單元(GRU)的門(mén)控機(jī)制來(lái)得到實(shí)體的聯(lián)合表示.該方法運(yùn)算量較大而且門(mén)控機(jī)制中的問(wèn)題依然存在.
但是,這些聯(lián)合表示方法都沒(méi)有考慮到兩種信息的不同作用,存在著若干問(wèn)題.首先,使用簡(jiǎn)單的方法直接將兩種向量直接結(jié)合在一起,忽略了兩種向量是由不同來(lái)源學(xué)習(xí)而來(lái)的,需要變換后才能結(jié)合在一起;其次,結(jié)構(gòu)向量和擴(kuò)展向量被混合隱藏在實(shí)體的聯(lián)合表示中,忽略了知識(shí)表示模型最后往往是用學(xué)習(xí)結(jié)構(gòu)表示的評(píng)分函數(shù)來(lái)計(jì)算評(píng)分,容易讓評(píng)分函數(shù)在計(jì)算評(píng)分時(shí)失去原有的結(jié)構(gòu)向量信息,造成引入信息的知識(shí)表示模型效率低下.
知識(shí)表示學(xué)習(xí)的目標(biāo)是將實(shí)體和關(guān)系映射為有效的低維向量,如將(h,r,t)中的實(shí)體和關(guān)系分別映射為低維向量h∈Rk、t∈Rk和r∈Rk,符號(hào)Rk表示k維的向量空間.
可以通過(guò)用來(lái)判斷給定的三元組是正例還是反例的評(píng)分函數(shù)fr(h,t)→R來(lái)優(yōu)化學(xué)習(xí)低維向量.評(píng)分函數(shù)fr(h,t)也可被寫(xiě)作f(h,r,t)→R.如果評(píng)分函數(shù)f(h,r,t)能有效的給三元組打分,區(qū)分正確的三元組和錯(cuò)誤的三元組則說(shuō)明低維向量學(xué)習(xí)到了有效的信息.例如,預(yù)測(cè)(北京,首都,中國(guó))是正確的,(南京,首都,中國(guó))是錯(cuò)誤的.
知識(shí)圖譜是有向的多關(guān)系圖,記作G= {(h,r,t)}?E*R*E,其中E表示實(shí)體集合、R表示關(guān)系集合,G表示三元組的集合,(h,r,t)表示知識(shí)圖譜中的一條記錄,h、r和t分別表示頭實(shí)體、關(guān)系和尾實(shí)體.
結(jié)合鄰居信息的CombiNe模型結(jié)構(gòu)如圖2所示,可以分為關(guān)鍵鄰居抽取,實(shí)體聯(lián)合表示和知識(shí)表示學(xué)習(xí)三層.
圖2 CombiNe的結(jié)構(gòu)
關(guān)鍵鄰居抽取層會(huì)從實(shí)體的鄰居集合Ne={h|(h,r,e)∈G,h∈E,r∈R}∪{t|(e,r,t)∈G,t∈E,r∈R}中為實(shí)體e抽取出關(guān)鍵的鄰居key(Ne)?Ne.在本模型中從實(shí)體e的鄰居集合Ne中為實(shí)體抽取一個(gè)實(shí)體鄰居kn作為關(guān)鍵鄰居,則e的關(guān)鍵鄰居可以重寫(xiě)為key(Ne)={kn},抽取出的鄰居仍屬于實(shí)體集合E;在實(shí)體聯(lián)合表示層中,輸入的是實(shí)體e的結(jié)構(gòu)向量es∈Rk和擴(kuò)展向量ea∈Rk,該層將輸出實(shí)體的聯(lián)合表示向量ej∈Rk.在CombiNe模型中,因?yàn)殛P(guān)鍵鄰居抽取層輸出的key(Ne)仍屬于實(shí)體集合E,則不需要再學(xué)習(xí)擴(kuò)展向量的表示,而是將kn對(duì)應(yīng)的實(shí)體結(jié)構(gòu)向量賦值給ea,即ea=kns;在知識(shí)表示學(xué)習(xí)層中,可以采用現(xiàn)有學(xué)習(xí)結(jié)構(gòu)信息的大部分知識(shí)表示模型.CombiNe模型采用ComplEx模型作為知識(shí)表示學(xué)習(xí)階段使用的知識(shí)表示模型.
與現(xiàn)有引入擴(kuò)展信息的模型相比,雖然CombiNe也將擴(kuò)展信息引入已有的知識(shí)表示模型,但是除了在聯(lián)合表示階段需要增加額外的參數(shù),該模型不會(huì)引入其他的參數(shù)用于學(xué)習(xí)實(shí)體的擴(kuò)展向量.因?yàn)槟P椭袑?shí)體的擴(kuò)展向量來(lái)自關(guān)鍵實(shí)體鄰居對(duì)應(yīng)的結(jié)構(gòu)向量.使用實(shí)體的結(jié)構(gòu)向量作為實(shí)體引入的擴(kuò)展信息不僅使實(shí)體的聯(lián)合表示能從鄰居中學(xué)到更豐富的信息,而且鄰居也將由于參與到實(shí)體的表示中得到更多的信息.下面將具體地描述模型中各層的實(shí)現(xiàn).
如果兩個(gè)實(shí)體具有相似的鄰居,也就是說(shuō)它們的大多數(shù)鄰居是相同的,則它們應(yīng)該具有相近的信息,進(jìn)而有相似的表示.然而,由于知識(shí)圖譜的不完整,在給定的知識(shí)圖譜中通過(guò)實(shí)體鄰居確定相似的實(shí)體面臨著一定的挑戰(zhàn).而且知識(shí)圖譜中實(shí)體鄰居的分布可能跨度極大,如在數(shù)據(jù)集FB15k-237上單個(gè)實(shí)體的鄰居數(shù)量范圍低至一兩個(gè)高達(dá)幾千個(gè).因此,模型要避免使用鄰居集合中的所有實(shí)體作為擴(kuò)展信息,采用有效的方法來(lái)選取部分鄰居作為擴(kuò)展信息更符合實(shí)際情況.
從實(shí)體的鄰居集合中抽取出的鄰居要能反映鄰居集合的主要信息.不同于NKGE[11]認(rèn)為出現(xiàn)次數(shù)少的鄰居更有代表性.有更多鏈接的鄰居不僅具有更豐富的信息,而且能較好的表示實(shí)體鄰居集合的特征.在部分鄰居的選取上,利用鄰居的頻率統(tǒng)計(jì)信息是一類(lèi)有效的方法.自動(dòng)關(guān)鍵詞抽取技術(shù)中的TFIDF[13]恰好符合關(guān)鍵鄰居抽取的要求.實(shí)體e的鄰居n的頻率可以分為兩個(gè)部分,一部分是e的鄰居集合中n出現(xiàn)頻率,即局部頻率l(e,n)=|{(e,r,n)∈G}∪{(n,r,e)∈G}|;另一部分是n在整個(gè)知識(shí)圖譜中作為鄰居出現(xiàn)的頻率,即全局頻率g(n)=|{h|{(h,r,n)∈G}∪{t|(n,r,t)∈G}|,這里的全局頻率參考TFIDF做了一定的修正.
TFIDF廣泛用于自動(dòng)關(guān)鍵詞抽取,而且該技術(shù)不關(guān)心詞在文檔中的位置,使用詞頻(TF)和逆文檔頻率(IDF)的乘積(TF×IDF)來(lái)衡量詞語(yǔ)對(duì)文檔內(nèi)容的描述能力[13].類(lèi)似于TFIDF只關(guān)心詞的頻率,在抽取關(guān)鍵鄰居時(shí),CombiNe更關(guān)心鏈接的數(shù)量,也就是鄰居的頻率.如果一個(gè)實(shí)體經(jīng)常在同一個(gè)鄰居集合中作為實(shí)體的鄰居出現(xiàn),那么該實(shí)體對(duì)這個(gè)鄰居集合來(lái)說(shuō)是較為重要的,但若是該實(shí)體頻繁的在各實(shí)體的鄰居中出現(xiàn)則說(shuō)明該實(shí)體過(guò)于平凡不太重要.使用式(1)中的m(e,n)可以有效計(jì)算e中鄰居n的重要性,局部頻率高的鄰居重要性會(huì)得到提高,全局頻率高的鄰居則會(huì)受到抑制.式(1)中|E|表示實(shí)體集合中實(shí)體的數(shù)量.
(1)
最后獲取{m(e,n1),m(e,n2),…,m(e,n|Ne|)}中具有最大值的鄰居ni作為實(shí)體e關(guān)鍵鄰居,即key(Ne)={ni}.
知識(shí)表示學(xué)習(xí)模型一般通過(guò)結(jié)構(gòu)信息來(lái)學(xué)習(xí)實(shí)體的表示,但是這并不常常有效.因?yàn)橹R(shí)圖譜中有些實(shí)體僅出現(xiàn)在少量的三元組中,導(dǎo)致這些實(shí)體缺乏足夠的結(jié)構(gòu)信息.引入擴(kuò)展信息可以為實(shí)體提供更多的可學(xué)習(xí)信息.
結(jié)構(gòu)信息和擴(kuò)展信息的不同來(lái)源表明將結(jié)構(gòu)向量和擴(kuò)展向量直接結(jié)合起來(lái)是不合理的.使用線性變換可以統(tǒng)一不同的來(lái)源和空間,具體如式(2)所示.
e′s=Wses+bs,e′a=Waea+ba
(2)
式(2)中Ws∈Rk*k和Wa∈Rk*k是用于線性變換的k×k矩陣,bs∈Rk和ba∈Rk是偏置向量.接著使用加法運(yùn)算結(jié)合兩種向量得到基礎(chǔ)聯(lián)合ebj表示,具體如式(3)所示.
ebj=h(es,ea)=e′s+e′a
(3)
線性變換和加法運(yùn)算的使用不僅使不同來(lái)源的信息結(jié)合得更加合理可靠,而且還使基礎(chǔ)聯(lián)合表示能從各個(gè)維度自動(dòng)學(xué)習(xí)結(jié)構(gòu)向量和擴(kuò)展向量.進(jìn)一步地,實(shí)體的聯(lián)合表示在知識(shí)表示學(xué)習(xí)階段將由用于學(xué)習(xí)結(jié)構(gòu)向量的評(píng)分函數(shù)計(jì)算,結(jié)構(gòu)向量在聯(lián)合表示中應(yīng)被謹(jǐn)慎地處理.但是,在基礎(chǔ)聯(lián)合表示中,結(jié)構(gòu)向量和擴(kuò)展向量被混合在一起,當(dāng)按照傳統(tǒng)的知識(shí)表示模型學(xué)習(xí)的時(shí)候,評(píng)分函數(shù)在計(jì)算階段容易丟失實(shí)體的結(jié)構(gòu)信息.為了將結(jié)構(gòu)信息暴露給評(píng)分函數(shù),如圖3所示,將結(jié)構(gòu)向量直接短接基礎(chǔ)聯(lián)合表示,具體如式(4)所示.
圖3 短接實(shí)體聯(lián)合表示
ej=h(es,ea)+es=ebj+es
(4)
通過(guò)短接方式連接,結(jié)構(gòu)向量中的結(jié)構(gòu)信息將直接輸出到實(shí)體聯(lián)合表示,實(shí)體聯(lián)合表示將保留原始的結(jié)構(gòu)向量.在殘差網(wǎng)絡(luò)中[12],原始的輸入被保留下來(lái)用于訓(xùn)練非常深的網(wǎng)絡(luò).短接實(shí)體聯(lián)合表示不僅保持了原始的結(jié)構(gòu)向量,而且還使模型更容易訓(xùn)練.
CombiNe只是通過(guò)引入的鄰居信息豐富實(shí)體的表示,同Jointly[9],NKGE[10],LiteralE[16]等一樣易于擴(kuò)展到傳統(tǒng)的知識(shí)表示模型中.CombiNe在知識(shí)表示學(xué)習(xí)階段中使用ComplEx模型.在ComplEx模型中,實(shí)體和關(guān)系由實(shí)數(shù)和虛數(shù)兩個(gè)部分的向量組成.在標(biāo)準(zhǔn)的短接實(shí)體聯(lián)合表示中共享參數(shù)也要區(qū)分為實(shí)數(shù)和虛數(shù)兩個(gè)部分.
不同于ComplEx原文中的實(shí)現(xiàn),CombiNe參考ConvE采用了一些能夠加速訓(xùn)練速度同時(shí)提升模型性能的訓(xùn)練方式.對(duì)于一個(gè)三元組(h,r,t),使用標(biāo)準(zhǔn)二元交叉熵?fù)p失函數(shù)(binary cross-entropy loss)和1-N打分策略,具體如式(5)所示.
(5)
其中|E|表示所有實(shí)體的數(shù)量,i表示實(shí)體集合E中的一個(gè)實(shí)體;pi是三元組(h,r,i)的評(píng)分;yi的值若為1表示三元組(h,r,i)是在訓(xùn)練集中出現(xiàn)的正例,其它未知情況的三元組則填充0;由于給定的都是知識(shí)圖譜中的正例,大部分方法訓(xùn)練時(shí)需要通過(guò)替換正例三元組中的部分實(shí)體來(lái)生成負(fù)例,而且在計(jì)算時(shí)要獨(dú)立地計(jì)算每一個(gè)三元組.1-N打分策略則能同時(shí)計(jì)算多個(gè)元組而且不用耗費(fèi)時(shí)間在主動(dòng)生成負(fù)例上.
1-N打分策略指對(duì)于一個(gè)三元組(h,r,t)同時(shí)計(jì)算(h,r,E)或者(t,r-1,E)的評(píng)分,在1-N打分策略中(h,r)或者(t,r-1)首先被計(jì)算,然后通過(guò)矩陣乘法運(yùn)算一次計(jì)算在全部實(shí)體E上的評(píng)分,該策略能夠顯著加速訓(xùn)練和測(cè)試的速度.為了受益于該策略,需要為數(shù)據(jù)集中的全部三元組添加逆關(guān)系r-1.由于實(shí)際情況中實(shí)體的數(shù)量遠(yuǎn)遠(yuǎn)大于關(guān)系的數(shù)量,雖然逆關(guān)系會(huì)增加關(guān)系表示的參數(shù)數(shù)量,但是少量參數(shù)的增加相比于性能的提升和加速是值得的.
CombiNe模型采用PyTorch框架實(shí)現(xiàn).其中批歸一化(batch normalization)、Dropout、標(biāo)簽平滑被用來(lái)加速訓(xùn)練和防止過(guò)擬合.批歸一化作用在計(jì)算(e,r)時(shí)的實(shí)體e上.Dropout被應(yīng)用在實(shí)體聯(lián)合表示之前的結(jié)構(gòu)向量es和擴(kuò)展向量ea上,具體如圖3中的線性變換前.
另外在CombiNe中還對(duì)聯(lián)合表示的共享參數(shù)矩陣使用了L2正則化.因此,最終的損失函數(shù)如式(6)所示.
L=Lscore+λ(‖Ws‖2+‖Wa‖2)
(6)
可以通過(guò)在知識(shí)圖譜上的鏈接預(yù)測(cè)任務(wù)來(lái)評(píng)估知識(shí)表示模型的性能表現(xiàn).知識(shí)圖譜的鏈接預(yù)測(cè)任務(wù)已經(jīng)有了較為通用的基準(zhǔn)數(shù)據(jù)集、測(cè)試方法和評(píng)估指標(biāo).實(shí)驗(yàn)采用的基準(zhǔn)數(shù)據(jù)集是FB15k-237和WN18RR.為了避免測(cè)試泄露,沒(méi)有采用之前使用較多的FB15k和WN18數(shù)據(jù)集.詳細(xì)的數(shù)據(jù)集統(tǒng)計(jì)信息如表1所示.
表1 實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)信息
FB15k-237是 FB15k的子集.FB15k是從FreeBase抽取的一個(gè)大規(guī)模通用知識(shí)圖譜.驗(yàn)證集和測(cè)試集中包含大量在訓(xùn)練階段出現(xiàn)的反關(guān)系,導(dǎo)致簡(jiǎn)單的模型在FB15k上也能有較好的表現(xiàn).FB15k-237是FB15k移除反關(guān)系后的子集.
WN18RR是WN18的子集.WN18是從WordNet創(chuàng)建的,包含詞語(yǔ)之間關(guān)系的知識(shí)圖譜.WN18和FB15k同樣面臨著測(cè)試泄露的問(wèn)題.在WN18RR中,反關(guān)系被移除.傳統(tǒng)知識(shí)表示模型在該數(shù)據(jù)集中的推理效果顯著下降.
鏈接預(yù)測(cè)旨在預(yù)測(cè)給定的(h,r,?)或者(?,r,t)中缺失的實(shí)體.對(duì)于一個(gè)待測(cè)試的三元組,固定它的頭實(shí)體h和關(guān)系r,將尾實(shí)體替換為實(shí)體集中的所有實(shí)體或者固定尾實(shí)體t和關(guān)系r,將頭實(shí)體替換為實(shí)體集中的所有實(shí)體.然后計(jì)算評(píng)分并將所有的實(shí)體按照評(píng)分進(jìn)行排序.
在評(píng)估階段,測(cè)試集中的所有三元組并未在訓(xùn)練過(guò)程中出現(xiàn).實(shí)驗(yàn)報(bào)道了廣泛使用的“filter”設(shè)置的結(jié)果,該設(shè)置過(guò)濾掉所有已被模型觀測(cè)到的事實(shí).采用了五個(gè)常用的評(píng)測(cè)指標(biāo):平均排序(MR)、平均倒數(shù)排序(MRR)、hits@10、hits@3、hits@1.MR是全部測(cè)試樣本中正確答案排序值的平均值;MRR是全部測(cè)試樣本中正確答案排序值的倒數(shù)的平均值.hits@k是全部測(cè)試樣本中正確答案排名不大于k的占比.除了MR指標(biāo)越低越好之外,其它指標(biāo)全是越高越好.
設(shè)置結(jié)構(gòu)向量和擴(kuò)展向量的Dropout取同樣的參數(shù)設(shè)置.批量大小(batch size)設(shè)置為128,標(biāo)簽平滑率設(shè)置為0.1.為了更公平地和大部分模型做比較,向量表達(dá)空間的維度d取值100.實(shí)驗(yàn)的其它超參數(shù)設(shè)置使用網(wǎng)格尋優(yōu)法搜索,根據(jù)驗(yàn)證集上MRR的表現(xiàn)選擇最優(yōu)參數(shù).采用Adam優(yōu)化器,學(xué)習(xí)率α的搜索范圍是{0.001,0.003,0.005},指數(shù)學(xué)習(xí)率衰減(exponential learning rate decay)β的搜索范圍是{0.99,1.0},Dropout丟棄率γ的搜索范圍為{0.0,0.2,0.3,0.4,0.5},L2正則化參數(shù)λ的搜索范圍為{1e-3,5e-4,1e-4,5e-5,1e-5}.實(shí)驗(yàn)時(shí)每訓(xùn)練5輪進(jìn)行一次測(cè)試,在第600輪時(shí)停止,報(bào)道在MRR指標(biāo)上表現(xiàn)最優(yōu)時(shí)的結(jié)果.
在數(shù)據(jù)集FB15k-237上,最優(yōu)參數(shù)設(shè)置為α=0.001,β=0.99,γ=0.5,λ=5e-5;在數(shù)據(jù)集WN18RR上最優(yōu)參數(shù)設(shè)置的為α=0.003,β=1.0,γ=0.5,λ=1e-3.
幾個(gè)具有代表性且被廣泛引用的知識(shí)表示模型TransE、DistMult、ComplEx和ConvE被選取作為CombiNe的結(jié)果對(duì)比,同時(shí)CombiNe還與目前性能最優(yōu)的RotatE模型作對(duì)比.另外還與引入外部信息的方法KBlrn[18]、NKGE[11]、LiteralE[17]作對(duì)比.由于實(shí)驗(yàn)用的數(shù)據(jù)集和測(cè)試方法均保持一致,直接引用了現(xiàn)有文獻(xiàn)的部分實(shí)驗(yàn)結(jié)果.其中TransE引自文獻(xiàn)[11],DistMult引自文獻(xiàn)[4].按照CombiNe的訓(xùn)練步驟和優(yōu)化方法重新實(shí)現(xiàn)了ComplEx,在使用Dropout優(yōu)化技術(shù)和保持CombiNe的學(xué)習(xí)率一致的情況下取得了比之前文獻(xiàn)報(bào)道更好的性能表現(xiàn).為了降低模型的參數(shù)量另外擴(kuò)展了CombiNe的一個(gè)簡(jiǎn)化版本CombiNe-simple.在簡(jiǎn)化版本中,共享參數(shù)不作區(qū)分的同時(shí)處理實(shí)數(shù)和虛數(shù)部分.還將CombiNe中的聯(lián)合表示方法替換成由Jointly提出的門(mén)控機(jī)制并記作CombiNe-gating.剩余的實(shí)驗(yàn)結(jié)果均引自原文獻(xiàn).所有的實(shí)驗(yàn)結(jié)果均在表2中給出,表中加粗突出顯示的是每列中的最優(yōu)結(jié)果.
表2 在FB15k-237和WN18RR上的鏈接預(yù)測(cè)結(jié)果
從表2中最后兩行的實(shí)驗(yàn)結(jié)果對(duì)比可以看到,簡(jiǎn)化版本CombiNe-simple不僅降低了參數(shù)數(shù)量,而且在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上相比于標(biāo)準(zhǔn)版本均取得了輕微的性能提升.CombiNe-gating相對(duì)于ComplEx主要提升在hits@10和hits@3上,但是在全部評(píng)測(cè)指標(biāo)上均落后于CombiNe模型.從結(jié)果對(duì)比上可以看到,短接聯(lián)合表示方法優(yōu)于目前的門(mén)控機(jī)制聯(lián)合表示方法.
在FB15k-237數(shù)據(jù)集上,CombiNe在所有評(píng)測(cè)指標(biāo)上均取得了最優(yōu)結(jié)果.在WN18RR數(shù)據(jù)集的評(píng)測(cè)指標(biāo)MRR、hits@3、hits@1上,CombiNe也取得了最優(yōu)結(jié)果,在評(píng)測(cè)指標(biāo)MR和hits@10上,雖然CombiNe未能超過(guò)最優(yōu)結(jié)果,但是也取得了次優(yōu)的性能表現(xiàn).需要注意的是,RotatE使用了其它方法中沒(méi)有使用的自對(duì)抗負(fù)抽取技術(shù)(self-adversarial negative sampling),從作者公開(kāi)的代碼實(shí)現(xiàn)上還可以看到RotatE使用了較大的維度,如在FB15k-237上的維度d為1000.雖然CombiNe使用的維度d被限制為100,但是除了WN18RR數(shù)據(jù)集上的2個(gè)評(píng)測(cè)指標(biāo),在剩余的評(píng)測(cè)指標(biāo)上CombiNe使用更少的參數(shù)量卻優(yōu)于RotatE.實(shí)驗(yàn)結(jié)果表明CombiNe優(yōu)于最優(yōu)模型RotatE.
同引入鄰居信息的NKGE相比.NKGE與其使用的基礎(chǔ)知識(shí)表示模型ConvE對(duì)比,在FB15k-237的MRR上提升幅度為1.5%,在WN18RR的MRR上提升幅度為4.7%.CombiNe同ComplEx模型對(duì)比,在FB15k-237的MRR上提升幅度為4.8%,在WN18RR的MRR上提升幅度為6.2%.從提升幅度上看,使用關(guān)鍵鄰居的CombiNe效率高于使用更多低頻鄰居的NKGE.
和知識(shí)表示學(xué)習(xí)階段使用的ComplEx模型相比,在評(píng)測(cè)指標(biāo)hits@3和hits@1上兩個(gè)數(shù)據(jù)集的提升幅度都有5%以上.引入的鄰居信息有效的融合到實(shí)體表示中,顯著提高了實(shí)體的表示能力.CombiNe通過(guò)添加少量用于實(shí)體聯(lián)合表示的參數(shù)更有效地利用了ComplEx中學(xué)習(xí)到的實(shí)體表示和參數(shù).
通過(guò)控制訓(xùn)練集中三元組的數(shù)量測(cè)試實(shí)體鄰居,可以進(jìn)一步探索引入實(shí)體鄰居的作用.將FB15k-237訓(xùn)練集中的三元組隨機(jī)保留80%得到新的數(shù)據(jù)集FB15k-237-0.8.使用和FB15k-237一樣的訓(xùn)練步驟和參數(shù)設(shè)置進(jìn)行訓(xùn)練和測(cè)試.結(jié)果如表3所示.
表3 在FB15k-237-0.8上的鏈接預(yù)測(cè)結(jié)果
從表3可以看到當(dāng)訓(xùn)練樣本減少時(shí),ComplEx和CombiNe的性能均下降嚴(yán)重,但是CombiNe的表現(xiàn)依然優(yōu)于ComplEx模型.CombiNe能從鄰居學(xué)習(xí)到有效的表示.同完整的FB15k-237數(shù)據(jù)集上的評(píng)估結(jié)果對(duì)比,更多的鄰居對(duì)CombiNe帶來(lái)的提升大于對(duì)ComplEx的提升.
本文提出了一種結(jié)合實(shí)體鄰居信息來(lái)豐富實(shí)體表示的知識(shí)表示模型CombiNe.該模型通過(guò)能融合不同來(lái)源的信息和保持結(jié)構(gòu)向量傳遞的短接聯(lián)合表示方法有效提高了引入信息的知識(shí)表示模型的效率.針對(duì)目前主要是從高昂的外部數(shù)據(jù)引入擴(kuò)展信息的困境,利用現(xiàn)有的自動(dòng)關(guān)鍵詞抽取技術(shù)TFIDF從實(shí)體的鄰居列表中為每個(gè)實(shí)體抽取關(guān)鍵實(shí)體鄰居.然后,使用線性變換結(jié)合不同來(lái)源的實(shí)體結(jié)構(gòu)向量和引入的實(shí)體擴(kuò)展向量.最后為了將結(jié)構(gòu)向量傳遞給下游的知識(shí)表示模型在實(shí)體聯(lián)合表示中短接結(jié)構(gòu)向量.實(shí)驗(yàn)結(jié)果表明CombiNe不僅相對(duì)于基礎(chǔ)的知識(shí)表示模型有較大的提升而且利用更少的參數(shù)實(shí)現(xiàn)了在大部分評(píng)測(cè)指標(biāo)上對(duì)目前最優(yōu)模型的超越.
目前CombiNe僅在ComplEx模型進(jìn)行了擴(kuò)展,未來(lái)可以在TransE、RotatE等其它知識(shí)表示模型上進(jìn)行擴(kuò)展.另外當(dāng)前使用的關(guān)鍵實(shí)體鄰居抽取技術(shù)僅考慮了統(tǒng)計(jì)特征,還可以考慮增加其它特征.