夏光兵,李瑞軒,辜希武,劉 偉
華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430074
知識(shí)圖譜是用來(lái)存儲(chǔ)實(shí)體、語(yǔ)義類(lèi)型、屬性以及實(shí)體間關(guān)系的大型網(wǎng)絡(luò)。近年來(lái),人們花費(fèi)大量時(shí)間建立了很多各個(gè)領(lǐng)域的知識(shí)圖譜,如Freebase、WordNet、DBpedia、Wikidata 等,它們?cè)谌斯ぶ悄芎椭悄苄畔⒎?wù)的許多任務(wù)中扮演著重要的角色。知識(shí)圖譜中主要包含實(shí)體和關(guān)系兩個(gè)基本元素,它們通常以(頭實(shí)體,關(guān)系,尾實(shí)體)的形式存儲(chǔ)。知識(shí)表示學(xué)習(xí)的目的是學(xué)習(xí)實(shí)體和關(guān)系的分布式表示,并將它們映射到低維的向量空間中,它能夠解決傳統(tǒng)表示方法數(shù)據(jù)稀疏和運(yùn)算復(fù)雜的問(wèn)題。
近些年來(lái),人們已經(jīng)提出了多種知識(shí)表示學(xué)習(xí)模型。TransE受word2vec的啟發(fā),將三元組中的關(guān)系看成是頭實(shí)體到尾實(shí)體間的平移,以較少的參數(shù)獲得了性能上的較大提升,但它只適用于處理一對(duì)一關(guān)系,因此由它衍生出了很多擴(kuò)展模型。TransH引入了特定關(guān)系超平面,借助于超平面法向量和平移向量一起來(lái)表示關(guān)系向量,將實(shí)體映射到不同關(guān)系的超平面空間中。TransR進(jìn)一步假設(shè)關(guān)系應(yīng)該擁有各自的語(yǔ)義空間,實(shí)體都應(yīng)該看成語(yǔ)義空間中的向量。因此,它定義了不同關(guān)系的轉(zhuǎn)移矩陣,將實(shí)體映射到對(duì)應(yīng)的空間中。RESCAL將實(shí)體都用向量來(lái)表示,來(lái)捕獲其中隱含的語(yǔ)義信息,而將關(guān)系都用矩陣來(lái)表示,來(lái)模擬各個(gè)要素之間成對(duì)的相互影響。DistMult通過(guò)限制關(guān)系矩陣為對(duì)角矩陣,從而極大減少了RESCAL 模型中的參數(shù),但它僅適用于模擬對(duì)稱(chēng)關(guān)系。HolE結(jié)合了RESCAL 和DistMult 兩者的優(yōu)勢(shì),首先通過(guò)循環(huán)相關(guān)運(yùn)算來(lái)聯(lián)合三元組中的頭尾實(shí)體,再與關(guān)系向量進(jìn)行語(yǔ)義匹配,既具有RESCAL 強(qiáng)大的表示效果,同時(shí)又具有DistMult 的簡(jiǎn)潔性。ComplEx為了全面模擬非對(duì)稱(chēng)的關(guān)系,首次將復(fù)數(shù)應(yīng)用到知識(shí)表示學(xué)習(xí)中來(lái)解決DistMult 中的非對(duì)稱(chēng)問(wèn)題。在ComplEx 中,實(shí)體和關(guān)系都被表示為復(fù)數(shù)空間中的向量。ANALOGY在RESCAL 的基礎(chǔ)上,強(qiáng)化了對(duì)實(shí)體和關(guān)系的類(lèi)推特征的描述。它和RESCAL 模型一樣,都將雙線(xiàn)性函數(shù)當(dāng)作評(píng)分函數(shù),但它額外約束了關(guān)系的線(xiàn)性映射是正規(guī)且對(duì)稱(chēng)的。經(jīng)證明,DistMult、HolE、ComplEx 都可以看成ANALOGY 在某些特定情況下的特例。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)最近也被廣泛用于構(gòu)建知識(shí)表示學(xué)習(xí)模型。RGCN利用圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)對(duì)關(guān)系數(shù)據(jù)建模,在鏈接預(yù)測(cè)和實(shí)體分類(lèi)任務(wù)上取得了較好的效果。ConvMask學(xué)習(xí)實(shí)體名稱(chēng)的嵌入及其文本描述的一部分,以將看不見(jiàn)的實(shí)體連接到知識(shí)圖譜中。ConvE使用CNN 和多個(gè)非線(xiàn)性特征來(lái)建模,在很多公開(kāi)的數(shù)據(jù)集上它都有著良好的效果,但它只關(guān)注了不同維度實(shí)體間的局部關(guān)系,而沒(méi)有觀(guān)察到相同維度實(shí)體間的全局關(guān)系。ConvKB將三元組向量組合成3 列的矩陣輸入到卷積層中,從而保留了翻譯特性。SACN(structureaware convolutional networks)充分結(jié)合了GCN 和ConvE 的優(yōu)勢(shì),用一個(gè)帶權(quán)重的GCN 構(gòu)成編碼器從大規(guī)模知識(shí)圖譜的鄰節(jié)點(diǎn)中學(xué)習(xí)權(quán)重信息和一個(gè)由TransE 和ConvE 組合而成的解碼器來(lái)保存實(shí)體和關(guān)系間的翻譯特性。Nathani 等為了充分利用知識(shí)圖譜中相鄰節(jié)點(diǎn)間隱含的復(fù)雜語(yǔ)義信息,建立了一種使用注意力的知識(shí)表示學(xué)習(xí)模型。它同樣基于編碼器-解碼器模型,利用圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)作為編碼器,從所有實(shí)體的鄰節(jié)點(diǎn)中獲取實(shí)體和關(guān)系的屬性,然后利用ConvKB 作為解碼器計(jì)算全局特征。
本文提出了一種基于多源信息組合的知識(shí)表示學(xué)習(xí)模型(multi-source information combined knowledge representation learning,MCKRL),它是一種常見(jiàn)的編碼器-解碼器結(jié)構(gòu)。為了學(xué)習(xí)復(fù)雜關(guān)系所描述的信息,MCKRL 中包含了基于TransE 模型構(gòu)建的編碼器,將知識(shí)圖譜中的結(jié)構(gòu)三元組和實(shí)體的文本描述信息、實(shí)體的層次類(lèi)型信息、圖的結(jié)構(gòu)信息融合到一起。實(shí)體的層次類(lèi)型信息可以幫助人們自動(dòng)將不同實(shí)體聯(lián)系到一起,并通過(guò)實(shí)體所屬的類(lèi)型信息約束實(shí)體中的語(yǔ)義特征。實(shí)體的描述信息是對(duì)實(shí)體相關(guān)內(nèi)容更為詳細(xì)的說(shuō)明,里面包含了很多關(guān)鍵的知識(shí),是對(duì)三元組結(jié)構(gòu)的重要補(bǔ)充。圖的拓?fù)浣Y(jié)構(gòu)信息描述了不同實(shí)體之間的聯(lián)系,能夠真實(shí)反映不同實(shí)體在空間上的相互影響。將它們與原始的三元組融合到一起,可以更完整地捕獲到知識(shí)圖譜中隱藏的實(shí)體和關(guān)系特征。另一方面,為了在不同維度上獲取三元組向量的全局特征,同時(shí)保留模型的翻譯特性,MCKRL 進(jìn)一步使用了ConvKB 模型作為解碼器。從編碼器中得到的實(shí)體向量會(huì)輸入到編碼器中繼續(xù)訓(xùn)練,得到的結(jié)果為三元組的最終評(píng)分。
圖1 給出了模型的整體框架。首先通過(guò)一維CNN 將實(shí)體的文本描述信息編碼成向量,然后分別將三元組結(jié)構(gòu)中的實(shí)體向量(h,t)和實(shí)體的文本描述向量(h,t)進(jìn)行層次類(lèi)型投影,在特定關(guān)系對(duì)應(yīng)的向量空間中約束實(shí)體的語(yǔ)義信息,過(guò)濾掉其他不相干描述和語(yǔ)義的噪聲干擾。再將它們分別與關(guān)系向量()結(jié)合,輸入到圖注意力網(wǎng)絡(luò)中,使用圖注意力機(jī)制捕獲實(shí)體鄰節(jié)點(diǎn)特征,找出每個(gè)實(shí)體與它的鄰節(jié)點(diǎn)之間的相互影響。最后通過(guò)門(mén)機(jī)制將這兩種實(shí)體向量和關(guān)系向量組合到一起進(jìn)行訓(xùn)練。編碼器訓(xùn)練的結(jié)果進(jìn)一步輸入到ConvKB 構(gòu)成的解碼器中,得到實(shí)體和關(guān)系向量的最終表現(xiàn)形式。
圖1 MCKRL 模型整體框架Fig.1 Overall framework of MCKRL
知識(shí)圖譜中的實(shí)體通常指一個(gè)具體或抽象的單詞,而實(shí)體描述則是對(duì)這個(gè)單詞中包含的語(yǔ)義更為細(xì)致的文字說(shuō)明。較短的描述一般由一句或幾句話(huà)組成,而較長(zhǎng)的描述則通常包括幾段文字,它們可以看成是以文字的方式來(lái)對(duì)這個(gè)實(shí)體進(jìn)行簡(jiǎn)潔而全面介紹。實(shí)體描述中含有大量的語(yǔ)義信息,它們可以成為知識(shí)圖譜中原有三元組事實(shí)的重要補(bǔ)充,幫助建立更加完善的知識(shí)表示學(xué)習(xí)模型。
圖2 是(Jane Austen,is the author of,Pride and Prejudice)中頭尾實(shí)體描述實(shí)例??梢钥吹?,對(duì)于Jane Austen 和Pride and Prejudice 的描述中,都有單詞直接包含或間接暗示了三元組中要表示的內(nèi)容。如果將這些文本描述提取出來(lái)幫助構(gòu)建知識(shí)表示學(xué)習(xí)模型,顯然會(huì)極大提升模型的效果。
圖2 實(shí)體描述示例Fig.2 Example of entity description
本文依照DKRL(description-embodied knowledge representation learning)中的方式,采用CNN 編碼實(shí)體的文本描述信息,模型結(jié)構(gòu)如圖3 所示。文本中的單詞首先經(jīng)過(guò)預(yù)處理過(guò)濾掉停用詞,并利用word2vec模型表示成向量。然后輸入到卷積層中提取文本特征,此處采用兩層卷積來(lái)提高CNN 的性能。由于文本序列長(zhǎng)短不一,對(duì)于短文本進(jìn)行補(bǔ)零,在序列后面添加上零向量使文本對(duì)齊。兩個(gè)卷積層后對(duì)應(yīng)著兩個(gè)激活函數(shù)來(lái)模擬神經(jīng)元。每個(gè)非線(xiàn)性函數(shù)后連接一個(gè)池化層進(jìn)行降采樣,用來(lái)減少卷積層中的特征的數(shù)量,過(guò)濾掉噪聲的影響。第一個(gè)池化層采用最大池化策略,獲取每個(gè)局部區(qū)域中最強(qiáng)烈的信號(hào)特征,從而達(dá)到減少特征空間并過(guò)濾掉噪聲的效果;第二個(gè)池化層采用平均池化策略,綜合考慮所有局部信息的影響。
圖3 CNN 結(jié)構(gòu)圖Fig.3 Structure of CNN
實(shí)體的層次類(lèi)型指的是實(shí)體不同粒度的層次結(jié)構(gòu),可以在知識(shí)圖譜三元組信息的基礎(chǔ)上給出系統(tǒng)化的類(lèi)型知識(shí),有助于建立更加高效的表示模型。同一個(gè)實(shí)體在不同的場(chǎng)景下所表達(dá)的意思很有可能大不相同。
如圖4 所示,在Freebase 中,實(shí)體Jane Austen 有著book/author、award/award_nominee 和music/artist三種層次類(lèi)型。顯然,在三元組(Jane Austen,is the author of,Pride and Prejudice)中,頭實(shí)體最重要的層次類(lèi)型是book/author,尾實(shí)體最重要的層次類(lèi)型是book/written_work。
圖4 層次類(lèi)型示例Fig.4 Example of hierarchy types
每個(gè)實(shí)體通常會(huì)包含多個(gè)層次類(lèi)型,而每一種層次類(lèi)型又有多個(gè)層。對(duì)于一個(gè)擁有層的層次類(lèi)型,()是的第個(gè)子類(lèi)型。如果將最精確的子類(lèi)型定義為第一層,而將最普遍的類(lèi)型定義為最后一層,那么每個(gè)子類(lèi)型有唯一一個(gè)上層子類(lèi)型。層次類(lèi)型可以表示為:
然后使用TKRL(type-embodied knowledge representation learning)中的加權(quán)層次編碼器,利用層次類(lèi)型來(lái)構(gòu)造投影矩陣M:
其中,∈(0,0.5)為權(quán)重衰減系數(shù),保證更具體的層次類(lèi)型有更高的權(quán)重。
每個(gè)實(shí)體可能包含多個(gè)層次類(lèi)型,而在不同的關(guān)系中,不同的層次類(lèi)型重要性也不相同。知識(shí)圖譜中的特定關(guān)系類(lèi)型信息提供了實(shí)體在特定關(guān)系中可能屬于的一種或多種類(lèi)型,能夠幫助組合多個(gè)實(shí)體層次類(lèi)型信息。為了利用此信息,特定三元組(,,)中的頭實(shí)體的層次類(lèi)型投影矩陣M為:
其中,指實(shí)體層次類(lèi)型的數(shù)量,z指特定關(guān)系中頭實(shí)體的層次類(lèi)型的集合。尾實(shí)體層次類(lèi)型投影矩陣M的定義與M類(lèi)似。
知識(shí)圖譜中,實(shí)體和關(guān)系都不是孤立的,而是相互作用、相互影響的。每個(gè)實(shí)體通過(guò)不同的關(guān)系連接到其他的實(shí)體,所有的三元組由此共同組成了具有拓?fù)涮卣鞯木W(wǎng)絡(luò)結(jié)構(gòu)。實(shí)體的局部鄰節(jié)點(diǎn)中包含著很多重要的隱藏語(yǔ)義信息,各個(gè)鄰節(jié)點(diǎn)又對(duì)這個(gè)實(shí)體會(huì)產(chǎn)生不同程度的影響。因此知識(shí)圖譜中每個(gè)三元組除了提供自身的結(jié)構(gòu)信息外,還對(duì)整個(gè)網(wǎng)絡(luò)拓?fù)溆胁煌呢暙I(xiàn)。如果按照傳統(tǒng)的方式孤立地分析每個(gè)三元組會(huì)忽略這些拓?fù)浣Y(jié)構(gòu)信息。因此本文使用GAT 來(lái)捕獲實(shí)體鄰域中隱藏的內(nèi)容。原始的GAT 只考慮了節(jié)點(diǎn)(實(shí)體),而沒(méi)有考慮邊(實(shí)體間的關(guān)系),為了將關(guān)系和鄰節(jié)點(diǎn)特征聯(lián)合在一起,本文采用Nathani 等提出的方法,重新定義一個(gè)注意力層,作為整個(gè)模型的核心。
圖注意力機(jī)制的構(gòu)成如圖5 所示,其核心是兩個(gè)卷積層。在第一個(gè)卷積層中,為了更新實(shí)體e的向量,采用一個(gè)線(xiàn)性轉(zhuǎn)換層來(lái)學(xué)習(xí)特定的三元組t=(e,r,e)中實(shí)體和關(guān)系聯(lián)合的向量表示。 t組合后對(duì)應(yīng)的向量表示為:
圖5 GAT 結(jié)構(gòu)圖Fig.5 Structure of GAT
其中,e、e和r分別指三元組中頭尾實(shí)體和關(guān)系的向量表示。指線(xiàn)性轉(zhuǎn)換矩陣。然后通過(guò)另一個(gè)線(xiàn)性轉(zhuǎn)換矩陣以及非線(xiàn)性函數(shù)獲取每個(gè)三元組的絕對(duì)注意力值b,從而計(jì)算不同三元組的重要性。
為了計(jì)算三元組的相對(duì)注意力值α,對(duì)b進(jìn)行歸一化,相對(duì)注意力值表示為:
其中,N指實(shí)體e的鄰節(jié)點(diǎn)集合,R指實(shí)體e和e之間關(guān)系的集合。實(shí)體e所有鄰節(jié)點(diǎn)按相對(duì)注意力值加權(quán)求和后得到更新后的向量表示。
為了使這個(gè)過(guò)程保持平穩(wěn),模型采用了多頭注意力機(jī)制,分別使用兩個(gè)注意力頭來(lái)單獨(dú)計(jì)算實(shí)體向量,然后將它們連接到一起。
為了使關(guān)系維度與實(shí)體保持一致,使用一個(gè)權(quán)重矩陣作為線(xiàn)性轉(zhuǎn)換層來(lái)更新關(guān)系向量。然后,在第二個(gè)卷積層中重復(fù)上述過(guò)程。實(shí)體在利用GAT 學(xué)習(xí)新的向量時(shí),會(huì)丟失原始的向量信息。因此,進(jìn)一步使用權(quán)重矩陣將新的向量和原始向量線(xiàn)性組合,以此保留初始向量的一部分信息。
為了權(quán)衡兩者實(shí)體中最有價(jià)值的信息,本文采用Xu 等提出的聯(lián)合模型來(lái)學(xué)習(xí)結(jié)構(gòu)信息和文本信息的組合表示。組合后的頭尾實(shí)體表示為:
編碼器模型的評(píng)分函數(shù)表示為:
訓(xùn)練時(shí),采用最大間隔法,損失函數(shù)定義為:
其中,>0 為指定的間隔參數(shù),′是中三元組從實(shí)體集合中替換頭尾實(shí)體后對(duì)應(yīng)的負(fù)樣本,′可以表示為:
為了捕獲三元組的全局特征,概括模型的翻譯特性,提高知識(shí)表示的準(zhǔn)確性,使用ConvKB作為解碼器來(lái)對(duì)編碼器中的向量進(jìn)一步訓(xùn)練。
ConvKB使用軟間隔損失函數(shù)來(lái)訓(xùn)練,可表示為:
為了驗(yàn)證模型的效果,分別在FB15K和FB15K237上進(jìn)行了知識(shí)圖譜的鏈接預(yù)測(cè)和三元組分類(lèi)實(shí)驗(yàn)。
編碼器模型中,單詞和三元組的輸入維度都選擇50,為了加快收斂,利用word2vec 模型初始化文本中的單詞向量,使用TransE 模型的訓(xùn)練結(jié)果初始化三元組中的向量。CNN中,第一個(gè)卷積層窗口設(shè)為2,第二個(gè)卷積層窗口設(shè)為1。兩個(gè)卷積層后的非線(xiàn)性函數(shù)都選擇tanh 函數(shù)。第一個(gè)池化層窗口大小為4,第二個(gè)池化層窗口大小為1。Freebase 中層次類(lèi)型信息只包含實(shí)體的域和類(lèi)型兩層,使用層次矩陣進(jìn)行編碼,每種關(guān)系類(lèi)型和域矩陣維度都隨機(jī)初始化為50×50,類(lèi)型矩陣權(quán)重設(shè)置為0.9,域矩陣權(quán)重設(shè)為0.1。在GAT的第一層中單獨(dú)使用了兩個(gè)注意力機(jī)制,每個(gè)注意力機(jī)制中輸出維度為100,因此組合后輸出的三元組向量維度都變?yōu)?00,LeakyReLU 函數(shù)斜率設(shè)置為0.2。評(píng)分函數(shù)間隔取1.0。使用Adam 算法優(yōu)化,學(xué)習(xí)率為10,權(quán)重衰減參數(shù)為10。模型迭代次數(shù)設(shè)為3 000。
對(duì)于解碼器模型,實(shí)體和關(guān)系的輸入輸出維度都為200。在ConvKB 中,二維卷積層的輸出通道數(shù)選擇50。同樣使用Adam 算法優(yōu)化,學(xué)習(xí)率取10,權(quán)重衰減參數(shù)取10。模型批次設(shè)為256,迭代次數(shù)設(shè)為300,設(shè)為0.001。
對(duì)于鏈接預(yù)測(cè),采用三種評(píng)估指標(biāo):(1)平均倒數(shù)排序(mean reciprocal rank,MRR),表示正確三元組排名倒數(shù)的平均值;(2)平均排序(mean rank,MR),表示正確三元組排名的平均值;(3)Hits@,表示前(=1,3,10)個(gè)預(yù)測(cè)結(jié)果中正確三元組的比例。
兩個(gè)數(shù)據(jù)集上的鏈接預(yù)測(cè)結(jié)果如表1 所示。根據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),MCKRL 模型在兩個(gè)數(shù)據(jù)集的幾乎所有指標(biāo)上均比其他模型表現(xiàn)更好,這證明了本文的組合模型是十分有效的。表明實(shí)體的文本描述信息、層次類(lèi)型信息和圖結(jié)構(gòu)信息都是對(duì)原始三元組的重要補(bǔ)充,能夠改進(jìn)知識(shí)表示學(xué)習(xí)的效果。準(zhǔn)確來(lái)說(shuō),在MR 評(píng)測(cè)指標(biāo)上的提升,表明模型對(duì)于知識(shí)表示學(xué)習(xí)的整體效果較好,而在MRR 評(píng)測(cè)指標(biāo)上的下降和Hits@評(píng)測(cè)指標(biāo)上的提升,則表明組合模型在鏈接預(yù)測(cè)任務(wù)上對(duì)實(shí)體的推薦水平較高。
表1 鏈接預(yù)測(cè)實(shí)驗(yàn)結(jié)果Table 1 Experimental results of link prediction
相比Nathani 等僅利用圖注意力機(jī)制建立的模型,MCKRL 的結(jié)果在各個(gè)評(píng)測(cè)指標(biāo)上有所提升,但并不是特別大。一方面是因?yàn)镚AT 捕獲到的鄰節(jié)點(diǎn)之間的聯(lián)系能在一定程度上彌補(bǔ)實(shí)體描述信息和層次類(lèi)型信息的缺失;另一方面可能是模型中信息的編碼方式不能完全獲取實(shí)體的全部語(yǔ)義。
對(duì)于三元組分類(lèi),用準(zhǔn)確率,即判斷正確的數(shù)量與樣本總數(shù)的比值,作為評(píng)價(jià)指標(biāo)。
FB15K 和FB15K237 兩個(gè)數(shù)據(jù)集上的三元組分類(lèi)結(jié)果如表2 所示。從結(jié)果中可以發(fā)現(xiàn),對(duì)于三元組分類(lèi)問(wèn)題,組合模型在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率同樣超過(guò)了其他基線(xiàn)模型,這也證明了本文模型的效果。一方面,編碼器模型融合了多源信息的模型能夠?yàn)槿M提供更多的輔助信息,從而幫助改進(jìn)三元組分類(lèi)的效果;另一方面,是因?yàn)楸疚牟捎玫慕獯a器模型ConvKB 從本質(zhì)上來(lái)看就是一個(gè)分類(lèi)器,因而在三元組分類(lèi)問(wèn)題上表現(xiàn)得更好。
表2 三元組分類(lèi)實(shí)驗(yàn)結(jié)果Table 2 Experimental result of triple classification
本文提出了一種融合多源信息的MCKRL 模型,首先基于TransE建立了編碼器,將結(jié)構(gòu)化的三元組信息、實(shí)體的描述信息、實(shí)體的層次類(lèi)型信息和圖的拓?fù)浣Y(jié)構(gòu)信息融合到一起。然后使用ConvKB模型作為解碼器來(lái)計(jì)算不同維度間的全局信息,同時(shí)保留模型的翻譯特性。在兩個(gè)經(jīng)典數(shù)據(jù)集FB15K和FB15K237上分別進(jìn)行了鏈接預(yù)測(cè)和三元組分類(lèi)實(shí)驗(yàn),結(jié)果表明,本文方法在這兩類(lèi)任務(wù)的表現(xiàn)比其他的基線(xiàn)模型要好,從而證明了實(shí)體描述信息、實(shí)體層次類(lèi)型信息和圖結(jié)構(gòu)信息是對(duì)知識(shí)圖譜原始三元組結(jié)構(gòu)信息的有力補(bǔ)充,本文的組合模型能明顯提高知識(shí)表示學(xué)習(xí)的效果。后續(xù)工作的重點(diǎn)是:(1)改進(jìn)信息編碼和融合的方式,以更充分獲取附加信息中的內(nèi)容,同時(shí)降低模型復(fù)雜程度;(2)考慮更多的多源異質(zhì),如邏輯規(guī)則、關(guān)系路徑等,進(jìn)一步提高模型的效果;(3)深入探索各因素的具體影響,進(jìn)一步提升模型性能。