徐紅霞
(中國(guó)人民大學(xué)信息資源管理學(xué)院 北京 100080)
基于知識(shí)圖譜的智能問答(Knowledge Graph Question Answering, KGQA)能接受人們提出的自然語言問題,在圖譜中查找相應(yīng)答案,并返回給用戶。KGQA包括三個(gè)算法模塊,分別是實(shí)體識(shí)別、實(shí)體鏈接和關(guān)系鏈接。其中關(guān)系鏈接負(fù)責(zé)確定問題指向的知識(shí)圖譜關(guān)系,是決定KGQA問答效果的關(guān)鍵模塊。然而傳統(tǒng)的深度學(xué)習(xí)關(guān)系鏈接模型一方面要求大規(guī)模的標(biāo)注數(shù)據(jù),需耗費(fèi)大量的人力與物力;另一方面在用戶的信息需求與知識(shí)圖譜時(shí)常更新的現(xiàn)實(shí)情境中,提問與關(guān)系類型會(huì)常常增加,產(chǎn)生關(guān)系類型和提問頻繁更新與模型無法頻繁更新的矛盾,導(dǎo)致模型在這類情境下便不太適用。此外,關(guān)系鏈接中問題與關(guān)系字?jǐn)?shù)相差懸殊也導(dǎo)致關(guān)系鏈接難度較大。
為解決上述問題,本研究通過優(yōu)化關(guān)系的初始表示與語義表示之間的映射優(yōu)化未見關(guān)系表示;通過遷移學(xué)習(xí)框架記住歷史學(xué)習(xí)的通用知識(shí)與共性特征,緩解遺忘問題;通過在稠密向量中融入先進(jìn)準(zhǔn)確的抽象意義表示(Abstract Meaning Representation, AMR),并加入實(shí)體特征與問題變換捕捉細(xì)粒度特征,優(yōu)化辨別性語義部分表示;實(shí)現(xiàn)任務(wù)共性特征學(xué)習(xí)和辨別性特征學(xué)習(xí)、關(guān)系語義和問句語義精準(zhǔn)表示的雙管齊下,一定程度上實(shí)現(xiàn)未見關(guān)系的鏈接。
關(guān)系鏈接,又稱為關(guān)系檢測(cè)[1],在知識(shí)圖譜問答中,它負(fù)責(zé)確定問題指向的知識(shí)圖譜三元組關(guān)系。該任務(wù)與信息抽取中的關(guān)系抽取任務(wù)較為相似,卻也有不同。關(guān)系鏈接旨在預(yù)測(cè)問題中主題實(shí)體的關(guān)系;關(guān)系抽取則是從文本段落中抽取左實(shí)體與右實(shí)體之間的關(guān)系。其相同點(diǎn)在于它們均從文本中抽取蘊(yùn)含的關(guān)系。其不同之處主要包括兩方面,其一,關(guān)系鏈接面向的實(shí)體通常僅有一個(gè),關(guān)系抽取的對(duì)象則是兩個(gè)實(shí)體之間的關(guān)系;其二,關(guān)系鏈接面向的文本為較為短小的問句,關(guān)系抽取面向的文本則為較長(zhǎng)的段落文本,含有豐富的上下文信息。
根據(jù)現(xiàn)有研究的梳理,關(guān)系鏈接的方法能夠分為兩種:基于語義解析的方法與基于信息檢索的方法?;谡Z義解析的方法是通過語義解析器將問題映射為語義邏輯形式[2],其基本思想是構(gòu)造具有自然語言邏輯共性的語義圖。基于語義解析的方法由于能夠清晰地表示實(shí)體在句子中的結(jié)構(gòu),因此能夠得到問題的深度表示[3],常見的語義解析方法有句法依存、AMR等。但語義解析方法的表示需要大量的語言語法知識(shí),往往比較復(fù)雜,在進(jìn)行標(biāo)注時(shí)需要耗費(fèi)大量專業(yè)的人力與物力資源,在訓(xùn)練時(shí)需要大量的復(fù)雜標(biāo)注數(shù)據(jù)。而關(guān)系鏈接任務(wù)面向的關(guān)系字?jǐn)?shù)較少,因此對(duì)問句的語義解析結(jié)果與知識(shí)圖譜中的關(guān)系進(jìn)行匹配將會(huì)放大語義解析帶來的誤差,導(dǎo)致關(guān)系鏈接效果差。綜上,該方法應(yīng)用到標(biāo)注數(shù)據(jù)受限和獲取代價(jià)昂貴的新領(lǐng)域時(shí)效果受限[4]。
基于信息檢索的方法主要根據(jù)問題相關(guān)信息從知識(shí)圖譜中檢索得到候選答案[5],而后使用排序技術(shù)從候選中選擇正確答案。根據(jù)語義學(xué)習(xí)方式的不同,基于信息檢索的方法可以分為兩種類別:特征工程策略與表示學(xué)習(xí)方法,特征工程策略屬于人為工程,而表示學(xué)習(xí)是模型自主學(xué)習(xí)。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,表示學(xué)習(xí)方法獲得大量關(guān)注,也被引入到關(guān)系鏈接任務(wù)中[6]?;诒硎緦W(xué)習(xí)的關(guān)系鏈接通過在低維向量空間中編碼問題與答案[7],得到二者的稠密向量表示,之后計(jì)算問題與答案向量表示的相似度分?jǐn)?shù),擁有最高分?jǐn)?shù)的候選答案作為最終答案。在低維向量空間中將問題與答案編碼為稠密向量表示的過程,也被成為嵌入(Embedding)表示學(xué)習(xí)過程。神經(jīng)網(wǎng)絡(luò)方法在基于表示學(xué)習(xí)的關(guān)系鏈接中得到了廣泛的研究,代表性的神經(jīng)網(wǎng)絡(luò)模型有記憶網(wǎng)絡(luò)[8]、字符級(jí)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[9]、融入attention的卷積神經(jīng)網(wǎng)絡(luò)[10]等。Yu等于2017年[1]將殘差連接的設(shè)計(jì)融入深度循環(huán)網(wǎng)絡(luò)中,提出HR-Bilstm關(guān)系鏈接模型,該模型取得了當(dāng)時(shí)最先進(jìn)的關(guān)系鏈接效果,刷新了關(guān)系鏈接的SOTA(State-of-the-Art)結(jié)果。除了基于神經(jīng)網(wǎng)絡(luò)嵌入表示學(xué)習(xí)的關(guān)系鏈接方法外,Wang等[11]提出了知識(shí)圖譜向量化關(guān)系表示學(xué)習(xí)方法,采用TransE方法進(jìn)行關(guān)系表示。
研究證明基于信息檢索的方法相比基于語義解析的方法較優(yōu)[12]?,F(xiàn)有基于信息檢索的方法大多基于監(jiān)督深度學(xué)習(xí)算法,一方面,模型訓(xùn)練需要大量的高質(zhì)量標(biāo)注數(shù)據(jù),另一方面,當(dāng)領(lǐng)域的知識(shí)圖譜越來越龐大或進(jìn)行更新與更換時(shí),模型會(huì)遇到長(zhǎng)尾問題,即在現(xiàn)實(shí)問答場(chǎng)景中會(huì)遇到大量訓(xùn)練中未見的關(guān)系類別,這導(dǎo)致模型不太適用于快速更新的場(chǎng)景。為減少昂貴的人力與物力標(biāo)注成本,解決長(zhǎng)尾問題,本文構(gòu)建了未見關(guān)系鏈接任務(wù),其中“未見”表示測(cè)試集中的關(guān)系類型從未出現(xiàn)在訓(xùn)練集中。針對(duì)該任務(wù),本文重點(diǎn)關(guān)注如何提高未見關(guān)系鏈接的精準(zhǔn)性和泛化性。一方面,人類具備跨領(lǐng)域的關(guān)系鏈接泛化能力。人類通過學(xué)習(xí)大量通用知識(shí),同時(shí)捕捉辨別性部分進(jìn)行未見關(guān)系的準(zhǔn)確識(shí)別。另一方面,在深度學(xué)習(xí)的實(shí)際應(yīng)用中,通常會(huì)匯聚多個(gè)數(shù)據(jù)集增強(qiáng)泛化能力,但由于多個(gè)數(shù)據(jù)集并非獨(dú)立同分布,因此模型簡(jiǎn)單地跨數(shù)據(jù)集效果較差。遷移學(xué)習(xí)則放寬了傳統(tǒng)深度學(xué)習(xí)中數(shù)據(jù)集必須服從獨(dú)立同分布的因素,它旨在挖掘領(lǐng)域不變的本質(zhì)特征和結(jié)構(gòu),同時(shí)度量數(shù)據(jù)之間的細(xì)粒度差異部分,有效地綜合利用兩個(gè)數(shù)據(jù)集,使得數(shù)據(jù)可以在領(lǐng)域間實(shí)現(xiàn)遷移和復(fù)用[13]?;谝陨蟽蓚€(gè)方面的分析,本文旨在探討通用知識(shí)學(xué)習(xí)與細(xì)粒度辨別性部分的捕捉這兩種優(yōu)化思路,并對(duì)其進(jìn)行深入研究。
在通用知識(shí)的學(xué)習(xí)方面,Bert等大規(guī)模預(yù)訓(xùn)練語言模型包含了大量的通用知識(shí),被廣泛應(yīng)用于各項(xiàng)自然語言處理任務(wù)中[14]。Bert是在掩碼語言模型任務(wù)和句子對(duì)分類任務(wù)上訓(xùn)練得到的深度transformers網(wǎng)絡(luò),通過無監(jiān)督學(xué)習(xí)在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練,得到通用知識(shí)模型。掩碼語言模型任務(wù)是通過在大規(guī)模數(shù)據(jù)上隨機(jī)隱藏詞匯進(jìn)行無監(jiān)督訓(xùn)練,模型將詞匯隨機(jī)替換為[MASK]字符,旨在特定的上下文中還原被遮蓋的字符,從而得到上下文相關(guān)的動(dòng)態(tài)分布式表示模型。句子對(duì)分類預(yù)訓(xùn)練任務(wù)輸入句子對(duì),旨在判斷兩個(gè)句子是否有銜接關(guān)系。微調(diào)是自然語言處理中的有效泛化機(jī)制。在具體任務(wù)中,Bert利用標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)獲得特定模型。
通過預(yù)訓(xùn)練,Bert模型學(xué)習(xí)到了豐富的通用知識(shí)。通過微調(diào),Bert模型能夠融合通用知識(shí)與領(lǐng)域知識(shí),獲得較好的特定任務(wù)模型。然而,微調(diào)是在小規(guī)模任務(wù)數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)方式,預(yù)訓(xùn)練則是大規(guī)模語料上的無監(jiān)督學(xué)習(xí)方式,這是兩種截然不同的學(xué)習(xí)方式,導(dǎo)致微調(diào)時(shí)會(huì)造成災(zāi)難性遺忘問題[15],而出現(xiàn)對(duì)任務(wù)數(shù)據(jù)集的過度擬合的現(xiàn)象。在這種情形下,模型會(huì)遺忘大量學(xué)習(xí)到的歷史知識(shí),當(dāng)任務(wù)數(shù)據(jù)集較少時(shí),模型可能只能對(duì)訓(xùn)練數(shù)據(jù)提供準(zhǔn)確預(yù)測(cè),而對(duì)新數(shù)據(jù)的預(yù)測(cè)能力低下。此外,現(xiàn)實(shí)情況通常會(huì)匯集多個(gè)來源數(shù)據(jù)進(jìn)行微調(diào)。而在深度學(xué)習(xí)模型中,會(huì)假定訓(xùn)練集和測(cè)試集來自同一分布,現(xiàn)有的研究也多用同一分布下的數(shù)據(jù)測(cè)試研究的有效性。由于現(xiàn)實(shí)情況多不符合假定條件,因此模型在遇到分布外的數(shù)據(jù)時(shí),效果會(huì)大幅下降。在未見關(guān)系鏈接任務(wù)中,以上三個(gè)問題導(dǎo)致基于Bert的微調(diào)模型對(duì)未見關(guān)系預(yù)測(cè)能力較差,模型泛化能力較低。為緩解基于Bert的關(guān)系鏈接模型對(duì)先前知識(shí)的災(zāi)難性遺忘和對(duì)領(lǐng)域數(shù)據(jù)的過擬合問題,提高模型泛化能力,本文引入了Adapter-Bert框架,該框架引入多個(gè)adapter層,在微調(diào)時(shí),將預(yù)訓(xùn)練層進(jìn)行固定,只更新adapter層,能夠更大程度保留歷史知識(shí)。
在細(xì)粒度辨別性部分的捕捉方面,本文引入AMR形式化語義表示、實(shí)體與問題變換細(xì)粒度特征。AMR是不同于深度學(xué)習(xí)的分布式表示的形式化語義表示方法,與它類似的表示方法還有句子依存關(guān)系樹,相對(duì)于句子依存關(guān)系樹,AMR的語義表示結(jié)構(gòu)更為完整。AMR具備較完整準(zhǔn)確地表示文本語義的能力,可以作為文本辨別性語義部分的一個(gè)重要維度。實(shí)體特征包括實(shí)體文本與實(shí)體位置兩部分。實(shí)體文本是問題中的主要關(guān)注對(duì)象,KGQA需要根據(jù)實(shí)體文本在圖譜中進(jìn)行查找,獲取關(guān)系類別。實(shí)體位置對(duì)問句中的關(guān)系語義也有重要的影響,不同的實(shí)體位置可能會(huì)導(dǎo)致不同的關(guān)系類型,例如“患有糖尿病的高血壓病人應(yīng)該吃什么藥”與“患有高血壓的糖尿病人應(yīng)該吃什么藥”,雖然是同樣的實(shí)體名,但不同的位置導(dǎo)致第一句主題實(shí)體為高血壓病人,第二句話主題實(shí)體為糖尿病人。因此,實(shí)體的文本特征與位置特征均對(duì)問句關(guān)系語義產(chǎn)生重要影響。
本文基于Adapter-Bert框架提出了未見關(guān)系鏈接模型。該模型的總體結(jié)構(gòu)如圖1所示。模型通過將實(shí)體候選關(guān)系與問句進(jìn)行語義匹配,獲得是否匹配成功的分類標(biāo)簽。匹配成功的分類標(biāo)簽即為正確鏈接的關(guān)系。模型輸入包括四個(gè)部分,分別是問句抽象意義表示、實(shí)體指稱項(xiàng)、問題、關(guān)系,輸入首字符為CLS特殊字符,四個(gè)部分之間通過SEP特殊字符分隔。模型通過大規(guī)模預(yù)訓(xùn)練語言模型初始化輸入,從而將通用知識(shí)融入模型中。模型選用Adapter-Bert框架,減輕了災(zāi)難性遺忘問題,同時(shí)保證了本任務(wù)的學(xué)習(xí)能力。模型輸出字符的語義表示,取CLS特殊字符的表示,經(jīng)過線性變換層與softmax輸出層得到是否匹配的概率分布,最終得到分類標(biāo)簽。以下分別針對(duì)框架的選擇、實(shí)體特征、問題變換、抽象意義表示特征進(jìn)行說明。
圖1 模型架構(gòu)
2.2.1 框架的選擇
基于2.1部分的分析,可見基于Bert的微調(diào)存在任務(wù)數(shù)據(jù)過擬合、歷史知識(shí)遺忘、模型泛化性差的問題,基于此,谷歌團(tuán)隊(duì)Neil Houlsby等人于2019年提出Adapter-Bert[16]遷移學(xué)習(xí)模型。該模型在對(duì)Bert中的Transformer層進(jìn)行了改進(jìn)。Adapter-Bert模型將adapter層插入 Transformer模塊中,在Bert的原有atttention層和Feed-forward層之外,加入了兩層Adapter層,用于兩個(gè)子層的輸出映射,adapter 將隱層向量從d維映射為m維,而后重新映射為d維。該框架的優(yōu)勢(shì)在于只有少量參數(shù)被修改,微調(diào)得到的模型參數(shù)與原預(yù)訓(xùn)練語言模型的參數(shù)很相似,避免了下游任務(wù)微調(diào)過程中的過擬合和泛化性差的問題,固定原 BERT 的參數(shù)還極大地緩解了遺忘問題。因此,基于Adapter-Bert的微調(diào)在低資源和跨域場(chǎng)景中比基于Bert的微調(diào)有更好的效果。此外,該框架在微調(diào)中梯度不會(huì)下降太大,不會(huì)出現(xiàn)梯度消失問題,降低了訓(xùn)練中的優(yōu)化難度,因此效果也更加穩(wěn)定[17]。
2.2.2 細(xì)粒度特征
a.實(shí)體特征。實(shí)體文本與實(shí)體位置特征有助于模型對(duì)問題細(xì)粒度辨別性部分的捕捉。其一,主題實(shí)體在問題中位置不同,句子語義依存關(guān)系也不同,因此無論是實(shí)體還是其上下文,語義表示都會(huì)有變化,即問題的語義表示會(huì)發(fā)生變化,所以對(duì)實(shí)體進(jìn)行位置特征編碼是必要的。其二,實(shí)體的文本特征也對(duì)問句語義有重要影響,例如“糖尿病怎么治”與“熊孩子怎么治”,這兩個(gè)問句雖然都是怎么治,但糖尿病與熊孩子是兩個(gè)完全不同的實(shí)體語義,這導(dǎo)致了問句中的“怎么治”呈現(xiàn)不同的語義。其三,問句中可能不僅包含一個(gè)實(shí)體,實(shí)體位置能對(duì)不同位置的實(shí)體進(jìn)行有效區(qū)分,以便關(guān)系鏈接的召回階段,即實(shí)體的關(guān)系查詢階段,能夠召回特定實(shí)體對(duì)應(yīng)的關(guān)系類型?;谝陨显?本文將問句中的實(shí)體文本與位置作為模型的重要特征。
b. 問題變換。本研究將問題中的實(shí)體使用特殊字符表示進(jìn)行問題變換,旨在增強(qiáng)泛化性與語義準(zhǔn)確性。問題變換方法受到了基于問句模版匹配的關(guān)系鏈接方法的啟發(fā)。問句模版匹配是關(guān)系鏈接任務(wù)的一個(gè)傳統(tǒng)研究方法,該方法通過人工構(gòu)造每一種關(guān)系的若干模版,將用戶問句進(jìn)行轉(zhuǎn)換,并與模版進(jìn)行字面匹配。本研究的問題變換思路正是借鑒了這一方法,將實(shí)體用特殊字符表示,問句從而轉(zhuǎn)換為問句模版,進(jìn)而模型能夠?qū)W習(xí)到去除實(shí)體文本后的問句共性特征。同時(shí),這一處理方法由于將實(shí)體相應(yīng)位置進(jìn)行統(tǒng)一替換,能夠幫助模型進(jìn)行實(shí)體位置捕捉。綜上,該方法在學(xué)習(xí)問句共性特征的同時(shí),能夠捕捉到實(shí)體位置細(xì)粒度特征,提升模型泛化性和對(duì)細(xì)粒度辨別性特征的學(xué)習(xí)能力。
c.抽象意義表示特征。在日常生活中,我們常常會(huì)見到存在歧義的自然語言,一個(gè)語義可以用多種詞或句進(jìn)行描述,同樣的詞或句在不同的語境下也會(huì)呈現(xiàn)出不同的語義。準(zhǔn)確的語義表示是自然語言處理模型的基礎(chǔ)與關(guān)鍵。語義表示技術(shù)一直有兩種流派,分別是基于語言學(xué)語義分析的形式化符號(hào)表示方法與基于統(tǒng)計(jì)的分布式表示方法。形式化表示方法通過詞與詞之間關(guān)系進(jìn)行表示,如句法分析、抽象意義表示等,分布式表示方法則通過稠密向量進(jìn)行表示。
隨著深度學(xué)習(xí)的不斷發(fā)展,分布式語義表示方法近年來被研究人員與業(yè)界所青睞,同時(shí)形式化符號(hào)表示方法近年來也在繼詞法分析、句法分析后有所突破。AMR在依存句法樹的基礎(chǔ)上突破了樹結(jié)構(gòu),采用了表示力更強(qiáng)的圖結(jié)構(gòu),其以句法語義為基礎(chǔ),兼顧詞匯語義,允許增刪詞語,表示能力強(qiáng)[18]。李斌等[18]于2017年針對(duì)漢語特有的語法特點(diǎn)完善標(biāo)注體系,構(gòu)建了中文AMR,該團(tuán)隊(duì)于2021年又發(fā)布了中文AMR2.0版本的大規(guī)模數(shù)據(jù)集[19],該大規(guī)模數(shù)據(jù)集的發(fā)布大大提高了AMR表示模型的準(zhǔn)確度和可用性。本文也采用了基于該大規(guī)模數(shù)據(jù)集的AMR模型生成問句AMR表示。
綜上,兩種語義表示方法各有優(yōu)勢(shì),形式化表示方法更加接近人類理解語言的方式,能夠進(jìn)行準(zhǔn)確的模仿學(xué)習(xí)。分布式表示方法則全然基于統(tǒng)計(jì)學(xué)方法,通過大量數(shù)據(jù)得到規(guī)律與特征,能夠進(jìn)行準(zhǔn)確的自學(xué)習(xí)。本研究將兩種語義表示方式進(jìn)行融合,在分布式表示中融入抽象意義表示這一形式化表示方法,提高模型對(duì)問句結(jié)構(gòu)與形式的捕捉能力。
抽象意義表示的基本結(jié)構(gòu)是單根有向無環(huán)圖,它將實(shí)體抽象為概念作為圖中的“節(jié)點(diǎn)”,將沒有實(shí)在意義的虛詞抽象為“邊”。單根的目的是保證句子語義和句法的整體性。有向邊是為了保證語義和句法的傳遞,無環(huán)是為了避免語義和句法傳遞陷入死循環(huán)。如圖2所示,圖中為“余華寫的許三觀賣血記講述了一個(gè)什么故事”這一問句的AMR圖,該表示將問句的語義呈現(xiàn)地十分清楚,例如主題實(shí)體(許三觀賣血記)與問句重要語義(講述)的關(guān)系、問句中詢問的對(duì)象(amr-unknown)與其他部分之間的關(guān)系、其他實(shí)體(余華)與主題實(shí)體(許三觀賣血記)之間的關(guān)系等。綜上,有理由假定將抽象意義表示融入模型將提高模型對(duì)主題實(shí)體、其他實(shí)體、動(dòng)作關(guān)系及其他關(guān)聯(lián)關(guān)系等細(xì)粒度辨別性特征的捕捉能力,從而提升未見關(guān)系鏈接效果。
圖2 抽象意義表示示例
為驗(yàn)證本研究所提方法在泛化上的優(yōu)越性,本文收集了多源數(shù)據(jù),包括NLPCC(Natural Language Processing and Chinese Computing)會(huì)議與CCKS(China Conference on Knowledge Graph and Semantic Computing)會(huì)議的知識(shí)圖譜問答數(shù)據(jù),訓(xùn)練集與測(cè)試集按照7:3進(jìn)行劃分,同時(shí)保證測(cè)試集中的關(guān)系均為訓(xùn)練集中所沒有見過的關(guān)系類型,問句的AMR形式化語義表示通過Hanlp開源自然語言處理庫生成,該三方庫的AMR模型的數(shù)據(jù)采用了上述提到的AMR2.0大規(guī)模數(shù)據(jù)集。最終構(gòu)建未見關(guān)系鏈接數(shù)據(jù)130 300條。基于構(gòu)建的未見關(guān)系鏈接數(shù)據(jù)集,本文的實(shí)驗(yàn)?zāi)康娜缦?
a.對(duì)比Bert基線模型驗(yàn)證模型在未見關(guān)系鏈接任務(wù)上的效果。
b.對(duì)比在分布式表示中融入抽象意義形式化表示對(duì)未見關(guān)系鏈接任務(wù)的影響
c.對(duì)比引入實(shí)體特征與問題變換對(duì)未見關(guān)系鏈接任務(wù)的影響
d.對(duì)比兩種語義表示方法的融合與實(shí)體特征和問題變換的加入對(duì)未見關(guān)系鏈接任務(wù)的共同影響。
基于上述實(shí)驗(yàn)?zāi)康?本文共設(shè)計(jì)了4組分離與對(duì)照實(shí)驗(yàn),具體設(shè)計(jì)如下。
實(shí)驗(yàn)一:對(duì)比分析Bert基線模型(基于預(yù)訓(xùn)練Bert進(jìn)行微調(diào))與Adapter-Bert基線模型(基于預(yù)訓(xùn)練Adapter-Bert進(jìn)行微調(diào))的實(shí)驗(yàn)效果。
實(shí)驗(yàn)二:對(duì)比模型分布式表示(Bert和Adapter-Bert)與在分布式表示中融入抽象意義形式化表示(Bert+AMR和Adapter-Bert+AMR)的實(shí)驗(yàn)效果。
實(shí)驗(yàn)三:對(duì)比分析實(shí)體特征與問題變換分別加入Bert模型(Bert+ENT)、Adapter-Bert模型(Adapter-Bert+ENT)的實(shí)驗(yàn)效果。
實(shí)驗(yàn)四:對(duì)比分析實(shí)體特征與問題變換分別加入Bert模型、Adapter-Bert模型,并在各自模型的分布式表示中融入問句抽象意義形式化表示后的實(shí)驗(yàn)(Bert+AMR+ENT與Adapter-Bert+AMR+ENT)效果。
以上4組8個(gè)實(shí)驗(yàn)?zāi)軌蜻M(jìn)行Bert與Adapter-Bert效果比較、在分布式表示中融入抽象意義形式化表示與否效果比較、實(shí)體特征與問題變換加入與否效果比較以及兩種語義表示方法的融合與實(shí)體特征和問題變換的加入二者是否有協(xié)同作用效果比較,能夠達(dá)到上述4個(gè)實(shí)驗(yàn)?zāi)康摹?/p>
本文所采用的參數(shù)設(shè)置如下表1所示。由于本研究為分類任務(wù),因此實(shí)驗(yàn)采用準(zhǔn)確率指標(biāo)進(jìn)行評(píng)價(jià)。指標(biāo)計(jì)算方法如式1所示,其中,TP表示正確預(yù)測(cè)的數(shù)量,FP表示錯(cuò)誤預(yù)測(cè)的數(shù)量。
表1 模型參數(shù)
(1)
在未見關(guān)系鏈接數(shù)據(jù)集上,8個(gè)對(duì)照與分離實(shí)驗(yàn)結(jié)果如表2所示,可以看出:
表2 模型在未見關(guān)系鏈接數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
a.Adapter-Bert基線準(zhǔn)確率為97.35%,比Bert基線模型準(zhǔn)確率高20.4%,因此本文選取的框架在未見關(guān)系鏈接任務(wù)中相比目前常用的Bert框架具備優(yōu)越性,能夠緩解bert模型存在的災(zāi)難性遺忘與過擬合問題。
b.Adapter-Bert+AMR相比Adapter-Bert提高了0.17%,由于基礎(chǔ)準(zhǔn)確率已達(dá)97%以上,因此本文加入的語義解析特征能夠?yàn)槟P吞砑佣嗑S度語義信息。
c.Adapter-bert+ENT相比Adapter-Bert提高了0.29%,由于實(shí)體特征與問題變換強(qiáng)調(diào)了關(guān)系中涉及的實(shí)體語義和問題信息,因此同AMR特征,該特征能夠更準(zhǔn)確地識(shí)別問句所指向的關(guān)系。
d.Adapter-Bert+AMR+ENT相比Adapter-Bert提高了1.45%,該值相比上述單獨(dú)特征加入的提升效果(0.17%、0.29%)之和有顯著升高,這說明兩個(gè)特征在未見關(guān)系鏈接模型中能夠達(dá)到1+1大于2的效果。
e.從特征分別加入Bert和Adapter-Bert模型的效果來看,Bert模型分離實(shí)驗(yàn),即Bert+AMR、Bert+ENT、Bert+AMR+ENT與Bert這一組對(duì)比實(shí)驗(yàn),說明了AMR語義表示、實(shí)體特征與問題變換在Bert模型中未產(chǎn)生作用。這是由于基于Bert的微調(diào)模型產(chǎn)生了災(zāi)難性遺忘、對(duì)任務(wù)數(shù)據(jù)集的過擬合、分布外數(shù)據(jù)效果大幅下降等問題,導(dǎo)致模型學(xué)習(xí)能力較弱。在本研究構(gòu)建的未見關(guān)系鏈接數(shù)據(jù)集中,測(cè)試數(shù)據(jù)中的關(guān)系類別在訓(xùn)練數(shù)據(jù)中未曾出現(xiàn),由于遺忘與過擬合問題,基于Bert的模型對(duì)未見類別的語義表示能力較弱,本研究所提出的基于Adapter-Bert的模型在未見類別表示上具有顯著優(yōu)勢(shì)。在Adapter-Bert模型分離實(shí)驗(yàn)中,即Adapter-Bert+AMR、Adapter-Bert+ENT、Adapter-Bert+AMR+ENT與Adapter-Bert這一組對(duì)比實(shí)驗(yàn),證明了本研究提出特征的有效性,且Adapter-Bert+AMR+ENT模型的效果說明了細(xì)粒度辨別性特征之間還具有協(xié)同促進(jìn)作用。
f.實(shí)驗(yàn)結(jié)果表明分布式表示與AMR形式化表示的融合所帶來的提升相對(duì)整體準(zhǔn)確率較小,這可能是由于二者的融合方式需進(jìn)行進(jìn)一步探索與優(yōu)化。但由于這方面的研究較少,還沒有找到更好的融合方式。但本文提出對(duì)二者的融合探索是價(jià)值的,一方面形式化表示含有問句中各個(gè)成分的類別及其之間的關(guān)系,能夠?yàn)閱柧涮峁┹^強(qiáng)的辨別性信息;另一方面分布式表示在語義表示方面有很強(qiáng)的優(yōu)勢(shì),能夠?qū)φZ義相似的對(duì)象進(jìn)行準(zhǔn)確計(jì)算。因此兩種表示各有千秋,對(duì)二者融合的探索有較大的價(jià)值,能對(duì)未來研究產(chǎn)生積極推進(jìn)作用。
綜上,本文提出的模型在未見關(guān)系鏈接任務(wù)最終準(zhǔn)確率達(dá)到98.80%,能夠較好地滿足現(xiàn)實(shí)場(chǎng)景應(yīng)用需求。
Bert模型在任務(wù)中的微調(diào)存在災(zāi)難性遺忘、過擬合、分布外數(shù)據(jù)效果斷崖式下降等問題。在知識(shí)圖譜問答中,知識(shí)圖譜常常更新或更換,會(huì)出現(xiàn)大量未見關(guān)系類別?;谶@兩點(diǎn), Bert關(guān)系鏈接模型無法滿足問答需求,且時(shí)常進(jìn)行未見關(guān)系的數(shù)據(jù)標(biāo)注與模型更新也需要大量的人力與物力。為解決這一問題,提高關(guān)系鏈接模型的泛化性,本文提出了基于遷移學(xué)習(xí)和細(xì)粒度語義特征的未見關(guān)系鏈接模型,該模型能夠利用遷移學(xué)習(xí)框架adapter-bert緩解模型的通用知識(shí)遺忘問題,降低模型對(duì)于任務(wù)數(shù)據(jù)集的過擬合程度,增加模型訓(xùn)練的穩(wěn)定性,提高模型的泛化能力。細(xì)粒度特征的加入使得模型在提高泛化性的基礎(chǔ)上,增強(qiáng)其對(duì)辨別性部分的捕捉能力,更好地表示問句間的細(xì)微差異,提高模型的語義匹配準(zhǔn)確性。本研究探索了形式化語義表示與分布式語義表示的融合方式,在深度學(xué)習(xí)模型的低維稠密嵌入表示基礎(chǔ)上,融入先進(jìn)的AMR。通過融合兩種不同形式的語義表示,模型能夠?qū)W習(xí)到多維精準(zhǔn)的問句與關(guān)系語義表示。此外,本研究受到傳統(tǒng)基于模版匹配的關(guān)系鏈接方法的思路啟發(fā),將問題通過實(shí)體替換轉(zhuǎn)換為模版形式。由于不同的實(shí)體指稱名會(huì)導(dǎo)致不同的問題語義,不同的實(shí)體位置也會(huì)導(dǎo)致全然不同的語義,因此本研究融入了實(shí)體內(nèi)容與位置特征。
為驗(yàn)證上述方法的有效性,本研究構(gòu)造了中文未見關(guān)系鏈接數(shù)據(jù)集,并驗(yàn)證了模型效果。研究結(jié)果發(fā)現(xiàn),在未見關(guān)系鏈接中:a. Adapter-Bert基線模型較Bert基線模型有大幅提升;b.基于Bert的未見關(guān)系鏈接模型存在著災(zāi)難性遺忘與任務(wù)數(shù)據(jù)集過擬合問題;c.在Adapter-Bert中,單獨(dú)的細(xì)粒度辨別性特征能夠提升模型效果,多個(gè)細(xì)粒度特征能夠有協(xié)同效果提升。本文所構(gòu)建模型較Bert基線模型提高了24%,能夠應(yīng)對(duì)知識(shí)圖譜常常更新的現(xiàn)實(shí)需求,具有較好的應(yīng)用前景。未來的研究一方面能在更多領(lǐng)域、更大規(guī)模數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),檢驗(yàn)本研究提出模型的有效性;另一方面,隨著領(lǐng)域的不斷發(fā)展,對(duì)形式化表示與分布式表示的融合能在未來進(jìn)行更深入的研究。前述相關(guān)研究中有研究通過TransE進(jìn)行關(guān)系表示,抽象意義形式化表示與知識(shí)圖譜表示同屬于圖表示,因此未來可以探索諸如圖表示學(xué)習(xí)方法等其他形式化表示與分布式表示的融合方式,進(jìn)一步提高模型的精度。