亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于預(yù)訓(xùn)練語(yǔ)言模型的中文知識(shí)圖譜問(wèn)答系統(tǒng)

        2021-01-09 13:27:10王鑫雷李帥馳楊志豪林鴻飛王健
        關(guān)鍵詞:圖譜實(shí)體語(yǔ)義

        王鑫雷,李帥馳,楊志豪,林鴻飛,王健

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        0 引言

        問(wèn)答系統(tǒng)是自然語(yǔ)言處理(NLP)領(lǐng)域中的一個(gè)研究熱點(diǎn),并且具有非常廣泛的發(fā)展前景[1]。根據(jù)答案來(lái)源的不同,可以分為基于常問(wèn)問(wèn)題(Frequently Asked Questions,FAQ)的問(wèn)答系統(tǒng)[2]、基于社區(qū)問(wèn)答對(duì)的問(wèn)答系統(tǒng)(Community Question Answering,CQA)[3]、基于知識(shí)圖譜的問(wèn)答系統(tǒng)(Knowledge Based Question Answering, KBQA)。其中基于知識(shí)圖譜的問(wèn)答系統(tǒng)以知識(shí)圖譜為數(shù)據(jù)源。知識(shí)圖譜可以看作是知識(shí)的結(jié)構(gòu)化表示,由三元組(主語(yǔ), 謂詞, 賓語(yǔ))構(gòu)成,表示實(shí)體和實(shí)體間存在的語(yǔ)義關(guān)系。知名的英文知識(shí)圖譜有Freebase[4]、YAGO[5]、DBpedia[6]等,中文知識(shí)圖譜有百度知識(shí)圖譜、搜狗知立方、北大的PKUBase等。而基于知識(shí)圖譜問(wèn)答的主要任務(wù)是給定自然語(yǔ)言問(wèn)題,識(shí)別問(wèn)題中的實(shí)體、語(yǔ)義關(guān)系,到知識(shí)圖譜中檢索并返回答案[7]。目前基于知識(shí)圖譜的問(wèn)答研究方法主要分為兩類(lèi)。

        第一類(lèi)是基于語(yǔ)義解析的方法。早期該類(lèi)方法使用字典、規(guī)則和機(jī)器學(xué)習(xí),直接從問(wèn)題中解析出實(shí)體、關(guān)系和邏輯組合。但此類(lèi)方法需要研究人員了解語(yǔ)言學(xué)相關(guān)知識(shí)還需要大量的標(biāo)注數(shù)據(jù),不易擴(kuò)展到大規(guī)模開(kāi)放領(lǐng)域的知識(shí)圖譜問(wèn)答任務(wù)中,泛化能力不強(qiáng)。隨著深度學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用,目前將各種神經(jīng)網(wǎng)絡(luò)模型與語(yǔ)義解析策略相結(jié)合成為語(yǔ)義解析方法的主流。Yih等人[8]引進(jìn)圖譜信息進(jìn)行語(yǔ)義解析,提出階段查詢(xún)圖生成方法,該思想也被廣泛應(yīng)用到其他語(yǔ)義解析生成過(guò)程中。還有基于編碼器-解碼器的語(yǔ)義解析方法,例如Wang等人[9]使用序列到序列模型將問(wèn)題翻譯成多個(gè)關(guān)系的序列。北大Hu等人[10]則提出利用狀態(tài)轉(zhuǎn)移的原子操作來(lái)提升問(wèn)題語(yǔ)義解析的結(jié)果?;谡Z(yǔ)義解析的方法通常使用分類(lèi)模型進(jìn)行關(guān)系的預(yù)測(cè),但由于知識(shí)圖譜中包含數(shù)十萬(wàn)種關(guān)系,訓(xùn)練集難以覆蓋如此龐大規(guī)模的關(guān)系,使得基于語(yǔ)義解析的方法在知識(shí)圖譜問(wèn)答上受到限制。

        而第二類(lèi)是基于信息檢索的方法,該類(lèi)方法首先根據(jù)問(wèn)題得到若干個(gè)候選實(shí)體,從知識(shí)圖譜中抽取與候選實(shí)體相連的關(guān)系作為候選查詢(xún)路徑,再使用文本匹配模型,選擇出與問(wèn)題相似度最高的候選查詢(xún)路徑,到知識(shí)圖譜中檢索答案。早期主要是基于特征工程的方法,Yao等人[11]首先分析問(wèn)題和抽取候選答案,然后生成問(wèn)題特征和候選答案特征組合排序,此方法需自定義構(gòu)建特征且對(duì)復(fù)雜問(wèn)題處理效果不好。近年,基于表示學(xué)習(xí)的方法不斷被提出且達(dá)到較好的性能。表示學(xué)習(xí)就是將問(wèn)題和知識(shí)圖譜中的候選實(shí)體映射到統(tǒng)一的語(yǔ)義空間進(jìn)行比較。例如Dong等人[12]就是利用多柱卷積網(wǎng)絡(luò)表示答案不同方面的語(yǔ)義信息。信息檢索的方法將復(fù)雜的語(yǔ)義解析問(wèn)題轉(zhuǎn)化為大規(guī)??蓪W(xué)習(xí)問(wèn)題。側(cè)重于計(jì)算問(wèn)題和候選關(guān)系的相似度,在關(guān)系選擇上具有更好的泛化能力。除此之外,現(xiàn)在也出現(xiàn)一些新方法,如復(fù)雜問(wèn)題分解、神經(jīng)計(jì)算與符號(hào)推理相結(jié)合、利用記憶網(wǎng)絡(luò)實(shí)現(xiàn)問(wèn)答等。

        雖然近年來(lái)有很多基于英文知識(shí)圖譜的問(wèn)答研究工作,但相應(yīng)方法在中文知識(shí)圖譜問(wèn)答任務(wù)(CKBQA)實(shí)現(xiàn)過(guò)程中效果并不理想,主要存在兩個(gè)挑戰(zhàn),一個(gè)是實(shí)體識(shí)別結(jié)果不準(zhǔn)確。由于中文本身沒(méi)有天然的分隔符,利用分詞工具得到的識(shí)別結(jié)果詞邊界不正確,或者實(shí)體中出現(xiàn)嵌套、縮寫(xiě)、別名等情況導(dǎo)致錯(cuò)誤的實(shí)體識(shí)別結(jié)果。此外,中文中同名實(shí)體過(guò)多也是實(shí)體識(shí)別效果不好的主要因素之一。目前中文的實(shí)體識(shí)別方法主要分為基于規(guī)則、基于特征的機(jī)器學(xué)習(xí)、基于神經(jīng)網(wǎng)絡(luò)的三種方法。相對(duì)來(lái)說(shuō),基于神經(jīng)網(wǎng)絡(luò)的方法在不需要大量人工構(gòu)建的規(guī)則或者特征模板情況下,保證實(shí)體識(shí)別結(jié)果準(zhǔn)確率的同時(shí)也有較好的泛化能力;CKBQA的另一個(gè)挑戰(zhàn)是中文豐富的語(yǔ)言表達(dá)形式使計(jì)算機(jī)很難準(zhǔn)確掌握問(wèn)題語(yǔ)義,在關(guān)系匹配子任務(wù)中此點(diǎn)尤為突出,中文相對(duì)英文有更多近義詞、同義詞,只有用充分的語(yǔ)料訓(xùn)練模型才有可能識(shí)別出近義詞之間細(xì)微的語(yǔ)義差異,但目前此類(lèi)中文語(yǔ)料并不多。

        2018年,谷歌公司提出預(yù)訓(xùn)練語(yǔ)言模型BERT(Bidirectional Encoder Representation from Transformers)[13]受到NLP領(lǐng)域廣泛關(guān)注,并在NLP各項(xiàng)任務(wù)上取得了令人矚目的成績(jī)。本質(zhì)上,語(yǔ)言模型就是求一個(gè)句子序列的聯(lián)合概率分布。在預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)之前,語(yǔ)言模型的參數(shù)都是隨機(jī)初始化的,是通過(guò)不斷迭代訓(xùn)練得到的。而預(yù)訓(xùn)練的思想就是不再隨機(jī)初始化模型參數(shù),通過(guò)大規(guī)模的先驗(yàn)知識(shí)來(lái)對(duì)模型進(jìn)行預(yù)訓(xùn)練得到固定的參數(shù),再針對(duì)不同的下游任務(wù)語(yǔ)料對(duì)模型參數(shù)進(jìn)行微調(diào)。目前基于預(yù)訓(xùn)練的思想也出現(xiàn)了很多BERT模型的變體。如:Facebook的RoBERTa[14]模型、百度的ERNIE(Enhanced Representation from Knowledge Integration)[15]模型、Yang等人提出的XLNet[16]模型等。其中,RoBERTa模型提出動(dòng)態(tài)掩碼機(jī)制和用更大的批大小來(lái)訓(xùn)練模型,ERNIE模型提出基于短語(yǔ)和實(shí)體的掩碼策略并引入了對(duì)話(huà)語(yǔ)言建模機(jī)制(DLM),XLNet模型則利用自回歸訓(xùn)練方式結(jié)合排列語(yǔ)言模型和雙流注意力機(jī)制,在學(xué)習(xí)上下文的同時(shí)緩解掩碼策略帶來(lái)的數(shù)據(jù)偏差。這些預(yù)訓(xùn)練模型在訓(xùn)練過(guò)程中依靠大規(guī)模的無(wú)標(biāo)注語(yǔ)料,能學(xué)習(xí)到豐富的詞級(jí)別信息,獲得更準(zhǔn)確常見(jiàn)的分詞實(shí)體識(shí)別結(jié)果,甚至可以學(xué)習(xí)到更深層的句子語(yǔ)法結(jié)構(gòu),語(yǔ)義級(jí)別的信息,有效提升了實(shí)體識(shí)別和關(guān)系匹配的結(jié)果。

        因此,本文結(jié)合預(yù)訓(xùn)練語(yǔ)言模型實(shí)現(xiàn)CKBQA任務(wù),并通過(guò)實(shí)驗(yàn)比較了不同預(yù)訓(xùn)練語(yǔ)言模型(BERT、RoBERTa、ERNIE、XLNet)及其與主流實(shí)體識(shí)別和關(guān)系匹配模型在中文知識(shí)圖譜問(wèn)答任務(wù)上的表現(xiàn)。同時(shí)提出一套流水線(xiàn)方法,在實(shí)體提及識(shí)別、實(shí)體鏈接、關(guān)系匹配子任務(wù)上提出新的框架,不僅能高效地實(shí)現(xiàn)問(wèn)答,而且可以應(yīng)用在其他中文知識(shí)圖譜上,保證方法的泛化性。并通過(guò)CCKS2019-CKBQA測(cè)試集上的實(shí)驗(yàn)結(jié)果驗(yàn)證方法的有效性,最后基于本文方法實(shí)現(xiàn)了問(wèn)答系統(tǒng)展示。

        1 模型及方法

        提出的方法(如圖1)包含以下五個(gè)模塊:問(wèn)題分類(lèi)、實(shí)體提及識(shí)別、實(shí)體鏈接、關(guān)系匹配、橋接與答案檢索。在問(wèn)題分類(lèi)、實(shí)體提及識(shí)別和關(guān)系匹配模塊中設(shè)計(jì)不同模型進(jìn)行比較。

        圖1 問(wèn)答系統(tǒng)結(jié)構(gòu)Fig.1 Structure of question answering system

        1.1 問(wèn)題分類(lèi)

        將問(wèn)題分為簡(jiǎn)單問(wèn)題和復(fù)雜問(wèn)題兩類(lèi),通過(guò)訓(xùn)練集提供的查詢(xún)語(yǔ)句對(duì)問(wèn)題進(jìn)行標(biāo)注。例如,一個(gè)問(wèn)題:“英國(guó)什么時(shí)候國(guó)慶?”,查詢(xún)語(yǔ)句為“select?x where {<英國(guó)-(大不列顛及北愛(ài)爾蘭聯(lián)合王國(guó))> <國(guó)慶日>?x.}”,將此類(lèi)只涉及單個(gè)三元組的問(wèn)題定義為簡(jiǎn)單問(wèn)題,標(biāo)注為0;而問(wèn)題:‘拜仁的西班牙球員都有誰(shuí)?’,查詢(xún)語(yǔ)句為“select?x where {?x <所屬運(yùn)動(dòng)隊(duì)> <拜仁慕尼黑足球俱樂(lè)部>.?x <國(guó)籍> <西班牙-(西班牙王國(guó))>.}”,將此類(lèi)涉及兩個(gè)及以上三元組的問(wèn)題定義為復(fù)雜問(wèn)題,標(biāo)注為1。用標(biāo)注好的語(yǔ)料訓(xùn)練模型,模型命名為 BERT-classify,如圖2所示。

        圖2 BERT-classify的模型結(jié)構(gòu)Fig.2 Structure of BERT-classify model

        其他預(yù)訓(xùn)練語(yǔ)言模型都是基于Transformer體系結(jié)構(gòu)對(duì)輸入序列進(jìn)行編碼,模型結(jié)構(gòu)相同,只是訓(xùn)練機(jī)制不同。因此以下其他模塊也都只對(duì)BERT相關(guān)模型做介紹。模型輸入向量由三部分組成:Token Embeddings表示詞向量,Segment Embeddings用來(lái)區(qū)分不同的輸入句子,Position Embeddings表示詞在句子序列中的位置信息。而且,BERT在輸入句子序列前添加一個(gè)特殊的[CLS]標(biāo)記(該標(biāo)記對(duì)應(yīng)的輸出向量可作為整個(gè)輸入序列的語(yǔ)義表示,通常用作分類(lèi)任務(wù)),在句子序列后添加一個(gè)特殊的[SEP]標(biāo)記(用于句子分割)。模型首先將一個(gè)問(wèn)題q處理為詞序列形式:

        Qq={[CLS],q1,q2,…,qn,[SEP]} ,

        (1)

        n為句子序列長(zhǎng)度,選擇[CLS]標(biāo)記對(duì)應(yīng)的隱藏層輸出作為問(wèn)題表示,再將其輸入到一個(gè)多分類(lèi)層,得到預(yù)測(cè)結(jié)果:

        H[CLS]=BERTlayer(Qq)[CLS],

        (2)

        Ppred=softmax(H[CLS]WT+b) ,

        (3)

        其中,softmax是概率歸一化函數(shù),Hq∈RD,W∈RK×D和b∈RK×1是要學(xué)習(xí)的權(quán)重,D在本文是768,為BERT模型隱藏層的維度,K是分類(lèi)標(biāo)簽的個(gè)數(shù)。

        損失函數(shù)使用多分類(lèi)交叉熵:

        (4)

        1.2 實(shí)體提及識(shí)別

        實(shí)體提及識(shí)別模塊的作用是識(shí)別出給定問(wèn)題中的主題(話(huà)題)實(shí)體。本模塊主要包括詞典分詞、實(shí)體識(shí)別、屬性值識(shí)別三部分。

        1.2.1 詞典分詞

        詞典分詞需要構(gòu)建輔助詞典,構(gòu)建方法如下:

        (1)實(shí)體鏈接詞典:實(shí)體鏈接詞典為文本中的實(shí)體提及到知識(shí)圖譜中實(shí)體的映射;

        (2)分詞詞典:通過(guò)實(shí)體鏈接詞典中的所有實(shí)體提及,以及知識(shí)圖譜中所有實(shí)體構(gòu)建;

        (3)本任務(wù)是開(kāi)放域的知識(shí)圖譜問(wèn)答,因此將網(wǎng)絡(luò)上常見(jiàn)的中文實(shí)體詞典作為外部資源引進(jìn),共包括電影、明星、動(dòng)漫、美食等21個(gè)領(lǐng)域詞典。

        根據(jù)輔助詞典利用分詞工具得到候選實(shí)體提及。但僅用分詞工具得到的結(jié)果存在一定錯(cuò)誤,如嵌套實(shí)體通常只保留較長(zhǎng)的情況——問(wèn)題“大連理工大學(xué)校歌是什么?”,正確的分詞結(jié)果應(yīng)當(dāng)為“大連理工大學(xué) |校歌|是|什么|?”,但由于詞典中存在更長(zhǎng)的實(shí)體“大連理工大學(xué)校歌”,因此得到錯(cuò)誤的實(shí)體提及。針對(duì)這樣的問(wèn)題,本文增加了實(shí)體識(shí)別模型來(lái)改進(jìn)候選實(shí)體提及結(jié)果。

        1.2.2 實(shí)體識(shí)別

        本模塊基于不同預(yù)訓(xùn)練模型設(shè)計(jì)實(shí)體識(shí)別模型。構(gòu)建實(shí)體識(shí)別訓(xùn)練數(shù)據(jù)時(shí)將查詢(xún)語(yǔ)句中的標(biāo)注實(shí)體提取出來(lái),還原為實(shí)體提及。例如,一個(gè)問(wèn)題“英國(guó)什么時(shí)候國(guó)慶?”,將查詢(xún)“select?x where{<英國(guó)-(大不列顛及北愛(ài)爾蘭聯(lián)合王國(guó))> <國(guó)慶日>?x.}”中的實(shí)體<英國(guó)-(大不列顛及北愛(ài)爾蘭聯(lián)合王國(guó))>還原為問(wèn)題中的實(shí)體提及“英國(guó)”。本文采用實(shí)體識(shí)別任務(wù)中常用的”BIOES”標(biāo)注策略,B I E 分別表示長(zhǎng)實(shí)體的頭部,中間和尾部,S表示單一實(shí)體,O表示非實(shí)體。

        BERT-ner模型結(jié)構(gòu)如圖3,由BERTlayer、BiLSTM層[17](雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))和CRF層[18](條件隨機(jī)場(chǎng))構(gòu)成。其中BERTlayer結(jié)構(gòu)與圖2相同。

        圖3 BERT-ner的模型結(jié)構(gòu)Fig.3 Structure of BERT-ner model

        將問(wèn)題序列輸入到BERTlayer中,得到每個(gè)單詞的表示:

        Hq=(H[CLS],H1,H2,…,H[SEP]) 。

        (5)

        Hi(i=1,2,…,[SEP])為第i個(gè)單詞對(duì)應(yīng)的BERT層輸出。再將其送到BiLSTM層和CRF層預(yù)測(cè)標(biāo)簽序列,這樣能對(duì)標(biāo)簽進(jìn)行全局優(yōu)化提升實(shí)體識(shí)別結(jié)果。

        B=BiLSTM(Hq) ,

        (6)

        C=CRF(B) 。

        (7)

        根據(jù)CRF層預(yù)測(cè)的概率分布結(jié)果,取概率最大的標(biāo)簽作為實(shí)體識(shí)別結(jié)果。

        1.2.3 屬性值提及識(shí)別

        問(wèn)題中包含的屬性值規(guī)范性較低,可能無(wú)法直接與知識(shí)圖譜對(duì)齊,因此上述基于詞典分詞的方式不適用。本文針對(duì)不同類(lèi)型的屬性值,使用不同方式進(jìn)行識(shí)別:

        (1)書(shū)名、稱(chēng)號(hào)或數(shù)字:構(gòu)建正則表達(dá)式;

        (2)時(shí)間屬性:還原為知識(shí)圖譜中規(guī)范的時(shí)間表達(dá),如“1989年九月”還原為“1989.09”;

        (3)模糊匹配屬性:建立字到屬性的映射字典,統(tǒng)計(jì)問(wèn)題中字對(duì)應(yīng)屬性出現(xiàn)的總次數(shù)進(jìn)行篩選。

        1.3 實(shí)體鏈接

        實(shí)體鏈接是將實(shí)體提及對(duì)應(yīng)到知識(shí)圖譜中的實(shí)體。對(duì)于候選實(shí)體提及,本文首先過(guò)濾掉詞性為語(yǔ)氣詞、 副詞等的提及(考慮到這類(lèi)詞語(yǔ)通常不會(huì)是實(shí)體)。使用實(shí)體鏈接詞典,將實(shí)體提及對(duì)應(yīng)的所有實(shí)體加入候選實(shí)體中。對(duì)于屬性值提及中的每個(gè)屬性,由于抽取時(shí)已經(jīng)與知識(shí)圖譜對(duì)齊,故直接將其加入候選實(shí)體中。本文設(shè)計(jì)兩組特征提升候選實(shí)體篩選結(jié)果:

        (1)實(shí)體提及特征:實(shí)體提及的長(zhǎng)度(該實(shí)體對(duì)應(yīng)的實(shí)體提及字?jǐn)?shù)),實(shí)體提及的詞頻,實(shí)體提及的位置(該實(shí)體對(duì)應(yīng)的實(shí)體提及距離句首的距離);

        (2)實(shí)體特征:實(shí)體兩跳內(nèi)關(guān)系和問(wèn)題重疊詞的數(shù)量,實(shí)體兩跳內(nèi)關(guān)系和問(wèn)題重疊字的數(shù)量,實(shí)體的流行度(實(shí)體的一跳關(guān)系數(shù)量),實(shí)體的類(lèi)型,實(shí)體的重要度(知識(shí)圖譜中包含該實(shí)體的三元組數(shù)量)。

        在訓(xùn)練集上,將標(biāo)注的正確實(shí)體標(biāo)為1,其余候選實(shí)體標(biāo)為0,使用邏輯回歸模型對(duì)上述特征進(jìn)行擬合。在測(cè)試集上,使用訓(xùn)練好的模型對(duì)每個(gè)候選實(shí)體打分,保留分?jǐn)?shù)排名前n的候選實(shí)體。

        1.4 關(guān)系匹配

        在CCKS2019-CKBQA任務(wù)中,70%以上的問(wèn)題只包含一個(gè)主語(yǔ)實(shí)體且最多包含兩個(gè)語(yǔ)義關(guān)系。因此,對(duì)于每個(gè)候選實(shí)體,抽取與其相連的單跳關(guān)系和兩跳關(guān)系作為候選的查詢(xún)路徑,形式如 (entity,relation)或(entity,relation1,relation2)。再將候選路徑與問(wèn)題進(jìn)行文本匹配,根據(jù)匹配的得分篩選候選路徑。

        傳統(tǒng)上,文本匹配模型(如Siamase[19]模型)被用來(lái)學(xué)習(xí)自然語(yǔ)言問(wèn)題和候選查詢(xún)路徑間的相似度,更側(cè)重于學(xué)習(xí)同一語(yǔ)義不同表達(dá)間的相似性,需要大規(guī)模的語(yǔ)料作為支撐,模型的性能受到語(yǔ)料規(guī)模的約束。而預(yù)訓(xùn)練語(yǔ)言模型正是在大規(guī)模語(yǔ)料上通過(guò)無(wú)監(jiān)督訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型。因此,本文基于不同預(yù)訓(xùn)練的語(yǔ)言模型,設(shè)計(jì)關(guān)系匹配模型,在訓(xùn)練集上對(duì)文本匹配模型進(jìn)行微調(diào)。在微調(diào)過(guò)程中,由于預(yù)訓(xùn)練模型是基于自然語(yǔ)言訓(xùn)練的,而生成的候選查詢(xún)路徑是不符合自然語(yǔ)言邏輯的。因此,本文將候選查詢(xún)路徑還原為人工問(wèn)題。 例如,(侯賽因,出生地)被還原為“侯賽因的出生地?”。對(duì)于訓(xùn)練集每個(gè)問(wèn)題,正確關(guān)系路徑標(biāo)為 1,并隨機(jī)選擇三個(gè)候選查詢(xún)路徑作為負(fù)例,負(fù)例標(biāo)為0。將自然語(yǔ)言問(wèn)題和人工問(wèn)題拼接,訓(xùn)練模型,關(guān)系匹配模型結(jié)構(gòu)與問(wèn)題分類(lèi)模型結(jié)構(gòu)相同,依然以[CLS]標(biāo)記對(duì)應(yīng)的輸出作為文本的語(yǔ)義表示,不同的是在輸入部分要輸入兩個(gè)序列,以[SEP]標(biāo)記分割,如式(8)。在測(cè)試集上,使用預(yù)訓(xùn)練模型對(duì)所有的自然語(yǔ)言問(wèn)題-人工問(wèn)題對(duì)進(jìn)行打分。

        RA,B={[CLP],qA,[SEP],qB,[SEP]} ,

        (8)

        其中qA是自然語(yǔ)言問(wèn)題,qB是人工問(wèn)題。

        1.5 橋接及答案檢索

        本文定義的簡(jiǎn)單問(wèn)題是單實(shí)體單關(guān)系問(wèn)題,復(fù)雜問(wèn)題可分為單實(shí)體多關(guān)系問(wèn)題和多實(shí)體問(wèn)題。通過(guò)上述模塊的處理,既可以解決單實(shí)體單關(guān)系簡(jiǎn)單問(wèn)題,也可以解決部分單實(shí)體多關(guān)系復(fù)雜問(wèn)題。因此本文針對(duì)復(fù)雜問(wèn)題中的多實(shí)體問(wèn)題設(shè)計(jì)了橋接方法。具體做法是對(duì)每個(gè)問(wèn)題,保留前30個(gè)單實(shí)體的查詢(xún)路徑(entity1,relation1)。對(duì)這些查詢(xún)路徑,到知識(shí)圖譜中進(jìn)行檢索,驗(yàn)證其是否能和其他候選實(shí)體組成多實(shí)體情況的查詢(xún)路徑(entity1,relation1,ANSWER,relation2,entity2),如存在,將其加入候選查詢(xún)路徑中。最后,將單實(shí)體情況排名前三的查詢(xún)路徑和本模塊雙實(shí)體情況下得到的查詢(xún)路徑與問(wèn)題計(jì)算重疊的字?jǐn)?shù),選擇重疊字?jǐn)?shù)最多的作為最終的查詢(xún)路徑,認(rèn)為其在語(yǔ)義和表達(dá)上與問(wèn)題最相似。根據(jù)得到的查詢(xún)路徑構(gòu)建SPARQL語(yǔ)句在圖譜中檢索答案。

        2 實(shí)驗(yàn)設(shè)置與結(jié)果分析

        2.1 實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)基于CCKS2019-CKBQA數(shù)據(jù)集。該數(shù)據(jù)集來(lái)自北京大學(xué)和恒生電子有限公司共同發(fā)布的中文開(kāi)放域知識(shí)圖譜問(wèn)答任務(wù)。數(shù)據(jù)集中標(biāo)注的數(shù)據(jù)抽自于評(píng)測(cè)官方提供的開(kāi)放域中文知識(shí)圖譜 PKUBase。數(shù)據(jù)劃分、三元組統(tǒng)計(jì)分別如表1、表2所示。實(shí)驗(yàn)結(jié)果用準(zhǔn)確率(Accuracy)、精確率(P)、召回率(R)和F1值等指標(biāo)來(lái)評(píng)價(jià)。

        表1 CKBQA數(shù)據(jù)集劃分

        表2 知識(shí)圖譜知識(shí)數(shù)量

        2.2 參數(shù)設(shè)置

        不同模塊BERT模型參數(shù)如表3,其他預(yù)訓(xùn)練模型參數(shù)設(shè)置與對(duì)應(yīng)模塊BERT模型參數(shù)相同。

        表3 不同BERT模型的參數(shù)設(shè)置

        2.3 實(shí)驗(yàn)結(jié)果與分析

        由表4問(wèn)題分類(lèi)的準(zhǔn)確率可以看出,幾種預(yù)訓(xùn)練模型的問(wèn)題分類(lèi)性能相差不大,因?yàn)镋RNIE模型在訓(xùn)練時(shí)額外引入了對(duì)話(huà)語(yǔ)言建模機(jī)制,可以更好地理解中文問(wèn)題細(xì)微的語(yǔ)義表示,因此ERNIE-classify結(jié)果稍好。分析部分錯(cuò)誤樣例發(fā)現(xiàn),很多復(fù)雜問(wèn)題被錯(cuò)分為簡(jiǎn)單問(wèn)題。原因是問(wèn)題中的實(shí)體在知識(shí)圖譜中具有別名。如:測(cè)試集中問(wèn)題“哥哥出生于什么地方?”,查詢(xún)?yōu)椤皊elect?ywhere {?x<別名> "哥哥".?x<出生地>?y.}”,根據(jù)標(biāo)注策略,其被定義為復(fù)雜問(wèn)題,實(shí)際上通過(guò)實(shí)體鏈接模塊后,別名已對(duì)齊,將“哥哥”鏈接到知識(shí)圖譜中的“張國(guó)榮-(華語(yǔ)歌手、演員、音樂(lè)人)”實(shí)體。查詢(xún)單個(gè)三元組(<張國(guó)榮-(華語(yǔ)歌手、演員、音樂(lè)人)> <出生地>?x)即可得到答案。

        表4 不同預(yù)訓(xùn)練模型在問(wèn)題分類(lèi)任務(wù)上的性能比較

        在表5的實(shí)體識(shí)別結(jié)果中,預(yù)訓(xùn)練語(yǔ)言模型比中文實(shí)體識(shí)別最好的模型Lattice-LSTM[20]效果還要高1.5-2.5個(gè)點(diǎn)。證明預(yù)訓(xùn)練語(yǔ)言模型能更準(zhǔn)確地識(shí)別詞邊界信息,得到更精確的實(shí)體。但所有預(yù)訓(xùn)練模型的F1值都沒(méi)有到70%,主要原因是標(biāo)注的正確實(shí)體是知識(shí)圖譜中的規(guī)范表現(xiàn)形式,如果將預(yù)測(cè)出的實(shí)體與知識(shí)圖譜對(duì)齊的話(huà),識(shí)別結(jié)果就會(huì)有很大提升。在此模塊中XLNet-ner模型、RoBERTa-ner模型、ERNIE-ner模型識(shí)別效果都強(qiáng)于BERT-ner模型,是由于BERT模型是基于大規(guī)模語(yǔ)料中詞共現(xiàn)來(lái)預(yù)測(cè)實(shí)體,而XLNet模型相對(duì)BERT的WordPiece分詞方法使用了SentencePiece方法,優(yōu)化了對(duì)中文分詞的效果。RoBERTa模型的動(dòng)態(tài)掩碼機(jī)制對(duì)相同樣本考慮到了更多的掩碼可能,提升了實(shí)體識(shí)別性能。ERNIE模型效果最好,是由于其訓(xùn)練時(shí)加入了先驗(yàn)語(yǔ)義知識(shí),此外ERNIE模型不僅僅對(duì)隨機(jī)字符mask還對(duì)句子中的短語(yǔ)mask,這樣能學(xué)習(xí)到單詞與實(shí)體之間的關(guān)系。因此,ERNIE模型能更好地識(shí)別出短語(yǔ)。例如,問(wèn)題“戰(zhàn)國(guó)四大名將之首的外號(hào)是?”,正確的實(shí)體是“四大名將之首”,BERT-ner模型識(shí)別出來(lái)的是“四大名將”和“首”兩個(gè)實(shí)體,而ERNIE-ner模型能準(zhǔn)確識(shí)別為短語(yǔ)。

        表5 不同預(yù)訓(xùn)練模型在實(shí)體識(shí)別任務(wù)上的性能比較

        對(duì)于實(shí)體鏈接模塊,本文在測(cè)試集上針對(duì)構(gòu)建的特征進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6,可以看出:實(shí)體提及的特征和實(shí)體的特征對(duì)候選實(shí)體篩選均有幫助。只保留top5的候選實(shí)體,可以得到與保留全部候選實(shí)體接近的召回率,并且可以有效降低噪音和后續(xù)計(jì)算量。

        表7 不同關(guān)系匹配模型的性能比較

        通過(guò)表7的實(shí)驗(yàn)結(jié)果得到:在關(guān)系匹配模塊上,基于預(yù)訓(xùn)練語(yǔ)言模型的結(jié)果大幅優(yōu)于一般的文本匹配模型Siamase(49.7%)。主要因?yàn)闇y(cè)試集中有60%的問(wèn)題包含不可見(jiàn)關(guān)系。而預(yù)訓(xùn)練語(yǔ)言模型在其訓(xùn)練過(guò)程中可以學(xué)到大量關(guān)系的表示,即使對(duì)不可見(jiàn)關(guān)系也有一定的預(yù)測(cè)能力。此模塊中,基于ERNIE的關(guān)系匹配模型同樣效果最好,優(yōu)于其他基于預(yù)訓(xùn)練模型的匹配模型。當(dāng)加入橋接方法和進(jìn)行重疊字?jǐn)?shù)匹配后,實(shí)驗(yàn)結(jié)果都有所提升。

        表8 測(cè)試集F1值比較

        本文最終在測(cè)試集上達(dá)到了69.9%的F1值。表8為當(dāng)時(shí)評(píng)測(cè)時(shí)F1值結(jié)果。由于此數(shù)據(jù)集為評(píng)測(cè)數(shù)據(jù)集,參賽隊(duì)伍會(huì)構(gòu)建大量人工特征規(guī)則,通過(guò)多模型融合來(lái)提升結(jié)果,所以與本文方法沒(méi)有直接可比性。但本文方法仍能優(yōu)于評(píng)測(cè)第四名(67.68%),達(dá)到接近評(píng)測(cè)第三名(70.45%)的性能,在保證模型結(jié)構(gòu)簡(jiǎn)單的同時(shí)證明了本文提出方法的有效性。

        通過(guò)不同模塊不同預(yù)訓(xùn)練語(yǔ)言模型表現(xiàn)的結(jié)果可以看出,基于ERNIE模型效果全都是最好的,說(shuō)明在中文問(wèn)答任務(wù)上,ERNIE模型可以更好地學(xué)習(xí)到中文文本的語(yǔ)義表示,更適合處理中文文本。因此可以嘗試在其他中文NLP任務(wù)上應(yīng)用ERNIE模型作為底層編碼器驗(yàn)證效果。

        最后基于本文提出方法實(shí)現(xiàn)了開(kāi)放域圖譜問(wèn)答系統(tǒng)展示,在輸入框中輸入問(wèn)題,如:“清華大學(xué)的校長(zhǎng)是誰(shuí)?”,可看到系統(tǒng)能返回正確簡(jiǎn)潔的答案。系統(tǒng)訪(fǎng)問(wèn)鏈接為:http:∥www.medicalqa.xyz:5005/.展示效果如圖4所示。

        圖4 問(wèn)答系統(tǒng)服務(wù)頁(yè)面Fig.4 Online question answering system

        3 結(jié)論與展望

        本文通過(guò)實(shí)驗(yàn)驗(yàn)證了ERNIE語(yǔ)言模型更適合應(yīng)用在中文圖譜問(wèn)答任務(wù)中。同時(shí)本文在實(shí)體提及識(shí)別、實(shí)體鏈接、關(guān)系匹配子任務(wù)上提出的新框架有助于高效精確地識(shí)別匹配結(jié)果。并通過(guò)在CCKS2019-CKBQA測(cè)試集上的結(jié)果驗(yàn)證方法的有效性,最后基于本文方法實(shí)現(xiàn)了問(wèn)答系統(tǒng)展示。

        雖然模型在回答簡(jiǎn)單問(wèn)題上可以有較好的性能,但是在解決復(fù)雜問(wèn)題時(shí),本文方法只能解決部分雙實(shí)體問(wèn)題,對(duì)涉及更多實(shí)體的復(fù)雜問(wèn)題也無(wú)法處理。在實(shí)體鏈接部分保留全部結(jié)果的召回率是93.1%,說(shuō)明仍有很多實(shí)體沒(méi)有被識(shí)別出來(lái),所以在后續(xù)的研究工作中可以考慮對(duì)復(fù)雜問(wèn)題進(jìn)行語(yǔ)義解析,通過(guò)構(gòu)造復(fù)雜問(wèn)題查詢(xún)圖來(lái)提升模型回答復(fù)雜問(wèn)題的能力,并融入知識(shí)圖譜的全局信息,如利用transE[21]、transH[22]等知識(shí)圖譜建模方法來(lái)提升候選實(shí)體提及的結(jié)果。

        猜你喜歡
        圖譜實(shí)體語(yǔ)義
        繪一張成長(zhǎng)圖譜
        語(yǔ)言與語(yǔ)義
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        亚洲av无码乱码国产一区二区| 免费大学生国产在线观看p| 精品国产18久久久久久| 久久国产综合精品欧美| 日韩av一区二区三区精品| 亚洲hd高清在线一区二区| 日本一区二区三区免费精品| 99爱在线精品免费观看| 又黄又爽的成人免费视频 | 欧美亚洲日韩国产人成在线播放 | 麻豆人妻无码性色AV专区| 在线观看免费视频发布白白色| 国产精品高清视亚洲一区二区| 少妇无套裸按摩呻吟无呜| 女人和拘做受全程看视频| 欧美精品免费观看二区| 538在线视频| 视频国产自拍在线观看| 精品一区二区在线观看免费视频| 日本av一区二区三区在线| 人妻无码一区二区不卡无码av| 精品人妻无码一区二区色欲产成人| 国产欧美亚洲精品第二区首页| 久久99热精品免费观看麻豆| 国产精品午夜高潮呻吟久久av| 日本一区二区三区人妻| 日韩国产人妻一区二区三区| 天天鲁一鲁摸一摸爽一爽| 精品91亚洲高清在线观看| 亚洲无码观看a| av免费在线播放观看| 国产精品国产亚洲精品看不卡| 在线不卡av片免费观看| 娇妻玩4p被三个男人伺候电影| 亚洲国产成人AⅤ片在线观看| 色婷婷综合一区二区精品久久| 免费看黄色亚洲一区久久| 一边做一边喷17p亚洲乱妇50p | 亚洲精品动漫免费二区| 亚洲av永久无码精品| 中文字幕一区二区三区四区在线|