亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        AM FRel:一種中文電子病歷實(shí)體關(guān)系聯(lián)合抽取方法

        2024-03-19 11:47:32余肖生李琳宇周佳倫馬洪彬
        關(guān)鍵詞:特征文本融合

        余肖生,李琳宇,周佳倫,馬洪彬,陳 鵬

        (1.三峽大學(xué)湖北省水電工程智能視覺監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443002;2.三峽大學(xué)計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443000)

        0 引言

        醫(yī)療文本的實(shí)體關(guān)系抽取是醫(yī)學(xué)自然語言處理研究中非常重要的一環(huán)[1]。早期的關(guān)系抽取是基于流水線(pipeline)的方法,首先從文本中抽取出所有的實(shí)體,然后判斷所有可能的實(shí)體對(duì)之間的關(guān)系。其中具有代表性的模型有基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的關(guān)系抽取模型[2]、將注意力機(jī)制引入了CNN模型中的Attention CNNs模型[3]等。Pipeline方法易于實(shí)現(xiàn)且實(shí)體模型和關(guān)系模型可以靈活使用,但在抽取實(shí)體與關(guān)系時(shí),忽略了2個(gè)任務(wù)之間的內(nèi)在聯(lián)系,容易造成誤差傳播。而聯(lián)合抽取可以加強(qiáng)實(shí)體模型和關(guān)系模型之間的聯(lián)系,一定程度上緩解誤差傳播的問題[4]。早期聯(lián)合抽取方法也是基于特征工程的[5-6],嚴(yán)重依賴手工制作的特征。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional long short term memory network,BiLSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等模型層出不窮,它們?cè)陉P(guān)系抽取領(lǐng)域有廣泛的應(yīng)用。例如,Zheng等[7]通過運(yùn)用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種新型的標(biāo)注機(jī)制,用于對(duì)序列進(jìn)行標(biāo)注;Zeng等[2]使用CNN來提取句子和詞匯信息,將2個(gè)特征拼接進(jìn)行關(guān)系抽取。

        目前現(xiàn)有工作在通用領(lǐng)域的文本中有著不錯(cuò)的效果,但在醫(yī)療領(lǐng)域的文本中,實(shí)體往往是專業(yè)名詞,這些實(shí)體的密度大且實(shí)體之間的關(guān)系比通用領(lǐng)域的文本更為復(fù)雜,使用簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)方法無法充分地捕捉文本特征[1]。針對(duì)這些問題,本文中提出了基于對(duì)抗學(xué)習(xí)與多特征融合的中文電子病歷實(shí)體關(guān)系聯(lián)合抽取模型AMFRel。模型通過信息融合模塊來豐富文本結(jié)構(gòu)特征,并且還加入對(duì)抗訓(xùn)練增加擾動(dòng),提高了模型抽取三元組的性能。該模型在2個(gè)醫(yī)療文本關(guān)系抽取數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與現(xiàn)有方法相比,其在F1值等方面有明顯提升。

        1 相關(guān)工作

        1.1 關(guān)系抽取

        醫(yī)療文本的實(shí)體關(guān)系抽取最初是基于模板匹配與字典驅(qū)動(dòng)的方法[8],這種方法主要是依靠醫(yī)學(xué)專家人工制定相關(guān)的規(guī)則,雖然具有一定的效果,但采用這種方法非常耗時(shí)且制定的相關(guān)規(guī)則可移植性差。

        隨后是基于機(jī)器學(xué)習(xí)的方法,包括支持向量機(jī)、最大熵等,利用各種特征向量進(jìn)行關(guān)系分類。如Zhai等[9]將句子結(jié)構(gòu)信息與支持向量機(jī)相結(jié)合進(jìn)行電子病歷實(shí)體關(guān)系提取。該方法和基于模板匹配與字典驅(qū)動(dòng)的方法相比有更好的移植性,但過度依賴特征選擇。

        近年來,深度學(xué)習(xí)技術(shù)逐漸進(jìn)步,各種神經(jīng)網(wǎng)絡(luò)也得到了廣泛應(yīng)用。該技術(shù)在醫(yī)療文本實(shí)體關(guān)系抽取領(lǐng)域也有著不錯(cuò)的發(fā)展,能更好地從醫(yī)療文本中抽取出所需信息。Kim[10]使用CNN提取文本的局部特征,最后連接Softmax層,得到各關(guān)系類別的概率。Li等[11]使用BiLSTM和CNN來提取文本特征,并整合最短路徑用于醫(yī)療實(shí)體關(guān)系抽取。Zhang等[12]提出了一種方法,通過融合BiLSTM和多跳自注意力機(jī)制,增強(qiáng)模型對(duì)文本特征的捕捉能力。這種融合策略使模型能夠更準(zhǔn)確地獲取文本的向量表示,進(jìn)而提升實(shí)體關(guān)系抽取的性能。2018年,隨著預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers,BERT)[13]的出現(xiàn),自然語言處理的子任務(wù),如命名實(shí)體識(shí)別、關(guān)系抽取等都呈現(xiàn)出了更好的效果。Wei等[14]使用BERT模型來獲得文本的向量表示,連接Softmax在醫(yī)療文本中進(jìn)行關(guān)系抽取,產(chǎn)生了良好的效果。李天昊等[15]融合ERNIE模型和注意力機(jī)制進(jìn)行中文文本的關(guān)系抽取。

        上述基于深度學(xué)習(xí)的關(guān)系抽取方法在處理簡(jiǎn)單文本的關(guān)系抽取方面表現(xiàn)良好,但在識(shí)別包含重疊關(guān)系的句子時(shí)存在一些問題。為解決關(guān)系重疊問題,Zeng等[16]提出了一個(gè)序列到序列的框架,并且采用復(fù)制機(jī)制直接生成實(shí)體關(guān)系三元組,該方法可以緩解實(shí)體間關(guān)系重疊的問題,但沒有考慮到實(shí)體間具有多種關(guān)系的重疊情況。Wei等[17]使用BERT模型進(jìn)行句子編碼,提出了將主語實(shí)體映射為賓語實(shí)體的二進(jìn)制標(biāo)注框架CASREL。該模型一定程度上解決了關(guān)系重疊問題,但在賓語和相關(guān)關(guān)系抽取時(shí),僅將主語信息和文本特征融合,忽略了實(shí)體和關(guān)系之間的聯(lián)系,導(dǎo)致一些結(jié)構(gòu)特征丟失。此外,該模型使用指針網(wǎng)絡(luò)標(biāo)注實(shí)體的首尾,在標(biāo)注較長(zhǎng)實(shí)體時(shí)該網(wǎng)絡(luò)對(duì)邊界的識(shí)別比較敏感,容易出現(xiàn)實(shí)體識(shí)別不穩(wěn)定的問題[18]。

        1.2 對(duì)抗學(xué)習(xí)

        對(duì)抗學(xué)習(xí)一般都應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域[19]。隨著自然語言處理的發(fā)展,2016年,Papernot等[20]開始研究在文本中應(yīng)用對(duì)抗樣本的問題,他們采用快速梯度標(biāo)志法(fast gradient sign method,F(xiàn)GSM)來尋找對(duì)抗樣本,并在多個(gè)場(chǎng)景下對(duì)梯度生成對(duì)抗樣本的可行性進(jìn)行了研究。Samanta等[21]使用插入、刪除、替換3個(gè)修改策略生成對(duì)抗樣本,應(yīng)用于分類結(jié)果。Chen等[22]將對(duì)抗訓(xùn)練應(yīng)用到關(guān)系抽取模型中,在多個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的效果。

        基于上述研究,本文中提出了AMFRel模型,其中構(gòu)建了信息融合模塊來減輕結(jié)構(gòu)特征有限的問題,并且在識(shí)別醫(yī)療實(shí)體時(shí),加入對(duì)抗訓(xùn)練來緩解醫(yī)療實(shí)體長(zhǎng)度過長(zhǎng)造成的識(shí)別不穩(wěn)定問題,從而提高了模型在醫(yī)療文本中抽取三元組的性能。

        2 基于對(duì)抗學(xué)習(xí)與多特征融合的中文電子病歷實(shí)體關(guān)系聯(lián)合抽取模型

        為了解決中文醫(yī)療文本實(shí)體密度大、關(guān)系復(fù)雜所導(dǎo)致的三元組抽取效果不佳的問題,提出了基于對(duì)抗學(xué)習(xí)與多特征融合的中文電子病歷實(shí)體關(guān)系聯(lián)合抽取模型(AMFRel)。該模型利用ERNIE-Health模型的醫(yī)療實(shí)體掩碼策略和對(duì)抗學(xué)習(xí)來提高模型辨別實(shí)體邊界的能力,并通過融合中文電子病歷文本特征、主語特征和關(guān)系特征3個(gè)提示信息,抽取與關(guān)系特征相關(guān)聯(lián)的賓語,進(jìn)而構(gòu)建醫(yī)療三元組。本文模型由以下幾部分組成:嵌入模塊、主語抽取模塊、信息融合模塊、關(guān)系及相應(yīng)賓語抽取模塊,如圖1所示。首先,通過預(yù)訓(xùn)練模型對(duì)醫(yī)療文本進(jìn)行編碼,以獲取文本的特征向量,同時(shí)利用文本的詞性信息來輔助主語抽取任務(wù)。然后將主語特征、文本特征和關(guān)系特征送入信息融合模塊進(jìn)行特征融合,以預(yù)測(cè)特定關(guān)系下的賓語,最后得到醫(yī)療文本的三元組表示。

        圖1 AMFRel模型

        2.1 嵌入模塊

        2.1.1 文本特征

        2019年,受Bertmask策略的啟發(fā),Sun等[23]提出了一個(gè)新的語言模型ERNIE(enhanced representation through knowledge integration),旨在改進(jìn)BERT在中文自然語言處理領(lǐng)域表現(xiàn)不佳的問題。與BERT的token屏蔽策略不同,該模型提出了Knowledge Masking策略,它除了token級(jí)別的屏蔽策略外,還擁有短語級(jí)別和實(shí)體級(jí)別的屏蔽策略,能夠更加全面地考慮到句子中的先驗(yàn)信息,提高模型對(duì)字詞和短語的理解。本文采用的預(yù)訓(xùn)練模型是ERNIE-Health[24],它以ERNIE模型為基礎(chǔ),運(yùn)用醫(yī)療實(shí)體掩碼策略來學(xué)習(xí)醫(yī)療文本中的專業(yè)術(shù)語。通過該策略,ERNIE-Health能夠有效地掌握醫(yī)療領(lǐng)域中豐富的實(shí)體信息。此外,它還利用醫(yī)療問答數(shù)據(jù)獲取實(shí)體間的內(nèi)在聯(lián)系,提升了對(duì)醫(yī)療文本的理解和建模能力。該模型的屏蔽策略如圖2所示,例如句子“糖尿病腎病造成下肢浮腫”,除了隨機(jī)選擇的token級(jí)別的屏蔽策略外,還有實(shí)體級(jí)別的“下肢浮腫”和短語級(jí)別的“造成”。

        圖2 ERNIE-Health的屏蔽策略

        具體過程如圖1嵌入模塊所示,將文本句子S={s1,s2,s3,…,sN}和實(shí)體間關(guān)系G={g1,g2,g3,…,gM}輸入到ERNIE-Health模型,其中,si代表文本句子的第i個(gè)字符,gi代表實(shí)體間關(guān)系的第i個(gè)字符,N和M分別代表文本句子和實(shí)體間關(guān)系的長(zhǎng)度,最后得到輸出序列和

        2.1.2 詞性特征

        詞性是一種常見的語言學(xué)術(shù)語,通過對(duì)詞的特征進(jìn)行分類,可以獲取更深層次的語義特征。觀察發(fā)現(xiàn),在醫(yī)療三元組中,主語、賓語及兩者之間的關(guān)系通常都是名詞或動(dòng)詞,獲取詞性信息對(duì)于三元組的抽取有一定的幫助[25]。因此,本文在模型中引入了詞性特征,首先使用jieba分詞軟件對(duì)醫(yī)療文本進(jìn)行分詞與詞性標(biāo)注,并將文本中出現(xiàn)的詞性類別整合為一個(gè)字典。然后,構(gòu)建與文本信息對(duì)應(yīng)的詞性類別編碼序列C={c1,c2,c3,…,cN},其中ci表示第i個(gè)詞對(duì)應(yīng)的詞性類別編碼。最后,對(duì)離散的詞性信息進(jìn)行處理,將其送入預(yù)訓(xùn)練模型中,通過訓(xùn)練得到融合了文本特征和詞性特征的編碼序列A={a1,a2,a3,…,aN}。

        2.1.3 對(duì)抗訓(xùn)練

        醫(yī)療文本實(shí)體密度大,使用指針網(wǎng)絡(luò)進(jìn)行實(shí)體標(biāo)注時(shí),如果漏標(biāo),容易導(dǎo)致實(shí)體邊界識(shí)別出現(xiàn)誤差。所以模型中使用對(duì)抗學(xué)習(xí)的方法,利用噪聲數(shù)據(jù)進(jìn)行對(duì)抗訓(xùn)練,提高模型辨別實(shí)體邊界的能力。對(duì)抗訓(xùn)練的范式形式是通過內(nèi)部損失最大化來尋找對(duì)抗擾動(dòng),當(dāng)擾動(dòng)固定時(shí),外部進(jìn)行網(wǎng)絡(luò)優(yōu)化得到內(nèi)部對(duì)抗樣本的損失函數(shù)最小化[26]。計(jì)算方法如式(1)所示。

        式中:θ代表模型參數(shù);x代表輸入的文本;y代表輸入文本對(duì)應(yīng)的標(biāo)簽;Δx是指對(duì)原始文本的對(duì)抗擾動(dòng);s是指擾動(dòng)的空間。首先,在原始文本中加入擾動(dòng),使得現(xiàn)有模型盡可能多地出錯(cuò),也就是使Loss(x+Δx,y;θ)的值盡可能大,以獲得最適宜的擾動(dòng)。然后,利用外部的minθE(x,y)使擾動(dòng)固定后的損失最小化,進(jìn)一步優(yōu)化模型的參數(shù),提高模型辨別實(shí)體邊界的能力,進(jìn)而增強(qiáng)關(guān)系三元組的抽取性能。

        2.2 主語抽取模塊

        主語抽取就是抽取文本中的主語信息。醫(yī)療文本中存在關(guān)系重疊的問題,本文采用了指針網(wǎng)絡(luò)標(biāo)注策略,利用首尾指針來標(biāo)注文本中主語的起始位置。具體過程:首先將嵌入模塊獲得的編碼序列A={a1,a2,a3,…,aN}輸入到全連接層進(jìn)行特征處理,然后將其送入用于二分類任務(wù)的sigmoid函數(shù)中,得到token的概率值輸出。如果概率值比設(shè)置的閾值大,則將其位置的token標(biāo)記為1,否則標(biāo)記為0。計(jì)算方法如式(2)、式(3)所示。

        完成閾值判斷和0/1標(biāo)注后,可以得到主語的頭尾token,然后采用“鄰近原則”,先找出主語的頭位置,也就是概率值大于設(shè)置閾值的位置,隨后尋找頭token之后最近的概率值大于設(shè)置閾值的位置,最終得到主語。

        2.3 信息融合模塊

        醫(yī)療實(shí)體間關(guān)系復(fù)雜,如果僅僅使用嵌入模塊得到的編碼向量進(jìn)行后續(xù)的關(guān)系與賓語的抽取,則獲取的結(jié)構(gòu)特征非常有限。針對(duì)該問題,在AMFRel模型中構(gòu)建了信息融合模塊。首先,將融合詞性特征的文本編碼向量與關(guān)系向量進(jìn)行拼接,將其輸入到BiLSTM中獲取更深層次的語義信息。然后,將主語編碼與深層語義信息進(jìn)行融合得到多結(jié)構(gòu)特征的編碼向量。最后,將其送入多頭自注意力機(jī)制[27],該機(jī)制通過引入多個(gè)注意力頭,使得模型能夠?qū)W習(xí)到不同的注意力模式,從而更好地捕捉輸入序列中的關(guān)鍵信息。這一信息融合模塊通過對(duì)多種結(jié)構(gòu)特征進(jìn)行融合,提高了醫(yī)療三元組的抽取性能。

        將融合詞性特征的文本編碼向量A與關(guān)系特征Hg進(jìn)行拼接,在拼接前對(duì)關(guān)系特征Hg進(jìn)行padding操作。這個(gè)過程是為了使關(guān)系詞與醫(yī)療文本之間產(chǎn)生交互,通過這種方式可以使模型區(qū)分出醫(yī)療文本中的中文字符與關(guān)系詞的關(guān)聯(lián)程度,從而利用不同的關(guān)系特征識(shí)別相應(yīng)的賓語。接著將拼接后的編碼向量H輸入到BiLSTM中,該網(wǎng)絡(luò)可以從2個(gè)方向?qū)π畔⑦M(jìn)行編碼,學(xué)習(xí)到更豐富的上下文內(nèi)容,從而獲得更深層次的融合序列L={l1,l2,l3,…,lN}。計(jì)算公式如式(4)—式(8)所示。

        豐富的結(jié)構(gòu)特征能夠提升后續(xù)的關(guān)系及相應(yīng)賓語抽取性能。本文還將主語的編碼信息ai和拼接關(guān)系特征詞的文本向量li進(jìn)行融合,得到多種結(jié)構(gòu)特征向量。該融合方式采用條件批處理規(guī)范化層(conditional layer normalization,CLN),通過2個(gè)變換矩陣進(jìn)行維度變換,并將變換結(jié)果融合到了α和β中。計(jì)算公式如式(9)—式(10)所示。

        式中:O為特征融合后的向量;μ和σ2表示L的均值和方差;α和β是指縮放和平移的參數(shù)值;Wα和Wβ是變換矩陣。

        醫(yī)療文本中醫(yī)療實(shí)體分布密集,且在進(jìn)行后續(xù)操作時(shí)實(shí)體的重要程度不一。因此,在進(jìn)行特征融合后,本文采用多頭自注意力機(jī)制對(duì)融合特征進(jìn)行處理,該機(jī)制能夠捕捉句子中實(shí)體之間的關(guān)聯(lián)關(guān)系,從而提高模型抽取三元組的準(zhǔn)確率。

        2.4 關(guān)系及相應(yīng)賓語抽取模塊

        在該模塊中,使用2.3節(jié)中得到的融合向量進(jìn)行關(guān)系及相應(yīng)賓語抽取。與抽取主語的方法相同,首先將得到的編碼向量P={p1,p2,p3,…,pN}輸入到一個(gè)全連接層進(jìn)行特征處理,然后將輸出結(jié)果輸入到sigmoid函數(shù)中,以獲取每個(gè)token的概率值輸出。如果概率值比設(shè)定的閾值大,則標(biāo)記該token為1,反之為0。計(jì)算方法如式(12)、式(13)所示。

        2.5 損失函數(shù)

        本文在抽取主語和賓語時(shí)使用的都是二分類標(biāo)注的方法,因此在計(jì)算損失函數(shù)時(shí)采用二值交叉熵?fù)p失函數(shù)(binary cross entropy loss,BCELoss)[28]。計(jì)算方法如式(13)、式(14)所示。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        AMFRel模型在2個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),一個(gè)是CHIP2020中文醫(yī)療文本實(shí)體關(guān)系抽取數(shù)據(jù)集,由鄭州大學(xué)自然語言處理實(shí)驗(yàn)室和北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室一起構(gòu)建。該數(shù)據(jù)集包括了53個(gè)預(yù)定關(guān)系類別,常見疾病的訓(xùn)練語料有上百種,都來源于專業(yè)醫(yī)生編寫的教材[29]。部分關(guān)系三元組schemas如表1所示。

        表1 CHIP2020數(shù)據(jù)集部分關(guān)系三元組schemas

        第2個(gè)數(shù)據(jù)集來源于某市疾控中心,已對(duì)其進(jìn)行脫敏處理。該數(shù)據(jù)集主要包含糖尿病的多種發(fā)病癥狀與相關(guān)治療手段,其中包括1 130條醫(yī)療文本,5 774個(gè)三元組數(shù)據(jù)和13種實(shí)體間關(guān)系。這些實(shí)體間的關(guān)系涵蓋了手術(shù)-并發(fā)癥、藥物-疾病、手術(shù)-疾病等。部分關(guān)系三元組schemas如表2所示。

        表2 糖尿病數(shù)據(jù)集部分關(guān)系三元組schemas

        本次實(shí)驗(yàn)將在這2個(gè)數(shù)據(jù)集上進(jìn)行,數(shù)據(jù)集詳情如表3所示。

        表3 數(shù)據(jù)集信息

        3.2 評(píng)價(jià)指標(biāo)

        本文評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(Precision)、召回率(Recall)和F1值。計(jì)算公式如式(15)—式(17)所示。

        式中:TP為正樣本判為正的個(gè)數(shù);FP為正樣本判為負(fù)的個(gè)數(shù);FN為負(fù)樣本判為正的個(gè)數(shù)。

        3.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        為找到最適合模型的學(xué)習(xí)率,在CHIP2020關(guān)系抽取數(shù)據(jù)集上使用了不同的學(xué)習(xí)率進(jìn)行訓(xùn)練和評(píng)估,Batch_size大小設(shè)置為4。具體來說,我們嘗試了1×10-5、1×10-6、1×10-6、2×10-64種不同的學(xué)習(xí)率,結(jié)果如表4所示。

        表4 CHIP2020數(shù)據(jù)集不同學(xué)習(xí)率下結(jié)果

        根據(jù)表4的結(jié)果可以看出,在不同學(xué)習(xí)率下的F1值不同。通過觀察可以發(fā)現(xiàn)在CHIP2020關(guān)系抽取數(shù)據(jù)集中,學(xué)習(xí)率為0.000 01時(shí)模型表現(xiàn)最佳,F(xiàn)1值為60.418%。因此,在模型訓(xùn)練過程中,設(shè)置學(xué)習(xí)率為0.000 01。

        本次實(shí)驗(yàn)?zāi)P蛥?shù)設(shè)置見表5,其中BERT編碼器版本為chinese-bert-wwm-ext,ERNIE編碼器版本為ERNIE-Health。

        表5 模型參數(shù)設(shè)置

        3.4 實(shí)驗(yàn)結(jié)果分析

        為了驗(yàn)證AMFRel模型的效果,在CHIP2020關(guān)系抽取數(shù)據(jù)集和糖尿病數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并將其與基線模型進(jìn)行對(duì)比。這些基線模型有PRGC[30]:使用token-pair進(jìn)行分類,是一個(gè)基于潛在關(guān)系和全局指針網(wǎng)絡(luò)的實(shí)體關(guān)系聯(lián)合抽取框架;SPN[31]:將關(guān)系抽取看作一個(gè)seq2seq問題,屬于聯(lián)合抽取中的多任務(wù)學(xué)習(xí)方法;GRTE[32]:使用表格填充的方式,并考慮全局信息來進(jìn)行三元組抽??;CASREL[17]:采用級(jí)聯(lián)二進(jìn)制方法,首先識(shí)別出主語,再識(shí)別出特定關(guān)系下的賓語,最后抽取出三元組。

        表6展示了CHIP2020關(guān)系抽取數(shù)據(jù)集的基線、PRGC、SPN、GRTE、CASREL、CASRELERNIE模型在CHIP2020關(guān)系抽取數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

        表6 CHIP2020數(shù)據(jù)集上各模型結(jié)果%

        表7展示了糖尿病數(shù)據(jù)集在PRGC、SPN、GRTE、CASREL和CASRELERNIE模型上的結(jié)果。

        表7 糖尿病數(shù)據(jù)集上各模型結(jié)果%

        表6和表7的結(jié)果表明,AMFRelBERT模型在CHIP2020關(guān)系抽取數(shù)據(jù)集中取得了59.537%的F1值,超越該數(shù)據(jù)集提供的基線。此外,將AMFRelBERT模型與基于潛在關(guān)系和全局指針網(wǎng)絡(luò)的關(guān)系抽取模型PRGC、基于seq2seq的關(guān)系抽取模型SPN、基于表格填充的關(guān)系抽取模型GRTE和基于級(jí)聯(lián)二進(jìn)制結(jié)構(gòu)的關(guān)系抽取模型CASREL進(jìn)行了對(duì)比,在以Chinese-bert-wwm-ext作為預(yù)訓(xùn)練模型的前提下,AMFRelBERT模型在CHIP2020關(guān)系抽取數(shù)據(jù)集和糖尿病數(shù)據(jù)集上的準(zhǔn)確率、召回率以及F1值這3個(gè)指標(biāo)均有所提升。

        具體而言,在CHIP2020關(guān)系抽取數(shù)據(jù)集上,與CASREL模型相比,AMFRelBERT在精確度、準(zhǔn)確率和F1值上分別提高了3.901%、1.298%和1.374%;在糖尿病數(shù)據(jù)集上,AMFRelBERT相對(duì)于CASREL模型在精確度、準(zhǔn)確率和F1值上分別提升了2.792%、3.028%和1.936%。這表明,在模型中融入多結(jié)構(gòu)特征并引入對(duì)抗擾動(dòng)對(duì)提升三元組的抽取性能是有效的。

        此外,相較于AMFRelBERT,AMFRelERNIE在2個(gè)數(shù)據(jù)集上的F1值分別提升了0.881%和1.377%。這是因?yàn)镋RNIE-Health采用了與傳統(tǒng)BERT不同的屏蔽策略,并且該預(yù)訓(xùn)練模型使用醫(yī)療相關(guān)的數(shù)據(jù)進(jìn)行訓(xùn)練,從而更適用于醫(yī)療文本的關(guān)系抽取。這也進(jìn)一步證明了AMFRel模型在醫(yī)療文本關(guān)系抽取方面具有較好的表現(xiàn)。

        3.5 消融實(shí)驗(yàn)

        為了驗(yàn)證本文模型中各個(gè)模塊的有效性,在CHIP2020關(guān)系抽取數(shù)據(jù)集和糖尿病數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8、表9所示。

        表8 CHIP2020數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果%

        表9 糖尿病數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果%

        從表中結(jié)果可以看出,在移除本文模型中的對(duì)抗訓(xùn)練后,CHIP2020關(guān)系抽取數(shù)據(jù)集和糖尿病數(shù)據(jù)集上的F1值分別下降了0.713%和1.084%。這表明移除對(duì)抗訓(xùn)練會(huì)降低模型抽取三元組的性能。另外,移除詞性特征后,CHIP2020關(guān)系抽取數(shù)據(jù)集和糖尿病數(shù)據(jù)集上的F1值分別下降了0.515%和0.704%。這是由于醫(yī)療三元組中的實(shí)體及關(guān)系基本都是名詞或動(dòng)詞,去掉詞性信息會(huì)導(dǎo)致模型無法獲取更深層次的語義特征,從而導(dǎo)致性能下降。最后,移除信息融合模塊后,CHIP2020關(guān)系抽取數(shù)據(jù)集和糖尿病數(shù)據(jù)集上的F1值分別下降了0.732%和1.356%。這說明信息融合模塊能夠提升模型在醫(yī)療文本三元組抽取方面的性能,驗(yàn)證了該模塊的有效性。

        4 結(jié)論

        提出了一種基于對(duì)抗學(xué)習(xí)與多特征融合的中文電子病歷實(shí)體關(guān)系聯(lián)合抽取模型AMFRel,旨在解決關(guān)系抽取時(shí)因醫(yī)療文本實(shí)體密度大且實(shí)體間關(guān)系復(fù)雜而導(dǎo)致醫(yī)療名詞識(shí)別不準(zhǔn)確的問題。該模型利用融合了詞性特征的文本編碼向量抽取主語,并通過信息融合模塊獲取更加豐富的文本結(jié)構(gòu)特征,從而更有效地進(jìn)行關(guān)系與相應(yīng)賓語的抽取,最終得到了醫(yī)療文本的三元組信息。此外,模型還利用對(duì)抗訓(xùn)練緩解指針網(wǎng)絡(luò)進(jìn)行標(biāo)注時(shí)帶來的實(shí)體邊界識(shí)別不穩(wěn)定問題。實(shí)驗(yàn)結(jié)果表明,該模型在F1值上的表現(xiàn)優(yōu)于其他模型,證明了AMFRel模型能夠有效識(shí)別中文醫(yī)療文本中的復(fù)雜關(guān)系。在未來的研究中將嘗試引入更加豐富的結(jié)構(gòu)特征,并進(jìn)行深入探索,進(jìn)一步增強(qiáng)關(guān)系抽取效果。

        猜你喜歡
        特征文本融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产精品自在拍在线拍| 亚洲中文字幕乱码在线观看| 国产乱人精品视频av麻豆网站| 日本少妇春药特殊按摩3| 色欲av亚洲一区无码少妇| 亚洲国产精品线观看不卡| 国产精品高清一区二区三区人妖| 国产在线一区二区三区四区 | 亚洲av色在线播放一区| 精品伊人久久大线蕉色首页| 最新国产av无码专区亚洲| 97久久久久国产精品嫩草影院| 久久精品伊人久久精品伊人| 成人无码一区二区三区| 老师翘臀高潮流白浆| 91最新免费观看在线| 日韩av一区二区无卡| 久久婷婷五月综合色奶水99啪| 亚洲日本中文字幕天天更新| 日韩亚洲制服丝袜中文字幕| 国产av一区麻豆精品久久| 国产精品天天看天天狠| 亚洲精品无码乱码成人| 久久久久久无中无码| 亚洲av少妇一区二区在线观看| 97精品人人妻人人| 色老汉免费网站免费视频| 一本色道久久综合中文字幕| 国产在线观看午夜视频| 亚洲精品久久久久中文字幕| 国产三级在线视频播放| 亚洲区一区二区三区四| 久久精品国产亚洲片| 蜜桃网站免费在线观看视频 | 少妇高潮太爽了在线视频| 女人夜夜春高潮爽a∨片传媒| 91精品国产高清久久久久| 亚洲国产免费不卡视频| 亚洲日韩一区精品射精| 亚洲AV秘 无码一区二区三区臀 | 真人做人试看60分钟免费视频|