趙青,王丹,徐書世,張曉桐,王曉曦
(1.北京工業(yè)大學(xué) 信息學(xué)部,北京 100124; 2.紐約州立大學(xué) 賓哈姆頓大學(xué),紐約 13902; 3.國家電網(wǎng)管理學(xué)院,北京 102200)
醫(yī)療電子病歷(electronic medical records, EMR)目前已經(jīng)成為實(shí)施疾病治療和醫(yī)療保健的基礎(chǔ),它包含了大量與患者相關(guān)的病程記錄,因此被廣泛地應(yīng)用于各個醫(yī)療保健相關(guān)的領(lǐng)域[1]。調(diào)查發(fā)現(xiàn),接近83%的醫(yī)生表示他們目前都在使用EMR系統(tǒng)或者準(zhǔn)備使用[2]。在與EMR相關(guān)的語義信息挖掘任務(wù)中,命名實(shí)體識別(named entity recognition, NER)是基礎(chǔ),也是至關(guān)重要的一個步驟,例如:知識圖譜構(gòu)建[3]、文本檢索[4]、文本分類[5]和信息抽取[6]等領(lǐng)域中都需要識別命名實(shí)體。
命名實(shí)體識別可以看作是一個序列標(biāo)注任務(wù)[7-8],通過提取出來的信息來查找實(shí)體并將其分為一組固定的類別。傳統(tǒng)實(shí)現(xiàn)NER的2種方法是基于規(guī)則的學(xué)習(xí)方法和有監(jiān)督的學(xué)習(xí)方法,其中有監(jiān)督的學(xué)習(xí)方法占主導(dǎo)地位?;谝?guī)則學(xué)習(xí)的解決方法是假設(shè)可用的訓(xùn)練數(shù)據(jù)已全部標(biāo)記(即所有包含在文檔中的實(shí)體都被標(biāo)記)的前提下,再從文檔中找到候選實(shí)體的標(biāo)簽序列。
目前,中文醫(yī)療領(lǐng)域的命名實(shí)體識別問題依然面臨很多挑戰(zhàn),主要原因如下:1)醫(yī)療電子病歷中大部分是半結(jié)構(gòu)或非結(jié)構(gòu)化的數(shù)據(jù),并且很多信息是敘述性的,無結(jié)構(gòu)信息,不適用于單純利用語法結(jié)構(gòu)上下文特征進(jìn)行醫(yī)療概念的發(fā)現(xiàn)和抽?。?)醫(yī)學(xué)術(shù)語通常具有模糊性和表達(dá)不一致的特點(diǎn),例如:“慢性阻塞性肺疾病”也可以縮寫為COPD(chronic obstructive pulmonary disease),這會造成特征維度高、計算量大;3)需要大量人工標(biāo)注的語料庫作為訓(xùn)練集,且大多數(shù)傳統(tǒng)NER方法是通過詞向量來提取特征的,這在中文醫(yī)療文本中會導(dǎo)致部分語義信息割裂,并且數(shù)據(jù)量越大消耗的人工標(biāo)注量就越多,因此很難在現(xiàn)實(shí)中得到廣泛應(yīng)用。
近年來,深度學(xué)習(xí)因其在圖像處理、音頻識別、自然語言處理等領(lǐng)域的優(yōu)異表現(xiàn)吸引了大量的關(guān)注,表現(xiàn)了其良好的圖像、音頻的特征信息抽取能力,同時在NLP(natural language processing)領(lǐng)域的應(yīng)用也越來越多[9-10]。深度學(xué)習(xí)的主要特點(diǎn)是通過其自身的深層網(wǎng)絡(luò)結(jié)構(gòu)來自主地學(xué)習(xí)更深層的特征及規(guī)律,因此可以大大減輕人工標(biāo)注的時間,并且具有較強(qiáng)的魯棒性和泛化性。其中循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)是一個序列模型,它具有時序記憶的特點(diǎn),能夠考慮詞與詞之間的順序,從而能將詞與詞之間的語義聯(lián)系體現(xiàn)出來,因此可以較好地應(yīng)用于序列標(biāo)注的任務(wù)中。目前,深度學(xué)習(xí)在NER任務(wù)中的應(yīng)用并不少見,但大多數(shù)是關(guān)于英文醫(yī)療領(lǐng)域的,在中文領(lǐng)域中的成果尚不多見,仍需學(xué)者們不斷研究和擴(kuò)展。
針對以上問題,本文提出了一種結(jié)合醫(yī)療本體語義知識和標(biāo)注數(shù)據(jù)集的弱監(jiān)督方法來處理訓(xùn)練語料標(biāo)注不全的NER任務(wù)。首先,基于現(xiàn)有的醫(yī)療本體提取語義特征,并在語義特征的基礎(chǔ)上提取字符特征,再利用RNN模型時序記憶的特點(diǎn)來提取命名實(shí)體相關(guān)的上下文信息,并將提取的特征作為訓(xùn)練模型RNN的輸入,最后通過softmax獲得中文醫(yī)療文本中的標(biāo)簽序列。1)結(jié)合醫(yī)療領(lǐng)域廣泛存在的醫(yī)療本體進(jìn)行醫(yī)療文本的語義概念特征抽取,將其與現(xiàn)有的詞與字向量特征進(jìn)行融合在一起,通過基于RNN的弱監(jiān)督學(xué)習(xí)方法進(jìn)行命名實(shí)體識別,提高了中文醫(yī)療命名實(shí)體識別的準(zhǔn)確率。2)基于某醫(yī)院真實(shí)臨床文本數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證,將本文提出的基于語義特征融合的弱監(jiān)督學(xué)習(xí)方法與現(xiàn)有概念實(shí)體識別方法進(jìn)行了性能對比,對實(shí)驗(yàn)結(jié)果進(jìn)行了分析與討論。
在1996年的MUC-6會議上命名實(shí)體首次被提后,NER在英文領(lǐng)域的應(yīng)用逐漸成熟?,F(xiàn)有的大多數(shù)NER工作是基于假設(shè)沒有領(lǐng)域本體知識的情況下,主要通過標(biāo)注的訓(xùn)練集來學(xué)習(xí)。例如Li等[11]訓(xùn)練了條件隨機(jī)場(conditional random fields, CRF)和支持向量機(jī)(support vector machines, SVM)2種分類模型。結(jié)果表明,CRF的性能比SVM高。Lei等[12]構(gòu)建并對比了CRF、SVM、最大熵馬爾可夫(MEMM)和結(jié)構(gòu)化的支持向量機(jī)(SSVM)4種模型,并在醫(yī)療數(shù)據(jù)集中對4類實(shí)體進(jìn)行了實(shí)體識別,其中SSVM的準(zhǔn)確率最高。何林娜等[13]提出了一種基于特征耦合泛化(feature coupling generalization,F(xiàn)CG)的實(shí)體識別方法并結(jié)合CRF來自動的識別醫(yī)療文獻(xiàn)中的藥物名稱。
雖然CRF在大多數(shù)NER任務(wù)上都取得了較高的準(zhǔn)確率,但是該方法的特征選擇過程較為繁瑣,隨著特征的增多模型會變得尤為復(fù)雜,從而造成召回率的急劇下降,可移植性差。近年來,基于深度學(xué)習(xí)的NER工作也相繼展開。Guillaume等[14]提出了一種基于長短時記憶網(wǎng)絡(luò)(long short term memory, LSTM)和CRF結(jié)合的命名實(shí)體識別方法,用來識別英文人名、地名等實(shí)體。Dong等[15]提出了利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)進(jìn)行特征提取的方法來進(jìn)行命名實(shí)體識別。Li等[16]使用RNN并結(jié)合詞字特征來構(gòu)建醫(yī)療領(lǐng)域的命名實(shí)體識別模型。楊培等[17]提出了一種基于字詞特征并結(jié)合注意力機(jī)制的實(shí)體識別方法,該方法通過神經(jīng)網(wǎng)絡(luò)LSTM來訓(xùn)練實(shí)體識別分類器,并采用CRF產(chǎn)生最后的實(shí)體標(biāo)簽分類結(jié)果。
顯然,通過這些方法獲得的命名實(shí)體識別分類器的知識僅來源于作為訓(xùn)練集的標(biāo)注語料庫,從而造成其性能對大規(guī)模充分標(biāo)注的數(shù)據(jù)有很強(qiáng)的依賴性。本文的工作充分考慮醫(yī)療領(lǐng)域大量醫(yī)療本體存在的事實(shí)和中文醫(yī)療文本自身的特點(diǎn),通過從已有的醫(yī)療本體中獲取部分命名實(shí)體知識并與訓(xùn)練集中已標(biāo)注的知識相結(jié)合來進(jìn)行序列學(xué)習(xí)分類器的構(gòu)建,有效提高了準(zhǔn)確率。
本文提出的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語義和字符向量結(jié)合的命名實(shí)體識別模型整體結(jié)構(gòu),如圖1所示。
圖1 基于RNN的語義和字符向量相結(jié)合的命名實(shí)體識別模整體結(jié)構(gòu)Fig.1 The model architecture of combining semantic and character embedding based on RNN
1.1.1 語義向量特征表示
語義特征包含概念特征和詞特征2個部分。其中,概念是指由多個包含語義的單獨(dú)詞匯組成的一個特殊的領(lǐng)域術(shù)語,例如,慢性阻塞性肺疾病。詞是指一個單獨(dú)的語義詞匯,例如,困難。本文對于那些能夠從領(lǐng)域本體里映射出概念的,就提取概念特征;對那些不能提取概念的直接提取詞特征,最后通過CBOW(continuous bag-of-words model)模型提取語義特征。
1)概念特征表示。
由于醫(yī)療術(shù)語通常是由多個詞組成,僅考慮詞特征會使語義信息割裂,因此在本文的方法中加入了概念特征。首先,將所有稀疏標(biāo)記的語料庫根據(jù)特殊符號切分成較短的漢子字符串(包括標(biāo)點(diǎn)符號、數(shù)字和空格符)并去除停用詞;其次,將預(yù)處理后的字符串映射在構(gòu)建好的醫(yī)療本體中,通過最大匹配法來提取本體中的概念;最后,采用一種基于本體計算概念特征相似度的方法來降低語義特征的維度,從而減少計算量。具體流程如算法1所示。
算法1概念特征提取
輸入:數(shù)據(jù)集D(包含已標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集),本體O;
輸出:概念特征。
1)進(jìn)行概念特征提取;
2)通過特殊符號將數(shù)據(jù)集D切分為漢字字符串L,L=(L1,L2,…,Ln);
3)將字符串L映射到本體O;
4)For 匹配字符串L中的每一個字符;
5)如果Lmax=Llen(Lmax為字符串的最大初始匹配長度,Llen為字符串的長度);
6) 則字符串整體為一個概念;
7) 如果Lmax 則i=1 (i為字符串中字符的位置); 8) 如果L1 9) 則i=i+1; 10)直到匹配到Li=Lmax, 11)End for 12) 將Lmax從L中抽取出來,并將Lmax的左右兩邊分為2個新的待切分字符串。 2)詞特征表示。 將詞輸入到模型中是深度學(xué)習(xí)方法在處理NLP任務(wù)時的首要步驟,因?yàn)樗軌驈拇罅恳褬?biāo)注和未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)到有用的語義和語法信息。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常采用詞袋模型(bag of words)表示詞向量特征。例如,One-hot Representation[18],該模型在處理離散數(shù)據(jù)時有一定的優(yōu)勢,但是它沒有考慮詞與詞之間的順序,因此,不能很好地體現(xiàn)出詞與詞之間的語義聯(lián)系,不適用于實(shí)體識別這樣的序列標(biāo)注任務(wù);其次,隨著數(shù)據(jù)量的增大,特征維度將會呈現(xiàn)爆炸式增長,會給后期的運(yùn)算帶來很大的壓力。與高維、稀疏的詞袋模型相比,分布式詞向量表示具有低維,密集的特點(diǎn)更適用于實(shí)體識別任務(wù)。 目前常用的分布式詞向量表示模型有word2vec[19]和GolVe[20]等,本文采用word2vec中的CBOW模型來提取語義特征。CBOW的訓(xùn)練目標(biāo)使平均對數(shù)的概率最大化: (1) 式中:K為數(shù)據(jù)集D中目標(biāo)詞的上下文信息;yi為數(shù)據(jù)集D中的語義。 1.1.2 字符向量特征表示 字符是中文中最自然的語言單位[21],與詞不同,字符主要關(guān)注的是詞語拼寫的特點(diǎn)而不是詞語本身的語義。由于中文不間斷的書寫特性,字符向量也能夠表達(dá)詞語的語義信息,例如:“瘦弱”一詞,既可以根據(jù)上下文來判斷該詞的語義特征,也可以通過該詞的字符“瘦”和“弱”來直接判斷語義。因此,在中文命名實(shí)體識別的任務(wù)中,字符向量不僅可以輔助判斷語義特征還可以通過字意達(dá)到預(yù)測新詞的效果。 本文采用CEW[22](character-enhanced word embeddding)模型來學(xué)習(xí)字符特征并結(jié)合語義特征一起進(jìn)行訓(xùn)練。該模型在word2vec的CBOW模型的基礎(chǔ)上進(jìn)行了改進(jìn)。結(jié)合語義向量和字符向量的CWE模型具體的計算方式為: (2) 式中:yi為語義Yi的語義向量;zk為yn中第k個字符向量;yn為語義Yi所包含的字符個數(shù);Qi由語義向量和其平均字符向量組合運(yùn)算得出。 組合運(yùn)算?有2個運(yùn)算方式:相加或者結(jié)合計算。相加就是將語義向量和字符向量的平均值相加,其中語義向量和字符向量位數(shù)相等,如|yi|=|zk|。另一方面,也可以通過結(jié)合的方式,詞向量和字符向量的平均值相加得到Qi,并且Qi的向量維度為|yi|+|zk|。通過實(shí)驗(yàn)證明,2種運(yùn)算方法的性能差別不大,但在效率方面,相對于結(jié)合運(yùn)算方法的維度高、復(fù)雜性大的特點(diǎn),加法的運(yùn)算效率更高。因此,本文采用了相加的運(yùn)算方法來提取字符向量: (3) 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[23]是一個序列模型,每個神經(jīng)元不僅能夠沿層間向上傳遞信息,還可以傳輸給下一個序列,因此比其他的神經(jīng)網(wǎng)絡(luò)更適用于序列標(biāo)注的任務(wù)。RNN具有一個隱藏單元,即: ht=σ(Wxt+Uht-1+b) (4) 式中:ht為t時刻的輸出,由輸入xt在t-1時刻的ht-1隱藏單元一起決定;σ為激活函數(shù),例如sigmoid、tanch或者ReLU (rectified liner unit)等;W、U為權(quán)重向量;b為偏差向量。 理論上,RNN是可以處理任意長度的序列標(biāo)注任務(wù)。然而,實(shí)驗(yàn)表明:由于RNN的存儲記憶功能過于簡單,隨著序列長度的增加會產(chǎn)生梯度消失或者梯度爆炸的問題,因此RNN不能夠?qū)W習(xí)與當(dāng)前時刻較遠(yuǎn)的信息。為了解決這個問題,LSTM和GRU (gate recurrent unit) 模型被相繼提出。 長短時記憶網(wǎng)絡(luò)(LSTM)在1997年被Hochreiter和Schmidhuber提出,主要為了解決RNN的梯度消失問題[24]。LSTM能夠處理無界任意長度的順序輸入,并返回輸入中每個步驟的序列信息。相對于傳統(tǒng)的RNN模型,LSTM可以處理長期依賴的問題,在每個時刻步驟中都包含了控制門(輸入門、遺忘門和輸出門),允許網(wǎng)絡(luò)忘記、記憶和更新上下文記憶,并減輕了梯度消失等問題。 (5) (6) ht=ot⊙g(ct) (7) it=σ(Wixt+Uiht-1+bi) (8) ft=σ(Wfxt+Ufht-1+bf) (9) ot=σ(Woxt+Uoht-1+bo) (10) 式中:it、ft、ot分別為時間節(jié)點(diǎn)t的輸入、遺忘、輸出門;σ為非線性函數(shù)。每一個控制門的參數(shù)都由2個矩陣和1個偏差向量組成,因此,3個控制門的矩陣參數(shù)分別為Wi、Ui、Wf、Uf、Wo、Uo,偏差參數(shù)為bi、bf、bo。LSTM的記憶單元參數(shù)分別為Wc、Uc和bc。這些參數(shù)在訓(xùn)練和儲存時的每一步都進(jìn)行更新。 門控神經(jīng)網(wǎng)絡(luò)(GRU)與LSTM的目標(biāo)一樣,都是為了解決RNN長期記憶和反向傳播中的梯度消失或者爆炸問題。不同的是,GRU將LSTM中3個控制門整合為更新門和重置門[25]。GRU的整體結(jié)構(gòu)為: (11) (12) zt=σ(Wzxt+Uzht-1+bz) (13) rt=σ(Wrxt+Urht-1+br) (14) 式(13)和式(14)分別代表GRU的2個控制門,其中zt代表更新門,rt代表重置門。GRU降低了LSTM的模型結(jié)構(gòu)的復(fù)雜度,并且減少了訓(xùn)練參數(shù)從而降低訓(xùn)練難度,因此,GRU也是當(dāng)前神經(jīng)網(wǎng)絡(luò)中流行的算法。本文同樣采取雙向GRU(BGRU)來獲得與當(dāng)前時刻相關(guān)的上下文信息。 如圖1所示,本文的模型采用了深度學(xué)習(xí)模型RNN并結(jié)合了語義特征和字符特征,將現(xiàn)有的醫(yī)療本體與訓(xùn)練集相結(jié)合來獲取命名實(shí)體知識。由于醫(yī)療術(shù)語大多是由多個詞組成,僅考慮詞特征會造成語義信息割裂,因此首先基于本體提取概念特征,對于不能提取概念特征的直接進(jìn)提取詞特征,概念特征和詞特征統(tǒng)稱為語義特征。 由于在中文中,大部分字符本身就含有一些語義信息,例如:疼痛,即使該詞在訓(xùn)練預(yù)料庫里從未出現(xiàn)過,也可以根據(jù)該詞的字面信息“疼”和“痛”來判斷語義,因此在語義特征的基礎(chǔ)上提取了字符特征。對于因醫(yī)療術(shù)語表達(dá)不一致所造成的特征維度高、計算量大的問題,本文通過一種基于本體計算概念特征相似度的方法來降低語義特征的維度,以而減少計算量。 本方法的主要目的是通過提取不同粒度的文本特征來提高命名實(shí)體識別的準(zhǔn)確率。整體流程如算法2所示。 算法2基于RNN的弱監(jiān)督實(shí)體識別 輸入:數(shù)據(jù)集D(包含已標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集),本體O; 輸出:命名實(shí)時識別的預(yù)測標(biāo)簽。 1) For 對于切分好的語義集(包含概念集和詞集){G1,G2,…,GN}∪{C1,C2,…,CN}∈Y; 3) End For 4) For對于每一個語義特征 yi∈(y1,y2,…,yn)提取字符特征 6) End For 7) 將融合字符特征的語義特征映射到本體O; 8) If 有概念特征gi和gk對應(yīng)本體概念oi∈O; 9) 通過余弦相似度計算gi和gk到本體概念oi的相似度距離; 10) Else If 小于相似度閾值α; 11)gi和gk分別為本體中的一個獨(dú)立概念(α的取值范圍在0.82~0.92,由于實(shí)驗(yàn)中α為0.87時誤差最小,因此設(shè)為0.87); 12) Else If大于相似度閾值α; 13) 認(rèn)為yj和yk為同一個概念; 14) 初始化:RNN訓(xùn)練模型。 其中,1)、2)為CBOW的語義特征提取,4)、5)為用CEW的方法提取字符特征,7)、13)為基于本體計算概念特征相似度的方法來降低語義特征的維度,14)為啟用RNN相關(guān)模型來進(jìn)行實(shí)體標(biāo)簽預(yù)測。 本文采用了合作醫(yī)院的真實(shí)數(shù)據(jù)集,共15 589份電子病歷,包含普通外科、內(nèi)科等17類疾病。每份病歷包含入院、出院、病程3分記錄,由主訴、既往史、檢查、治療手段4部分組成。表1為電子醫(yī)療病歷數(shù)據(jù)集的構(gòu)成。 表1 電子醫(yī)療病歷語料庫的統(tǒng)計Table 1 Statistics of EMR corpus 實(shí)驗(yàn)中將電子醫(yī)療病歷數(shù)據(jù)集分為:訓(xùn)練集(已標(biāo)注)、訓(xùn)練集(未標(biāo)注)、驗(yàn)證集(用于調(diào)整模型的超參數(shù))和測試集(用來評估模型的泛化性)。已標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)標(biāo)注任務(wù)是由醫(yī)生與醫(yī)學(xué)相關(guān)專業(yè)的學(xué)生共同完成的。為了克服單獨(dú)測試結(jié)果過于片面以及訓(xùn)練數(shù)據(jù)不足的問題,本文在訓(xùn)練時采用5折交叉的方法,每次選取4個子集作為訓(xùn)練集,1個子集作為驗(yàn)證集,不斷重復(fù),直到所有的子集都作為訓(xùn)練集和驗(yàn)證集并且完成訓(xùn)練。 表2為模型的超參數(shù)設(shè)置,對于字符少于4位的進(jìn)行補(bǔ)0操作,采用隨機(jī)梯度下降算法(stochastic gradient descent, SGD)對模型進(jìn)行優(yōu)化。為了防止過擬合,在模型的每層加入了批次正則化(bath normalization),并且引入了dropout訓(xùn)練策略[26]。大量實(shí)驗(yàn)證明,該方法能夠在不同程度上有效防止過擬合現(xiàn)象。 表2 模型在實(shí)驗(yàn)中的超參數(shù)Table 2 The hyper-parameters of model in experiment 在全部的數(shù)據(jù)集中,實(shí)體分為如下4類: 1)疾?。喊娮硬v中病人的現(xiàn)病史、既往史、家族病史和醫(yī)生根據(jù)患者的身體狀況做出的診斷。例如:慢性肺源性心臟病、急性阻塞性肺疾病、高血壓等。 2)癥狀:表示患者向醫(yī)生陳訴(或者別人代訴)的不適感覺或異常感覺,也包括嚴(yán)重程度的修飾成分。例如:喘息、頭痛、惡心等。 3)檢查:指通過實(shí)驗(yàn)室檢查或體格檢查來判斷患者所患疾病。例如:胸部X線、血常規(guī)、肺功能等。 4)治療:指治愈疾病、緩解或改善癥狀所用的治療方法。例如:藥物、呼吸機(jī)、手術(shù)等。 考慮到實(shí)體識別也是一個序列標(biāo)注任務(wù),由于醫(yī)療實(shí)體通常由多個詞組成,因此本文采用廣泛應(yīng)用的BIESO標(biāo)簽機(jī)制:O表示不屬于任何概念的實(shí)體,B、I、E分別表示一個實(shí)體的第一個詞、中間詞和結(jié)尾詞。S代表該詞本身就是一個實(shí)體。 本文采用實(shí)體識別常用的幾個評價標(biāo)準(zhǔn)來衡量本文提出方法的有效性:準(zhǔn)確率(precision)、召回率(recall)和F1值。 準(zhǔn)確率指正確識別出的命名實(shí)體占總識別出的比例,召回率是指正確識別出的命名實(shí)體數(shù)量占文件中所包含的實(shí)體數(shù)量的比例。設(shè)置A為被成功識別出的實(shí)體數(shù)量,B為未被成功識別出的實(shí)體數(shù)量,C為模型錯誤地將非命名實(shí)體識別為命名實(shí)體的數(shù)量。 準(zhǔn)確率為: (15) 召回率為: (16) 準(zhǔn)確率和召回率并不總是同時達(dá)到峰值(它們甚至常常呈負(fù)相關(guān))。為了在這2個標(biāo)準(zhǔn)之間做出權(quán)衡,實(shí)驗(yàn)也采用了考慮這2個標(biāo)準(zhǔn)的F1測度來衡量實(shí)體識別的有效性: (17) 本文實(shí)驗(yàn)分為3個部分:首先,對比CRF、Rule-base、SVM 3種傳統(tǒng)方法與本文提出的基于RNN的語義和字符特征結(jié)合的方法的性能,即分別對全部已標(biāo)數(shù)據(jù)集和加入部分未標(biāo)數(shù)據(jù)集的識別性能進(jìn)行了對比;其次,為了說明概念特征在中文醫(yī)療命名實(shí)體識別任務(wù)中的重要性,對基于RNN的詞字向量結(jié)合模型和基于RNN的語義和字符向量結(jié)合模型進(jìn)行了對比;最后,對RNN相關(guān)的3種模型(RNN、LSTM和GRU)的性能進(jìn)行比較。 表3和表4為CRF、Rule-based、SVM方法與本文基于RNN的語義和字符向量結(jié)合的弱監(jiān)督方法在全部已標(biāo)注數(shù)據(jù)集與加入未標(biāo)注數(shù)據(jù)集的性能對比結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于RNN的方法優(yōu)于其他3種傳統(tǒng)方法。在全部已標(biāo)數(shù)據(jù)集和加入未標(biāo)數(shù)據(jù)集中,基于BGRU的詞字向量結(jié)合模型的效果是最好的,分別達(dá)到了86.35%和84.54%。不同的是,在表3全部已標(biāo)注數(shù)據(jù)集中,本文方法只比傳統(tǒng)方法的準(zhǔn)確率提高了1.5%~4.2%,這說明傳統(tǒng)方法在處理有監(jiān)督學(xué)習(xí)任務(wù)時也有不錯的表現(xiàn)。但是,由表4可以看出,在加入未標(biāo)數(shù)據(jù)集后,本文方法比著傳統(tǒng)方法的準(zhǔn)確率提高了2.2%~6.1%。由此可以看出,RNN相關(guān)模型的時序記憶功能對弱監(jiān)督的實(shí)體識別任務(wù)有著非常重要的影響??偟膩碚f,在訓(xùn)練語料庫不充分時本文方法表現(xiàn)更好,這十分有助于解決如今大量人工標(biāo)注耗時耗力的問題。 表3 傳統(tǒng)方法與基于RNN的語義和字符向量結(jié)合模型在全部已標(biāo)數(shù)據(jù)集上的性能對比Table 3 The comparison of the performance between the model of combining semantic and character embedding base on RNN and traditional methods on fully labeled dataset 表4 傳統(tǒng)方法與基于RNN的語義和字符向量結(jié)合模型在部分未標(biāo)數(shù)據(jù)集上的性能對比Table 4 The comparison of the performance between combining semantic and character embedding base on RNN model and traditional methods on a part of unlabeled dataset 表5和表6分別描述了基于RNN的詞字向量結(jié)合模型和基于RNN的語義和字符向量結(jié)合模型在全部已標(biāo)數(shù)據(jù)集上的性能對比。從實(shí)驗(yàn)結(jié)果可以看出,語義和字符向量結(jié)合模型比詞字向量結(jié)合模型的準(zhǔn)確率提高了0.62%。由此可以說明,在中文醫(yī)療領(lǐng)域的命名實(shí)體識別任務(wù)中概念特征也是非常重要的,因?yàn)樗軌蚍乐拐Z義信息割裂,保持語義的完整性。從表6中可以觀察到,在基于RNN的語義和字符向量結(jié)合模型中BiLSTM和BGRU的表現(xiàn)都比BRNN好,這也驗(yàn)證了前文提到的RNN模型不能處理較長序列的任務(wù),因?yàn)殡S著序列長度的不斷增加會出現(xiàn)梯度消失或者爆炸的情況??偟膩碚f:基于RNN相關(guān)模型的弱監(jiān)督方法由于具有時序記憶功能更適合處理實(shí)體識別等序列標(biāo)注的任務(wù),尤其針對訓(xùn)練語料庫不全的情況;在命名實(shí)體識別的任務(wù)中,概念特征能夠防止語義信息割裂,提高命名實(shí)體的準(zhǔn)確率;在RNN相關(guān)的模型中,由于BRNN不能處理較長序列任務(wù),因此比BiLSTM和BGRU方法的性能低。其次,本文提出的命名實(shí)體識別方法也存在一定的局限性:對領(lǐng)域本體的依賴性較高,本文提出的概念特征是從本體中獲取的,高質(zhì)量的語義特征抽取依賴于高質(zhì)量的外部領(lǐng)域本體庫。分類器構(gòu)建的學(xué)習(xí)過程中計算復(fù)雜性較高,例如一個字符串在本體中可能會匹配出多個概念,而且特征融合造成特征維度的增加也會增加分類器構(gòu)建的學(xué)習(xí)時間。由于目前公開的中文電子病歷數(shù)據(jù)集很難獲取到,因此本文的實(shí)驗(yàn)部分只在合作醫(yī)院提供的數(shù)據(jù)集上進(jìn)行。 表5 基于RNN的詞字向量結(jié)合模型Table 5 Model of combining word and character embedding base on RNN 表6 基于RNN的語義和字符向量結(jié)合模型Table 6 Combining semantic and character embedding base on RNN model 1)從醫(yī)療本體中提取概念特征可以保持中文術(shù)語語義的完整性,并降低人工標(biāo)注成本,提高命名實(shí)體識別的準(zhǔn)確率。 2)通過實(shí)驗(yàn)表明,相比BRNN、BiLSTM和BGRU更擅長處理較長序列的文本。 3)基于真實(shí)臨床醫(yī)療文本挖掘的實(shí)驗(yàn)驗(yàn)證了本文提出的方法在實(shí)際應(yīng)用中的有效性。 在未來的工作中,將會進(jìn)一步考慮命名實(shí)體識別的時間復(fù)雜性,通過將一個字符串匹配出的多個相關(guān)概念進(jìn)行相關(guān)度排序,來降低特征維度,從而提高分類器學(xué)習(xí)的速度;同時將繼續(xù)尋找適用于中文醫(yī)療文本挖掘的公開評測數(shù)據(jù)集進(jìn)行更全面的性能比較和算法的改進(jìn)研究。1.2 基于RNN的弱監(jiān)督實(shí)體識別模型
2 實(shí)驗(yàn)和結(jié)果
2.1 數(shù)據(jù)集和參數(shù)設(shè)置
2.2 實(shí)體類型和標(biāo)簽機(jī)制
2.3 評價標(biāo)準(zhǔn)
2.4 實(shí)驗(yàn)結(jié)果
3 結(jié)論