田家源,楊東華,2+,王宏志
1.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001
2.哈爾濱工業(yè)大學(xué) 基礎(chǔ)與交叉科學(xué)研究院,哈爾濱 150001
醫(yī)學(xué)信息化是當(dāng)今研究的熱點(diǎn),醫(yī)學(xué)信息系統(tǒng)的實(shí)現(xiàn)需要醫(yī)學(xué)知識(shí)庫(kù)的支撐。醫(yī)學(xué)信息大都以自然語(yǔ)言形式書寫保存,這對(duì)機(jī)器而言是非結(jié)構(gòu)化的、不能直接利用的。為此,必須要有一種從非結(jié)構(gòu)化的數(shù)據(jù)中提取出特定信息并整理為結(jié)構(gòu)化數(shù)據(jù)的有效手段,信息提取(information extraction,IE)任務(wù)就此誕生。在對(duì)信息提取任務(wù)進(jìn)行探索的過程中,人們發(fā)現(xiàn)對(duì)文本中各種專有名詞的識(shí)別會(huì)對(duì)提取效果起到至關(guān)重要的作用,這種對(duì)專有名詞的識(shí)別被稱為命名實(shí)體識(shí)別(name entity recognition,NER)[1]。在MUC-6會(huì)議上,命名實(shí)體識(shí)別被正式提出并作為第一項(xiàng)子任務(wù)引入到信息提取之中。
在命名實(shí)體識(shí)別的早期,人們主要關(guān)注3類命名實(shí)體:人名、地名、機(jī)構(gòu)名。后來(lái)隨著MUC-7、IEER、CoNLL等一系列國(guó)際會(huì)議的發(fā)展,命名實(shí)體識(shí)別任務(wù)也進(jìn)一步細(xì)化,如地名可以細(xì)分為國(guó)家名、州名、城市名等[2],人名可以細(xì)分為政客、藝人等[3]。除此之外,各個(gè)領(lǐng)域的命名實(shí)體識(shí)別任務(wù)也逐漸展開。如在生物醫(yī)學(xué)領(lǐng)域有大量研究針對(duì)蛋白質(zhì)名、基因名等專有名詞進(jìn)行識(shí)別[4],在商業(yè)領(lǐng)域有人對(duì)各種產(chǎn)品名稱進(jìn)行實(shí)體識(shí)別[5]。根據(jù)領(lǐng)域的不同,命名實(shí)體識(shí)別任務(wù)也會(huì)發(fā)生相應(yīng)的變化。
從技術(shù)方法上來(lái)說(shuō),命名實(shí)體識(shí)別與諸多自然語(yǔ)言處理技術(shù)歷史相似,存在著基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。早期,命名實(shí)體識(shí)別以基于規(guī)則的方法為主,在MUC-7會(huì)議評(píng)測(cè)中,大多數(shù)參賽系統(tǒng)均使用此類方法。這類方法大多依賴于人工構(gòu)造的規(guī)則和命名實(shí)體詞典,覆蓋面較窄,對(duì)時(shí)間和人力的消耗很高且編寫的規(guī)則移植性差。Wang等人曾使用基于規(guī)則的方法來(lái)對(duì)金融公司名進(jìn)行識(shí)別,其在開放測(cè)試中的實(shí)驗(yàn)結(jié)果也說(shuō)明了規(guī)則方法的局限性[6]。
基于統(tǒng)計(jì)的方法則不再需要依靠語(yǔ)言學(xué)知識(shí)構(gòu)建規(guī)則,取而代之的是使用帶有標(biāo)注的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,從語(yǔ)料中對(duì)特征進(jìn)行統(tǒng)計(jì),并建立模型。在CoNLL-2003會(huì)議上,所有參賽系統(tǒng)均采用基于統(tǒng)計(jì)的方法,此類方法已成為研究的主流。具體而言,如果將命名實(shí)體識(shí)別看作分類問題,可以使用最大熵模型(maximum entropy,ME)[7]、支持向量機(jī)(support vector machine,SVM)[8]等模型建模。如果將命名實(shí)體識(shí)別看作序列標(biāo)注問題,則可以使用隱馬爾可夫模型(hidden Markov model,HMM)[9]、條件隨機(jī)場(chǎng)(conditional random field,CRF)[10]等模型建模。
在醫(yī)學(xué)領(lǐng)域,命名實(shí)體識(shí)別得到了很廣泛的關(guān)注,其技術(shù)方法與一般的命名實(shí)體識(shí)別并無(wú)大的區(qū)別。如Li等人[11]曾使用CRF和SVM兩種模型,并結(jié)合相關(guān)醫(yī)學(xué)詞典對(duì)醫(yī)學(xué)命名實(shí)體進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果中CRF模型取得了更好的效果;Wang等人[12]使用了多種監(jiān)督方法專門對(duì)中醫(yī)癥狀實(shí)體進(jìn)行識(shí)別,比較了HMM、CRF、MEMM模型的效果,最終CRF模型實(shí)驗(yàn)F值更高;葉楓等人[13]也使用了CRF模型在自建語(yǔ)料上對(duì)3類醫(yī)學(xué)命名實(shí)體進(jìn)行識(shí)別,F(xiàn)值均在90%以上。
在相關(guān)的工作中,制約醫(yī)學(xué)命名實(shí)體識(shí)別的最大問題在于公開標(biāo)注語(yǔ)料的缺乏。事實(shí)上,已有工作基本上都依靠與醫(yī)院合作,獲取少量語(yǔ)料,一般為幾十篇到上百篇不等。然后再自行對(duì)其進(jìn)行手工標(biāo)注,并在手工標(biāo)注的集合上進(jìn)行后續(xù)研究。這種方法對(duì)人工勞動(dòng)的引入較大,成本較高,而且體量較小,不能很好地進(jìn)行推廣。因此,本文認(rèn)為,使用自動(dòng)方法構(gòu)建較大規(guī)模的語(yǔ)料是一種更合理的選擇。
互聯(lián)網(wǎng)作為大量數(shù)據(jù)的聚集地,存在很多醫(yī)學(xué)網(wǎng)站。這些網(wǎng)站中存儲(chǔ)著大量包含醫(yī)學(xué)知識(shí)的醫(yī)學(xué)文本,可以當(dāng)作原始資料來(lái)使用。本文還注意到,醫(yī)學(xué)網(wǎng)站大都維護(hù)著用于搜索的醫(yī)學(xué)詞匯索引,這可以作為一種詞典資源使用。針對(duì)互聯(lián)網(wǎng)資源的特點(diǎn),本文主要進(jìn)行了以下研究:
(1)考慮到自動(dòng)標(biāo)注方法能力的有限性和詞典資源的非完整性,提出了一種迭代式框架來(lái)自擴(kuò)展地使用互聯(lián)網(wǎng)資源。首先基于初始設(shè)置進(jìn)行標(biāo)注,在一輪訓(xùn)練后,將模型中找到的新詞補(bǔ)充入詞典,并再次標(biāo)注訓(xùn)練,如此迭代進(jìn)行數(shù)遍,提高識(shí)別精度。
(2)已有的自然語(yǔ)言處理工具大都基于幾個(gè)較大的通用語(yǔ)料庫(kù)。研究表明[14],如果直接使用通用語(yǔ)料構(gòu)建標(biāo)注器來(lái)標(biāo)注其他領(lǐng)域的語(yǔ)料,效果會(huì)出現(xiàn)明顯的下降。為此,在通用模型中融入了詞典資源,有效提高了領(lǐng)域文本標(biāo)注的準(zhǔn)確性。同時(shí),模型具有只讀特性,適合在迭代框架中使用。
(3)考慮到互聯(lián)網(wǎng)較大的文本規(guī)模和迭代式的框架,如果采取整體重新訓(xùn)練的方式,時(shí)間代價(jià)會(huì)過高。為此,在命名實(shí)體識(shí)別過程中使用了平均感知器模型來(lái)進(jìn)行增量訓(xùn)練,并使用了啟發(fā)式的特征剪枝方法對(duì)模型進(jìn)行壓縮。
(4)在命名實(shí)體識(shí)別過程中,引入了多種特征,包括詞法特征、詞綴特征、詞長(zhǎng)特征等。通過實(shí)驗(yàn)對(duì)這些特征的效果進(jìn)行了檢驗(yàn)測(cè)試,并說(shuō)明了這些特征對(duì)模型具有提升作用。
本文組織結(jié)構(gòu)如下:第2章對(duì)整體框架進(jìn)行了描述;第3章給出了語(yǔ)料的自動(dòng)標(biāo)注方法;第4章介紹了命名實(shí)體識(shí)別中使用的模型和策略;第5章給出了實(shí)驗(yàn)結(jié)果和相應(yīng)分析;第6章總結(jié)全文。
互聯(lián)網(wǎng)中有著大量的醫(yī)學(xué)網(wǎng)站,維護(hù)著較為豐富的醫(yī)學(xué)相關(guān)文本。這些文本人類可以直接閱讀,但機(jī)器卻無(wú)法直接使用,必須對(duì)其進(jìn)行信息提取。但是,使用統(tǒng)計(jì)方法需要帶有標(biāo)注的語(yǔ)料,這些無(wú)標(biāo)注的文本必須進(jìn)行標(biāo)注后才可使用。人工標(biāo)注成本高,效率低,體量小,因此需要采用自動(dòng)標(biāo)注的方法。
自動(dòng)方法進(jìn)行標(biāo)注在體量上比較有利,但在精度上必然比不過人工標(biāo)注。為此,本文提出了一種迭代式框架來(lái)自擴(kuò)展地使用互聯(lián)網(wǎng)資源,挖掘其潛力,如圖1所示。
Fig.1 Iterative named entity recognition framework based on Internet resources圖1 基于互聯(lián)網(wǎng)資源的迭代式命名實(shí)體識(shí)別框架
首先,從醫(yī)療網(wǎng)站上爬取原始的醫(yī)療文本,并利用醫(yī)療網(wǎng)站的索引構(gòu)建初始詞典。然后,將醫(yī)學(xué)詞典與通用模型結(jié)合,對(duì)語(yǔ)料進(jìn)行自動(dòng)標(biāo)注。在標(biāo)注后的語(yǔ)料上,對(duì)疾病和癥狀兩類醫(yī)學(xué)實(shí)體進(jìn)行識(shí)別。根據(jù)迭代次數(shù)進(jìn)行判斷,若尚未達(dá)到迭代次數(shù),則將識(shí)別出現(xiàn)次數(shù)較高的部分實(shí)體合并入詞典之中進(jìn)行增量訓(xùn)練,若達(dá)到迭代次數(shù),則循環(huán)停止,得到最終模型。
由于互聯(lián)網(wǎng)資源相對(duì)規(guī)模較大,如果使用傳統(tǒng)方法,模型需要整體重新訓(xùn)練,時(shí)間代價(jià)過高。因此,本文在標(biāo)注部分使用的是一種只讀方法,原始模型不必修改,可重復(fù)使用。而在訓(xùn)練部分,則使用了在線學(xué)習(xí)方法,可以以單條數(shù)據(jù)為單位對(duì)模型進(jìn)行調(diào)整,從而保證了較高的效率。此外,本文還使用了啟發(fā)式的方法對(duì)特征進(jìn)行選擇,從而降低模型規(guī)模。
對(duì)語(yǔ)料進(jìn)行標(biāo)注的首要任務(wù)在于分詞,分詞正確,后續(xù)的任務(wù)才有可能正確,分詞錯(cuò)誤,后續(xù)的識(shí)別工作不可能正確。事實(shí)上通用中文分詞的精度已經(jīng)很高,足夠一般文本的使用。但在領(lǐng)域文本上分詞效果會(huì)出現(xiàn)下降,主要問題在于不能很好地識(shí)別領(lǐng)域詞匯,而這一點(diǎn)可以用領(lǐng)域詞典來(lái)進(jìn)行補(bǔ)充。
分詞是一項(xiàng)重視精度的任務(wù),在前人的研究中,CRF模型對(duì)歧義詞和未登錄詞有較好的處理能力,往往可以取得最好的效果,本文在CRF模型中加入特定的詞典特征來(lái)使用領(lǐng)域詞典。在訓(xùn)練時(shí),無(wú)需進(jìn)行更改;在解碼時(shí),額外加入領(lǐng)域詞典用于特征的提取。在整個(gè)過程中,領(lǐng)域詞典并不介入模型的學(xué)習(xí),而只用于解碼,從而能夠在不改變?cè)心P偷幕A(chǔ)上,對(duì)領(lǐng)域詞匯進(jìn)行有效改善,后續(xù)實(shí)驗(yàn)也證明了這一點(diǎn)。
條件隨機(jī)場(chǎng)模型是由Lafferty等人[15]于2001年提出的一個(gè)概率無(wú)向圖模型,在解決序列標(biāo)注問題上表現(xiàn)優(yōu)秀,目前廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。在序列標(biāo)注問題中,變量結(jié)構(gòu)通常為線性結(jié)構(gòu),人們通常使用CRF的簡(jiǎn)化形式——線性鏈條件隨機(jī)場(chǎng),其結(jié)構(gòu)如圖2所示。
Fig.2 Linear chain CRF model圖2 線性鏈條件隨機(jī)場(chǎng)模型
給定兩個(gè)隨機(jī)變量X、Y,其中X=(x1,x2,…,xn)為輸入變量,表示一組觀察序列,Y=(y1,y2,…,yn)為輸出變量,表示標(biāo)記序列。CRF在給定觀察序列X的情況下,計(jì)算了對(duì)標(biāo)記序列Y的條件概率P(Y|X)。在輸入變量X取x,輸出變量Y取y的情況下,線性鏈條件隨機(jī)場(chǎng)的條件概率符合下列公式:
其中,tk和sl為不同類型的特征函數(shù),通過設(shè)計(jì)特征模板來(lái)定義;λk和μl表示對(duì)應(yīng)的權(quán)重;Z(x)是歸一化因子,用以保證概率定義。CRF的訓(xùn)練過程即是使用訓(xùn)練集對(duì)權(quán)重參數(shù)進(jìn)行學(xué)習(xí)的過程,而解碼過程則是針對(duì)給定數(shù)據(jù)輸出條件概率最大序列的過程。
在分詞過程中,本文使用以下特征作為基礎(chǔ)特征,其內(nèi)容如表1所示。
Table 1 Basic features for word segmentation表1 分詞模型的基礎(chǔ)特征
其中Unigram代表單個(gè)字符的特征;Bigram代表相鄰兩個(gè)字符的聯(lián)合特征;Reduplication代表是否兩個(gè)字符相同;Type代表字符類別,包括標(biāo)點(diǎn)、數(shù)字、字母等。方括號(hào)里的數(shù)字代表下標(biāo),ch[i]代表其相對(duì)于當(dāng)前位置偏移i個(gè)位置的字符。
為了保證模型的只讀性,詞典特征不能直接使用詞典單詞本身,否則就會(huì)引起模型整體的變化。本文使用以詞典進(jìn)行最大匹配得到的詞長(zhǎng)度信息作為特征,從而讓字符依據(jù)其位于詞首、詞中、詞尾等不同位置得到具有區(qū)分性的特征,如此就可以在無(wú)需改變?cè)心P偷那闆r下使用領(lǐng)域詞典解碼。
設(shè)有句子S=S1S2…Sn和詞典D,對(duì)于第i個(gè)位置的字符,定義以下函數(shù):
式(3)、式(4)分別代表了在進(jìn)行正向匹配時(shí),該字符作為詞首、詞中使用詞典匹配時(shí)能得到的最大詞長(zhǎng)。式(5)則代表了在使用逆向匹配時(shí),該字符作為詞尾能得到的最大詞長(zhǎng)。
舉例說(shuō)明,給定句子“牙槽骨骨折以上頜前部較多見”,詞典里有“牙,槽骨,骨折”等詞??紤]句中“牙”字,有LB=1,LM=0,LE=0;句中“折”字,有LB=0,LM=0,LE=2。若詞典加入“牙槽骨骨折”后,則對(duì)“牙”字,有LB=5,LM=0,LE=0;對(duì)“折”字,有LB=0,LM=0,LE=5。這樣,在加入領(lǐng)域詞典后,字的特征便出現(xiàn)了變化。
本文基于這3個(gè)函數(shù)進(jìn)行組合構(gòu)造詞典特征,如表2所示。
Table 2 Dictionary features for word segmentation表2 分詞模型的詞典特征
在定義詞典特征的基礎(chǔ)上,本文的標(biāo)注工作按照?qǐng)D3的框架進(jìn)行。
對(duì)醫(yī)學(xué)文本進(jìn)行分詞后,需要繼續(xù)對(duì)其進(jìn)行詞性標(biāo)注工作,這一步使用通用的詞性標(biāo)注器即可,本文選用中科院的ICTCLAS作為文本的詞性標(biāo)注工具。
在此之后,分別使用兩個(gè)詞典掃描文本,為文本添加命名實(shí)體標(biāo)記。若該詞在疾病詞典里,為其附加標(biāo)記Nd;若該詞在癥狀詞典里,為其附加標(biāo)記Ns;若該詞不在上述兩類詞典里,為其附加標(biāo)記O。若詞語(yǔ)單獨(dú)匹配詞典成功,則附屬標(biāo)注為S(single)。若詞語(yǔ)在詞典里可以匹配前綴,則嘗試使用后續(xù)詞語(yǔ)繼續(xù)匹配,如果按此法匹配成功,則首個(gè)單詞附屬標(biāo)注為B(begin),后續(xù)單詞附屬標(biāo)注為I(inside)。一段經(jīng)過標(biāo)注的語(yǔ)句如圖4所示。
Fig.3 Annotation framework for medical texts圖3 醫(yī)學(xué)文本的標(biāo)注框架
Fig.4 Results for automatic annotation圖4 自動(dòng)標(biāo)注結(jié)果
在傳統(tǒng)方法中,模型一旦訓(xùn)練完成,新的語(yǔ)料便無(wú)法加入到模型中,只能對(duì)模型進(jìn)行重新訓(xùn)練。而在線方法每次訓(xùn)練時(shí)只使用一個(gè)樣例對(duì)參數(shù)進(jìn)行更新,可以很好地解決這一問題。為了適應(yīng)迭代式的訓(xùn)練框架,本文也使用在線方法構(gòu)建模型。在線學(xué)習(xí)算法中,感知器[16]模型是最為經(jīng)典的模型,它具有模型簡(jiǎn)單,訓(xùn)練快速等特點(diǎn)。而且前人研究表明,在較大數(shù)據(jù)量的情況下,感知器模型與傳統(tǒng)模型相比效果基本相當(dāng)。
感知器是一個(gè)二分類模型,對(duì)于多分類問題,可以建立多個(gè)感知器來(lái)處理。每個(gè)感知器將某類視為正例,而將其他類視為反例,而最終分類結(jié)果,由分?jǐn)?shù)最高的感知器決定。
對(duì)于序列標(biāo)注問題而言,可以使用結(jié)構(gòu)化感知器[17]建模。其中一個(gè)詞的標(biāo)注即可視為一個(gè)多分類問題。而整個(gè)序列的標(biāo)注需要引入解碼過程,即找到分值最高的那個(gè)序列,這一過程可使用Viterbi算法完成,其結(jié)構(gòu)如圖5所示。只要得到了句子對(duì)應(yīng)的實(shí)體標(biāo)簽序列,就可通過組合標(biāo)簽對(duì)應(yīng)的單詞獲得對(duì)應(yīng)的實(shí)體。
Fig.5 Decoding process of Viterbi algorithm圖5 維特比算法解碼過程
結(jié)構(gòu)化感知器的更新規(guī)則較普通感知器有所區(qū)別,但仍是一種試錯(cuò)調(diào)整模式。若最終標(biāo)注結(jié)果z出錯(cuò),得分高于真實(shí)結(jié)果y,則對(duì)權(quán)值作以下調(diào)整:
感知器算法容易出現(xiàn)過擬合問題。為了緩解此現(xiàn)象,對(duì)模型參數(shù)進(jìn)行平均化處理,將多輪權(quán)重的平均值作為最終結(jié)果。平均感知器如算法1所示。
算法1平均感知器訓(xùn)練算法
對(duì)自然語(yǔ)言處理任務(wù)而言,特征帶來(lái)的影響往往比模型的選擇更為重要。應(yīng)當(dāng)在模型中引入可能包含語(yǔ)言語(yǔ)義信息的特征,從而期望模型可以基于這些特征對(duì)標(biāo)注進(jìn)行區(qū)分。
4.2.1 基礎(chǔ)特征
詞是語(yǔ)言中的基本單元,單詞特征被用于多項(xiàng)中文自然語(yǔ)言處理任務(wù)中。本文在分詞基礎(chǔ)上,使用單詞本身作為特征。
詞性可以看作是詞的一種泛化或分類,蘊(yùn)含著詞的深層信息,也是自然語(yǔ)言處理中常用的特征。本文使用自動(dòng)詞性標(biāo)注結(jié)果作為詞性特征。
一個(gè)詞的語(yǔ)義不僅與其本身有關(guān),也與其所處的上下文相關(guān)。多個(gè)字符間詞特征的組合可以視為新的特征。本文分別對(duì)單詞特征和詞性特征加以組合,構(gòu)造其Unigram和Bigram。對(duì)單詞特征,將兩類組合的窗口均設(shè)置為5;對(duì)詞性特征,將Unigram窗口設(shè)置為5,Bigram窗口設(shè)置為3。
本文將以上3種特征作為基礎(chǔ)特征集,具體定義如表3所示。
Table 3 Basic features for named entity recognition表3 命名實(shí)體識(shí)別基礎(chǔ)特征集
4.2.2 拓展特征
單詞的長(zhǎng)度某種程度上反映出單詞的特點(diǎn),統(tǒng)計(jì)顯示,詞的長(zhǎng)度越大,承載詞義越少。專用詞語(yǔ)的平均長(zhǎng)度往往大于通用詞語(yǔ)的平均長(zhǎng)度,因此本文引入長(zhǎng)度信息作為特征。
詞綴特征即每個(gè)單詞的前后綴特征,詞語(yǔ)往往具有某種內(nèi)在的模式,使用細(xì)粒度的特征往往對(duì)實(shí)體識(shí)別有益。本文對(duì)每個(gè)單詞分別取1、2、3個(gè)字符的前綴和后綴作為作為該單詞的詞綴特征。
一些單詞之間的組合會(huì)經(jīng)常出現(xiàn),這也會(huì)使得其擁有相同的首尾字,如很多疾病都以“病”、“癥”等字結(jié)尾。使用首尾字特征,有利于實(shí)體邊緣的確立。本文使用相鄰單詞的首尾字組合作為一項(xiàng)特征。
本文將以上3種特征作為拓展特征集,具體形式如表4所示。
Table 4 Extended features for named entity recognition表4 命名實(shí)體識(shí)別拓展特征
從解碼算法框架圖5來(lái)看,其時(shí)間復(fù)雜度為O(|S|2L),其中|S|是可選的狀態(tài)數(shù),L為序列長(zhǎng)度。而在每個(gè)位置,其訓(xùn)練又與特征數(shù)有關(guān)。在實(shí)際情況中,狀態(tài)數(shù)是一固定值,往往不大;序列長(zhǎng)度與語(yǔ)料相關(guān),不能更改;特征數(shù)量成為影響模型規(guī)模的最大因素。
在自然語(yǔ)言問題中,特征大都是二元布爾形函數(shù),表達(dá)的是某一條件的成立與否。這種形式會(huì)導(dǎo)致模型的特征極其龐大,很容易達(dá)到百萬(wàn)維以上。但事實(shí)上,大部分特征對(duì)最終分類并不起什么作用。如果理想的話,無(wú)關(guān)特征的權(quán)重會(huì)在訓(xùn)練中自動(dòng)被調(diào)整為0。但是,實(shí)踐中更可能的情況是,權(quán)重在訓(xùn)練中被調(diào)整為一個(gè)較小的對(duì)決策影響不大的值,這會(huì)最終導(dǎo)致模型變得稠密。
一種常用的壓縮模型的手段是,刪去模型中出現(xiàn)次數(shù)較少的特征,這在很多時(shí)候也的確有效。但是一個(gè)特征即使出現(xiàn)了很多次,它也很可能是一個(gè)對(duì)分類意義不大的特征,因此這種方法對(duì)于壓縮模型不夠優(yōu)秀。
感知器模型是一種錯(cuò)誤驅(qū)動(dòng)的模型,在分類錯(cuò)誤時(shí),才會(huì)對(duì)權(quán)重進(jìn)行更新。起初,所有權(quán)重都被設(shè)置為0,這相當(dāng)于認(rèn)為所有特征均是無(wú)用的。只有在后續(xù)訓(xùn)練過程中,相關(guān)特征導(dǎo)致了模型出錯(cuò),這些權(quán)重才會(huì)調(diào)整,視為有用特征。直觀上來(lái)說(shuō),那些對(duì)分類更有意義的特征應(yīng)當(dāng)會(huì)被多次更新,而很少被更新的特征應(yīng)當(dāng)對(duì)類別區(qū)分用處不大?;谶@個(gè)直觀想法,本文維護(hù)一個(gè)額外向量,記錄特征空間中每個(gè)特征參與更新的次數(shù)。只有那些更新次數(shù)超過最小更新閾值的特征才得以留存,而更新次數(shù)低于閾值的特征則被從模型中刪除。
本文將從若干醫(yī)療網(wǎng)站上爬取了2 000余篇醫(yī)療文本作為初始未標(biāo)注數(shù)據(jù),有100余萬(wàn)字,同時(shí)利用醫(yī)療網(wǎng)站的檢索索引構(gòu)造了疾病詞典和癥狀詞典,其中疾病詞典含詞6 000余個(gè),癥狀詞典含詞10 000余個(gè)。本文使用前文所述的標(biāo)注方法對(duì)這些文本進(jìn)行標(biāo)注,并將之用作訓(xùn)練集。由于自動(dòng)標(biāo)注本身會(huì)引入錯(cuò)誤,不適合直接用作測(cè)試集,本文在自動(dòng)標(biāo)注基礎(chǔ)上手工修正了1 000句文本用作測(cè)試集。
本文使用經(jīng)典的準(zhǔn)確率P(precision)、召回率R(recall)和F值(F-measure)作為評(píng)價(jià)指標(biāo),其定義如下:
5.2.1 自動(dòng)標(biāo)注方法效果實(shí)驗(yàn)
本小節(jié)設(shè)置對(duì)照實(shí)驗(yàn)評(píng)價(jià)使用詞典策略的自動(dòng)標(biāo)注對(duì)命名實(shí)體識(shí)別的影響。在分詞過程中,一組使用融合模型,另一組則僅使用通用分詞器。在分詞后用領(lǐng)域詞典對(duì)結(jié)果進(jìn)行標(biāo)注,并使用基礎(chǔ)特征集進(jìn)行實(shí)體識(shí)別,結(jié)果如表5所示。
從實(shí)驗(yàn)結(jié)果來(lái)看,分詞策略對(duì)實(shí)驗(yàn)影響巨大。這是因?yàn)轭I(lǐng)域詞匯具有不同的詞匯特點(diǎn),如長(zhǎng)度、用詞等,在不融合領(lǐng)域詞典的情況下,大量領(lǐng)域詞匯不能被通用分詞策略正確劃分。一旦分詞發(fā)生錯(cuò)誤,后續(xù)的詞性標(biāo)注工作和實(shí)體標(biāo)注都不可能正確,相當(dāng)于擴(kuò)大了錯(cuò)誤。在這種情況下,只有一些經(jīng)常使用的醫(yī)學(xué)詞匯才可能正確識(shí)別。而使用融合領(lǐng)域詞典的策略,可以有效地提高領(lǐng)域詞匯分詞的準(zhǔn)確性,之后再進(jìn)行標(biāo)注,就能獲得良好的效果。兩種情況下實(shí)驗(yàn)結(jié)果的對(duì)比,說(shuō)明了本文標(biāo)注方法的有效性。在后續(xù)實(shí)驗(yàn)中,將使用融合模型標(biāo)注和基礎(chǔ)特征集的模型視為Baseline。
Table 5 Impact of annotation strategy on results表5 標(biāo)注策略對(duì)結(jié)果的影響
5.2.2 迭代框架效果實(shí)驗(yàn)
本小節(jié)設(shè)置實(shí)驗(yàn)測(cè)試不同迭代次數(shù)下對(duì)疾病實(shí)體識(shí)別的結(jié)果。初始時(shí)迭代輪數(shù)為1,按照基本設(shè)置進(jìn)行;后續(xù)迭代過程中,使用當(dāng)輪相應(yīng)的訓(xùn)練數(shù)據(jù)。最后給出參數(shù)平均化后感知器的結(jié)果,如表6所示。
Table 6 Results of each iteration表6 各輪迭代的結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,迭代模型對(duì)命名實(shí)體識(shí)別效果有提升作用。在最初幾輪,模型的F值有明顯提高,但隨著輪數(shù)繼續(xù)增高,F(xiàn)值反而出現(xiàn)少量下降,這可能跟模型發(fā)生了一定的過擬合有關(guān)。在進(jìn)行平均化后,模型取得了最優(yōu)效果,比任何單輪結(jié)果都要好,這也說(shuō)明了參數(shù)平均化方法是有效的。
5.2.3 拓展特征集效果實(shí)驗(yàn)
本小節(jié)測(cè)試拓展特征集對(duì)實(shí)體識(shí)別效果的影響,結(jié)果如表7所示。
Table 7 Impact of extended features on results表7 擴(kuò)展特征集對(duì)結(jié)果的影響
實(shí)驗(yàn)結(jié)果中,擴(kuò)展特征集中的特征均對(duì)實(shí)體識(shí)別有提升作用。其中詞綴特征和長(zhǎng)度特征提升效果較大,首尾字特征相對(duì)提升效果較小。將3種特征聯(lián)合使用時(shí)效果最好,最終可使疾病的F值提高了0.95%,癥狀的F值提升了0.43%。由此可見,本文提出的擴(kuò)展特征信息確實(shí)有利于實(shí)體的識(shí)別。
5.2.4 模型壓縮效果實(shí)驗(yàn)
本小節(jié)測(cè)試特征剪枝方法對(duì)模型的壓縮效果。為此,需要設(shè)定最小更新閾值,當(dāng)它為0時(shí),相當(dāng)于不做處理。在實(shí)驗(yàn)中不斷增加閾值大小,觀察模型對(duì)應(yīng)的效果和模型大小,結(jié)果如表8所示。
Table 8 Results of model compression表8 模型壓縮結(jié)果
實(shí)驗(yàn)結(jié)果中,最初模型大小為127 MB。隨著剪枝閾值的增加,模型大小出現(xiàn)明顯下降。到閾值為5時(shí),模型大小已經(jīng)不到原來(lái)的一半,而此時(shí)F值卻只下降了0.21%,幾乎可以忽略不計(jì)。實(shí)驗(yàn)說(shuō)明了本文模型壓縮方法的有效性,也證明了模型中確實(shí)存在著大量基本無(wú)用的特征。
本文針對(duì)醫(yī)學(xué)領(lǐng)域無(wú)公開語(yǔ)料的情況,選擇使用互聯(lián)網(wǎng)資源對(duì)命名實(shí)體識(shí)別進(jìn)行研究。本文對(duì)任務(wù)進(jìn)行了分析,提出了一種迭代式框架來(lái)自擴(kuò)展地使用互聯(lián)網(wǎng)資源。在標(biāo)注過程中,使用了一種融合通用模型和詞典資源的方法,既保持了較高的標(biāo)注精度,又保證了模型的只讀性。在實(shí)體識(shí)別過程中,在模型中引入了多種特征來(lái)提高識(shí)別能力。為了適應(yīng)迭代框架的特點(diǎn),本文沒有使用傳統(tǒng)批處理模型,而是使用在線方法進(jìn)行學(xué)習(xí),有效降低了學(xué)習(xí)成本。本文還使用了一種啟發(fā)式的方法對(duì)特征進(jìn)行剪枝來(lái)壓縮模型。大量相關(guān)實(shí)驗(yàn)證明,本文提出的方法和策略是有效的。
:
[1]Grishman R,Sundheim B.Message understanding conference-6:a brief history[C]//Proceedings of the 16th International Conference on Computational Linguistics,Copenhagen,Aug 5-9,1996.Stroudsburg:ACL,1996:466-471.
[2]Lee S,Lee G G.Heuristic methods for reducing errors of geographic named entities learned by bootstrapping[C]//LNCS 3651:Proceedings of the 2nd International Joint Conference on Natural Language Processing,Jeju Island,Oct 11-13,2005.Berlin,Heidelberg:Springer,2005:658-669.
[3]Fleischman M,Hovy E H.Fine grained classification of named entities[C]//Proceedings of the 19th International Conference on Computational Linguistics,Taipei,China,Aug 24-Sep 1,2002.Stroudsburg:ACL,2002:1-7.
[4]Sun Chengjie,Guan Yi,Wang Xiaolong,et al.Biomedical named entities recognition using conditional random fields model[C]//LNCS 4223:Proceedings of the 2006 International Conference on Fuzzy Systems and Knowledge Discovery,Xi’;an,Sep 24-28,2006.Berlin,Heidelberg:Springer,2006:1279-1288.
[5]Liu Feifan,Zhao Jun,Lv Bibo,et al.Study on product named entity recognition for business information extraction[J].Journal of Chinese Information Processing,2006,20(1):7-13.
[6]Wang Ning,Ge Ruifang,Yuan Chunfa,et al.Company name identification in Chinese financial domain[J].Journal of Chinese Information Processing,2002,16(2):1-6.
[7]Chieu H L,Ng H T.Named entity recognition with a maximum entropy approach[C]//Proceedings of the 7th Conference on Natural Language Learning,Edmonton,May 31-Jun 1,2003.Stroudsburg:ACL,2003:160-163.
[8]Lee K J,Hwang Y S,Kim S,et al.Biomedical named entity recognition using two-phase model based on SVMs[J].Journal of Biomedical Informatics,2004,37(6):436-447.
[9]Bikel D M,Schwartz R,Weischedel R M.An algorithm that learns what’s in a name[J].Machine Learning,1999,34(1/3):211-231.
[10]McCallum A,Li Wei.Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons[C]//Proceedings of the 7th Conference on Natural Language Learning,Edmonton,May 31-Jun 1,2003.Stroudsburg:ACL,2003:188-191.
[11]Li Dingcheng,Kipper-Schuler K,Savova G.Conditional random fields and support vector machines for disorder named entity recognition in clinical texts[C]//Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing,Columbus,Jun 19,2008.Stroudsburg:ACL,2008:94-95.
[12]Wang Yaqiang,Yu Zhonghua,Chen Li,et al.Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine:an empirical study[J].Journal of Biomedical Informatics,2014,47(2):91-104.
[13]Ye Feng,Chen Yingying,Zhou Gengui,et al.Intelligent recognition of named entity in electronic medical records[J].Chinese Journal of Biomedical Engineering,2011,30(2):256-262.
[14]Jiang Jing,Zhai Chengxiang.Instance weighting for domain adaptation in NLP[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics,Prague,Jun 23-30,2007.Stroudsburg:ACL,2007:264-271.
[15]Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning,Williamstown,Jun 28-Jul 1,2001.San Mateo:Morgan Kaufmann,2001:282-289.
[16]Rosenblatt F.The perceptron:a probabilistic model for information storage and organization in the brain[J].Psychological Review,1958,65(6):386-408.
[17]Collins M.Discriminative training methods for hidden Markov models:theory and experiments with perceptron algorithms[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,Philadelphia,Jul 6-7,2002.Stroudsburg:ACL,2002:1-8.
附中文參考文獻(xiàn):
[5]劉非凡,趙軍,呂碧波,等.面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識(shí)別研究[J].中文信息學(xué)報(bào),2006,20(1):7-13.
[6]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識(shí)別[J].中文信息學(xué)報(bào),2002,16(2):1-6.
[13]葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實(shí)體的智能識(shí)別[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2011,30(2):256-262.