孔靜靜,于 琦,李敬華,于 彤,張竹綠,田 野,祖雅琪
(中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所 北京 100700)
信息抽取技術(shù)(Information Extraction,IE)的目的是將非結(jié)構(gòu)化的信息進(jìn)行結(jié)構(gòu)化抽取[1]。自然語(yǔ)言處理技術(shù)(Natural Language Processing,NLP)可以把人類(lèi)語(yǔ)言轉(zhuǎn)化為機(jī)器語(yǔ)言,從而實(shí)現(xiàn)人機(jī)交互,將非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化信息,從而獲得有用的、更加便于處理的信息[2-3],結(jié)構(gòu)化的信息更有利于知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘。命名實(shí)體識(shí)別(Named Entity Recognition,NER)屬于自然語(yǔ)言處理的任務(wù)之一,又稱(chēng)為實(shí)體抽取,其目的是從信息中抽取的人名、地名、組織機(jī)構(gòu)名等命名實(shí)體[4]。Rau[5]于1991年提出了從文本中提取公司名稱(chēng)的實(shí)體抽取任務(wù),此外,在七屆MUC(Message Understanding Conference)會(huì)議形成了沿用至今的抽取評(píng)價(jià)標(biāo)準(zhǔn),大大推動(dòng)了實(shí)體抽取發(fā)展的進(jìn)程。隨后,國(guó)際上舉辦眾多有關(guān)NER發(fā)展的會(huì)議,涉及了英語(yǔ)、阿拉伯語(yǔ)、漢語(yǔ)等多種語(yǔ)言,包括消歧、評(píng)估等多任務(wù)方向的發(fā)展[6]。上世紀(jì)90年代國(guó)內(nèi)出版了規(guī)則庫(kù)的識(shí)別方法的書(shū)用于識(shí)別人名[7],由于英文語(yǔ)言的天然分詞結(jié)構(gòu)及較為規(guī)范的語(yǔ)法表達(dá)方式,早期的結(jié)構(gòu)化信息抽取主要面向英文文本,信息抽取技術(shù)在英文上得到了很好的應(yīng)用和發(fā)展,而國(guó)內(nèi)的信息抽取技術(shù)起步較晚,中文語(yǔ)法復(fù)雜,不能直接進(jìn)行分詞等特點(diǎn),使實(shí)體抽取在中文上的應(yīng)用面臨一定的挑戰(zhàn)[8-9]。
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的劇增,人們難以從海量的數(shù)據(jù)中獲取有效的信息,實(shí)體抽取技術(shù)應(yīng)運(yùn)而生。實(shí)體抽取近年來(lái)飛速發(fā)展,為信息化的發(fā)展帶來(lái)了新的契機(jī)?,F(xiàn)如今實(shí)體抽取在生物醫(yī)學(xué)、警情軍事及農(nóng)業(yè)漁業(yè)等方面均有廣泛應(yīng)用[10]。在實(shí)際應(yīng)用當(dāng)中,由于不同的行業(yè)領(lǐng)域之間實(shí)體的相關(guān)性較弱,因此命名實(shí)體的確切含義需要根據(jù)具體應(yīng)用來(lái)確定,例如在面向中醫(yī)命名實(shí)體信息提取時(shí),實(shí)體可為:中醫(yī)證候、舌象、脈象、治法、中藥和方劑等,在農(nóng)業(yè)領(lǐng)域可能會(huì)把農(nóng)作物、病蟲(chóng)、農(nóng)藥[11]等作為實(shí)體。實(shí)體抽取作為自然語(yǔ)言處理的一個(gè)重要研究?jī)?nèi)容,在信息提取、信息檢索、主題分類(lèi)、知識(shí)發(fā)現(xiàn)等方面應(yīng)用廣泛[12],同時(shí),知識(shí)圖譜的構(gòu)建也是以實(shí)體抽取為前提條件。實(shí)體抽取為更深層次的數(shù)據(jù)挖掘提供基礎(chǔ)[13]。
隨著信息抽取技術(shù)不斷的革新,在中文文本的應(yīng)用領(lǐng)域不斷拓寬,抽取效果不斷改善。信息抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用能為中醫(yī)藥信息更深層次地挖掘奠定基礎(chǔ),讓中醫(yī)藥知識(shí)更好地服務(wù)于臨床應(yīng)用,有益于推動(dòng)中醫(yī)的繼承和發(fā)展,使中醫(yī)藥與現(xiàn)代技術(shù)接軌。本文簡(jiǎn)要介紹了實(shí)體抽取概念及發(fā)展,闡述了其發(fā)展過(guò)程中常見(jiàn)的技術(shù)手段,從中醫(yī)藥角度出發(fā),論述了實(shí)體抽取在中醫(yī)藥各領(lǐng)域中的研究應(yīng)用情況,為中醫(yī)藥實(shí)體抽取的發(fā)展研究提供思路參考,以期拓寬實(shí)體抽取在中醫(yī)藥領(lǐng)域應(yīng)用的范圍,推動(dòng)實(shí)體抽取技術(shù)的應(yīng)用發(fā)展。
1.1.1基于規(guī)則的抽取
基于規(guī)則的實(shí)體抽取是最早使用的方法,1991年Rau在第7屆IEEE人工智能應(yīng)用會(huì)議上提出基于人工編寫(xiě)規(guī)則的方法和啟發(fā)式算法,研究如何從文本中抽取公司的名稱(chēng)[5]。基于規(guī)則的方法由專(zhuān)家針對(duì)數(shù)據(jù)集進(jìn)行人工構(gòu)造規(guī)則模板,將需要處理的信息與已制定規(guī)則進(jìn)行匹配,將符合的內(nèi)容信息提取,并且在抽取過(guò)程中不斷補(bǔ)充完善規(guī)則,以達(dá)到最優(yōu)化的抽取效果,通常選用特征信息等方法[14]?;谝?guī)則抽取的方法具有較好的靈活性,操作簡(jiǎn)單,但抽取效果高度依賴(lài)制訂的規(guī)則,只適用于表達(dá)較為規(guī)范的文本和較小的數(shù)據(jù)集,且移植性較差,規(guī)則制作過(guò)程中耗費(fèi)大量資源。
1.1.2基于詞典的抽取
基于詞典的方法最早是和基于規(guī)則的抽取方法聯(lián)合使用的,此方法需要構(gòu)建特定的詞典,然后按照需求將需要識(shí)別文本與所構(gòu)建的字典進(jìn)行匹配抽取[10],并在過(guò)程中不斷補(bǔ)充完善詞典。早期就有學(xué)者利用大量的醫(yī)療知識(shí)詞典結(jié)合既定的規(guī)則來(lái)建立專(zhuān)家系統(tǒng),目前,針對(duì)不同領(lǐng)域已經(jīng)構(gòu)建了比較完備的詞典,如基因詞典、情感詞典、姓名詞典等。此方法詞典是核心,因此依賴(lài)詞典的準(zhǔn)確性,適合于精確的搜索定位,對(duì)于詞典范圍外的實(shí)體難以準(zhǔn)確識(shí)別,針對(duì)這一問(wèn)題,盡管后來(lái)提出來(lái)一種模糊字典匹配法,但是仍然擺脫不了對(duì)詞典的依賴(lài)。
基于模式匹配的實(shí)體抽取的兩種方法在一定程度上實(shí)現(xiàn)了實(shí)體抽取,但是由于基于模式匹配兩種方法的自身的局限性,很難再利用原方法對(duì)其改進(jìn)提升,再有大數(shù)據(jù)時(shí)代的來(lái)臨,信息量劇增,規(guī)則和詞典的制定更加繁瑣困難,因此,機(jī)器學(xué)習(xí)的應(yīng)用逐漸興起。
1.2.1隱馬爾科夫模型HMM
HMM最早由Rabiner等[15]在統(tǒng)計(jì)學(xué)論文中提出,隨后在語(yǔ)言識(shí)別中應(yīng)用。HMM模型構(gòu)建較為簡(jiǎn)單,在自然語(yǔ)言處理早期,在模式識(shí)別等領(lǐng)域得到廣泛的應(yīng)用,取得了不錯(cuò)的效果。HMM模型對(duì)特定位置和文本長(zhǎng)度有所限制,所以該模型的適應(yīng)性不理想。此外,有些學(xué)者通過(guò)建立高階的HMM模型來(lái)優(yōu)化模型抽取效果。
1.2.2最大熵模型ME
1957年E.T.Jaynes[16]提出了最大熵原理。最大熵模型不對(duì)未知信息做任何假設(shè),而是在已知特征的約束下使未知的信息分布去均勻分布,即熵最大[17]。在最大熵方法中,就是找出一個(gè)特征的集合,并確定每條特征的重要程度,以此來(lái)進(jìn)行抽取,最大熵模型可以集成各種特征與規(guī)則到一個(gè)統(tǒng)一的框架下[18]。
1.2.3支持向量機(jī)SVM
支持向量機(jī)是由Cortes等[19]在1995年提出并發(fā)表,SVM是指的一種二分類(lèi)的統(tǒng)計(jì)模型,它是在特征空間中,使得兩類(lèi)樣本間隔最大的線性分類(lèi)器,它的分類(lèi)方法就是最大化間隔[20]。SVM算法分類(lèi)思想簡(jiǎn)單,適用于小樣本和中樣本,大規(guī)模訓(xùn)練樣本會(huì)耗費(fèi)大量計(jì)算時(shí)間和內(nèi)存,在解決多分類(lèi)問(wèn)題也存在困難。
1.2.4條件隨機(jī)場(chǎng)模型CRF
CRF是21世紀(jì)初由Lafferty et al.[21]首次提出發(fā)表,它是通過(guò)最大熵模型轉(zhuǎn)換而來(lái),條件隨機(jī)場(chǎng)可以通過(guò)訓(xùn)練集的語(yǔ)料特征推斷每個(gè)標(biāo)簽應(yīng)有的類(lèi)別標(biāo)記。CRF即通過(guò)計(jì)算不同候選序列的聯(lián)合分布概率,選擇概率最大的序列作為輸出結(jié)果[22]。相比于SVM、HMM具有無(wú)標(biāo)注偏見(jiàn)、可求得全局最優(yōu)值、小規(guī)模數(shù)據(jù)可獲得理想效果等優(yōu)點(diǎn)[23]。
實(shí)體抽取引入了機(jī)器學(xué)習(xí)方法,減少了對(duì)規(guī)則及詞典的依賴(lài),使得抽取效果進(jìn)一步提升。機(jī)器學(xué)習(xí)方法是從樣本數(shù)據(jù)集合中統(tǒng)計(jì)出相關(guān)特征和參數(shù),以此建立識(shí)別模型對(duì)數(shù)據(jù)進(jìn)行抽取[14]。為提高抽取效果,機(jī)器學(xué)習(xí)可與規(guī)則庫(kù)和詞典方法結(jié)合使用來(lái)抽取,其抽取的效果也遠(yuǎn)遠(yuǎn)大于單一方法抽取[24]。機(jī)器學(xué)習(xí)的模型抽取的方法雖然優(yōu)于匹配模式的抽取方法,但是在構(gòu)建模型時(shí)仍舊需要投入一定的資源用在人工標(biāo)注數(shù)據(jù)和特征選擇上且泛化能力不高[25]。因此,隨著算法的不斷改進(jìn),引入了深度學(xué)習(xí),對(duì)抽取進(jìn)行了再度優(yōu)化。
1.3.1 Word2vec
2013年Mikolov等[26]在谷歌團(tuán)隊(duì)的帶領(lǐng)下提出了Word2vec,是用來(lái)生成詞向量的模型,是一種淺層神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型,一般分為CBOW和Skip-gram兩個(gè)基礎(chǔ)模型,可以將詞語(yǔ)轉(zhuǎn)換為包含語(yǔ)義的詞向量,表達(dá)詞內(nèi)間關(guān)系,詞語(yǔ)與文本前后內(nèi)容的聯(lián)系[27]。Word2vec模型提出有效提升了NPL任務(wù)的處理效果。
1.3.2 Attention機(jī)制
注意力機(jī)制是根據(jù)人類(lèi)的注意力特點(diǎn)而提出的研究,可以實(shí)現(xiàn)高效分配信息資源。注意力機(jī)制能夠通過(guò)調(diào)整權(quán)重值,來(lái)鎖定所需的重要信息,同時(shí)可以過(guò)濾掉不重要的信息。具有很高的可擴(kuò)展性和魯棒性。在2017年,Vaswani[28]提出了Transformer模型,隨后,Kitaev等[29]提出了新的Reformer模型,改進(jìn)原來(lái)的Transformer模型。注意力機(jī)制與傳統(tǒng)算法的結(jié)合,能大大提高算法系統(tǒng)的性能,提升抽取能力。
1.3.3 LSTM
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory)本質(zhì)上是一種RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),LSTM模型的3個(gè)門(mén):“遺忘門(mén)”“記憶門(mén)”和“輸出門(mén)”,可以篩選過(guò)濾出短序列,選擇長(zhǎng)序列處理成短序列,將含重要信息的進(jìn)行傳遞[30]。
1.3.4 BERT
BERT模型是在2018年提出的預(yù)訓(xùn)練模型,是基于Transformer的雙向編碼器表征,其結(jié)構(gòu)是來(lái)自于Transformers模型的Encoder,在處理一個(gè)單詞時(shí),能夠聯(lián)系詞語(yǔ)上下文,從而得到其含義。BERT被設(shè)計(jì)為用未標(biāo)記的文本去訓(xùn)練出一個(gè)模型,它具有更深的層數(shù),很好的泛化性和并行性,可以充分描述字符級(jí)、詞級(jí)、句子級(jí)甚至句間關(guān)系特征[31]。并且模型增加了對(duì)上下文的記憶??梢园袯ERT模型看作一個(gè)深層的Word2vec模型,對(duì)于一些特定的任務(wù),只需在BERT后面下接一些網(wǎng)絡(luò)結(jié)構(gòu),就能很好的完成預(yù)設(shè)的任務(wù)。在文本挖掘領(lǐng)域,其優(yōu)勢(shì)巨大,BERT模型的出現(xiàn)是自然語(yǔ)言處理的一個(gè)巨大的進(jìn)步,推動(dòng)了NLP任務(wù)的發(fā)展。
深度學(xué)習(xí)(Deep Learning)是機(jī)器學(xué)習(xí)的分支[32],是一種以人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對(duì)數(shù)據(jù)進(jìn)行自動(dòng)的特征學(xué)習(xí)的算法。深度學(xué)習(xí)具有學(xué)習(xí)能力強(qiáng)、覆蓋范圍廣、適應(yīng)力強(qiáng)和可移植性好的優(yōu)點(diǎn),但是,深度學(xué)習(xí)與機(jī)器學(xué)習(xí)相比較需要大的數(shù)據(jù)量,涉及的各類(lèi)參數(shù)也更多,模型更加復(fù)雜。深度學(xué)習(xí)的發(fā)展,給實(shí)體抽取又提供了很大的改進(jìn)方法,相比于基于規(guī)則或傳統(tǒng)機(jī)器學(xué)習(xí)的方法,是當(dāng)前最受歡迎的實(shí)體抽取方法。近期的命名實(shí)體識(shí)別方法不再單獨(dú)利用單一的方法應(yīng)用,通常會(huì)融入基于匹配模式、基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)中兩種甚至多種方法,根據(jù)研究信息的特點(diǎn)選取抽取技術(shù)。還會(huì)在模型中加入注意力機(jī)制、遷移學(xué)習(xí)等來(lái)提高命名實(shí)體識(shí)別的效果。目前,BERT加雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)是命名實(shí)體識(shí)別的熱門(mén)方法。
對(duì)抽取任務(wù)進(jìn)行抽取評(píng)價(jià),是評(píng)價(jià)一個(gè)抽取方法或模型優(yōu)劣的準(zhǔn)則,為其他學(xué)者的研究提供參考價(jià)值。通常,在實(shí)體抽取任務(wù)中,一般采用3個(gè)評(píng)價(jià)指標(biāo)包括:精確率(Precision)、召回率(Recall)和F1值。對(duì)于給定的測(cè)試數(shù)據(jù)集,精確率是指正確預(yù)測(cè)為正占全部預(yù)測(cè)為正的比例,召回率則是正確預(yù)測(cè)為正占全部正樣本的比例,而F1值則是正確率和召回率的調(diào)和平均值,可以對(duì)系統(tǒng)的性能進(jìn)行綜合性的評(píng)價(jià)。通常綜合3個(gè)指標(biāo)情況,對(duì)抽取方法進(jìn)行評(píng)估抽取效果。
中醫(yī)藥領(lǐng)域包含了海量的中醫(yī)學(xué)知識(shí),對(duì)其進(jìn)行信息抽取意義重大。到目前為止,中醫(yī)藥信息還沒(méi)有得到充分的挖掘和利用,中醫(yī)藥資源的海量性、散亂性和不規(guī)范性等特點(diǎn),致使人們難以從海量的中醫(yī)數(shù)據(jù)中精準(zhǔn)獲取自己所需的信息,對(duì)中醫(yī)藥不斷地發(fā)掘和利用,有著巨大的醫(yī)學(xué)價(jià)值和社會(huì)價(jià)值,同時(shí)中醫(yī)藥信息的特點(diǎn)也讓實(shí)體抽取的應(yīng)用面臨更大的挑戰(zhàn)。從非結(jié)構(gòu)化的中醫(yī)信息中抽取有用信息,有助于中醫(yī)信息的精準(zhǔn)利用,避免人力以及資源的浪費(fèi),提高中醫(yī)信息的利用率,對(duì)中醫(yī)的進(jìn)一步挖掘應(yīng)用及傳承發(fā)展有著十分重要的推動(dòng)作用,從而有助于為中醫(yī)臨床研究提供參考價(jià)值和辨證思路。
中醫(yī)藥數(shù)據(jù)的特點(diǎn)可以概括為:①多樣性。中醫(yī)藥數(shù)據(jù)來(lái)源廣泛,由于中醫(yī)藥歷史悠久,且國(guó)家面積廣闊,形成了地域性的中醫(yī)藥文化,其涵蓋了大量的中醫(yī)藥信息。且隨著信息化時(shí)代的到來(lái),中醫(yī)藥數(shù)據(jù)也越來(lái)越多樣豐富。②復(fù)雜性。中醫(yī)數(shù)據(jù)的表達(dá)呈現(xiàn)多樣性,包含繁體字,民族語(yǔ)言,文言文等,使得抽取難度增加。③不規(guī)范性。例如對(duì)于同種疾病的描述可能會(huì)因人而異、因醫(yī)院而異,中草藥藥物分布范圍廣泛,相同的一味中藥名稱(chēng)的表達(dá)也不盡相同,進(jìn)行統(tǒng)一的規(guī)范標(biāo)準(zhǔn)實(shí)行困難,這種沒(méi)有進(jìn)行統(tǒng)一規(guī)范化處理的數(shù)據(jù)信息,加深抽取的困難程度。
中醫(yī)醫(yī)案包含大量信息,其專(zhuān)業(yè)性強(qiáng),短句形式的特點(diǎn)給結(jié)構(gòu)化抽取帶來(lái)了巨大的挑戰(zhàn),非結(jié)構(gòu)化的中醫(yī)醫(yī)案無(wú)法直接被計(jì)算機(jī)識(shí)別和利用。中醫(yī)醫(yī)案的知識(shí)豐富,實(shí)體抽取技術(shù)在中醫(yī)醫(yī)案中廣泛應(yīng)用,使醫(yī)案結(jié)構(gòu)化成為可能。
3.2.1中醫(yī)醫(yī)案
劉博等[33]針對(duì)傳統(tǒng)一階隱馬爾可夫模型在解決詞性標(biāo)注捕獲上下文的信息有限問(wèn)題上的不足,推導(dǎo)了二階HMM的主要學(xué)習(xí)方法模型,該模型能更多地聯(lián)系上下文,使得中醫(yī)診斷文本的標(biāo)注更為精確。但構(gòu)建語(yǔ)料庫(kù)較小,需要進(jìn)一步優(yōu)化。屈丹丹等[34]對(duì)比了TFIDF與Word2vec方法抽取結(jié)果,隨著抽取個(gè)數(shù)的不斷增加,Word2vec在醫(yī)案信息抽取過(guò)程中,由于考慮了其上下文之間的聯(lián)系,使抽取結(jié)果的精確率和召回率較高。肖瑞等[35]基于BiLSTM-CRF的中醫(yī)文本命名實(shí)體識(shí)別研究,基于Word2vec的向量構(gòu)建,從而進(jìn)行模型訓(xùn)練迭代,利用CRF層,加強(qiáng)文本間信息的相關(guān)性,實(shí)現(xiàn)對(duì)中醫(yī)醫(yī)案文本進(jìn)行命名實(shí)體識(shí)別,但訓(xùn)練數(shù)據(jù)量較小,具有一定的局限,有待進(jìn)一步的優(yōu)化。高佳奕等[36]針對(duì)肺癌醫(yī)案構(gòu)建了LSTM_CRF混合模型,并且設(shè)計(jì)了多種算法,通過(guò)測(cè)試分析比較不同模型優(yōu)劣,發(fā)現(xiàn)帶有Peephole機(jī)制的雙向LSTM識(shí)別效果最好,能夠有效實(shí)現(xiàn)中醫(yī)醫(yī)案癥狀命名實(shí)體識(shí)別。但數(shù)據(jù)和標(biāo)簽等問(wèn)題仍需進(jìn)一步解決。Liu等[37]基于500份標(biāo)注的中醫(yī)醫(yī)案數(shù)據(jù),構(gòu)建了對(duì)醫(yī)案中癥狀和病機(jī)實(shí)體抽取的CRF訓(xùn)練模型,利用模型來(lái)抽取癥狀和病機(jī),實(shí)驗(yàn)結(jié)果經(jīng)過(guò)交叉驗(yàn)證,證明該模型的性能良好,F(xiàn)1達(dá)到了80%以上,適用于中醫(yī)醫(yī)案的信息提取利用,并且隨著訓(xùn)練醫(yī)案的增加,基于CRF的病機(jī)和癥狀實(shí)體識(shí)別性能穩(wěn)步提升。Yang等[38]針對(duì)中醫(yī)醫(yī)案中的分詞、實(shí)體多樣性和歧義性等難點(diǎn),提出了一種基于BiLSTM-CRF的深度學(xué)習(xí)混合模型命名實(shí)體識(shí)別方法,獲得較好的實(shí)體抽取效果,處方實(shí)體抽取精確率在90%左右,并且了構(gòu)建知識(shí)圖譜,可以提供檢索、可視化等功能,幫助中醫(yī)知識(shí)的學(xué)習(xí)和共享。
3.2.2中醫(yī)電子病歷
劉一斌等[39]的基于樸素貝葉斯和Word2vec對(duì)中醫(yī)電子病歷文本信息抽取,利用了兩種算法對(duì)中醫(yī)電子病歷長(zhǎng)短文本進(jìn)行了抽取,但是由于數(shù)據(jù)的限制以及供訓(xùn)練的中醫(yī)電子病歷的文本格式單一,可能造成了此方法的局限性。Jia等[40]介紹了一種從中醫(yī)臨床記錄中提取醫(yī)療實(shí)體的遠(yuǎn)程監(jiān)督NER方法。它利用預(yù)處理的語(yǔ)言模型和簡(jiǎn)單的多層神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器來(lái)檢測(cè)和分類(lèi)實(shí)體,并且加入了過(guò)濾機(jī)制,利用該方法對(duì)中醫(yī)臨床記錄的實(shí)體抽取,得到F1得分為77.34%,實(shí)驗(yàn)結(jié)果表明,該方法比其他基線方法具有更好的性能。
中醫(yī)文獻(xiàn)按時(shí)間劃分為古代文獻(xiàn)、近代文獻(xiàn)和現(xiàn)代文獻(xiàn)。我國(guó)保留了大量的中醫(yī)藥文獻(xiàn),包含了眾多名醫(yī)的診療記錄及中醫(yī)藥信息,體現(xiàn)了歷代醫(yī)家的中醫(yī)思想,對(duì)其進(jìn)行處理抽取可以便于更好的獲取和利用中醫(yī)文獻(xiàn)中的知識(shí),從而有助于藥物搜索、藥物挖掘等。但是很多中醫(yī)文獻(xiàn)往往知識(shí)體系復(fù)雜、句式復(fù)雜,存在大量的繁體字、通假字以及專(zhuān)業(yè)術(shù)語(yǔ)等,因此進(jìn)行抽取困難。尤其是和民族醫(yī)藥相關(guān)的信息,處理難度更大。由于利用傳統(tǒng)的方法難以實(shí)現(xiàn),所以很多學(xué)者引入深度學(xué)習(xí)方法對(duì)中醫(yī)文獻(xiàn)進(jìn)行實(shí)體抽取。
3.3.1古籍文獻(xiàn)
在中醫(yī)古籍文獻(xiàn)方面,葉輝[41]通過(guò)條件隨機(jī)場(chǎng)研究出從中醫(yī)古籍中抽取癥狀和藥物的方法。利用此方法對(duì)《金匱要略》內(nèi)容進(jìn)行有效提取,抽取效果較其他方法更好,為將來(lái)建立中醫(yī)藥搜索引擎及新藥物發(fā)掘等方面提供了一種可行的方法。高甦等[42]采用了BiLSTM-CRF的實(shí)體識(shí)別模型,對(duì)中醫(yī)典籍《黃帝內(nèi)經(jīng)》中的中醫(yī)認(rèn)識(shí)方法、中醫(yī)生理、中醫(yī)病理、中醫(yī)自然、治則治法等5種實(shí)體進(jìn)行識(shí)別,與其他方法對(duì)比獲得了較好的識(shí)別效果。張藝品等[43]選用中醫(yī)典籍《備急千金方》、《千金翼方》、《神農(nóng)本草經(jīng)》作為語(yǔ)料,利用BiLSTM-CRF模型結(jié)構(gòu),對(duì)中醫(yī)疾病、方劑、中草藥等內(nèi)容抽取,對(duì)比單獨(dú)的HMM模型和CRF模型,結(jié)果表明BiLSTM-CRF模型算法抽取效果具有較高準(zhǔn)確性。北京科技大學(xué)的學(xué)者[44]發(fā)明了一種面向中醫(yī)古籍文獻(xiàn)的命名實(shí)體識(shí)別方法和裝置專(zhuān)利,根據(jù)標(biāo)注的中醫(yī)古文語(yǔ)料訓(xùn)練模型Word Embedding詞嵌入,并使用訓(xùn)練得到的AutoNER自動(dòng)命名實(shí)體識(shí)別模型,對(duì)中醫(yī)古文語(yǔ)料進(jìn)行了實(shí)體識(shí)別。并結(jié)合現(xiàn)有的語(yǔ)言訓(xùn)練模型,研發(fā)了一種方法系統(tǒng),用以解決中醫(yī)命名實(shí)體的識(shí)別問(wèn)題[45]?;谛颖居?xùn)練集,節(jié)省了人工標(biāo)注的成本,提高了識(shí)別效果并且易操作,實(shí)現(xiàn)了對(duì)中醫(yī)古籍文獻(xiàn)的有效和更全面地利用。Qu等[46]針對(duì)中醫(yī)領(lǐng)域的文本進(jìn)行命名實(shí)體識(shí)別,構(gòu)建了基于BERTBiLSTM-CRF模型,以《傷寒論》為訓(xùn)練集和測(cè)試集,對(duì)癥狀、疾病名稱(chēng)、時(shí)間、處方名稱(chēng)和藥物名稱(chēng)五個(gè)實(shí)體進(jìn)行抽取,由于BERT在學(xué)習(xí)上下文特征更明確,與其他模型結(jié)合提高了總體性能,其抽取結(jié)果優(yōu)于BiLSTM-CRF及LSTM-CRF模型,且若提高樣本的訓(xùn)練量,會(huì)取得更好的效果。
3.3.2現(xiàn)代文獻(xiàn)
現(xiàn)代文獻(xiàn)方面,Zhu等[47]針對(duì)中醫(yī)教材,將語(yǔ)義本體與SVM分類(lèi)和正則表達(dá)式匹配相結(jié)合,用于提取癥狀和診斷信息,把數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián),構(gòu)建了結(jié)構(gòu)化知識(shí)庫(kù),為數(shù)字圖書(shū)館提供了服務(wù)。Deng等[48]利用雙向長(zhǎng)短記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合的方法對(duì)中藥專(zhuān)利中的中藥、疾病、癥狀等實(shí)體進(jìn)行了識(shí)別抽取,整體F1值高于90%,相比于HMM、LSTM、BiLSTM模型,取得了良好的效果。Zhang等[49]利用一種半監(jiān)督嵌入式BERT-BiLSTM-CRF模型,以《中醫(yī)診斷》為訓(xùn)練集和測(cè)試集,取得較好的抽取效果,精確率召回率和F1值達(dá)到80%以上,并且基于《中醫(yī)診斷》一書(shū)中的實(shí)體建立起了簡(jiǎn)易的輔助診斷系統(tǒng),提供了知識(shí)檢索查詢(xún)服務(wù)。
3.3.3民族醫(yī)藥文獻(xiàn)
民族醫(yī)藥方面,何家歡等[50]提出了基于BiLSTMCRF深度學(xué)習(xí)模型對(duì)藏藥藥理命名實(shí)體識(shí)別,BiLSTM模型相比LSTM模型能獲取更佳特征表示,實(shí)現(xiàn)了對(duì)文獻(xiàn)中藏藥藥理實(shí)體的有效抽取,為藏醫(yī)藥文獻(xiàn)的數(shù)據(jù)挖掘提供了新方法。鄭光敏等[51]提出了一種先抽取關(guān)系和后抽取實(shí)體的自動(dòng)抽取知識(shí)模型,BERTBiLSTM-CRF知識(shí)抽取模型能夠有效組合BERT和傳統(tǒng)模型的優(yōu)勢(shì),可以充分提取文本特征,還進(jìn)一步利用句子中相鄰標(biāo)簽的關(guān)聯(lián)性獲得了全局最優(yōu)的標(biāo)簽序列,改善了實(shí)體識(shí)別性能,較其他模型方法各方取得了最優(yōu),能夠高效抽取《中國(guó)民族藥辭典》中的實(shí)體和關(guān)系。并且還利用此模型抽取的中國(guó)民族藥知識(shí)實(shí)體和關(guān)系構(gòu)建了知識(shí)圖譜,基于此知識(shí)圖譜實(shí)現(xiàn)了中國(guó)民族藥知識(shí)可視化和智能問(wèn)答。
中醫(yī)藥信息的多種特點(diǎn)讓實(shí)體抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用面臨更大的挑戰(zhàn)。目前,在中醫(yī)藥領(lǐng)域中的醫(yī)案和臨床電子病歷、中醫(yī)文獻(xiàn)、和民族醫(yī)藥等多個(gè)方面都相應(yīng)的運(yùn)用了實(shí)體抽取技術(shù)進(jìn)行處理信息,并且獲得了一定的成果,在不斷的改進(jìn)發(fā)展下,實(shí)體抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用,實(shí)現(xiàn)了對(duì)中醫(yī)藥信息的有效抽取,為進(jìn)一步的中醫(yī)數(shù)據(jù)挖掘打下了基礎(chǔ),有利于發(fā)現(xiàn)中醫(yī)藥的規(guī)律及隱藏知識(shí),以便更好的應(yīng)用中醫(yī)藥治療人類(lèi)疾病。
自然語(yǔ)言處理的實(shí)體抽取可以有效獲取重要信息,信息抽取的數(shù)據(jù)形式由文本到圖像、音頻和視頻等發(fā)展,面向更多的數(shù)據(jù)形式,便于多樣的數(shù)據(jù)挖掘。中醫(yī)藥領(lǐng)域的復(fù)雜信息為實(shí)體抽出技術(shù)提供了大量數(shù)據(jù),實(shí)體抽取也有效地處理了一部分中醫(yī)藥信息,兩者之間得到了相互促進(jìn)發(fā)展。實(shí)體抽取技術(shù)的應(yīng)用,是對(duì)古代名醫(yī)學(xué)術(shù)思想的繼承挖掘和延續(xù)及對(duì)現(xiàn)代中醫(yī)信息的進(jìn)一步分析處理的重要基礎(chǔ)。本文總結(jié)了實(shí)體抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用情況,為中醫(yī)藥實(shí)體抽取的研究提供一定的參考,以期促進(jìn)中醫(yī)藥的實(shí)體抽取研究。
本綜述從中醫(yī)藥領(lǐng)域中實(shí)體抽取的實(shí)際研究情況出發(fā),介紹了各技術(shù)的發(fā)展及中醫(yī)藥領(lǐng)域的應(yīng)用情況。中醫(yī)信息的抽取方法以及抽取模型,呈現(xiàn)出越來(lái)越多元化的研究發(fā)展趨勢(shì),對(duì)于中醫(yī)領(lǐng)域的實(shí)體抽取的后續(xù)研究,在數(shù)據(jù)方面,需要足夠大的、適合訓(xùn)練的數(shù)據(jù)量,并且需要更加精確具體的標(biāo)注標(biāo)簽,在模型方面,要盡可能多方融合考慮各方法的優(yōu)劣性,集成應(yīng)用,力圖使抽取結(jié)果更優(yōu)化。抽取模型要盡可能提高其適用性、魯棒性、泛化性、并且能與中醫(yī)領(lǐng)域的信息契合,以達(dá)到不斷優(yōu)化的抽取方法的目的,以便進(jìn)行下一步的數(shù)據(jù)研究處理。
精準(zhǔn)的獲取利用醫(yī)療信息,能夠有效促進(jìn)醫(yī)學(xué)的進(jìn)步發(fā)展,造福于人類(lèi)健康。在當(dāng)前中醫(yī)發(fā)展的最佳時(shí)期,對(duì)中醫(yī)領(lǐng)域包含的海量中醫(yī)知識(shí)和學(xué)術(shù)思想等信息進(jìn)行數(shù)據(jù)處理是重中之重,自然語(yǔ)言處理各種技術(shù)的出現(xiàn)與革新加速了中醫(yī)領(lǐng)域?qū)嶓w抽取進(jìn)程,為中醫(yī)藥的傳承發(fā)展做出了極大的貢獻(xiàn),中醫(yī)藥資源也會(huì)在技術(shù)不斷進(jìn)步中得到更好的挖掘與研究。