琚沅紅 牟冬梅,2* 王書童 李 樺,2 徐靜雯 呂淑貞
(1.吉林大學(xué)公共衛(wèi)生學(xué)院,吉林 長(zhǎng)春 130021;2.吉林大學(xué)第一醫(yī)院臨床研究部,吉林 長(zhǎng)春 130021;3.長(zhǎng)春中醫(yī)藥大學(xué)醫(yī)藥信息學(xué)院,吉林 長(zhǎng)春 130117)
近年來,隨著數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng)、科學(xué)技術(shù)的不斷突破,以知識(shí)驅(qū)動(dòng)的人工智能應(yīng)用已被廣泛落地于各種現(xiàn)實(shí)場(chǎng)景中,該現(xiàn)象帶動(dòng)了人們對(duì)精煉、專業(yè)化、個(gè)性化知識(shí)需求的不斷增加的同時(shí),推動(dòng)了大數(shù)據(jù)研究范式從數(shù)據(jù)密集型向知識(shí)密集型轉(zhuǎn)變進(jìn)程,也促進(jìn)了情報(bào)工程化、智能化的發(fā)展和壯大。情報(bào)工程化、智能化為創(chuàng)新科技情報(bào)服務(wù)提供了有效途徑,但如何從海量多源異構(gòu)數(shù)據(jù)中識(shí)別并抽取知識(shí),是當(dāng)下情報(bào)工程化、智能化亟需解決的問題,也是解決大數(shù)據(jù)時(shí)代信息超載的關(guān)鍵[1-2]。而數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、可靠性、完整性程度對(duì)于提高數(shù)據(jù)到知識(shí)這一過程的有效性,增強(qiáng)所獲得知識(shí)的實(shí)用性起決定性作用。
診療規(guī)范作為高質(zhì)量醫(yī)學(xué)知識(shí)的重要組成部分,對(duì)于提升科研效率和促進(jìn)成果產(chǎn)出具有重要價(jià)值。其是包括臨床實(shí)踐指南、專家意見、專家共識(shí)、臨床路徑、技術(shù)標(biāo)準(zhǔn)、指導(dǎo)原則、國(guó)家標(biāo)準(zhǔn)在內(nèi)的,由領(lǐng)域權(quán)威專家以循證醫(yī)學(xué)為前提,結(jié)合自身經(jīng)驗(yàn)對(duì)具有代表性、有效性以及可行性的最新研究成果的全面總結(jié)和深度提煉。診療規(guī)范作為健康醫(yī)療大數(shù)據(jù)的一部分,不僅能對(duì)臨床診療過程起到重要的指導(dǎo)和規(guī)范作用,且作為臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)的核心知識(shí)源,能夠以“證據(jù)支持者”的角色為診療決策提供科學(xué)依據(jù),提高臨床診療效率的同時(shí),從整體上改善醫(yī)療服務(wù)同質(zhì)化水平??偟膩碚f,診療規(guī)范對(duì)醫(yī)務(wù)工作者的指導(dǎo)和約束作用貫穿于疾病診療過程始終。然而,當(dāng)下診療規(guī)范以篇章為粒度且多以文本形式集成于各網(wǎng)站或數(shù)據(jù)庫(kù)系統(tǒng)中,未能以計(jì)算機(jī)可讀的形式嵌入到醫(yī)療信息系統(tǒng)中,文本形式的診療規(guī)范的難利用、不易擴(kuò)展及可植入性差等問題無法滿足醫(yī)護(hù)人員在診療過程中對(duì)知識(shí)的需求,更加無法在實(shí)際診療的決策制定過程中提供自動(dòng)化知識(shí)支持[3]。而且隨著互聯(lián)網(wǎng)+人工智能技術(shù)的發(fā)展,傳統(tǒng)的以經(jīng)驗(yàn)為主導(dǎo)的臨床實(shí)踐模式正在向數(shù)據(jù)驅(qū)動(dòng)的循證醫(yī)學(xué)、精準(zhǔn)醫(yī)學(xué)、人工智能+醫(yī)療等智慧化醫(yī)學(xué)模式變革。醫(yī)護(hù)人員對(duì)知識(shí)形式的需求逐漸從散在、孤立、簡(jiǎn)單向聚合、關(guān)聯(lián)、復(fù)雜的方向發(fā)展,對(duì)知識(shí)的獲取深度也向著精準(zhǔn)化、個(gè)性化和智能化的方向轉(zhuǎn)變。因此,如何從醫(yī)學(xué)數(shù)據(jù)中精準(zhǔn)、智能、高效地提取知識(shí),實(shí)現(xiàn)零散、異構(gòu)數(shù)據(jù)的有序化組織、結(jié)構(gòu)化存儲(chǔ),從而促進(jìn)對(duì)醫(yī)學(xué)知識(shí)的智能化應(yīng)用,為醫(yī)護(hù)診療提供決策支持,是智慧醫(yī)療發(fā)展過程中的首要環(huán)節(jié),也是最為基礎(chǔ)的一步[4]。
命名實(shí)體識(shí)別(Named Entity Recognition,NER)作為解決這一問題的基本手段,現(xiàn)階段主要用于對(duì)領(lǐng)域文本進(jìn)行挖掘,其能夠根據(jù)目標(biāo)實(shí)體的粒度、語(yǔ)義層次、語(yǔ)義深度從非結(jié)構(gòu)化文本中對(duì)命名實(shí)體進(jìn)行識(shí)別,其準(zhǔn)確性、完整性對(duì)構(gòu)建知識(shí)庫(kù)或知識(shí)圖譜起到了關(guān)鍵性的奠基作用。鑒于肺癌是對(duì)人類生命健康威脅最大的惡性腫瘤之一,《2020年世界癌癥報(bào)告》指明,肺癌發(fā)病率和死亡率一直位于全球各種惡性腫瘤首位(死亡率占總數(shù)18.4%)[5],其中,中國(guó)為發(fā)病率增幅最大的地區(qū)之一(年均增長(zhǎng)率超過2%)[6],且根據(jù)國(guó)家癌癥中心發(fā)布的《2019年全國(guó)癌癥報(bào)告》顯示,按發(fā)病及死亡人數(shù)順位排序,肺癌位居我國(guó)惡性腫瘤發(fā)病率及死亡率首位,且其死亡率呈現(xiàn)逐年上升趨勢(shì)[7],對(duì)國(guó)家、社會(huì)和個(gè)人造成了嚴(yán)重的負(fù)擔(dān)。因此,本文以肺癌診療規(guī)范為例,以解決高質(zhì)量醫(yī)學(xué)知識(shí)在實(shí)際應(yīng)用過程中遇到的瓶頸為切入點(diǎn),以結(jié)合詞匯增強(qiáng)的命名實(shí)體識(shí)別方式完成對(duì)非結(jié)構(gòu)化肺癌診療規(guī)范文本中實(shí)體邊界及其類別的識(shí)別,實(shí)現(xiàn)肺癌診療規(guī)范文本的有序化、結(jié)構(gòu)化,這對(duì)于提高診療水平的均等化和同質(zhì)化程度,促進(jìn)醫(yī)療模式變革具有重要意義。
縱觀NER的發(fā)展歷程,其經(jīng)歷了早期的基于字典、基于規(guī)則的方法,基于隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)、條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)等傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的深度學(xué)習(xí)的方法以及以上方法的混合等階段,而不同方法的更新迭代的宗旨均是為了提高NER性能[8]。其中,因?yàn)榛谏疃葘W(xué)習(xí)的方法不論在特征學(xué)習(xí)深度還是在模型識(shí)別精度上都表現(xiàn)出遠(yuǎn)優(yōu)于傳統(tǒng)的基于機(jī)器學(xué)習(xí)方法的特點(diǎn),而受到界內(nèi)學(xué)者的廣泛應(yīng)用。特別的,將機(jī)器學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合而形成的LSTM+CRF、BiLSTM+CRF是現(xiàn)階段中英文NER的主流方法[9]。但不論采用哪一種方法,其性能均依賴于足量的標(biāo)注數(shù)據(jù)以及標(biāo)注數(shù)據(jù)的質(zhì)量。而大多數(shù)標(biāo)注數(shù)據(jù)均體現(xiàn)出依賴人工、數(shù)據(jù)量小、質(zhì)量參差不齊等特點(diǎn)[10]。且垂直領(lǐng)域的術(shù)語(yǔ)或概念專業(yè)性更強(qiáng),更加需要領(lǐng)域?qū)<业募映?,尤其是專業(yè)性極強(qiáng)的醫(yī)學(xué)領(lǐng)域,其對(duì)知識(shí)精準(zhǔn)度、完整度要求更高。對(duì)醫(yī)學(xué)領(lǐng)域文本數(shù)據(jù)進(jìn)行NER時(shí),對(duì)數(shù)據(jù)的準(zhǔn)確標(biāo)注要求更高,且鑒于疾病類型種類繁多,不同的疾病診療過程各異的特性,不同疾病所代表的知識(shí)概念體系間也存在較大差異,這使得醫(yī)學(xué)數(shù)據(jù)樣本在標(biāo)注時(shí)沒有統(tǒng)一的模板可循,再加上中文的表述不若英文沒有天然的分界,因此標(biāo)注過程也更為復(fù)雜。這也是造成研究者對(duì)醫(yī)學(xué)相關(guān)文本進(jìn)行NER時(shí)缺乏用于模型訓(xùn)練的數(shù)據(jù)集的關(guān)鍵原因[11]。特別在總體數(shù)據(jù)量本身就少的中文診療規(guī)范數(shù)據(jù)識(shí)別方面,更加缺乏標(biāo)注數(shù)據(jù)的支持。因此,對(duì)中文診療規(guī)范命名實(shí)體識(shí)別進(jìn)行深入研究不論是在理論突破還是現(xiàn)實(shí)意義方面均具有重要價(jià)值。
目前,少樣本NER研究還處于發(fā)展階段,相關(guān)工作大多聚焦于通用領(lǐng)域,對(duì)醫(yī)學(xué)領(lǐng)域的研究極少。石教祥等[12]認(rèn)為,現(xiàn)階段少樣本NER大體分為4個(gè)研究方向:數(shù)據(jù)增強(qiáng)、模型遷移、特征變換以及知識(shí)鏈接。其中,數(shù)據(jù)增強(qiáng)相關(guān)研究更為常見,且主要從模型結(jié)構(gòu)設(shè)計(jì)和數(shù)據(jù)資源優(yōu)化兩個(gè)方面來提升少樣本NER性能。
NER模型結(jié)構(gòu)一般分為輸入表示層、序列建模層和標(biāo)簽解碼層。研究者們通常對(duì)基線模型中的某一層或某幾層進(jìn)行結(jié)構(gòu)上的改良以實(shí)現(xiàn)更優(yōu)的NER性能。在輸入表示層方面,有Ding R等[13]利用多圖結(jié)構(gòu)實(shí)現(xiàn)實(shí)體詞典與基于字符的NER模型間的交互,進(jìn)而解決詞典匹配沖突的問題。也有Ma R等[14]對(duì)Embedding層進(jìn)行設(shè)計(jì),避免信息損失的同時(shí)還能引入詞匯相對(duì)應(yīng)的Word Embedding;或者通過為每個(gè)詞匯的末尾字符進(jìn)行編碼實(shí)現(xiàn)Batch并行化以獲得較高的識(shí)別效率[15]。在序列建模層方面,其模型構(gòu)造先后經(jīng)歷了從Zhang Y等[16]提出LatticeLSTM和從Li Z等[17]提出MGLatticeLSTM,即通過更改LSTM結(jié)構(gòu)將詞匯信息與基于字符的LSTM相融合。到Gui T等[18]提出LR-CNN,引入CNN實(shí)現(xiàn)并行化訓(xùn)練并提出了一種Rethinking機(jī)制來解決詞匯沖突問題。到Sui D等[19]提出CGN,通過拼接多個(gè)圖注意力網(wǎng)絡(luò)的計(jì)算結(jié)果來對(duì)模型中的圖網(wǎng)絡(luò)層進(jìn)行設(shè)計(jì)。再到Li X等[20]提出FLAT,通過使用Transformer并對(duì)字符的相對(duì)位置進(jìn)行編碼來更好地融合詞匯信息等過程。此外,相關(guān)研究多采用網(wǎng)絡(luò)多層感知機(jī)+激活函數(shù)(MLP+softmax)、CRF、RNN和指針等方式對(duì)序列建模層輸出的序列進(jìn)行解碼,其中以CRF最為通用[21]。整體來看,對(duì)輸入表示層的研究主要是構(gòu)建基于詞匯信息的自適應(yīng)Embedding,模型可移植性好。對(duì)序列建模層的研究以模型動(dòng)態(tài)框架設(shè)計(jì)為核心,在基于字符的基礎(chǔ)上融入詞匯信息,此類模型設(shè)計(jì)及運(yùn)行較為復(fù)雜,且移植性較差,不適合在專業(yè)性較強(qiáng)的領(lǐng)域推廣使用。
梳理現(xiàn)有研究成果發(fā)現(xiàn),利用深度學(xué)習(xí)算法對(duì)相關(guān)領(lǐng)域內(nèi)各類命名實(shí)體進(jìn)行識(shí)別的方法或流程已逐步趨于成熟。因此,學(xué)者們多以前人研究中的模型或算法為基礎(chǔ),將研究的重點(diǎn)聚焦于對(duì)訓(xùn)練語(yǔ)料的優(yōu)化方面。研究以此為出發(fā)點(diǎn),將少樣本NER過程中所用到的數(shù)據(jù)資源分為內(nèi)部資源和外部資源。其中,內(nèi)部資源指用于訓(xùn)練、驗(yàn)證以及測(cè)試模型性能的數(shù)據(jù)集;外部資源指由外部引入的用于提高模型性能的數(shù)據(jù)。當(dāng)下,以數(shù)據(jù)資源為操作核心的少樣本NER研究,或以內(nèi)部資源為優(yōu)化對(duì)象,通過增加資源支持體量、優(yōu)化資源特征表示、增強(qiáng)語(yǔ)義表示能力等方式來提升少樣本NER性能,或以外部資源為優(yōu)化對(duì)象,通過擴(kuò)大資源提供維度來提高模型識(shí)別能力。
就資源體量而言,可通過主動(dòng)學(xué)習(xí)采樣[22]為模型提供高質(zhì)量數(shù)據(jù)集,或通過半監(jiān)督采樣[23]、無監(jiān)督采樣[24]等方式增加模型對(duì)負(fù)樣本的學(xué)習(xí)難度以提高樣本篩選的準(zhǔn)確率。就特征表示而言,周康等[25]在BiLSTM的基礎(chǔ)上引入AdaBoost集成學(xué)習(xí)算法,通過整合各細(xì)分子類的分類器,從全局角度對(duì)數(shù)據(jù)不同維度的特征進(jìn)行刻畫,提高模型的特征捕獲能力。陳曙東等[26]基于詞典并通過加權(quán)的方式對(duì)序列中的字符進(jìn)行動(dòng)態(tài)匹配后得到字符的增強(qiáng)特征表示,從而提高模型的自動(dòng)推理能力。就語(yǔ)義表示而言,主要集中于對(duì)預(yù)訓(xùn)練語(yǔ)言模型的研究,研究者們?cè)谘芯窟^程中通過不斷增強(qiáng)對(duì)字或者詞的語(yǔ)義表示能力以實(shí)現(xiàn)對(duì)字或者詞的多義性表征,從最初的利用Word2Vec工具[27]訓(xùn)練詞向量到近年來基于Transformer的BERT模型[28],從ElMo算法[29]、GloVe算法[30]到XLnet模型[31]再到如今的將XLnet模型和BERT模型相結(jié)合[32-34]的方法,雖然方法的復(fù)雜度越來越高,但對(duì)語(yǔ)義的表達(dá)能力越來越強(qiáng)。就資源維度而言,指外部資源的種類,可通過引入字典[14]、詞典[35]、本體庫(kù)[36]、知識(shí)庫(kù)[37]等外部資源來啟發(fā)式地標(biāo)記數(shù)據(jù),降低標(biāo)注數(shù)據(jù)的獲取難度,從而提高目標(biāo)NER任務(wù)的完成效率。
鑒于當(dāng)下醫(yī)學(xué)領(lǐng)域內(nèi),尤其是專病相關(guān)訓(xùn)練語(yǔ)料稀缺,且少樣本NER研究在醫(yī)學(xué)領(lǐng)域較為薄弱的現(xiàn)狀,本研究從改良模型結(jié)構(gòu)、優(yōu)化資源特征表示以及擴(kuò)大資源提供維度的角度出發(fā),以肺癌為例,以中文各版肺癌診療規(guī)范文本為原始語(yǔ)料,通過自建肺癌專業(yè)術(shù)語(yǔ)詞典并將其與字符級(jí)模型輸入表示層相融合的方式實(shí)現(xiàn)詞匯增強(qiáng)的肺癌診療規(guī)范NER模型的構(gòu)建,并將該模型與基線模型BiLSTM-CRF、Soft-Lexicon相比較,從而進(jìn)一步證實(shí)字詞融合方式在NER中優(yōu)越性的同時(shí),實(shí)現(xiàn)肺癌診療規(guī)范有序化、結(jié)構(gòu)化,也為醫(yī)學(xué)領(lǐng)域內(nèi)少樣本高質(zhì)量醫(yī)學(xué)知識(shí)的命名實(shí)體識(shí)別研究提供路徑參考。
基于詞匯增強(qiáng)的NER的核心思想在于將詞匯信息引入到字級(jí)別的NER模型中,這種同時(shí)考慮字符和詞匯的做法分別在詞信息補(bǔ)全和詞邊界校準(zhǔn)兩方面發(fā)力,既能避免詞級(jí)別模型出現(xiàn)分詞錯(cuò)誤傳播的問題,也能解決字級(jí)別模型詞匯信息缺失的問題。本研究通過創(chuàng)新Soft-Lexicon模型[14]在醫(yī)學(xué)領(lǐng)域的應(yīng)用,提出Fusion-Lexicon模型,即在利用字符詞典以及通用詞典進(jìn)行字級(jí)別模型構(gòu)建的基礎(chǔ)上,特別引入領(lǐng)域?qū)I(yè)術(shù)語(yǔ)詞典,使字級(jí)和詞級(jí)特征相融合,進(jìn)而促進(jìn)NER效率的提升。具體研究框架設(shè)計(jì)如圖1所示。
圖1 融合領(lǐng)域詞典特征的診療規(guī)范命名實(shí)體識(shí)別框架
本研究在對(duì)肺癌診療規(guī)范文本進(jìn)行預(yù)處理的基礎(chǔ)上,以肺癌概念體系為依據(jù)凝練出肺癌的核心概念,將核心概念作為領(lǐng)域詞典中描述肺癌術(shù)語(yǔ)或概念的基本大類,而后通過對(duì)肺癌相關(guān)的各種專業(yè)、權(quán)威參考資料的收集、篩選、歸納和提煉等過程,實(shí)現(xiàn)對(duì)各大類的術(shù)語(yǔ)或概念分支的豐富,從而完成對(duì)肺癌領(lǐng)域?qū)I(yè)詞典的構(gòu)建。研究將領(lǐng)域詞典和肺癌診療規(guī)范文本作為模型的基礎(chǔ)數(shù)據(jù),借鑒分詞工具以及合適的標(biāo)注體系,實(shí)現(xiàn)對(duì)診療規(guī)范文本語(yǔ)料的自動(dòng)標(biāo)注,并進(jìn)一步在領(lǐng)域?qū)<业闹笇?dǎo)下,基于分詞標(biāo)注結(jié)果對(duì)領(lǐng)域詞典進(jìn)行修正和完善,為融合了領(lǐng)域詞典的診療規(guī)范命名實(shí)體識(shí)別研究提供數(shù)據(jù)支持。
1)字符表示:以字符級(jí)中文NER模型為基礎(chǔ),利用字符詞匯表Sc對(duì)輸入序列x={x1,x2,x3,xi,…,xn, 1≤i≤n}∈Sc中的字符進(jìn)行匹配,將x中的每個(gè)字符xi映射為密集向量,其中,Lc表示字符Embedding查找表。
(1)
2)字+詞特征融合:基于詞典D,D=D1∪D2,其中D1為領(lǐng)域詞典,D2為通用詞典,將其中的單詞信息與輸入序列的字符表示相融合,并用ai,j={ci,ci+1,…,cj}表示任意輸入序列x中存在的詞組。其中,labs(xj)表示與xj相關(guān)的所有分詞標(biāo)簽,研究利用“BMESO”標(biāo)注體系對(duì)文本序列進(jìn)行標(biāo)注,其中“B”“M”“E”分別代表一個(gè)詞的開頭、中間和結(jié)尾,“S”代表單獨(dú)成詞,“O”代表非實(shí)體詞。elabs(labs(xj))代表{B,E,M,S,O}五維multi-hot向量。
(2)
以圖1所示的“外周血細(xì)胞”為例,通過將每個(gè)字符在D中的所有匹配結(jié)果歸類到以每個(gè)字符在詞組中位置為標(biāo)準(zhǔn)的4個(gè)集合“BMES”中,并用4個(gè)詞邊界標(biāo)簽進(jìn)行標(biāo)記,若未能在詞典中找到匹配詞使得詞集為空,那么另添加一個(gè)詞集Δ并將其中的取值定義為“None”。對(duì)于輸入序列x中的每個(gè)字符xi的集合表達(dá)用如下公式表達(dá):
B(xi)={ai,j,?ai,j∈D,i (3) M(xi)={am,j,?am,j∈D,1≤m E(xi)={am,i,?am,i∈D,1≤m<1} S(xi)={xi,?xi∈D} Δ(xi)={None,?ap,q?D,1≤p 3)詞集權(quán)重歸一:為了提高NER模型的并行化計(jì)算效率,在對(duì)獲得的每個(gè)字符的“BMES”詞集Ζ進(jìn)行維度統(tǒng)一的基礎(chǔ)上,利用基于統(tǒng)計(jì)的靜態(tài)加權(quán)的方法對(duì)詞典詞w的頻率p(w)進(jìn)行統(tǒng)計(jì)并將其作為每個(gè)詞的權(quán)重,詞集Z的加權(quán)函數(shù)rz表示如下: (4) 其中,Lw表示單詞Embedding查找表。將詞集表示組合成固定維度的特征后,對(duì)詞集進(jìn)行串聯(lián)并將其添加到每個(gè)字符表示中,利用每個(gè)字符相對(duì)應(yīng)的4個(gè)詞集權(quán)重,對(duì)每個(gè)字符進(jìn)行表示如下: Lz(B,M,E,S)=[rz(B);rz(M);rz(E);rz(S)] (5) vc←[vc;Lz(B,M,E,S)] 文章通過構(gòu)建Fusion-Lexicon特征,將輸入序列與詞典D相匹配的結(jié)果添加到每個(gè)字符的向量表示中,序列建模層以這些詞匯增強(qiáng)的字符表示為輸入,利用單層BiLSTM對(duì)輸入序列中字符間的依賴關(guān)系進(jìn)行建模。其中,LSTM單元運(yùn)算公式如下: (6) iα=σ(w[hα-1,xα]+k) hα=oα*tanh(cα) 其中,iα、oα、fα分別為L(zhǎng)STM的輸入門、輸出門以及遺忘門因子,cα為當(dāng)前狀態(tài),hα為隱藏狀態(tài),σ代表為Sigmoid激活函數(shù),w和k為可訓(xùn)練參數(shù),*為元素間的乘積。前向、后向LSTM得到的隱藏狀態(tài)hα形成cα的上下文表示。序列建模層由3個(gè)上述LSTM單元串聯(lián)組合而成,第1個(gè)LSTM單元是基于字符的模型,對(duì)輸入序列中的字符進(jìn)行建模。第2個(gè)LSTM以第1個(gè)LSTM單元中的字符Embedding為輸入,通過融合字符序列中的詞信息得到第3個(gè)LSTM單元,最終實(shí)現(xiàn)融合詞信息的字級(jí)別NER模型。 該層以序列建模層的結(jié)果為輸入,利用CRF對(duì)整個(gè)輸入序列中字符的標(biāo)簽進(jìn)行預(yù)測(cè): (7) βα(y′,y|x)=exp(wy′,yhj+ky′,y) yx表示序列x的所有可能存在的序列標(biāo)簽,wy,y′和ky,y′是(y′,y)標(biāo)簽對(duì)的可訓(xùn)練參數(shù),φ代表模型參數(shù)。此外,在對(duì)標(biāo)簽預(yù)測(cè)的過程中,模型使用維特比算法,對(duì)給定的輸入序列x,以條件概率最高值作為閾值對(duì)標(biāo)簽序列y*進(jìn)行搜索,從而實(shí)現(xiàn)對(duì)標(biāo)簽的預(yù)測(cè),F(xiàn)(y,x)代表特征向量,w代表權(quán)值向量。 (8) 文章通過線上、線下手段相結(jié)合的方式廣泛收集各版肺癌診療規(guī)范(2009—2022)共計(jì)103篇,原始語(yǔ)料以.doc或.pdf的格式存在,且收集過程中已排除標(biāo)題重復(fù)的文獻(xiàn)。本研究首先對(duì)肺癌診療規(guī)范文本來源進(jìn)行核查,刪除內(nèi)容同源以及源于個(gè)人或非權(quán)威機(jī)構(gòu)發(fā)表的肺癌診療規(guī)范,共計(jì)17篇,保留了由中國(guó)抗癌協(xié)會(huì)、中國(guó)臨床腫瘤協(xié)會(huì)、中華醫(yī)學(xué)會(huì)、國(guó)際呼吸學(xué)會(huì)、國(guó)際腫瘤學(xué)會(huì)發(fā)布的以及國(guó)家發(fā)布的指導(dǎo)性文件,共計(jì)86篇。之后通過Python自編代碼將.doc及.pdf格式的肺癌診療規(guī)范批量轉(zhuǎn)化為.txt格式,并通過人工分別對(duì)轉(zhuǎn)化結(jié)果進(jìn)行了文字校對(duì),對(duì)轉(zhuǎn)義字符串、多余標(biāo)點(diǎn)符號(hào)、題錄信息、參考文獻(xiàn)等內(nèi)容進(jìn)行了刪除以供后續(xù)研究使用。 為了實(shí)現(xiàn)文本語(yǔ)料的自動(dòng)標(biāo)注,鑒于診療規(guī)范所具備的知識(shí)領(lǐng)域性強(qiáng)、術(shù)語(yǔ)表達(dá)規(guī)范、語(yǔ)言不規(guī)范現(xiàn)象較少等特點(diǎn),本研究參考醫(yī)學(xué)領(lǐng)域NER相關(guān)研究中所設(shè)置的實(shí)體類別,根據(jù)Hadzic M等提出的四維通用疾病本體模型[38]、OMAHA“七巧板”醫(yī)學(xué)術(shù)語(yǔ)集[39]、UMLS等醫(yī)學(xué)術(shù)語(yǔ)體系結(jié)構(gòu)和術(shù)語(yǔ)分類標(biāo)準(zhǔn),根據(jù)肺癌發(fā)生發(fā)展過程、診療特點(diǎn)以及文本形式診療規(guī)范的行文規(guī)律,在醫(yī)學(xué)專家的指導(dǎo)下,構(gòu)建肺癌診療過程所涉及的概念體系,如圖2所示。 本研究以肺癌概念體系為依據(jù),凝練出臨床表現(xiàn)、檢查、檢驗(yàn)、分期等核心概念。以核心概念為基礎(chǔ),考慮診療規(guī)范行文用詞規(guī)范性較強(qiáng)的特點(diǎn),充分利用教科書、官方發(fā)布的標(biāo)準(zhǔn)規(guī)范、領(lǐng)域公認(rèn)的專業(yè)術(shù)語(yǔ)表等參考資料對(duì)肺癌核心概念下的子類概念或術(shù)語(yǔ)進(jìn)行辨析后,通過閱讀、篩選、歸類以及去重等人工操作,參考肺癌診療規(guī)范分詞標(biāo)注結(jié)果,在醫(yī)學(xué)專家的指導(dǎo)下,不斷地對(duì)領(lǐng)域詞典進(jìn)行勘誤和細(xì)化,最終得到共計(jì)10個(gè)大類,72 041個(gè)詞匯的肺癌專業(yè)術(shù)語(yǔ)詞典,如表1所示。 表1 肺癌相關(guān)核心概念界定及其相關(guān)術(shù)語(yǔ)參考資料 NER過程的本質(zhì)是一種序列標(biāo)注任務(wù),為了得到能夠用于NER的訓(xùn)練語(yǔ)料,本研究將肺癌專業(yè)術(shù)語(yǔ)詞典作為自定義詞典與結(jié)巴分詞相結(jié)合,通過對(duì)預(yù)處理好的肺癌診療規(guī)范文本進(jìn)行語(yǔ)詞匹配、注釋核心概念標(biāo)簽等分詞處理操作實(shí)現(xiàn)對(duì)語(yǔ)料的詞性特征構(gòu)造,并在標(biāo)注結(jié)果的基礎(chǔ)上不斷地對(duì)領(lǐng)域詞典進(jìn)行補(bǔ)充和完善。利用Python自編程序?qū)Ψ衷~后數(shù)據(jù)進(jìn)行邊界特征構(gòu)造,即利用“BMESO”標(biāo)注體系實(shí)現(xiàn)對(duì)語(yǔ)料中詞匯或字符的邊界界定,以“Ⅳ期小細(xì)胞肺癌,首選治療模式為全身化療?!睘槔錁?biāo)注結(jié)果如圖3所示。 圖3 標(biāo)注結(jié)果示例 為了獲得更優(yōu)的模型參數(shù),本研究以句子為單位,將經(jīng)過分詞處理后的肺癌診療規(guī)范文本按照8∶1∶1的比例隨機(jī)拆分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,并在融合了領(lǐng)域詞典特征的Fusion-Lexicon模型、Soft-Lexicon模型和BiLSTM-CRF模型上進(jìn)行實(shí)驗(yàn),其中,各數(shù)據(jù)集中各類別的實(shí)體數(shù)量統(tǒng)計(jì)結(jié)果如表2所示。具體的,本文在Torch框架下,采用Python語(yǔ)言在CPU為Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz,操作系統(tǒng)為Win 10的環(huán)境下進(jìn)行實(shí)驗(yàn),其他模型參數(shù)設(shè)置如表3所示。 表2 各數(shù)據(jù)集中各類實(shí)體數(shù)量 表3 實(shí)驗(yàn)參數(shù)設(shè)置 基于肺癌診療規(guī)范文本,以經(jīng)典的字級(jí)別NER模型BiLSTM-CRF、Soft-Lexicon為基線模型,以融合了領(lǐng)域詞典特征的詞匯增強(qiáng)模型Fusion-Lexicon為實(shí)驗(yàn)?zāi)P停瑢?duì)肺癌診療規(guī)范進(jìn)行命名實(shí)體識(shí)別。其中,采用精準(zhǔn)率(Precision)、召回率(Recall)以及調(diào)和平均值F(F-measure)對(duì)模型性能進(jìn)行綜合評(píng)價(jià)。 3.4.1 模型整體識(shí)別效果分析 為了明確基線模型BiLSTM-CRF、Soft-Lexicon和實(shí)驗(yàn)?zāi)P虵usion-Lexicon對(duì)肺癌診療規(guī)范命名實(shí)體的識(shí)別效果差異性,本研究對(duì)3種模型的性能進(jìn)行了比較,具體結(jié)果如表4所示。從表中數(shù)據(jù)可以明確,F(xiàn)usion-Lexicon模型對(duì)肺癌診療規(guī)范文本中實(shí)體的識(shí)別效果在整體上均優(yōu)于BiLSTM-CRF和Soft-Lexicon,且Soft-Lexicon的識(shí)別效果整體上優(yōu)于BiLSTM-CRF。這一結(jié)果驗(yàn)證了相較于單純的字級(jí)別模型,將字符和詞匯相融合,兼顧保留詞信息以及重視詞邊界對(duì)肺癌診療規(guī)范文本進(jìn)行NER的方式具備可行性,尤其是將領(lǐng)域詞典特征引入到已經(jīng)融合了通用領(lǐng)域詞典特征和字符特征的Soft-Lexicon中,在提高肺癌診療規(guī)范文本的NER性能上更具優(yōu)越性。 表4 各模型整體識(shí)別效果對(duì)比 3.4.2 各類實(shí)體識(shí)別效果分析 在模型整體識(shí)別效果的基礎(chǔ)上,為進(jìn)一步探究肺癌診療規(guī)范文本中不同實(shí)體類別的識(shí)別差異性。本文分別以P、R、F1值為評(píng)價(jià)指標(biāo),對(duì)實(shí)驗(yàn)?zāi)P虵usion-Lexicon和基線模型BiLSTM-CRF、Soft-Lexicon在肺癌診療規(guī)范文本中不同命名實(shí)體類別上的識(shí)別效果進(jìn)行了比較研究,結(jié)果如圖4所示。Fusion-Lexicon模型對(duì)藥物類實(shí)體的識(shí)別效果最好,F(xiàn)1值為96.43%。其次為分期、診斷/治療/預(yù)防操作或程序類實(shí)體,F(xiàn)1值分別為94.39%,94.01%。且除部位外,其他類實(shí)體識(shí)別效果也不差,F(xiàn)1值均在92%以上。這均與診療規(guī)范文本表述內(nèi)容的規(guī)范性、領(lǐng)域詞典的專業(yè)性密切相關(guān)。研究對(duì)錯(cuò)誤識(shí)別中識(shí)別較好和較差的結(jié)果進(jìn)行分析發(fā)現(xiàn),藥物大多被預(yù)測(cè)為物質(zhì)成分,從實(shí)體詞本身來看無誤,因?yàn)橛行C(jī)體中的物質(zhì)也可以是藥物的主要成分。例如:表皮生長(zhǎng)因子、PD-L1等。但從語(yǔ)義上來看,模型對(duì)該類實(shí)體的上下文語(yǔ)境理解稍顯不足,后期可從增加資源支持體量的角度出發(fā),通過正樣本采樣來改善此類實(shí)體的識(shí)別效果。分期大多被預(yù)測(cè)為疾病診斷,因?yàn)榉制谝彩羌膊≡\斷的一部分。另外,診斷/治療/預(yù)防操作或程序除被識(shí)別為該類詞的某一部分外,大多被識(shí)別為檢查、檢驗(yàn),因?yàn)閺膶?shí)體類型的本質(zhì)來看,檢查、檢驗(yàn)、操作或程序類實(shí)體在大類上均屬于操作。因此,后續(xù)研究需要嚴(yán)格把握實(shí)體類間的范疇界限,細(xì)化詞典分類體系,進(jìn)而保障生成更高質(zhì)量的標(biāo)注數(shù)據(jù)。 此外,3種模型對(duì)部位識(shí)別的效果均不佳。通過分析模型預(yù)測(cè)結(jié)果發(fā)現(xiàn),在識(shí)別錯(cuò)誤的結(jié)果中,該類實(shí)體大多趨向于被識(shí)別為疾病診斷、操作、臨床表現(xiàn)類實(shí)體。一方面是因?yàn)檫@3類實(shí)體中的字符大多包含部位相關(guān)的詞;另一方面與肺癌領(lǐng)域詞典中部位類實(shí)體粒度較粗或?qū)嶓w數(shù)量相對(duì)較少有關(guān)。后續(xù)還需進(jìn)一步對(duì)領(lǐng)域詞典中的部位類實(shí)體進(jìn)行擴(kuò)充和完善,進(jìn)而改善該類實(shí)體識(shí)別效果欠佳的問題。 “雙輪驅(qū)動(dòng)”下情報(bào)研究范式的變革,為實(shí)現(xiàn)數(shù)據(jù)知識(shí)化、知識(shí)實(shí)踐化提供了理論支持,為有效推動(dòng)情報(bào)工程化和智能化發(fā)展打開了新局面。本研究從情報(bào)學(xué)領(lǐng)域面臨的如何高效實(shí)現(xiàn)數(shù)據(jù)/知識(shí)結(jié)構(gòu)化、有序化問題出發(fā),結(jié)合醫(yī)學(xué)領(lǐng)域高質(zhì)量數(shù)據(jù)資源特點(diǎn)及其NER特性,從少樣本NER研究方法入手并對(duì)其研究現(xiàn)狀進(jìn)行梳理發(fā)現(xiàn),整體上,少樣本NER相關(guān)研究呈現(xiàn)出以模型結(jié)構(gòu)設(shè)計(jì)和數(shù)據(jù)資源優(yōu)化為研究趨勢(shì),且在數(shù)據(jù)資源優(yōu)化方面,以數(shù)據(jù)資源為操作核心,以內(nèi)部或外部資源為優(yōu)化對(duì)象,以增加資源支持體量、優(yōu)化資源特征表示、增強(qiáng)語(yǔ)義表示能力、擴(kuò)大資源提供維度為優(yōu)化方式,內(nèi)外聯(lián)動(dòng),協(xié)力提升少樣本NER性能。 本研究基于綜述發(fā)現(xiàn),以肺癌診療規(guī)范文本為例,提出了一種面向少樣本高質(zhì)量醫(yī)學(xué)知識(shí)的,融合了字符詞典、通用詞典和領(lǐng)域詞典的詞匯增強(qiáng)型命名實(shí)體識(shí)別框架Fusion-Lexicon。該框架相較以往研究,在實(shí)現(xiàn)路徑上有以下3方面的優(yōu)越性:①在模型結(jié)構(gòu)設(shè)計(jì)上,通過在已經(jīng)融合了字符詞典特征、通用領(lǐng)域詞典特征的字級(jí)別模型中引入專業(yè)領(lǐng)域相關(guān)的詞級(jí)別的詞匯信息和位置信息的方式改良了模型的輸入表示層,保證了NER模型在其他類似任務(wù)上可移植性,一定程度上解決通用領(lǐng)域NER模型在醫(yī)學(xué)領(lǐng)域中擴(kuò)展性差的問題,并且在提高了模型對(duì)實(shí)體邊界識(shí)別效率的同時(shí),實(shí)現(xiàn)了對(duì)語(yǔ)料中不同粒度信息特征的提取,更大程度上保留了文本的語(yǔ)義信息;②在優(yōu)化資源特征表示上,在分詞標(biāo)注手段的支持下,基于通用詞典、字符詞典以及領(lǐng)域詞典,將語(yǔ)料中每個(gè)字符所涉及的4個(gè)BMES詞向量進(jìn)行串聯(lián)后得到Fusion-Lexicon特征,并將該特征與每個(gè)字符的Embedding進(jìn)行拼接以得到模型的輸入數(shù)據(jù),盡可能地保留語(yǔ)料中語(yǔ)詞的邊界信息和語(yǔ)義信息,為實(shí)現(xiàn)高效的NER奠定數(shù)據(jù)基礎(chǔ);③在擴(kuò)大資源提供維度上,研究在利用通用詞典、字符詞典的基礎(chǔ)上,額外引入全面、準(zhǔn)確、細(xì)化的領(lǐng)域詞典,以擴(kuò)大資源維度的方式為模型訓(xùn)練提供更堅(jiān)持的數(shù)據(jù)支持??偟膩碚f,該模型能夠在整體實(shí)驗(yàn)數(shù)據(jù)較少的情況下,使診療規(guī)范文本命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確性和高效性達(dá)到較高水平,從而促進(jìn)診療規(guī)范文本的有序化和結(jié)構(gòu)化,并為后續(xù)診療規(guī)范知識(shí)圖譜的構(gòu)建奠定基礎(chǔ)。 特別的,在構(gòu)建領(lǐng)域詞典時(shí),鑒于醫(yī)學(xué)領(lǐng)域概念和術(shù)語(yǔ)表達(dá)的專業(yè)性、特殊性和穩(wěn)定性以及醫(yī)學(xué)領(lǐng)域相關(guān)概念或術(shù)語(yǔ)詞表的通用性等特征,為了更好地發(fā)揮領(lǐng)域詞典在少樣本高質(zhì)量醫(yī)學(xué)知識(shí)NER中的作用,與以往的研究中多基于統(tǒng)計(jì)學(xué)方法通過利用通用語(yǔ)料或者高頻詞的方式構(gòu)建領(lǐng)域詞典不同[40-41],本研究通過人工的方式整合歸納了與肺癌相關(guān)的各種權(quán)威資料,構(gòu)建出了高質(zhì)量、類別多、體量大的肺癌專病詞典。雖然人工構(gòu)建肺癌專病詞典花費(fèi)了大量的人力和物力,但這種消耗在一定程度上是一次性的。因?yàn)椋卺t(yī)學(xué)領(lǐng)域內(nèi),不同疾病相關(guān)實(shí)體,尤其是檢查檢驗(yàn)等大多是相同的,這就意味著在絕大多數(shù)情況下,基于病種的特殊性進(jìn)行微調(diào)后的高質(zhì)量專病詞典能夠被應(yīng)用于其他疾病相關(guān)的文本NLP任務(wù)中。且通過利用領(lǐng)域詞典代替專家對(duì)語(yǔ)料進(jìn)行標(biāo)識(shí)并將其與基于深度學(xué)習(xí)的NER方法相融合的方式,一定程度上實(shí)現(xiàn)語(yǔ)料自動(dòng)、準(zhǔn)確、快速標(biāo)注的同時(shí)提高了對(duì)醫(yī)學(xué)數(shù)據(jù)中少樣本高質(zhì)量醫(yī)學(xué)知識(shí)資源的利用率,也在很大程度上提升了NER模型性能的同時(shí)為相關(guān)疾病的命名實(shí)體識(shí)別研究提供方法參考。因此,醫(yī)學(xué)專病領(lǐng)域詞典的構(gòu)建不但能大大減輕領(lǐng)域?qū)<以谡Z(yǔ)料標(biāo)注上的負(fù)擔(dān),還能經(jīng)過微調(diào)適用于不同病種的NER任務(wù)中,解決在醫(yī)學(xué)領(lǐng)域進(jìn)行NER任務(wù)時(shí)的冷啟動(dòng)問題,更能在很大程度上優(yōu)化命名實(shí)體識(shí)別過程中出現(xiàn)的實(shí)體邊界識(shí)別不清以及語(yǔ)義信息丟失的問題。 本文的局限性主要有兩個(gè)方面:第一,領(lǐng)域詞典的體量需進(jìn)一步擴(kuò)大且其分類體系也有待進(jìn)一步細(xì)化。例如:加大部位類實(shí)體的詞量,從樣本數(shù)據(jù)量上入手提高模型對(duì)部位類實(shí)體的識(shí)別效率。例如:優(yōu)化分類體系,厘清藥物與物質(zhì)成分、分期與疾病診斷、診斷/治療/預(yù)防操作或程序與檢查、檢驗(yàn)等類別之間的邊界。且通觀各類文本命名實(shí)體識(shí)別研究,原始語(yǔ)料的標(biāo)注質(zhì)量是決定NER效果的關(guān)鍵因素之一。同理,少樣本高質(zhì)量醫(yī)學(xué)知識(shí)的NER效果在很大程度上依賴于領(lǐng)域詞典的知識(shí)覆蓋率,為進(jìn)一步提高模型對(duì)高質(zhì)量醫(yī)學(xué)知識(shí)的識(shí)別效果,后續(xù)研究將在現(xiàn)有詞典的基礎(chǔ)上,通過人工+自動(dòng)相結(jié)合的方式,例如:收集、整理、歸納更多權(quán)威資料以及咨詢相關(guān)領(lǐng)域?qū)<业热斯し绞剑捎谜Z(yǔ)義相似度、字詞構(gòu)詞特征學(xué)習(xí)、語(yǔ)義映射、遷移學(xué)習(xí)等自動(dòng)方式,豐富完善領(lǐng)域詞典體量、不斷細(xì)化現(xiàn)有分類體系的同時(shí),對(duì)詞典進(jìn)行歸一化處理,為高質(zhì)量醫(yī)學(xué)知識(shí)語(yǔ)料的自動(dòng)化標(biāo)注提供專業(yè)數(shù)據(jù)支持。第二,文章僅對(duì)以診療規(guī)范為例的高質(zhì)量醫(yī)學(xué)知識(shí)中的純文本數(shù)據(jù)進(jìn)行研究,未涉及其中的圖表數(shù)據(jù)。解決高質(zhì)量醫(yī)學(xué)知識(shí)中數(shù)據(jù)的多模態(tài)問題能夠更好實(shí)現(xiàn)高質(zhì)量醫(yī)學(xué)知識(shí)的有序化和結(jié)構(gòu)化,后續(xù)研究將分別通過表格文檔重建、流程圖識(shí)別等方法實(shí)現(xiàn)高質(zhì)量醫(yī)學(xué)知識(shí)資源中圖表內(nèi)容的自動(dòng)識(shí)別。2.3 序列建模層
2.4 標(biāo)簽預(yù)測(cè)層
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)來源及處理
3.2 領(lǐng)域詞典構(gòu)建
3.3 實(shí)驗(yàn)過程與參數(shù)設(shè)置
3.4 實(shí)驗(yàn)結(jié)果分析
4 結(jié) 語(yǔ)
——以網(wǎng)站運(yùn)營(yíng)者“隱私政策”為視角
——打通從情報(bào)到智庫(kù)的“最后一公里”