亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子病歷的命名實(shí)體識(shí)別方法綜述

        2022-02-14 20:02:06陳翯常霞趙東宸
        科技創(chuàng)新導(dǎo)報(bào) 2022年20期
        關(guān)鍵詞:分詞命名病歷

        陳翯 常霞* 趙東宸

        (1.北方民族大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院 寧夏銀川 750021;2.寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室寧夏銀川 750021)

        近年來(lái),人工智能、大數(shù)據(jù)分析等新科學(xué)技術(shù)的發(fā)展不斷賦能醫(yī)藥衛(wèi)生產(chǎn)業(yè)。盡管中國(guó)智能醫(yī)院建設(shè)與發(fā)展總體呈現(xiàn)出穩(wěn)定增長(zhǎng)的態(tài)勢(shì),但醫(yī)療行業(yè)的信息化和智能化水平依然不夠高。醫(yī)院數(shù)據(jù)的來(lái)源、分析、獲取等方面存在較大的不足。但是智能健康發(fā)展遠(yuǎn)景寬廣,許多大型公司融合醫(yī)院數(shù)據(jù)、硬件資源,構(gòu)造智能健康產(chǎn)業(yè)鏈,如醫(yī)學(xué)影像分析、遠(yuǎn)程探診會(huì)診、智慧醫(yī)院系統(tǒng)等,而智慧醫(yī)院系統(tǒng)的建立需要以數(shù)字化的電子病歷數(shù)據(jù)庫(kù)作為支撐。這一過(guò)程包括采用自然語(yǔ)言處理方法將電子病歷文本結(jié)構(gòu)化。自然語(yǔ)言處理(Natural Language Processing,NLP)構(gòu)建了人與計(jì)算機(jī)通過(guò)自然語(yǔ)言開(kāi)展有效溝通的理論和方法,其任務(wù)過(guò)程可以概括為詞性標(biāo)注、命名實(shí)體識(shí)別(Named Entity Recognition,NER)、實(shí)體關(guān)系抽取、數(shù)據(jù)訓(xùn)練等主要方面,其中命名實(shí)體識(shí)別是信息提取、問(wèn)答系統(tǒng)、句法分析、機(jī)器翻譯,面向Semantic Web的元數(shù)據(jù)標(biāo)注等應(yīng)用領(lǐng)域的重要基礎(chǔ),在自然語(yǔ)言處理技術(shù)實(shí)用化過(guò)程中占據(jù)關(guān)鍵地位。電子病歷的命名實(shí)體識(shí)別以現(xiàn)有的病例數(shù)據(jù)庫(kù)作為支撐,但是由于醫(yī)生們的記錄習(xí)慣不同及中文表達(dá)的多樣性,導(dǎo)致目前電子病歷仍然以非結(jié)構(gòu)化文本為主。因此,將非結(jié)構(gòu)化電子病歷轉(zhuǎn)換為結(jié)構(gòu)化電子病歷成為了人們研究的一個(gè)重要方向。中文表達(dá)方式的多樣性,相較于其他語(yǔ)種的自然語(yǔ)言處理,中文電子病歷結(jié)構(gòu)化所面臨的研究工作仍具挑戰(zhàn)。

        早先的命名實(shí)體識(shí)別分析方法著重于詞典和規(guī)則[1]的設(shè)計(jì)。后因?yàn)闄C(jī)器學(xué)習(xí)的蓬勃發(fā)展和計(jì)算能力的不斷增強(qiáng),各種基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)[2-4]的命名實(shí)體識(shí)別方法問(wèn)世。自本世紀(jì)初Yoshua Bengio 提出了舉世矚目的神經(jīng)網(wǎng)絡(luò)模型后,深度學(xué)習(xí)方法在各個(gè)領(lǐng)域大放異彩,也成為了現(xiàn)今命名實(shí)體識(shí)別應(yīng)用最廣泛的方法。

        2017年起,全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS)啟動(dòng)特別針對(duì)中文電子病案的MNER 測(cè)評(píng)技術(shù)難題,至今已連續(xù)舉辦五屆,推動(dòng)了中文電子病歷NER研究的發(fā)展。雖然近年來(lái),我國(guó)NER發(fā)展整體呈現(xiàn)上升趨勢(shì),但由于中文表達(dá)的復(fù)雜性,歧義性以及其他的情況,中文命名實(shí)體識(shí)別仍然有較大的發(fā)展空間,而電子病歷因?yàn)槠湮谋绢I(lǐng)域的特殊性,發(fā)展相較于其他類別的中文命名實(shí)體識(shí)別更稍顯落后。本文在已有的研究成果基礎(chǔ)上,總結(jié)了現(xiàn)有命名實(shí)體識(shí)別方法,分析討論了現(xiàn)有方法的優(yōu)勢(shì)及其局限性,綜述其研究進(jìn)展,并對(duì)在醫(yī)療系統(tǒng)中的應(yīng)用發(fā)展前景進(jìn)行了展望。

        1 基于規(guī)則和詞典的命名實(shí)體方法

        與通用領(lǐng)域的命名實(shí)體不同,電子病歷的命名實(shí)體識(shí)別任務(wù)因?yàn)槠湮谋景罅康膶I(yè)術(shù)語(yǔ),文本數(shù)據(jù)標(biāo)注呈現(xiàn)出更大的困難。早期的電子病歷命名實(shí)體識(shí)別面向生物醫(yī)學(xué)領(lǐng)域文本,與生物、化學(xué)等領(lǐng)域結(jié)合研究。最早期基于規(guī)則和詞典的NER方法,其文本針對(duì)性太強(qiáng),并且消耗大量的人力資源進(jìn)行數(shù)據(jù)標(biāo)注及規(guī)則的制定,已漸漸被淘汰。此方法對(duì)于現(xiàn)在每天海量更新的數(shù)據(jù)并不適應(yīng),但是對(duì)于簡(jiǎn)單的序列標(biāo)注問(wèn)題,其省時(shí)且簡(jiǎn)單的方法更能提高效率。簡(jiǎn)單來(lái)說(shuō)基于規(guī)則方式的步驟可以概括為三步:(1)通過(guò)分詞獲得特征詞;(2)對(duì)特征詞進(jìn)行序列標(biāo)注;(3)對(duì)標(biāo)注后的序列進(jìn)行正則性匹配。基于規(guī)則的NER 優(yōu)點(diǎn)在于其規(guī)則可以人為設(shè)置,對(duì)于簡(jiǎn)單的實(shí)體識(shí)別任務(wù)來(lái)說(shuō)十分高效。但是因?yàn)槠鋵?duì)于語(yǔ)言文本風(fēng)格的依賴性較強(qiáng),針對(duì)性太強(qiáng),適應(yīng)性太弱,系統(tǒng)轉(zhuǎn)接性差,對(duì)于不同使用環(huán)境需重新進(jìn)行系統(tǒng)構(gòu)建,因此已經(jīng)漸漸被其他方式取代。

        2 基于機(jī)器學(xué)習(xí)的命名實(shí)體方法

        隨著機(jī)器學(xué)習(xí)的出現(xiàn),大量基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的NER 方法出現(xiàn),如隱馬爾可夫模型、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)、決策樹(shù)等比較出色的方法。其中,條件隨機(jī)場(chǎng)方法到現(xiàn)在也仍然被許多研究人員用來(lái)與深度學(xué)習(xí)方法相結(jié)合提升NER 效果,此方法將NER 過(guò)程看作一個(gè)序列標(biāo)注問(wèn)題,解決了高維度向量中存在的數(shù)據(jù)稀疏問(wèn)題。

        基于統(tǒng)計(jì)學(xué)習(xí)的方法中最具代表性的4種算法分別為隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Models,MEM)、支持向量機(jī)(Support Vector Machine,SVM)及條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)方法。HMM 是雙重隨機(jī)過(guò)程,即模型的變換過(guò)程隱秘,可檢視的隨機(jī)過(guò)程是隱秘的狀態(tài)切換過(guò)程的隨機(jī)函數(shù)[5]。對(duì)于NLP 來(lái)說(shuō),其文本序列具有遞歸性,當(dāng)序列長(zhǎng)度較大時(shí),HMM的復(fù)雜程度會(huì)大幅度增加,因此,HMM-NER更適用于短文本的任務(wù),當(dāng)面對(duì)長(zhǎng)文本時(shí),其效果有時(shí)并沒(méi)有MEM 及SVM 好。MEM 指在獲取部分?jǐn)?shù)據(jù)后,基于可知信息最大隨機(jī)的推想下判別最適當(dāng)?shù)奈疵鞣植迹灰话銇?lái)說(shuō)正確率高于HMM,但是其模型關(guān)聯(lián)性高,雖然通用性高,但是訓(xùn)練較為復(fù)雜。SVM 是一種二分類模型,通過(guò)構(gòu)造超平面將數(shù)據(jù)一分為二,在解決小樣本或高位模式識(shí)別中優(yōu)勢(shì)十分突出,在NER任務(wù)中準(zhǔn)確性高于HMM模型。CRF是一種全局最優(yōu)的標(biāo)注框架,也是現(xiàn)在NLP 任務(wù)中更為受到青睞的一種方法,但是缺點(diǎn)為收斂速度較慢,訓(xùn)練時(shí)間長(zhǎng),所以一般將CRF與其他算法相結(jié)合,以達(dá)到更好的效果。基于統(tǒng)計(jì)學(xué)習(xí)方法的NER 對(duì)于語(yǔ)料庫(kù)的依賴性較強(qiáng),而電子文本的NLP 任務(wù)的重難點(diǎn)就在于其數(shù)據(jù)難得,因此并不推薦這種方法處理中的電子病歷。

        3 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法

        鑒于深度學(xué)習(xí)技術(shù)的逐步推進(jìn)和計(jì)算機(jī)算力的不斷提高,基于深度學(xué)習(xí)的NER方法也已轉(zhuǎn)變成主流方法,Lample[6]等人提出的BiLSTM-CRF 模型變成NER的主流模型,Ma[7]等人將卷積神經(jīng)網(wǎng)絡(luò)加入BiLSTMCRF 中,提取了字符級(jí)特征。Rei[8]等人利用BiLSTMCRF 模型中的注意力機(jī)制,將原生的子向量和詞向量結(jié)合進(jìn)一步改進(jìn)成取用兩層傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隱含層學(xué)習(xí)注意力機(jī)制的權(quán)值。

        如圖1所示,BiLSTM是雙向LSTM網(wǎng)絡(luò),由于單向LSTM網(wǎng)絡(luò)只包含一層前向隱藏層,只能通過(guò)輸入字符串的單項(xiàng)信息,但在雙向LSTM網(wǎng)絡(luò)中,則是從正反兩個(gè)路徑獲取編碼序列,學(xué)習(xí)雙向信息,避免了梯度消失的問(wèn)題。此外,CRF 層通過(guò)BiLSTM 層的輸出,給出每個(gè)單詞的每個(gè)標(biāo)簽的得分,并用原始CRF 模型的參數(shù)得到最終標(biāo)簽序列的概率。BiLSTM-CRF 作為當(dāng)前深度學(xué)習(xí)中NER任務(wù)的最主流的模型,既保留了深度學(xué)習(xí)提取特征的優(yōu)勢(shì),又不需要特征工程,便可提升詞典特征的效率,結(jié)果的質(zhì)量就會(huì)相應(yīng)提高。

        圖1 BiLSTM

        2018 年,Google 公司提出BERT 預(yù)訓(xùn)練語(yǔ)言模型,其概念簡(jiǎn)單,但實(shí)驗(yàn)效果極其出色,一經(jīng)面世便創(chuàng)下了11個(gè)NLP任務(wù)的最優(yōu)紀(jì)錄,在NLP領(lǐng)域奪得開(kāi)創(chuàng)性的研究進(jìn)展。因?yàn)锽ERT 提供了優(yōu)良的效果,使得此方法受到了大批研究人員的青睞,一些基于BERT 衍生的語(yǔ)言模型相繼出現(xiàn)。

        在醫(yī)學(xué)領(lǐng)域,NER任務(wù)的發(fā)展與常規(guī)的NER極為相似。傳統(tǒng)的醫(yī)療實(shí)體識(shí)別方法主要通過(guò)人工特征和規(guī)則進(jìn)行實(shí)體識(shí)別。隨著近年來(lái)電子病歷數(shù)據(jù)的發(fā)展,對(duì)此類數(shù)據(jù)進(jìn)行信息抽取越來(lái)越受到重視。但是因?yàn)殡娮硬v文本的特殊性,一般難以獲得大規(guī)模的數(shù)據(jù)進(jìn)行訓(xùn)練,也使得電子病歷的NER任務(wù)發(fā)展受到了限制。電子病歷文本內(nèi)容中不僅有許多患者的個(gè)人隱私信息,且其內(nèi)容專業(yè)性極強(qiáng),專業(yè)術(shù)語(yǔ)復(fù)雜多變;不僅如此,電子病歷書寫因人不同,不同醫(yī)生的記錄習(xí)慣都有或大或小的差異,這些都是電子病歷NER任務(wù)中數(shù)據(jù)來(lái)源的困難,也是限制電子病歷發(fā)展的主要問(wèn)題。

        基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的NER方法,無(wú)需大量人工標(biāo)注,通過(guò)詞向量和字符向量即可達(dá)到不錯(cuò)的效果,這也是他成為研究主流的原因,而且現(xiàn)階段的NER處理都更傾向于使用神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)相結(jié)合的方法,結(jié)合二者的優(yōu)點(diǎn),使效果更為突出,無(wú)論是CNN-CRF 還是RNN-CRF 都取得了比基于豐富特征的CRF 模型更好的效果。其中最常用的是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Network,BRNN)與CRF 相結(jié)合的方式的方法:該方法通過(guò)從輸入句子的起點(diǎn)與終點(diǎn)同時(shí)進(jìn)行處理,將上下文的信息編碼,并在最終增加CRF 層,既改進(jìn)了CRF 收斂慢,訓(xùn)練時(shí)間長(zhǎng)的短板,又融入了神經(jīng)網(wǎng)絡(luò)分詞算法對(duì)于處理輸入長(zhǎng)序列的優(yōu)勢(shì),羅熹[9]等人基于自設(shè)計(jì)的優(yōu)化字符級(jí)特征表示方法,提出將自注意力機(jī)制與BiLSTM-CRF 的命名實(shí)體識(shí)別方法,并與相關(guān)的醫(yī)學(xué)詞典結(jié)合,提高識(shí)別能力。除此之外,現(xiàn)在較為熱門的還有將注意力機(jī)制應(yīng)用在基于RNN或CNN等神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制的特點(diǎn)在于并不拘泥詞與詞之間的距離,直接計(jì)算二者的依賴關(guān)系,實(shí)現(xiàn)起來(lái)并不復(fù)雜。黃曉輝[10]等以卷積循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),建立中文分詞和實(shí)體識(shí)別聯(lián)合學(xué)習(xí)的序列標(biāo)注模型。基于統(tǒng)一的分詞和實(shí)體識(shí)別序列標(biāo)注模式,構(gòu)建了分詞信息與實(shí)體信息的聯(lián)合學(xué)習(xí),避免了傳統(tǒng)流水線法的誤差傳播缺陷。不僅如此還可以在BiLSTM 的基礎(chǔ)上用其他方式對(duì)命名實(shí)體識(shí)別進(jìn)行優(yōu)化、Yuan 等[11]人在已有的基于BiLSTM 基礎(chǔ)上通過(guò)使用關(guān)鍵值記憶網(wǎng)絡(luò)將句法信息合并到主干序列標(biāo)記器中的方法,提高了命名實(shí)體識(shí)別的效率。雖然電子病歷的NLP 任務(wù)處理尚不成熟,但是已經(jīng)引起了許多學(xué)者的注意,楊文明和褚偉杰[12]在IDCNN-BiLSTM-CRF中,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)采集特征向量,將得到的向量拼合映射后,輸入CRF層中完成NER目標(biāo),雖整體性能較好,但仍需要提高醫(yī)療實(shí)體識(shí)別率,并進(jìn)行訓(xùn)練。其中,陳杰[13]等就基于ALBERT 模型,構(gòu)建了一個(gè)ALBERT-BilSTM-CRF 模型,此方法減少了訓(xùn)練時(shí)間,大大減少了時(shí)間開(kāi)銷,但可能不如BERT可以訓(xùn)練更好的模型。

        但即便如此,我國(guó)電子病歷的NER任務(wù)近幾年的發(fā)展速度仍在提升,車翔玖[14]等人提出利用Word2Vec和BERT 為基礎(chǔ)進(jìn)行預(yù)訓(xùn)練,再將生成的詞輸入到BiLSTM-CRF 網(wǎng)絡(luò)的二階段法進(jìn)行生物醫(yī)學(xué)的命名實(shí)體識(shí)別,其在Yidu-S4k 數(shù)據(jù)集實(shí)驗(yàn)的結(jié)果準(zhǔn)確率為80.94%。馬詩(shī)語(yǔ)[15]等人使用輕量級(jí)BERT 模型與BiLSTM-CRF 融合以減少訓(xùn)練時(shí)長(zhǎng),針對(duì)糖尿病數(shù)據(jù)集進(jìn)行訓(xùn)練,取得了不錯(cuò)的效果。景慎旗[16]等人使用中文百科半自動(dòng)化實(shí)體標(biāo)注依賴神經(jīng)網(wǎng)絡(luò)GCN 對(duì)電子病歷文本的依賴結(jié)構(gòu)建模,構(gòu)建BERT-GCN-CRF模型進(jìn)行電子病歷文書的NER 任務(wù)。胡海洋[17]等提出基于多頭注意力機(jī)制的膨脹卷積神經(jīng)網(wǎng)絡(luò)模型,通過(guò)字嵌入和位置嵌入算法減輕模型對(duì)分詞效果的依賴,使用北京協(xié)和醫(yī)院的電子病歷文本數(shù)據(jù)進(jìn)行訓(xùn)練,準(zhǔn)確率達(dá)到0.918。張厚昌與劉成良[18]提出融合字詞特征的中文醫(yī)療命名實(shí)體識(shí)別模型,其內(nèi)在也是BERTBiLSTM-CRF 模型的搭建。2018 年,新加坡學(xué)者Yue Zhang、Jie Yang等[19]人提出了Lattice-LSTM模型,此模型也是基于BiLSTM-CRF 搭建,通過(guò)字向量與詞向量組成的Lattice 網(wǎng)格輸入,以減少識(shí)別的歧義。此模型充分利用了詞和詞序的信息,通過(guò)門控單元讓模型選擇最為相關(guān)的字和詞以實(shí)現(xiàn)實(shí)體識(shí)別,但是模型太過(guò)復(fù)雜且僅采用單向的LSTM,序列的反向信息并沒(méi)有得到充分的利用,如圖2所示。

        圖2 Lattice-LSTM

        綜上所述,可見(jiàn)在電子病歷的NER 任務(wù)中,BERT、BiLSTM、CRF 仍然是能夠取得最好效果的方法,在醫(yī)學(xué)方面也被廣泛應(yīng)用,但效果都明顯落后于如新聞稿件,微博博客類的生活類文本,這與醫(yī)學(xué)文本本身具有的特殊性以及專業(yè)性有關(guān)系,另外,醫(yī)學(xué)文本的數(shù)據(jù)稀缺也是一個(gè)極為重要的原因。

        NER 作為NLP 任務(wù)的底層任務(wù),對(duì)于電子病歷的處理來(lái)說(shuō)有著舉足輕重的作用,將這一任務(wù)處理好,后續(xù)的工作都將更為輕松?,F(xiàn)今我國(guó)對(duì)于電子病歷NER任務(wù)的研究已經(jīng)逐漸被研究人員注意,不再只聚集于特征工程任務(wù)的算法提高,而是因?yàn)殡娮硬v的特殊性逐漸做到對(duì)癥下藥,細(xì)致到每一步進(jìn)程。

        4 分詞

        分詞作為語(yǔ)料預(yù)處理的一部分,其重要程度并不遜色于命名實(shí)體識(shí)別;現(xiàn)有公開(kāi)的中文NLP 工具都十分出色,如哈爾濱工業(yè)大學(xué)研發(fā)的語(yǔ)言技術(shù)平臺(tái)(Language Technology Platform,LTP)、HanLP、THULAC、jieba 分詞,以及復(fù)旦大學(xué)邱錫鵬團(tuán)隊(duì)的fastHan 及NLPIR;HanLP 蘊(yùn)含的語(yǔ)料庫(kù)極為豐富,且針對(duì)不同NLP任務(wù)都有詳細(xì)代碼,且長(zhǎng)期在GitHub上進(jìn)行更新,方便同領(lǐng)域的其他研究人員使用學(xué)習(xí)。但是因?yàn)榛贘ava開(kāi)發(fā),環(huán)境或調(diào)用包的設(shè)置有些復(fù)雜,可能對(duì)于不熟悉Java 的人來(lái)說(shuō)稍有難度,且對(duì)于大文本數(shù)據(jù)可能耗時(shí)較其他工具略長(zhǎng)。哈工大研發(fā)的LTP 支持跨平臺(tái),跨語(yǔ)言編程,高效精確,不需要下載SDK。主要可以進(jìn)行分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,依存句法分析,語(yǔ)義角色標(biāo)注及語(yǔ)義依存分析六項(xiàng)任務(wù),其算法先進(jìn)且功能全面,因此多被研究者們用來(lái)與自己算法結(jié)果進(jìn)行對(duì)比。然而,它的缺點(diǎn)是必須基于API 參數(shù)構(gòu)建HTTP 請(qǐng)求,并在線獲得分析結(jié)果。fastHan 算法基于BERT 的聯(lián)合模型,通過(guò)fastNLP 與pytorch 實(shí)現(xiàn),且有base(前四層)與large(前八層)兩個(gè)版本。其安裝簡(jiǎn)單方便,fastNLP 版本高于0.5.0,Pytorch版本高于1.0.0即可,可處理中文分詞、詞性標(biāo)注、依存句法分析、命名實(shí)體識(shí)別4項(xiàng)任務(wù)。輸出結(jié)果表現(xiàn)為list形式,為后續(xù)其他領(lǐng)域的使用提供了方便。且使用簡(jiǎn)單,如分詞粒度,分詞風(fēng)格都可以根據(jù)使用者進(jìn)行調(diào)換。Jieba 是基于前綴詞典實(shí)現(xiàn)高效的詞圖指標(biāo),選用實(shí)時(shí)規(guī)劃?rùn)z索最大概率路徑。支持精確模式、全模式及搜索引擎模式的3個(gè)分詞模式。不僅如此,jieba還支持自定義詞典,這對(duì)如電子病歷這種特性較強(qiáng)的文本處理非常友好,長(zhǎng)期以來(lái),jieba 是研究人員的基礎(chǔ)使用工具。但是詞典數(shù)據(jù)中不能包含空格,否則無(wú)法進(jìn)行分詞。NLPIR使用基于CRF 的字標(biāo)注模型實(shí)施分詞,將頻數(shù)超過(guò)一定閾值的詞語(yǔ)作為候選詞語(yǔ)。NLPIR可以多角度保證大數(shù)據(jù)文本的需求,其功能全面豐富,并且所有功能模塊全部具有對(duì)應(yīng)的二次開(kāi)發(fā)口,使用方便,也常常被用來(lái)與其他改進(jìn)算法結(jié)果進(jìn)行比較。THULAC所采用的分詞模型是結(jié)構(gòu)化感知器,屬于兩種CWS 模型中的Character-Based Model,將中文分詞視為序列標(biāo)注問(wèn)題進(jìn)行處理。不過(guò)雖然THULAC分詞時(shí)間消耗雖然比較少,但最后效果可能稍顯潦草。不過(guò),這些NLP工具的分詞結(jié)果仍然都取得了喜人的效果,雖然因?yàn)椴v文本中許多疾病名稱或癥狀并不是這些工具訓(xùn)練數(shù)據(jù)庫(kù)中常見(jiàn)的詞組,對(duì)于電子病歷分詞的處理效果會(huì)有所下降,但是可以在這些開(kāi)源代碼上加以電子病歷的訓(xùn)練達(dá)到更好的分詞效果。

        5 其他工作

        除了上述工作之外,后續(xù)的其他工作都對(duì)NLP 的結(jié)果產(chǎn)生影響。在上面提到的幾種分詞處理工具對(duì)于詞性標(biāo)注都有非常不錯(cuò)的結(jié)果,若集中電子病歷數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,準(zhǔn)確率將不會(huì)遜色;電子病歷文本的獨(dú)特性,導(dǎo)致其間沒(méi)有語(yǔ)氣感嘆詞及其他需要進(jìn)行大量停用的詞,因此直接導(dǎo)入停用詞表即可,且對(duì)停用詞數(shù)據(jù)庫(kù)的要求不那么嚴(yán)格,甚至可以不加停用詞的設(shè)計(jì)。

        獲得的數(shù)據(jù)經(jīng)過(guò)預(yù)處理之后,得到了可用的特征語(yǔ)料,再進(jìn)行文本特征選擇。文本的構(gòu)造目前習(xí)慣用的幾種方法分別是句法分析、實(shí)體N-gram、頻次法及基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法,文本特征包含以上這些但不限于這些。這幾種方法都有應(yīng)在具體的應(yīng)用中。如現(xiàn)在比較成熟的幾種分詞方法,都不同地使用的這幾種方法且取得了相應(yīng)的成功。目前,較為熱門的方法仍然是無(wú)監(jiān)督或弱監(jiān)督的預(yù)訓(xùn)練與端對(duì)端的有監(jiān)督訓(xùn)練,這兩類方法作為現(xiàn)在研究的主流方法,吸引了大批量學(xué)者的研究,其中,頻次法中的TF-IDF 也受到許多人的青睞,因?yàn)槠渌惴梢杂行У靥崛〕鲫P(guān)鍵信息且不會(huì)提取重復(fù)的無(wú)用信息,因此經(jīng)常作為關(guān)鍵字抽取的主要算法之一。特征工程后,需要進(jìn)行特征選擇工作,特征選擇的目的往往是降維。嚴(yán)格來(lái)講,一是減少特征數(shù)量,增強(qiáng)模型的泛化能力,降低過(guò)度擬合的出現(xiàn)概率;二是加強(qiáng)對(duì)特征和特征值的理解,但是特征選擇的工作往往使只能選擇其一,因此大部分的學(xué)者往往首選降維作為主要目的。當(dāng)做完降維工作也就是特征選擇的工作之后,再對(duì)模型進(jìn)行訓(xùn)練以達(dá)到效果,現(xiàn)有的優(yōu)化算法勢(shì)不可擋,但仍然是我們后續(xù)研究探索的重點(diǎn)。

        6 結(jié)論與展望

        盡管電子病歷在我國(guó)的研究與應(yīng)用方面取得了一定的成績(jī),但與發(fā)達(dá)國(guó)家相較仍有差距;一方面,礙于電子病歷的發(fā)展不均衡,軍隊(duì)醫(yī)院加速實(shí)現(xiàn)病例系統(tǒng)間信息聯(lián)結(jié)時(shí),部分地方醫(yī)院仍然沒(méi)有使用電子病歷;另一方面,因?yàn)橹形奶赜械奈淖直磉_(dá)方式及現(xiàn)在各個(gè)醫(yī)院結(jié)構(gòu)化電子病歷投入力度不夠,同時(shí)醫(yī)生對(duì)于病人的病史和體檢,體征方面的敘述表達(dá)差異較大,且病歷的私密性與隱私等相關(guān)問(wèn)題等,一系列的原因造成了現(xiàn)在研究人員數(shù)據(jù)大量不足的情況,使得診療數(shù)據(jù)沒(méi)有實(shí)現(xiàn)其科學(xué)研究?jī)r(jià)值。除此之外,現(xiàn)有分詞工具較少,針對(duì)中文的NLP任務(wù)相對(duì)還處在發(fā)展階段,相較于英文NER 發(fā)展相對(duì)滯后,但相關(guān)研究人員仍在努力,現(xiàn)階段可能不夠突出,但后續(xù)發(fā)展仍然十分樂(lè)觀。除此之外,近兩年關(guān)于電子病歷的NLP 任務(wù)逐漸受到重視,大量科研人員都在努力克服困難,雖然數(shù)據(jù)來(lái)源仍然有困難,但不再是不可攻克的難關(guān)。

        對(duì)于NER任務(wù),深度學(xué)習(xí)與統(tǒng)計(jì)相結(jié)合的方法成為了現(xiàn)在的主流,因?yàn)槠渚哂辛己玫男Ч也粫?huì)過(guò)多消耗人力和時(shí)間,近幾年成為了新的研究熱潮并產(chǎn)生了許多優(yōu)秀的成果。電子病歷的自然語(yǔ)言處理是電子病歷整理及后續(xù)研究工作的重點(diǎn)和基礎(chǔ),為解決此問(wèn)題許多方法如BERT、BiLSTM、QCNN 等新型的神經(jīng)網(wǎng)絡(luò)模型被使用在電子病歷文本的處理上,并且具有良好的效果,如表1 所示[20]。且現(xiàn)在越來(lái)越多的學(xué)者已經(jīng)不滿足于僅使用神經(jīng)網(wǎng)絡(luò)模型,而是將神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)的方法結(jié)合起來(lái),未來(lái)研究方向也將朝著兩種甚至更多的神經(jīng)網(wǎng)絡(luò)模型與機(jī)器學(xué)習(xí)的方法結(jié)合,以提高算法效率。為了滿足當(dāng)今科技發(fā)展,推動(dòng)醫(yī)療智能化和自動(dòng)化發(fā)展,采用命名實(shí)體識(shí)別技術(shù)挖掘電子病歷的數(shù)據(jù)信息,是今后智能化工作的關(guān)鍵和必由之路。在后續(xù)的工作中如特征工程與模型訓(xùn)練還有許多可以開(kāi)發(fā)的空間,仍需要不斷地努力和探索。

        表1 現(xiàn)有部分算法在Weibo數(shù)據(jù)集上NER效果對(duì)比

        猜你喜歡
        分詞命名病歷
        強(qiáng)迫癥病歷簿
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        “大數(shù)的認(rèn)識(shí)”的診斷病歷
        結(jié)巴分詞在詞云中的應(yīng)用
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        值得重視的分詞的特殊用法
        為何要公開(kāi)全部病歷?
        村醫(yī)未寫病歷,誰(shuí)之過(guò)?
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        狠狠色狠狠色综合| 亚洲一区二区日韩精品| 国产三级黄色在线观看| 中文字幕国产精品专区| 中文字日产幕码三区的做法步| 漂亮人妻洗澡被公强 日日躁| 亚洲成av人片在线观看麦芽| 亚洲av无码久久寂寞少妇| 精品久久久久久电影院| 中文字幕精品一区二区三区av| 中文字幕日韩精品有码视频| 把女邻居弄到潮喷的性经历| 欧美最猛黑人xxxx黑人表情| 国产一区二区三区爆白浆| 亚洲一区二区av免费观看| 中文字幕影片免费人妻少妇 | 国产精品 人妻互换| 亚洲欧美日韩专区一| 99色网站| 最新国内视频免费自拍一区| 日韩精品视频免费在线观看网站| 亚洲国产精品无码中文字| 国产熟女露脸大叫高潮| 国产精品无码精品久久久| 国产成人aa在线观看视频| 国产91极品身材白皙| 无码中文亚洲av影音先锋| 亚洲人成色777777老人头| 亚洲区小说区图片区qvod伊| 国产大学生自拍三级视频| 国产一区二区免费在线视频| 人妻中文字幕无码系列| 欧美国产日本高清不卡| 2021最新久久久视精品爱| 免费看黄片的视频在线观看| 亚洲精品无码国产| 国产精品天堂avav在线| 成人自拍三级在线观看| 麻豆亚洲一区| 一本一道波多野结衣一区| 无码人妻专区一区二区三区|