亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制結(jié)合CNN-BiLSTM模型的電子病歷文本分類

        2022-03-24 04:00:42李超凡馬凱
        科學(xué)技術(shù)與工程 2022年6期
        關(guān)鍵詞:病歷語義卷積

        李超凡, 馬凱

        (徐州醫(yī)科大學(xué)醫(yī)學(xué)信息與工程學(xué)院, 徐州 221004)

        自然語言處理(natural language processing,NLP)起源于20世紀40年代,集語言學(xué)、數(shù)學(xué)、計算機科學(xué)和認知科學(xué)等于一體的綜合性交叉學(xué)科[1]?;谧匀徽Z言處理技術(shù)應(yīng)用的臨床信息系統(tǒng)覆蓋了信息抽取、文本分類、醫(yī)療輔助決策、醫(yī)療信息問答、醫(yī)學(xué)知識挖掘及知識庫建立等諸多領(lǐng)域。電子病歷文本的處理技術(shù)主要包含句法結(jié)構(gòu)分析、文本分類、命名實體識別、實體關(guān)系識別、信息抽取、構(gòu)建臨床知識圖譜等。

        文本分類是指建立文本特征與文本類別之間的關(guān)系模型,從而進行文本類別的判定。文本分類的主要算法模型,基本上可分為3類:基于規(guī)則、基于統(tǒng)計和機器學(xué)習(xí)、基于深度學(xué)習(xí)的方法。

        (1)基于規(guī)則的方法借助于專業(yè)人員的幫助,為預(yù)定義類別制定大量判定規(guī)則,與特定規(guī)則的匹配程度作為文本的特征表達[2]。受限于人為主觀性、規(guī)則模板的全面性和可擴展性,最主要的是規(guī)則模板完全不具備可遷移性,所以基于規(guī)則制定進行文本分類模型并沒有得到有效的進展。

        (2)基于機器學(xué)習(xí)的文本分類算法主要包括決策樹法(decision tree,DT)、樸素貝葉斯算法(naive bayesian,NB)、支持向量機算法(support vector machine,SVM)、K-鄰近法(K-nearest neighbors,KNN)等算法。劉勇等[3]提出一種結(jié)合決策樹分類效果和類概率的加權(quán)投票方法,同時采用隨機搜索和網(wǎng)格搜索結(jié)合的方式優(yōu)化模型參數(shù),提升隨機森林的決策能力。Chen等[4]構(gòu)造不同類別的整體相關(guān)因子,通過平衡偏差和方差得到最優(yōu)相關(guān)因子的計算方法,提升樸素貝葉斯的分類精度。胡婧等[5]提出一種基于粗糙集的詞袋模型(bag of words,BOW)結(jié)合支持向量機的算法模型,利用粗糙集的屬性簡約算法清除模糊冗余的決策屬性,增強文本的特征表達。Liu[6]提出一種基于Simhash的改進KNN文本分類算法,通過計算相鄰文本的平均漢明距離[7]解決了傳統(tǒng)KNN文本分類算法的計算復(fù)雜性和數(shù)據(jù)不均衡性。以上改進的機器學(xué)習(xí)模型雖然一定程度上提高了文本分類的效果,但是仍需要人為的進行特征選擇與特征提取,忽略了特征之間的關(guān)聯(lián)性,通用性和擴展性較差。

        (3)基于深度學(xué)習(xí)的文本分類算法主要包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory, LSTM)等,以及各類神經(jīng)網(wǎng)絡(luò)模型的變種融合。隨著word2vec[8-9]詞向量模型的引入,可以將詞序列轉(zhuǎn)換為低維稠密的詞向量,并包含豐富的語義信息,使得神經(jīng)網(wǎng)絡(luò)模型在文本分類任務(wù)得到廣泛應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)通過卷積核設(shè)置不同的權(quán)重,從而獲取文本多維特征,通過池化操作提取局部關(guān)鍵信息,因其特有的權(quán)值共享策略使得訓(xùn)練模型參數(shù)較少,網(wǎng)絡(luò)結(jié)構(gòu)簡單高效且魯棒性強。傳統(tǒng)的CNN改進方法大多關(guān)注于更有效的提取文本的局部關(guān)鍵信息,嚴重忽略了上下文語義關(guān)聯(lián)對分類效果的影響。王海濤等[10]提出一種基于LSTM和CNN的混合模型,利用3層CNN結(jié)構(gòu)提取文本的局部特征,利用LSTM存儲歷史信息的特征,再將各自輸出向量進行融合,從而提升分類效果。趙宏等[11]提出先利用BiLSTM提取文本的上下文信息,再利用CNN對已提取的上下文特征進行局部語義特征提取,驗證了串行混合模型的有效性?;谀P腿诤系姆绞诫m然一定程度上豐富了詞向量的語義表示,更好的提取文本特征,但是沒有考慮到不同的特征對分類模型的影響。李昌兵等[12]通過將改進的TF-IDF對word2vec詞向量進行加權(quán)表示,再利用CNN挖掘從局部到全局的特征表達,加強了詞向量本身對于分類模型的信息貢獻。注意力機制[13]的引入,更加有效地對神經(jīng)網(wǎng)絡(luò)輸出進行特征篩選與特征加權(quán),降低噪聲特征的干擾,獲取文本的重要特征。汪嘉偉等[14]通過CNN得到單詞的上下文表示,引入自注意力機制計算文本相似度捕捉長距離依賴。田園等[15]利用Attention機制處理BiLSTM隱藏層的輸出,增強文本中與標簽類別相關(guān)的特征表示,進而得到文本的加權(quán)語義向量。劉鵬程等[16]更是以交互注意力機制,捕捉BiLSTM和CNN所提取特征中的關(guān)鍵特征融合形成分類特征,在多維數(shù)據(jù)文本分類中取得了優(yōu)越的性能。

        電子病歷區(qū)別于其他文本存在高維稀疏、醫(yī)學(xué)術(shù)語詞匯密集的特性,存在文本分類精度低、算法模型收斂速度慢等性能問題。在傳統(tǒng)CNN神經(jīng)網(wǎng)絡(luò)模型與BiLSTM神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,現(xiàn)提出一種基于詞嵌入技術(shù)結(jié)合CNN-BiLSTM-Attention模型應(yīng)用到中文電子病歷疾病種類的文本分類任務(wù);所提模型能夠結(jié)合CNN和BiLSTM處理文本分類任務(wù)的優(yōu)點,并利用Attention機制進行特征提純,有效地改善模型的整體結(jié)構(gòu),提升模型進行文本分類的性能。

        1 模型設(shè)計與方法

        病歷文本分類模型如圖1所示,主要包含5層網(wǎng)絡(luò)結(jié)構(gòu):詞嵌入層、CNN層、BiLSTM層、注意力層和Softmax層。

        (1) 詞嵌入層:加載預(yù)訓(xùn)練的word2vec模型自定義embedding權(quán)重矩陣,依據(jù)分詞處理后的病歷文本序列(w1,w2,…,wn)轉(zhuǎn)換為低維稠密的詞向量序列,作為神經(jīng)網(wǎng)絡(luò)的輸入。

        圖1 基于CNN-BiLSTM-Attention的病歷文本分類模型Fig.1 Medical record text classification model based on CNN-BiLSTM-Attention

        (2)CNN層:設(shè)置3個卷積核數(shù)量相同,大小不同的卷積層,經(jīng)相同的池化層進行特征降維,擴大模型的感受野。利用Conatenate層串聯(lián)3個池化層的輸出,表征更加豐富的局部特征。

        (4)Attention層:對BiLSTM層的輸出進行特征凸顯,即為不同的特征賦予相應(yīng)的權(quán)重,對影響模型分類效果的關(guān)鍵特征進行聚焦操作,增強病歷文本的特征表達。

        (5)Softmax層:引入全連接層降維,并輸入softmax 分類器計算病歷文本屬于疾病類別標簽的概率分布,直接輸出預(yù)測結(jié)果。

        2 模型構(gòu)建

        2.1 數(shù)據(jù)預(yù)處理

        實驗數(shù)據(jù)集來自徐州醫(yī)科大學(xué)附屬醫(yī)院真實電子病歷文本,從入院記錄、病程記錄與診療計劃等方面,合理篩選包含疾病與診斷、癥狀與體征與治療方面的1 164條病理描述句,包含608條糖尿病數(shù)據(jù)與556條帕金森病數(shù)據(jù),如圖2所示。

        圖2 電子病歷數(shù)據(jù)集樣本分布Fig.2 Sample distribution of EMR dataset

        對于原始電子病歷數(shù)據(jù)集,首先利用Jieba分詞模塊加載用戶自定義詞典,如醫(yī)學(xué)術(shù)語表ICD-10[17]、MedDRA[18]等,以精確模式對文本序列進行分詞處理。在分詞任務(wù)結(jié)束后,結(jié)合哈工大停用詞表、百度停用詞表等構(gòu)建停用詞表庫,遍歷分詞結(jié)果,去除停用詞,形成原始語料庫。

        2.2 詞向量表示

        統(tǒng)計語言模型可視為詞序列的隨機概率過程,以相應(yīng)的概率分布反映其屬于某種語言集合的可能性。在自然語言處理中,主要采用獨熱表示(one-hot representation)和分布式表示(distributed representation)兩種方式進行詞向量表示。One-hot編碼以詞表大小作為維度表示詞向量,極易造成高維稀疏性和維數(shù)爆炸的問題。分布式表示主要有基于矩陣、基于聚類和基于神經(jīng)網(wǎng)絡(luò)的3類表示方法。Google的word2vec[8-9]是目前最主流的基于神經(jīng)網(wǎng)絡(luò)的詞向量計算模型,包含跳字模型(skip-gram)和連續(xù)詞袋模型(continuous bag-of-words,CBOW)兩類神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型。Skip-gram是以中心詞預(yù)測周圍詞,得到當前詞上下文多重樣本,適用于較大的數(shù)據(jù)集,CBOW工作方式則相反。

        對于語料庫的詞嵌入方式,采用Turian等[19]提出的方法,以預(yù)訓(xùn)練的形式利用word2vec工具在領(lǐng)域內(nèi)大規(guī)模語料上進行無監(jiān)督學(xué)習(xí),默認采用skip-gram模型,生成詞向量并加載word embedding查找表。查找表對原始語料庫的詞序列進行詞向量的映射,并在過程中不斷學(xué)習(xí)和更新,使得目標詞匯得到更完整和真實符合的語義向量表示。

        采用One-hot編碼對疾病類別標簽進行獨熱編碼,引入Tokenizer分詞器對文本序列的每個詞進行編號,將文本序列轉(zhuǎn)換為詞編號序列并采用補齊的方式調(diào)整語句序列長度,便于神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。

        2.3 CNN神經(jīng)網(wǎng)絡(luò)層

        對于病歷文本輸入序列S=(w1,w2,…,wn),wi∈Rd為word2vec預(yù)訓(xùn)練的詞向量,其中d為詞向量維度。卷積核的寬度與詞嵌入維度一致,每次卷積操作的窗口取詞數(shù)記為h,即卷積核ω∈Rh*d。對于每一次窗口滑動的卷積結(jié)果ci為

        ci=ReLU(ωwi:i+h-1)+b

        (1)

        式(1)中:ReLU為非線性激活函數(shù);wi:i+h-1為每次卷積操作的取詞數(shù);b∈R為偏置項。

        序列S的長度為n,窗口滑動n-h+1次,卷積匯總結(jié)果c=[c1,c2,…,cn-h+1]。接著依據(jù)池化層的窗口大小和步長對卷積層結(jié)果進行MaxPooling操作,增大上層卷積核的感受野,保留詞嵌入向量序列的主要特征,降低下一層的參數(shù)和計算量,防止過擬合。

        設(shè)置詞窗大小不同、卷積核個數(shù)相同、設(shè)置padding參數(shù)為same模式保證輸入向量和輸出向量的維度一致、卷積核步長為1的3層CNN結(jié)構(gòu),對詞嵌入向量矩陣分別進行卷積和池化操作。對3層CNN神經(jīng)網(wǎng)絡(luò)的輸出按軸向進行concatenate操作,豐富CNN模型對詞窗卷積的上下文語義含量,更好的表征病歷文本序列的局部特征。

        2.4 BiLSTM神經(jīng)網(wǎng)絡(luò)層

        Hochreiter[20]為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)因處理信息過多產(chǎn)生的長期依賴,導(dǎo)致梯度消失或梯度爆炸的問題,提出了長短期記憶神經(jīng)網(wǎng)絡(luò),使用長短期存儲單元替換RNN中隱藏層單元結(jié)構(gòu),有效的解決這一問題。LSTM單元結(jié)構(gòu)如圖3所示,通過將存儲單元、輸入門、遺忘門與輸出門相聯(lián)結(jié),從而控制與更新門控單元的相關(guān)參數(shù)進行模型的學(xué)習(xí)和訓(xùn)練,即調(diào)整信息更新、遺忘的程度,使得存儲單元能夠有效地保存較長序列的語義信息。

        在LSTM單元的具體實現(xiàn)過程中,對于t時刻,輸入內(nèi)容包括當前時刻輸入向量xt、上一時刻存儲單元信息ct-1與上一時刻隱藏層輸出信息ht-1,輸出內(nèi)容為當前時刻的存儲單元信息ct和隱藏層輸出信息ht,其中σ為sigmoid函數(shù),tanh為激活函數(shù)。it、ot、ft分別為輸入門、輸出門和遺忘門。

        圖3 LSTM單元結(jié)構(gòu)Fig.3 LSTM unit structure

        LSTM單元門控機制的計算過程如下

        it=σ(Wixt+Uiht-1+bi)

        (2)

        οt=σ(Wοxt+Uοht-1+bο)

        (3)

        ft=σ(Wfxt+Ufht-1+bf)

        (4)

        (5)

        式中:Wi、Wo、Wf、Wc為不同門控機制對輸入向量xt的權(quán)重;Ui、Uo、Uf、Uc為不同門控機制對隱藏層狀態(tài)向量ht-1的權(quán)重;bi、bo、bf、bc為偏置向量。

        (6)

        當前t時刻的LSTM單元隱藏層輸出ht由輸出門與存儲單元ct相計算得到。

        ht=οttanh(ct)

        (7)

        BiLSTM模型將t時刻LSTM單元的前向和后向的輸出進行拼接:

        (8)

        式(8)中:Rn為n維向量集。

        BiLSTM神經(jīng)網(wǎng)絡(luò)層以CNN神經(jīng)網(wǎng)絡(luò)層的輸出向量為輸入,對門控機制的權(quán)重矩陣W和偏置矩陣b進行隨機初始化正態(tài)賦值,LSTM單元基于上一個時刻的隱藏層輸出信息與當前時刻的輸入信息,計算遺忘門、輸入門、輸出門的數(shù)值,并與上一個時刻LSTM單元的存儲信息整合,得到當前時刻的LSTM單元輸出,同時更新當前時刻LSTM單元的隱藏層輸出信息與存儲信息,作為下一個時刻LSTM單元的輸入[21]。最后進行前后向LSTM單元輸出向量的拼接,輸出具有雙向語義的特征向量。同時,在LSTM單元的輸入端和隱藏層的輸出均引入dropout機制,解決訓(xùn)練模型參數(shù)量較大導(dǎo)致的過擬合問題。

        2.5 基于Attention機制的特征加權(quán)

        BiLSTM神經(jīng)網(wǎng)絡(luò)雖然可以建立前后文相關(guān)的語義向量信息,但是沒有突顯當前語義信息與上下文的關(guān)聯(lián)性。在BiLSTM層的輸出端引入注意力機制,可以有效地強調(diào)當前信息在上下文信息中的重要性與關(guān)聯(lián)性,增強語義信息的特征表達,提升模型病歷文本分類的性能。

        首先計算注意力權(quán)重得分ei:

        ei=tanh(wiht+bi)

        (9)

        式(9)中:wi為權(quán)重矩陣;ht為BiLSTM神經(jīng)網(wǎng)絡(luò)層的輸出向量;bi為偏置向量。

        其次使用softmax函數(shù)對注意力權(quán)重得分計算權(quán)重向量pi:

        (10)

        最后對BiLSTM層的輸出向量ht與權(quán)重向量pi進行點乘與累加操作,得到注意力層的輸出Att,依據(jù)權(quán)值大小給隱藏層輸出分配相應(yīng)的注意力資源,構(gòu)成特征向量的加權(quán)語義向量表示,增強病歷文本序列的特征表達。

        (11)

        2.6 輸出層

        在注意力層之后引入全連接層,將病歷文本特征加權(quán)向量映射到疾病種類的標記空間中,并在全連接層之后引入Dropout機制,避免權(quán)值更新只依賴部分特征和模型過擬合現(xiàn)象。使用softmax分類器計算病歷文本所屬疾病類別的概率分布,直接輸出模型預(yù)測結(jié)果。

        2.7 損失函數(shù)

        設(shè)置softmax交叉熵損失函數(shù)為模型整體訓(xùn)練的損失函數(shù):

        (12)

        3 實驗結(jié)果與分析

        3.1 實驗環(huán)境與方法

        實驗軟件環(huán)境為Window10操作系統(tǒng),Python 3.6編程語言,深度學(xué)習(xí)框架Tensorflow 1.14.0,Keras 2.2.5,分詞工具jieba 0.42;硬件環(huán)境為Inter Core i7-10700K-3.8GHz,32 GB內(nèi)存,Nvidia GeForce 3070顯卡。電子病歷文本數(shù)據(jù)集采用交叉驗證的方式進行實驗,按照3∶1∶1的比例劃分訓(xùn)練集、驗證集與測試集。

        3.2 實驗超參數(shù)

        采用Word2vec詞向量工具的Skip-gram訓(xùn)練100維詞向量,上下文詞窗口設(shè)置為4,更好地表示詞向量的語義信息。采用3層CNN模型架構(gòu),詞向量卷積窗口分別設(shè)置為3、4、5,經(jīng)池化操作后,融合各層輸出,豐富上下文的局部特征。設(shè)置LSTM單元數(shù)為128,dropout比例0.5,隨機失活50%神經(jīng)元,防止模型出現(xiàn)過擬合現(xiàn)象,提升模型的泛化能力。采用多分類交叉熵損失函數(shù),設(shè)置批處理樣本量為32,訓(xùn)練輪數(shù)為20,優(yōu)化器Adam,交叉驗證評估模型的預(yù)測性能,模型超參數(shù)設(shè)置如表1所示。

        表1 實驗參數(shù)設(shè)置

        3.3 評價指標

        常采用精確率(preciscion,P)、召回率(recall,R)及F1(F-measure)作為評價文本分類模型性能的指標:

        (13)

        (14)

        (15)

        式中:TP為正確文本預(yù)測為正確類別數(shù)目;FP為錯誤文本預(yù)測為正確類數(shù)目;FN為正確文本預(yù)測為錯誤類數(shù)目;F為精確率與召回率的調(diào)和平均值。

        3.4 對比實驗

        為了驗證本文方法的有效性,同時探討CNN神經(jīng)網(wǎng)絡(luò)、LSTM神經(jīng)網(wǎng)絡(luò)和Attention機制在進行模型融合的作用機制,設(shè)置了10組對比實驗,輸入均為word2vec預(yù)訓(xùn)練的詞向量,驗證各類模型在進行文本序列處理時,對于文本特征的表達和提取效果,從而對文本分類模型造成的影響。對比實驗構(gòu)造如下。

        (1)CNN:直接使用CNN對詞向量進行卷積、池化、Flatten操作,提取文本序列局部特征,利用全連接層降維,并利用softmax分類器輸出預(yù)測結(jié)果。

        (2)TextCNN:設(shè)置3個不同大小的卷積核窗口,其他參數(shù)一致的卷積層和池化層,按行拼接池化層輸出向量,豐富文本局部特征語義表達。

        (3)LSTM:直接對輸入序列進行后向語義建模,提取病歷文本的高層特征,連接兩個全連接層降維,直接輸出預(yù)測結(jié)果。

        (4)CNN-LSTM:先利用CNN提取輸入序列的局部特征,再利用LSTM提取CNN輸出的后向語義信息。

        (5)LSTM-CNN:先利用LSTM進行后向語義建模,再利用CNN對LSTM的輸出進行局部特征提取。

        (6)CNN-BiLSTM:先利用CNN提取輸入序列的局部特征,再利用BiLSTM提取CNN輸出的前后向語義信息,進一步構(gòu)建病歷文本的特征表達。

        (7)BiLSTM:直接對輸入序列進行前后向語義建模,提取病歷文本的高層特征,連接兩個全連接層降維,直接輸出預(yù)測結(jié)果。

        (8)CNN-Attention:先利用CNN提取輸入序列的局部特征,Attention機制對文本特征進行特征加權(quán),降低噪聲特征對分類效果的影響。

        (9)BiLSTM-Attention:BiLSTM對輸入序列構(gòu)造前后文語義信息,提取病歷文本的高層特征,Attention機制對文本特征進行特征加權(quán),降低噪聲特征對分類效果的影響。

        (10)CNN-BiLSTM-Attention:先利用CNN提取輸入序列的局部特征,再利用BiLSTM提取CNN輸出的前后向語義信息,進一步構(gòu)建病歷文本的特征表達,Attention機制對文本特征進行特征加權(quán),降低噪聲特征對分類效果的影響。

        經(jīng)多輪實驗,并對實驗結(jié)果進行交叉驗證,各類基線模型與融合模型的評價結(jié)果如表2所示,模型執(zhí)行時間如圖4所示。

        為了進一步直觀地展示CNN-BiLSTM-Attention模型進行病歷文本分類任務(wù)的優(yōu)越性,對每個模型的訓(xùn)練過程進行分析,為各模型訓(xùn)練過程驗證集的準確率變化過程如圖5所示。

        表2 不同算法模型的文本分類結(jié)果

        圖4 各類模型執(zhí)行時間Fig.4 Execution time of various models

        圖5 各類模型驗證集準確率變化趨勢Fig.5 Accuracy trend of validation set of various models

        3.5 實驗結(jié)果分析

        通過表2的實驗結(jié)果可以得出,所提出的CNN-BiLSTM-Attention模型在評價指標結(jié)果中取得了最優(yōu)異的效果,F(xiàn)1達到97.85%,相較于基線模型,總體效果提升2%~5%,由此可以得到本文模型在文本分類任務(wù)中的優(yōu)越性。

        對于CNN和LSTM的基線模型,CNN的模型性能明顯優(yōu)于LSTM模型。主要的原因在于所采用的原始病歷數(shù)據(jù)集是由人工進行預(yù)篩選,對疾病的主要病癥、診療方面的短文本描述句,上下文關(guān)聯(lián)性不強,且含有眾多臨床術(shù)語,整體詞向量具有高維稀疏性。CNN對于短文本擅長捕捉局部特征信息,短文本的特征大多是獨立無關(guān)或者集中在句子的某個局部,而LSTM捕獲的上下文特征信息較為冗雜且相關(guān)性不高,所以在所應(yīng)用的病歷文本數(shù)據(jù)集中,CNN模型的分類效果比LSTM模型高2.6%左右。

        以CNN作為基線模型,以CNN、TextCNN、CNN-Attention與CNN-BiLSTM-Attention為例,TextCNN通過不同的卷積核尺寸提取文本序列的N-gram信息,再利用相應(yīng)的池化操作提取卷積操作的關(guān)鍵信息,然后再將池化層的輸出進行拼接,相較于CNN結(jié)構(gòu),更加豐富地抓取了局部特征,進行了詞窗內(nèi)詞向量的多維表示,所以在總體評價指標上優(yōu)于CNN結(jié)構(gòu),F(xiàn)1高于基線模型1.7%。相較于CNN-Attention結(jié)構(gòu),Attention機制為CNN提取的局部特征進行特征加權(quán),降低了噪聲特征對分類效果的影響,因此在整體性能上也提升0.9%左右,但是仍略低于TextCNN,原因主要是由于對于病歷短文本陳述句,最大池化操作的作用就是突出各個卷積核操作提取的關(guān)鍵信息,與Attention機制的作用效果相像,而后續(xù)還會拼接多個池化層的輸出通過全連接層進行特征組合,所以會造成分類結(jié)果上略低于TextCNN。

        以LSTM作為基線模型,以LSTM、BiLSTM與BiLSTM-Attention為例,對于BiLSTM模型而言,單一方向的LSTM單元處理病歷文本序列并不能有效地表征前后文語義信息,而BiLSTM同時拼接兩個方向LSTM單元的輸出,加倍提升了模型計算復(fù)雜度,所以在整體分類效果上只提升0.4%左右。Attention機制的引入,明顯提升了模型的分類效果,相較于LSTM和BiLSTM整體分類精度提升1.3%和0.8%左右,進一步驗證了注意力機制進行特征加權(quán),提升分類模型效果的作用。

        對于CNN與LSTM的混合模型,可以明顯得出LSTM-CNN比CNN-LSTM的串聯(lián)模型性能更加優(yōu)越。CNN雖然可以較好的提取詞窗內(nèi)的語義特征,同時也會造成信息丟失,在只對單向LSTM進行后向序列信息計算時,會造成一定的信息差異。而LSTM向后傳遞的語義信息是完整的,再通過CNN的局部關(guān)鍵信息提取,所以LSTM-CNN模型的分類效果略高于CNN-LSTM模型。相較于CNN-BiLSTM模型,BiLSTM對CNN的輸出進行前后向序列化特征加工,對模型的分類效果起到了正向作用,比另外兩種遞進結(jié)構(gòu)分別提升0.8%和0.4%左右。

        依據(jù)算法模型的執(zhí)行時間來看,CNN因其網(wǎng)絡(luò)結(jié)構(gòu)簡單高效,執(zhí)行效率最快,約為0.46 s/epoch(epoch為使用訓(xùn)練集的全部數(shù)據(jù)對模型進行一次完整訓(xùn)練),LSTM較CNN計算復(fù)雜度高,且BiLSTM加倍了計算復(fù)雜度,故BiLSTM-Attention執(zhí)行速率最慢,約為2.44 s/epoch。本文模型的執(zhí)行效率約為2.11 s/epoch,雖然在整體對比實驗中處于劣勢,但是其總體性能仍是本文的主要考慮因素。

        依據(jù)各類算法模型在訓(xùn)練過程中的驗證集準確率變化趨勢來看,由于電子病歷文本的特性,以CNN為基線的各類模型基本上在10個epoch后達到收斂狀態(tài),且準確率居高。以LSTM為基線的模型在整體上均有動蕩的趨勢,基本上在18個epoch才達到收斂。本文模型的驗證集準確率變化趨勢最為優(yōu)異,在7個epoch后達到收斂狀態(tài),且準確率收斂在97.85%,明顯高于對比實驗的其他模型,進一步驗證本文模型的有效性和魯棒性。

        4 結(jié)論

        針對醫(yī)療領(lǐng)域的電子病歷文本特點,結(jié)合CNN、LSTM和Attention機制的特性,提出了一種基于CNN-BiLSTM-Attention的文本分類模型,通過多層CNN結(jié)構(gòu)提取詞窗內(nèi)的文本局部特征,通過拼接操作豐富文本的局部特征表示,作為BiLSTM的輸入。通過BiLSTM進行前后向文本語義建模,獲取文本序列的高層特征表達,再通過Attention機制進行特征加權(quán),降低噪聲特征的影響。實驗結(jié)果表明,CNN-BiLSTM-Attention模型的執(zhí)行效率和準確率在各類模型對比實驗中均取得優(yōu)異的效果,適用于電子病歷文本分類任務(wù)。在接下來的研究中,將著重從詞向量編碼、注意力機制算法、整體模型結(jié)構(gòu)以及模型的超參數(shù)設(shè)置等方面進行進一步分析,提升模型的文本分類任務(wù)的整體效率。

        猜你喜歡
        病歷語義卷積
        強迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        “大數(shù)的認識”的診斷病歷
        語言與語義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        為何要公開全部病歷?
        “上”與“下”語義的不對稱性及其認知闡釋
        村醫(yī)未寫病歷,誰之過?
        認知范疇模糊與語義模糊
        国产精品美女久久久久久| 国产免费一区二区三区三| 日本岛国一区二区三区四区| 久久人人爽人人爽人人片av高请| 曰韩无码二三区中文字幕| 国产自精品| 最近亚洲精品中文字幕| 久久精品国产熟女亚洲av麻豆| 少妇久久久久久人妻无码| aaaaaa级特色特黄的毛片| 日本香蕉久久一区二区视频| 国产精品视频一区二区久久| 国产成人无码一区二区三区| 亚洲av永久无码精品国产精品 | 亚洲色图第一页在线观看视频| 亚洲av毛片在线免费观看| 国产亚洲2021成人乱码| 国产在线一区观看| 国产一区二区三区影片| 美女午夜福利视频网址| 日本精品αv中文字幕| 久久精品这里只有精品| 国内偷拍第一视频第一视频区| 国产亚洲精品综合一区| 青青草原精品99久久精品66| 中文字幕亚洲人妻系列| 久久国产精品色av免费看| 少妇做爰免费视频了| 丁香五月缴情综合网| 中文字幕偷拍亚洲九色| 亚洲国产一区二区三区| 国产在线精品一区在线观看 | 日韩精品在线一二三四区| 久久成人影院精品777| 亚洲成人777| 白白在线免费观看视频| 亚洲av无码无线在线观看| 老头巨大挺进莹莹的体内免费视频 | 久久频精品99香蕉国产| 亚洲美女一区二区三区三州| 精品一区二区三区免费视频|