倪 凌
(江蘇省第二中醫(yī)院 江蘇 南京 210000)
大型醫(yī)院在每天診療過(guò)程中產(chǎn)生了大量的醫(yī)療數(shù)據(jù),包括門診病歷、臨床醫(yī)療數(shù)據(jù)、患者意見(jiàn)等[1]。這些數(shù)據(jù)大多以文本形式存儲(chǔ)于數(shù)據(jù)庫(kù)中,若通過(guò)人工對(duì)此類文本信息進(jìn)行歸檔和分析,將耗費(fèi)龐大的人力成本。隨著人工智能技術(shù)的飛速發(fā)展,對(duì)醫(yī)療文本信息進(jìn)行智能提取、識(shí)別和分析成為了可能[2]。在實(shí)際的臨床治療過(guò)程中,存在許多實(shí)驗(yàn)性質(zhì)的藥物治療方案[3],一方面可通過(guò)醫(yī)學(xué)指標(biāo)數(shù)據(jù)判斷藥物的效果,另一方面也可通過(guò)電子病歷觀察治療的結(jié)果,因此對(duì)電子病歷進(jìn)行分析具有重要的應(yīng)用價(jià)值。
觀點(diǎn)挖掘技術(shù)已經(jīng)得到了深入的研究,大多關(guān)注于電影評(píng)論[4]、圖書評(píng)論[5]、社交網(wǎng)絡(luò)[6]和短新聞[6]等文本數(shù)據(jù)的挖掘,這些文本內(nèi)容大多滿足語(yǔ)法約束,且詞匯的分布較為集中,傳統(tǒng)的n-gram、CBOW和skip-gram等詞嵌入模型即可較好地學(xué)習(xí)文本的特征,再通過(guò)分類器對(duì)用戶觀點(diǎn)進(jìn)行標(biāo)注。此類方法包括基于n-gram的Youtube觀點(diǎn)挖掘算法[7]、基于CBOW的方面級(jí)情感信息提取技術(shù)[8]和基于skip-gram的語(yǔ)義聚類技術(shù)[9],這些技術(shù)均達(dá)到了令人滿意的性能。
醫(yī)療領(lǐng)域的文本數(shù)據(jù)存在兩大特殊之處:(1) 醫(yī)生專家往往輸入大量的專業(yè)名詞和短語(yǔ),而其中一部分名詞和短語(yǔ)不符合常規(guī)的語(yǔ)法或語(yǔ)義;(2) 患者描述的文本內(nèi)容非??谡Z(yǔ)化且不滿足醫(yī)療系統(tǒng)規(guī)范,導(dǎo)致語(yǔ)義實(shí)體的邊界較模糊。依然有學(xué)者對(duì)醫(yī)療文本數(shù)據(jù)完成了有效的研究,文獻(xiàn)[10]將卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)結(jié)合,先利用卷積層捕獲詞語(yǔ)之間的邊界特征,把特征傳遞給長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測(cè),再由條件隨機(jī)場(chǎng)模型對(duì)序列進(jìn)行標(biāo)注,該方法對(duì)臨床文本的復(fù)合實(shí)體識(shí)別具有突出的優(yōu)勢(shì)。其他針對(duì)醫(yī)療文本的研究大多針對(duì)英文文本,如基于概率模型的生物醫(yī)學(xué)文本分析[11]和基于頻繁項(xiàng)集挖掘的醫(yī)學(xué)自動(dòng)摘要技術(shù)[12],而中文與英文的語(yǔ)義本體之間存在較大的差異,因此很難把英文文本分析技術(shù)直接應(yīng)用到中文文本分析問(wèn)題上。
為了進(jìn)一步完善醫(yī)院信息化建設(shè)的進(jìn)程,對(duì)電子病歷數(shù)據(jù)實(shí)現(xiàn)智能且高效的分析,設(shè)計(jì)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的臨床大規(guī)模文本數(shù)據(jù)分析算法。首先,對(duì)詞嵌入模型進(jìn)行修改,使其更加適合醫(yī)療領(lǐng)域,提高所提取方面項(xiàng)的性能。然后,把提取的方面項(xiàng)作為標(biāo)記數(shù)據(jù)訓(xùn)練Bi-LSTM網(wǎng)絡(luò),雙向LSTM學(xué)習(xí)詞語(yǔ)的正向與反向方向上下文信息。以句子“吃完藥后非常有精神!”為例,如果是沒(méi)有注意力機(jī)制的原LSTM,那么提取的目標(biāo)詞語(yǔ)為“藥物”,顯然未能全面捕捉到句子的語(yǔ)義。本文在Bi-LSTM中設(shè)計(jì)了注意力機(jī)制學(xué)習(xí)方面項(xiàng)之間的長(zhǎng)期依賴關(guān)系,包含注意力機(jī)制的LSTM所提取的目標(biāo)詞語(yǔ)則為“藥物”和“精神”,這兩個(gè)詞能夠更好地表達(dá)該句子的語(yǔ)義。最終通過(guò)Softmax層對(duì)方面項(xiàng)的情感進(jìn)行標(biāo)記。本文系統(tǒng)主要有三點(diǎn)貢獻(xiàn):(1) 設(shè)計(jì)了醫(yī)療領(lǐng)域名詞處理技術(shù),過(guò)濾與醫(yī)療領(lǐng)域相關(guān)性高的名詞;(2) 通過(guò)雙向長(zhǎng)短期網(wǎng)絡(luò)學(xué)習(xí)詞語(yǔ)的前文、后文語(yǔ)義,并設(shè)計(jì)注意力機(jī)制學(xué)習(xí)目標(biāo)詞語(yǔ)之間的長(zhǎng)期關(guān)聯(lián)性;(3) 把提取的方面項(xiàng)作為詞語(yǔ)的標(biāo)簽,與其他語(yǔ)法特征一起送入Bi-LSTM模型學(xué)習(xí),提高了特征的豐富性。
圖1所示是一個(gè)出院患者的評(píng)價(jià)實(shí)例,患者給出的評(píng)價(jià)內(nèi)容為“劉醫(yī)生很有耐心,診斷精準(zhǔn)有效”。觀點(diǎn)對(duì)象為劉醫(yī)生,方面項(xiàng)為服務(wù)態(tài)度和醫(yī)術(shù),兩個(gè)方面項(xiàng)的情感極性均為正面。電子病歷數(shù)據(jù)挖掘系統(tǒng)的目標(biāo)是對(duì)病歷中的文本進(jìn)行分析,提取出每個(gè)方面項(xiàng),并通過(guò)深度學(xué)習(xí)技術(shù)智能地識(shí)別每個(gè)方面項(xiàng)的觀點(diǎn)(情感極性)。
圖1 醫(yī)療文本觀點(diǎn)的本體劃分
本文提出一個(gè)兩步驟的方法來(lái)實(shí)現(xiàn)文本的方面項(xiàng)提取,流程如圖2所示。第1步提取細(xì)粒度名詞或短語(yǔ),第2步借助臨床醫(yī)療語(yǔ)料庫(kù)對(duì)細(xì)粒度名詞進(jìn)行過(guò)濾和重組。
圖2 臨床文本數(shù)據(jù)方面級(jí)觀點(diǎn)識(shí)別的算法流程
電子病歷包含大量的醫(yī)學(xué)名詞和短語(yǔ),采用Stanford Parser的chinese-distsim.tagger模塊工具[13]提取中文的方面項(xiàng)。該工具在處理不符合語(yǔ)言規(guī)范的文本內(nèi)容時(shí)錯(cuò)檢率和漏檢率均較高,例如:“吃了感冒藥第二天感覺(jué)好了很多”,Stanford Parser的分割結(jié)果為感冒//藥//好。該句子的方面項(xiàng)應(yīng)該是“感冒藥”,但Stanford Parser把“感冒藥”識(shí)別成了兩個(gè)方面項(xiàng)“感冒”和“藥”。因此Stanford Parser生成的POS標(biāo)記名詞無(wú)法準(zhǔn)確地識(shí)別語(yǔ)義層面的名詞和短語(yǔ),本文對(duì)Stanford Parser進(jìn)行了擴(kuò)展,提高對(duì)醫(yī)療文本方面項(xiàng)提取的效果。
采用Stanford Parser的chinese-distsim.tagger模塊工具將句子分解,標(biāo)注每個(gè)名詞的細(xì)粒度token,將這些細(xì)粒度名詞稱為潛在方面項(xiàng)。以“吃了感冒藥第二天感覺(jué)好了很多”為例,Stanford Parser處理后的結(jié)果為“吃了(VB)|感冒(NNP)|藥(NNP)|第二天(DT)|感覺(jué)(VB)|好了(JJ)/很多(RB)”,具體如圖3所示。
圖3 Stanford Parser細(xì)粒度token標(biāo)注實(shí)例
上一部分提取了所有文本的潛在方面項(xiàng),其中一些方面項(xiàng)與醫(yī)療領(lǐng)域無(wú)關(guān)。例如:“病人是南京大學(xué)的一名學(xué)生”,潛在方面項(xiàng)“大學(xué)”與醫(yī)療領(lǐng)域的相關(guān)性較低,因此設(shè)計(jì)了方面項(xiàng)過(guò)濾技術(shù)排除與醫(yī)療領(lǐng)域不相關(guān)的潛在方面項(xiàng)。圖4所示是醫(yī)療領(lǐng)域名詞處理的流程,利用收集的臨床醫(yī)療語(yǔ)料庫(kù)訓(xùn)練詞嵌入模型Word2Vec[14]或者GloVe[15],再利用訓(xùn)練的模型把輸入文本轉(zhuǎn)化成向量形式。
圖4 醫(yī)療領(lǐng)域名詞處理的流程
首先計(jì)算輸入文本A中所有潛在方面項(xiàng)ni詞wi的詞頻fi,把詞頻較低的名詞刪除,根據(jù)預(yù)處理實(shí)驗(yàn)的結(jié)果,將過(guò)濾不相關(guān)詞的詞頻閾值設(shè)為(lenth/30),其中l(wèi)enth為文本的句子數(shù)量。基于剩余的名詞建立頻繁詞集W和詞頻集F,然后采用余弦相似性度量名詞與語(yǔ)料庫(kù)之間的語(yǔ)義相似性,相似性越高說(shuō)明該名詞與醫(yī)療領(lǐng)域的相關(guān)度越高。we(ni)與we(D)的相似性定義為:
(1)
式中:we(ni)表示詞wi的權(quán)重,we(D)=1表示醫(yī)療領(lǐng)域預(yù)分配的權(quán)重。
采用詞嵌入提取方面項(xiàng)特征,采用POS標(biāo)注提取觀點(diǎn)特征。
(1) 方面項(xiàng)特征提取:Word2vec是構(gòu)建連續(xù)詞向量表示的常用方法,Word2vec包括Skip-gram和CBOW兩個(gè)模型。通過(guò)預(yù)處理實(shí)驗(yàn)訓(xùn)練Skip-gram和CBOW兩個(gè)模型,最終兩個(gè)模型的超參數(shù)選定如下:向量維度D為300,上下文窗口為20,negative_sample_size為10,下采樣值為1×e-3,學(xué)習(xí)率為0.05。Skip-gram和CBOW為每個(gè)詞生成一個(gè)300維的向量。GloVe模型的超參數(shù)選定如下:向量維度D為200,窗口大小為15,verbose參數(shù)為2,最大迭代次數(shù)為45。
(2) 觀點(diǎn)特征提取:首先把輸入句子S={X1,X2,…,XT}表示成token序列,例如:“感冒”是第232個(gè)詞,那么pv等于232,將句子表示為索引序列ps=[pv(X1),pv(X2),…,pv(XT)]。設(shè)wt表示第t個(gè)詞在句子中的嵌入向量,將wt和Xi間的關(guān)系定義為:wt=E[pv(Xn)],將輸入句子表示為詞嵌入向量的序列W={w1,w2,…,wT}。
由于方面項(xiàng)大多為名詞,所以將POS標(biāo)注作為每個(gè)詞Xi的附加特征。采用獨(dú)熱編碼將POS標(biāo)注編碼成K維向量,再使用Stanford POS標(biāo)注器把POS向量編碼成6維的二值向量。假設(shè)輸入句子每個(gè)詞的POS標(biāo)注向量為P={p1,p2,…,pT},那么最終輸入句子每個(gè)詞的特征向量定義為:
X={x1,x2,…,xT}=
{(w1,p1)T,(w2,p2)T,…,(wT,pT)T}
(2)
將式(2)的序列傳入Bi-LSTM,提取句子的方面項(xiàng)。圖5所示是包含注意力機(jī)制的Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)。
圖5 Bi-LSTM網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)
Bi-LSTM的嵌入層參數(shù)dropout設(shè)為0.5以防止過(guò)擬合。編碼器讀入序列X學(xué)習(xí)隱藏層響應(yīng)H,將時(shí)間步t輸入詞在Bi-LSTM中的隱藏響應(yīng)向量ht表示為:
ht=bi_LSTM(ht-1xt;θen)
(3)
式中:ht-1為上一個(gè)狀態(tài)的隱藏層激活;xt為輸入數(shù)據(jù);θen為網(wǎng)絡(luò)參數(shù)集。
bi_LSTM+(ht-1,xt;θen)⊕bi_LSTM-(ht-1,xt;θen)
(4)
Bi-LSTM網(wǎng)絡(luò)從時(shí)間步t-1到時(shí)間步t的更新過(guò)程可建模為:
it=sigmoid(Wi[ht-1,xt]+bi)
(5)
ft=sigmoid(Wf[ht-1,xt]+bf)
(6)
ot=sigmoid(Wo[ht-1,xt]+bo)
(7)
(8)
(9)
ht=ot⊙tanh(ct)
(10)
由于句子每個(gè)詞對(duì)觀點(diǎn)挖掘的重要性不同,并且句子不同方面項(xiàng)之間存在關(guān)聯(lián)性,常規(guī)的Bi-LSTM網(wǎng)絡(luò)無(wú)法識(shí)別詞的重要性。因此為Bi-LSTM增加注意力機(jī)制,通過(guò)該機(jī)制區(qū)分每個(gè)詞對(duì)觀點(diǎn)感情的影響,然后將詞向量及其權(quán)重組成一個(gè)密集向量。圖6所示是所設(shè)計(jì)注意力機(jī)制的結(jié)構(gòu)。
圖6 實(shí)現(xiàn)注意力機(jī)制的結(jié)構(gòu)
假設(shè)在時(shí)間步t輸入注意力機(jī)制的句子為X={x1,x2,…,xT},Bi-LSTM隱藏層響應(yīng)ht傳入前饋網(wǎng)絡(luò),經(jīng)過(guò)注意力機(jī)制處理,產(chǎn)生的解碼響應(yīng)st可定義為:
st=f(st-1,yt-1,ct)
(11)
式中:st-1為上一個(gè)時(shí)間步的解碼響應(yīng);yt-1為上一個(gè)時(shí)間步的輸出;ct為上下文向量。
解碼器網(wǎng)絡(luò)根據(jù)上下文向量ct和句子X(jué)預(yù)測(cè)下一個(gè)時(shí)間步的標(biāo)簽yt,然后以相同的方式預(yù)測(cè)之前的標(biāo)簽序列[y1,y2,…,yt-1]。
上下文向量ct的計(jì)算方法為:
(12)
式中:αti={αt1,αt2,…,αtT}為注意力權(quán)重。
假設(shè)網(wǎng)絡(luò)的輸入為st-1和hi,前饋網(wǎng)絡(luò)Bi-LSTM計(jì)算出注意力能量集eti:
eti=Bi_LSTM(st-1hi)
(13)
假設(shè)激活函數(shù)為tanh(),方面項(xiàng)嵌入向量為eva,權(quán)重矩陣為W和U,那么注意力能量集eti可計(jì)算為:
eti=eva·tanh(Ust-1Whi)
(14)
目標(biāo)序列的聯(lián)合概率可定義為:
(15)
將每個(gè)詞概率最高的標(biāo)注作為Bi-LSTM預(yù)測(cè)的IOB2標(biāo)注,每個(gè)時(shí)間步t預(yù)測(cè)的標(biāo)注作為一個(gè)情感分類,將最小化分類交叉熵?fù)p失函數(shù)H()作為訓(xùn)練網(wǎng)絡(luò)的代價(jià)函數(shù):
(16)
式中:qi為詞的IOB2標(biāo)注;pt為期望概率分布;K={I,O,B};pt(k)∈{0,1};qt(k)∈[0,1]。
注意力機(jī)制輸出第i個(gè)標(biāo)簽的概率,再經(jīng)過(guò)softmax函數(shù)計(jì)算注意力的權(quán)重ati,計(jì)算方法為:
(17)
編程環(huán)境為Java JDK 1.6,軟件環(huán)境為Windows 10操作系統(tǒng)。PC處理器為i7-10750H,主頻為2.60 GHz,內(nèi)存大小為8 GB。
在江蘇省第二中醫(yī)院的數(shù)據(jù)庫(kù)中收集了500份臨床電子病歷和500份門診病歷,使用NLTK工具箱[17]對(duì)句子進(jìn)行分割和標(biāo)點(diǎn)符號(hào)預(yù)處理。由助理醫(yī)師對(duì)每份病歷的方面項(xiàng)和情感類型進(jìn)行標(biāo)注,最終共產(chǎn)生約30 000個(gè)不同詞匯,這些詞匯作為醫(yī)療領(lǐng)域語(yǔ)料庫(kù),用于訓(xùn)練Skip-gram、CBOW和GloVe三個(gè)詞嵌入模型。采用五折交叉檢驗(yàn)方法完成驗(yàn)證實(shí)驗(yàn),隨機(jī)選擇800份病歷作為訓(xùn)練集,剩下的200份病歷作為測(cè)試集。
采用三個(gè)常用指標(biāo)評(píng)價(jià)觀點(diǎn)挖掘系統(tǒng)的性能,分別為精度P、召回率R、F1-measure。
精度P定義為真正例數(shù)量占真正例和假正例總和的比例,計(jì)算公式為:
(18)
式中:TP表示真正例數(shù)量;FP表示假正例數(shù)量。
召回率R定義為真正例數(shù)量占真正例和假反例總和的比例,計(jì)算公式為:
(19)
式中:FN表示假反例數(shù)量。
F1-measure定義為精度與召回率的調(diào)和平均值,計(jì)算公式為:
(20)
式(1)計(jì)算的相似性值是過(guò)濾醫(yī)療領(lǐng)域相關(guān)名詞的關(guān)鍵參數(shù),因此首先通過(guò)實(shí)驗(yàn)觀察不同相似性閾值對(duì)醫(yī)療觀點(diǎn)識(shí)別精度的影響,將余弦相似性閾值分別取值0.65、0.7、0.75、0.8、0.85,結(jié)果如圖7所示。Skip-gram與CBOW兩個(gè)詞嵌入模型的最優(yōu)相似性閾值為0.75,GloVe模型的最優(yōu)相似性閾值為0.8。當(dāng)相似性閾值較小時(shí),數(shù)據(jù)集中包含了較多與醫(yī)療領(lǐng)域不相關(guān)的方面項(xiàng),而這些方面項(xiàng)對(duì)Bi-LSTM網(wǎng)絡(luò)產(chǎn)生干擾,導(dǎo)致Bi-LSTM的精度下降。當(dāng)相似性閾值較大時(shí),一些與醫(yī)療領(lǐng)域相關(guān)的方面項(xiàng)被誤刪,導(dǎo)致了Bi-LSTM的精度下降。下文實(shí)驗(yàn)將Skip-gram與CBOW兩個(gè)模型的相似性閾值設(shè)為0.75,GloVe模型的相似性閾值設(shè)為0.8。
圖7 不同相似性閾值對(duì)觀點(diǎn)識(shí)別精度的影響結(jié)果
目前尚未出現(xiàn)專門針對(duì)醫(yī)療領(lǐng)域觀點(diǎn)挖掘的有效技術(shù),大多是針對(duì)電影評(píng)論、圖書評(píng)論等日常生活文本的觀點(diǎn)挖掘技術(shù),因此選擇了5個(gè)觀點(diǎn)挖掘算法與本文算法完成對(duì)比實(shí)驗(yàn)。所選取的5個(gè)對(duì)比算法均支持不同的語(yǔ)料庫(kù),分別為基于多特征融合和LSTM的方面級(jí)觀點(diǎn)挖掘算法LSTM-CRF[18]、基于雙向LSTM的兩分類方面級(jí)觀點(diǎn)挖掘算法BiLSTM[19]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)論觀點(diǎn)挖掘算法RNN[20]、基于雙向卷積門控循環(huán)單元的觀點(diǎn)挖掘算法C-GRU[21]、基于自然語(yǔ)言多語(yǔ)法特征融合的觀點(diǎn)挖掘算法NLP[22]。其中BiLSTM與RNN僅支持兩個(gè)情感分類,即積極(positive)和消極(negative),其他算法均支持三個(gè)情感分類,即積極(positive)、消極(negative)和中性(neutral)。LSTM-CRF先對(duì)每個(gè)詞進(jìn)行語(yǔ)法標(biāo)注,提取上下文感知的特征集,再通過(guò)Bi-LSTM實(shí)現(xiàn)對(duì)觀點(diǎn)情感的識(shí)別,該模型在LSTM之外通過(guò)提取上下文特征實(shí)現(xiàn)對(duì)語(yǔ)義的識(shí)別,而本文算法則在LSTM內(nèi)部通過(guò)注意力機(jī)制實(shí)現(xiàn)對(duì)上下文語(yǔ)義的識(shí)別,由此可觀察兩種策略的有效性。BiLSTM、RNN和C-GRU三個(gè)算法則是分別通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元識(shí)別詞語(yǔ)的上下文語(yǔ)義,通過(guò)這三個(gè)算法可觀察不同深度學(xué)習(xí)網(wǎng)絡(luò)的性能差異。上述5個(gè)觀點(diǎn)挖掘算法在本文收集的醫(yī)療領(lǐng)域語(yǔ)料庫(kù)上再次進(jìn)行訓(xùn)練,在相同的實(shí)驗(yàn)條件下與本文算法進(jìn)行比較。本文算法分別采用Skip-gram、CBOW和GloVe三種嵌入模型完成實(shí)驗(yàn),分別簡(jiǎn)記為L(zhǎng)Skip、LCB和LGl,觀察不同詞嵌入模型對(duì)算法性能的影響。
圖8所示是不同算法的方面級(jí)觀點(diǎn)識(shí)別精度結(jié)果,可以看出,本文算法采用GloVe詞嵌入模型的性能優(yōu)于Skip-gram與CBOW兩個(gè)模型。深度雙向C-GRU網(wǎng)絡(luò)是一種可兼容不同語(yǔ)料庫(kù)的觀點(diǎn)挖掘模型,因此不僅在圖書評(píng)論問(wèn)題和電影評(píng)論問(wèn)題上取得了理想的效果,在醫(yī)療文本挖掘領(lǐng)域也明顯優(yōu)于其他幾個(gè)模型。本文算法考慮了BIO標(biāo)注、詞嵌入向量、POS標(biāo)注,因此能夠更加全面地提取每個(gè)方面項(xiàng)在文本中的上下文特征,再結(jié)合注意力機(jī)制能夠關(guān)注于語(yǔ)義重要性高的方面項(xiàng)。此外,本文算法通過(guò)2.2節(jié)的“醫(yī)療領(lǐng)域名詞處理”過(guò)濾了非醫(yī)療領(lǐng)域名詞,提高了所提取方面項(xiàng)的專業(yè)性。
圖8 不同觀點(diǎn)挖掘算法的情感識(shí)別精度
圖9所示是不同算法的方面級(jí)觀點(diǎn)識(shí)別召回率結(jié)果,可以看出,本文算法采用GloVe詞嵌入模型的召回率也優(yōu)于Skip-gram與CBOW兩個(gè)模型。NLP的召回率結(jié)果優(yōu)于Skip-gram與CBOW兩個(gè)模型下的本文算法,NLP算法具有較高的識(shí)別覆蓋率。雖然C-GRU模型實(shí)現(xiàn)了較好的觀點(diǎn)識(shí)別精度,但召回率略低于NLP算法。
圖9 不同觀點(diǎn)挖掘算法的情感識(shí)別召回率
圖10所示是不同算法的方面級(jí)觀點(diǎn)識(shí)別F1-measure結(jié)果,可以看出,本文算法采用GloVe詞嵌入模型的性能優(yōu)于Skip-gram與CBOW兩個(gè)模型。NLP算法的綜合識(shí)別性能優(yōu)于C-GRU模型,本文算法考慮了BIO標(biāo)注、詞嵌入向量、POS標(biāo)注,因此能夠更加全面地提取每個(gè)方面項(xiàng)在文本中的上下文特征,再結(jié)合注意力機(jī)制能夠關(guān)注于語(yǔ)義重要性高的方面項(xiàng)。此外,本文算法通過(guò)2.2節(jié)的“醫(yī)療領(lǐng)域名詞處理”過(guò)濾了非醫(yī)療領(lǐng)域名詞,提高了所提取方面項(xiàng)的專業(yè)性。
圖10 不同觀點(diǎn)挖掘算法的情感識(shí)別F1-measure
為了進(jìn)一步完善醫(yī)院信息化建設(shè)的進(jìn)程,實(shí)現(xiàn)對(duì)臨床文本數(shù)據(jù)智能且高效的分析,設(shè)計(jì)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的臨床大規(guī)模文本數(shù)據(jù)分析算法。首先,對(duì)詞嵌入模型進(jìn)行修改,使其更加適合醫(yī)療領(lǐng)域,提高所提取方面項(xiàng)的性能。然后,把提取的方面項(xiàng)作為標(biāo)記數(shù)據(jù)訓(xùn)練bi-LSTM網(wǎng)絡(luò)。最終,利用Softmax層對(duì)方面級(jí)觀點(diǎn)的情感進(jìn)行分類。本文算法考慮了BIO標(biāo)注、詞嵌入向量、POS標(biāo)注,因此能夠更加全面地提取每個(gè)方面項(xiàng)在文本中的上下文特征,再結(jié)合注意力機(jī)制能夠關(guān)注于語(yǔ)義重要性高的方面項(xiàng)。此外,本文算法通過(guò) “醫(yī)療領(lǐng)域名詞處理”過(guò)濾了非醫(yī)療領(lǐng)域名詞,提高了所提取方面項(xiàng)的專業(yè)性。
本文算法目前僅研究了積極、中性和消極共三種情感極性,未來(lái)將關(guān)注于細(xì)粒度的觀點(diǎn)分析研究。借鑒推薦系統(tǒng)的評(píng)分方法,進(jìn)一步深化醫(yī)院的信息化建設(shè)。