畢銘文 左敏 張青川
摘 要:在線醫(yī)學(xué)智能問答系統(tǒng)作為傳統(tǒng)醫(yī)學(xué)服務(wù)系統(tǒng)的一個(gè)補(bǔ)充旨在對(duì)用戶通過自然語言進(jìn)行的醫(yī)學(xué)方面的提問做出快速、簡介的反饋。本文提出了基于LSTM的癥狀位置的注意力模型。在醫(yī)療領(lǐng)域數(shù)據(jù)集MT-QA上的對(duì)比實(shí)驗(yàn)顯示LSTM-SPA模型有優(yōu)良的性能。
關(guān)鍵詞:語義分析;問答系統(tǒng);長短時(shí)記憶網(wǎng)絡(luò)模型;基于位置的注意力機(jī)制
DOI:10.16640/j.cnki.37-1222/t.2019.01.226
1 引言
在線醫(yī)學(xué)詢問平臺(tái)在醫(yī)療服務(wù)領(lǐng)域得到越來越廣泛的關(guān)注,它為患者和醫(yī)生提供了一個(gè)社區(qū)的問答系統(tǒng)?;颊呙枋鏊麄兊陌Y狀并提出問題,醫(yī)生以此來診斷疾病或者給予一些進(jìn)一步就醫(yī)檢查的建議。但是由于平臺(tái)上的醫(yī)生大多利用業(yè)余時(shí)間參與問診工作,無法進(jìn)行實(shí)時(shí)回復(fù)?;颊呷匀恍枰却齺碜葬t(yī)生的回復(fù),而且這個(gè)等待時(shí)間是未知的。針對(duì)傳統(tǒng)的社區(qū)問答系統(tǒng)所面臨的上述問題,一個(gè)實(shí)時(shí)且高質(zhì)量的醫(yī)學(xué)領(lǐng)域智能問答系統(tǒng)對(duì)于用戶來說是必要的。
2 相關(guān)工作
社區(qū)醫(yī)療問答系統(tǒng)所涉及的研究熱點(diǎn)包括以下兩個(gè)方面:
以用戶的癥狀描述為基礎(chǔ),在數(shù)據(jù)庫中匹配與其相似度高的歷史病例。詞匯差距是由于使用不同的單詞導(dǎo)致用戶描述與表達(dá)相同含義的歷史描述不匹配。例如:一些用戶描述流感可能用“感冒了”,而其他人可能會(huì)用“咳嗽的厲害”代替。詞匯差距的存在導(dǎo)致利用傳統(tǒng)的信息索引方法很難根據(jù)用戶的描述去找到相似的歷史病例。
最近,LSTM已經(jīng)被廣泛應(yīng)用于問答任務(wù)中由于它的優(yōu)良的性能。在基于LSTM的CQA模型中,用戶的描述和歷史描述中的每個(gè)單詞首先被一個(gè)隱含層向量表示。然后,所有的隱含層向量被合并成為句子代表。之后,最接近的歷史描述被從候選歷史描述池中選擇出來根據(jù)句子相似度。目前一個(gè)主要的挑戰(zhàn)是如何減弱句子中不相關(guān)內(nèi)容對(duì)語義的干擾,[1]提出了三種內(nèi)在關(guān)注的方法,在隱含層表示之前加入了注意力信息,達(dá)到了QA領(lǐng)域最新的表現(xiàn)。
本文將針對(duì)上述詞匯差距和句子向量化代表的問題展開深入探討。主要有以下兩個(gè)方面的研究。(1)將基于中文詞林的近義詞主詞替換的機(jī)制引入到目前最新進(jìn)的詞嵌入模型來解決之前研究者所忽略的句子中單詞語義的理解;(2)對(duì)目前最先進(jìn)的注意力機(jī)制進(jìn)行優(yōu)化。加入位置上下文的影響,增強(qiáng)對(duì)疾病典型癥狀的關(guān)注,構(gòu)建基于位置感知的注意力模型。
3 LSTM-SPA模型描述
在這一章中,我們將介紹我們的LSTM-SPA 模型如何解決CQA任務(wù)。假設(shè)在歷史病例池中,從醫(yī)生得到相似答案回復(fù)的用戶癥狀描述如果多次出現(xiàn),則該癥狀在該疾病中的表現(xiàn)是活躍的(我們稱之為典型癥狀),那么在用戶描述句中,該典型癥狀單詞將對(duì)其臨近單詞造成影響。也就是說,臨近單詞應(yīng)該被給予更多的關(guān)注比起那些遠(yuǎn)離單詞,因?yàn)樗鼈兇碇嘤脩舻陌Y狀描述語義?;谶@個(gè)假設(shè),我們提出了LSTM-SPA模型來模擬一個(gè)用戶描述中的典型癥狀對(duì)句中各單詞的位置感知影響,分為以下三個(gè)步驟:
(1)通過相似度計(jì)算將歷史病例分組,具有高相似度診斷結(jié)果的歷史病例分為一組,也就是說位于同組的診斷結(jié)果或診斷建議基本一致。
(2)將每組病例中用戶描述利用傳統(tǒng)的注意力機(jī)制進(jìn)行處理,得到用戶描述代表。
(3)經(jīng)過統(tǒng)計(jì),我們將得出每種診斷結(jié)果所對(duì)應(yīng)的癥狀單詞列表。
需要重點(diǎn)說明的是我們提出了一個(gè)位置感知影響傳播策略,即在用戶描述句中,癥狀單詞對(duì)臨近單詞的影響程度隨距離而變化。然后根據(jù)在用戶描述句中出現(xiàn)的所有癥狀單詞傳播的累積影響,在隱含層中生成每個(gè)單詞的位置感知影響向量。這樣位置感知影響向量被整合到傳統(tǒng)注意力機(jī)制中,形成用戶對(duì)疾病癥狀描述的注意力語義代表。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)構(gòu)建
數(shù)據(jù)集。我們進(jìn)行的實(shí)驗(yàn)使用的是我們獨(dú)立構(gòu)建的數(shù)據(jù)MT-QA。MT-QA是一個(gè)面向醫(yī)學(xué)領(lǐng)域的問答對(duì)語料數(shù)據(jù)集,所有的問答對(duì)是從各大權(quán)威網(wǎng)站收集而來(例如:好大夫,尋醫(yī)問藥)。數(shù)據(jù)集被劃分為3部分:訓(xùn)練集,開發(fā)集,測試集,并且統(tǒng)計(jì)的結(jié)果展示在表1:
4.2 LSTM-SPA 的影響
為了調(diào)查我們提出的BLSTM-SFPA 方法的效果。我們加入了一些沒有引用LSTM-SPA的標(biāo)桿方法,即不引用注意力的均分權(quán)重的方法(例如,基于LSTM編碼解碼模型[2]和基于RNN的編碼解碼模型[3])和引入傳統(tǒng)注意力的方法[4]。實(shí)驗(yàn)結(jié)果如表2所示。 我們的模型執(zhí)行比其他方法更好。
我們觀察到LSTM編碼器 - 解碼器模型比RNN編碼器 - 解碼器具有更好的性能。LSTM具有更強(qiáng)的學(xué)習(xí)遠(yuǎn)程時(shí)間依賴性數(shù)據(jù)的能力,因?yàn)檫@些問題與其答案句子中相應(yīng)的關(guān)鍵信息之間存在相當(dāng)長的時(shí)間滯后。并且我們注意到傳統(tǒng)的注意機(jī)制通過捕捉答案中的一部分信息詞匯,其性能略微優(yōu)于均分權(quán)重的方法。然而它不能給予出現(xiàn)在用戶描述中的癥狀單詞以及他們周圍的上下文特別的關(guān)注,對(duì)于問答匹配來說,這會(huì)丟失很多有用的信息。在我們提出的SPA機(jī)制中,通過癥狀單詞的位置上下文影響的傳播,用戶描述中的癥狀單詞以及相鄰上下文的重要性會(huì)有一個(gè)明確的提高。此外,在我們的醫(yī)療問答對(duì)數(shù)據(jù)集上,我們能夠?qū)崿F(xiàn)顯著的改善比起基礎(chǔ)模型。
5 結(jié)論
在這篇論文中,我們提出了一個(gè)基于LSTM的癥狀位置注意力模型(LSTM-SFP),該模型將癥狀單詞的位置上下文包含在用戶描述的注意力表示中;同時(shí),通過將近義詞映射為主詞的近義詞主詞替換機(jī)制有效的為詞匯差距建立了橋梁。在MT-QA上的實(shí)驗(yàn)結(jié)果展示了我們模型的優(yōu)越性比起那些沒有考慮詞匯差距和位置信息的基準(zhǔn)線模型。證明我們提出的SPA機(jī)制具有更高的性能比起那些傳統(tǒng)的注意力機(jī)制。在未來的研究中,我們想要在不同的任務(wù)中評(píng)估我們的模型并且試著去改善我們的模型。
參考文獻(xiàn):
[1]Wang B,Liu K,Zhao J.Inner Attention based Recurrent Neural Networks for Answer Selection[C]//Meeting of the Association for Computational Linguistics,2016:1288-1297.
[2]Sutskever I,Vinyals O,Le Q V.Sequence to Sequence Learning with Neural Networks[J].2014(04):3104-3112.
[3]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J].Computer Science,2014.
[4]Wang D,Nyberg E.A Long Short-Term Memory Model for Answer Sentence Selection in Question Answering[C]// Meeting of the Association for Computational Linguistics and the,International?Joint Conference on Natural Language Processing.2015:707-712.