亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力混合模型的中文醫(yī)療問答匹配

        2021-11-15 13:22:20賈麗娜李冠宇
        關(guān)鍵詞:特征信息模型

        賈麗娜 陳 恒,2 李冠宇

        1(大連海事大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 遼寧 大連 116026) 2(大連外國語大學(xué)語言智能研究中心 遼寧 大連 116044)

        0 引 言

        隨著互聯(lián)網(wǎng)的發(fā)展及應(yīng)用,線上醫(yī)療咨詢越來越受歡迎,如尋醫(yī)問藥、好大夫和求醫(yī)等平臺。此類平臺可以實(shí)現(xiàn)用戶和專家無掛號交流。用戶可以向?qū)<野l(fā)送病情,并得到專家回復(fù)。但是隨著用戶數(shù)量的增加,待解決的問題增加,難以保證24小時(shí)高質(zhì)量服務(wù)。這為醫(yī)生回復(fù)帶來了負(fù)擔(dān),也降低了用戶體驗(yàn)。為了解決等待時(shí)間延長的問題,設(shè)計(jì)了一個(gè)將問句與答案相匹配、自動(dòng)選出最合適的答案自動(dòng)問答系統(tǒng)。

        在醫(yī)療問答服務(wù)中,存在著許多對于同一癥狀使用相似卻不同的單詞和句子進(jìn)行描述,這些描述為實(shí)現(xiàn)醫(yī)療問答系統(tǒng)提供了可能。傳統(tǒng)的問答系統(tǒng)采用信息檢索[1-2]、手工規(guī)則[3-4]和淺層機(jī)器學(xué)習(xí)[5-6]等方法,這些方法只能獲取淺層的特征和語句關(guān)系,深層特征仍需要人工獲取,因此機(jī)器模型缺乏泛化能力。

        近年來,最流行的方法是使用深度學(xué)習(xí)進(jìn)行問答對匹配,其關(guān)鍵是如何有效地獲取句子中重要的特征信息和關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)CNN模型能夠通過卷積層和池化層獲取句子中局部位置不變的特征信息[7,21]。在CNN上改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multiscale Convolutional Neural Network, Multi-CNN)和堆棧卷積神經(jīng)網(wǎng)絡(luò)(stack Convolutional Neural Network,stack-CNN)等模型也在應(yīng)用上取得了顯著的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[8]以及其變體長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[9,22-23]和門控網(wǎng)絡(luò)(Gated Recurrent Unit, GRU)[10]模型在考慮句子長距離依賴關(guān)系問題上被廣泛應(yīng)用。然而這些方法通常只使用一個(gè)單一神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對問答對進(jìn)行嵌入表示,沒有捕捉到問答對之間更復(fù)雜的語義關(guān)系和特征信息,改進(jìn)程度有限。

        為了盡可能多地獲取問答對之間的內(nèi)在語義特征,本文采用Multi-CNN和雙循環(huán)門控網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit, BiGRU)相結(jié)合,并引入注意力機(jī)制的混合模型(Attention-based BiGRU-CNN, ABiGRU-CNN)來對問答對進(jìn)行處理。該模型不僅能獲取問答對的局部特征信息和長距離依賴關(guān)系,還能結(jié)合注意力機(jī)制為問答對匹配中的重要信息賦予更高的權(quán)重。在cMedQA數(shù)據(jù)集上的實(shí)驗(yàn)表明,ABiGRU-CNN模型在醫(yī)學(xué)問答匹配上明顯優(yōu)于現(xiàn)有方法。

        1 相關(guān)工作

        1.1 傳統(tǒng)方法

        Cairns等[1]提出了一個(gè)具有查詢公式和自動(dòng)問答注釋等功能集成的MiPACQ系統(tǒng)來檢索候選答案段落。Li等[18]使用BM25算法檢索包含問題及其答案的語料庫并將候選答案進(jìn)行排序,用于問答匹配。這類方法屬于傳統(tǒng)手法中信息檢索,包括查詢擴(kuò)展和候選答案重排序操作,但其匹配采用的關(guān)鍵詞搜索策略對語義的分析和匹配效果不夠好。

        Athenikos等[3]提出了一個(gè)基于規(guī)則的醫(yī)學(xué)領(lǐng)域問答系統(tǒng)的框架,以邏輯推理方式獲得問題的正確答案。Jain等[4]提出了一種基于規(guī)則的問答系統(tǒng)的體系結(jié)構(gòu)來對問題操作和答案檢索方法進(jìn)行描述。這類手工設(shè)計(jì)方法在面對多樣的問答對時(shí),缺少靈活性。

        Moschitti等[12]提出了有監(jiān)督的判別模型,該模型包括支持向量機(jī)、字符串核和語法樹核等方法,能通過對答案進(jìn)行排序選擇得到與問題相匹配的正確答案。Lecun等[13]提供了一種基于支持向量機(jī)的基于上下文的問題解答模型,該模型具有問題分類和文檔檢索等功能。然而,淺層機(jī)器學(xué)習(xí)方法仍需要人工進(jìn)行深層特征分類。

        1.2 深度學(xué)習(xí)方法

        近年來,深度學(xué)習(xí)被廣泛用于問答領(lǐng)域中。例如RNN模型經(jīng)常被用于獲取句子序列和長距離依賴關(guān)系信息,CNN模型用于獲取句子局部置不變特征信息。

        Xu等[8]提出一種基于全時(shí)監(jiān)控的雙向RNN模型,該模型可以在每一個(gè)時(shí)刻進(jìn)行監(jiān)督。Qiu等[14]提出一種用于社區(qū)問答的卷積神經(jīng)張量網(wǎng)絡(luò),它將句子建模語義匹配集成到一個(gè)基于卷積層和和流層組合的模型中,可以學(xué)習(xí)問題與答案之間的匹配度量。Zhang等[15]提出了Multi-CNN框架,利用多尺度卷積核獲取問答對特征信息。

        深度學(xué)習(xí)雖然在獲取信息方面具有很好的效果,但上述的方法都是基于單一的神經(jīng)網(wǎng)絡(luò)建模,只能獲取句子單側(cè)信息。而在問答對匹配中需要更多具有代表意義的特征,因此有必要設(shè)計(jì)和實(shí)現(xiàn)更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)。

        2 基于注意力BiGRU-CNN模型

        2.1 ABiGRU-CNN總體框架

        圖1 ABiGRU-CNN總體框架

        2.2 Multi-CNN模型

        單尺度卷積神經(jīng)網(wǎng)絡(luò)(Single Convolutional Neural Network, Single-CNN)通過大小被固定的卷積核獲取句子的單詞特征。由于卷積核的大小不變,該模型只能獲取句子的一部分(單側(cè))特征信息,這對于醫(yī)療問答中所要求的精準(zhǔn)匹配顯然是不合適的。針對這一問題,多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-CNN)[16]使用一系列大小不同的卷積核對輸入語句進(jìn)行卷積,以彌補(bǔ)了單尺度卷積神經(jīng)網(wǎng)絡(luò)的不足。圖2為Multi-CNN的網(wǎng)絡(luò)架構(gòu)獲取上下文信息過程。輸入到Multi-CNN模型中的語句被不同尺度卷積核進(jìn)行卷積,再被最大池化以獲取最重要的特征信息。

        圖2 Mutli-CNN網(wǎng)絡(luò)框架

        (1)

        在句子匹配中,經(jīng)卷積所提取的特征還需要通過池化層處理,以獲得句子中最重要的特征信息。常用的池化處理方法有最大池化(max-pooling)和平均池化(mean-pooling),本文對Oq選擇最大池化獲取最大特征值獲取問句的嵌入表示。其公式為:

        (2)

        (3)

        Multi-CNN通過不同尺度的卷積能夠有效獲取句子的局部位置不變特征,但是CNN不能通過卷積獲取句子的長距離依賴關(guān)系,因此Multi-CNN的能力和性能是有限的。

        2.3 BiGRU模型

        由2.2節(jié)可知Multi-CNN對獲取句子中的局部位置不變特征信息有顯著的效果,卻不能獲取序列中長距離依賴關(guān)系。在RNN中,當(dāng)前隱藏層的輸出不僅取決于當(dāng)前輸入值還與上一個(gè)隱藏層輸出值有關(guān),這使得RNN具有長期記憶功能,可以有效地獲取句子序列中的語序信息和長距離依賴關(guān)系。而RNN長期依賴學(xué)習(xí)容易出現(xiàn)梯度消失和爆炸問題,因此GRU和LSTM等變體被提出。GRU和LSTM性能相當(dāng),但GRU更容易訓(xùn)練,圖3為雙向循環(huán)門控神經(jīng)網(wǎng)絡(luò)(BiGRU)的結(jié)構(gòu)。

        圖3 BiGRU網(wǎng)絡(luò)框架

        (4)

        (5)

        (6)

        (7)

        2.4 BiGRU-CNN模型

        如2.2節(jié)和2.3節(jié)所述,BiGRU可以通過更新門和重置門獲取句子全局依賴關(guān)系信息,而Multi-CNN則可以通過多尺度卷積神經(jīng)網(wǎng)絡(luò)獲取句子局部特征信息。為了同時(shí)獲得長距離相關(guān)性和位置不變特征信息,提出了一個(gè)基于BiGRU和Multi-CNN疊加的神經(jīng)網(wǎng)絡(luò)模型(BiGRU-CNN),其結(jié)構(gòu)如圖4所示。在模型中BiGRU的前向和后向輸出連接成Multi-CNN的輸入,而Multi-CNN則利用多個(gè)不同大小的卷積核獲取句子特征信息。

        圖4 Multi-CNN網(wǎng)絡(luò)框架

        BiGRU-CNN模型結(jié)合BiGRU和Multi-CNN的優(yōu)點(diǎn),能夠獲取到更豐富的問答對關(guān)系和特征。但堆疊神經(jīng)網(wǎng)絡(luò)獲取的問答對特征在結(jié)果匹配中會(huì)失去重點(diǎn)性,使得問答對的匹配結(jié)果并不理想。

        2.5 ABiGRU-CNN模型

        MA=(Hq)Τ·Ha

        (8)

        式中:MA∈Rn×m為所求的語義矩陣。

        計(jì)算問句的權(quán)重公式:

        Up=tanh(Wp·MΤ)

        (9)

        αp=softmax((wp)Τ·Up)

        (10)

        式中:Wp和wp表示參數(shù);Up為隨機(jī)初始化的權(quán)重矩陣;αp為歸一化注意力權(quán)重矩陣。

        Xp=Hqαp

        (11)

        式中:Xr為加入權(quán)重后的問句表示。

        相同的步驟,獲得答案的權(quán)重公式:

        Us=tanh(Ws·M)

        (12)

        αs=softmax((ws)Τ·Us)

        (13)

        式中:Ws和ws表示參數(shù);Us為隨機(jī)初始化的權(quán)重矩陣;αs為歸一化注意力權(quán)重矩陣。

        Xs=Haαs

        (14)

        式中:Xc為加入權(quán)重后的句子表示。

        之后,將加權(quán)后的問答句表示輸入CNN進(jìn)行多尺度卷積和最大池化處理,如圖2所示。最后將問答句進(jìn)行相似度計(jì)算,得到最終匹配結(jié)果。

        2.6 目標(biāo)函數(shù)

        l=max{0,Mr-sim(rqiw,rai w+)+sim(rqiw,raiw-)}

        (15)

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)處理

        表1 cMedQA數(shù)據(jù)集

        3.2 評價(jià)指標(biāo)

        模型性能將采用top-k(ACC@k)作為衡量的指標(biāo)。其定義如下:

        (16)

        3.3 基線模型

        (1) Random Selection:問題的正確答案將從候選答案集中隨機(jī)選擇生成[15]。

        (2) Matching:通過計(jì)算問答句之間相似字符的個(gè)數(shù),查找正確答案。

        (3) BM 25:一種排序功能,應(yīng)用于問答匹配[17]。

        (4) Single-CNN:只使用一個(gè)固定卷積核來處理問答語句。

        (5) Multi-CNN:在捕獲問答對之間的局部不變低級別特征方面是具有很好的效果。

        (6) Stack-CNN:與Multi-CNN不同,該模型可以獲得句子高級別的語義信息。

        (7) Multi-stack-CNN:Multi-CNN模型與stack-CNN模型結(jié)合生成,可以獲取句子不同級別的信息。

        (8) BiGRU:RNN的進(jìn)化,可以獲取句子的全局依賴關(guān)系信息。

        (9) BiGRU-CNN:結(jié)合BiGRU和CNN優(yōu)點(diǎn),可以獲取序列中長距離依賴關(guān)系以及局部位置不變特征信息。

        3.4 實(shí)驗(yàn)參數(shù)

        將使用文獻(xiàn)[18]的方法把句子中的字符轉(zhuǎn)換為向量表示實(shí)現(xiàn)漢字的嵌入,向量的維數(shù)為300。問答嵌入層之間共享相同的權(quán)重矩陣。Multi-CNN架構(gòu)使用四種不同大小的卷積核,分別為1、2、3、5。stack-CNN架構(gòu)使用兩種不同大小卷積核,分別為3、4。兩個(gè)模型特征映射數(shù)量均為500個(gè)。BiGRU架構(gòu)在隱藏狀態(tài)下使用200個(gè)特征。BiGRU-CNN架構(gòu)和ABiGRU-CNN架構(gòu)使用大小分別為1、2、3和5的卷積核,使用200個(gè)BiGRU隱藏狀態(tài)的特征。

        3.5 結(jié)果分析

        (1) 各模型的ACC@1對比。如表2所示,可以看出混合模型ABiGRU-CNN在測試數(shù)據(jù)集上精度最高,性能明顯優(yōu)于其他模型表明ABiGRU-CNN在問答匹配中對句子關(guān)鍵信息的提取和匹配是合理有效的。

        表2 模型ACC@1結(jié)果(%)

        J行明顯優(yōu)于A、B和C行的模型,說明在問答對匹配上,神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)方法更適合于問答對之間的關(guān)系建模。

        D到G行都是CNN模型的變體,表中可以看出模型Multi-CNN、stack-CNN 和Multi-stack-CNN的結(jié)果優(yōu)于Single-CNN。這是因?yàn)镸ulti-CNN和stack-CNN都使用了不同尺度大小的卷積核對句子進(jìn)行卷積,能夠提取更多的句子信息。G行Multi-CNN的性能最高,它同時(shí)繼承了Multi-CNN和stack-CNN的優(yōu)勢,提高了模型性能。G行和H行比較,BiGRU比Multi-stack-CNN結(jié)果有提高,說明在問答對匹配中BiGRU獲取的特征信息和遠(yuǎn)距離依賴性在構(gòu)建問答對表示中的重要性。

        比較G行和J行、H行和J行,J行效果明顯最優(yōu),可知BiGRU-CNN結(jié)合了BiGRU和CNN兩種模式的優(yōu)點(diǎn),使其具有更強(qiáng)的功能。

        比較I行和J行,可以看出ABiGRU-CNN的性能優(yōu)于BiGRU-CNN。這說明ABiGRU-CNN不僅具有BiGRU和CNN兩種模型的優(yōu)點(diǎn),且與注意力機(jī)制相結(jié)合為問答對重要特征賦予更高權(quán)值,使重要特征不被忽視,提高模型的性能。如表3所示,為問句的特征提取。在沒有注意力的BiGRU-CNN模型中,斗雞眼和雙眼向內(nèi)斜視都會(huì)被被提取出來,而且由于斗雞眼出現(xiàn)了兩次,再加上近視和散光,這些干擾項(xiàng)對答案匹配會(huì)起反作用。而加了注意力的ABiGRU-CNN模型,可以把斗雞眼統(tǒng)一成雙眼向內(nèi)斜視,排除了斗雞眼這個(gè)干擾項(xiàng)。近視和散光會(huì)被注意力機(jī)制過濾掉,剩下的特征也會(huì)被注意力進(jìn)行篩選,從而提高比配效率。

        表3 典型問句特征提取

        (2) 各模型的ACC@3對比。如表4所示,可以看出ABiGRU-CNN模型具有較高的準(zhǔn)確率。在實(shí)際的醫(yī)療問答系統(tǒng)中,有些用戶往往不滿足一個(gè)檢索結(jié)果,他們希望了解更多的治療手段,此時(shí)可以設(shè)置三個(gè)候選答案來滿足用戶的需求。

        表4 模型的ACC@3結(jié)果(%)

        4 結(jié) 語

        與現(xiàn)有只利用一種模型獲取句子的單側(cè)特征和關(guān)系的醫(yī)療問答不同,BiGRU-CNN混合模型可以獲取句子的局部位置不變特征以及全局順序信息。但是隨著網(wǎng)絡(luò)模型的堆疊過深,模型無法獲取對問答對匹配產(chǎn)生重要影響的特征。ABiGRU-CNN模型將BiGRU-CNN與注意力機(jī)制結(jié)合,通過注意力為重要的特征賦予更高的權(quán)重,提高了問答對匹配效率。實(shí)驗(yàn)表明,模型在ACC@1和ACC@3中都有較好的表現(xiàn)。但如果問句使用漢語,答案使用英語,模型不一定取到好的效果。為此,本文未來的工作是將外部人類知識融入ABiGRU-CNN模型中,增加模型的泛化能力,使其在跨語言數(shù)據(jù)集上也取得良好效果。

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产精品福利视频一区| 久久老熟女一区二区三区福利| av高清在线不卡直播| 屁屁影院ccyy备用地址| 亚洲国产精品尤物yw在线观看| 欧美综合区自拍亚洲综合| 东京热日本道免费高清| 亚洲av无码精品无码麻豆| 精品国产乱码久久久久久影片| 国产精品亚洲А∨天堂免下载| 亚洲综合一区二区三区蜜臀av| 一区二区三区蜜桃av| 无码中文亚洲av影音先锋| 亚洲精品无码国模| 蜜芽尤物原创AV在线播放| 人妻少妇被粗大爽视频| 艳妇臀荡乳欲伦69调教视频| 亚洲中文字幕无码久久2020| 玩弄人妻奶水无码AV在线| 国产一级黄色片在线播放| 国产精久久一区二区三区| 精品久久久久久久无码| 99热高清亚洲无码| 久久免费亚洲免费视频| 国产肉体xxxx裸体137大胆| 精品人妻少妇一区二区不卡| 久草精品手机视频在线观看| 东北熟妇露脸25分钟| 免费无码中文字幕a级毛片| 久草视频这里有精品| 国产成人精品一区二区日出白浆| 91久久精品国产综合另类专区| 国产97在线 | 中文| 日日爽日日操| 韩国三级黄色一区二区| 亚洲欧美色一区二区三区| 九九精品视频在线观看| 亚洲视频精品一区二区三区| 久久久精品人妻一区二区三区四区| 国产精品久久久久久影视| 天堂在线观看av一区二区三区|