亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句法抽取與圖結(jié)構(gòu)編碼的患者問(wèn)詢意圖識(shí)別*

        2021-12-01 14:17:34龔慶悅戴彩艷
        關(guān)鍵詞:意圖短文短語(yǔ)

        陳 燕 龔慶悅 戴彩艷

        (南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院 南京 210023)

        1 引言

        近年來(lái),隨著社交媒體的出現(xiàn),挖掘文本主題的系列模型被持續(xù)更新。其中,在醫(yī)療領(lǐng)域,在線問(wèn)診系統(tǒng)、醫(yī)療問(wèn)答系統(tǒng)、診療關(guān)聯(lián)分析、臨床評(píng)價(jià)語(yǔ)義挖掘等醫(yī)療文本研究取得突破性進(jìn)展,中西醫(yī)問(wèn)詢意圖識(shí)別便是其中一項(xiàng)關(guān)鍵任務(wù)?,F(xiàn)有的中西醫(yī)文本數(shù)據(jù)挖掘模型(例如:LSTM[1~2]、CRF[1~3]、BERT[3~5]、FCA[6]等)的研究對(duì)象多數(shù)為長(zhǎng)文本類型,而近10年中面向短文本的模型數(shù)量驟增,采用

        基于神經(jīng)網(wǎng)絡(luò)分類模型[5,7~8]、傳統(tǒng)分類器[9~11]等主流方法,詳見(jiàn)表1。醫(yī)療問(wèn)詢短文本研究工作難度較大,原因在于患者在線問(wèn)詢過(guò)程中的單個(gè)問(wèn)句一般不超過(guò)50字,沒(méi)有豐富的上下文語(yǔ)義信息,意圖識(shí)別中存在文本特征稀疏與主題匹配不精確兩大難點(diǎn)。

        表1 中西醫(yī)文本的分析模型

        1967年Clifton K.Meador撰寫(xiě) 的《Short Text?book of Medicine》[12]中,以“醫(yī)學(xué)教科書(shū)”為例,針對(duì)與長(zhǎng)文本相比短文本刪除了什么內(nèi)容?剩余短文本內(nèi)容如何處理?這兩個(gè)問(wèn)題做了詳細(xì)解釋說(shuō)明。由此可以歸納當(dāng)前短文本意圖分類中所采用的研究技術(shù)可大致分為兩大類:1)補(bǔ)充關(guān)聯(lián)信息,即通過(guò)整合特征向量(例如:相關(guān)外部信息、短文本級(jí)聯(lián)等),遷移使用長(zhǎng)文本模型,例如LDA、BERT+word2vec抽取臨床概念[13]等。2)提煉內(nèi)部特征,即歸納短文本共現(xiàn)詞語(yǔ)或交互關(guān)聯(lián)等自身特點(diǎn),例如BTM等。圖神經(jīng)網(wǎng)絡(luò)短文本抽取模型既可以融合文本內(nèi)部核心詞的屬性信息,同時(shí)整合短文本間的關(guān)聯(lián)特點(diǎn),正如王永劍等[14]在2020年提出采用GNN提取文本特征,黃金杰等[15]在2021年利用DNN與關(guān)聯(lián)圖增強(qiáng)實(shí)體表達(dá),胡國(guó)勇[16]在2020年提出M-GCN注意力模型訓(xùn)練具有強(qiáng)泛化能力的特征生成模型等。圖神經(jīng)網(wǎng)絡(luò)在編碼短文本的技術(shù)發(fā)展中,也被用來(lái)與傳統(tǒng)分類模型做對(duì)照實(shí)驗(yàn)或組合模型[17~18]。

        本文以中西醫(yī)在線問(wèn)詢數(shù)據(jù)為研究對(duì)象,抽取問(wèn)詢文本中患者所表達(dá)的真實(shí)意圖,構(gòu)建SGM(Syntactic+GAE+ML),編碼部分一方面通過(guò)半監(jiān)督學(xué)習(xí)構(gòu)建短文本向量的關(guān)聯(lián)句法依存樹(shù),獲得來(lái)自同診室患者問(wèn)詢語(yǔ)句的表達(dá)序列,克服意圖匹配不準(zhǔn)確的難點(diǎn);另一方面采用雙層圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合機(jī)器學(xué)習(xí)分類器,克服短文本信息稀疏的難點(diǎn),完成問(wèn)詢短文本意圖分類工作。

        2 相關(guān)工作

        2.1 短文本的分類模型

        短文本的特征表達(dá)技術(shù)中,常用的詞頻分析方法是BTM[19](Biterm Topic Model)模型,在捕捉短文本(例如標(biāo)題[20]、問(wèn)句[5]等)的主題信息環(huán)節(jié)中,增加了模擬單詞共現(xiàn)和聚合語(yǔ)料庫(kù)的環(huán)節(jié);新興的復(fù)雜網(wǎng)絡(luò)模型,則是將短語(yǔ)、句子、段落作為神經(jīng)網(wǎng)絡(luò)的輸入,從而訓(xùn)練得到文本的特征向量,例如BERT[21]、BiLSTM[22]、TextCNN[23]等模型。雖然較傳統(tǒng)機(jī)器學(xué)習(xí)分類器學(xué)習(xí)專業(yè)文本更優(yōu),但遷移性較差,數(shù)據(jù)預(yù)處理繁瑣。

        短文本雖然內(nèi)容稀疏,但仍具有中文句法結(jié)構(gòu)信息,例如主語(yǔ)、謂語(yǔ)、賓語(yǔ)等句子主干成分。對(duì)此,在文本編碼前利用句法結(jié)構(gòu)標(biāo)注技術(shù)分割句子短語(yǔ),同時(shí)梳理句法成分。由此,也可以解決中文文本處理存在的一詞多義問(wèn)題,即同樣的詞語(yǔ)在不同的意圖文本中所屬的成分卻不盡相同、所關(guān)聯(lián)的短語(yǔ)句法關(guān)系也有差異。

        2.2 圖神經(jīng)網(wǎng)絡(luò)的文本分類模型

        文本分類本質(zhì)也是一種特征學(xué)習(xí)與標(biāo)簽分類的任務(wù),隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,越來(lái)越多的學(xué)者在短文本分類中引入圖神經(jīng)網(wǎng)絡(luò)技術(shù),除了學(xué)習(xí)文本詞/短語(yǔ)節(jié)點(diǎn)特征外,也融合了短文本間關(guān)聯(lián)的相似性信息,通過(guò)構(gòu)建提取文本特征信息的圖編碼網(wǎng)絡(luò)[24],對(duì)微博[25]、Citnet[26]、抽象意義表示圖[27~28]等數(shù)據(jù)開(kāi)展了文本特征提取等相關(guān)工作,且取得較優(yōu)的結(jié)果。

        在大多數(shù)的圖神經(jīng)網(wǎng)絡(luò)中做短文本意圖分類任務(wù)時(shí),先對(duì)圖結(jié)構(gòu)數(shù)據(jù)編碼處理,融合節(jié)點(diǎn)特征與節(jié)點(diǎn)間的關(guān)聯(lián)信息后,得到各節(jié)點(diǎn)的特征表示,最后特征預(yù)測(cè)環(huán)節(jié)可以選擇一般的特征分類器完成。對(duì)此,在解碼環(huán)節(jié)中選擇SVM等機(jī)器學(xué)習(xí)(ML)與圖卷積神經(jīng)網(wǎng)絡(luò)(GNN)對(duì)同一數(shù)據(jù)集進(jìn)行對(duì)照實(shí)驗(yàn),分析對(duì)于訓(xùn)練得到的短文本特征向量更適合采用ML與GNN二者哪種方法。

        3 SGM框架

        SGM將患者問(wèn)詢語(yǔ)句轉(zhuǎn)化為短語(yǔ)特征網(wǎng)絡(luò)做分類,需要訓(xùn)練兩個(gè)模型:短語(yǔ)抽取模型與意圖分類模型,詳見(jiàn)圖1。

        圖1 SGM技術(shù)框架圖

        3.1 短語(yǔ)抽取模型

        短語(yǔ)抽取模型分兩步進(jìn)行,詳見(jiàn)圖2。第一步,分析句子的句法結(jié)構(gòu),通過(guò)百度開(kāi)源的DDPars?er模型[29]訓(xùn)練獲得圖注意力模型,為每個(gè)短語(yǔ)打詞意標(biāo)簽,從而判斷問(wèn)詢語(yǔ)句中患者的需求(即疾病診斷、檢查、用藥、治療)。

        圖2 短語(yǔ)抽取模型流程圖

        第二步,結(jié)合中文句子結(jié)構(gòu)的特點(diǎn),篩選句子主干成分(即主、謂、賓),從而進(jìn)一步降低訓(xùn)練短文本數(shù)據(jù)的噪聲,以“想請(qǐng)教下醫(yī)生這個(gè)是確診了食道癌嗎”為例,展示了篩選患者問(wèn)詢語(yǔ)句后各短語(yǔ)所構(gòu)成的語(yǔ)法關(guān)系圖,詳見(jiàn)圖3。

        圖3 患者問(wèn)句核心短語(yǔ)的語(yǔ)法關(guān)系圖

        3.2 意圖分類模型

        傳統(tǒng)的短文本類別分類常采用BTM(Biterm Topic Model)方法,依次進(jìn)行共軛先驗(yàn)分布、共軛分布建模等工作。其中,第一步需要完成特征生成環(huán)節(jié),詳見(jiàn)圖4,其核心就是繪制類別分布的Dirichlet函數(shù)Dir(α),其中,α≥0,α數(shù)值越大,則Dir(α)函數(shù)越離散。

        圖4 BTM主題分類模型

        然而,在中西醫(yī)患者問(wèn)句分類任務(wù)中,來(lái)自同一個(gè)診室的患者常具有相類似的意圖需求,即問(wèn)詢句間的共同特征無(wú)法在特征學(xué)習(xí)中體現(xiàn)。與采用變分貝葉斯方法的BTM(詳見(jiàn)圖5(a))相比,基于圖結(jié)構(gòu)的編碼器G(E,V)(詳見(jiàn)圖5(b))可以表達(dá)來(lái)自同一科室的患者間構(gòu)建的關(guān)聯(lián)邊V與患者問(wèn)詢句的特征向量,將句法結(jié)構(gòu)篩選后的短語(yǔ)序列表示作為輸入節(jié)點(diǎn)E的屬性特征,輸出128維特征向量。

        圖5 文本特征編碼模型

        4 實(shí)驗(yàn)

        本節(jié)主要評(píng)估患者問(wèn)詢意圖識(shí)別結(jié)果,比較SGM與其他方法的實(shí)驗(yàn)結(jié)果,以F1值作為評(píng)價(jià)指標(biāo)。

        4.1 實(shí)驗(yàn)配置

        1)數(shù)據(jù)集

        實(shí)驗(yàn)數(shù)據(jù)選用患者在線問(wèn)詢數(shù)據(jù),從“好大夫在線”(https://www.haodf.com/)官方網(wǎng)站公開(kāi)信息檢索2016年部分?jǐn)?shù)據(jù),參考網(wǎng)絡(luò)社區(qū)的健康主題的八大特征分布[30],選取其中的診斷和檢查、治療兩大主題并細(xì)分為“診斷類(通過(guò)描述指標(biāo)、癥狀、病史等詢問(wèn)的病可能性)”、“檢查類(各種確診得病的檢查或得病后的例行檢查)”、“用藥類(用藥詢問(wèn))”、“治療類(醫(yī)治咨詢)”四種數(shù)據(jù)類型,共計(jì)16597條。

        每條短文本字?jǐn)?shù)均小于50,按照8∶2劃分訓(xùn)練集與測(cè)試集,詳見(jiàn)表2。實(shí)驗(yàn)中解答患者問(wèn)詢信息的醫(yī)生來(lái)自全國(guó),詳見(jiàn)圖6,涉及科室類型(外科、婦產(chǎn)科等)共計(jì)25種。

        表2 實(shí)驗(yàn)數(shù)據(jù)劃分對(duì)照表

        圖6 數(shù)據(jù)來(lái)源的地域分布圖

        2)基線方法

        實(shí)驗(yàn)通過(guò)Pytorch+DDParser框架完成短文本圖編碼模型搭建,針對(duì)同一訓(xùn)練語(yǔ)料開(kāi)展8種不同分類器模型的訓(xùn)練與測(cè)試,分別是DecisionTree、RandomForest、GBDT、AdaBoost、LR(LogisticRegres?sion)、Bayes、SVM、GCNs。

        4.2 實(shí)驗(yàn)結(jié)果

        通過(guò)ddparse處理后的問(wèn)句中,所存在的語(yǔ)法類型有以下14種,詳見(jiàn)表3。其中,能表達(dá)句子主題的內(nèi)容基本均位于動(dòng)賓、主謂、核心、連謂、雙賓語(yǔ)這五個(gè)結(jié)構(gòu)關(guān)系中,匹配中文句子核心結(jié)構(gòu)(主+謂+賓)。

        表3 句子語(yǔ)法類型表

        將篩選出核心短語(yǔ)序列的問(wèn)詢語(yǔ)句集進(jìn)行BTM主題概率分析與未篩選前進(jìn)行比較,結(jié)果詳見(jiàn)表4。

        從“貢獻(xiàn)率”可以發(fā)現(xiàn)篩選后數(shù)據(jù)的貢獻(xiàn)率分布更加均勻,最高值較未篩選低0.243%,最低值較未篩選高0.002%;從“主題詞集合”描述內(nèi)容可以看出,篩選后分類的類別2(檢查類)與類別3(用藥類)分類效果良好,而其他兩類分類(診斷類、治療類)與未篩選的四個(gè)集合的特征均各有重合部分,各類別間的區(qū)分度不顯著。由此也證明了篩選環(huán)節(jié)的必要性,以及BTM無(wú)法高效編碼中西醫(yī)問(wèn)句文本特征。

        與直接使用機(jī)器學(xué)習(xí)方法相比,將Syntactic+GAE編碼后的問(wèn)句向量輸入到機(jī)器學(xué)習(xí)中,分類結(jié)果的F1值均有不同程度得提升,最高可提升17.6%,詳見(jiàn)表5。

        表5 SGM分類效果表

        表4句子語(yǔ)法類型表

        最后,實(shí)驗(yàn)也對(duì)經(jīng)過(guò)Syntactic+GAE學(xué)習(xí)后的特征向量進(jìn)行雙層圖卷積神經(jīng)網(wǎng)絡(luò)(Bi-GCNs)分類,F(xiàn)1值41.8%,效果也不如SGM。

        5 結(jié)語(yǔ)

        本文提出的SGM,通過(guò)構(gòu)建兩層圖編碼器,學(xué)習(xí)短文本間關(guān)聯(lián)規(guī)律的同時(shí),完成句法層詞特征的融合,得到128維的句子特征向量,最后使用傳統(tǒng)分類器完成意圖分類任務(wù),該方法具有以下優(yōu)勢(shì):1)易遷移性,即分析句子語(yǔ)法結(jié)構(gòu),模型研究對(duì)象可切換為各領(lǐng)域中文數(shù)據(jù),均能充分提取句子特征表達(dá);2)可拓展性,即特征分類器可采用多種特征分類模型,模型具有較好的泛化能力。

        實(shí)驗(yàn)過(guò)程中生成的關(guān)聯(lián)矩陣數(shù)據(jù)量超過(guò)兩千萬(wàn),在存儲(chǔ)、讀取等環(huán)節(jié)中存在內(nèi)存溢出等問(wèn)題,對(duì)此本文提出調(diào)整相關(guān)代碼或采用python的多進(jìn)程技術(shù)來(lái)解決。雖然本文提出的SGM在實(shí)驗(yàn)分類中F1值最優(yōu),但沒(méi)有特別高的客觀因素是,當(dāng)前國(guó)內(nèi)沒(méi)有含標(biāo)簽的、標(biāo)準(zhǔn)公開(kāi)的、醫(yī)療問(wèn)詢意圖劃分?jǐn)?shù)據(jù)集,關(guān)鍵的主觀因素是影響患者問(wèn)詢意圖的多條因素沒(méi)有涉及,需要結(jié)合知識(shí)圖譜推理進(jìn)一步提升模型性能。

        本文為提高SGM實(shí)驗(yàn)結(jié)果的精確度,后續(xù)將采取以下改進(jìn)措施:1)深入清洗訓(xùn)練集中的臟數(shù)據(jù),加強(qiáng)對(duì)中西醫(yī)專業(yè)名稱的規(guī)范化處理;2)在短語(yǔ)抽取環(huán)節(jié)中加入知識(shí)圖譜關(guān)聯(lián)機(jī)制,增強(qiáng)模型文本的特征表達(dá)。

        猜你喜歡
        意圖短文短語(yǔ)
        原始意圖、對(duì)抗主義和非解釋主義
        法律方法(2022年2期)2022-10-20 06:42:20
        陸游詩(shī)寫(xiě)意圖(國(guó)畫(huà))
        制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
        法律方法(2021年3期)2021-03-16 05:56:58
        KEYS
        Keys
        燕山秋意圖
        短文改錯(cuò)
        短文改錯(cuò)
        日本不卡视频一区二区| 无码人妻一区二区三区在线视频| 亚洲综合色一区二区三区另类| 久久精品国产亚洲片| 久久久大少妇免费高潮特黄| 精品免费国产一区二区三区四区| 国产午夜视频高清在线观看| 肥老熟女性强欲五十路| 国产l精品国产亚洲区久久| 色丁香色婷婷| 男女性搞视频网站免费| 国产av在线观看一区二区三区 | 尤物yw午夜国产精品视频| 夜夜未满十八勿进的爽爽影院| 久久久久国产一级毛片高清版A| 久久精品国产白丝爆白浆| 亚洲在线视频免费视频| 97se亚洲精品一区| 在线观看国产内射视频| 99亚洲女人私处高清视频| 亚洲第一狼人天堂网亚洲av| 国产精品国产三级国产av′| 无码高潮久久一级一级喷水| 激情五月天色婷婷久久| 欧美精品videosex极品| 999国产一区在线观看| 亚洲国产精一区二区三区性色| av影片在线免费观看| 亚洲乱码中文字幕综合| 亚洲一区二区三区久久不卡| 国产色视频在线观看了| 国产特黄级aaaaa片免| 欧美z0zo人禽交欧美人禽交| 国产99久久精品一区| 一区二区三区人妻少妇| 亚洲国产美女精品久久久| 精品久久杨幂国产杨幂| 国产免费三级三级三级| 中文字幕人妻在线少妇| 蜜桃无码一区二区三区| 中文字幕永久免费观看|