亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向消化內(nèi)科輔助診療的生成式對(duì)話系統(tǒng)①

        2019-10-18 06:40:48程夢(mèng)卓董蘭芳
        關(guān)鍵詞:詞庫鍵值消化科

        程夢(mèng)卓,董蘭芳

        (中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230022)

        社會(huì)的高速發(fā)展,帶來群眾各方面壓力的日益增加,工作強(qiáng)度越來越大,飲食不規(guī)律,不健康,欠缺睡眠,加上現(xiàn)在食品的安全性依然存在著很大的隱患,導(dǎo)致身患消化內(nèi)科疾病的人群日益增多.有調(diào)查顯示接近80%的人在有醫(yī)藥和疾病的疑問時(shí),首先會(huì)選擇上網(wǎng)尋找?guī)椭?但是傳統(tǒng)的搜索引擎在提供相關(guān)信息時(shí),大多采用關(guān)鍵詞匹配技術(shù),在過去網(wǎng)絡(luò)中已錄入的信息進(jìn)行匹配,具備諸多限制,類似于“過去幾周”的關(guān)鍵詞會(huì)被忽略,并且由于用戶的語言表達(dá)差異和網(wǎng)絡(luò)信息的混亂,網(wǎng)絡(luò)存在的知識(shí)庫并不能涵蓋用戶重要的意圖,無法滿足實(shí)際的應(yīng)用需求.

        消化內(nèi)科對(duì)話系統(tǒng)的研究需要大量數(shù)據(jù),而現(xiàn)有的醫(yī)學(xué)公開數(shù)據(jù)集多為影像數(shù)據(jù)集,沒有問診類的公開數(shù)據(jù)集.其次,同醫(yī)學(xué)自然語言理解處理研究的大部分挖掘研究類似,第一步都需要對(duì)數(shù)據(jù)進(jìn)行分詞,但是因?yàn)橄瘍?nèi)科疾病的種類繁多,還有很多新的疾病不斷被發(fā)現(xiàn),所涉及疾病名、癥狀表現(xiàn)名和藥名很多,中科院的漢語分詞系統(tǒng)NLPIR、中文結(jié)巴分詞等常用的分詞工具在處理該領(lǐng)域分詞的結(jié)果并不能給生成式對(duì)話系統(tǒng)構(gòu)建提供保障.國(guó)內(nèi)中文醫(yī)學(xué)術(shù)語的標(biāo)準(zhǔn)化的研究也比較少,而國(guó)外如比較具備代表性如UMLS[1]等也缺乏對(duì)中文的支持.

        本文在谷歌傳統(tǒng) seq2seq 框架的基礎(chǔ)上,運(yùn)用 butterfly爬蟲技術(shù)和主動(dòng)學(xué)習(xí)結(jié)合獲取相關(guān)網(wǎng)站消化內(nèi)科約48萬條問診語料,解決醫(yī)療問診語料缺少問題.在醫(yī)學(xué)院消化科同學(xué)的幫助下,結(jié)合醫(yī)藥庫的消化科常用藥名和常見病癥,通過統(tǒng)計(jì)分析構(gòu)建約20萬消化科領(lǐng)域詞匯表,運(yùn)用基于詞庫與最大規(guī)則相結(jié)合的分詞算法,對(duì)問診語料對(duì)進(jìn)行分詞處理.結(jié)合Word2Vec構(gòu)建自主的詞向量,并提出模型增強(qiáng)訓(xùn)練法獲得消化科生成式問診對(duì)話模型.

        1 處理流程

        消化內(nèi)科生成式問診系統(tǒng)的實(shí)現(xiàn)過程主要涉及3個(gè)模塊,語料獲取與處理、詞向量構(gòu)建、對(duì)話模型,整體的框架如圖1所示.

        圖1 系統(tǒng)模塊圖

        1.1 語料獲取與預(yù)處理

        1.1.1 構(gòu)建詞庫

        因?yàn)橄莆谋镜奶厥庑?包括方位詞、副詞以及大量的專業(yè)詞匯和否定詞匯,直接利用結(jié)巴分詞類通用分詞工具進(jìn)行分詞,結(jié)果顯示,這些詞當(dāng)中大部分無法被識(shí)別,分詞效果極差.但對(duì)話模型的訓(xùn)練過程涉及詞之間相關(guān)性的建立過程,且鍵值對(duì)向量的處理對(duì)分詞的準(zhǔn)確率有一定的要求,為了提高分詞的結(jié)果準(zhǔn)確率,本文構(gòu)建自定義消化內(nèi)科分詞詞庫,其主要由兩大部分組成:消化專業(yè)詞庫和停用詞詞庫.

        消化內(nèi)科專業(yè)詞庫主要來源于以下幾部分:從現(xiàn)存醫(yī)學(xué)網(wǎng)站爬取獲得的消化科常見疾病和癥狀表現(xiàn)名稱,包括有問必答網(wǎng)、尋醫(yī)問藥網(wǎng);百度文庫提供的消化科藥品字典;以及醫(yī)學(xué)院同學(xué)對(duì)字典的補(bǔ)充.詞庫內(nèi)部結(jié)構(gòu)如“胰腺炎 nz 260”,其中“胰腺炎”為消化科專業(yè)詞匯,nz代表其他專有名詞,260代表詞頻.

        停用詞庫包含在問診語料之中具有高頻率但實(shí)際意義不大的詞,如:“的”、“請(qǐng)”,包含介詞、副詞、語氣詞等.

        1.1.2 數(shù)據(jù)預(yù)處理

        在問答對(duì)進(jìn)行分詞操作之前,都會(huì)先進(jìn)行文本的預(yù)處理.第一,根據(jù)自定義的停用詞庫,去除文本中“的”、“①”等停用詞;第二,由于網(wǎng)絡(luò)獲取的問答對(duì)經(jīng)常會(huì)出現(xiàn)多個(gè)標(biāo)點(diǎn)的情況,如“?????”,去掉重復(fù);第三,很多藥名有簡(jiǎn)稱或者別名,本文為了降低復(fù)雜性,將有別名的藥統(tǒng)一為同一藥名,如“奧美拉唑腸溶片”統(tǒng)一為“蘭尼”.

        1.1.3 分詞

        現(xiàn)存的分詞大致有3大類:基于理解的分詞方法、基于規(guī)則的分詞方法和基于統(tǒng)計(jì)的分詞方法[2].由于本文詞典的構(gòu)建花費(fèi)時(shí)間比較多,相對(duì)比較完整,因此在基于最大逆向匹配算法的結(jié)巴分詞算法的基礎(chǔ)上,采用改進(jìn)規(guī)則和統(tǒng)計(jì)相結(jié)合的方式行進(jìn)行分詞的改進(jìn).

        文獻(xiàn)[3]提出歧義檢測(cè),在對(duì)句子進(jìn)行正向和逆向切分得到的兩個(gè)結(jié)果的比較過程中,發(fā)現(xiàn)兩種方式切分的結(jié)果有90%的概率重合且正確,有約9%的概率其中必有一個(gè)結(jié)果是正確的.因此,本文在此基礎(chǔ)上,在進(jìn)行問答對(duì)分詞的時(shí)候增加比較機(jī)制,同時(shí)對(duì)句子進(jìn)行正向和逆向最大匹配切分,然后將兩個(gè)結(jié)果進(jìn)行比較,若前后分詞所產(chǎn)生詞的個(gè)數(shù)有差異,則選擇其中單字少的分詞作為結(jié)果,若所得分詞數(shù)相同,則隨機(jī)選擇一個(gè)作為結(jié)果.

        1.1.4 分類

        消化內(nèi)科一般分為“胃腸病”、“肝病”、“胰膽疾病”、“內(nèi)鏡”和其他疾病五大類,對(duì)話模型的訓(xùn)練過程中,為了避免過擬合,需要五大類的語料數(shù)據(jù)均衡.由于每條問答對(duì)可以具備多種疾病的癥狀表現(xiàn),且不受其他類影響,并且一個(gè)類的疾病具備常見的術(shù)語,如“胃腸病”常出現(xiàn)“胃炎”類關(guān)鍵詞,因此本文將多標(biāo)簽分類問題轉(zhuǎn)化成單標(biāo)簽分類問題進(jìn)行求解.

        分類模型的訓(xùn)練的過程結(jié)合主動(dòng)學(xué)習(xí)[4],先準(zhǔn)備兩萬條問答對(duì),人工先對(duì)其中6000條數(shù)據(jù)進(jìn)行分類處理,完成類別標(biāo)注,然后將這些數(shù)據(jù)用Word2Vec向量表示,作為支持向量機(jī)的輸入獲得簡(jiǎn)單的分類模型,然后每次由分類模型處理2000條新數(shù)據(jù),根據(jù)結(jié)果評(píng)測(cè)分類器的好壞,并且每次將標(biāo)記好的數(shù)據(jù)加入訓(xùn)練集,重新獲得新的分類器,直至分類模型達(dá)到給定的閾值,過程如圖2所示.

        圖2 獲取語料流程

        得到滿足的要求模型后,通過該模型本文從有問必答網(wǎng)、尋醫(yī)問藥網(wǎng)共獲取約48萬條消化科問答對(duì).

        1.2 詞向量構(gòu)建

        詞向量又稱Word嵌入式自然語言理解中的一組語言建模和特征學(xué)習(xí)技術(shù)的統(tǒng)稱,是讓計(jì)算機(jī)理解自然語言手段之一,很多研究都表明當(dāng)將其用作底層輸入表示時(shí),可以很大程度的提高NLP任務(wù)的性能,如語法分析和情感分析.

        為了在有限的數(shù)據(jù)集下能獲得較好的詞與詞之間的相關(guān)性,本文使用兩種詞向量:鍵值對(duì)向量和Word2Vec向量.

        1.2.1 鍵值對(duì)向量

        分詞之后獲得初始語料,對(duì)分詞之后的語料中詞語的出現(xiàn)頻次進(jìn)行統(tǒng)計(jì),從高到底進(jìn)行排序,形成形同“123-膽囊炎”的鍵值對(duì),通過實(shí)驗(yàn)比較排序字典大小的影響,得到相對(duì)于合理的是統(tǒng)計(jì)前20 000個(gè)高頻詞,也就是在問答對(duì)里各抽出前20 000個(gè)高頻詞,形成鍵值對(duì)序號(hào),高頻詞的選擇之后會(huì)經(jīng)過比對(duì),如果自定義詞典有詞未出現(xiàn)在這20 000個(gè)詞內(nèi),問答對(duì)同時(shí)增加未出現(xiàn)的詞,因此序號(hào)的取值范圍會(huì)多個(gè)“+”.

        1.2.2 Word2Vec向量

        Word2Vec[5,6]包括兩種模型:CBOW和Skip-Gram.CBOW模型的訓(xùn)練輸入是某一個(gè)特征詞的上下文相關(guān)的詞對(duì)應(yīng)的詞向量,輸出的是這特定的一個(gè)詞的向量.Skip-Gram與CBOW剛好相反,是在已知當(dāng)前詞的情況下預(yù)測(cè)上下文.兩者均可以和哈夫曼樹結(jié)合訓(xùn)練得到最終的詞向量,但考慮到時(shí)間序列GRU[7],是根據(jù)句子前面的詞預(yù)測(cè)后面的詞,課題選擇基于Hierarchical Softmax 哈夫曼樹的 Skip-Gram 模型獲取本文的 Word2Vec向量.

        1.3 對(duì)話模型

        生成話對(duì)話這個(gè)場(chǎng)景,與機(jī)器翻譯有很多相似之處,都可以可以簡(jiǎn)單理解為建立原句和翻譯結(jié)果兩者相同位置的詞的相關(guān)性,都是根據(jù)當(dāng)前詞推算下一個(gè)詞,現(xiàn)在的研究部分是在不改變主模型的基礎(chǔ)上,在傳統(tǒng)的Sutskever等[8]提出seq2seq框架上改變編解碼結(jié)構(gòu)、神經(jīng)元等,如加入注意力機(jī)制[9],有的已達(dá)到比較好的效果.由于對(duì)話場(chǎng)景的特殊性,一個(gè)極有潛力的改變辦法是長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM[10](包含其各種變體)結(jié)合seq2seq框架,加入注意力機(jī)制,理由在于LSTM能夠避免長(zhǎng)期的依賴問題,適合于解決包含時(shí)序先后順序的序列生成的問題,如阿里小蜜[11]和百度自我診斷[12].當(dāng)本文直接使用基本模型seq2seq模型時(shí),所得結(jié)果很不好,生成詞的困惑度高,整個(gè)句子的結(jié)構(gòu)不全,可讀性很差.為了得到更好的結(jié)果,本文對(duì)模型進(jìn)行篩選,在公開數(shù)據(jù)集WSJ第23部分同等前提下,加州伯克利分校NLP實(shí)驗(yàn)室開發(fā)的BerkeleyParser開源句法分析器在測(cè)試集上F1的分?jǐn)?shù)達(dá)到了90.5,Google提出的句法成分分析所采取的結(jié)構(gòu)[13]F1分?jǐn)?shù)達(dá)到了95.7.而GRU與LSTM相比,只有兩個(gè)門(更新門和重置門),參數(shù)少更容易收斂,本文的實(shí)驗(yàn)對(duì)比也表明GRU比LSTM更適用于對(duì)話處理場(chǎng)景.因此本文最終選擇multi_encoder+attention_decoder+GRU+beamsearch模型結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.

        圖3 對(duì)話模型網(wǎng)絡(luò)結(jié)構(gòu)圖

        給定輸入為 (x1,···,xT),文獻(xiàn)[14]表明采取倒序輸入能夠增加輸入詞之間的相關(guān)性,因此本文也采取倒序原句作為輸入.

        用xt,ht,h?t分別代表t時(shí)刻的輸入、輸出狀態(tài)、隱藏狀態(tài),GRU結(jié)構(gòu)如圖4所示.

        圖4 GRU結(jié)構(gòu)圖

        第一層得到中間狀態(tài) (h1,h2,···,ht)和的計(jì)算如下:

        其中,[]表示兩個(gè)向量相連接,*表示矩陣的相乘,·表示矩陣的點(diǎn)乘,Wz,Wr,Wh?是模型需要學(xué)習(xí)的模型參數(shù).rt重置門決定是否將之前的狀態(tài)忘記,當(dāng)其值趨近0的時(shí)候,前一個(gè)時(shí)候的狀態(tài)信息ht?1會(huì)被忘掉,隱藏狀態(tài)h?t會(huì)被重置成當(dāng)前輸入信息,更新門zt決定是否將隱藏狀態(tài)更新為新的狀態(tài)ht.

        在一個(gè)深層的GRU,每層將上一層的得到的ht作為該層的輸入序列X,定義輸出的分布為:

        輸入序列X=A1,···,ATA,B1,···,BTB,A1,···,ATA代表上一層的輸出ht,(B1,···,Bt?1)代表t-1時(shí)刻前面t-1神經(jīng)元的輸出,Wo為權(quán)重參數(shù),δBt為克羅內(nèi)克函數(shù).

        直接使用該方法去處理醫(yī)療問答會(huì)出現(xiàn)一些問題,其一在于問句對(duì)疾病的描述語句可能會(huì)很長(zhǎng),解碼階段GRU無法很好的針對(duì)序列前面部分進(jìn)行解碼,其二在于沒有關(guān)鍵點(diǎn),解碼階段應(yīng)該更關(guān)注于疾病癥狀詞,而直接單純的使用同一個(gè)中間向量進(jìn)行解碼,顯然是不合理.因此,本文加入注意力機(jī)制,來源于文獻(xiàn)[10],也就是圖3中最上方的黑線曲線,使得每一步解碼都有不同的中間向量c.中間狀態(tài)表示為 (h,···,h,()(1TA)Decoder中間狀態(tài)用d1,···,dTB:=hTA+1,···,hTA+TB定義,計(jì)算過程:

        其中,t指的是t時(shí)刻,i∈[1,TA],ν和矩陣W1′,W2′是模型需要學(xué)習(xí)的參數(shù),由于前面說過編解碼都使用相同規(guī)格GRU,因此W1′,W2′的維度一樣.uti的長(zhǎng)度與Encoder產(chǎn)生的TA具備相同長(zhǎng)度,其中中i的值代表關(guān)注Encoder中hi的程度,使用Softmax進(jìn)行規(guī)范化,最后通過將dt′,dt拼接得到新的中間狀態(tài),作為解碼的中間向量c.

        2 實(shí)驗(yàn)分析

        2.1 分詞實(shí)驗(yàn)結(jié)果

        從獲取的48萬對(duì)問答對(duì)中隨機(jī)抽取2000條問答對(duì),進(jìn)行人工分詞并統(tǒng)計(jì)作為標(biāo)準(zhǔn).結(jié)果評(píng)估采用第二屆國(guó)際漢語分詞評(píng)測(cè)發(fā)布的國(guó)際中文分詞標(biāo)準(zhǔn)進(jìn)行評(píng)測(cè),計(jì)算方法:

        其中,precision表示準(zhǔn)確率,recall表示召回率,F值為正確率和召回率的調(diào)和平均值,CN表示正確切分詞數(shù),CS表示切分的總詞數(shù),TS表示答案中的詞語總數(shù).

        對(duì)這2000條問答對(duì),使用3種方法進(jìn)行分詞:直接使用結(jié)巴分詞、結(jié)巴結(jié)合清華醫(yī)學(xué)詞庫、結(jié)巴分詞+清華醫(yī)學(xué)庫+自定義詞典,以及結(jié)巴分詞+清華醫(yī)學(xué)庫+自定義詞典+歧義消除.分詞結(jié)果如表1所示,分詞樣例如表2所示.

        表1 分詞評(píng)估結(jié)果(%)

        表2 分詞樣例對(duì)比

        通過表1結(jié)果不難看出,當(dāng)直接使用結(jié)巴分詞進(jìn)行消化內(nèi)科語料的分詞操作時(shí),準(zhǔn)確率最低,為70.5%,可以從表2中發(fā)現(xiàn)此時(shí)分詞產(chǎn)生的結(jié)果中,“胃粘膜炎癥”、“胃炎膠囊”、“999胃泰顆粒”、“麗珠得樂”和“嗎丁啉”藥名和癥狀名出現(xiàn)錯(cuò)分,且“腸胃病惡化”通過查詢中間結(jié)果發(fā)現(xiàn),出現(xiàn)歧義,有多種切分結(jié)果:“腸胃/病/惡化”、“腸胃病/惡化”、“腸/胃/病/惡化”.增加清華醫(yī)學(xué)詞庫后,3個(gè)指標(biāo)都得到提升,準(zhǔn)確率達(dá)到73.8%,可以從樣例中發(fā)現(xiàn),“胃黏膜炎癥”得到正確且切分,同時(shí)也發(fā)現(xiàn),藥名仍然處于錯(cuò)分狀態(tài),且歧義沒有得到解決.進(jìn)一步增加自定義詞典,由于本文的自定義詞典花費(fèi)的時(shí)間和人力較大,包含絕大部分的消化內(nèi)科常見疾病名稱和藥名,因此通過表1可以發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果得到了很大提升,準(zhǔn)確率達(dá)到96.6%,召回率達(dá)到96.4%,F值達(dá)到95.3%,從樣例中可以發(fā)現(xiàn),“胃炎膠囊”、“999胃泰顆?!?、“麗珠得樂”和“嗎丁啉”都得到正確切分,但歧義仍然存在.

        最后一步,歧義的消除,可以發(fā)現(xiàn)準(zhǔn)確率有了進(jìn)一步的提升,針對(duì)表2例子中“腸胃病惡化”,根據(jù)本文采取得取最大操作,直接被切分成一個(gè)詞,符合人工切分要求.

        2.2 對(duì)話模型實(shí)驗(yàn)

        2.2.1 數(shù)據(jù)處理

        獲取的48萬條問答對(duì),長(zhǎng)短不一,短的問句只有十幾個(gè)詞,長(zhǎng)的超過60個(gè)詞,本文采取桶裝方式對(duì)數(shù)據(jù)進(jìn)行分組,共分 (10,15)、(20,30)、(30,45)、(40,60)、(40+,60+)5個(gè)桶,(20,30)代表問句詞數(shù)在10~20之間,答句詞數(shù)在15~30之間,如果問句和答句的詞數(shù)分布在兩個(gè)桶內(nèi),以答句詞數(shù)為準(zhǔn),如“12,40”放至(30,45)桶內(nèi),(40+,60+)代表多問答句詞數(shù)超過40和60的放至該桶.將五組分開進(jìn)行模型的訓(xùn)練.2.2.2 模型訓(xùn)練

        本文提出一種加強(qiáng)訓(xùn)練法,過程如下:

        1)使用鍵值對(duì)向量進(jìn)行預(yù)訓(xùn)練,得到初始模型Model_1;

        2)將鍵值對(duì)問句前后顛倒,加載Model_1進(jìn)行訓(xùn)練,得到Model_2;

        3)在Model_2的基礎(chǔ)上,使用Word2vec向量進(jìn)行訓(xùn)練,得到Model_3;

        4)將Word2vec向量表示的問句前后顛倒,加載Model_3,得到最終模型Model_4.2.2.3 評(píng)估方法

        本文在48萬問答對(duì)隨機(jī)選擇1萬條問答對(duì)作為測(cè)試集,通過兩個(gè)方面進(jìn)行對(duì)話模型質(zhì)量評(píng)估:困惑度和詞向量匹配評(píng)價(jià).

        (1)困惑度是衡量一個(gè)語言模型好壞的指標(biāo),用來估算一句話是否通順,主要根據(jù)每個(gè)詞來估計(jì)一句話出現(xiàn)的概率,計(jì)算方法:

        其中,S代表句子,N代表句子的長(zhǎng)度,P(ωi)代表第i個(gè)詞的概率,困惑度越小,期望句子出現(xiàn)的概率也就越大.

        (2)詞向量的評(píng)價(jià)方法是通過計(jì)算目標(biāo)句子與生成句子之間句向量之間的余弦距離的大小來估算兩者的相似度,本文采取BLEU值進(jìn)行評(píng)估,也就是比較兩者中的n-gram (實(shí)驗(yàn)取值為3,也就是每次三詞一組進(jìn)行比對(duì))詞組在整個(gè)訓(xùn)練語料中出現(xiàn)的總次數(shù),出現(xiàn)的次數(shù)越高,則模型的效果越好.計(jì)算方法:

        其中,Pn(r,r?)計(jì)算n-gram的短語詞組在整個(gè)數(shù)據(jù)集中的準(zhǔn)確度,h(k,r)表示每個(gè)n-gram詞組在參考答案語句中出現(xiàn)的次數(shù)(因?yàn)閷?duì)于每個(gè)n而言,都會(huì)存在多個(gè)n-gram詞組,因此有一個(gè)求和);ω表示各個(gè)ngram的權(quán)重;BP是長(zhǎng)度過短懲罰因子,取值范圍(0,1],候選句子越短,越接近0,加入該因子的目的在于改善生成答案過短的效果.2.2.4 測(cè)試階段

        在測(cè)試解碼階段,傳統(tǒng)的廣度優(yōu)先策略雖然能夠找到最優(yōu)的路徑,但是由于本文數(shù)據(jù)有限,困惑度會(huì)很大,因此搜索的空間會(huì)非常大,如果使用廣度優(yōu)先策略會(huì)導(dǎo)致內(nèi)存占用指數(shù)級(jí)增長(zhǎng),內(nèi)存會(huì)溢出,因此采用Beamsearch算法[15]進(jìn)行尋找最優(yōu)解,該算法是一種啟發(fā)式圖搜索算法,一般當(dāng)解空間特別大時(shí)會(huì)被使用到,該算法的優(yōu)點(diǎn)在于能夠減少空間和時(shí)間的使用,在每一步路徑的選擇中,不同于傳統(tǒng)的廣度優(yōu)先策略,會(huì)根據(jù)定義的策略對(duì)一些質(zhì)量差的點(diǎn)進(jìn)行去除操作,保留質(zhì)量高點(diǎn),最終找到最優(yōu)的路徑.算法的流程如下:

        1)初始化節(jié)點(diǎn),將節(jié)點(diǎn)插入到列表中;

        2)從列表中提取節(jié)點(diǎn)出堆,如果為目標(biāo)節(jié)點(diǎn),則結(jié)束,否則擴(kuò)展該節(jié)點(diǎn),并取集束的寬度的節(jié)點(diǎn)入堆,既取前k個(gè)概率最大的節(jié)點(diǎn)入堆,不斷循環(huán),直至找到最優(yōu)解或堆為空.每個(gè)t時(shí)刻有幾個(gè)大概率的詞候選,選擇可能性最大的前幾個(gè)候選,降低復(fù)雜度.

        2.2.5 對(duì)話模型實(shí)驗(yàn)結(jié)果

        表3表明,在Encoder和Decoder層數(shù)都為3層,單元數(shù)都為256的條件下,GRU比LSTM所產(chǎn)生的困惑度降低約18,得出GRU更適用于對(duì)話系統(tǒng)模型;表格也顯示在使用GRU作為神經(jīng)元的前提下,神經(jīng)元數(shù)目超過256個(gè),模型會(huì)出現(xiàn)不收斂和困惑度持續(xù)增加的情況;而在神經(jīng)元為256個(gè)相同數(shù)目下,3層因?yàn)橛?jì)算量少,比5層的效果好,困惑度降低21,因此最終本文選擇3層256個(gè)神經(jīng)元進(jìn)行最終的模型的實(shí)驗(yàn)對(duì)比,結(jié)果如表4所示.

        表3 模型層數(shù)選擇對(duì)比

        表4 對(duì)話模型對(duì)比

        表4表明層數(shù)都為3層,神經(jīng)元都為256個(gè),訓(xùn)練次數(shù)都為2000 000的情況下,本文所使用的模型結(jié)構(gòu)和訓(xùn)練方法獲得最好的結(jié)果,困惑度只有3.55,且bleu值能提高到0.2675.

        對(duì)于表5中的問句,模型最后獲得兩個(gè)句子:“你好,根據(jù)你的描述,你這種情況應(yīng)該是有便秘的情況.建議口服,可以口服潤(rùn)腸通便的藥物,如可以口服潤(rùn)腸通便的藥物.”和“你好,根據(jù)你的描述,我們的需求,最終模型取第一個(gè)作為最終結(jié)果.

        表5 對(duì)話模型問答樣例

        我們咨詢了消化內(nèi)科領(lǐng)域的專家,給出的回答考慮是胃腸脹氣的癥狀,建議您首先注意飲食,避免吃生冷辛辣刺激油膩的食物,可以適當(dāng)口服嗎丁啉,再熱敷一下腹部,癥狀應(yīng)該會(huì)有所改善”.概率分別為0.87和0.81,其實(shí)可以發(fā)現(xiàn)兩種答案都滿足為:“考慮胃腸功能紊亂的可能性較大,可以吃點(diǎn)促進(jìn)胃腸蠕動(dòng)藥物,比如多潘立酮片或者是枸櫞酸莫沙必利膠囊,適當(dāng)運(yùn)動(dòng),不要長(zhǎng)時(shí)間久坐”.在語義方面和模型生成的是接近的,都是腸胃蠕功功能出現(xiàn)異常的回答,證明本文得出的模型能夠有效的回答.

        3 結(jié)論與展望

        通過實(shí)驗(yàn)發(fā)現(xiàn)增加消化科比較充足的自定義詞典和增加前后選擇機(jī)制,分詞的準(zhǔn)確率能夠達(dá)到97.3%,支持向量機(jī)和主動(dòng)學(xué)習(xí)的結(jié)合能夠有效獲取均衡數(shù)據(jù).本文使用的模型結(jié)構(gòu),與傳統(tǒng)主流的模型相比,困惑度和BLEU值都要好,且在鍵值對(duì)向量和Word2Vec向量?jī)烧呓M合增加訓(xùn)練法,對(duì)話系統(tǒng)的性能得到了進(jìn)一步的提升.為了進(jìn)一步提高實(shí)用性,接下來的研究工作,會(huì)研究消化科語料中的語義信息和數(shù)據(jù)特征,然后研究增強(qiáng)詞之間的相關(guān)性,以及尋找更好的模型結(jié)構(gòu)和訓(xùn)練方法.

        猜你喜歡
        詞庫鍵值消化科
        優(yōu)質(zhì)護(hù)理與層級(jí)護(hù)理干預(yù)在消化科護(hù)理中的實(shí)踐效果
        非請(qǐng)勿進(jìn) 為注冊(cè)表的重要鍵值上把“鎖”
        一鍵直達(dá) Windows 10注冊(cè)表編輯高招
        電腦愛好者(2017年9期)2017-06-01 21:38:08
        消化科住院患者跌倒的原因分析與護(hù)理對(duì)策
        詞庫音系學(xué)的幾個(gè)理論問題芻議
        呼吸科與消化科對(duì)胃食管反流性咳嗽認(rèn)識(shí)的異同點(diǎn)
        環(huán)境變了,詞庫別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        老年Dieulafoy病所致上消化道大出血1例
        QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
        電腦迷(2012年15期)2012-04-29 17:09:47
        注冊(cè)表值被刪除導(dǎo)致文件夾選項(xiàng)成空白
        国产极品视觉盛宴在线观看| 把女邻居弄到潮喷的性经历| 9lporm自拍视频区| 久久久久欧洲AV成人无码国产| 国产毛片三区二区一区| 日本乱码一区二区三区在线观看| 性刺激的大陆三级视频| 久久婷婷香蕉热狠狠综合| 亚洲先锋影院一区二区| 免费黄网站一区二区三区| av网站免费线看精品| 蜜桃麻豆www久久囤产精品| 大陆国产乱人伦| 国产精品久久熟女吞精| 白嫩人妻少妇偷人精品| 中文日韩亚洲欧美制服| 亚洲欧洲精品国产二码| 日本熟妇视频在线中出| 国产精品一区二区三久久不卡| 真人作爱免费视频| 亚洲制服无码一区二区三区| 国产av自拍在线观看| 久久99亚洲精品久久久久 | 自拍情爱视频在线观看| 噜噜噜噜私人影院| 青青草原综合久久大伊人| 一本大道久久东京热无码av| 99麻豆久久精品一区二区| 久久偷看各类wc女厕嘘嘘偷窃| 国产极品久久久久极品| 国产成人精品人人做人人爽| 日本一二三四区在线观看| 欧美乱人伦人妻中文字幕| 久久天天躁狠狠躁夜夜2020!| 青青青视频手机在线观看| av无码精品一区二区三区| 日日躁夜夜躁狠狠久久av| 麻豆久久久国内精品| 91精品国产综合久久久蜜| 久久99精品久久久久久秒播| 2021精品国产综合久久|