遲海洋 嚴(yán)馨 周楓 徐廣義 張磊
摘 要:針對(duì)傳統(tǒng)用戶意圖識(shí)別主要使用基于模板匹配或人工特征集合方法導(dǎo)致成本高、擴(kuò)展性低的問題,提出了一種基于BERT詞向量和BiGRU-Attention的混合神經(jīng)網(wǎng)絡(luò)意圖識(shí)別模型。首先使用BERT預(yù)訓(xùn)練的詞向量作為輸入,通過BiGRU對(duì)問句進(jìn)行特征提取,再引入Attention機(jī)制提取對(duì)句子含義有重要影響力的詞的信息以及分配相應(yīng)的權(quán)重,獲得融合了詞級(jí)權(quán)重的句子向量,并輸入到softmax分類器,實(shí)現(xiàn)意圖分類。爬取語料實(shí)驗(yàn)結(jié)果表明,BERT-BiGRU-Attention方法性能均優(yōu)于傳統(tǒng)的模板匹配、SVM和目前效果較好的CNN-LSTM深度學(xué)習(xí)組合模型。提出的新方法能有效提升意圖識(shí)別模型的性能,提高在線健康信息服務(wù)質(zhì)量、為在線健康社區(qū)問答系統(tǒng)提供技術(shù)支撐。
關(guān)鍵詞:自然語言處理;意圖識(shí)別;在線健康社區(qū);BERT詞向量;BiGRU;Attention機(jī)制
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.7535/hbkd.2020yx03004
An online health community user intention identification
method based on BERT-BiGRU-Attention
CHI Haiyang1,2, YAN Xin1,2, ZHOU Feng1,2, XU Guangyi3, ZHANG Lei1,2
(1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500, China; 2.Yunnan Key Laboratory of Artificial Intelligence, Kunming University of Science and Technology, Kunming, Yunnan 650500, China; 3. Yunnan Nantian Electronic Information Industry Company Limited, Kunming, Yunnan 650040, China)
Abstract:
Aiming at the problem of high cost and low expansibility of traditional user intention recognition, which mainly uses template matching or artificial feature set, a hybrid neural network intention recognition model based on BERT word embedding and BiGRU-Attention was proposed. First, the word embedding pre-trained by BERT was used as the input, and the features of the interrogative sentences were extracted by BiGRU. Then, the attention mechanism was introduced to extract the information of words that have important influence on the meaning of sentences and allocate the corresponding weights, so as to obtain the sentence embedding that integrates the word-level weights and input it into the softmax classifier to realize intention classification. According to the experiment on the crawling corpus, it shows that the performance of BERT-BiGRU-Attention method is better than that of traditional template matching, SVM and lately popular CNN-LSTM deep learning combined model. The proposed method can effectively improve the performance of intention recognition model and the quality of online health information service, which provide technical support for the online health community question answering system.
Keywords:
natural language processing; intention identification; online health communities; BERT word embedding; bidirectional gated recurrent unit(BiGRU); Attention mechanism
信息技術(shù)正在影響傳統(tǒng)醫(yī)療領(lǐng)域,它提供了更低的成本和更好的醫(yī)療服務(wù)。近年來,在線健康社區(qū)盛行,并且發(fā)展迅速。在線健康社區(qū)為用戶提供了一種簡單方便的方式來尋求醫(yī)療健康信息服務(wù),用戶可以在其中發(fā)布描述自己健康狀況或查詢需求。大多數(shù)在線健康社區(qū)支持用戶和臨床醫(yī)生之間的交互,同時(shí)可以向合適的臨床醫(yī)生實(shí)時(shí)推薦新生成的查詢,以加快響應(yīng)過程。在這個(gè)過程中,在線健康社區(qū)產(chǎn)生了大量有價(jià)值的醫(yī)療問答數(shù)據(jù)、記錄,包含了大量的醫(yī)學(xué)、健康信息和知識(shí)。這些問答數(shù)據(jù)可以用于許多醫(yī)學(xué)相關(guān)任務(wù),如知識(shí)抽取、問答系統(tǒng)、疾病推斷等。如果能夠利用這些信息提前挖掘出用戶咨詢意圖,那么可以進(jìn)一步向用戶提出合理建議以及推薦合適的醫(yī)師、科室。
意圖識(shí)別旨在了解用戶潛在需求,可以看成分類問題。事先在該領(lǐng)域范圍內(nèi)定義可能的意圖類別,再用分類方法將問句劃分到合適的類中。目前在意圖識(shí)別研究中,大致分為3種方法。
一是基于規(guī)則、模板匹配的方法,該方法需要通過專家人工提取針對(duì)特定問題類型的特征規(guī)則來確定問題所屬類型。如RAMANAND等[1]提出基于規(guī)則和圖的方法來獲取意圖模板進(jìn)而實(shí)現(xiàn)用戶的消費(fèi)意圖。RAY等[2]提出了8種問題模式并結(jié)合Wikipedia與WordNet將問題分成7個(gè)大類。LIU等[3]通過匹配核心元組來分類。LI等[4]發(fā)現(xiàn)不同表達(dá)方式會(huì)導(dǎo)致規(guī)則模板數(shù)量的增加。這種方法雖不需訓(xùn)練大量數(shù)據(jù),但費(fèi)時(shí)費(fèi)力、可擴(kuò)展性弱。
二是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,該方法通過對(duì)標(biāo)注語料進(jìn)行統(tǒng)計(jì)學(xué)習(xí),把分類模型的選擇和分類特征的提取作為重點(diǎn)關(guān)注對(duì)象。常用的方法有支持向量機(jī)(SVM)、樸素貝葉斯(NB)和邏輯回歸等。陳浩辰[5]分別使用SVM和NB分類器實(shí)現(xiàn)了微博消費(fèi)意圖的分類。賈俊華[6]優(yōu)化了SVM參數(shù),得到了一種AdaBoost-POSVM分類模型。SILVA等[7]使用特征組合方式對(duì)問題分類。LIU等[8]提出將詞性、詞袋和句法依存樹結(jié)合,并通過計(jì)算核函數(shù)值的方法探究問題結(jié)構(gòu)。這種方法需要人工設(shè)定特征,成本較高,當(dāng)數(shù)據(jù)集變化時(shí),會(huì)演變成特征設(shè)計(jì)、特征選取問題,且特征準(zhǔn)確性得不到保障,最終難以準(zhǔn)確理解用戶文本的深層次語義信息。
三是基于深度學(xué)習(xí)的方法,該方法通過自我學(xué)習(xí)方式學(xué)習(xí)到句子中的內(nèi)在語義和句法特征[9]。常見的方法有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、注意力(Attention)機(jī)制等。
1) 基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別:KIM[10]將CNN用于文本分類。HASHEMI等[11]使用CNN提取文本向量表示作為查詢分類特征來識(shí)別用戶查詢意圖。該方法減少了大量的特征工程,但只能提取意圖文本的局部語義特征。
2) 基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體的意圖識(shí)別:BHARGAVA等[12]將上下文信息應(yīng)用到意圖識(shí)別任務(wù)中,提高了意圖識(shí)別正確率。RAVURI等[13]提出將LSTM與RNN兩種模型應(yīng)用于意圖分類問題,并比較這兩種方法,發(fā)現(xiàn)LSTM比RNN具有更好的建模能力和記憶功能。GRU是LSTM的一種改進(jìn)[14],雙向門控循環(huán)單元(BiGRU)可以對(duì)意圖文本進(jìn)行更好的特征表示。RAVURI等[15]通過實(shí)驗(yàn)發(fā)現(xiàn)GRU與LSTM模型在意圖分類任務(wù)上性能幾乎一致,GRU模型更簡單,參數(shù)更少。
3) 基于深度學(xué)習(xí)模型組合運(yùn)用的意圖識(shí)別:綜合考慮各種深度學(xué)習(xí)的優(yōu)缺點(diǎn),近年來大部分研究將不同優(yōu)勢的深度學(xué)習(xí)模型進(jìn)行組合進(jìn)而更好地挖掘用戶意圖。錢岳等[16]提出基于Convolutional-LSTM模型進(jìn)行出行消費(fèi)意圖的識(shí)別,提高了F值。余慧等[17]提出了基于短文本主題模型(biterm topic model, BTM)和雙向門控循環(huán)單元(bidirectional gated recurrent unit, BiGRU)的意圖識(shí)別模型(BTM-BiGRU),在用戶就醫(yī)意圖識(shí)別上獲得很好的效果。黃佳偉[18]提出了Character-CNN-BGRU的深度學(xué)習(xí)組合模型,驗(yàn)證了組合模型在任務(wù)上的優(yōu)勢。該模型結(jié)構(gòu)復(fù)雜、訓(xùn)練時(shí)間較長。
4) 基于Attention機(jī)制模型的意圖識(shí)別:LIN等[19]提出了一種引入自注意力機(jī)制提取句子表示的模型,可以獲取句子的多種語義信息,有助于意圖識(shí)別的研究。CAI等[20]提出了一種CNN-LSTM并引入Attention機(jī)制的方法來理解在線健康社區(qū)的用戶查詢意圖,取得了不錯(cuò)的效果。
針對(duì)在線健康社區(qū)的特點(diǎn)并結(jié)合深度學(xué)習(xí)方法以及BERT在NLP領(lǐng)域的絕對(duì)優(yōu)勢,本文提出了一種基于BERT詞向量和BiGRU-Attention的混合神經(jīng)網(wǎng)絡(luò)意圖識(shí)別模型。
1 分類體系
分類體系是意圖識(shí)別的依據(jù),其設(shè)計(jì)直接影響意圖識(shí)別的準(zhǔn)確性。問題分類可以表示為一種映射函數(shù):G:X→C,其中X表示問題集合,C={c1,c2,…,cn}是由n個(gè)問題類別組成的分類體系,x∈X,G負(fù)責(zé)利用先驗(yàn)知識(shí)將其映射到分類體系中某一個(gè)類別ci中。目前分類體系尚無統(tǒng)一的標(biāo)準(zhǔn),具體到在線健康醫(yī)療領(lǐng)域,若使用開放領(lǐng)域的問句分類難以滿足其分類需求,還需要面向領(lǐng)域知識(shí)的主題分類。本文在健康問答社區(qū)的主題分析[21]以及綜合分析健康問答網(wǎng)站(http://www.wenda120.com)中提出的問題基礎(chǔ)上,根據(jù)期望查詢目標(biāo)將用戶問句大致歸為幾個(gè)類別,如表1所示。
2 模型構(gòu)建
本文提出的基于BERT詞向量和BiGRU-Attention的意圖識(shí)別模型如圖1所示,由輸入層、BERT詞向量層、BiGRU層、詞級(jí)別Attention機(jī)制層和分類層組成。
2.1 BERT詞向量層
語義消歧決定了語言處理任務(wù)的性能,是自然語言處理任務(wù)的一個(gè)核心和難點(diǎn),模型在處理訓(xùn)練集時(shí)應(yīng)當(dāng)考慮和聯(lián)系句子上下文內(nèi)容。ELMo 和 GPT 等模型都取得了不錯(cuò)的效果,而DEVLIN等[22]在此基礎(chǔ)上改進(jìn)了語言模型單向信息流的問題,使用多層Transformer[23]結(jié)構(gòu)。Transformer相比LSTM模型沒有長度限制問題,具備更好地捕獲上下文信息特征的能力,通過注意力機(jī)制將任意位置的2個(gè)單詞的距離轉(zhuǎn)換成1,有效地解決了NLP中棘手的長期依賴問題。相比單向訓(xùn)練模式,BERT雙向訓(xùn)練模型捕獲上下文信息會(huì)更加全面,因此本文使用BERT生成輸入層句子的詞向量。
2.2 BiGRU層
門控循環(huán)單元(GRU)是LSTM的一個(gè)變體,通過“門”的結(jié)構(gòu)讓信息選擇性通過,在保證學(xué)習(xí)效果的同時(shí)又使結(jié)構(gòu)更加簡單,提高了訓(xùn)練速度。GRU由重置門r1和更新門zi組成,其中更新門由輸入門和遺忘門組成。其工作流程如下:
首先,由重置門控制并決定從舊元胞狀態(tài)和當(dāng)前輸入中丟棄哪些信息,如式(1)所示。
rt=σ(Wrxt+Urht-1),(1)
式中:σ代表Sigmod激活函數(shù);xt代表當(dāng)前輸入;ht-1代表上一時(shí)刻隱層的輸出。
接下來,決定將哪些新信息保存到元胞狀態(tài),具體分為2部分。
1) 由更新門實(shí)現(xiàn)忘記之前信息和添加信息的操作,如式(2)所示。
zt=σ(Wzxt+Uzht-1)?? 。????????????????????????? (2)
2) 由tanh層創(chuàng)建一個(gè)新的候選值t,該值可能會(huì)加入到元胞狀態(tài)中,如式(3)所示。
t=tanh(Whxt+rt*Uhht-1)。(3)
最后,把這2個(gè)組合起來用于更新舊元胞狀態(tài)ht-1到新元胞狀態(tài)ht,如式(4)所示。
ht=(1-zt)*ht-1+zt*t 。(4)
單向GRU忽略了未來上下文的信息,而改進(jìn)的雙向GRU可用同一個(gè)訓(xùn)練序列分別向前和向后各訓(xùn)練一個(gè)GRU模型,再將2個(gè)模型的輸出進(jìn)行線性組合,使得序列中每一個(gè)節(jié)點(diǎn)都能完整地依賴于所有上下文信息,故對(duì)于本文任務(wù),選用能更好理解用戶意圖的雙向GRU。
2.3 詞級(jí)別Attention機(jī)制層
為捕獲更直接的語義依賴關(guān)系,本文將BiGRU模型的全連接輸出輸入到Attention機(jī)制層中,采用Attention機(jī)制對(duì)用戶提問語句進(jìn)行編碼。并不是所有的詞對(duì)句子意義的表達(dá)都有同等的作用[24],如用戶輸入“如何治療糖尿?。俊?,用戶意圖是尋求治療,屬于“治療類”,在分類過程中“治療”一詞對(duì)正確分類貢獻(xiàn)最大,所占權(quán)重應(yīng)該最高,因此采用詞級(jí)別Attention機(jī)制[24-25]來提取對(duì)句子含義重要的詞。
給定一個(gè)序列S=(w1,w2,…,wT),T表示序列長度,在第i時(shí)刻輸入的第t個(gè)單詞的詞向量為cit,通過雙向GRU后可以充分學(xué)習(xí)上下文之間關(guān)系,進(jìn)行語義編碼,具體過程如式(5)所示。
hit=BiGRU(cit), t∈[1,T]。(5)
詞級(jí)別Attention機(jī)制可通過以下3個(gè)步驟實(shí)現(xiàn)。
1)使用多層感知機(jī)獲取hit的隱藏表示(uit),如式(6)所示。
uit=tanh(wwhit+bw),(6)
式中:ww為模型權(quán)重;bw為偏置。
2)計(jì)算uit和詞級(jí)別上下文uw的相似性并將其作為權(quán)衡單詞重要性指標(biāo),由softmax函數(shù)計(jì)算歸一化權(quán)重αit,αit與每一時(shí)刻的輸入狀態(tài)和uw相關(guān),如式(7)所示。
αit=exp(uTituw)∑texp(uTituw)。(7)
其中單詞上下文向量uw可以看作是對(duì)輸入的一種語義表示,是在訓(xùn)練過程中隨機(jī)初始化和共同學(xué)習(xí)的。
3)計(jì)算句子向量,見式(8)。
S=∑ni=1αithit。(8)
該向量中包含了各個(gè)輸入狀態(tài)的重要程度信息。
2.4 分類層
該層主要任務(wù)是構(gòu)建識(shí)別用戶意圖的分類器,獲取用戶問題語句的語義表示對(duì)于每一個(gè)分類標(biāo)簽的得分向量,并輸出最終意圖分類標(biāo)簽。本文采用softmax分類器輸出各類別的概率,計(jì)算方法見式(9)。
y=softmax(wfs+bf)。(9)
本文通過反向傳播機(jī)制對(duì)模型中的參數(shù)不斷進(jìn)行訓(xùn)練和更新,使用交叉熵?fù)p失函數(shù)對(duì)模型進(jìn)行優(yōu)化,見式(10)。
loss=-∑Di=1∑Cj=1jilog(yji),(10)
式中:D為訓(xùn)練數(shù)據(jù)集大小;C為意圖類別數(shù);i為句子的真實(shí)意圖類別標(biāo)簽。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)
本文所使用的實(shí)驗(yàn)語料,是爬取了尋醫(yī)問藥網(wǎng)(http://z.xywy.com)、好大夫在線(https://www.haodf.com)等國內(nèi)知名在線健康醫(yī)療網(wǎng)站近一年的用戶問題語句,共計(jì)78 573條,涉及內(nèi)容豐富。首先將爬取語料均分為4部分;其次由12名標(biāo)注人員3人1組分別對(duì)爬取內(nèi)容中的某一部分進(jìn)行意圖類別標(biāo)注,共計(jì)4組;再通過匹配每組人員的語料標(biāo)注結(jié)果,去掉標(biāo)注不一致部分;最終將各組標(biāo)注一致的數(shù)據(jù)合并,共獲取67 930條記錄。其意圖類別標(biāo)注結(jié)果及實(shí)驗(yàn)語料例句如表2所示。
在線健康社區(qū)中的用戶意圖識(shí)別屬于多分類問題,因此采用準(zhǔn)確率P、召回率R及F1值對(duì)每種類別進(jìn)行評(píng)價(jià),見式(11)—式(13)。
P=TP/(TP+FP),?? (11)
R=TP/(TP+FN)? ,???????????????????????????????? (12)
F1=2PR/(R+P) ,????????????????????????????????? (13)
式中:TP表示屬于類A且被正確分類到類A中的樣本數(shù);FN表示屬于類A卻被錯(cuò)誤分類到其他類別中的樣本數(shù);FN表示不屬于類A且被正確分類到其他類別中的樣本數(shù);FP表示不屬于類A卻被錯(cuò)誤分類到類A中的樣本數(shù)。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
不同參數(shù)的組合與設(shè)置會(huì)對(duì)實(shí)驗(yàn)產(chǎn)生不同的效果,本文基于Pytorch深度學(xué)習(xí)框架,神經(jīng)網(wǎng)絡(luò)初始化使用Kaiming方法,損失函數(shù)使用交叉熵?fù)p失函數(shù),模型訓(xùn)練優(yōu)化使用Adam方法。初始學(xué)習(xí)率設(shè)為0.001,學(xué)習(xí)率衰減速率設(shè)為0.000 1,詞向量維度設(shè)為200,batch_size=64,Epoch=10,attention_size=128,在輸入層Dropout設(shè)為0.2,隱藏層Dropout設(shè)為0.5,其余權(quán)重、偏置等參數(shù)隨模型優(yōu)化不斷變化。
3.3 實(shí)驗(yàn)結(jié)果與分析
在對(duì)比實(shí)驗(yàn)中,將數(shù)據(jù)集按9∶1分為訓(xùn)練集和測試集。首先在數(shù)據(jù)預(yù)處理過程中去除雜質(zhì)文本,再使用Jieba分詞工具對(duì)用戶聊天文本分詞,去除停用詞、標(biāo)點(diǎn)符號(hào)、特殊字符等,最后使用谷歌開源提供的BERT詞向量進(jìn)行訓(xùn)練以量化文本。
為驗(yàn)證本文提出的方法效果性,除基于BERT-BiGRU和Word2vec-BiGRU-Attention混合模型外,還與傳統(tǒng)的模板匹配、SVM以及目前效果較好的深度學(xué)習(xí)組合模型CNN-LSTM[16]作對(duì)比,不同方法在測試語料上整體分類性能對(duì)比實(shí)驗(yàn)結(jié)果如表3所示,不同方法在其各個(gè)意圖分類中F1值的比較如表4所示。
由表3、表4可知,本文提出的基于BERT詞向量和BiGRU-Attention的混合神經(jīng)網(wǎng)絡(luò)意圖識(shí)別模型在準(zhǔn)確率、召回率及F1值的表現(xiàn)性能均優(yōu)于其他5種方法。
傳統(tǒng)模板匹配和SVM方法的意圖識(shí)別效果最差。究其原因在于基于規(guī)則的模板匹配覆蓋率低、模板和特征抽取有局限性,而傳統(tǒng)機(jī)器學(xué)習(xí)方法基于特征工程,以詞或句法結(jié)構(gòu)作為分類特征難以獲取句子的深層語義信息,識(shí)別度較低。
混合模型CNN-LSTM相對(duì)傳統(tǒng)方法有明顯的提升。CNN可以抽取到句子豐富的局部特征,與具有可以學(xué)習(xí)序列信息的LSTM結(jié)合,優(yōu)勢互補(bǔ),更加充分提取了句子的特征,從而實(shí)現(xiàn)了分類性能的提升。本文選取收斂速度更快、參數(shù)較少、計(jì)算簡單的BiGRU模型,可以在保證準(zhǔn)確率的同時(shí)提高效率。
對(duì)比基于Word2vec,BERT方法訓(xùn)練的詞向量,BERT預(yù)訓(xùn)練的詞向量更有優(yōu)勢,在多個(gè)任務(wù)中表現(xiàn)優(yōu)異,解決了單向信息流問題,能夠充分捕獲句子特征信息,進(jìn)而提高分類性能。
對(duì)比BiGRU和BiGRU-Attention模型,引入Attention機(jī)制性能顯著提升,通過Attention機(jī)制層可以對(duì)句子含義表達(dá)有突出貢獻(xiàn)的詞分配更多權(quán)重、減小無關(guān)信息干擾,提高了意圖識(shí)別準(zhǔn)確度。Attention權(quán)重示例如圖2所示。
通過對(duì)比可以得出,本文提出的方法在在線健康社區(qū)用戶意圖識(shí)別任務(wù)上具有良好的表現(xiàn)。
4 結(jié) 語
本文提出了一種基于BERT詞向量和BiGRU-Attention的在線健康社區(qū)用戶意圖識(shí)別方法,首先利用BERT 預(yù)訓(xùn)練詞向量的優(yōu)勢挖掘用戶問句信息,其次使用結(jié)構(gòu)簡單、高效的雙向門控循環(huán)單元進(jìn)行完整上下文學(xué)習(xí),最后采用詞級(jí)別的注意力機(jī)制來增強(qiáng)問句表示和意圖識(shí)別效果?;诮】瞪鐓^(qū)查詢意圖的實(shí)驗(yàn)表明,與傳統(tǒng)模板匹配、統(tǒng)計(jì)機(jī)器學(xué)習(xí)以及現(xiàn)有的較好深度學(xué)習(xí)方法相比,本文提出的方法能有效提高意圖識(shí)別的準(zhǔn)確率和召回率,更好地理解用戶意圖。
本文不足之處是未能考慮用戶問句自身的特征信息,在后續(xù)工作中,將考慮對(duì)用戶問句的一些特征信息進(jìn)行提取和挖掘,如使用主題模型對(duì)語義進(jìn)行挖掘,同時(shí),嘗試進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型以及有效融合特征信息,以提高用戶意圖識(shí)別性能。
參考文獻(xiàn)/References:
[1] RAMANAND J, BHAVSA R K, PEDANEKA R N. Wishful thinking: Finding suggestions and ‘buy wishes from product reviews[C]//Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text. Stroudsburg: Association for Computational Linguistics, 2010: 54-61.
[2] RAY S K, SINGH S, JOSHI B P. A semantic approach for question classification using WordNet and Wikipedia [J]. Pattern Recognition Letters, 2010,31(13):1935-1943.
[3] ?LIU X M, LIU L. Question classification based on focus [C]//Proceeding of the 2012 International Conference on Communication Systems and Network Technologies. Washington DC:IEEE Computer Society,2012:512-516.
[4] ?LI X, DAN R. Learning question classifiers: The role of semantic information [J].Natural Language Engineering,2015,12(3):229-249.
[5] ?陳浩辰.基于微博的消費(fèi)意圖挖掘[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
CHEN Haochen. Consumption Intention Mining Based on Microblog [D]. Harbin: Harbin Institute of Technology, 2014.
[6] ?賈俊華.一種基于AdaBoost和SVM的短文本分類模型[D].天津:河北工業(yè)大學(xué),2016.
JIA Junhua. A Short Text Classification Model Based on Combination of AdaBoost and SVM [D].Tianjin: Hebei University of Techno-logy,2016.
[7] SILVA J, COHEUR L, MENDED A C, et al. From symbolic to sub-symbolic information in question classification [J]. Artificial Intelligence Review,2011,35(2):137-154.
[8] LIU L,YU Z, GUO J, et al. Chinese question classification based on question property kernel[J].International Journal of Machine Learning and Cybernetics,2014,5(5):713-720.
[9] ?李超,柴玉梅,南曉斐,等.基于深度學(xué)習(xí)的問題分類方法研究[J].計(jì)算機(jī)科學(xué),2016,43(12):115-119.
LI Chao, CHAI Yumei, NAN Xiaofei, et al. Research on problem classification method based on deep learning [J].Computer Science, 2016,43(12):115-119.
[10]KIM Y. Convolutional neural networks for sentence classification[C]//Proc of the 2014 Conference on Empirical Methods in Natural Language Processing. [S.l.]:[s.n.], 2014:1746-1751.
[11]HASHEMI H B, ASIAEE A, KRAFT R. Query intent detection using convolutional neural networks[C]//International Conference on Web Search and Data Mining, Workshop on Query Understanding. [S.l.]:[s.n.],2016.doi:10.1145/1235.
[12]BHARGAVA A, CELIKYILMAZ A, HAKKANITUR D, et al. Easy contextual intent prediction and slot detection[C]//IEEE International Conference on Acoustics. [S.l.]:[s.n.], 2013:8337-8341.
[13]RAVURI S V, STOLCKE A. Recurrent neural network and LSTM models for lexical utterance classification[C]//16th Annual Conference of the International Speech Communication Association. [S.l.]:[s.n.], 2015:135-139.
[14]DEY R, SALEMT F M. Gate- variants of gated recurrent unit(GRU)neural networks[C]//IEEE 60th International Midwest Symposium on Circuits and Systems. [S.l.]:[s.n.],2017:1597-1600.
[15]RAVURI S V, STOLCKE A. A comparative study of recurrent neural network models for lexical domain classification[C]//Proc of the 41st IEEE International Conference on Acoustics, Speech,and Signal Processing.[S.l.]:[s.n.],2016:6075-6079
[16]錢岳,丁效,劉挺,等.聊天機(jī)器人中用戶出行消費(fèi)意圖識(shí)別[J].中國科學(xué):信息科學(xué),2017,47(8): 997-100.
QIAN Yue,DING Xiao, LIU Ting, et al. Identification method of the user′s travel consumption intention in chatting robot [J]. Scientia Sinica Information, 2017, 47(8): 997-100.
[17]余慧,馮旭鵬,劉利軍,等.聊天機(jī)器人中用戶就醫(yī)意圖識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2018,38(8):2170-2174.
YU Hui, FENG Xupeng, LIU Lijun, et al. Identification method of user′s medical intention in chatting robot [J].Journal of Computer Applications, 2018,38(8):2170-2174.
[18]黃佳偉.人機(jī)對(duì)話系統(tǒng)中用戶意圖分類方法研究[D].武漢:華中師范大學(xué),2018.
HUANG Jiawei. Research on Intent Classification in Dialogue Systems [D].Wuhan: Central China Normal University, 2018.
[19]LIN Zhouhan, FENG Minwei, SANTOS C N D,et al. A Structured Self-attentive Sentence Embedding [EB/OL].https://arxiv.org/pdf/1703.03130.pdf,2020-03-15.
[20]CAI R,ZHU B,JI L, et al. An CNN-LSTM attention approach to understanding user query intent from online health communities[C]// 2017 IEEE International Conference on Data Mining Workshops (ICDMW). [S.l.]: IEEE, 2017:430-437.
[21]金碧漪,許鑫.網(wǎng)絡(luò)健康社區(qū)中的主題特征研究[J].圖書情報(bào)工作,2015(12):102-107.
JIN Biyi,XU Xin.Research on theme features in online health community[J].Library and Information Service,2015(12):102-107.
[22]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of NAACL-HLT.[S.l.]:[s.n.],2019:4171-4186.
[23]VASWANI A, SHAZEER N, PARMAR N,et al. Attention is all you need[C]://Proc of the 31st Conf on Neural Information Processing Systems. New York: Curran Associates,2017:5998-6008.
[24]張志昌,張珍文,張治滿. 基于IndRNN-Attention的用戶意圖分類[J]. 計(jì)算機(jī)研究與發(fā)展, 2019, 56(7): 1517-1524.
ZHANG Zhichang, ZHANG Zhenwen, ZHANG Zhiman. User intent classification based on IndRNN-Attention[J]. Journal of Computer Research and Development, 2019, 56(7): 1517-1524.
[25]YANG Z,YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: [s.n.],2016:1480-1489.
收稿日期:2020-04-17;修回日期:2020-05-23;責(zé)任編輯:馮 民
基金項(xiàng)目:國家自然科學(xué)基金(61562049,61462055)
第一作者簡介:遲海洋(1994—),男,山東日照人,碩士研究生,主要從事自然語言處理方面的研究。
通訊作者:嚴(yán) 馨副教授。E-mail:kg_yanxin@sina.com
遲海洋,嚴(yán)馨,周楓,等.
基于BERT-BiGRU-Attention的在線健康社區(qū)用戶意圖識(shí)別方法
[J].河北科技大學(xué)學(xué)報(bào),2020,41(3):225-232.
CHI Haiyang, YAN Xin, ZHOU Feng,et al.
An online health community user intention identification method based on BERT-BiGRU-Attention
[J].Journal of Hebei University of Science and Technology,2020,41(3):225-232.