黃沛杰,王俊東,柯子烜,林丕源
(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中超出領(lǐng)域話語(yǔ)的對(duì)話行為識(shí)別
黃沛杰,王俊東,柯子烜,林丕源
(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
由于領(lǐng)域外話語(yǔ)具有內(nèi)容短小、表達(dá)多樣性、開(kāi)放性及口語(yǔ)化等特點(diǎn),限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中超出領(lǐng)域話語(yǔ)的對(duì)話行為識(shí)別是一個(gè)挑戰(zhàn)。該文提出了一種結(jié)合外部無(wú)標(biāo)簽微博數(shù)據(jù)的隨機(jī)森林對(duì)話行為識(shí)別方法。該文采用的微博數(shù)據(jù)無(wú)需根據(jù)應(yīng)用領(lǐng)域特點(diǎn)專(zhuān)門(mén)收集和挑選,又與口語(yǔ)對(duì)話同樣具有口語(yǔ)化和表達(dá)多樣性的特點(diǎn),其訓(xùn)練得到的詞向量在超出領(lǐng)域話語(yǔ)出現(xiàn)超出詞匯表字詞時(shí)提供了有效的相似性擴(kuò)展度量。隨機(jī)森林模型具有較好的泛化能力,適合訓(xùn)練數(shù)據(jù)有限的分類(lèi)任務(wù)。中文特定領(lǐng)域的口語(yǔ)對(duì)話語(yǔ)料庫(kù)測(cè)試表明,該文提出的超出領(lǐng)域話語(yǔ)的對(duì)話行為識(shí)別方法取得了優(yōu)于最大熵、卷積神經(jīng)網(wǎng)絡(luò)等短文本分類(lèi)研究進(jìn)展中的方法的效果。
對(duì)話行為識(shí)別;超出領(lǐng)域話語(yǔ);隨機(jī)森林;詞向量;口語(yǔ)對(duì)話系統(tǒng)
面向任務(wù)(task-oriented)的限定領(lǐng)域?qū)υ捪到y(tǒng)是目前人工智能和自然語(yǔ)言理解領(lǐng)域內(nèi)的研究熱點(diǎn)之一,已廣泛應(yīng)用于信息查詢系統(tǒng)[1-5]、導(dǎo)航系統(tǒng)[6-7]、導(dǎo)游系統(tǒng)[8]和導(dǎo)購(gòu)系統(tǒng)[9]等自然語(yǔ)言智能助理。然而,當(dāng)使用自然語(yǔ)言對(duì)話時(shí),即使用戶了解某對(duì)話系統(tǒng)的限定領(lǐng)域,用戶在對(duì)話流程中仍然不可避免會(huì)使用一些超出領(lǐng)域(out-of-domain,OOD)話語(yǔ)(utterance),如問(wèn)候、表態(tài)等[10]。事實(shí)上,OOD話語(yǔ)的現(xiàn)象很常見(jiàn),例如,AT&T的“How may I help you”系統(tǒng)[2],以及BTaxeCT和Lucent Bell合作開(kāi)發(fā)的“OASIS call-steering”系統(tǒng)[4],大約有20%的用戶問(wèn)題是OOD的。盡管這些限定領(lǐng)域?qū)υ捪到y(tǒng)從完成任務(wù)角度上看只需要專(zhuān)注于特定的業(yè)務(wù)功能,但是如果能較為妥善地處理好OOD話語(yǔ),而不僅僅是提示用戶話語(yǔ)超出領(lǐng)域,將會(huì)有效地提高用戶體驗(yàn)[11]。
對(duì)話行為(dialogue act, DA)識(shí)別是處理OOD話語(yǔ)的關(guān)鍵環(huán)節(jié),是后續(xù)對(duì)話控制和應(yīng)答的基礎(chǔ)。在研究進(jìn)展中,DA識(shí)別通常被當(dāng)作短文本分類(lèi)問(wèn)題[12]。然而,與評(píng)論等短文本信息相比,限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中的OOD話語(yǔ)通常長(zhǎng)度更短,也更為口語(yǔ)化,并且比領(lǐng)域內(nèi)(in-domain)話語(yǔ)更具開(kāi)放性和表達(dá)多樣性,其DA的有效識(shí)別仍然是個(gè)挑戰(zhàn)。已有的OOD話語(yǔ)相關(guān)研究工作主要集中在OOD話語(yǔ)的檢測(cè),并根據(jù)檢測(cè)結(jié)果簡(jiǎn)單響應(yīng)用戶,而缺少對(duì)OOD話語(yǔ)DA的有效識(shí)別[7,13-15]。
本文提出一種結(jié)合外部無(wú)標(biāo)簽數(shù)據(jù)的OOD話語(yǔ)DA識(shí)別方法。由于訓(xùn)練分類(lèi)模型的OOD話語(yǔ)樣例數(shù)量有限,以及OOD話語(yǔ)的語(yǔ)義開(kāi)放性和口語(yǔ)表達(dá)多樣性,待分類(lèi)OOD話語(yǔ)中有時(shí)會(huì)出現(xiàn)超出詞匯表(out-of-vocabulary, OOV)字詞。而同樣具有口語(yǔ)化和表達(dá)多樣性的微博數(shù)據(jù)的“字詞相似性”可預(yù)期能接近于限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中OOD話語(yǔ)的“字詞相似性”。因此,本文采用分布式表達(dá)方式訓(xùn)練無(wú)標(biāo)簽微博數(shù)據(jù)得到詞向量(word embedding),并用于幫助待分類(lèi)OOD話語(yǔ)出現(xiàn)OOV字詞時(shí)實(shí)現(xiàn)有效的特征擴(kuò)充。分類(lèi)模型采用了隨機(jī)森林(random forests,RF)模型[16],并通過(guò)交叉驗(yàn)證的方式進(jìn)行了參數(shù)選擇。相比于已有的研究,本文的主要貢獻(xiàn)包括:
(1) 采用無(wú)標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量作為相似性度量,在待分類(lèi)OOD話語(yǔ)出現(xiàn)OOV時(shí)提供OOV字詞的相似性擴(kuò)展,從某種程度上解決了OOD話語(yǔ)的開(kāi)放性帶來(lái)的對(duì)話語(yǔ)料庫(kù)詞匯覆蓋不全的問(wèn)題,也增強(qiáng)了識(shí)別方法對(duì)OOD所固有的口語(yǔ)化和表達(dá)多樣性的適應(yīng)。
(2) 在中文手機(jī)導(dǎo)購(gòu)領(lǐng)域的對(duì)話系統(tǒng)中評(píng)測(cè)了基于隨機(jī)森林的OOD話語(yǔ)DA識(shí)別方法,在訓(xùn)練數(shù)據(jù)有限的情況下,取得了優(yōu)于最大熵(maximum entropy,ME)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等短文本分類(lèi)研究進(jìn)展中的方法的效果。
本文后續(xù)部分安排如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹本文提出的方法;第四節(jié)給出測(cè)試結(jié)果及分析;最后,第五節(jié)總結(jié)本文的工作并做簡(jiǎn)要的展望。
在短文本信息,如微博、商品評(píng)論、影評(píng)等的分析領(lǐng)域,為了克服短文本具有的噪音多、特征稀疏和主題不明確等特點(diǎn)[17],許多機(jī)器學(xué)習(xí)模型如SVM(support vector machine)[18]、最大熵[19]、CNN[20]被應(yīng)用于短文本分類(lèi)。此外,為了解決短文本分類(lèi)問(wèn)題中數(shù)據(jù)稀疏問(wèn)題,結(jié)構(gòu)化語(yǔ)義知識(shí)庫(kù)如Wikipedia、WordNet等常被用于語(yǔ)義相似性計(jì)算[21],另外一些研究則采用在領(lǐng)域相關(guān)的無(wú)標(biāo)簽數(shù)據(jù)集上使用LDA(latent dirichlet allocation)獲取主題特征[22]或者使用神經(jīng)網(wǎng)絡(luò)(neural network)訓(xùn)練詞向量[19]的方法增加語(yǔ)義特征。
在口語(yǔ)對(duì)話系統(tǒng)領(lǐng)域內(nèi)話語(yǔ)的DA識(shí)別方面,傳統(tǒng)的語(yǔ)言模型和機(jī)器學(xué)習(xí)方法如N-gram[23]、樸素貝葉斯(na?ve bayes)[24]、決策樹(shù)(decision tree)[25]、最大熵[26]、神經(jīng)網(wǎng)絡(luò)[27]、隱馬爾科夫(hidden markov model,HMM)[28]、條件隨機(jī)場(chǎng)(conditional random field, CRF)[29]等各種分類(lèi)模型被應(yīng)用。較為豐富的語(yǔ)義或語(yǔ)法等文本信息被良好表達(dá)并輸入到分類(lèi)模型。有些研究還考慮了對(duì)話上下文的序列信息[28-29]以及更深層次的異構(gòu)特征學(xué)習(xí)[29]。
上述研究進(jìn)展的方法都對(duì)OOD話語(yǔ)的DA識(shí)別提供了很好的借鑒。然而與短文本分類(lèi)及領(lǐng)域內(nèi)話語(yǔ)的DA識(shí)別相比,OOD話語(yǔ)的DA識(shí)別具有以下挑戰(zhàn):
(1) 口語(yǔ)對(duì)話系統(tǒng)話語(yǔ)比微博、評(píng)論、新聞標(biāo)題等常見(jiàn)短文本信息更短。如搜狗實(shí)驗(yàn)室提供的中文新聞標(biāo)題分類(lèi)數(shù)據(jù)集,大部分文本數(shù)據(jù)長(zhǎng)度集中在10~21字之間[19],微博、電影評(píng)論等的平均長(zhǎng)度則更長(zhǎng)一些,而在我們實(shí)驗(yàn)中的對(duì)話語(yǔ)料,OOD話語(yǔ)平均長(zhǎng)度只有3.6字,集中在1~8個(gè)字之間。短文本所固有的噪音多和特征稀疏在口語(yǔ)對(duì)話的OOD話語(yǔ)中表現(xiàn)得更為突出。另外,口語(yǔ)對(duì)話中的OOD話語(yǔ)比電影評(píng)論和新聞標(biāo)題等短文本更為口語(yǔ)化,比微博也多了一些口語(yǔ)化省略的情況。
(2) 相比于領(lǐng)域內(nèi)話語(yǔ),OOD話語(yǔ)語(yǔ)義更為開(kāi)放和表達(dá)多樣,容易產(chǎn)生OOV字詞,并且也缺少領(lǐng)域內(nèi)話語(yǔ)攜帶的相對(duì)較為豐富的語(yǔ)義或語(yǔ)法等文本信息。此外,OOD話語(yǔ)與對(duì)話上下文的關(guān)聯(lián)也遠(yuǎn)遠(yuǎn)沒(méi)有領(lǐng)域內(nèi)話語(yǔ)高。
王俊東等人[10]提出的OOD話語(yǔ)處理方案中也包含了對(duì)OOD話語(yǔ)的DA識(shí)別,采用了向量空間模型(vector space model,VSM),通過(guò)詞頻和期望交叉熵(expected cross entropy,ECE)權(quán)重計(jì)算句子相似度,不足之處在于DA識(shí)別方法比較簡(jiǎn)單,并且缺乏對(duì)OOD話語(yǔ)中OOV字詞的考慮。本文采用大量無(wú)標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量作為相似性度量,為OOD話語(yǔ)中的OOV字詞提供相似性擴(kuò)展。與大多數(shù)文本分類(lèi)研究相比,本文并沒(méi)有依賴于領(lǐng)域密切相關(guān)的外部數(shù)據(jù),更易于實(shí)現(xiàn)。此外,在中文訓(xùn)練語(yǔ)料數(shù)據(jù)有限的情況下,考慮到以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的隨機(jī)森林模型在小樣本數(shù)據(jù)集上的良好表現(xiàn)[16],本文采用隨機(jī)森林作為分類(lèi)模型。
3.1 總體技術(shù)架構(gòu)
圖1是本文提出的方法的總體技術(shù)架構(gòu)。
圖1 限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)OOD話語(yǔ)DA識(shí)別方法技術(shù)架構(gòu)
在這個(gè)架構(gòu)中,主要分成兩個(gè)階段: (1)在訓(xùn)練階段,將訓(xùn)練語(yǔ)料庫(kù)中句子進(jìn)行預(yù)處理,進(jìn)而針對(duì)對(duì)話系統(tǒng)OOD話語(yǔ)口語(yǔ)化的特點(diǎn),利用BOC(bag of Chinese characters)計(jì)算特征值,生成特征向量,并使用隨機(jī)森林分類(lèi)器進(jìn)行模型訓(xùn)練;(2)在測(cè)試階段,首先對(duì)檢測(cè)到出現(xiàn)OOV字詞的待識(shí)別OOD話語(yǔ)進(jìn)行相似性擴(kuò)展。相似性擴(kuò)展通過(guò)計(jì)算字詞間詞向量的余弦相似度,找出OOV字詞最相近的訓(xùn)練語(yǔ)料中的字詞擴(kuò)展OOD話語(yǔ)。接著將擴(kuò)展后的OOD話語(yǔ)進(jìn)行BOC特征值計(jì)算,并生成特征向量。最后使用由(1)訓(xùn)練得到的分類(lèi)器進(jìn)行DA標(biāo)簽的分類(lèi)。
3.2 外部數(shù)據(jù)詞向量
詞向量通常被稱為“word representation”或“word embedding”,是通過(guò)訓(xùn)練無(wú)標(biāo)簽語(yǔ)料將每個(gè)詞映射成低維實(shí)數(shù)向量的方法,每一維都代表了詞的淺層語(yǔ)義特征[30],通過(guò)低維實(shí)數(shù)向量之間的距離(例如余弦相似度、歐式距離等)來(lái)描述字詞之間的語(yǔ)義相似度。低維的詞向量避免了用傳統(tǒng)的稀疏表達(dá)在解決某些任務(wù)的時(shí)候(比如構(gòu)建語(yǔ)言模型)所造成的維數(shù)災(zāi)難[31]。本文采用與OOD話語(yǔ)同樣具有口語(yǔ)化和表達(dá)多樣性的微博數(shù)據(jù)來(lái)訓(xùn)練詞向量。
目前訓(xùn)練詞向量的主流方法是在訓(xùn)練語(yǔ)言模型的同時(shí)得到詞向量?;诮y(tǒng)計(jì)的語(yǔ)言模型能夠表示成一個(gè)已出現(xiàn)的詞和當(dāng)前詞的條件概率的極大似然估計(jì)為式(1)。
針對(duì)不同的上下文構(gòu)造方法,在訓(xùn)練詞向量時(shí)主要有CBOW (continuous bag-of-words)和Skip-gram兩種語(yǔ)言模型[32]。Skip-gram模型允許某些詞被跳過(guò),在訓(xùn)練數(shù)據(jù)少的情況用Skip-gram可以創(chuàng)造更多的訓(xùn)練例子,而連續(xù)的CBOW則可以有較快的訓(xùn)練速度[32]。由于本文采用的是大量微博數(shù)據(jù),因此本文使用CBOW語(yǔ)言模型對(duì)詞語(yǔ)的語(yǔ)義層面建模。CBOW語(yǔ)言模型不僅限于已出現(xiàn)的詞為wt的上下文,而是考慮了句子中距離當(dāng)前詞為n以內(nèi)的詞都看作是當(dāng)前詞的上下文環(huán)境,如圖2所示。
用一個(gè)函數(shù)f表示當(dāng)前詞wt的上下文的向量到當(dāng)前詞wt條件概率的映射[31],并結(jié)合CBOW的機(jī)制,則當(dāng)前詞的上下文和當(dāng)前詞的條件概率可以表示為式(2)。
=f(wt,C(wt-n),...,C(wt-1),C(wt+1),...,C(wt+n))
其中,C(wi)是詞語(yǔ)wi的分布式特征向量。
圖2 CBOW語(yǔ)言模型架構(gòu)
3.3 隨機(jī)森林模型
隨機(jī)森林(randomforest)[16]作為一種集成學(xué)習(xí)(ensemblelearning)方法,是一種利用多棵樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的分類(lèi)器。本文采用了Breiman提出的基于分類(lèi)回歸樹(shù)(classificationandregressiontrees,CART)[35]的隨機(jī)森林模型。該模型具有良好的實(shí)用性能和處理高維數(shù)據(jù)的能力,并且只依賴于少數(shù)的幾個(gè)容易調(diào)節(jié)的參數(shù),已成為模式識(shí)別問(wèn)題的一種常用的學(xué)習(xí)算法[36]。隨機(jī)森林模型結(jié)合了Breiman的自助聚集(bootstrapaggregating)[37]思想和Ho的隨機(jī)子空間(randomsubspace)[38]方法,其模型訓(xùn)練原理[39]如圖3所示。其中,k對(duì)應(yīng)隨機(jī)森林的子樹(shù)數(shù)量,子樹(shù)的分裂次數(shù)N由不同子樹(shù)的樣本和特征決定。每顆子樹(shù)都分裂直至最大生長(zhǎng),即同一個(gè)節(jié)點(diǎn)下所有訓(xùn)練樣例都屬于同一個(gè)類(lèi)別。
圖3 隨機(jī)森林訓(xùn)練原理示意圖
大量的理論和實(shí)證研究都證明了隨機(jī)森林模型具有很高的預(yù)測(cè)準(zhǔn)確率,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合[39]。
4.1 數(shù)據(jù)集
訓(xùn)練數(shù)據(jù)集采用了和文獻(xiàn)[10]一樣的OOD話語(yǔ)訓(xùn)練庫(kù),共1 238句。我們?cè)谖墨I(xiàn)[10]的基礎(chǔ)上進(jìn)一步完善了DA分類(lèi),如表1所示。共五大類(lèi)(維度)25小類(lèi)(交互功能)。
值得注意的是,盡管在一些文獻(xiàn)中,OOD話語(yǔ)只限于身份信息、天氣等閑聊話語(yǔ),在我們的研究中,我們把不攜帶領(lǐng)域語(yǔ)義信息的用戶話語(yǔ)都當(dāng)成OOD話語(yǔ)。這個(gè)廣義的OOD定義使得一些領(lǐng)域任務(wù)相關(guān)的話語(yǔ)也被歸類(lèi)到OOD話語(yǔ),如肯定或者否定的表態(tài),或者慣用開(kāi)場(chǎng)語(yǔ)。我們希望這樣的OOD定義對(duì)限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)是有益的,因?yàn)閿y帶領(lǐng)域語(yǔ)義信息的話語(yǔ)可以根據(jù)領(lǐng)域語(yǔ)義得到較好的處理。此外,我們用一個(gè)“其他”小類(lèi)代表不屬于任何前24個(gè)小類(lèi)的OOD話語(yǔ),該小類(lèi)的訓(xùn)練集只用于匹配,而不參與識(shí)別模型的建模。
表1 OOD話語(yǔ)的DA類(lèi)別與示例
續(xù)表
對(duì)話行為維度交互功能OOD話語(yǔ)示例社交義務(wù)問(wèn)候你好!致謝謝謝!道歉不好意思。接受致謝不用謝。接受道歉沒(méi)關(guān)系。閑聊時(shí)間現(xiàn)在幾點(diǎn)啦?天氣今天天氣好冷。身份信息你叫什么名字?其他罵人混蛋!其他你猜。
我們?cè)趯?shí)現(xiàn)的中文手機(jī)導(dǎo)購(gòu)對(duì)話系統(tǒng)[9]中進(jìn)行了測(cè)試。系統(tǒng)的測(cè)試人員是15名學(xué)生志愿者,每位測(cè)試者測(cè)試12~14段。由于本文關(guān)注的是OOD話語(yǔ)的DA分類(lèi),因此,沒(méi)有正常結(jié)束的對(duì)話(可能是系統(tǒng)異常中斷或者用戶異常退出連接)中的OOD話語(yǔ)也可以使用。
用于測(cè)試的對(duì)話語(yǔ)料的總體情況如表2所示。
分明是初相遇,卻似故友重逢。詩(shī)人頓生情愫,那些噴涌出來(lái)的熾熱與憂傷源源不斷,被秋天的長(zhǎng)風(fēng)帶到更遠(yuǎn)的地方。樟樹(shù)聽(tīng)人們深情表白,葉子沙沙,不知是點(diǎn)頭還是搖頭,不知它是否在意人的褒揚(yáng)。它的資歷實(shí)在太老了,王朝更替,兵荒馬亂,雨順風(fēng)調(diào),好的壞的,裝了一肚子。它見(jiàn)過(guò)男人如何留起了一根長(zhǎng)辮,又如何一朝剪下,見(jiàn)過(guò)女人的小腳,顫顫巍巍在面前走過(guò),見(jiàn)過(guò)甜蜜的愛(ài)情和無(wú)情的背叛,見(jiàn)過(guò)一茬茬的人呱呱喊叫著來(lái)到人世,最后沉默地躺進(jìn)山坡,它還無(wú)數(shù)次地目睹一輪明月如何被“天狗”蠶食,饑荒年代人們?nèi)绾螌⒁话岩安艘恍?shù)皮裝進(jìn)胃囊。直至有一天,如果不是那場(chǎng)適時(shí)而降的大雨,一場(chǎng)意外,差點(diǎn)將它燒成灰燼……
表2 測(cè)試語(yǔ)料的情況
對(duì)話語(yǔ)料庫(kù)共193段對(duì)話,用戶話語(yǔ)總數(shù)為2 070,OOD的數(shù)量為362,占了17.5%,與文獻(xiàn)[2]和[4]中的口語(yǔ)對(duì)話系統(tǒng)的OOD比例相似,表明了OOD識(shí)別在限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)研究和應(yīng)用中的價(jià)值。在131例未被訓(xùn)練集覆蓋的待識(shí)別的OOD話語(yǔ)中,有四例屬于其他小類(lèi)。因此,本文的測(cè)試集即為去除了四例其他小類(lèi)之后的127句OOD話語(yǔ)。
4.2 實(shí)驗(yàn)設(shè)置
本文的外部數(shù)據(jù)庫(kù)采用的是中國(guó)中文信息學(xué)會(huì)社會(huì)媒體專(zhuān)委會(huì)提供的SMP2015微博數(shù)據(jù)集(SMP 2015 Weibo DataSet)。該數(shù)據(jù)集超過(guò)500G,目前我們采用了其中的一個(gè)子集(1 000萬(wàn)條微博,519 734詞匯,約1.5G),與相關(guān)方法采用的搜狗實(shí)驗(yàn)室新聞數(shù)據(jù)(Sougo News)(515 789詞匯)具有相當(dāng)?shù)脑~匯量標(biāo)準(zhǔn)。我們也驗(yàn)證過(guò)更大的微博數(shù)據(jù)量,在當(dāng)前的DA識(shí)別任務(wù)中沒(méi)有顯著的識(shí)別效果提升。詞向量采用Python Gensim主題模型包中的word2vec進(jìn)行訓(xùn)練。隨機(jī)森林和CNN模型的參數(shù)通過(guò)K-折(本文的實(shí)驗(yàn)采用3折)交叉驗(yàn)證得到。
實(shí)驗(yàn)方案為:
(1) 隨機(jī)森林模型的參數(shù)選擇: 驗(yàn)證不同的子樹(shù)數(shù)量的隨機(jī)森林模型的性能;
(2) 原始特征的選擇: 對(duì)比字和詞作為原始特征的DA識(shí)別效果;
(3) 研究進(jìn)展方法DA識(shí)別性能對(duì)比: 對(duì)比了本文提出的方法與研究進(jìn)展方法的DA識(shí)別結(jié)果。并對(duì)比了不同外部數(shù)據(jù)對(duì)OOV相似性擴(kuò)展的效果;
(4) 訓(xùn)練庫(kù)規(guī)模的影響: 采用不同比例的訓(xùn)練語(yǔ)料庫(kù),驗(yàn)證本文提出的方法對(duì)訓(xùn)練數(shù)據(jù)規(guī)模的依賴性。
本文的方法,結(jié)合外部無(wú)標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量為度量的OOV相似性擴(kuò)展的隨機(jī)森林模型,記為RF(BOC+OOV(w2v)),對(duì)比的三種研究進(jìn)展的方法如下。
(1) VSM(ECE): 王俊東等人[10]應(yīng)用于OOD話語(yǔ)DA分類(lèi)的方法,利用ECE選出類(lèi)別特征詞,并將類(lèi)別特征詞以VSM向量形式表示類(lèi)別,通過(guò)詞頻和ECE權(quán)重計(jì)算句子相似度;
(2) ME(TFIDF): 馬成龍等人[19]應(yīng)用于短文本(網(wǎng)頁(yè)搜索片段和新聞標(biāo)題)分類(lèi)的方法,對(duì)訓(xùn)練數(shù)據(jù)所生成的詞典利用TFIDF計(jì)算特征值,采用最大熵模型進(jìn)行分類(lèi);
(3) CNN(w2v): Kim[20]應(yīng)用于短文本(電影評(píng)論等)分類(lèi)的方法,采用Google新聞?wù)Z料訓(xùn)練得到的詞向量表達(dá)短文本中的詞語(yǔ),分類(lèi)模型采用了CNN,并使用了3、4、5三種不同卷積窗口的卷積核。在本文的實(shí)驗(yàn)中,我們采用微博數(shù)據(jù)訓(xùn)練得到的詞向量訓(xùn)練CNN模型,并通過(guò)交叉驗(yàn)證選擇最優(yōu)的卷積核數(shù)量。
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 隨機(jī)森林模型的參數(shù)選擇
隨機(jī)森林的關(guān)鍵參數(shù)包括子樹(shù)的棵數(shù)k以及每棵樹(shù)隨機(jī)選取的特征數(shù)m。通過(guò)交叉驗(yàn)證發(fā)現(xiàn)m的最優(yōu)值與經(jīng)驗(yàn)公式log(M)相近,其中M為總特征數(shù),本文實(shí)驗(yàn)中M為754。不同的子樹(shù)數(shù)量的隨機(jī)森林模型的訓(xùn)練和驗(yàn)證結(jié)果如圖4所示,采用的識(shí)別方法是本文的RF(BOC+OOV(w2v))方法。
圖4 不同子樹(shù)數(shù)量的隨機(jī)森林訓(xùn)練和驗(yàn)證結(jié)果
可以看到隨機(jī)森林模型在訓(xùn)練誤差已經(jīng)接近為0(20棵子樹(shù))的情況下,隨著子樹(shù)數(shù)量進(jìn)一步增加,模型并沒(méi)有馬上進(jìn)入過(guò)擬合狀態(tài),其交叉驗(yàn)證的正確率繼續(xù)保持提升。另一方面,也可以看到,不需要太復(fù)雜的模型(140棵子樹(shù)左右)就可以接近性能上限(在現(xiàn)有的數(shù)據(jù)集條件下),并且隨著子樹(shù)的進(jìn)一步增加保持了較穩(wěn)定的驗(yàn)證結(jié)果,不容易產(chǎn)生模型過(guò)擬合。
4.3.2 原始特征的選擇
我們對(duì)比了各種模型選用字和詞作為原始特征的DA識(shí)別效果,如圖5所示。
圖5 不同原始特征(詞和字)的DA識(shí)別效果
從圖5可以看到,除了VSM模型,其他模型采用字為原始特征的識(shí)別效果比采用詞的好,尤其是CNN和RF模型,這也反映了對(duì)話系統(tǒng)的OOD話語(yǔ)口語(yǔ)化的特點(diǎn)。VSM模型詞比字作為原始特征的識(shí)別效果更好,可能是因?yàn)槟P秃?jiǎn)單,未能很好地實(shí)現(xiàn)由字到詞的特征搭配。
4.3.3 研究進(jìn)展方法DA識(shí)別性能對(duì)比
本文的方法與研究進(jìn)展方法的DA識(shí)別結(jié)果如表3所示。根據(jù)圖5的對(duì)比,除了VSM模型采用詞為原始特征,其他方法都采用了字為原始特征。其中,我們也對(duì)比了使用不同外部數(shù)據(jù)訓(xùn)練的詞向量作為OOV字詞提供相似性擴(kuò)展時(shí)的度量的效果。為了區(qū)別采用搜狗實(shí)驗(yàn)室的新聞數(shù)據(jù)(Sougo News)訓(xùn)練的詞向量作為距離度量的方法,在表3中,本文的方法標(biāo)記為RF(BOC+OOV(w2v_SMP-Weibo))。在本文的其他比較中,本文的方法標(biāo)記為RF(BOC+OOV(w2v))。
表3 本文方法與研究進(jìn)展方法的DA識(shí)別對(duì)比
從表3可以看到,本文提出的方法比VSM(ECE)、ME(TFIDF)和CNN(w2v)等方法分別提高了18.90%、18.11%和3.15%的OOD話語(yǔ)DA識(shí)別正確率。與口語(yǔ)對(duì)話系統(tǒng)OOD話語(yǔ)同樣具有口語(yǔ)化和表達(dá)多樣性的微博數(shù)據(jù)(SMP-Weibo)訓(xùn)練的詞向量作為距離度量能更好地為OOD話語(yǔ)中的OOV字詞提供合適的相似性擴(kuò)展,而采用搜狗實(shí)驗(yàn)室的新聞數(shù)據(jù)(Sougo News)訓(xùn)練的詞向量作為距離度量沒(méi)能幫助提高識(shí)別正確率。我們還進(jìn)一步對(duì)比了RF和CNN方法的識(shí)別穩(wěn)定性,采用了在模型選擇時(shí)的驗(yàn)證Top 5的模型在測(cè)試集上的DA識(shí)別正確率進(jìn)行對(duì)比,如圖6所示。
圖6 不同識(shí)別模型的識(shí)別性能穩(wěn)定性
從圖6可以看到,我們的方法比CNN模型具有更穩(wěn)定的識(shí)別效果。我們的方法的驗(yàn)證Top 5的模型對(duì)應(yīng)的最低、平均和最高測(cè)試正確率分別為83.46%、84.09%和84.25%,而CNN的驗(yàn)證Top 5的模型對(duì)應(yīng)的最高和最低的測(cè)試正確率差異則超過(guò)3%。
4.3.4 訓(xùn)練庫(kù)規(guī)模的影響
我們進(jìn)一步驗(yàn)證了本文提出的方法對(duì)訓(xùn)練數(shù)據(jù)規(guī)模的依賴性。我們保持DA類(lèi)別分布比例不變,將訓(xùn)練語(yǔ)料庫(kù)平均分成十份,每次隨機(jī)增加一份作為訓(xùn)練數(shù)據(jù)。共進(jìn)行了十遍實(shí)驗(yàn)(選擇不同的一份作為第一份)。使用同樣的測(cè)試集進(jìn)行測(cè)驗(yàn),測(cè)驗(yàn)的方法包括本文的RF(BOC+OOV(w2v))方法以及沒(méi)對(duì)OOV進(jìn)行相似性擴(kuò)展的RF(BOC)方法,結(jié)果如圖7所示。從圖中結(jié)果可以看到,隨著訓(xùn)練語(yǔ)料庫(kù)規(guī)模的增大,兩種方法的識(shí)別正確率都保持增長(zhǎng),可見(jiàn)DA識(shí)別方法對(duì)訓(xùn)練語(yǔ)料的依賴還是比較大的。另一個(gè)方面也可以看到,目前規(guī)模的訓(xùn)練語(yǔ)料的50%已經(jīng)可以使本文的識(shí)別方法獲得較好的識(shí)別正確率(70%+)。
圖7 不同比例訓(xùn)練語(yǔ)料的測(cè)試結(jié)果
本文基于外部無(wú)標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量和隨機(jī)森林模型,提出了一種限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)OOD話語(yǔ)的DA識(shí)別方法。在中文手機(jī)導(dǎo)購(gòu)領(lǐng)域的OOD話語(yǔ)測(cè)試表明,本文的方法取得了優(yōu)于研究進(jìn)展中的短文本分類(lèi)方法的應(yīng)用效果。與限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中OOD話語(yǔ)同樣具有口語(yǔ)化和表達(dá)多樣性特點(diǎn)的微博數(shù)據(jù)訓(xùn)練得到的詞向量,有助于為待分類(lèi)的OOD話語(yǔ)中的OOV字詞找到合適的近似擴(kuò)展。隨機(jī)森林模型在有限的OOD話語(yǔ)訓(xùn)練數(shù)據(jù)集的條件下,取得了優(yōu)于最大熵和CNN等模型的識(shí)別效果。未來(lái)計(jì)劃通過(guò)分析存在的識(shí)別錯(cuò)誤樣例,并通過(guò)人工標(biāo)注對(duì)話語(yǔ)料中的OOD話語(yǔ),結(jié)合進(jìn)一步擴(kuò)大的訓(xùn)練庫(kù),探索CNN和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(long-short term memory, LSTM)等具有一定結(jié)構(gòu)化學(xué)習(xí)優(yōu)勢(shì)的模型在OOD話語(yǔ)的DA識(shí)別中性能提升的可能,以及多種識(shí)別模型有效結(jié)合的方法。
[1] Price P J. Evaluation of spoken language systems: the ATIS domain[C]//Proceedings of DARPA Workshop on Speech and Natural Language, Hidden Valley, PA, 1990.
[2] Gorin A, Riccardi G, Wright J.How may I help you?[J]. Speech Communication,1997, 23(1-2): 113-127.
[3] Zue V, Seneff S, Glass J, et al. JUPITER: a telephone-based conversational interface for weather information[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(1): 85-96.
[4] Durston P, Farrell M, Attwater D, et al. OASIS natural language call steering trial[C]//Proceedings of 7th European Conference on Speech Communication and Technology (Eurospeech 2011), 2001: 1323-1326.
[5] 張琳, 高峰, 郭榮, 等. 漢語(yǔ)股票實(shí)時(shí)行情查詢對(duì)話系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用, 2004, 24(7): 61-63.
[6] 黃寅飛, 鄭方, 燕鵬舉, 等. 校園導(dǎo)航系統(tǒng)EasyNav的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào), 2001, 15(4): 35-40.
[7] Reichel C S, Sohn J, Ehrlich U, et al. Out-of-domain spoken dialogs in the car: a WoZ study[C]//Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL 2014), 2014: 12-21.
[8] Pappu A, Rudnicky A. The structure and generality of spoken route instructions[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL 2012), 2012: 99-107.
[9] Huang P J, Lin X M, Lian Z Q, et al. Ch2R: a Chinese chatter robot for online shopping guide[C]//Proceedings of the 3rd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2014), 2014: 26-34.
[10] 王俊東, 黃沛杰, 林仙茂等. 限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中超出領(lǐng)域話語(yǔ)的協(xié)處理方法[J].中文信息學(xué)報(bào), 2015, 29(5): 194-203.
[11] Ameixa D, Coheur L, Fialho P, et al. Luke, I am your father: dealing with out-of-domain requests by using movies subtitles [J]. IVA 2014. LNCS (LNAI), vol. 8637, pp. 13-21. Springer, Heidelberg (2014)
[12] Novielli N. and Strapparava C. The role of affect analysis in dialogue act identification [J]. IEEE Transactions on Affective Computing, 2013, 6(1): 1-14.
[13] Lane I R, Kawahara T, Matsui T, et al. Out-of-domain utterance detection using classification confidences of multiple topics[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 150-161.
[14] Tür G, Deoras A, Hakkani-Tür D. Detecting out-of-domain utterances addressed to a virtual personal assistant[C]//Proceedings of the 15th Annual Conference of the International Speech Communication Association (INTERSPEECH 2014), 2014: 283-287.
[15] Celikyitmaz A, Hakkani-Tür D, Tür G. Approximate inference for domain detection in spoken language understanding[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association (INTERSPEECH 2011), 2011: 1293-1296.
[16] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1), 5-32.
[17] Chen M G, Jin X M, Shen D. Short text classification improved by learning multigranularity topics [C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence (IJCAI 2011), 2011: 1776-1781.
[18] Silva J, Coheur L, Mendes A C, et al. From symbolic to sub-symbolic information in question classification. Artificial Intelligence Review, 2011, 35(2): 137-154.
[19] 馬成龍, 姜亞松, 李艷玲,等. 基于詞矢量相似度的短文本分類(lèi)[J]. 山東大學(xué)學(xué)報(bào): 理學(xué)版, 2014(12): 18-22.
[20] Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 19th Conference on Empirical Methods in Natural Language Processing (EMNLP 2014), 2014: 1746-1751.
[21] Kenter T, Rijke M D. Short text similarity with word embeddings[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management (CIKM 2015), 2015: 1411-1420.
[22] Phan X H, Nguyen L M, Horiguchi S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C]//Proceedings of the 17th International World Wide Web Conference (WWW 2008), 2008: 91-100.
[23] Louwerse M M, Crossley S A. Dialog act classifi-cation using n-gram algorithms[C]//Proceedings of 19th Florida Artificial Intelligence Research Society Conference (FLAIRS 2006), 2006: 758-763.
[24] Levin L, Langley C, Lavie A, et al. Domain specific speech acts for spoken language translation[C]//Proceedings of 4th SIGdial Workshop on Discourse and Dialogue (SIGDIAL 2003), 2003.
[25] Irie Y, Matsubara S, Kawaguchi N, et al. Speech intention understanding based on decision tree learning[C]//Proceedings of 8th International Conference on Spoken Language Processing (INTERSPEECH 2004- ICSLP), 2004.
[26] Lan K C, Shiu H K, Pong Luk Robert Wing, et al. Dialogue act recognition using maximum entropy[J]. Journal of the American Society for Information Science & Technology, 2008, 59(6): 859-874.
[27] Král P, Cerisara C, Klecková J. Combination of classifiers for automatic recognition of dialog acts[C]//Proceedings of 9th European Conference on Speech Communication and Technology (INTERSPEECH 2005- Eurospeech), 2005: 825-828.
[28] Lee S, Seo J. Korean speech act analysis system using hidden markov model with decision trees[J]. International Journal of Computer Processing of Oriental Languages, 2002, 15(03): 231-243.
[29] Zhou Y, Hu Q, Liu J, et al. Combining heterogeneous deep neural networks with conditional random fields for chinese dialogue act recognition[J]. Neurocomputing, 2015, 168(C): 408-417.
[30] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48thAnnual Meeting of the Association for Computational Linguistics (ACL 2010), 2010: 384-394.
[31] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, (3): 1137-1155.
[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in Vector Space[C]//Proceedings of the 1st International Conference on Learning Representations (ICLR 2013), 2013.
[33] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), 2013: 3111-3119.
[34] Morin F, Bengio Y. Hierarchical probabilistic neural network language model[C]//Proceedings of the International Workshop on Artificial Intelligence and Statistics (AISTATS 2005), 2005: 246-252.
[35] Breiman L, Friedman J, Olshen R A, et al. Classification and regression trees[M]. Chapman & Hall, New York, 1984.
[36] Scornet E. Random forests and kernel methods [J]. IEEE Transactions on Information Theory, 2015, 62(3): 1485-1500.
[37] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 26(2): 123-140
[38] Ho, T K. The random subspace method for constructing decision forests[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998, 20(8), 832-844.
[39] 方匡南, 吳見(jiàn)彬, 朱建平,等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇, 2011, 26(3): 32-38.
Dialogue Act Recognition for Out-of-Domain Utterances in Spoken Dialogue System
HUANG Peijie, WANG Jundong, KE Zixuan, LIN Piyuan
(College of Mathematic and Informatics, South China Agricultural University, Guangzhou, Guangdong 510642, China)
Due to the short length, diversity, openness and colloquial features of out-of-domain (OOD) utterances, such dialogue act (DA) recognition for OOD utterances remains a challenge in domain specific spoken dialogue system. This paper proposes an effective DA recognition method using the random forest and external information. The unlabeled Weibo dataset, which is not domain specific yet possesses the similar characteristic of colloquialism and diversity with the spoken dialogue, is used to train the word embedding by unsupervised learning method. The trained word embedding provides similar computing for out of vocabulary (OOV) words in the training and test OOD utterances. The evaluation on a Chinese dialogue corpus in restricted domain shows that the proposed method outperforms some state-of-the-art short text classification methods for DA recognition.
dialogue act recognition; out-of-domain utterance; random forest; word embedding; spoken dialogue system
黃沛杰(1980—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄?、自然語(yǔ)言處理、口語(yǔ)對(duì)話系統(tǒng)。E-mail:pjhuang@scau.edu.cn王俊東(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:jdwang@stu.scau.edu.cn柯子烜(1995—),本科生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:iscauzixuanke@gmail.com
1003-0077(2016)06-0182-08
2016-09-27 定稿日期: 2016-10-20
國(guó)家自然科學(xué)基金(71472068);廣東省大學(xué)生科技創(chuàng)新培育專(zhuān)項(xiàng)項(xiàng)目(pdjh2016b0087)
TP391
A