亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        問答中的問句意圖識別和約束條件分析

        2017-03-12 08:48:19王厚峰
        中文信息學報 2017年6期
        關鍵詞:約束條件意圖標簽

        孫 鑫,王厚峰

        (北京大學 計算語言學教育部重點實驗室,北京 100871)

        0 引言

        口語對話系統(tǒng)、語音助手、自動客服等是當前自然語言處理研究的熱點。這些應用的成功不僅取決于語音內容的識別,更在于對句子含義的理解。和自動語音識別(automatic speech recognizer, ASR)是將說話人的語音轉化為文字序列不同,口語理解(spoken language understanding, SLU)側重于確定口語問句包含的意圖[1],并提取出相應的約束條件,再交給對話或任務管理器(dialog or task manager, DM)[2],就可以滿足用戶的特殊需求。ASR、SLU和DM順序連接構成了典型的面向實際目標的會話理解系統(tǒng)[2],是自動客戶服務等應用的關鍵構成部分。本文研究SLU中的意圖識別和約束條件分析,為口語理解提供幫助。

        意圖識別(intent determination, ID)旨在確定一句話的意圖,可以看成分類問題。事先在該領域定義各種可能的意圖類別,再用分類方法將問句分到某類之中。約束條件分析(slot filling, SF)則是提取出達成意圖的關鍵信息,可以看成序列標注問題,即將關鍵詞標注為特定標簽,其他詞被標注為普通標簽。

        表1中,我們采用In/Out/Begin(IOB)標簽來標注“西安到拉薩8月1號到5號有沒有打折的飛機票”這句話?!拔靼病北粯俗槠瘘c,“拉薩”為終點,“8月1號到5號”被標注為出發(fā)時間,“打折”是票價要求。這句話的意圖是“查機票”。

        表1 ID和SF問題樣例

        意圖和約束條件這兩個問題通常被當作獨立的兩個問題處理, 前者可以用各種機器學習的分類方法,如支持向量機(support vector machine, SVM)、邏輯回歸等解決;后者可以用序列標注模型實現(xiàn),如條件隨機場(conditional random field, CRF)、循環(huán)神經網(wǎng)絡(recurrent neural networks, RNN)等。但這兩個問題是相關的,兩種信息可以相互幫助、相互影響[3],例如,“查機票”類型的問句,很可能出現(xiàn)“起點”“終點”“時間”這類標簽;反過來,這些標簽的出現(xiàn)也很可能意味著問句的意圖是“查機票”。目前已有研究采用聯(lián)合模型,同時識別意圖和提取出關鍵信息。

        1 相關工作

        單一模型將意圖識別和約束條件分析作為兩個獨立的問題。

        意圖識別是分類問題,可以使用分類方法求解,如SVM模型[4]、Adaboost方法[5]等。這類傳統(tǒng)分類方法的一般步驟是,提取特征作為問句的輸入,再用訓練好的分類模型進行多分類;缺點是需要人工設定特征。當數(shù)據(jù)集發(fā)生變化時,需要重新設計特征。這往往會演變成特征設計、特征選取等問題,失去了對課題本質的關注。

        約束條件分析一般被視為序列標注問題,條件隨機場[6]是解決這類問題的經典方法。這類方法一般步驟是,將訓練數(shù)據(jù)中的被標注序列和標簽看作很多節(jié)點,設計兩個或多個節(jié)點之間的關系作為特征,訓練出這些特征的權重。最后在測試數(shù)據(jù)集上,將更能反映這些特征的標簽序列作為結果;缺點同樣是需要人工設定特征模板。

        深度學習方法可以避免人工構建特征,例如,RNN方法[7]及各種改進模型如LSTM、GRU等。這類方法在計算每個詞標簽的概率時,是在局部進行歸一的,而局部歸一容易出現(xiàn)偏置[8]。CRF方法是全局歸一,關注整個標簽序列占所有可能標簽序列的概率。結合CRF的RNN模型[8]可以提高約束條件分析的效果。不過,這種方法只關注單個問題,沒有解決意圖識別問題,忽略了意圖識別模塊帶來的額外信息。

        文獻[3]提出了基于RNN的聯(lián)合模型,以GRU作為基本單元,同時借鑒CRF的思想,在目標函數(shù)中加入了標簽狀態(tài)轉移的評估。缺點是在解決意圖識別問題時,只是取樣了GRU每次輸出的最大值,有信息損失。其次,雖然加入了標簽之間的轉移評估,但是仍然沒有在全局考慮序列的概率。文獻[9]在處理意圖識別問題時,使用了注意力機制,能較好地區(qū)分哪些詞對分類起到了更大的作用,缺點仍然是約束條件分析時,簡單地使用softmax計算概率,沒有考慮整體序列的概率分布,有標注偏置的隱患。

        綜上所述,當前RNN聯(lián)合模型沒有很好地兼顧意圖識別和約束條件分析兩個方面,前者需要給有用的詞匯更大的權重,提取更有用的信息,簡單取最大值的操作會損失信息;后者需要在整體標簽序列上計算概率,可以避免標注偏置問題。

        2 模型

        2.1 常規(guī)處理

        基于LSTM的聯(lián)合模型的基本框架如圖1所示。

        圖1 常規(guī)處理模型

        設置詞向量矩陣Eemb∈(|V|+1)*|e|,|e|表示詞向量維數(shù),|V|表示總詞數(shù),增加一行作為取上下文窗口時空白詞的詞向量。采用詞向量和上下文窗口,將當前詞與窗口內的詞的詞向量連接,作為當前xt,輸入到LSTM單元,設置取樣前后各d個詞匯,如式(1)所示。

        其中,e(wt)表示當前詞wt的詞向量,相當于在詞向量表Eemb中查詢到這個詞對應的那一行向量。向量e(wt)∈|e|,向量xt∈(2d+1)|e|,“[]”表式向量的簡單拼接。將xt輸入到正反LSTM模塊中,正反兩個模塊分別使用各自的一套參數(shù)。參數(shù)參數(shù)正向LSTM的公式[10]如式(2)~(7)所示。

        本文引入注意力機制實現(xiàn)意圖分析,通過增加CRF識別約束條件。

        2.2 CRF機制

        圖2所示的框架不再和其他模型一樣直接用softmax函數(shù)計算每個標簽的概率,而是借鑒鏈式CRF[6]的方法考慮標簽之間的轉移和整體上標簽序列的概率。從單個時刻看,當前詞對應的標簽都有相應分數(shù), 分數(shù)越大, 對應標簽越有可能;從標簽序列的整體來看,前后標簽有轉移分數(shù),分數(shù)越高,越可能出現(xiàn)這種標簽的轉移。將這兩個分數(shù)相加,分數(shù)最高的標簽序列就是預測結果。先對隱藏層輸出做預處理,如式(9)所示。

        圖2 CRF機制

        其中,Wcrf∈|S|*|h|,scorest,bcrf∈|S|,|S|表示標簽個數(shù)。向量scorest每個元素表示對應標簽的分數(shù),分數(shù)越大越有可能。同時設置轉移矩陣Etrans∈(|S|+2)*(|S|+2),表示標簽之間的轉移分數(shù),在|S|個標簽的基礎上增加了“開始”和“結束”兩個標簽。一個標簽序列的總分數(shù)是由每個標簽的分數(shù)和它們之間的轉移來決定的,如式(11)所示。

        其中,s1:T表示標簽序列,時刻總個數(shù)T等于|L|,也就是該詞語序列的長度。scoretotal(s1:T)是對該標簽序列的總分數(shù)的衡量。Etrans(st-1,st)表示轉移矩陣Etrans第st-1行,第st列的值,即t-1時刻的標簽到t時刻標簽的轉移分數(shù)。scorest(st)表示scorest的第st個元素,即當前標簽是st時的分數(shù)。s0和sT+1分別為“開始”和“結束”標簽,它們對應的scorest(s0)和scorest(sT+1)取零。為了對標簽序列的整體進行概率歸一,本文借用softmax對總分數(shù)進行概率轉換,如式(12)所示。

        訓練時,約束條件分析部分的損失函數(shù)如式(14)所示。

        即對正確標注該序列的概率的對數(shù)值取反,化簡之后是兩個對數(shù)值的差值。該模塊增加了參數(shù)Etrans、Wtanh、btanh、Wcrf、bcrf。

        2.3 注意力機制(attention)

        Attention機制如圖3所示。

        圖3 Attention機制

        接下來對這個向量表示hintent進行處理,如式(17)、式(18)所示。

        其中,ointent的每個元素代表對應意圖類別的概率,取其中概率最大的類別作為預測類別。Wintent∈|I|*|h|,ointent、bintent∈|I|,|I|表示意圖類別個數(shù),ointent(i)表示向量ointent的第i個元素,即該句意圖為i的預測概率。意圖識別模塊的損失函數(shù)如式(19)所示。

        CRF-attention-LSTM模型訓練的目標函數(shù)也是把所有句子的損失相加,如式(20)所示。

        式(20)就是在當前參數(shù)為θ的情況下,將所有訓練集句子的損失按權重求和。該模塊的參數(shù)是Wmeasure。

        3 實驗

        3.1 數(shù)據(jù)集

        本文在兩個數(shù)據(jù)集上進行實驗,分別是中文數(shù)據(jù)集(表2)和英文數(shù)據(jù)集(表3)。

        中文數(shù)據(jù)集的相關情況如表2所示,是從“百度知道”中爬取后加工得到的,包括三個領域,即航班、天氣和快遞相關的問題。

        英文數(shù)據(jù)集是口語理解問題中最常用的ATIS數(shù)據(jù)集,如表3所示。該數(shù)據(jù)集還包含詞語的類型信息。有研究[12]認為,類型信息在SLU問題中是不常見的,所以本文不使用這種額外的信息。

        表2 中文數(shù)據(jù)

        表3 英文數(shù)據(jù)

        3.2 評價標準

        本文使用準確率來評估意圖識別。在ATIS數(shù)據(jù)集中,有些數(shù)據(jù)可能有不止一個意圖,本文按照文獻[2]的方法,只要預測意圖在正確意圖之列就算作預測正確。

        實驗使用了F1-分數(shù)來衡量約束條件分析結果,一個約束條件提取正確表示它的范圍和類型都是正確的。F1-分數(shù)由通用的CoNLL評價腳本*http://www.cnts.ua.ac.be/conll2000/chunking/output.html.獲得。

        3.3 對比方法

        3.3.1 中文數(shù)據(jù)集中的baseline

        SVM用于意圖識別,提取的特征主要是一系列關鍵字是否存在的二元特征;CRF方法用于約束條件分析。另外,本文也同幾種不同的RNN模型比較了實驗效果,其中,RNN-ID和RNN-SF分別為普通RNN模型單獨解決這兩個問題時的方法,RNN-joint為普通RNN聯(lián)合模型,bi-RNN-joint為雙向RNN聯(lián)合模型,bi-LSTM為雙向LSTM聯(lián)合模型,它們在SF問題上直接用softmax處理取最大概率的標簽,在ID問題上用最大池取樣作為整句的代表向量。CRF-attention-LSTM為本文方法,結合了CRF和attention的雙向LSTM聯(lián)合模型。

        3.3.2 英文數(shù)據(jù)集中的baseline

        SVM: 文獻[6]使用前后向移動序列化SVM分類器,用于約束條件分析。

        CRF: 文獻[7]提供的baseline。

        RNN: 文獻[7]提供的RNN約束條件分析方法。

        Boosting: 文獻[2]使用了AdaBoost.MH方法處理意圖識別方法。

        Sentence simplification: 文獻[13]使用AdaBoost.MH方法處理意圖識別,用CRF處理SF。

        RecNN: 文獻[14]使用的遞歸神經網(wǎng)絡聯(lián)合模型,后加入了Viterbi算法優(yōu)化對標簽序列整體的評估,模型使用了額外的語義信息。

        GRU-joint: 文獻[3]使用的GRU聯(lián)合模型,在意圖識別部分使用最大池,在約束條件分析部分考慮了標簽之間的轉移。

        3.4 訓練細節(jié)

        中文數(shù)據(jù)集的實驗中,本文采用10-折交叉驗證,不使用字標注,而是將句子分詞后處理;英文數(shù)據(jù)集,使用劃分好的訓練集和測試集。模型的詞向量維數(shù)均設置為100,隱藏層維數(shù)為100,上下文窗口大小設置為1。中文數(shù)據(jù)集使用梯度下降方法更新參數(shù),初始學習率設計為0.062 7;英文數(shù)據(jù)集使用AdaDelta方法[15]更新參數(shù)。代碼使用theano進行編寫,實驗結果表明,分別使用這兩種參數(shù)更新方式,效果更好。

        3.5 實驗結果與分析

        3.5.1 中文數(shù)據(jù)集實驗結果與分析

        中文語料實驗結果如表4所示。

        表4 中文語料實驗結果

        從表4可以看出,在中文數(shù)據(jù)集上,先采用了經典的分類方法SVM和序列標注方法CRF。最簡單的RNN模型分別獨立處理意圖識別和約束條件分析,均超過了SVM和CRF的效果,只是數(shù)據(jù)量較少的“快遞”領域在意圖識別上稍有下降。RNN能捕獲長距離的依賴關系,在數(shù)據(jù)量充足時更加明顯。

        RNN聯(lián)合模型相比較RNN單一模型,效果有所下降,只是在“天氣”領域的意圖識別任務上有提高。雙向的RNN聯(lián)合模型在普通RNN聯(lián)合模型基礎上有了一定的提升,說明后向的信息包括了一些有用的內容,只是在“天氣”領域效果略有下降。這可能是因為天氣領域的標簽最少而類別最多,它的局限不在于前后向的信息,而在于模型本身處理、記憶信息的能力。雙向的LSTM聯(lián)合模型基本提高了各個領域的效果,因為LSTM相較普通RNN更能甄別、保留有用信息,分辨能力更強大。

        最終的CRF-attention-LSTM模型,基本達到了最好的結果,只是在第三個領域稍低于之前的方法,因為第三個領域的數(shù)據(jù)量較少,不同標簽的數(shù)量分布不均,之前的簡單模型更適合它的復雜度,即便如此,最終模型在約束條件識別上的效果也與它們基本持平。

        Attention模塊的效果示例如圖4所示。在這兩個例子中,模型能夠較好地聚焦在關鍵詞上,顏色越深、數(shù)值越大,說明這個詞越重要。

        圖4 attention結果示例

        在中文數(shù)據(jù)集的實驗表明,RNN模型能夠較好地解決意圖識別和約束條件分析問題;當改為雙向LSTM模塊之后,效果更佳;而引入CRF和attention的LSTM聯(lián)合模型,能夠在兩個問題上更好地利用信息進行分類和標注,達到最優(yōu)的效果。

        3.5.2 英文數(shù)據(jù)集實驗結果與分析

        為了驗證所提模型CRF-attention-LSTM的有效性,本文使用英文數(shù)據(jù)集ATIS進行了實驗。有些工作使用了ATIS中的額外信息,比如詞的類型信息、語義信息等,本文挑選了一些沒有使用詞的類型信息的相關結果作為比較,結果如表5所示。

        表5 英文語料實驗結果

        對于單一模型而言,CRF能比SVM更好地處理序列標注問題,RNN因為更能捕獲長距離依賴,效果更好。Sentence simplification不是嚴格意義上的聯(lián)合模型,它使用了不同的分類器處理兩個問題,取得了較好的結果。RecNN結合了語法信息和深度學習,但不適合這個數(shù)據(jù)集,效果不佳。本文提出的CRF-attention-LSTM在約束條件的分析上好于各種baseline,在意圖識別上略低于GRU-joint模型。這表明,本文所提方法在解決意圖識別和約束條件分析上是有效的。

        4 總結與展望

        本文提出了結合CRF和attention機制的LSTM聯(lián)合模型,在意圖識別部分通過attention提取和篩選有用的詞語用于分類任務,在約束條件分析部分利用CRF方法,對標簽序列整體上進行歸一化。通過在中文和英文數(shù)據(jù)集上進行實驗比較,驗證了方法的有效性。結合CRF能提升模型整體評估標簽序列的能力,attention可以提高信息篩選能力,在詞語中選擇更重要的詞匯用于分類。

        本文將中文數(shù)據(jù)集分為三個領域進行實驗,主要是考慮到了SLU任務中本身就有區(qū)分領域這一模塊,意圖識別和約束條件分析就是在領域確定的情況下進行處理的,也可以合在一起進行實驗,這樣數(shù)據(jù)量充足,也便于比較,只是和現(xiàn)實中SLU任務的真實情況不太相符。在后續(xù)工作中,可以加入ATIS數(shù)據(jù)集中的詞語類型信息,和更多利用了這些額外信息的模型進行對比,以更好地驗證模型效果。

        [1] Wang YY, Deng L, Acero A. Spoken language understanding[J]. IEEE Signal Processing Magazine, 2005, 22(5):16-31.

        [2] Tur G,Hakkani-Tür D, Heck L. What is left to be understood in ATIS?[J]. Spoken Language Technology Workshop, 2011,29(2):19-24.

        [3] Zhang X, Wang H. A joint model of intent determination and slot filling for spoken language understanding[C]//Proceedings of the 25th International Joint Conference on Artifical Intelligence, 2016.

        [4] Haffner P, Tur G, Wright J H. Optimizing SVMs for complex call classification[C]//IEEE International Conference on Acoustics. CiteSeer, 2003:I-632-I-635 vol.1.

        [5] Schapire R E, Singer Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning,2000,39(2-3): 135-168.

        [6] Raymond C, Riccardi G. Generative and discriminative algorithms for spoken language understanding[C]//Proceedings of INTERSPEECH-2007,2007: 1605-1608.

        [7] Mesnil G, Dauphin Y, Yao K, et al. Using recurrent neural networks for slot filling in spoken language understanding[J].IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(3):530-539.

        [8] Yao K, Peng B, Zweig G, et al. Recurrent conditional random field for language understanding[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2014:4077-4081.

        [9] Liu B, Lane I. Attention-based recurrent neural network models for joint intent detection and slotfilling[J]. arXiv preprint arXiv:1609.01454, 2016.

        [10] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735.

        [11] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

        [12] Mesnil G, He X, Deng L, et al. Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding[C]//Proceedings of Interspeech 2013. 2013: 3771-3775.

        [13] Tur G,Hakkani-Tur D, Heck L, et al. Sentence simplification for spoken language understanding[J]. 2011, 125(3):5628-5631.

        [14] Guo D, Tur G, Yih W T, et al. Joint semantic utterance classification and slot filling with recursive neural networks[C]//Proceedings of Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2015:554-559.

        [15] Zeiler M D. Adadelta: an adaptive learning rate method[J]. arXiv preprint arXiv:1212.5701, 2012.

        猜你喜歡
        約束條件意圖標簽
        原始意圖、對抗主義和非解釋主義
        法律方法(2022年2期)2022-10-20 06:42:20
        基于一種改進AZSVPWM的滿調制度死區(qū)約束條件分析
        陸游詩寫意圖(國畫)
        制定法解釋與立法意圖的反事實檢驗
        法律方法(2021年3期)2021-03-16 05:56:58
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        A literature review of research exploring the experiences of overseas nurses in the United Kingdom (2002–2017)
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        線性規(guī)劃的八大妙用
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        亚洲午夜精品久久久久久人妖| 久久精品视频日本免费| 亚洲国产最新免费av| 国产一区二区三区三区四区精品 | 亚洲av乱码专区国产乱码| 手机在线免费看av网站| 日韩美腿丝袜三区四区| 成人欧美一区二区三区黑人| 高清不卡一区二区三区| 女人被做到高潮免费视频| 99RE6在线观看国产精品| 日本免费精品一区二区三区视频| 亚洲一区二区三区高清在线| 亚洲精品tv久久久久久久久久| 人妻影音先锋啪啪av资源 | 欧洲成人一区二区三区| 国产激情久久久久影院老熟女免费 | 日本精品人妻一区二区| 一二三四区中文字幕在线| 爆乳熟妇一区二区三区霸乳| 8888四色奇米在线观看| www.尤物视频.com| 国产亚洲3p一区二区| 五月色丁香婷婷网蜜臀av| 天天躁日日躁狠狠很躁| 国产免费看网站v片不遮挡| 亚洲一区二区三区在线更新| 国产成人大片在线播放| 一本一道av无码中文字幕麻豆| aaaaa级少妇高潮大片免费看| 欧洲亚洲色一区二区色99| 国产一区二区三区小向美奈子| 午夜人妻久久久久久久久| 中文字幕在线观看亚洲日韩| 成人国产永久福利看片| 久久久人妻丰满熟妇av蜜臀| 亚洲精品中文字幕免费专区| 国产精品毛片一区二区| 亚洲AV永久天堂在线观看| 中文字幕久久人妻av| 精品人妻一区三区蜜桃|