亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于多粒度循環(huán)神經(jīng)網(wǎng)絡(luò)與詞注意力的多輪對話回答選擇方法

        2021-12-08 08:00:36陳羽中劉漳輝
        小型微型計算機系統(tǒng) 2021年12期
        關(guān)鍵詞:集上注意力語義

        謝 琪,陳羽中,劉漳輝

        (福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福州 350116)(福建省網(wǎng)絡(luò)計算與智能信息處理重點實驗室,福州 350116)E-mail:lzh@fzu.edu.cn

        1 引 言

        根據(jù)不同的應(yīng)用場景,對話系統(tǒng)可以大致分為兩類:一類是任務(wù)型對話系統(tǒng)[1-3],另一類是開放領(lǐng)域?qū)υ捪到y(tǒng)[4-6].面向任務(wù)的對話系統(tǒng)專注于特定的垂直領(lǐng)域,目標是幫助用戶完成特定的任務(wù),例如預(yù)訂機票、旅館等.由于缺乏特定領(lǐng)域的對話數(shù)據(jù),大多數(shù)任務(wù)型對話系統(tǒng)必須依靠人工設(shè)計的模板或啟發(fā)式規(guī)則來處理用戶對話.因此,實現(xiàn)任務(wù)型對話系統(tǒng)需要大量的人工投入.此外,人工設(shè)計的模板或啟發(fā)式規(guī)則無法涵蓋所有可能的對話情景,從而限制了任務(wù)型對話系統(tǒng)適應(yīng)其它垂直領(lǐng)域的能力.開放領(lǐng)域?qū)υ捪到y(tǒng)則專注于開放領(lǐng)域[7],并要求其響應(yīng)多樣化和個性化,因此需要大規(guī)模的對話知識庫來對模型進行訓(xùn)練.隨著社交網(wǎng)絡(luò)的爆炸式增長,Twitter、微博等社交媒體積累了大量的對話數(shù)據(jù),使得從網(wǎng)絡(luò)中獲取開放領(lǐng)域?qū)υ挃?shù)據(jù)集并構(gòu)建數(shù)據(jù)驅(qū)動的開放領(lǐng)域?qū)υ捪到y(tǒng)成為可能.構(gòu)建開放領(lǐng)域?qū)υ捪到y(tǒng),可以進一步提高對話系統(tǒng)的實用性.隨著科技的發(fā)展,人們不僅僅滿足于單輪對話的需求,多輪對話回答選擇順勢而生.多輪對話回答選擇是構(gòu)建開放領(lǐng)域?qū)υ捪到y(tǒng)的關(guān)鍵問題之一.

        近年來,深度神經(jīng)網(wǎng)絡(luò)已逐漸成為構(gòu)建開放領(lǐng)域?qū)υ捪到y(tǒng)的主流方法.通常來說,多輪對話答案選擇方法可以大致分為兩類,一類是基于生成模型的多輪對話答案選擇方法,另一種是基于信息檢索的多輪對話答案選擇方法.基于生成模型的多輪對話答案選擇方法[8-10]通常采用Seq2Seq模型[11],Seq2Seq由一個編碼器和一個解碼器組成.編碼器從輸入句子中提取語義和上下文信息,并將其映射為中間表示,解碼器則依次從中間表示生成響應(yīng).然而,基于生成模型的多輪對話答案選擇方法在生成的回答中經(jīng)常出現(xiàn)語法錯誤.相比之下,基于信息檢索的多輪對話答案選擇方法[12,13]旨在使用匹配算法從語料庫中選擇與給定的對話上下文最相關(guān)的語料作為答案.與基于生成模型的多輪對話答案選擇方法相比,基于信息檢索的多輪對話答案選擇方法可以提供更有意義和更流暢的響應(yīng),且不存在語義歧義,具有更好的實用性.網(wǎng)絡(luò)數(shù)據(jù)的多樣性也使得基于信息檢索的多輪對話答案選擇方法能夠有效地處理低覆蓋率的問題.因此,本文主要研究基于信息檢索的多輪對話回答選擇方法.

        針對多輪對話回答選擇問題,雖然深度神經(jīng)網(wǎng)絡(luò)在理解用戶意圖和檢索最佳匹配答案等方面取得了顯著的進展,但是仍然存在著重大挑戰(zhàn).較早的研究工作多把對話上下文連接形成一個長文本,然后輸入到卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)中進行匹配,但是這種基于連接成長文本的語義匹配方式忽略了對話上下文中語句之間的依賴關(guān)系.近期的研究工作主要使用對話上下文分別和回答進行匹配的方式,分別形成詞語的相似度矩陣和句子的相似度矩陣,再輸入到特征提取層中對特征信息進行提取.使用這種方式進行匹配由于只存在句子粒度和詞語粒度的信息,這兩種粒度信息不能充分表示對話上下文和回答的語義信息,從而會產(chǎn)生語義的缺失.并且,這種方式無法使對話上下文和回答之前的關(guān)鍵信息進行契合的匹配,從而導(dǎo)致對話上下文和回答語義匹配度低.

        針對上述問題,本文提出了一種結(jié)合詞注意力機制的多粒度循環(huán)神經(jīng)網(wǎng)絡(luò)模型MRNA,主要貢獻如下:

        1)為了解決粒度信息不夠豐富的問題,MRNA采用AHRE[14]機制對每個句子進行層級的編碼并將其分割為不同的粒度,通過融合詞語粒度、前向句子粒度、后向句子粒度,增強句子的語義表示,防止句子出現(xiàn)語義缺失.

        2)MRNA運用詞注意力機制通過動態(tài)學(xué)習(xí)注意力矩陣的權(quán)值,賦予對話上下文和回答中契合的關(guān)鍵詞和次要詞不同的注意權(quán)重,從而有效提取對話上下文和回答中匹配的重要信息.

        3)本文在Ubuntu數(shù)據(jù)集[15]和Douban數(shù)據(jù)集[16]上進行了試驗,實驗結(jié)果表明MRNA在這兩個公開的數(shù)據(jù)集上都取得了領(lǐng)先的效果.

        2 相關(guān)工作

        近年來,對話系統(tǒng)受到了人們的廣泛關(guān)注,對對話系統(tǒng)的研究可以追溯到20世紀60年代.Eliza[17]是最早依靠手工模板或啟發(fā)式規(guī)則來生成響應(yīng)的對話系統(tǒng),這需要大量的人力物力資源,但取得的效果有限.隨著研究的不斷深入,一種基于數(shù)據(jù)驅(qū)動的方法被提出來了,讓對話系統(tǒng)從龐大的對話數(shù)據(jù)集中學(xué)習(xí)如何與人交談.目前,非任務(wù)型對話系統(tǒng)主要有兩種實現(xiàn)方式,即基于信息檢索的方法和基于生成的方法.

        基于生成的方法主要使用機器翻譯技術(shù)來生成響應(yīng).Li等[18]認為傳統(tǒng)的Seq2Seq模型過于保守,傾向于生成安全通用的回答,因此使最大互信息代替最大似然估計作為新的目標函數(shù).MMI可以產(chǎn)生多樣化的響應(yīng),并且生成的語句更契合主題.Xing等[19]提出了一種基于Seq2Seq的模型,通過聯(lián)合注意機制和偏差生成的概率權(quán)衡主題信息,從而生成豐富的響應(yīng).基于生成的方法實用性較差,需要大量的時間進行訓(xùn)練,并且生成的回答很容易產(chǎn)生語法錯誤.

        基于信息檢索的方法通過搜索和排序從現(xiàn)有數(shù)據(jù)集中進行篩選,選擇匹配度最高的回答作為響應(yīng).早期基于信息檢索的方法主要用于短文本和單輪對話.Hao等[20]基于實際的樣例構(gòu)建了一個短文本對話數(shù)據(jù)集,為后面的研究提供了豐富的示例.Hu等[21]提出了一種卷積神經(jīng)網(wǎng)絡(luò)模型來匹配兩個語句.該模型不僅可以表示句子的層級結(jié)構(gòu),而且在不同層級上捕捉豐富的匹配模式.Wang等[22]提出了一種被稱為深度匹配樹的模型.深度匹配樹利用深度神經(jīng)網(wǎng)絡(luò)挖掘句法信息的模式,從而更高效、直觀地計算兩個短句之間的相似度.一般來說,上述算法僅適用于短文本或單輪對話,它們沒有考慮多輪對話中對話上下文和各個話語之間的序列依賴關(guān)系.

        近年來,研究人員研究的重心轉(zhuǎn)向了多輪對話的研究.多輪對話需要考慮對話語境的長期依賴關(guān)系,這比研究單輪對話要困難得多.Lowe等[15]構(gòu)建了世界上最大的多輪對話語料庫Ubuntu數(shù)據(jù)集,它的出現(xiàn)促進了多輪對話的發(fā)展.Kadlec等[23]研究了CNN[24]、LSTM[25]、Bi-LSTM等不同深度網(wǎng)絡(luò)在Ubuntu數(shù)據(jù)集上的性能表現(xiàn).Zhou等[26]提出了Multi-view模型(Multi-view Response Selection Model),該模型結(jié)合了話語序列視圖和單詞序列視圖兩種不同視圖的信息.并且它把對話上下文中的話語都看做單獨的語句,并沒有把對話上下文看做一個長語句,這樣可以有效地捕捉話語之間的依賴關(guān)系.Yan等[27]經(jīng)過研究提出了DL2R(Deep Learning-to-respond),該網(wǎng)絡(luò)結(jié)合多種信息,使用CNN提取連續(xù)詞之間的局部鄰接特征,從而生成話語的復(fù)合表示.Wu等[16]提出了SMN模型(Sequential Matching Network),SMN在多個粒度級別上將對話上下文中的每個話語和回答進行匹配,并通過卷積和池化操作從話語回答對中提取重要的匹配信息.SMN充分考慮了之前的話語與回答之間的交互信息,因此它可以承載豐富的語義信息和長期依賴關(guān)系.An等[28]使用交叉卷積運算來擴展編碼器,通過從數(shù)據(jù)集中學(xué)習(xí)不同向量的表示從而改進了稀有詞的表示,解決了稀有詞的信息缺失的問題.Dong和Huang[29]將預(yù)訓(xùn)練的詞向量與在任務(wù)特定訓(xùn)練集上生成的向量相結(jié)合,從而解決大量未登錄詞的問題.Zhang等[30]使用GRU[31]對話語進行編碼,并且每個話語和最后一句話語進行融合,從而提高最后一句話語在對話上下文中的權(quán)重.然后采用門控自注意機制直接將融合后的表示與自身進行匹配,從而獲得更有區(qū)別性的語義特征.Zhou等[32]結(jié)合Transformer[33]提出了自注意力機制和交叉注意力機制,其中自注意力機制用于構(gòu)建具有不同粒度的文本片段表示,交叉注意力機制用于捕獲潛在匹配片段對之間的依賴關(guān)系.從而增強不同粒度的語義信息,為多輪對話答案選擇的語義匹配提供豐富的語義特征信息.

        3 模 型

        3.1 問題定義

        3.2 模型框架

        本文所提出的MRNA模型的總體架構(gòu)如圖1所示,包括詞語表示層、多粒度語義信息融合層、詞注意力層、語義匹配層以及預(yù)測層5個模塊.詞語表示層采用雙通道的方式更準確的表示語義表征向量.多粒度語義信息融合層將對話上下文和回答使用AHRE進行編碼,并且對編碼后的序列進行分割獲得前向序列相似度矩陣和后向序列相似度矩陣.詞注意力層通過動態(tài)地學(xué)習(xí)注意力矩陣的權(quán)重,從而提取與對話上下文和回答最契合的關(guān)鍵信息.語義匹配層將詞矩陣、前向序列矩陣、后向序列矩陣通過卷積和最大池化操作提取每個話語和回答對的特征信息,并通過GRU按時間順序累積向量.預(yù)測層則通過Softmax生成一個類標簽上的概率分布.

        圖1 MRNA模型架構(gòu)Fig.1 Framework of the MRNA model

        3.3 詞語表示層

        在深度神經(jīng)網(wǎng)絡(luò)中,如果要表示一個單詞就需要將單詞轉(zhuǎn)化為詞向量的形式.MRNA通過一個預(yù)先訓(xùn)練好的詞向量矩陣E∈R|D|×dv,將(C,R)對中的每一個詞都需要轉(zhuǎn)化為低維的詞向量,其中|D|表示詞典中的詞語數(shù),dv表示詞向量的維度.

        多輪對話語料庫中存在的未登錄詞是一個非常棘手的問題,句子中的未登錄詞無法映射為詞向量,導(dǎo)致句子語義信息的缺失,影響模型的有效性.MRNA使用卷積神經(jīng)網(wǎng)絡(luò)進行字符級編碼,并與詞向量進行連接,從而緩解未登錄詞對模型的影響.

        假設(shè)有一個單詞w=(x1,…,xi,…,xlw),xi代表單詞w中的第i個字符,lw代表w的字符數(shù).通過查詢預(yù)訓(xùn)練的字符向量表的方式將字符映射為一個向量wc∈Rdc,wc代表字符映射之后的向量,dc代表字符向量的維度.將單詞中的每個字符進行映射就可以得到單詞w的表征矩陣.之后將矩陣輸入到CNN中,并使用不同的過濾器來進行特征提取.經(jīng)過卷積和池化操作,再將所有的特征都連接起來.其中de表示CNN中過濾器的數(shù)量,第j個過濾器的大小使用sj來表示,卷積運算后第k個元素的輸出為oj,k.卷積和最大池化操作的公式如下:

        (1)

        (2)

        最后,將對話上下文和回答中的每個單詞的詞向量與該單詞的字符級表示連接起來,從而得到Ut=[et,1,…,et,i,…,et,lt]和R=[er,1,…,er,i,…,er,lr].Ut和R分別代表對話上下文第t句話語和回答的最終表示,et,i,er,i∈Rdw,dw代表最終詞向量的維度.

        3.4 多粒度語義信息融合層

        現(xiàn)在大多數(shù)對話系統(tǒng)的模型僅使用LSTM或GRU對話語進行編碼,這種方式無法充分捕獲到序列中的時序關(guān)系,導(dǎo)致上下文語義特征匱乏無法充分用于預(yù)測.為了增強所獲得的語義特征,我們采用了AHRE對話語進行編碼.AHRE采用層級BiLSTM,將l-1層的輸出作為第l層的輸入,并結(jié)合每個輸入詞向量進行堆疊,學(xué)習(xí)話語的線性變化.AHRE與只使用單層的RNN相比,性能得到了提高.AHRE計算公式如下:

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        3.5 詞注意力層

        為了防止在計算詞矩陣的過程中語句中的每個詞權(quán)重都相同,從而導(dǎo)致對話上下文和回答中語義相關(guān)信息得不到突出,引入詞注意力層.詞注意力層采用詞注意力機制.通過動態(tài)學(xué)習(xí)注意力矩陣的權(quán)重,詞注意力機制將單詞權(quán)重集中在對話上下文和回答中最匹配的關(guān)鍵詞上,以防止無關(guān)的單詞獲得更多注意力.首先將句子語義表征s輸入到MLP中,從而獲得hs作為s的隱藏層表示,s代表3.3節(jié)中對話上下文和回答中任意一句話的語義表征.之后使用Ws∈Ratt×1來動態(tài)計算注意力權(quán)重的分布,通過一個softmax函數(shù)得到歸一化的注意力權(quán)重a.最后,將句子和歸一化的權(quán)重進行元素逐位相乘,從而獲得詞注意力層的輸出.詞注意機制的公式如下:

        hs=tanh(sWw+bw)

        (9)

        a=softmax(hsWs)

        (10)

        (11)

        其中s代表輸入的句子,o為詞注意力機制的輸出.Ww∈Rdw×att,bw∈R1×att代表參數(shù),att代表注意力機制的大小.⊙代表元素之間按照對應(yīng)位置相乘.

        (12)

        其中M3,t代表詞語的相似度矩陣.

        3.6 語義匹配層

        (13)

        (14)

        將池化層的輸出輸入到全連接層進行降維操作,從而獲得Ut和R語義融合的向量表示.將全連接層的輸出的所有向量進行連接操作可以得到[Z1,…,Zlt]∈Rlt×df,df表示經(jīng)過全連接層之后的維度.由于對話上下文中的每個話語還包含時序關(guān)系,MRNA使用GRU對話語之前的潛在語義關(guān)系進行建模.將[Z1,…,Zlt]作為一個序列輸入到GRU當中,獲取最后的隱藏狀態(tài)Hm=[h1,…,hlt].GRU的計算公式如下:

        (15)

        (16)

        (17)

        (18)

        其中zi和ri分別代表更新門和重置門,σ(.)代表sigmoid函數(shù),Wz,Wr,Wh,Vz,Vr,Vh代表訓(xùn)練的參數(shù),⊙代表元素之間按照對應(yīng)位置相乘.

        3.7 預(yù)測層

        預(yù)測層以語義匹配層的輸出作為輸入通過一個全連接的層,并使用softmax函數(shù)來生成一個類標簽上的概率分布g(C,R).g(C,R)的定義如下:

        (19)

        其中Wd和bd代表參數(shù).MRNA使用交叉熵作為損失函數(shù)計算損失值,通過Adam優(yōu)化算法進行學(xué)習(xí)率的更新,利用反向傳播迭代更新模型參數(shù),以最小化損失函數(shù)來訓(xùn)練模型.其中,最小化損失函數(shù)Loss的計算公式如下:

        (20)

        4 實驗和結(jié)果

        4.1 數(shù)據(jù)集

        本文選擇使用Ubuntu和Douban兩個數(shù)據(jù)集對MRNA模型進行評估.Ubuntu數(shù)據(jù)集是目前最大的英文多輪對話語料庫,內(nèi)容主要是從Ubuntu聊天內(nèi)容中提取出來,作為對話問題的公共語料庫.Ubuntu數(shù)據(jù)集中積極的回答來自于人的對話,而消極的回答是從數(shù)據(jù)庫中隨機選擇的.訓(xùn)練集包含100萬個對話上下文-回答-標簽組,其中積極和消極的回答比例是相同的.在驗證和測試集上,積極的回答和消極的回答的比例是1:9.豆瓣數(shù)據(jù)集是開放域的中文數(shù)據(jù)集,從豆瓣網(wǎng)爬取得到,候選回答通過一個檢索系統(tǒng)獲得.表1顯示了兩個數(shù)據(jù)集的統(tǒng)計信息.

        表1 數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of datasets

        4.2 對比算法

        實驗中對比算法的如下:

        TF-IDF[23]:TF-IDF一般用于獲取給定單詞對某個文檔的重要程度.

        RNN[23]:該模型使用兩個RNN分別對對話上下文和回答進行時序建模,使用隱藏層計算出最后的分數(shù).

        LSTM[23]:該模型使用LSTM通過遺忘門移除上一層的隱藏層狀態(tài),對對話上下文和回答的長期依賴性進行建模.

        MV-LSTM[34]:該模型將對話上下文視為一個句子構(gòu)造捕獲詞語信息的矩陣,然后使用RNN提取局部句子的相互信息,其重要性由四種類型的門決定.

        Match-LSTM[35]:該模型將對話上下文連接成一個長語句,兩個語句在每個位置上的交互是由其前綴之間的交互以及在詞語層面上的交互組成.

        Multi-View[26]:該模型從話語序列視圖和單詞序列視圖兩種不同視圖的信息計算上下文和候選回答之間的匹配程度.它把對話上下文中的話語都看做單獨的語句,并沒有把對話上下文看做一個長語句.

        DL2R[27]:該模型首先使用不同方法,用先前對話上下文的話語來重構(gòu)對話上下文最后話語.然后用RNN和CNN的組合表示候選的回答和先前重構(gòu)的話語.最后,通過連接這些表示來計算匹配分數(shù).

        SMN[16]:該模型分別在詞語級和句子級分別對對話上下文的每個話語和回答進行匹配并通過卷積和池化操作從話語回答對中提取重要的匹配信息.最后輸入到GRU中,對序列信息進行建模.

        DUA[30]:該模型首先使用GRU對話語進行編碼,并且每個話語和最后一句話語進行融合,提高最后一句話語在對話上下文中的權(quán)重.然后采用門控自注意機制直接將融合后的表示與自身進行匹配,從而獲得更有區(qū)別性的語義特征.

        上述對比模型中,TF-IDF是基于傳統(tǒng)統(tǒng)計的方法.RNN、LSTM是基于單一循環(huán)神經(jīng)網(wǎng)絡(luò)的單輪對話模型,MV-LSTM、Match-LSTM也是單輪對話模型,Multi-View、DL2R、SMN、DUA則為多輪對話模型.MRNA、SMN、DUA均采用CNN對詞矩陣和句子矩陣進行特征提取,但MRNA獲取的是層級的序列信息,并且使用詞注意力機制獲取關(guān)鍵詞,而SMN、DUA則僅獲取單層的序列信息,詞矩陣的生成也僅僅是簡單的將對話上下文和回答相乘.

        4.3 實驗設(shè)置和評估指標

        在這兩個數(shù)據(jù)集上,詞向量的訓(xùn)練根據(jù)Gu等[14]的操作進行.在Ubuntu數(shù)據(jù)集上,我們將300維Glove詞向量和100維Word2vec詞向量進行連接操作,從而得到最終的詞向量.在中文Douban數(shù)據(jù)集上,我們將Song等[36]提出的200維詞向量和200維Word2vec詞向量進行連接操作,從而得到最終的詞向量.因為中文字符量太大,我們只在Ubuntu數(shù)據(jù)集上使用字符級編碼,字符級表示使用的是150維的向量.對于字符級編碼,在卷積操作中使用3,4,5分別作為窗口大小進行運算.在多粒度語義信息融合層中,BiLSTM的隱藏層大小為200,層數(shù)為3.在單詞注意力模塊中,注意機制的大小為25.在匹配層中,GRU的隱藏層大小為200.我們的學(xué)習(xí)使用Adam作為優(yōu)化器,初始學(xué)習(xí)率是0.001.

        本文采用與參考文獻[16]相同的評價指標.Rn@k表示在n個候選回答中,選擇了k個最匹配的回答,并且正確的回答在這k個回答之中.在Ubuntu數(shù)據(jù)集上,我們選擇R2@1,R10@1,R10@2,R10@5作為評價指標.在Douban數(shù)據(jù)集上,除了使用R10@1,R10@2,R10@5作為評價指標,我們還加入了MAP[37]、MRR[38]、P@1作為評價指標.

        4.4 實驗結(jié)果分析

        表2展示了MRNA和基準算法在Ubuntu和Douban數(shù)據(jù)集上的實驗結(jié)果.除MRNA模型外,其他模型的相關(guān)數(shù)據(jù)均來自其他文獻.從表2的實驗結(jié)果可以發(fā)現(xiàn),MRNA模型在兩個數(shù)據(jù)集的表現(xiàn)均優(yōu)于所有基準算法.與LSTM、MV-LSTM等單輪對話算法相比,MRNA在各個評價指標上都有明顯的提升.與效果最佳的單輪對話模型MV-LSTM相比,在Ubuntu數(shù)據(jù)集上,MRNA的R2@1、R10@1、R10@2、R10@5分別提升了3%、10.4%、6.4%、2.1%.在Douban數(shù)據(jù)集上,MRNA的R10@1、R10@2、R10@5分別提升了6.2%、8%、8.7%.從實驗結(jié)果可以發(fā)現(xiàn),MRNA模型相比于MV-LSTM模型有較大的性能提升.MRNA模型中,對話上下文中的每一個句子都和回答進行匹配,并使用GRU對上下文特征信息進行提取,從而保留了對話中的上下文信息.而MV-LSTM模型將對話上下文連接成一個長句,忽略了對話間的上下文依賴.這也是單輪對話模型性能普遍低于多輪對話模型的主要原因.與SMN、DUA等多輪對話模型相比,MRNA也獲得了較優(yōu)的性能.和DUA相比,在Ubuntu數(shù)據(jù)集上,R10@1和R10@5分別提升了0.5%,R10@2的效果持平.在Douban數(shù)據(jù)集上,MRNA的所有評價指標都提升了1%左右.這是因為在MRNA模型分別使用AHRE和詞注意力機制提取層級信息和句子中的關(guān)鍵信息.DUA模型盡管將對話上下文的每句話和最后一句話進行融合,并且使用門控自注意力機制提取語義信息.但DUA沒有考慮序列的層級信息,并且詞矩陣未使用注意力機制提取其中的關(guān)鍵詞,這樣容易導(dǎo)致上下文語義信息的缺失.

        表2 MRNA與基準模型的性能對比Table 2 Overall performance of MRNA and the baseline models

        4.5 模型分析

        表3 消融實驗結(jié)果Table 3 Ablation experiment results

        實驗結(jié)果如表3所示,可以看出各模塊對MRNA模型的總體性均有積極的影響.MRNA w/o CHAR在Ubuntu數(shù)據(jù)集R2@1、R10@1、R10@2、R10@5分別下降了0.6%、1.7%、1.2%、0.3%.上述結(jié)果表明字符級編碼的有效性.字符級編碼主要是用來解決未登錄詞的問題,避免由于某些不在詞匯表中的詞造成語義缺失的情況.MRNA w/o AHRE在Ubuntu數(shù)據(jù)集R2@1、R10@1、R10@2、R10@5分別下降了0.7%、1.7%、1.1%、0.4%,在Douban數(shù)據(jù)集上MAP和MRR分別下降了1%、1%.AHRE模塊使用多層BiLSTM提取序列信息,層數(shù)的選擇非常重要,并且會影響模型的效果.上述結(jié)果顯示,僅使用BiLSTM的效果并不理想,因為它無法捕獲足夠的時序信息.MRNA w/o Word Attention在Ubuntu數(shù)據(jù)集R2@1、R10@1、R10@2、R10@5分別下降了1.3%、2.7%、2.2%、0.9%,在Douban數(shù)據(jù)集上MAP和MRR分別下降了0.9%、0.6%.詞注意力機制模塊的主要功能是將對話上下文和回答中最匹配的單詞賦予較大的權(quán)重,將一些無用的單詞賦予較小的權(quán)重,從而達到提取關(guān)鍵詞的效果.上述結(jié)果也驗證了詞注意力機制的有效性.MRNA w/o Split在Ubuntu數(shù)據(jù)集R2@1、R10@1、R10@2分別下降了0.2%、0.6%、0.3%,R10@5持平,在Douban數(shù)據(jù)集上MAP和MRR分別下降了0.8%、1.1%.將編碼后的句子進行切分操作,這樣可以形成多粒度信息,從而有效地捕獲話語的潛在語義信息,克服話語之間的語義鴻溝.上述實驗結(jié)果也證明了分割句子操作的有效性.

        4.6 參數(shù)分析

        本節(jié)將通過實驗分析MRNA模型中的參數(shù)對MRNA的性能影響.在MRNA模型中,利用了GRU按時間順序累積特征向量,從而對對話上下文和回答的特征按時序關(guān)系進行建模.GRU隱藏層的設(shè)置成為了影響MRNA模型效果的重要超參.圖2中給出了不同超參數(shù)配置下GRU隱藏層大小對MRNA模型的影響.從Ubuntu數(shù)據(jù)集和Douban數(shù)據(jù)集的實驗結(jié)果來看,當GRU隱藏層大小為200時,模型效果最佳.當GRU為100時,隱藏層大小不足以按照時間順序累積特征,使向量的特征信息收到損失.當GRU為300時,隱藏層大小又過大了一些,導(dǎo)致引入了一些無關(guān)信息.從實驗可以驗證GRU為200時效果最佳.

        圖2 GRU隱藏層大小對MRNA的影響Fig.2 Effect of GRU hidden layer size on MRNA

        在MRNA模型中,使用AHRE對對話上下文和回答進行編碼,從而提取對話上下和回答中豐富的時序信息.AHRE模塊的層數(shù)是影響MRNA模型效果的重要超參.實驗結(jié)果如圖3所示,在兩個數(shù)據(jù)集上,當AHRE模塊的層數(shù)為3時,提取層級序列信息的效果最好,層數(shù)如果持續(xù)增加,可能會出現(xiàn)過擬合現(xiàn)象反而使模型效果下降.

        圖3 AHRE層數(shù)對MRNA的影響Fig.3 Effect of AHRE layers on MRNA

        4.7 案例可視化分析

        本節(jié)通過可視化的方式研究展示詞注意力機制給語句中每個詞語所分配的注意力權(quán)重大小.MRNA的詞注意力模塊輸出的注意力權(quán)重分布根據(jù)每個單詞所賦予的注意力權(quán)重大小,顯示單詞的顏色.顏色越深,所賦予的權(quán)重越高.

        本文在Douban數(shù)據(jù)集中選擇了一個案例進行注意力權(quán)重可視化.例子如下{u1:什么星座是一個人在戰(zhàn)斗;u2:我一個人在戰(zhàn)斗白羊;u3:我也是一個人奮斗的白羊;R:請睡感謝在這個冷清的夜陪伴我的你祝明天考好;}.圖4顯示了Douban例子中u2和R的注意力權(quán)重分配.在u2中“戰(zhàn)斗”和“白羊”這兩個詞是這一句話的關(guān)鍵詞.因為在u1中正在詢問的主體是“什么星座”,并且后面跟隨的動詞也正好是“戰(zhàn)斗”.在圖4中,我們可以很明顯的看出u2中“戰(zhàn)斗”和“白羊”這兩個詞顏色較深,說明分配了比較多的注意權(quán)重,“白羊”可以作為“什么星座”的回答,而u1和u2都出現(xiàn)了戰(zhàn)斗,上下呼應(yīng).在R當中注意力權(quán)重主要集中在“冷清”、“陪伴”、“考”這幾個詞上面.“陪伴”和“考”是動詞代表了這句話主要的動作,而“冷清”形容了當時的環(huán)境,這3個在句子中占有突出的意義.在圖4中還可以看出分配給“我”、“你”、“的”這樣的代詞和助詞比較少的注意力權(quán)重,說明注意力機制可以減少無關(guān)詞在整個句子中的作用,從而證明注意力機制的有效性.

        圖4 u2和R的注意力分布Fig.4 Attention distribution of u2 and R

        5 總 結(jié)

        本文中提出了一個結(jié)合詞注意力機制和多粒度的深度學(xué)習(xí)模型來解決多輪對話問題.MRNA融合詞向量和字符級向量,從而獲得更加準確的表征向量.為了更好的提取句子中的重要信息,MRNA提出了一種詞注意機制來更有效地提取對話上下文和回答匹配的關(guān)鍵詞信息.在句子信息的提取上,MRNA使用了分割句子的思想,擴展了句子級別的粒度,從而進一步增強了句子的語義信息.在兩個公共數(shù)據(jù)集上進行實驗,實驗表明MRNA模型可以產(chǎn)生最優(yōu)秀的效果.在未來的工作中,我們將會研究如何改善對于對話上下文的語義建模,如何更有效提取對話上下文中的時序信息.并且針對不同的對話主題和對話場景,從對話上下文中抽象出能代表對話主題的核心信息.

        猜你喜歡
        集上注意力語義
        讓注意力“飛”回來
        Cookie-Cutter集上的Gibbs測度
        語言與語義
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復(fù)扇形指標集上的分布混沌
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        中文字幕无码毛片免费看| 亚洲视频观看一区二区| 久久亚洲中文字幕精品二区| 免费网站内射红桃视频| 国产又滑又嫩又白| 久久中国国产Av秘 入口| 中文字幕av一区二区三区诱惑| 91九色成人蝌蚪首页| 私人毛片免费高清影视院| 欧美午夜a级精美理论片| 久草精品手机视频在线观看| 手机在线播放av网址| 综合色区亚洲熟妇另类| 久久AⅤ无码精品为人妻系列 | 丰满巨臀人妻中文字幕| 国产精品无码人妻在线| 藏春阁福利视频| 欧美一级视频在线| 亚洲中文字幕人成乱码在线| 久久天天躁狠狠躁夜夜躁2014| 欧美在线三级艳情网站| 久久人妻av不卡中文字幕| 极品粉嫩小仙女高潮喷水操av| 免费无码又黄又爽又刺激| 亚洲红怡院| 亚洲综合av一区在线| 亚洲人成人无码www| 精品国产av最大网站| 亚洲欧美日韩在线中文一| 99久久精品国产91| 人妻少妇偷人精品无码| 欧美精品在线一区| 精品黄色一区二区三区| 大肉大捧一进一出好爽视频动漫| 97久久天天综合色天天综合色hd | 无码人妻丰满熟妇区五十路百度| 女人的天堂av免费看| 国产高清视频在线不卡一区| 亚洲成av人片在www| 欧美在线日韩| 日本精品少妇一区二区|