亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層編碼的深度增強(qiáng)學(xué)習(xí)對(duì)話生成

        2017-12-14 05:22:14趙宇晴
        計(jì)算機(jī)應(yīng)用 2017年10期
        關(guān)鍵詞:譯碼器中間層語(yǔ)句

        趙宇晴,向 陽(yáng)

        (同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201800) (*通信作者電子郵箱shxiangyang@#edu.cn)

        基于分層編碼的深度增強(qiáng)學(xué)習(xí)對(duì)話生成

        趙宇晴,向 陽(yáng)*

        (同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201800) (*通信作者電子郵箱shxiangyang@#edu.cn)

        面向?qū)υ捝蓡?wèn)題,提出一種構(gòu)建對(duì)話生成模型的方法——基于分層編碼的深度增強(qiáng)學(xué)習(xí)對(duì)話模型(EHRED),用以解決當(dāng)前標(biāo)準(zhǔn)序列到序列(seq2seq)結(jié)構(gòu)采用最大似然函數(shù)作為目標(biāo)函數(shù)所帶來(lái)的易生成通用回答的問(wèn)題。該方法結(jié)合了分層編碼和增強(qiáng)學(xué)習(xí)技術(shù),利用分層編碼來(lái)對(duì)多輪對(duì)話進(jìn)行建模,在標(biāo)準(zhǔn)seq2seq的基礎(chǔ)上新增了中間層來(lái)加強(qiáng)對(duì)歷史對(duì)話語(yǔ)句的記憶,而后采用了語(yǔ)言模型來(lái)構(gòu)建獎(jiǎng)勵(lì)函數(shù),進(jìn)而用增強(qiáng)學(xué)習(xí)中的策略梯度方法代替原有的最大似然損失函數(shù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明EHRED能生成語(yǔ)義信息更豐富的回答,在標(biāo)準(zhǔn)的人工測(cè)評(píng)中,其效果優(yōu)于當(dāng)前廣泛采用的標(biāo)準(zhǔn)seq2seq循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型5.7~11.1個(gè)百分點(diǎn)。

        對(duì)話生成;深度增強(qiáng)學(xué)習(xí);分層編碼;循環(huán)神經(jīng)網(wǎng)絡(luò);序列到序列

        0 引言

        對(duì)話系統(tǒng),也稱作交互式會(huì)話代理、虛擬代理或聊天機(jī)器人,其有著廣泛的應(yīng)用場(chǎng)景,例如技術(shù)支持服務(wù)、語(yǔ)言學(xué)習(xí)工具、個(gè)人助理等[1-2],對(duì)話系統(tǒng)作為其中實(shí)現(xiàn)自然語(yǔ)言理解和體現(xiàn)機(jī)器智能的重要交互接口受到了廣泛關(guān)注。目前,如何讓機(jī)器與人類進(jìn)行持續(xù)的、有意義的對(duì)話是對(duì)話生成領(lǐng)域待解決的重要問(wèn)題之一[3],本文針對(duì)該問(wèn)題進(jìn)行了有效的實(shí)驗(yàn)研究。

        盡管基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的序列到序列(sequence to sequence, seq2seq)模型[4]為對(duì)話生成帶來(lái)了諸多便利,并被廣泛應(yīng)用,然而這類基于seq2seq的模型的實(shí)驗(yàn)結(jié)果并不全都盡如人意,基于seq2seq的對(duì)話模型容易給出很多通用回答,比如“我不知道”(這句話可能在訓(xùn)練集中出現(xiàn)多次),而真實(shí)場(chǎng)景下則希望對(duì)話是有意義的、信息豐富的,顯然“我不知道”并不是一個(gè)好的回答,它終結(jié)了此輪對(duì)話。為了探索解決這個(gè)問(wèn)題的方法,使對(duì)話模型能夠與人類進(jìn)行持續(xù)的、有意義的對(duì)話,本文提出一種基于分層編碼的深度增強(qiáng)學(xué)習(xí)對(duì)話模型(Enhanced Hierarchical Recurrent Encoder Decoder Model, EHRED)。首先,提出一種能夠存儲(chǔ)歷史信息的分層編碼對(duì)話模型;之后,再引入增強(qiáng)學(xué)習(xí)的方法,弱化標(biāo)簽的作用,增強(qiáng)遠(yuǎn)距離信息間的相互聯(lián)系;最后,通過(guò)實(shí)驗(yàn)結(jié)果來(lái)證明其有效性。

        1 相關(guān)研究分析

        自然語(yǔ)言對(duì)話系統(tǒng)的技術(shù)主要分為兩類,基于手寫規(guī)則的和基于數(shù)據(jù)驅(qū)動(dòng)的。20世紀(jì)60年代著名的Eliza系統(tǒng)就是基于手寫規(guī)則的,能與用戶進(jìn)行簡(jiǎn)單的對(duì)話。然而基于規(guī)則的解決方案過(guò)于依賴精心設(shè)計(jì)的有限的對(duì)話參數(shù)或是一些手工模板,而模板又是領(lǐng)域敏感的,因此這類解決方案,如馬爾可夫決策過(guò)程(Markov Decision Process, MDP)[5-8]、部分可觀測(cè)馬爾可夫決策過(guò)程(Partially Observable Markov Decision Process, POMDP)[9-11]等通常被用來(lái)解決特定領(lǐng)域的任務(wù),泛化能力和通用性較差,離復(fù)雜場(chǎng)景下的實(shí)用化還有很大距離。大數(shù)據(jù)時(shí)代為自然語(yǔ)言對(duì)話研究提供了一個(gè)新的機(jī)會(huì),大量的對(duì)話數(shù)據(jù)可以從實(shí)際的場(chǎng)景中獲得,隨著深度神經(jīng)網(wǎng)絡(luò)在越來(lái)越多的基于大量數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練的任務(wù)中取得矚目的成果,基于數(shù)據(jù)驅(qū)動(dòng)的方法成為研究的主流。起初深度學(xué)習(xí)僅在語(yǔ)音和圖像處理領(lǐng)域取得了巨大的成功,因?yàn)閳D像和音頻數(shù)據(jù)天然可以編碼并存儲(chǔ)成稠密向量的形式,而自然語(yǔ)言處理則通常是將字詞轉(zhuǎn)成離散的單獨(dú)的稀疏向量,對(duì)特征的編碼是隨機(jī)的,沒(méi)有任何關(guān)聯(lián)信息。在Word2Vec出現(xiàn)之后,語(yǔ)言中的字詞得以轉(zhuǎn)化為計(jì)算機(jī)可以理解的、空間上相互關(guān)聯(lián)的稠密向量,深度學(xué)習(xí)開(kāi)始在自然語(yǔ)言處理領(lǐng)域取得突破性進(jìn)展。

        基于數(shù)據(jù)驅(qū)動(dòng)的方法又分為基于檢索的方式和基于生成的方式?;跈z索的方式將大量的單輪對(duì)話實(shí)例存儲(chǔ)在索引里,每一個(gè)實(shí)例由一個(gè)對(duì)話輸入和其所對(duì)應(yīng)的回復(fù)組成。每輸入一個(gè)信息,檢索模塊從索引中檢索與其相關(guān)的信息和回復(fù),并將最適合的回復(fù)返回,作為給出的回答。這種方式的優(yōu)點(diǎn)是不會(huì)出現(xiàn)語(yǔ)法錯(cuò)誤,但模式是通過(guò)檢索的方式給出索引庫(kù)中已有的回答,而符合自然語(yǔ)言處理宗旨的模式應(yīng)該是通過(guò)結(jié)合之前的經(jīng)驗(yàn)進(jìn)行思考以給出回答,因此受到廣泛關(guān)注的是基于生成的方式。

        基于生成的方式將對(duì)話生成問(wèn)題看作是一種“源到目標(biāo)”的映射問(wèn)題,直接從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)從輸入信息到最終輸出之間的映射關(guān)系。Ritter等[12]首次將對(duì)話映射問(wèn)題看成一個(gè)統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation, SMT)問(wèn)題,雖然結(jié)果優(yōu)于基于信息檢索的系統(tǒng),然而其實(shí)驗(yàn)結(jié)果也發(fā)現(xiàn)對(duì)話生成問(wèn)題要比機(jī)器翻譯問(wèn)題復(fù)雜得多,相對(duì)于機(jī)器翻譯,對(duì)話生成的回答更多樣化,和輸入的聯(lián)系也不那么緊密。Sutskever等[4]提出了一種通用的序列到序列的結(jié)構(gòu)(seq2seq),并在對(duì)話任務(wù)上取得了超過(guò)基于SMT的系統(tǒng)的效果。之后越來(lái)越多的人在seq2seq的基礎(chǔ)上進(jìn)行研究,基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域的研究越來(lái)越細(xì)致,然而深度學(xué)習(xí)雖然可以自動(dòng)提取大量語(yǔ)言數(shù)據(jù)中的特征,但是對(duì)數(shù)據(jù)集中數(shù)據(jù)數(shù)量和質(zhì)量的要求較高,如何從質(zhì)量有限的數(shù)據(jù)集中盡可能地提取有用特征也是深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域面臨的困境之一。Vinyals等[13]首次采用編碼器來(lái)將輸入信息編碼成一個(gè)向量來(lái)代表輸入語(yǔ)句的語(yǔ)義,并依據(jù)這個(gè)向量來(lái)生成回答。Li等[14]提出了一種用計(jì)算輸入和回答之間的互信息量的方法來(lái)代替標(biāo)準(zhǔn)seq2seq中作為目標(biāo)函數(shù)的最大似然估計(jì)函數(shù),來(lái)減小通用回答出現(xiàn)的比例。Su等[15]先用有監(jiān)督學(xué)習(xí)進(jìn)行對(duì)話模型的訓(xùn)練,然后用增強(qiáng)學(xué)習(xí)來(lái)改善其表現(xiàn),其實(shí)驗(yàn)結(jié)果證明增強(qiáng)學(xué)習(xí)能夠改善對(duì)話系統(tǒng)的表現(xiàn)。受到Su方法[15]的啟發(fā),本文將seq2seq與增強(qiáng)學(xué)習(xí)的優(yōu)勢(shì)結(jié)合起來(lái),并引入分層思想,提出了一種基于分層編碼的深度增強(qiáng)學(xué)習(xí)對(duì)話生成的方法。

        2 單輪對(duì)話模型seq2seq

        單輪對(duì)話是多輪對(duì)話的基礎(chǔ)。對(duì)話問(wèn)題可以看作是序列到序列的映射問(wèn)題,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以很方便地處理從某一序列到另一序列的映射問(wèn)題。2014年Sutskever等[4]提出了一種基于RNN的序列到序列映射模型seq2seq,并且取得了較好的實(shí)驗(yàn)結(jié)果,從此seq2eq成為很多對(duì)話模型的基礎(chǔ)。

        給定一系列輸入(x1,x2,…,xT),一個(gè)標(biāo)準(zhǔn)的RNN通過(guò)循環(huán)式(1)~(2)來(lái)計(jì)算一系列輸出(y1,y2,…,yT):

        ht=sigm(Whxxt+Whhht-1)

        (1)

        yt=Wyhht

        (2)

        對(duì)于對(duì)話問(wèn)題來(lái)說(shuō),輸入和輸出都是不定長(zhǎng)的,seq2seq的處理方法是,用一個(gè)RNN(編碼器)來(lái)將輸入序列映射到一個(gè)固定維度的向量,用另一個(gè)RNN(譯碼器)來(lái)將這個(gè)向量映射為目標(biāo)序列。通常采用RNN的一種變體長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[16]或其另一種變體門控循環(huán)單元(Gated Recurrent Unit, GRU)[17]替代RNN,來(lái)避免RNN自身結(jié)構(gòu)難以處理遠(yuǎn)距離信息間的相互聯(lián)系(即長(zhǎng)期依賴,又名長(zhǎng)期影響)的問(wèn)題,為了方便敘述,以下涉及到RNN及其變體時(shí)均簡(jiǎn)稱RNN。

        如式(3)所示,seq2seq的目標(biāo)是估計(jì)條件概率:

        p(y1,y2,…,yT′|x1,x2,…,xT)=

        (3)

        其中:(x1,x2,…,xT)是輸入序列;(y1,y2,…,yT′)是對(duì)應(yīng)的輸出序列,需要注意的是輸入和輸出序列的長(zhǎng)度未必相同。RNN接受一個(gè)詞語(yǔ)的過(guò)程稱為一個(gè)時(shí)間步的操作,處理輸入序列(x1,x2,…,xT)的編碼器在最后一個(gè)時(shí)間步的隱含層狀態(tài)就是固定維度向量ν。每個(gè)p(yt|ν,y1,y2,…,yt-1)都由詞匯表中的所有單詞的softmax函數(shù)結(jié)果來(lái)表示。

        3 基于分層編碼的多輪對(duì)話模型

        本文針對(duì)多輪對(duì)話,對(duì)seq2seq對(duì)話模型進(jìn)行了擴(kuò)展,提出了一種分層編碼對(duì)話模型。Sordoni等[18]在2015年提出了一種分層編碼器-譯碼器結(jié)構(gòu)模型HRED(Hierarchical Recurrent Encoder-Decoder),用于給出互聯(lián)網(wǎng)查詢建議,即通過(guò)用戶已經(jīng)提交的查詢來(lái)預(yù)測(cè)用戶的下一個(gè)查詢。分層結(jié)構(gòu)體現(xiàn)在用戶提交的查詢可以在兩個(gè)層面上分別被看作是兩種序列:每個(gè)查詢問(wèn)題可以被看作是一系列詞語(yǔ)組成的序列,用戶之前提交的一系列查詢可以被看作是一系列語(yǔ)句組成的序列。利用這種分層思想,將對(duì)話也分為兩個(gè)層次進(jìn)行建模,第一個(gè)層次是一次對(duì)話過(guò)程中所包含的若干語(yǔ)句,第二個(gè)層次是每個(gè)語(yǔ)句所包含的若干詞語(yǔ),依此本文建立了一個(gè)基于分層編碼的對(duì)話生成模型,如圖1所示。

        如圖1所示,基于HRED的對(duì)話模型包含三個(gè)RNN模塊:編碼器RNN、中間層RNN、譯碼器RNN,與標(biāo)準(zhǔn)seq2seq模型相比增加了一個(gè)中間層RNN。其中編碼器RNN、中間層RNN、譯碼器RNN均是一層含有若干個(gè)神經(jīng)單元的循環(huán)神經(jīng)網(wǎng)絡(luò),如第2章所述,由循環(huán)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)處理序列到序列的映射問(wèn)題。

        從圖1可知,輸入語(yǔ)句中每個(gè)詞語(yǔ)(U1,1,U1,2,…,U1,N1)的詞向量會(huì)被順次輸入到編碼器RNN里直至該輸入語(yǔ)句的結(jié)尾,此時(shí)編碼器中RNN神經(jīng)網(wǎng)絡(luò)的最終的隱含層狀態(tài)就相當(dāng)于將該輸入語(yǔ)句編碼成了一個(gè)“語(yǔ)句向量”,這個(gè)“語(yǔ)句向量”隨后將被輸入到中間層RNN。在編碼器RNN和中間層RNN順次處理完語(yǔ)句(U1,U2,…,Um)后,此時(shí)中間層RNN的隱含層狀態(tài)就包含了當(dāng)前m個(gè)“語(yǔ)句向量”的信息,這個(gè)隱含層狀態(tài)將作為中間層RNN的輸出,輸入到譯碼器RNN中。譯碼器RNN接受經(jīng)過(guò)編碼器RNN和中間層RNN編碼處理后的輸入語(yǔ)句(即中間層RNN最終的隱含層狀態(tài)的輸出)以及一個(gè)固定的初始詞語(yǔ)“GO”(“GO”沒(méi)有任何含義,只是為了符合神經(jīng)網(wǎng)絡(luò)對(duì)輸入格式的要求),來(lái)生成輸出語(yǔ)句的第一個(gè)詞語(yǔ),之后每個(gè)時(shí)間步都會(huì)接受前一時(shí)刻譯碼器所生成的詞語(yǔ)以及前一時(shí)刻譯碼器的隱含層狀態(tài)來(lái)生成當(dāng)前時(shí)刻輸出語(yǔ)句的詞語(yǔ),直至生成語(yǔ)句終止符“l(fā)t;EOSgt;”。需要注意的是譯碼器每生成一個(gè)詞語(yǔ)前都會(huì)接受中間層RNN最終的隱含層狀態(tài)輸出。

        圖1 基于分層編碼的對(duì)話生成模型結(jié)構(gòu)

        中間層RNN相當(dāng)于在對(duì)話者A和對(duì)話者B之間建立了相同的背景知識(shí),比如話題知識(shí)和概念知識(shí),這對(duì)于構(gòu)建一個(gè)有效的對(duì)話系統(tǒng)來(lái)說(shuō)至關(guān)重要。本文使用對(duì)話者A對(duì)話者B對(duì)話者A(A-B-A)的三輪對(duì)話形式來(lái)進(jìn)行實(shí)驗(yàn),根據(jù)HRED的結(jié)構(gòu)可知,HRED可被擴(kuò)展用于N輪對(duì)話。需要注意的是,在一次A-B-A對(duì)話中,處理每個(gè)語(yǔ)句中的每個(gè)詞語(yǔ)時(shí),編碼器RNN、中間層RNN、譯碼器RNN的參數(shù)是相同的,這樣有助于模型的訓(xùn)練和泛化。

        4 引入增強(qiáng)學(xué)習(xí)的對(duì)話模型

        4.1 seq2seq結(jié)構(gòu)的對(duì)話模型的缺陷

        基于seq2seq結(jié)構(gòu)的對(duì)話模型的實(shí)驗(yàn)結(jié)果存在很多問(wèn)題,最大的問(wèn)題之一是seq2seq結(jié)構(gòu)的對(duì)話模型傾向于給出通用回答,本文對(duì)該問(wèn)題的原因給出了如下分析:

        首先,seq2seq模型傾向于獲取局部特征,比如每個(gè)時(shí)間步作為輸入之一的前一時(shí)間步生成的詞語(yǔ);而作為全局特征輸入的譯碼器隱含層狀態(tài),在譯碼器生成第一個(gè)詞語(yǔ)之前是僅包含全部輸入語(yǔ)句信息的編碼器輸出,后來(lái)逐漸被譯碼器生成的新詞語(yǔ)稀釋(由于HRED中間層RNN的隱含層狀態(tài)每次都會(huì)被輸入譯碼器,所以HRED不存在這類稀釋問(wèn)題)。訓(xùn)練時(shí)每一時(shí)間步輸入譯碼器的詞語(yǔ)是訓(xùn)練集中的真實(shí)(ground_truth)詞語(yǔ),可以一定程度上確保譯碼器的隱含層狀態(tài)始終在接受正確的局部信息來(lái)生成下一個(gè)詞語(yǔ)。但是在預(yù)測(cè)時(shí),譯碼器的隱含層狀態(tài)接受的是上一時(shí)間步的預(yù)測(cè)詞語(yǔ),一旦預(yù)測(cè)詞語(yǔ)偏離了預(yù)期,譯碼器的隱含層狀態(tài)所包含的輸入語(yǔ)句信息不僅被稀釋,還被加入了噪聲,這樣一來(lái)之后的所有詞語(yǔ)的預(yù)測(cè)都會(huì)受到影響。

        其次,從學(xué)習(xí)的角度來(lái)說(shuō),譯碼器的隱藏層狀態(tài)hm需要包含時(shí)間步m之前的所有信息,來(lái)生成下一個(gè)時(shí)間步的詞語(yǔ)(短期目標(biāo)),同時(shí)在實(shí)際輸出軌跡的向量空間里占據(jù)一個(gè)位置來(lái)影響未來(lái)可能生成的若干個(gè)輸出詞語(yǔ)(長(zhǎng)期目標(biāo)),與此同時(shí)hm的狀態(tài)還不斷被新預(yù)測(cè)的詞語(yǔ)所稀釋。鑒于梯度消失效應(yīng)[19],短期目標(biāo)有著更大的影響,模型更傾向于實(shí)現(xiàn)短期目標(biāo)而非長(zhǎng)期目標(biāo),因此在訓(xùn)練過(guò)程中模型參數(shù)更傾向于僅僅貪婪生成下一個(gè)詞語(yǔ)。

        從概率角度分析,隨機(jī)變化僅在較低的層次注入(seq2seq結(jié)構(gòu)中最后的softmax層),因此模型在訓(xùn)練時(shí)便更傾向于獲取序列的局部特征,而非全局或長(zhǎng)期特征,這是因?yàn)樵诘蛯哟巫⑷氲碾S機(jī)變化更傾向于符合近期獲取的觀察結(jié)果的規(guī)律,大大弱化了更久時(shí)間之前的觀察結(jié)果的影響或是對(duì)未來(lái)的觀察的影響??梢园央S機(jī)變化看作是向確定性成分添加的噪聲變量,如果這個(gè)噪聲變量在建立高層次表示這一步時(shí)就被注入,就可以視作覆蓋了序列的絕大部分,其效果可以等同于長(zhǎng)期依賴,但在seq2seq架構(gòu)里,噪聲變量?jī)H在低層次表示中注入。

        從損失函數(shù)的角度分析,假設(shè)seq2seq類的模型的目標(biāo)語(yǔ)句是[w1,w2,…,wT],則訓(xùn)練時(shí)的損失函數(shù)可以表示為式(4),訓(xùn)練目標(biāo)是最小化損失函數(shù)L的值:

        L=-logp(w1,w2,…,wT)=

        (4)

        (5)

        這就造成預(yù)測(cè)的是不相關(guān)的,或是通用的回答。為了探索解決這個(gè)問(wèn)題的方法,使對(duì)話模型能夠與人類進(jìn)行可持續(xù)的、有意義的對(duì)話,本文引入了增強(qiáng)學(xué)習(xí)的方法來(lái)訓(xùn)練新的目標(biāo)函數(shù)。

        4.2 引入增強(qiáng)學(xué)習(xí)的意義

        根據(jù)第3章描述的分層編碼模型結(jié)構(gòu)可知,對(duì)話生成是一個(gè)序列決策問(wèn)題,每個(gè)時(shí)間步依據(jù)譯碼器上一時(shí)間步生成的詞語(yǔ)和對(duì)話歷史信息來(lái)順序生成下一個(gè)詞語(yǔ)。而增強(qiáng)學(xué)習(xí)的本質(zhì)就是解決序列決策(Sequential Decision Making, SDM)問(wèn)題,它可以針對(duì)一系列變化的環(huán)境狀態(tài),輸出一系列對(duì)應(yīng)的行動(dòng),并在這些行動(dòng)完成后得到獎(jiǎng)勵(lì)。增強(qiáng)學(xué)習(xí)的目標(biāo)是根據(jù)環(huán)境狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì),學(xué)習(xí)出最佳的策略,并以最終結(jié)果為目標(biāo),不能只看某個(gè)行動(dòng)當(dāng)下帶來(lái)的利益,還要看到這個(gè)行動(dòng)未來(lái)能帶來(lái)的價(jià)值,以獲得最大的累計(jì)收益作為最好的結(jié)果來(lái)進(jìn)行策略的學(xué)習(xí)。

        增強(qiáng)學(xué)習(xí)不像無(wú)監(jiān)督學(xué)習(xí)那樣完全沒(méi)有學(xué)習(xí)目標(biāo),也不像監(jiān)督學(xué)習(xí)那樣有著非常明確的目標(biāo)(標(biāo)簽)(基于RNN的seq2seq模型屬于監(jiān)督學(xué)習(xí)),增強(qiáng)學(xué)習(xí)沒(méi)有標(biāo)簽來(lái)告訴算法在某種情況下應(yīng)該做出什么樣的行為,只有做出一系列行為后反饋回來(lái)的累計(jì)獎(jiǎng)勵(lì),并通過(guò)這個(gè)累計(jì)獎(jiǎng)勵(lì)的信號(hào)來(lái)判斷當(dāng)前行為的好與壞。增強(qiáng)學(xué)習(xí)面對(duì)的輸入一般是變化的、不明確的,與監(jiān)督學(xué)習(xí)中獨(dú)立同分布的輸入不同,增強(qiáng)學(xué)習(xí)不需要正確的輸入/標(biāo)簽對(duì),甚至可能不存在絕對(duì)正確的標(biāo)簽,增強(qiáng)學(xué)習(xí)通過(guò)不斷的試錯(cuò)、反饋、學(xué)習(xí)來(lái)尋找最優(yōu)策略。

        增強(qiáng)學(xué)習(xí)強(qiáng)調(diào)在探索未知的環(huán)境(Exploration)和利用現(xiàn)有知識(shí)(Exploitation)之間找到平衡。Exploitation指根據(jù)已知的信息來(lái)最大化累計(jì)獎(jiǎng)勵(lì),Exploration則會(huì)放棄一些已知的獎(jiǎng)勵(lì)信息,而且嘗試一些新的選擇。因?yàn)樵谀撤N環(huán)境狀態(tài)下,算法可能已經(jīng)學(xué)習(xí)到如何選擇動(dòng)作來(lái)讓獎(jiǎng)勵(lì)較大,但并不是每次都會(huì)作出同樣的選擇,也許另一個(gè)沒(méi)有嘗試過(guò)的動(dòng)作會(huì)讓最終的累計(jì)獎(jiǎng)勵(lì)更大,Exploration強(qiáng)調(diào)更多地探索環(huán)境狀態(tài)信息。

        結(jié)合4.1節(jié)的描述可知,增強(qiáng)學(xué)習(xí)的算法特點(diǎn)天然地補(bǔ)充了seq2seq有監(jiān)督對(duì)話模型傾向于受短期利益影響而非考慮長(zhǎng)期利益、從而容易陷入次優(yōu)解的缺陷。

        增強(qiáng)學(xué)習(xí)已經(jīng)有幾十年的歷史,但是直到最近幾年深度學(xué)習(xí)技術(shù)的突破,增強(qiáng)學(xué)習(xí)才有了比較大的進(jìn)展。用神經(jīng)網(wǎng)絡(luò)來(lái)替代增強(qiáng)學(xué)習(xí)中的值函數(shù)和策略函數(shù),使之變成價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò),從而使連續(xù)動(dòng)作狀態(tài)問(wèn)題可解,是深度增強(qiáng)學(xué)習(xí)的基本思想。

        4.3 基于深度增強(qiáng)學(xué)習(xí)的對(duì)話生成模型

        標(biāo)準(zhǔn)的增強(qiáng)學(xué)習(xí)配置是一個(gè)智能體在一系列離散時(shí)間步中與環(huán)境ε進(jìn)行交互。在每個(gè)時(shí)間步t,智能體接受狀態(tài)st,并根據(jù)策略π,在動(dòng)作空間A里選擇一個(gè)動(dòng)作at,之后智能體會(huì)獲得狀態(tài)st+1和一個(gè)即時(shí)回報(bào)rt,直到智能體到達(dá)一個(gè)終止?fàn)顟B(tài)然后重新開(kāi)始下一回合。如式(6)所示,累計(jì)回報(bào)Rt是t時(shí)刻起所獲得的全部即時(shí)回報(bào)之和,其中γ∈(0,1]為折扣系數(shù)。

        (6)

        在基于HRED的對(duì)話生成模型中,動(dòng)作a為生成對(duì)話語(yǔ)句U3的某個(gè)詞語(yǔ)U3,N3,狀態(tài)s為t時(shí)刻譯碼器隱藏層狀態(tài),策略π可以被看作是整個(gè)編碼器-中間層-譯碼器,由其中的所有參數(shù)來(lái)定義。對(duì)話模型的目標(biāo)是在每個(gè)狀態(tài)st都能獲得最大的累計(jì)回報(bào)Rt。

        最終的梯度是▽?duì)萳ogπ(at|st;θ)(Rt-bt(st)),其中bt(st)是從累計(jì)回報(bào)中學(xué)習(xí)得到的基線,通常將一個(gè)學(xué)習(xí)到的價(jià)值函數(shù)估計(jì)來(lái)用作基線,即bt(st)≈Vπ(st);用來(lái)衡量策略梯度的數(shù)量Rt-bt可以被看作是狀態(tài)st下動(dòng)作at的優(yōu)勢(shì)估計(jì),即A(at,st)=Q(at,st)-V(st),其中Rt是Qπ(at,st)的估計(jì),而動(dòng)作價(jià)值Q(a,s)=E[Rt|st=s,a]是在策略π下在狀態(tài)s下選擇動(dòng)作a后所期望得到的累計(jì)回報(bào);bt是Vπ(st)的估計(jì),Vπ(st)=E[Rt|st=s]是在策略π下?tīng)顟B(tài)s的價(jià)值,即從狀態(tài)s開(kāi)始遵循策略π所期望得到的累計(jì)回報(bào)。其中價(jià)值函數(shù)Vπ(st)和動(dòng)作價(jià)值函數(shù)Qπ(at,st)均采用深度神經(jīng)網(wǎng)絡(luò)來(lái)描述,即bt(st)和Rt均采用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近,其中深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如第3章構(gòu)建的基于分層編碼的對(duì)話模型所示。

        該基于分層編碼的深度增強(qiáng)學(xué)習(xí)對(duì)話生成模型(EHRED)的算法偽代碼見(jiàn)算法1。

        算法1 EHRED模型算法。

        設(shè)θ為策略網(wǎng)絡(luò)參數(shù)矩陣;θv為價(jià)值網(wǎng)絡(luò)參數(shù)矩陣。

        t=1

        whiletlt;Tmax

        dθ=0, dθv=0

        tstart=t

        獲取環(huán)境st(上一時(shí)刻的隱藏層狀態(tài))

        whileat-1≠EOS andt-tstartlt;tmax

        at=π(st,θ)

        獲取獎(jiǎng)勵(lì)rt

        獲取新的環(huán)境狀態(tài)st+1

        t=t+1

        fori=t-1,t-2, …,tstartdo:

        R=ri+γR

        dθ=dθ+▽?duì)萳ogπ(si,θ)(R-V(si,θv))

        dθv=dθv+?(R-V(si,θv))2/?θv

        使用dθ和dθv更新θ和θv

        EHRED模型首先對(duì)標(biāo)準(zhǔn)seq2seq增加了中間層來(lái)記憶歷史信息,每次譯碼輸出之前都會(huì)接受未被譯碼器輸出稀釋的、完整記錄了所有歷史信息的中間層的隱含層狀態(tài)輸出,即每次預(yù)測(cè)下一個(gè)詞語(yǔ)前都會(huì)接受之前的背景知識(shí);而且由于增強(qiáng)學(xué)習(xí)考慮的是累積回報(bào),所以訓(xùn)練時(shí)一個(gè)詞語(yǔ)的生成會(huì)受到之后生成的詞語(yǔ)的影響。綜上所述該模型對(duì)于對(duì)話的長(zhǎng)期影響進(jìn)行了充分考慮。

        5 實(shí)驗(yàn)與分析

        5.1 數(shù)據(jù)集

        本次實(shí)驗(yàn)的數(shù)據(jù)集來(lái)源是opensubtitle 電影字幕語(yǔ)料庫(kù),這是一個(gè)開(kāi)源免費(fèi)的語(yǔ)料庫(kù)。電影字幕包含的話題非常寬泛,而且通常都是兩個(gè)或非常有限的人數(shù)之間進(jìn)行長(zhǎng)時(shí)間的、上下文關(guān)聯(lián)性強(qiáng)的交流互動(dòng),并且由于其公映的特殊性而很少有拼寫或語(yǔ)法錯(cuò)誤,采用一個(gè)電影字幕數(shù)據(jù)集無(wú)疑是構(gòu)建開(kāi)域?qū)υ捪到y(tǒng)的正確選擇之一。

        5.2 過(guò)程與參數(shù)

        本文所構(gòu)建的深度網(wǎng)絡(luò)模型的目標(biāo)函數(shù)是一個(gè)非凸函數(shù),而梯度下降算法無(wú)法有效解決非凸問(wèn)題,模型可能陷入局部最優(yōu)解。為了更好地訓(xùn)練模型使其接近全局最優(yōu)解,采用了預(yù)訓(xùn)練的方法,即在訓(xùn)練深度增強(qiáng)網(wǎng)絡(luò)之前,先訓(xùn)練目標(biāo)函數(shù)為普通交叉熵的深度神經(jīng)網(wǎng)絡(luò)模型,然后將該訓(xùn)練好的模型參數(shù)作為待訓(xùn)練的深度增強(qiáng)網(wǎng)絡(luò)的初始化參數(shù);并引入relu激活函數(shù)、dropout技術(shù)等深度網(wǎng)絡(luò)訓(xùn)練時(shí)所使用的技巧(tricks)。本次預(yù)訓(xùn)練從opensubtitle語(yǔ)料庫(kù)中抽取了400萬(wàn)條對(duì)話語(yǔ)句來(lái)作為訓(xùn)練集和測(cè)試集,在現(xiàn)有的實(shí)驗(yàn)條件下(一塊GPU)平均每次訓(xùn)練時(shí)間約為7 d。

        深度網(wǎng)絡(luò)訓(xùn)練過(guò)程不可能不采用梯度下降算法,而傳統(tǒng)的隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)在誤差反向傳播過(guò)程中會(huì)存在收斂過(guò)慢或在最優(yōu)點(diǎn)附近震蕩而不收斂的問(wèn)題,為了更好地訓(xùn)練神經(jīng)網(wǎng)絡(luò),本次優(yōu)化算法采用了均方根傳播(Root Mean Square Propagation, RMSProp)算法,RMSProp是一種自適應(yīng)的算法,可以在迭代過(guò)程中自適應(yīng)地減小學(xué)習(xí)速率,先采用較高的學(xué)習(xí)速率以便快速收斂到最優(yōu)值附近,然后采用較低的學(xué)習(xí)速率逐漸穩(wěn)定地收斂到最優(yōu)值。為了防止過(guò)擬合,每50個(gè)epoch進(jìn)行一次評(píng)估,設(shè)定當(dāng)損失函數(shù)值是前一時(shí)刻的損失函數(shù)值的3倍時(shí)停止訓(xùn)練(early stopping)。

        每次訓(xùn)練時(shí)通過(guò)觀察policy network和value network的損失函數(shù)值是否不再降低來(lái)判斷模型是否已經(jīng)收斂,并根據(jù)最終穩(wěn)定下來(lái)的損失函數(shù)值的大小來(lái)調(diào)試確定最佳參數(shù)。本次深度增強(qiáng)模型的訓(xùn)練從opensubtitle語(yǔ)料庫(kù)中抽取了40萬(wàn)條對(duì)話語(yǔ)句作為訓(xùn)練集和測(cè)試集,在與預(yù)訓(xùn)練同等實(shí)驗(yàn)條件下(一塊GPU),平均每次的訓(xùn)練時(shí)間約為2 d。EHRED和HRED的編碼器層、中間層、譯碼器層以及RNN[4]的編碼器層、譯碼器層均采用250個(gè)LSTM神經(jīng)單元。詞向量采用Word2Vec工具進(jìn)行初始化,詞向量的維數(shù)定為200。

        5.3 結(jié)果與分析

        評(píng)估對(duì)話系統(tǒng)是比較困難的,較為常見(jiàn)的評(píng)估指標(biāo)如BLEU[20]等一直以來(lái)都存在爭(zhēng)議,即它們是否能夠真正地衡量回答的質(zhì)量,正如前面所說(shuō),對(duì)話系統(tǒng)的目標(biāo)并不僅僅是預(yù)測(cè)概率最大的回答,而是應(yīng)該充分考慮長(zhǎng)期影響,生成上下文有意義的、語(yǔ)義信息豐富的、讓人感到有交互感的回答。因此本次實(shí)驗(yàn)采用同文獻(xiàn)[3]相同的人工測(cè)評(píng)方法。

        將EHRED、HRED和RNN[4]對(duì)同一輸入所分別預(yù)測(cè)的輸出語(yǔ)句進(jìn)行人工測(cè)評(píng),來(lái)判斷哪種模型的輸出語(yǔ)句更好,表1中的數(shù)值分別代表三種不同評(píng)價(jià)所占的比例。從如表1所示的人工測(cè)評(píng)結(jié)果可看出:融合了增強(qiáng)學(xué)習(xí)方法的EHRED的效果較傳統(tǒng)RNN模型來(lái)說(shuō)有很大提升,與沒(méi)有融合增強(qiáng)學(xué)習(xí)方法的HRED相比,效果也有一定的提高,說(shuō)明HRED的中間層和增強(qiáng)學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)方法對(duì)于對(duì)話中長(zhǎng)期影響的建模起到了一定作用,使得對(duì)話效果有了提升,更符合人類的對(duì)話習(xí)慣。

        表1 EHRED、HRED和RNN的人工測(cè)評(píng)結(jié)果比較 %

        由于在同樣的對(duì)話情境下有很多種不相同的、但是都合理的回答,所以考慮Top10的有效率更能反映出模型的效果。和大多數(shù)文獻(xiàn)[4]一樣,本次實(shí)驗(yàn)用beam search來(lái)得到模型最優(yōu)的前10個(gè)輸出結(jié)果。如表2所示,當(dāng)輸出語(yǔ)句被人為判定為有意義時(shí),輸出語(yǔ)句有效,表中的比率是有意義的輸出語(yǔ)句占總體輸出語(yǔ)句的百分比。由表2可看出,EHRED的效果明顯要高于傳統(tǒng)RNN模型,尤其是在考慮Top10時(shí),說(shuō)明EHRED能給出更多樣性的合理的回答,從而證明了基于層次編碼的增強(qiáng)學(xué)習(xí)模型的有效性。

        表2 EHRED和RNN的Top1和Top10有效率比較 %

        表3 EHRED模型實(shí)驗(yàn)結(jié)果實(shí)例

        表3展示了一些實(shí)驗(yàn)結(jié)果的實(shí)例,其中Reference(U1,U2)一欄的內(nèi)容是一輪對(duì)話中的前兩句,Response一欄的內(nèi)容是與之對(duì)應(yīng)的各個(gè)模型預(yù)測(cè)輸出的結(jié)果,其中EHRED這一行的內(nèi)容是EHRED模型預(yù)測(cè)輸出的結(jié)果,RNN這一行的內(nèi)容是RNN模型預(yù)測(cè)輸出的結(jié)果,TARGET這一行的內(nèi)容是訓(xùn)練集中原有的目標(biāo)語(yǔ)句。從表3中的實(shí)例可以看到,RNN傾向于給出“我不知道”“好”這種通用回答,而EHRED則可以給出語(yǔ)義更為豐富的回答。

        6 結(jié)語(yǔ)

        本文介紹了如何將標(biāo)準(zhǔn)seq2seq改進(jìn)為層次模型HRED應(yīng)用于多輪對(duì)話系統(tǒng),來(lái)加強(qiáng)對(duì)歷史信息的記憶;詳細(xì)分析了標(biāo)準(zhǔn)seq2seq中長(zhǎng)期目標(biāo)的缺失和損失函數(shù)的缺點(diǎn);闡明了如何用增強(qiáng)學(xué)習(xí)的策略梯度方法代替標(biāo)準(zhǔn) seq2seq中的損失函數(shù)來(lái)彌補(bǔ)其對(duì)長(zhǎng)期影響的建模的缺失從而提升對(duì)話質(zhì)量。

        當(dāng)前的EHRED對(duì)話模型采用了bi_gram語(yǔ)言模型來(lái)構(gòu)建獎(jiǎng)勵(lì)函數(shù),未來(lái)可以圍繞“好的對(duì)話應(yīng)該由哪些因素來(lái)定義”這一思考,用語(yǔ)義邏輯更強(qiáng)的方式來(lái)構(gòu)建獎(jiǎng)勵(lì)函數(shù),以期取得更優(yōu)的結(jié)果。

        References)

        [1] YOUNG S, GASIC M, THOMSON B, et al. POMDP-based statistical spoken dialog systems: a review [J]. Proceedings of the IEEE, 2013, 101(5): 1160-1179.

        [2] SHAWAR B A, ATWELL E. Chatbots: are they really useful? Journal for Language Technology amp; Computational Linguistics, 2007, 22(1) :29-49.

        [3] LI J, MONROE W, RITTER A, et al. Deep reinforcement learning for dialogue generation [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1606.01541.pdf.

        [4] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 3104-3112.

        [5] LEVIN E, PIERACCINI R, ECKERT W. Learning dialogue strategies within the Markov decision process framework [C]// Proceedings of the 1997 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 1997: 72-79.

        [6] LEVIN E, PIERACCINI R, ECKERT W. A stochastic model of human-machine interaction for learning dialog strategies [J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(1): 11-23.

        [7] WALKER A, PRASAD R, STENT A. A trainable generator for recommendations in multimodal dialog [EB/OL]. [2017- 01- 10]. https://pdfs.semanticscholar.org/3385/397d3be400c3f4a6f79f9c47 e67e50333b45.pdf.

        [8] PIERACCINI R, SUENDERMANN D, DAYANIDHI K, et al. Are we there yet? Research in commercial spoken dialog systems [C]// TSD 2009: Proceedings of the 12th International Conference on Text, Speech and Dialogue. Berlin: Springer, 2009: 3-13.

        [9] YOUNG S, GASIC M, KEIZER S, et al. The hidden information state model: a practical framework for POMDP-based spoken dialogue management [J]. Computer Speech amp; Language, 2010, 24(2): 150-174.

        [10] GASIC M, BRESLIN C, HENDERSON M, et al. POMDP-based dialogue manager adaptation to extended domains [C]// SIGdial 2013: Proceedings of the 14th Annual SIGdial Meeting on Discourse and Dialogue. Metz, France: [s.n.], 2013: 214-222.

        [11] GASIC M, KIM D, TSIAKOULIS P, et al. Incremental on-line adaptation of POMDP-based dialogue managers to extended domains [EB/OL]. [2017- 01- 10]. https://pdfs.semanticscholar.org/6719/ef93142d64a69b52c916f9ee132b5339d9d1.pdf.

        [12] RITTER A, CHERRY C, DOLAN W B. Data-driven response generation in social media [C]// EMNLP 2011: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 583-593.

        [13] VINYALS O, LE Q. A neural conversational model [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1506.05869.pdf.

        [14] LI J, GALLEY M, BROCKETT C, et al. A diversity-promoting objective function for neural conversation models [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1510.03055.pdf.

        [15] SU P-H, GASIC M, MRKSIC N, et al. Continuously learning neural dialogue management [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1606.02689.pdf.

        [16] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [EB/OL]. [2017- 01- 10]. http://www.bioinf.jku.at/publications/older/2604.pdf.

        [17] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1406.1078.pdf.

        [18] SORDONI A, BENGIO Y, VAHABI H, et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion [C]// CIKM 2015: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 553-562.

        [19] HOCHREITER S, SCHMIDHUBER J. LSTM can solve hard long time lag problems [EB/OL]. [2017- 01- 10]. http://www.bioinf.jku.at/publications/older/3004.pdf.

        [20] PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation [C]// ACL 2002: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2002: 311-318.

        [21] TIEDEMANN J. News from OPUS — a collection of multilingual parallel corpora with tools and interfaces[EB/OL]. [2017- 01- 10]. http://stp.lingfil.uu.se/~joerg/published/ranlp-V.pdf.

        [22] AMEIXA D, COHEUR L, FIALHO P, et al. Luke, I am your father: dealing with out-of-domain requests by using movies subtitles [C]// IVA 2014: Proceedings of the 14th International Conference on Intelligent Virtual Agents. Berlin: Springer, 2014: 13-21.

        [23] BENGIO Y. Practical recommendations for gradient-based training of deep architectures [M]// MONTAVON G, ORR G B, MüLLER K-R. Neural Networks: Tricks of the Trade. 2nd ed. Berlin: Springer, 2012: 437-478.

        [24] GASIC M, BRESLIN C, HENDERSON M, et al. Online policy optimisation of Bayesian spoken dialogue systems via human interaction [C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8367-8371.

        [25] SHANG L, LU Z, LI H. Neural responding machine for short-text conversation [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1503.02364.pdf.

        [26] SINGH S, LITMAN D, KEARNS M, et al. Optimizing dialogue management with reinforcement learning: experiments with the NJFun system [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 105-133.

        [27] BAHDANAU D, CHO K H, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1409.0473.pdf.

        [28] RANZATO M A, CHOPRA S, AULI M, et al. Sequence level training with recurrent neural networks [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1511.06732.pdf.

        Dialoggenerationbasedonhierarchicalencodinganddeepreinforcementlearning

        ZHAO Yuqing, XIANG Yang*

        (DepartmentofComputerScienceandTechnology,TongjiUniversity,Shanghai201800,China)

        Aiming at dialog generation problem, a dialog generation model based on hierarchical encoding and deep reinforcement learning, namely Enhanced Hierarchical Recurrent Encoder-Decoder (EHRED) was proposed to solve the problem that standard sequence to sequence (seq2seq) architectures are more likely to raise highly generic responses due to the Maximum Likelihood Estimate (MLE) loss function. A multi-round dialog model was built by hierarchical structure, and a hierarchical layer was added to enhance the memory of history dialog based on the standard seq2seq architecture, and then a language model was used to build reward function, replacing traditional MLE loss function with policy gradient method in deep reinforcement learning for training. Experimental results show that EHRED can generate responses with richer semantic information and improve by 5.7-11.1 percentage points in standard manual evaluation compared with the widely used traditional standard seq2seq Recurrent Neural Network (RNN) dialog generation model.

        dialog generation; deep reinforcement learning; hierarchical encoding; recurrent neural network; sequence to sequence (seq2seq)

        2017- 04- 28;

        2017- 06- 14。

        國(guó)家自然科學(xué)基金資助項(xiàng)目(71571136);國(guó)家973計(jì)劃項(xiàng)目(2014CB340404);上海市科委基礎(chǔ)研究項(xiàng)目(16JC1403000)。

        趙宇晴(1995—),女,遼寧盤錦人,碩士研究生,主要研究方向:自然語(yǔ)言處理、深度學(xué)習(xí); 向陽(yáng)(1962—),男,重慶人,教授,博士,主要研究方向:管理信息系統(tǒng)、云計(jì)算、語(yǔ)義計(jì)算、大數(shù)據(jù)挖掘。

        1001- 9081(2017)10- 2813- 06

        10.11772/j.issn.1001- 9081.2017.10.2813

        TP183

        A

        This work is partially supported by the National Natural Science Foundation of China (71571136), the National Basic Research Program (973 Program) of China (2014CB340404), the Shanghai Municipal Science and Technology Research Project (16JC1403000).

        ZHAOYuqing, born in 1995, M. S. candidate. Her research interests include natural language processing, deep learning.

        XIANGYang, born in 1962, Ph. D., professor. His research interests include management information system, cloud computing, semantic computing, big-data mining.

        猜你喜歡
        譯碼器中間層語(yǔ)句
        重點(diǎn):語(yǔ)句銜接
        糾錯(cuò)模式可配置的NAND Flash BCH譯碼器設(shè)計(jì)
        精彩語(yǔ)句
        跟蹤導(dǎo)練(一)5
        鎳基高溫合金TLP擴(kuò)散焊中間層材料研究進(jìn)展
        焊接(2016年8期)2016-02-27 13:05:10
        B含量對(duì)IC10合金TLP焊接用中間層材料及接頭組織的影響
        焊接(2016年6期)2016-02-27 13:04:55
        HINOC2.0系統(tǒng)中高速LDPC譯碼器結(jié)構(gòu)設(shè)計(jì)
        電力線通信中LDPC譯碼器的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)
        如何搞定語(yǔ)句銜接題
        社會(huì)中間層建設(shè)與活動(dòng)機(jī)制網(wǎng)研究
        激情视频在线观看免费播放| 亚洲娇小与黑人巨大交| 国语精品一区二区三区| 亚洲日韩一区二区一无码| 中文字幕乱码中文乱码毛片 | 精品人妻一区二区三区不卡毛片| 男女主共患难日久生情的古言| 国产办公室秘书无码精品99| 在线亚洲+欧美+日本专区| 国产成人精品三级在线影院| 亚洲精品尤物av在线网站| 国产精品老熟女乱一区二区| 精品露脸国产偷人在视频| 亚洲精品美女久久久久99| 2021av在线| 国产一级黄片久久免费看| 麻豆69视频在线观看| 日韩精品久久久久久免费| 男女性高爱潮免费观看| 欧美亚洲国产丝袜在线| 亚洲精品中文字幕一二三 | 日本黑人人妻一区二区水多多| 成人在线观看av毛片| 人妻丰满av无码中文字幕| 人妻 日韩精品 中文字幕| 99综合精品久久| 国产偷闻女邻居av在线观看| 亚洲中文字幕国产视频| 天天燥日日燥| 国产自产c区| 长腿丝袜在线观看国产| 91成人自拍国语对白| 国产高清av首播原创麻豆| 99热门精品一区二区三区无码| 国产精品成人有码在线观看| 亚洲久悠悠色悠在线播放| 中国少妇内射xxxx狠干| 亚洲AV无码精品色欲av| 国产一级自拍av播放| 国产精品视频亚洲二区| 九九精品国产亚洲av日韩 |