亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于單向Transformer和孿生網(wǎng)絡(luò)的多輪任務(wù)型對(duì)話技術(shù)

        2021-07-26 11:54:50劉超輝鄭青青黃嘉曦
        計(jì)算機(jī)工程 2021年7期
        關(guān)鍵詞:單向指令編碼

        王 濤,劉超輝,鄭青青,黃嘉曦

        (深圳市易馬達(dá)科技有限公司,廣東深圳518055)

        0 概述

        使機(jī)器以自然語(yǔ)言的方式與人類進(jìn)行交流,完成人類下達(dá)的任務(wù),是人工智能[1-3]領(lǐng)域最具挑戰(zhàn)的一項(xiàng)研究。1951年,圖靈在《計(jì)算機(jī)與智能》一文中提出用人機(jī)對(duì)話來(lái)測(cè)試機(jī)器智能水平[4],隨后掀起了關(guān)于人機(jī)對(duì)話研究的熱潮。近年來(lái),工業(yè)界更是將對(duì)話系統(tǒng)視為下一代人機(jī)交互的主要形式。2003年,BENGIO 等[5]率先將神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語(yǔ)言處理任務(wù),并取得了較好的效果。2010年,MIKOLOV等[6]提出的RNNLM 更是顯著提高了語(yǔ)言模型的準(zhǔn)確性,之后的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其各種變體如LSTM[7]、GRU[8],開始逐漸成為自然語(yǔ)言處理領(lǐng)域的常用技術(shù)。Google 于2017年提出了一種新的序列建模模型Transformer[9],在自然語(yǔ)言處理(NLP)領(lǐng)域引起了極大的反響,而后BERT[10]的發(fā)布更是將自然語(yǔ)言處理技術(shù)推上了一個(gè)新的臺(tái)階。

        任務(wù)型對(duì)話系統(tǒng)[11-12],即接受人類指令完成特定任務(wù)的對(duì)話系統(tǒng)是被工業(yè)界廣泛使用的對(duì)話系統(tǒng)之一。相比于閑聊型對(duì)話系統(tǒng),任務(wù)型對(duì)話系統(tǒng)存在以下難點(diǎn):可供使用的數(shù)據(jù)集相對(duì)較小,面向任務(wù)的對(duì)話系統(tǒng)因?yàn)槠淙蝿?wù)的特殊性,很難像閑聊系統(tǒng)項(xiàng)目啟動(dòng)之初即擁有大量的閑聊對(duì)話數(shù)據(jù)可以使用,而面向任務(wù)的對(duì)話系統(tǒng)針對(duì)不同的任務(wù),通常只能生成或取得非常少量的數(shù)據(jù)。任務(wù)型對(duì)話系統(tǒng)對(duì)應(yīng)答的準(zhǔn)確性要求較高,閑聊型對(duì)話系統(tǒng)應(yīng)答出錯(cuò)一般情況下不會(huì)引起使用者的不適,而任務(wù)型對(duì)話系統(tǒng)應(yīng)答出錯(cuò)會(huì)直接導(dǎo)致用戶下達(dá)的指令或任務(wù)無(wú)法被完成。

        為了解決上述問(wèn)題,本文構(gòu)建一種面向小數(shù)據(jù)集的任務(wù)型多輪對(duì)話控制模型。引入多個(gè)預(yù)訓(xùn)練模型[13]與工具,借助外部知識(shí)對(duì)句子語(yǔ)意和對(duì)話過(guò)程進(jìn)行深度編碼。通過(guò)對(duì)Transformer 模型做進(jìn)一步精簡(jiǎn),僅保留編碼器[14]部分的單向Transformer,從而充分利用了多頭自注意力機(jī)[9]優(yōu)秀的特征提取能力,并且使精簡(jiǎn)后的單向模型可以支持并行計(jì)算,提升計(jì)算效率。在此基礎(chǔ)上,將應(yīng)答部分抽象成指令,利用孿生神經(jīng)網(wǎng)絡(luò)[15]在小數(shù)據(jù)集上的優(yōu)勢(shì)對(duì)指令進(jìn)行基于相似度的排序,最終選取相似度最高的指令生成應(yīng)答。

        1 相關(guān)工作

        無(wú)論是學(xué)術(shù)界還是工業(yè)界,關(guān)于對(duì)話機(jī)器人的研究一直都沒有停止過(guò)。ZHOU[16]等提出了基于卷積神經(jīng)網(wǎng)絡(luò)[17]和循環(huán)神經(jīng)網(wǎng)絡(luò)的多輪對(duì)話檢索模型,該模型將對(duì)話上下文信息作為輸入,并從詞序列和句子序列2 個(gè)視角來(lái)計(jì)算匹配分?jǐn)?shù),最終結(jié)合2 個(gè)分?jǐn)?shù)來(lái)選擇回復(fù)?;谠~序列的視角將文本中所有詞按順序輸入到一個(gè)GRU 中,將其隱藏向量作為文本的語(yǔ)義表示;句子序列的視角則基于卷積神經(jīng)網(wǎng)絡(luò),先通過(guò)卷積和池化得到每個(gè)話語(yǔ)的表示,再輸入到另一個(gè)GRU 中輸出文本的表示。

        隨著Transformer的流行,越來(lái)越多的研究人員開始嘗試用Transformer構(gòu)建多輪對(duì)話模型。HENDERSON[18]等利用Transformer 在Reddit 數(shù)據(jù)集上構(gòu)建了一個(gè)大型的多輪對(duì)話模型,其中在對(duì)話控制和回復(fù)生成上全都采用了Transformer 結(jié)構(gòu),取得了較好的效果,證明了Transformer 在多輪對(duì)話系統(tǒng)建模上的優(yōu)秀性能。DINAN[19]等采用了一個(gè)類似的結(jié)構(gòu)使用Transformer 對(duì)多輪對(duì)話進(jìn)行建模,只是在回復(fù)生成部分,其設(shè)計(jì)提供了2 種方式:一種是檢索式的,即Transformer 模型用于對(duì)回復(fù)部分進(jìn)行排序:另一種是生成式的,即使用Transformer 直接生成token-bytoken 的回復(fù)。

        2 多輪對(duì)話控制模型

        本文提出的基于單向Transformer和孿生網(wǎng)絡(luò)的多輪對(duì)話控制技術(shù),引入了多個(gè)預(yù)訓(xùn)練模型來(lái)彌補(bǔ)數(shù)據(jù)樣本集較小和信息不足的問(wèn)題,借助外部知識(shí)對(duì)模型輸入和對(duì)話過(guò)程進(jìn)行深度編碼,同時(shí)對(duì)Transformer 模型進(jìn)行進(jìn)一步精簡(jiǎn),僅保留編碼器部分的單向Transformer。最后的應(yīng)答部分沒有采用傳統(tǒng)的分類模型,而是采用孿生神經(jīng)網(wǎng)絡(luò),通過(guò)最大化對(duì)話之間的相似度來(lái)為當(dāng)前的對(duì)話狀態(tài)和每個(gè)回復(fù)指令進(jìn)行建模。在預(yù)測(cè)階段,將當(dāng)前的對(duì)話狀態(tài)與所有可能的回復(fù)指令進(jìn)行比較,并選擇具有最高相似度的指令生成回復(fù)。具體的模型結(jié)構(gòu)如圖1所示。

        圖1 控制模型結(jié)構(gòu)Fig.1 Structure of control model

        2.1 預(yù)訓(xùn)練模型

        為了解決樣本數(shù)量較小的問(wèn)題,本文引入多個(gè)預(yù)訓(xùn)練模型和工具對(duì)句子語(yǔ)意和對(duì)話過(guò)程進(jìn)行深度編碼。首先充分利用預(yù)訓(xùn)練模型BERT 的先天優(yōu)勢(shì)將用戶輸入的文本編碼成特征向量,同時(shí)利用斯坦福大學(xué)的StanfordNLP[20]工具對(duì)用戶輸入的文本進(jìn)行進(jìn)一步處理,提取出文本中包含的實(shí)體、預(yù)定義插槽等深度語(yǔ)義特征,并將上述抽取的特征統(tǒng)一進(jìn)行one-hot 編碼。除此以外,為了盡可能地保存對(duì)話狀態(tài),將上一輪對(duì)話輸出的目標(biāo)指令同樣進(jìn)行one-hot編碼,一起加入到本輪對(duì)話的輸入中,最后將上述3 種編碼后的向量進(jìn)行拼接,作為單向Transformer的輸入。

        2.2 單向Transformer

        單向Transformer 的輸入包含了系統(tǒng)的歷史指令和文本的深度語(yǔ)義特征,如實(shí)體、插槽、預(yù)訓(xùn)練特征向量等,這樣就可以充分利用Transformer 的自注意力機(jī)制,使其自發(fā)地選擇一些重要的特征,同時(shí)忽略一些對(duì)對(duì)話過(guò)程影響不大的非重要特征,這一點(diǎn)在復(fù)雜多變的多輪對(duì)話中尤其重要。

        2.3 孿生神經(jīng)網(wǎng)絡(luò)

        本文將單向Transformer 的輸出作為孿生神經(jīng)網(wǎng)絡(luò)的其中一個(gè)輸入,再將目標(biāo)指令的one-hot 編碼作為另一個(gè)輸入。在輸出部分將正確的樣本標(biāo)記為1,錯(cuò)誤的樣本標(biāo)記為0,同時(shí)由于某些指令要比其他指令多很多,負(fù)樣本的數(shù)量也要比正樣本多,因此采用隨機(jī)采樣算法處理樣本均衡問(wèn)題,最后通過(guò)優(yōu)化孿生網(wǎng)絡(luò)的損失函數(shù)訓(xùn)練模型。在預(yù)測(cè)階段選用相似度最高的指令生成本輪對(duì)話中系統(tǒng)的回復(fù)。孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。

        圖2 孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure siamese network structure

        3 實(shí)驗(yàn)驗(yàn)證

        本文實(shí)驗(yàn)使用了2 個(gè)基線模型作為對(duì)比模型:第1 個(gè)是傳統(tǒng)的基于LSTM 的seq2seq 模型[21],該模型是現(xiàn)階段最穩(wěn)定也是工業(yè)界應(yīng)用最廣泛的模型之一;第2 個(gè)是HENDERSON 等于2019年提出的基于Transformer 的模型,該模型是現(xiàn)階段在任務(wù)型對(duì)話系統(tǒng)中表現(xiàn)最出色的模型之一。同時(shí),使用MultiWOZ 2.1 數(shù)據(jù)集[22]分別進(jìn)行了3 組實(shí)驗(yàn):第1 組實(shí)驗(yàn)對(duì)比了預(yù)訓(xùn)練模型對(duì)最終結(jié)果的影響;第2 組實(shí)驗(yàn)通過(guò)縮減數(shù)據(jù)集規(guī)模,對(duì)比在小數(shù)據(jù)集下本文模型的表現(xiàn)效果;第3 組實(shí)驗(yàn)對(duì)比了本文模型與另外2 個(gè)模型在時(shí)間效率上的差別。

        3.1 MultiWOZ 數(shù)據(jù)集

        在任務(wù)型對(duì)話系統(tǒng)中,需要對(duì)下一步的指令進(jìn)行預(yù)測(cè),因此類似WikiQA[23]或DailyDialog[24]這樣的數(shù)據(jù)集無(wú)法滿足需求,因?yàn)槔纭皁k”“copy that”等回復(fù)實(shí)際對(duì)應(yīng)的是同一個(gè)指令“YES”。因此,選用MultiWOZ 2.1 數(shù)據(jù)集作為本文的實(shí)驗(yàn)數(shù)據(jù)集。

        MultiWOZ 2.1 數(shù)據(jù)集包含了酒店、飯館、火車站、出租車、旅游景點(diǎn)、醫(yī)院、警察局等7 個(gè)不同情境的對(duì)話數(shù)據(jù)集,共包含10 438 條數(shù)據(jù)。所有的對(duì)話都發(fā)生在用戶和接待員之間。用戶會(huì)問(wèn)接待員相關(guān)問(wèn)題,要求接待員完成相關(guān)任務(wù),接待員會(huì)響應(yīng)用戶請(qǐng)求或要求用戶補(bǔ)充相關(guān)信息,如要求用戶提供姓名等。

        在本次任務(wù)中,將數(shù)據(jù)集按7∶3 的比例劃分成訓(xùn)練集和測(cè)試集,訓(xùn)練集7 307條數(shù)據(jù),測(cè)試集3 131條數(shù)據(jù)。

        3.2 深度編碼實(shí)驗(yàn)結(jié)果

        第1 輪實(shí)驗(yàn)中,采用全量的數(shù)據(jù)對(duì)上文基于LSTM、基于Transformer和本文模型進(jìn)行有無(wú)深度編碼的對(duì)比實(shí)驗(yàn)。在無(wú)深度編碼的分組,使用常用的詞向量[25]技術(shù)對(duì)用戶輸入進(jìn)行編碼;在深度編碼分組,采用本文提出的使用預(yù)訓(xùn)練的BERT 對(duì)用戶輸入進(jìn)行編碼,同時(shí)融入了實(shí)體、插槽等深度特征。最終的實(shí)驗(yàn)結(jié)果如表1所示。

        表1 深度編碼實(shí)驗(yàn)數(shù)據(jù)Table 1 Experimental data of deep encoding

        通過(guò)對(duì)比表1 的數(shù)據(jù)可以發(fā)現(xiàn),在任務(wù)型對(duì)話系統(tǒng)中,由于機(jī)器的每輪回復(fù)都是非常明確的指令,因此傳統(tǒng)的基于詞向量的編碼方式由于缺少任務(wù)中的關(guān)鍵信息而難以取得好的效果。分別對(duì)比3 個(gè)模型的詞向量編碼方式和深度編碼方式,可以發(fā)現(xiàn)本文提出的深度編碼方式總能取得更好的效果,特別是本文提出的模型相比于傳統(tǒng)的LSTM 基于詞向量的模型,在F1 Score 上取得了近3 倍的提升。

        3.3 小數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        第2 輪實(shí)驗(yàn)中,為了驗(yàn)證本文模型在小數(shù)據(jù)集上的表現(xiàn)效果,僅使用第1 輪實(shí)驗(yàn)1/5 的數(shù)據(jù)量,采用上述同樣的深度編碼的方式進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 小數(shù)據(jù)集實(shí)驗(yàn)數(shù)據(jù)Table 2 Experimental data of small dataset

        通過(guò)對(duì)比表2 和表1 的數(shù)據(jù)可以發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)縮減為原來(lái)的1/5 后,3 個(gè)模型的F1 Score 都有不同程度的下降,但本文提出模型的下降幅度遠(yuǎn)小于另外2 種模型,僅下降了9.8%,而另外2 種模型分別下降了35.9%和20.8%。HENDERSON 等提出的基于Transformer 的模型在數(shù)據(jù)集縮減后,分類的準(zhǔn)確率甚至不如傳統(tǒng)的基于LSTM 的模型。而本文提出的精簡(jiǎn)后的單向Transformer 模型融合孿生神經(jīng)網(wǎng)絡(luò),在小數(shù)據(jù)集上取得了比傳統(tǒng)LSTM 和HENDERSON 等提出的基于Transformer 模型都要好的效果。

        3.4 預(yù)測(cè)時(shí)間對(duì)比實(shí)驗(yàn)結(jié)果

        第3 輪實(shí)驗(yàn)中,為了驗(yàn)證本文模型在時(shí)間效率上的表現(xiàn)效果,隨機(jī)取出1 000 條數(shù)據(jù),然后分別使用3 種模型進(jìn)行預(yù)測(cè),從而對(duì)比3 種模型在計(jì)算性能上的表現(xiàn)效果。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 預(yù)測(cè)時(shí)間實(shí)驗(yàn)結(jié)果Table3 Experimental results of prediction time

        通過(guò)對(duì)比表3 數(shù)據(jù)可以發(fā)現(xiàn),本文提出模型的預(yù)測(cè)時(shí)間比HENDERSON 等提出的基于Transformer的模型要短24.1%,與傳統(tǒng)的基于LSTM 的模型的預(yù)測(cè)速度相近。

        4 結(jié)束語(yǔ)

        本文研究面向任務(wù)型對(duì)話系統(tǒng)的多輪對(duì)話控制技術(shù)。通過(guò)引入預(yù)訓(xùn)練模型和工具,借助外部知識(shí)對(duì)模型輸入和對(duì)話過(guò)程進(jìn)行深度編碼,同時(shí)對(duì)Transformer 模型進(jìn)行精簡(jiǎn),僅保留編碼器部分的單向Transformer。本文在應(yīng)答部分采用孿生網(wǎng)絡(luò)對(duì)對(duì)話過(guò)程進(jìn)行基于相似度的建模,最終選取相似度最高的指令生成回復(fù)。實(shí)驗(yàn)結(jié)果表明:在任務(wù)型對(duì)話系統(tǒng)中,當(dāng)數(shù)據(jù)集比較大時(shí),本文提出的模型效果優(yōu)于傳統(tǒng)的基于LSTM 的模型,與現(xiàn)階段先進(jìn)的基于Transformer 的模型的表現(xiàn)效果相當(dāng),且本文提出的深度編碼方式更加適合任務(wù)型對(duì)話系統(tǒng);當(dāng)數(shù)據(jù)集規(guī)模減小時(shí),在小數(shù)據(jù)集上,本文提出的模型準(zhǔn)確率損失幅度遠(yuǎn)小于傳統(tǒng)的基于LSTM 的模型和目前最先進(jìn)的基于Transformer 的模型,且總體表現(xiàn)效果比LSTM、Transformer2 種模型都更加優(yōu)秀,本文提出的模型在計(jì)算效率上也有一定幅度的提升,說(shuō)明本文模型相比另外2 種模型在速度上更快且更加適用于小型數(shù)據(jù)集。

        猜你喜歡
        單向指令編碼
        聽我指令:大催眠術(shù)
        碳纖維/PPS熱塑性單向預(yù)浸帶進(jìn)入市場(chǎng)
        用“單向?qū)m排除法”解四宮數(shù)獨(dú)
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        單向截止閥密封失效分析
        《全元詩(shī)》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        ARINC661顯控指令快速驗(yàn)證方法
        Genome and healthcare
        LED照明產(chǎn)品歐盟ErP指令要求解讀
        日本不卡在线一区二区三区视频| 久久精品国产精品青草| 欧美大屁股xxxxhd黑色| 无码久久流水呻吟| 久久精品国产亚洲av成人无人区| 国产一区二区视频免费在| 亚洲av永久精品爱情岛论坛| 国产久热精品无码激情 | 国产高清精品在线二区| 91精品国产综合久久久蜜| 777国产偷窥盗摄精品品在线| 国内大量揄拍人妻在线视频| 中国老太老肥熟女视频| 日韩一区二区三区精品视频| 又色又爽又高潮免费视频观看| 亚洲成人中文| 一区二区三区国产视频在线观看| 亚洲精品午夜久久久九九| 久久精品噜噜噜成人| 高清无码精品一区二区三区| 日韩av一区二区无卡| 中文无码人妻有码人妻中文字幕| 无遮无挡爽爽免费视频| 99久久久精品免费| 国产精品亚洲一区二区三区在线看| 国产福利永久在线视频无毒不卡 | 亚洲中文字幕女同一区二区三区| 今井夏帆在线中文字幕| 亚洲精品乱码久久久久久中文字幕| 亚洲av无码专区亚洲av桃| 在线观看黄片在线播放视频| 大奶白浆视频在线观看| 无遮无挡爽爽免费视频| 美女窝人体色www网站| 日本第一影院一区二区| 色噜噜av亚洲色一区二区| 国内精品人妻无码久久久影院94| 国产一区二区杨幂在线观看性色| 亚洲人成网线在线播放va蜜芽| 亚洲中久无码永久在线观看软件| 亚洲高清一区二区三区视频|