亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        具有個人信息的對話生成模型研究

        2021-02-25 08:51:52柯顯信白姣姣
        計算機(jī)應(yīng)用與軟件 2021年2期
        關(guān)鍵詞:信息模型

        曹 斌 柯顯信 白姣姣

        (上海大學(xué)機(jī)電工程與自動化學(xué)院 上海 200444)

        0 引 言

        隨著數(shù)據(jù)時代發(fā)展,人們越來越關(guān)注利用大量真實(shí)的交流數(shù)據(jù)來訓(xùn)練對話模型,這些模型的一個主要問題是它們傾向于選擇具有最大可能性的響應(yīng)(訓(xùn)練數(shù)據(jù)中表示的人類的共識響應(yīng)),產(chǎn)生的回復(fù)通常是模糊的或不一致的[1]。Vinyals等[2]指出,當(dāng)前的對話系統(tǒng)仍然無法通過圖靈測試,在眾多限制中,缺乏一致的個人信息是最具挑戰(zhàn)性的困難之一,如表1所示。在人機(jī)交互的過程中,對話的部分內(nèi)容會涉及到機(jī)器人的自身信息類問題[3],如姓名、年齡、性別等。和諧自然的人機(jī)交流需要機(jī)器人對于涉及個人信息類問題的回復(fù)總是穩(wěn)定的,不要出現(xiàn)前后不一致的現(xiàn)象。

        表1 信息不一致的回復(fù)

        近年來,Li等[4]以序列到序列模型為基礎(chǔ),通過Al-Rfou等[5]使用類似的用戶嵌入技術(shù)來模擬用戶個性化的工作,兩項(xiàng)研究都需要每個用戶的對話數(shù)據(jù)來模擬她/他的個性。Qian等[6]利用雙向解碼器來生成預(yù)先給定的個人信息,但是需要大量數(shù)據(jù)標(biāo)注信息位置。

        本文提出一種具有個人信息的對話模型,賦予聊天機(jī)器人特定個人信息(如表2所示),并使聊天機(jī)器人能夠生成與其給定信息一致的回復(fù)。

        表2 預(yù)設(shè)五種個人信息

        1 對話模型

        對話模型如圖1所示,任務(wù)描述如下:給出一個輸入問題x,問題分類器D預(yù)測問題x是否屬于個人信息問題:如果是,將問題轉(zhuǎn)入個人信息回復(fù)模塊,隨機(jī)返回問題所屬類別K的候選回復(fù)y作為模型回復(fù);否則轉(zhuǎn)入開放域?qū)υ捘K,生成回復(fù)y。生成回復(fù)的過程如下:

        圖1 對話模型

        P(y|x)=P(z=1|x)×PO(y|x(ki))+

        P(z=0|x)×PG(y|x)

        (1)

        式中:P(z|x)表示輸入問題(x)所屬類別的概率;z=1表示問題x屬于涉及個人信息,否則反之。PO(y|x(ki))表示個人信息回復(fù)模塊給出的所屬類別的答案的概率;PG(y|x)表示開放域?qū)υ捘K給出的回復(fù)的概率。

        2 問題分類模型

        分類模型用來判別輸入問題是否需要個人信息回復(fù)模塊處理,是一個二分類問題。用P(z|x)(z∈{0,1}),z=1表示需要個人對話模塊,例如:“你今年幾歲?”則P(z=1|x)≈1;“你哥哥今年幾歲?”則P(z=1|x)≈0。

        近年國內(nèi)外學(xué)者對于短文本分類的問題做了大量研究,主要分為兩類:機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法。機(jī)器學(xué)習(xí)領(lǐng)域有支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸(Logistics Regression,LR)、樸素貝葉斯分類法(Naive Bayes Classifier,NBC)、K-最近鄰法(k-Nearest Neighbor,KNN)、決策樹法(Decision Tree,DT)和中心向量法等[7]。深度學(xué)習(xí)算法有Kim[8]提出的Text-CNN,其具有良好表現(xiàn)。然而自然語言處理中最常用的是具有捕捉上下文信息的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。為了將RNN與CNN結(jié)合,又提出RNN-CNN模型來彌補(bǔ)CNN不能夠處理文本上下關(guān)系和RNN在長距離上存在信息衰減的問題。

        本文將對比各方法在語料上面的性能,綜合考慮選取恰當(dāng)?shù)姆椒ā?/p>

        3 個人信息回復(fù)模塊

        為了維護(hù)前后回復(fù)的信息一致性,本文的解決思路是相似問題匹配,即對比用戶的輸入問題與設(shè)定的數(shù)據(jù)庫中問題的相似度,返回最大相似度的問題的答案作為模型回復(fù)。相比于機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)能夠發(fā)掘以往很難發(fā)掘的隱含在大量數(shù)據(jù)中的不顯著特征,更細(xì)化地表達(dá)文本匹配問題[9]。

        本文以孿生網(wǎng)絡(luò)思想構(gòu)建個人信息回復(fù)模塊,如圖2所示。

        圖2 個人信息回復(fù)模型

        本文模型首先將兩個句子通過深度學(xué)習(xí)模型進(jìn)行表示,然后利用相似度方程計算這兩個表示之間的相似度即匹配度。該方法注重于構(gòu)建句子的表示層,盡量用等長的向量表示待匹配句子的語義。本文采用BiLSTM模型對句子的語義信息進(jìn)行表示,BiLSTM由正反兩個長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[10]模型組成。LSTM記憶單元各部分在時刻t更新如下:

        ft=σ(Wf·[ht-1,xt]+bf)

        (2)

        it=σ(Wi·[ht-1,xt]+bi)

        (3)

        (4)

        (5)

        ot=σ(WO[ht-1,xt]+bo)

        (6)

        ht=ot×tanh(Ct)

        (7)

        式中:it、ft、ot依次表示輸入門、遺忘門、輸出門;xt表示t時刻的特征向量;σ(·)表示sigmoid函數(shù)。

        BiLSTM模型增加對文本逆向語義的學(xué)習(xí)。連接正反兩個方向的LSTM模型輸出向量作為t時刻BiLSTM的輸出Bt[11]:

        (8)

        (9)

        (10)

        本文采用的損失函數(shù)是對比損失函數(shù),可以有效地處理成對數(shù)據(jù)的關(guān)系,其表達(dá)式如下[12]:

        (11)

        4 最大互信息的開放域?qū)υ捘P?/h2>

        基礎(chǔ)的Seq2seq模型是以最大對數(shù)似然為目標(biāo)函數(shù),模型在面對問題時會容易產(chǎn)生類似“我不知道”“呵呵”“哈哈”等通用無意義的回復(fù)。因此本文借鑒了Li等[13]提出的抗語言模型(anti-language model,anti-LM),以最大互信息作為Seq2seq的目標(biāo)函數(shù),公式如下:

        (12)

        (13)

        (14)

        式中:λlogP(T)視為對任何輸入都具有高概率的候選詞的懲罰,由參數(shù)λ控制懲罰的大小。由于懲罰項(xiàng)的存在,模型不再一昧選擇概率高的詞,避免產(chǎn)生通用的回答。但懲罰會影響句子結(jié)構(gòu)和流暢性,因此引入分段函數(shù)g(k)[14]:

        (15)

        (16)

        (17)

        前期生成詞對句子多樣性的影響顯著大于后期生成詞,為了盡可能地保證句子流暢性,在解碼器生成句子過程中僅僅對前期生成的高概率候選詞進(jìn)行懲罰。

        5 實(shí) 驗(yàn)

        5.1 數(shù)據(jù)樣本

        本文根據(jù)設(shè)定的五種身份信息,從微博、小黃雞語料和青云語料提取和采樣得到了10 072個樣本用于訓(xùn)練問題分類器。通過對樣本進(jìn)行標(biāo)注,涉及個人信息為正樣本(標(biāo)簽為1),反之為負(fù)樣本(標(biāo)簽為0),部分語料如表3所示。

        表3 部分問題分類樣本示例

        訓(xùn)練個人信息回復(fù)模型時需要輸入兩個句子和相似度。人工地將所收集的正樣本進(jìn)行五分類(姓名、年齡、性別、地點(diǎn)、職業(yè)),同類型樣本間構(gòu)成相似問題對(標(biāo)簽為1),不同類型間樣本構(gòu)成不相似問題對(標(biāo)簽為0),如表4所示。

        表4 部分相似度訓(xùn)練樣本示例

        5.2 問題分類

        本文測試了SVM、LR、NBC、CNN、LSTM和LSTM-CNN。傳統(tǒng)機(jī)器學(xué)習(xí)模型的文本表達(dá)形式為詞袋和TF-IDF;SVM采用線性核函數(shù);深度學(xué)習(xí)方法采用預(yù)先訓(xùn)練好的詞向量;CNN參考Text-CNN模型;LSTM模型利用最后一個時刻狀態(tài)經(jīng)過全連接輸出;LSTM-CNN利用CNN把LSTM每個時刻的輸出進(jìn)行卷積和池化。本文選取了準(zhǔn)確率、F1值和AUC值來評價各模型性能,實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同方法模型評估

        可以看出:(1) 基于詞袋的SVM取得了最好的性能指標(biāo)。(2) 傳統(tǒng)的機(jī)器學(xué)習(xí)分類性能整體優(yōu)于深度學(xué)習(xí),主要原因是因?yàn)樗崛〉恼Z料中某些詞匯頻繁出現(xiàn),比如涉及姓名信息問題中姓名、名字和叫什么等詞匯大量出現(xiàn),所以具有統(tǒng)計特性的模型會有良好表現(xiàn)。本文還選取準(zhǔn)確度最多的三個模型進(jìn)行加權(quán)平均法,但是分類效果沒有顯著提高。最終本文選取基于詞袋的SVM作為問題分類器。

        5.3 個人信息回復(fù)模型

        除了本文中的基于BiLSTM的孿生網(wǎng)絡(luò)的相似度計算方法外, 還比較了基于LSTM與全連接、基于BiLSTM與全連接、基于LSTM與余弦以及基于詞向量余弦距離和詞移距離(Word Mover’s Distance,WMD)的方法。以上幾種方法對應(yīng)簡稱為LSTM_F、BiLSTM_F、LSTM_cosine、w2v_cosine和w2v_wmd, 其中采用全連接層的網(wǎng)絡(luò)加入了Batch normalizationn層[15]來提高收斂速度,LSTM_cosine利用余弦計算logit與目標(biāo)值[1,0]的距離,作為相似度。

        由于本文設(shè)定五個身份信息,因此準(zhǔn)確性是指預(yù)測的類別是否為標(biāo)簽類別,公式如下:

        P=P(klabel=kp)

        (18)

        kp=K(max(Similarity))

        (19)

        式中:P為模型準(zhǔn)確度;klabel為標(biāo)定種類;kp為預(yù)測類別;K為設(shè)定的五類信息;Similarity為相似度。

        實(shí)驗(yàn)階段針對五種身份信息選取 500個問題作為匹配數(shù)據(jù)庫,每個類型100個,各模型實(shí)驗(yàn)結(jié)果如表6所示,均耗時指的是平均每個問題回復(fù)的時間。

        表6 各模型實(shí)驗(yàn)結(jié)果

        w2v_cosine和w2v_wmd直接將詞向量拼接來表示句子特征,這導(dǎo)致只要句子關(guān)鍵字相同就會判別句子表達(dá)主題相似,而本部分?jǐn)?shù)據(jù)經(jīng)過問題分類,選取的數(shù)據(jù)詞語分布集中所以取得了較高準(zhǔn)確率;BiLSTM_F、LSTM_F和LSTM_cosine利用LSTM能夠?qū)W習(xí)文本深層次關(guān)系。本文方法取得了較好的準(zhǔn)確率,因?yàn)閷Ρ葥p失函數(shù)可以很好地表達(dá)成對樣本的匹配程度,但是在時間效率上略有不足。

        為了回復(fù)的多樣性,本文為每個類別分別設(shè)置多個回復(fù)模板,比如關(guān)于年齡的回復(fù)有“我今年一歲了”“人家已經(jīng)一歲了”“一歲”“本寶寶出生一年了”等,每次選取一個答案作為回復(fù)。

        5.4 最大互信息回復(fù)模型

        對開放域回復(fù)模塊采用人工測評與BLEU評估結(jié)合的形式,分別以最大對數(shù)似然和互信息作為目標(biāo)函數(shù)訓(xùn)練了兩個對話模型。實(shí)驗(yàn)中最大互信息模型的懲罰系數(shù)λ取值為0.5,γ設(shè)定為1。

        兩個模型的BLEU值為0.17 和0.25,以最大互信息為目標(biāo)函數(shù)的模型較好。在人工測評中,讓20個人與兩個模型分別進(jìn)行20句以上的交互,判斷哪種生成的結(jié)果更好,結(jié)果顯示大多數(shù)人認(rèn)為兩個模型差不多,30%的人認(rèn)為以最大互信息為目標(biāo)函數(shù)的模型較好。

        5.5 對話模型實(shí)驗(yàn)

        本文隨機(jī)選取部分對話,請10 位志愿者對其以下幾個方面進(jìn)行評價。

        自然性:回復(fù)是否自然通順。如果太短或者無意義回復(fù)被認(rèn)為缺乏自然性,獲得0分,反之得1分。

        邏輯性:回復(fù)與問題是否成邏輯關(guān)系。比如涉及性別問題,回復(fù)類似“女孩”等將獲得1分,反之得0分。

        信息一致性:對于涉及個人信息的回復(fù)是否保持前后一致。比如年齡一類問題,回復(fù)的屬性值應(yīng)該與設(shè)定的一樣“一歲”。信息一致獲得1分,反之得0分。

        多樣性:對于某一類問題是否具有多種回復(fù)。比如對于回復(fù)年齡類別,應(yīng)該具有不同的回復(fù)如“我今年一歲”“人家已經(jīng)一歲了”。具有多樣性獲得1分,反之得0分。

        人工評價結(jié)果如表7所示??梢钥闯?,本文模型在每個指標(biāo)都優(yōu)于普通的Seq2seq模型,特別在信息一致性,這是因?yàn)楸疚奶砑恿藗€人信息回復(fù)模塊。本文模型對話樣例如表8所示。

        表7 回復(fù)的評估 %

        表8 對話樣例

        6 結(jié) 語

        為了維護(hù)對話前后個人信息的一致性問題,本文提出了具有個人信息的對話模型,該模型能夠簡化從對話數(shù)據(jù)中學(xué)習(xí)個人信息的復(fù)雜性。實(shí)驗(yàn)表明,本文的對話模型能夠有效地生成與預(yù)設(shè)信息一致的回復(fù),同時減少無意義的通用回復(fù),有助于產(chǎn)生更加連貫和多樣的對話。

        本文不足如下:訓(xùn)練語料的質(zhì)量不佳,模型的時間復(fù)雜度較大。未來研究還需要考慮對話的情感狀態(tài)、對話的邏輯推理和對話的風(fēng)格等。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        一個相似模型的應(yīng)用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        太大太粗太爽免费视频| 无码免费一区二区三区| 丰满人妻无奈张开双腿av| 亚洲 暴爽 AV人人爽日日碰| 少妇呻吟一区二区三区| 国产无套内射又大又猛又粗又爽| 国产成人av大片大片在线播放| 亚洲人成综合网站在线| 日韩av在线不卡观看| 午夜一区二区视频在线观看| 国模无码一区二区三区| 亚洲熟妇20| 大香蕉久久精品一区二区字幕| 亚洲天堂精品一区入口| 久久久无码人妻精品无码| 在线视频99| 女优视频一区二区三区在线观看 | 国产日本在线视频| 国产一级黄色片一区二区| 久久精品国产99国产精品亚洲| 亚洲国产高清在线一区二区三区 | 亚洲欧洲日产国码无码AV一| 国产精品美女自在线观看| 人人妻人人澡人人爽国产| 俺来也俺去啦最新在线| www.五月激情| 久久一区二区av毛片国产| 人妻少妇精品视频三区二区一区| 精品无码国产污污污免费| 射死你天天日| 亚洲三区二区一区视频| 国产自拍一区在线视频| 国产精品久久久久久一区二区三区| 狠狠久久亚洲欧美专区| 午夜香蕉av一区二区三区| 免费一级淫片日本高清| 欧美成人片一区二区三区| 亚洲公开免费在线视频| 新久久国产色av免费看| 成人国产精品一区二区视频| 久久久久欧洲AV成人无码国产|