亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合馬爾科夫決策過程與信息熵的對話策略

        2021-03-18 08:04:12朱映波趙陽洋王振宇
        計算機工程 2021年3期
        關鍵詞:信息熵狀態(tài)動作

        朱映波,趙陽洋,王 佩,尹 凱,王振宇

        (1.天翼愛音樂文化科技有限公司,廣州 510081;2.華南理工大學軟件學院,廣州 510006)

        0 概述

        隨著人工智能相關技術的飛速發(fā)展,人與智能設備之間的交互方式趨于智能化,逐漸從傳統(tǒng)的圖形化交互向人機對話交互轉變[1-3],即利用智能助理來幫助用戶完成多項任務或多項服務。任務型人機對話作為人機對話系統(tǒng)的重要分支之一,是人工智能領域中的一個熱門研究課題[4-5],同時被逐漸應用于工業(yè)界的各個方面,例如蘋果手機助手Siri[6]、亞馬遜Alex 和阿里智能客服小蜜等。

        任務型對話系統(tǒng)又稱為目標驅動型對話系統(tǒng),例如客服機器人、機票預訂系統(tǒng)等[1,7-9],它們?yōu)橛脩籼峁┨囟I域的服務,旨在幫助用戶完成購物、訂機票等任務。這類人機對話系統(tǒng)能夠大幅降低人力成本,簡化人機交互過程,提高應用的智能程度,具有較高的研究和應用價值[10]。

        任務型對話系統(tǒng)由自動語音識別(Automatic Speech Recognition,ASR)、自然語言理解(Natural Language Understanding,NLU)、對話管理(Dialogue Management,DM)、自然語言生成(Natural Language Generation,NLG)和語音合成(Text-To-Speech,TTS)5個模塊組成[4,11]。其中:ASR 模塊將用戶的語音輸入轉化為文本的形式;NLU 模塊的作用是理解用戶的對話文本,并提取出與任務相關的槽-值對信息;DM 模塊是對話系統(tǒng)的核心控制模塊,包括對話狀態(tài)跟蹤(Dialogue State Tracking,DST)和對話策略(Dialogue Policy,DP)兩個部分[11]:DST 接收來自NLU 模塊的語義信息,更新當前的對話狀態(tài),DP 確定下一步系統(tǒng)的響應策略;NLG 模塊根據(jù)系統(tǒng)響應策略生成自然語言文本;TTS模塊將語言文本轉為語音反饋給用戶。

        對話策略任務根據(jù)對話狀態(tài)跟蹤輸出的當前狀態(tài)分布,選擇系統(tǒng)響應的動作或策略[12-13],其性能的優(yōu)劣決定了人機對話系統(tǒng)的成敗。因此,設計一個魯棒的對話策略模型是任務型系統(tǒng)成功應用的關鍵。然而,通過現(xiàn)有的深度學習的方法訓練一個高質(zhì)量的對話策略需要大量的會話數(shù)據(jù),且只能應用于已經(jīng)有大型數(shù)據(jù)集的場景[14-15]。由于對話系統(tǒng)的潛在應用領域非常廣泛,因此在現(xiàn)實場景中存在較多的對話數(shù)據(jù)稀缺性問題[16]。

        本文構建一個融合馬爾科夫決策過程和屬性信息熵的對話策略模型。將對話策略視為一個馬爾科夫決策過程,通過建立五元組來計算相關領域場景下的狀態(tài)值函數(shù)表,使對話系統(tǒng)獲得最優(yōu)的狀態(tài),并引入屬性信息熵方法來選擇含有信息量較大的狀態(tài)進行轉移,從而獲取最優(yōu)的系統(tǒng)響應動作。

        1 相關工作

        目前主流的對話策略模型可分為基于有限狀態(tài)自動機的對話策略、填槽或填表法和基于概率模型的對話策略。其中,基于概率的模型能通過回報函數(shù)的迭代計算、訓練狀態(tài)和動作之間的映射關系,得到可用的對話策略規(guī)則,這種方法由于避免了依賴人工制定規(guī)則帶來的局限性,并且能夠通過訓練提升模型的泛化能力,因此具有更好的效果。

        1)基于有限狀態(tài)自動機的對話策略

        任務型多輪對話系統(tǒng)通過與用戶進行多輪的對答,明確用戶的需求,得到完成任務需要的信息,這個與用戶進行多輪交互的過程類似于“初始狀態(tài)→動作→更新狀態(tài)→動作→更新狀態(tài)→…→終止狀態(tài)”的狀態(tài)與觸發(fā)動作進行交替的過程,與圖模型中的有限狀態(tài)自動機(Finite-State Machine,F(xiàn)SM)的定義非常吻合。有限狀態(tài)自動機用來描述對象在一個生命周期內(nèi)的狀態(tài)序列以及狀態(tài)間進行轉移的動作事件,可以通過狀態(tài)轉移圖來進行描述,圖1 描述了在訂餐任務中有限狀態(tài)自動機的狀態(tài)轉移圖示例。

        在圖1 中,節(jié)點表示系統(tǒng)執(zhí)行的對話動作,節(jié)點之間的邊表示用戶執(zhí)行的實際動作。在對話過程中,系統(tǒng)通過將用戶的輸入進行解析,得到相應的轉移方向,使得對話沿著狀態(tài)轉移圖的設定進行,對話中用戶與系統(tǒng)每交互一次,狀態(tài)就發(fā)生一次轉移,直到對話結束?;贔SM 的對話策略方法是典型的系統(tǒng)主導型方法,對話的節(jié)奏完全由系統(tǒng)決定,用戶需要按照系統(tǒng)指定的流程補充信息。這種方法通過預先人為地定義好對話流程,具有建模簡單且邏輯清晰的優(yōu)勢,對簡單任務的信息獲取很友好。對于稍復雜的任務,如果對話過程中出現(xiàn)了系統(tǒng)沒有預先定義好的狀態(tài),那么對話將會卡在其中的一個狀態(tài)中無法繼續(xù)進行?;谟邢逘顟B(tài)自動機的對話策略需要對對話中的細節(jié)提前進行編寫和維護,缺少靈活性,因此在開發(fā)的過程中也很難對其進行擴展。

        圖1 基于有限狀態(tài)自動機的對話策略狀態(tài)轉移圖Fig.1 State transition diagram of dialog policy based on finite state automata

        2)基于填槽的對話策略

        基于填槽的對話策略在一定程度上改進了基于FSM 的方法,它將對話建模成一個填槽的過程,其中,槽表示在對話過程中完成特定的任務所需要獲取的信息屬性。系統(tǒng)通過制定填槽的優(yōu)先級,根據(jù)當前的槽位狀態(tài)來決定下一個系統(tǒng)動作。與基于FSM 的方法相比,填槽法不對獲取用戶信息的順序進行限制,用戶可以在對話過程中一次性補全一個或多個槽信息。經(jīng)過系統(tǒng)的引導,用戶進行輸入,系統(tǒng)將用戶輸入轉化為一個或多個槽信息的填充,這種方法為用戶提供了相對靈活的輸入方式,支持用戶和系統(tǒng)混合主導的系統(tǒng),適用于相對復雜的信息獲取場景。但這種填槽的對話策略方法由于槽位的限制,當槽的數(shù)量過多時,算法的復雜程度也會急劇增長,因此不適用于更復雜的場景。

        3)基于強化學習的對話策略

        基于有限狀態(tài)自動機和基于填槽的對話策略算法都需要人工制定規(guī)則,這種預先定義好所有場景的方法,不具備領域遷移的能力,當任務發(fā)生變化時,就需要重新制定規(guī)則。馬爾科夫決策過程(MDP)是一個解決序列決策的模型,文獻[17]將對話決策建模成一個馬爾科夫決策過程,通過模擬系統(tǒng)與用戶之間的交互過程,經(jīng)過訓練優(yōu)化模型參數(shù),得到狀態(tài)和動作之間的映射關系(即對話策略)。在任務型對話系統(tǒng)中,通過將槽的取值狀態(tài)映射為對話的狀態(tài),同時定義系統(tǒng)的動作、執(zhí)行動作的回報函數(shù)和狀態(tài)與狀態(tài)間的轉移概率,這種方法相比于人工定義對話規(guī)則的方法擁有更高的覆蓋率。與需要大量標注數(shù)據(jù)的監(jiān)督學習不同,強化學習可以通過構建智能體感知環(huán)境,然后由系統(tǒng)與用戶進行交互,根據(jù)回報函數(shù)獎勵好的行為、懲罰壞的行為,從而訓練出對話系統(tǒng)的最優(yōu)策略。

        對于槽數(shù)量較多的復雜場景,基于強化學習的模型也有較好的擴展方式。面對過多的狀態(tài)或動作空間,在傳統(tǒng)強化學習很難進行高效探索時,深度強化學習能夠大幅提升模型的收斂速度。同時,也出現(xiàn)了很多傳統(tǒng)強化學習模型的變種,如文獻[18-19]將卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)與傳統(tǒng)強化學習中的Q 學習[11]算法相結合,提出了深度Q 網(wǎng)絡(Deep Q-Network,DQN)模型。

        目前關于策略學習的相關研究在任務型對話系統(tǒng)中的比重相對較小,遠少于自然語言理解和對話狀態(tài)跟蹤任務,仍然存在許多需要深入研究和解決的問題,如系統(tǒng)冷啟動、管道型對話系統(tǒng)模塊間誤差傳遞和復雜場景中狀態(tài)空間指數(shù)增加等,許多學者在對話策略學習的問題上進行了新的探索。

        2 基于馬爾可夫決策過程與信息熵的對話策略

        2.1 馬爾科夫決策過程模型構建

        對話管理中的對話策略選擇問題可以抽象為一個馬爾科夫決策過程(MDP)[20-21]。馬爾科夫決策過程由五元組<S,A,P,R,γ>來定義,5 個元素分別表示狀態(tài)集合、動作集合、狀態(tài)間的轉移概率、及時回報和衰減因子。

        1)狀態(tài)集合S

        在音樂搜索任務中,對話狀態(tài)體現(xiàn)為6 個槽的取值情況,每個槽的狀態(tài)分為已填充和未填充兩種,將狀態(tài)跟蹤模塊輸出的對話狀態(tài)轉換為編號表示,則總共有26=64 種狀態(tài),按照下標01 依次編碼,六位01 編碼依次表示“song,singer,album,lyricwriter,composer,label”槽的填充與否,狀態(tài)數(shù)量和對應的狀態(tài)編號如表1所示。例如,當前的對話狀態(tài)為<singer=周杰倫,song=稻香>,則所對應的狀態(tài)編碼應為S110000。那么,狀態(tài)集合S={S000000,S100000,…,S111111}。

        表1 對話狀態(tài)的編號表示Table 1 Numbered representation of dialog state

        終止狀態(tài)表示對話的結束,若達到了終止狀態(tài),則表示系統(tǒng)應給出歌曲列表offer()結束對話。從經(jīng)驗常識出發(fā),本文制定如下規(guī)則來定義對話的終止狀態(tài):

        (1)當用戶給出歌曲的歌名song 信息和任一其他屬性信息,則該狀態(tài)為終止狀態(tài),共5 種。

        (2)當用戶給出歌曲的專輯名album 和作詞者lyricwriter 或作曲者composer,則該狀態(tài)為終止狀態(tài),共2 種。

        (3)6 個屬性中已知任意3 個或3 個以上,則該狀態(tài)為終止狀態(tài),共20+15+6+1=42 種。

        因此,定義42 種終止狀態(tài),如表2 所示。

        表2 對話終止狀態(tài)說明Table 2 Description of dialogue final states

        2)動作集合A

        系統(tǒng)動作分為詢問動作request()和提供歌曲列表動作offer(),詢問動作又可以根據(jù)詢問不同的槽分為詢問歌曲名request(song)、詢問歌手request(singer)、詢問專輯request(album)、詢問作詞者request(lyricwriter)、詢問作曲者request(composer)和詢問歌曲類型request(label)6 個動作。因此,動作集合A={offer(songs),request(attrs)},其中,attrs=[song,singer,album,lyricwriter,composer,label]。

        3)狀態(tài)間的轉移概率P

        定義狀態(tài)(s,s')之間的轉移概率為s'可能的取值個數(shù),當前狀態(tài)s為非終止狀態(tài)。用戶在單輪的對話中,可能會給出不止一個槽的信息,因此,按照表3 定義對話狀態(tài)之間的轉移概率。

        表3 對話狀態(tài)轉移概率示例Table 3 Example of dialogue state transition probability

        4)及時回報R

        定義當對話狀態(tài)達到設定的49 種終止狀態(tài)時,意味著用戶完成了當前的任務,轉移后的獎勵值設為100,其他每一輪對話狀態(tài)發(fā)生轉移的獎勵值均為-1,如表4 所示。

        表4 對話狀態(tài)轉移獎勵矩陣示例Table 4 Example of dialogue state transition reward matrix

        5)衰減因子γ

        衰減因子代表了未來收益對當前狀態(tài)的重要程度,γ∈[0,1],本文設定衰減因子γ=0.8。

        馬爾科夫獎勵過程中狀態(tài)值函數(shù)的貝爾曼方程表示為:

        使用值迭代的方式對狀態(tài)值函數(shù)進行求解,得到收斂之后的狀態(tài)值函數(shù)矩陣v。

        2.2 屬性信息熵計算

        熵在信息論中表示信息量的大小,用來描述信源的不確定程度,不確定性越大,信息量越大,熵越大;反之,不確定性越小,信息量越小,熵越小。在基于多輪對話的音樂搜索任務中,每一輪對話后系統(tǒng)依據(jù)用戶提供的目標約束搜索曲庫,得到歌曲列表。不同屬性槽取值的不確定程度不同,因此帶有的信息量也不同。本文設計一種計算曲庫搜索結果歌曲列表中各個屬性信息熵的算法,根據(jù)屬性信息熵的大小來衡量哪一個屬性槽值的信息量最大,進而指導系統(tǒng)下一輪對話應引導用戶給出信息熵最大的屬性取值,以能夠用最少的對話輪次完成音樂搜索任務。屬性信息熵的計算公式如下:

        其中,χ表示屬性attr 可能的取值集合。

        首先依據(jù)每一輪次用戶目標約束進行曲庫搜索,得到音樂列表,判斷搜索結果數(shù)量是否小于等于N,若小于等于N,則系統(tǒng)直接給出音樂結果offer(songs);若大于N,則系統(tǒng)計算結果列表中各個屬性槽的信息熵,選擇信息熵最大的屬性進行詢問。計算過程如式(5)所示:

        其中,attr*表示信息熵值最大的屬性槽。

        2.3 融合算法

        強化學習的方法通過定義五元組將當前時刻之后的狀態(tài)獎勵考慮進來,使得對話中系統(tǒng)的決策具有前瞻性(考慮后序狀態(tài)獎勵),能夠快速選擇最快抵達終止狀態(tài)的最優(yōu)路徑,不需花費太多時間,且不同狀態(tài)的獎勵值可通過自定義的方式進行設定,但該方法所得的狀態(tài)之間的狀態(tài)值函數(shù)可能相等,所選擇的路徑可能是次優(yōu)解;而基于屬性信息熵計算策略的計算方法考慮了音樂搜索結果列表,通過當前對話狀態(tài)得到對應的目標約束,進行曲庫搜索,然后計算音樂屬性槽的信息熵,求得考慮了當前輪次音樂搜索結果的對話決策。由于基于屬性的方法需要根據(jù)檢索列表進行曲庫搜索,數(shù)據(jù)集的屬性種類越多,響應時間越久。兩種方法都有自己的特點和優(yōu)勢,因此本文提出基于貝爾曼方程求解的強化學習和屬性信息熵相結合的對話策略算法,融合兩種算法的優(yōu)點,利用基于貝爾曼方程求解的強化學習算法幫助基于屬性信息熵的策略計算方法篩選檢索列表以縮短響應時間,利用基于屬性信息熵的策略方法幫助基于貝爾曼方程求解的強化學習算法排除次優(yōu)解。本文根據(jù)基于貝爾曼方程求解的強化學習和屬性信息熵相結合的對話策略算法對對話策略模塊進行建模,算法的流程如圖2 所示。

        圖2 融合強化學習與屬性信息熵的對話策略流程Fig.2 Procedure of dialogue strategy combining reinforcement learning and attribute information entropy

        融合算法步驟如下:

        步驟1根據(jù)當前的對話狀態(tài)得到用戶的目標約束,通過目標約束搜索音樂曲庫得出歌曲結果列表。

        步驟2判斷歌曲列表的數(shù)量resultnum,若resultnum>N,則計算屬性信息熵,若resultnum≤N,則給出音樂搜索結果,即Actsystem=offer(songs)。

        步驟3計算屬性信息熵,判斷是否需要查詢狀態(tài)值函數(shù)矩陣v,若是,則通過狀態(tài)轉移矩陣選出下一輪的系統(tǒng)動作,否則依據(jù)信息熵選出下一輪系統(tǒng)動作。

        步驟3 判斷是否需要查詢狀態(tài)值函數(shù)矩陣的具體邏輯如下:若信息熵大于0 的屬性數(shù)量為1,說明只有一個屬性attr△是有信息量的,因此系統(tǒng)直接依據(jù)信息熵給出下一輪的動作request(attr△);若信息熵大于0 的屬性數(shù)量大于1,則查詢計算出來的狀態(tài)值函數(shù)矩陣v選出下一輪的系統(tǒng)動作。

        通過狀態(tài)值函數(shù)矩陣v計算下一輪系統(tǒng)動作的算法步驟如下:

        步驟1查找狀態(tài)轉移矩陣P中對應當前狀態(tài)為s的列向量Ps,將狀態(tài)s的轉移概率向量Ps轉化為01 向量Ts(轉移概率>0 節(jié)點的值取1),使用Ts對狀態(tài)值函數(shù)矩陣v進行過濾,得到可能轉移的下一個向量s'和對應的狀態(tài)值。

        步驟2下一個狀態(tài)s'使得v*=v(s')最大,將s與s'進行對比,找出s為0、s'為1 的槽位。若有多個槽位上的值不相同,則一一組合得出新的s',并過濾掉信息熵為0 的槽位,然后進行狀態(tài)值大小的比較,例如當前狀態(tài)s=S000000,查找到狀態(tài)值最大的下一狀態(tài)s′=S110000,得到第0 位和第1 位上的值不同,且信息熵都大于0,于是組合出新的s′={S100000,S010000},對比v(S100000)和v(S010000)的大小,得知v(S100000)>v(S010000),因此s′=S100000,下一輪的系統(tǒng)動作應為詢問第一個槽位song,即Actsystem=request(song);若v(S100000)=v(S010000),則以信息熵的大小來選取系統(tǒng)動作應詢問的槽位。

        3 實驗

        3.1 實驗設置

        本文實驗的背景是基于多輪對話的音樂搜索任務,即用戶通過與音樂搜索系統(tǒng)進行多輪次的對話從而完成音樂的查詢。系統(tǒng)通過生成一個音樂查詢問題相關的目標,然后希望能夠經(jīng)過盡量少的對話輪次搜索到目標歌曲。這個音樂搜索場景任務中共包含6 個槽,用于限定對話系統(tǒng)在數(shù)據(jù)庫中的查詢范圍,分別為歌曲名song、歌手singer、專輯album、作詞者lyricwriter、作曲者composer、歌曲標簽label。曲庫中包含618 319 首歌曲,而不同的槽有不同的取值空間,真實情況下的曲庫槽位情況如表5 所示。

        表5 曲庫中各個屬性的情況描述Table 5 Situation description of each attribute in the music database

        系統(tǒng)隨機生成1 000 首目標歌曲,并將它們對應的6 個槽取值作為對話中的用戶目標。通過搭建系統(tǒng)-用戶交互模擬器,構建對話策略的測試環(huán)境。首先由模擬器隨機初始化用戶對話狀態(tài),然后通過對話策略模塊給出系統(tǒng)的應答策略,模擬器根據(jù)給定的用戶目標和每一輪次填充指定的槽信息,從而模擬系統(tǒng)-用戶對話。

        由于展示界面的大小限制,在一個頁面中只能為用戶展示滿足用戶目標約束的一定數(shù)量的歌曲列表,通常為10 首~20 首歌曲,表示為N。因此,系統(tǒng)根據(jù)搜索結果的歌曲數(shù)量,來確定下一輪的動作為繼續(xù)詢問request()還是給出歌曲列表offer(),可以通過式(6)進行描述:

        為證明本文提出的融合強化學習和屬性信息熵的對話策略方法的有效性,實驗給出了融合算法與3 種對話策略算法的結果比較,分別是隨機選取系統(tǒng)詢問目標、基于填槽法的對話策略和基于信息熵的對話策略,3 種對比算法的具體描述如下:

        1)隨機選取系統(tǒng)詢問目標

        系統(tǒng)在未知槽中隨機選取下一輪詢問的槽信息,向用戶進行提問。

        2)基于填槽法的對話策略

        填槽法通過人工制定槽屬性優(yōu)先級規(guī)則制定對話策略。用戶所知道的歌曲信息一般為大眾化屬性信息,例如歌曲名song、歌手singer 或專輯album,對于歌曲的作詞者lyricwriter、作曲者composer 和歌曲類型label 等屬性信息,用戶通常不能準確說出。基于此,在系統(tǒng)動作為繼續(xù)詢問request()時,通過為不同的槽制定不同的優(yōu)先級,來制定系統(tǒng)的應答策略規(guī)則。各個音樂屬性的優(yōu)先級順序為:song >sin ger >album >lyricwriter >composer >label。

        填槽法將對話過程看作是填槽的過程,系統(tǒng)按照屬性優(yōu)先級的順序向用戶進行發(fā)問,依次填充音樂的屬性槽,直至屬性信息能夠被全部填充或者按照約束查詢曲庫得到的搜索結果數(shù)量小于設定的N,則代表實現(xiàn)對話目標。

        3)基于信息熵的對話策略

        通過將每一輪已知槽信息轉化為知識庫查詢語句,得到歌曲的搜索結果,計算搜索結果中各個屬性的信息熵,選取信息熵最大的槽作為系統(tǒng)下一輪詢問的槽。

        3.2 評價標準

        在評價任務型對話系統(tǒng)中,對話策略模塊的有效性方法通常是從任務完成率和任務完成的智能程度的角度出發(fā),因此本文指定的評價標準主要從兩個方面來衡量對話策略的有效性和智能性,一是查詢目標歌曲的成功率,二是完成任務所需的對話輪次。查詢目標歌曲的成功率通過對話結束時給出的歌曲搜索列表來計算,若目標歌曲在搜索列表的TopN中,則記為一次成功的查詢,實驗中設定N=10,任務完成的成功率計算公式如下:

        歌曲查詢?nèi)蝿胀瓿傻某晒β试礁?,說明策略模塊的有效性也越高。

        同時記錄完成歌曲查詢?nèi)蝿账枰膶υ捿喆蜰umturn,認為所需的對話輪次越少,對話策略的機制效率越高。

        3.3 衰減因子γ 取值

        本文設定衰減因子γ分別取值為0.0、0.2、0.5、0.8、1.0,并在音樂曲庫數(shù)據(jù)集上進行實驗,實驗結果如表6 所示。

        表6 實驗評價結果Table 6 Results of experimental evaluation

        從表1 的實驗結果可以看出,雖然衰減因子γ對于融合強化學習算法的性能具有影響,但無論衰減因子γ取什么值,其結果都好于系統(tǒng)隨機引導以及基于規(guī)則的對話策略,且與基于信息熵的對話策略的性能接近。當γ取值為0.8 時融合強化學習算法結果最好,為方便比較,本文設定衰減因子γ取值為0.8。

        3.4 實驗結果與分析

        表7 所示為在音樂曲庫數(shù)據(jù)集上使用系統(tǒng)隨機引導、基于填槽法的對話策略、基于信息熵的對話策略和融合強化學習與信息熵的對話策略的實驗結果。

        表7 4 種策略的實驗評價結果Table 7 Experimental evaluation results of four strategies

        從表7 可以看出:

        1)系統(tǒng)隨機引導與其他3 種改進算法相比,前3 輪任務完成率明顯較低,相差20%左右,這是因為在任務中每個槽位的重要程度不同,并且針對不同的搜索目標和不同結果列表的信息量不同,系統(tǒng)直接采用隨機的方式進行引導詢問,會導致任務完成的效率偏低。

        2)與系統(tǒng)隨機引導的對話策略相比,基于人工制定屬性槽優(yōu)先級的對話策略能夠顯著減少完成音樂搜索任務所需的對話輪次(從3.88 次到2.58 次),這是因為人工定義屬性槽的優(yōu)先級,將領域知識通過制定規(guī)則的方式添加到算法中,從而提升了對話策略的智能程度。

        3)考慮搜索結果屬性信息熵的對話策略,在前3 輪任務完成率和對話輪次兩個評價標準中均有顯著的提升。與基于人工制定槽屬性優(yōu)先級的對話策略算法相比,基于屬性信息熵的對話策略方法由于考慮了每次搜索結果的屬性信息熵,從而動態(tài)地計算了屬性槽位的信息含量,提升了對話策略的效率。

        4)融合強化學習和屬性信息熵的對話策略方法與基于信息熵的對話策略相比,在兩項評價指標上有略微的提升,通過個案分析得知,在搜索熱門歌手和歌曲時,由于曲庫存在同一首歌的多個版本,各個槽位信息無法有效地將歌曲進行完全劃分,因此結合基于表格的強化學習輔助進行判斷,能夠幫助系統(tǒng)做出更有效的決策。

        4 結束語

        在垂直領域的任務型對話系統(tǒng)中,通常沒有針對特定領域的對話數(shù)據(jù)進行模型訓練,從而導致對話策略在真實應用環(huán)境下的對話數(shù)據(jù)面臨冷啟動的問題。為此,本文提出了適用于知識庫搜索型對話系統(tǒng)的融合強化學習和屬性信息熵的對話策略,將對話決策過程抽象為一個馬爾科夫決策過程,利用強化學習來選擇下一步最優(yōu)對話狀態(tài),并引入屬性信息熵排除多個狀態(tài)值函數(shù)相同的最優(yōu)狀態(tài)的情況。在音樂搜索領域數(shù)據(jù)集上的實驗結果驗證了本文方法的有效性。雖然本文方法可以解決對話策略在完全冷啟動場景下的問題,但該方法屬于離線學習,無法滿足對話系統(tǒng)隨著應用場景的變化不斷調(diào)整的需要。因此,構建支持在線學習和優(yōu)化的策略學習模型,實時獲取用戶與系統(tǒng)進行交互的對話數(shù)據(jù)從而對模型進行優(yōu)化,將是下一步的研究工作。

        猜你喜歡
        信息熵狀態(tài)動作
        基于信息熵可信度的測試點選擇方法研究
        狀態(tài)聯(lián)想
        動作描寫要具體
        生命的另一種狀態(tài)
        基于信息熵的實驗教學量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        畫動作
        一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
        雷達學報(2017年6期)2017-03-26 07:52:58
        動作描寫不可少
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        日本黄色一区二区三区视频| 四虎影视4hu4虎成人| 一本一本久久a久久精品综合| 热99精品| 绿帽人妻被插出白浆免费观看| 麻豆三级视频网站在线观看| 国产在线视频一区二区天美蜜桃 | 国产自产21区激情综合一区| 中文字幕人妻互换av| 日韩 无码 偷拍 中文字幕| 香蕉视频在线精品视频| 午夜大片又黄又爽大片app| 日本高清不在线一区二区色| 国产成人精品自拍在线观看| 伊人久久大香线蕉av五月| 97夜夜澡人人双人人人喊| 性一交一乱一伦| 亚洲午夜看片无码| 精品国产一区二区三区av新片| 肥老熟女性强欲五十路| 日本艳妓bbw高潮一19| 亚洲精品国产美女久久久| 中国产无码一区二区三区| 久久精品视频日本免费| 无遮挡激情视频国产在线观看| 中国女人内谢69xxxx免费视频| 国产欧美一区二区精品性色| 麻豆AV无码久久精品蜜桃久久 | 成人影院视频在线免费观看| 免费无码av片在线观看播放| 四虎影视在线观看2413| 日本一区二区久久精品亚洲中文无| 99久久精品国产一区色| 狠狠色噜噜狠狠狠8888米奇| 国产人妻精品一区二区三区不卡| 国产精品亚洲专区在线播放| 国产亚洲精品免费专线视频| 国产做无码视频在线观看 | 福利利视频在线观看免费| 欧美video性欧美熟妇| 日韩精品成人一区二区三区|