亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于神經(jīng)網(wǎng)絡(luò)和虛幻引擎的數(shù)字人客服系統(tǒng)

2023-10-08 13:15:16豆子聞李文書

軟件工程 2023年10期

豆子聞, 李文書

(浙江理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院, 浙江杭州 310018)

0 引言(Introduction)

在數(shù)字化時代,客戶服務(wù)經(jīng)歷了重大變革,越來越多的消費者傾向于通過數(shù)字方式與企業(yè)溝通,而企業(yè)也在探尋更加可靠且高效的客戶服務(wù)系統(tǒng)[1]。隨著計算機算力的不斷增強,神經(jīng)網(wǎng)絡(luò)參數(shù)量的快速提升使得智能客服更加“聰明”、完善。人工智能及時的應(yīng)用徹底改變了客戶服務(wù)行業(yè),而三維重建以及圖形渲染的發(fā)展,也使得數(shù)字人更加逼真,其皮膚紋理清晰可見。數(shù)字人和客服系統(tǒng)相結(jié)合是數(shù)字客服這一領(lǐng)域最前沿的發(fā)展趨勢,而在系統(tǒng)開發(fā)中結(jié)合使用神經(jīng)網(wǎng)絡(luò)和虛幻引擎是一種獨特的方法,在以前的研究中未被廣泛探索[2]。

本文主要研究基于神經(jīng)網(wǎng)絡(luò)和虛幻引擎的數(shù)字人客服系統(tǒng)的開發(fā),該系統(tǒng)旨在為客戶創(chuàng)造沉浸式的互動體驗,提高他們對產(chǎn)品或服務(wù)提供企業(yè)的滿意度和忠誠度。通過模擬類人交互,數(shù)字人客服系統(tǒng)可以對客戶的查詢和投訴提供有效且個性化的響應(yīng),能顯著提升客戶的整體體驗感。

1 系統(tǒng)與功能模塊設(shè)計(System and function module design)

數(shù)字人客服系統(tǒng)架構(gòu)主要包含數(shù)字人構(gòu)建、中文問答、語音合成、唇形同步四大模塊。用戶只需要對錄音設(shè)備提出自己的問題,系統(tǒng)的語音識別模塊會自動識別出用戶的語音,并轉(zhuǎn)換為文字輸入中文問答模塊,然后中文問答模塊給出回答,并經(jīng)過語音合成及唇形同步模塊,最終得以輸出逼真的數(shù)字人面部表情和合成語音。數(shù)字人客服系統(tǒng)總體架構(gòu)圖如圖1所示。

圖1 數(shù)字人客服系統(tǒng)總體架構(gòu)圖Fig.1 Overall architecture diagram of digital human customer service system

2 基于圖像的三維人臉重建(Image-based 3D face reconstruction)

在虛擬形象的構(gòu)建中,本文采用基于生成器-判別器的三維可變形人臉模型(3D Morphable Models,3DMM),主要用于從每張單獨的圖片中得到人臉的基礎(chǔ)模型[3]。在3DMM生成器階段,使用卷積神經(jīng)網(wǎng)絡(luò)從輸入圖片中提取出面部姿態(tài)和光照的向量表示,以及模型中所需的參數(shù),然后提取出面部的顏色貼圖和立體構(gòu)型。生成器模塊的主要作用是將輸入的圖片轉(zhuǎn)化為3D模型。

首先,使用人臉識別算法從輸入圖片中提取特征,這其中有兩個目的:一是用于估計主體偏差并計算網(wǎng)絡(luò)主體偏差的損失函數(shù);二是細化紋理[4]。其次,使用圖卷積網(wǎng)絡(luò)技術(shù),并使用解碼器、精煉器、組合器三個貼圖優(yōu)化模塊接收生成器中的結(jié)果作為輸入,并輸出貼圖的細化版本。人臉識別算法的輸出被傳遞到解碼器,同時3DMM的結(jié)果傳遞到精煉器中以優(yōu)化人臉的頂點顏色。最后,組合器綜合解碼器與精煉器給出的每個頂點的顏色,并將其與原始點、線、面信息結(jié)合,作為最終的輸出。判別器將輸出的模型再次映射到一個平面上[5]。通過識別這張圖片是原始圖片還是重投影,生成器和判別器進行網(wǎng)絡(luò)對抗訓(xùn)練,從而提升模型的最終生成效果。人臉三維重建流程如圖2所示。

圖2 人臉三維重建流程Fig.2 3D reconstruction process of face

3 文本對話系統(tǒng)(Text dialog system)

在對話系統(tǒng)的構(gòu)建上,本文使用Rasa為基礎(chǔ)框架,Rasa由自然語言處理庫組件和核心組件兩個部分組成[6]。自然語言處理庫可用于問答機器人的意圖分類和實體識別,并且是一個基于有向無環(huán)圖的通用型自然語言處理框架。Rasa的組件之間相互連接,形成有向無環(huán)圖,并按一定的順序運行。例如,命名實體組件必須在分詞器之前運行才能正常工作。本文使用Chatito工具(Chatito是用于創(chuàng)建聊天機器人訓(xùn)練數(shù)據(jù)集的自然語言生成工具和領(lǐng)域特定語言)快速構(gòu)建Rasa NLU訓(xùn)練意圖識別數(shù)據(jù)集,并使用Rasa train nlu命令訓(xùn)練模型。

核心組件可以指定問答機器人的行為(Actions)。Rasa Core還提供了訓(xùn)練預(yù)測概率模型的工具,以便根據(jù)當(dāng)前或歷史會話預(yù)測下一步動作。首先,須要創(chuàng)建Domain文件,它包括意圖、實體、詞槽、模板和動作。其次,通過編寫自定義動作(actions.py)調(diào)用API和執(zhí)行相關(guān)操作。再次,構(gòu)建故事(story),即模擬用戶與問答機器人的實際對話。用戶輸入的內(nèi)容會被轉(zhuǎn)換為意圖和實體,機器人對用戶的響應(yīng)則被視為動作。完成以上配置(nlu、domain、stories、config)后,即可對整個Rasa模型進行訓(xùn)練。Rasa的消息處理流程如圖3所示。

圖3 Rasa的消息處理流程Fig.3 Message processing flow of Rasa

Rasa的消息處理流程包括用戶輸入文本信息或語音信號,由自然語言解釋器(Interpreter)將其轉(zhuǎn)換成意圖信息和實體信息,然后構(gòu)建語義詞典,包括原始文本、意圖和實體,并將其傳遞給核心組件。Rasa的對話狀態(tài)追蹤器會獲取當(dāng)前的對話狀態(tài),包括實體信息和詞槽情況,并記錄下來。當(dāng)策略接收到當(dāng)前的對話狀態(tài)后,會利用特征提取組件提取對話狀態(tài)的特征,并根據(jù)這些特征預(yù)測和選擇下一個動作。追蹤器會記錄當(dāng)前執(zhí)行的動作,最終執(zhí)行動作并將結(jié)果反饋給用戶。Rasa的工程目錄文件主要包括config.yml、credentials.yml、actions.yml、domain.yml、endpoints.yml、data/nlu.yml、data/rules.yml、data/stories.yml、actions.py、data.json、data_to_neo4j.py、neo4j_Knowledge.py、models。其中,config.yml用來存放組件配置的信息;data/nlu.yml用來存放訓(xùn)練模型的數(shù)據(jù);models用來存放訓(xùn)練好的模型;domain.yml定義了問答機器人的所有信息,包括意圖、實體、詞槽、動作、表單和回復(fù)等;actions.yml用來存放動作的代碼;credentials.yml用來連接到其他服務(wù);data/stories.yml用于訓(xùn)練核心模型的故事數(shù)據(jù)集。

4 語音合成(Text-to-speech)

本文的語音合成策略是采用一種端對端的TTS神經(jīng)網(wǎng)絡(luò)模型,其基于典型的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)[7]。Encoder用來將文本特征轉(zhuǎn)化為中間特征;Decoder使用自回歸的方式,使用中間特征與上一時刻的梅爾特征輸出生成當(dāng)前時刻的梅爾特征。在Encoder層,首先將字母轉(zhuǎn)換為512維詞向量,其次經(jīng)過多層卷積操作對輸入的文本序列進行上下文建模,以獲得上下文特征關(guān)系,最后經(jīng)過雙向LSTM層生成編碼特征。Decoder是一個注意力機制模塊,在訓(xùn)練時預(yù)訓(xùn)練網(wǎng)絡(luò)采用真實的梅爾頻譜特征作為輸入進行訓(xùn)練,而在測試時,上一時刻線性映射的輸出作為預(yù)訓(xùn)練網(wǎng)絡(luò)當(dāng)前時刻的輸入。預(yù)訓(xùn)練網(wǎng)絡(luò)為兩層維度為512的全連接網(wǎng)絡(luò),作為信息瓶頸層,對學(xué)習(xí)注意力是必要的,其輸入為特定一幀的梅爾頻譜特征,將該時刻輸出與注意力模塊輸出的上一時刻上下文特征進行拼接操作后,送入兩層由1 024單元組成的LSTM層中,獲得LSTM的輸出。將Encoder輸出、LSTM輸出以及累加的注意力權(quán)重變量(初始值為0)作為注意力機制的輸入,并輸出這一時刻的注意力權(quán)重與這一時刻的上下文特征。其中,Encoder的輸出可以視為Value,LSTM的輸出視為Query,累加的注意力權(quán)重變量可以視作位置特征,獲得注意力權(quán)重后,與Encoder的輸出做加權(quán)和,得到當(dāng)前時刻的上下文特征。此時,當(dāng)前時刻的上下文特征再與LSTM的輸出拼接,經(jīng)過線性映射,輸出目標(biāo)頻譜幀,最后使用Griffin-Lim算法將梅爾頻譜重建為時域的音頻信號[8]。

5 唇形同步算法(Lip synchronization algorithm)

音頻信號最終需要轉(zhuǎn)化為面部動畫,本文使用唇形同步算法Audio2Face[9]。Audio2Face網(wǎng)絡(luò)由三部分組成,其中第一部分包含1個自相關(guān)分析層和5個卷積層,在數(shù)據(jù)分析階段,使用線性預(yù)測編碼提取音頻特征,再通過卷積神經(jīng)網(wǎng)絡(luò)對特征進行壓縮,提取短時特征,該特征反映了人發(fā)音時面部動畫附帶的特定語氣、音素等。在發(fā)音階段,壓縮后的短時特征再經(jīng)過5個卷積層,提取相鄰序列幀的相關(guān)性,最終輸出整體特征圖。除此之外,發(fā)聲時的情緒狀態(tài)也至關(guān)重要,該參數(shù)由神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)生成,并逐層拼接到發(fā)音網(wǎng)絡(luò)。在輸出網(wǎng)絡(luò),數(shù)據(jù)需要經(jīng)過兩個全連接層,該網(wǎng)絡(luò)將特征數(shù)據(jù)映射到面部模型的61維變形權(quán)重(Blend Shap),其中第一個全連接層將特征映射到表情系數(shù),第二個全連接層將表情系數(shù)映射到BlendShap[10]。唇形同步算法流程如圖4所示。

圖4 唇形同步算法Fig.4 Lip synchronization algorithm

最終輸出的權(quán)重用于控制面部動畫,如圖5所示為權(quán)重對面部動畫的影響,例如當(dāng)權(quán)重MouthRight的值變大時,面部網(wǎng)格的嘴部表現(xiàn)出右撇的姿態(tài)。

圖5 權(quán)重MouthRight為0.505 14時對面部動畫的影響Fig.5 Influence on facial animation when MouthRight is 0.505 14

6 系統(tǒng)實現(xiàn)(System implementation)

在虛幻引擎中,將三維重建的人臉模型重新映射為Metahuman模型,這是一種帶有身體骨骼綁定以及毛發(fā)的虛擬人制作系統(tǒng),面部動畫的表達由變形權(quán)重的曲線經(jīng)由姿勢映射形成,本文使用Livelink數(shù)據(jù)流作為Python端和虛幻引擎的通信方式,總共將61維權(quán)重傳輸給虛幻引擎,權(quán)重名分別如下:

EyeBlinkLeft,EyeLookInLeft,EyeLookUpLeft,EyeSquintLeft,EyeWideLeft,EyeBlinkRight,EyeLookDownRight,EyeLookInRight,EyeLookOutRight,EyeLookUpRight,EyeSquintRight,EyeLookDownLeft,EyeWideRight,JawForward,JawLeft,JawRight,JawOpen,MouthClose,MouthFunnel,MouthPucker,MouthLeft,MouthRight,EyeLookOutLeft,MouthSmileLeft,MouthSmileRight,MouthFrownLeft,MouthFrownRight,MouthDimpleLeft,MouthDimpleRight,MouthStretchLeft,MouthStretchRight,MouthRollLower,MouthRollUpper,MouthShrugLower,MouthShrugUpper,MouthPressLeft,MouthPressRight,MouthLowerDownLeft,MouthLower-DownRight,MouthUpperUpLeft,MouthUpperUpRight,BrowDownLeft,BrowDownRight,BrowInnerUp,BrowOuterUpLeft,BrowOuterUpRight,CheekPuff,CheekSquintLeft,CheekSquintRight,NoseSneerLeft,NoseSneerRight,TongueOut,HeadYaw,HeadPitch,HeadRoll,LeftEyeYaw,LeftEyePitch,LeftEyeRoll,RightEyeYaw,RightEyePitch,RightEyeRoll。

在虛幻引擎端,該61維權(quán)重實時修改動畫藍圖中的動畫曲線值,如圖6所示。

圖6 虛幻引擎中動畫藍圖權(quán)重應(yīng)用Fig.6 Application of animation blueprint weight in unreal engine

數(shù)字人客服系統(tǒng)虛幻引擎端如圖7所示,本文研究抽取不同年齡段的實驗者共50人,其中本科生30人,碩士研究生15人,教師5人,實驗者針對不同的問題向數(shù)字人客服提問,其中48人表示對數(shù)字人客服的服務(wù)高度滿意,整體滿意度為96%。

圖7 數(shù)字人虛幻引擎端展示Fig.7 Unreal engine end display of digital human

7 結(jié)論(Conclusion)

本文設(shè)計并實現(xiàn)的基于神經(jīng)網(wǎng)絡(luò)和虛幻引擎的數(shù)字人客服系統(tǒng),創(chuàng)造性地將客服系統(tǒng)與數(shù)字人相結(jié)合,利用神經(jīng)網(wǎng)絡(luò)和虛幻引擎創(chuàng)建了一個高度逼真和交互性強的虛擬對象,使客戶能夠以自然和直觀的方式與數(shù)字人進行交互。調(diào)查和測試結(jié)果顯示,客戶對這種新的服務(wù)方式反應(yīng)積極,多數(shù)實驗者對數(shù)字人客服系統(tǒng)的服務(wù)表示高度滿意。統(tǒng)計結(jié)果也表明,數(shù)字人客服系統(tǒng)的使用對客戶服務(wù)運營的效率和有效性產(chǎn)生重大影響,同時能幫助企業(yè)降低成本,提高客戶滿意度,以及增加收入。