亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合人臉表情的手語到漢藏雙語情感語音轉(zhuǎn)換

        2018-10-10 12:53:04宋南吳沛文楊鴻武
        聲學(xué)技術(shù) 2018年4期
        關(guān)鍵詞:手語手勢聲學(xué)

        宋南,吳沛文,楊鴻武

        ?

        融合人臉表情的手語到漢藏雙語情感語音轉(zhuǎn)換

        宋南,吳沛文,楊鴻武

        (西北師范大學(xué)物理與電子工程學(xué)院,甘肅蘭州 730070)

        針對聾啞人與正常人之間存在的交流障礙問題,提出了一種融合人臉表情的手語到漢藏雙語情感語音轉(zhuǎn)換的方法。首先使用深度置信網(wǎng)絡(luò)模型得到手勢圖像的特征信息,并通過深度神經(jīng)網(wǎng)絡(luò)模型得到人臉信息的表情特征。其次采用支持向量機對手勢特征和人臉表情特征分別進行相應(yīng)模型的訓(xùn)練及分類,根據(jù)識別出的手勢信息和人臉表情信息分別獲得手勢文本及相應(yīng)的情感標(biāo)簽。同時,利用普通話情感訓(xùn)練語料,采用說話人自適應(yīng)訓(xùn)練方法,實現(xiàn)了一個基于隱Markov模型的情感語音合成系統(tǒng)。最后,利用識別獲得的手勢文本和情感標(biāo)簽,將手勢及人臉表情轉(zhuǎn)換為普通話或藏語的情感語音。客觀評測表明,靜態(tài)手勢的識別率為92.8%,在擴充的Cohn-Kanade數(shù)據(jù)庫和日本女性面部表情(Japanese Female Facial Expression, JAFFE)數(shù)據(jù)庫上的人臉表情識別率為94.6%及80.3%。主觀評測表明,轉(zhuǎn)換獲得的情感語音平均情感主觀評定得分4.0分,利用三維情緒模型(Pleasure-Arousal-Dominance, PAD)分別評測人臉表情和合成的情感語音的PAD值,兩者具有很高的相似度,表明合成的情感語音能夠表達人臉表情的情感。

        手勢識別;表情識別;深度神經(jīng)網(wǎng)絡(luò);漢藏雙語情感語音合成;手語到語音轉(zhuǎn)換

        0 引言

        手語是目前言語障礙者與正常人之間最重要的一種溝通方式,手語識別研究一直受到廣泛的關(guān)注[1],手勢識別技術(shù)逐漸成為人機交互系統(tǒng)方面的研究熱點。早期,利用穿戴技術(shù)通過數(shù)據(jù)手套進行手語識別[2]。近年來,模式識別技術(shù)中的隱Markov模型(Hidden Markov Model, HMM)[3]、反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)[4]及支持向量機(Support Vector Machine, SVM)[5]等算法應(yīng)用在手勢識別上,獲得了一定的效果。目前,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度學(xué)習(xí)也應(yīng)用到手語識別中[6],使得手語識別率獲得了較大提高。同時,在日常生活交往中,面部表情在言語障礙者的交流中也起到很重要的作用,表情可以讓交流的信息傳達得更加準(zhǔn)確?,F(xiàn)有的表情識別技術(shù)發(fā)展迅速,基于SVM[7]、Adaboost[8]、局部二值模式(Local Binary Pattern, LBP)、主成分分析(Principal Components Analysis, PCA)[9]以及深度學(xué)習(xí)的人臉表情識別[10]都已經(jīng)得到了實現(xiàn)。手語信息與人臉表情信息的融合將會讓信息表達更加明確。目前基于HMM的語音合成方法廣泛應(yīng)用在情感語音合成領(lǐng)域[11-12],通過該方法可將文本信息轉(zhuǎn)換成情感語音。但現(xiàn)有的研究方向大都是分別對手勢、人臉表情及情感語音合成進行研究。一些學(xué)者采用信息融合的方法,將人臉表情、肢體語言及語音信息進行融合,實現(xiàn)了多模式融合下的情感識別[13];將手勢識別與語音信息融合,實現(xiàn)了對機器人的指揮[14];將面部表情信息與語音信息融合,實現(xiàn)了對機器人輪椅導(dǎo)航的控制[15];這些研究表明,多模式信息融合逐漸成為一種趨勢。前期的研究[16-17]雖然實現(xiàn)了手語到語音的轉(zhuǎn)換,但合成出的語音并沒有包含感情和情緒的變化,忽視了聾啞人情感的語音表達,容易使聽者的理解產(chǎn)生歧義。

        將手語和人臉表情的識別技術(shù)與情感語音合成方法相結(jié)合,實現(xiàn)融合人臉表情的手語到情感語音的轉(zhuǎn)換,對言語障礙者的日常交流具有重要作用。本文首先利用靜態(tài)手勢識別獲得手勢表達的文本,利用人臉表情識別獲得表達的情感信息。同時以聲韻母作為語音合成基元,實現(xiàn)了一個基于HMM的漢藏雙語情感語音合成,將識別獲得的手勢文本和情感信息轉(zhuǎn)換為相應(yīng)的普通話或藏語情感語音。

        1 系統(tǒng)框架

        融合人臉表情的手語到漢藏雙語情感語音轉(zhuǎn)換系統(tǒng)框架如圖1所示。為了實現(xiàn)轉(zhuǎn)換系統(tǒng),將系統(tǒng)設(shè)計為三部分:手勢和人臉表情的識別、情感語音聲學(xué)模型訓(xùn)練及情感語音合成。在識別階段,將輸入的手勢圖像進行預(yù)處理,再通過深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)模型進行特征提取得到手勢特征,利用SVM識別得到手勢種類;將輸入的人臉表情圖像進行預(yù)處理,再通過深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)模型進行特征提取得到表情特征,利用SVM識別得到情感標(biāo)簽。在訓(xùn)練階段,將語料庫中的語音和文本分別進行參數(shù)提取與文本分析,得到聲學(xué)參數(shù)和標(biāo)注信息,再通過情感語音的合成平臺進行HMM訓(xùn)練,得到不同情感的語音聲學(xué)模型。在合成階段,將獲得的手勢種類利用定義好的手勢文本字典得到手勢文本,通過文本分析得到情感語音合成所需的上下文相關(guān)的標(biāo)注信息,同時利用情感標(biāo)簽選擇情感語音聲學(xué)模型,最終將上下文相關(guān)的標(biāo)注信息和情感語音聲學(xué)模型,通過情感語音合成系統(tǒng)合成出情感語音。

        2 融合人臉表情的手語到情感語音合成

        2.1 手勢識別

        手勢識別主要包括3個部分:預(yù)處理、特征提取以及SVM識別。圖像的預(yù)處理過程通過對手勢信息進行數(shù)據(jù)整合,把采集到的手勢圖像轉(zhuǎn)化為灰度圖像,并將其格式從28×28變換為784×1。針對所有圖像構(gòu)成一個二維矩陣,然后構(gòu)建數(shù)據(jù)立方體。(軸坐標(biāo)表示一個小組內(nèi)不同樣本的編號,軸坐標(biāo)表示一個小組中特定一個樣本的維度,軸表示小組的個數(shù)),把其作為DBN模型統(tǒng)一讀入數(shù)據(jù)的格式。手勢特征采用5層的DBN模型進行提取,其過程包括受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)調(diào)節(jié)和反饋微調(diào),利用RBM來調(diào)節(jié)相鄰兩層之間的權(quán)值[18],RBM在隱藏層到可見層之間有連接,每層內(nèi)部都沒有連接,其隱藏層與可見層之間的關(guān)系可以用能量函數(shù)表示為

        圖1 面向言語障礙者的手語到情感語音轉(zhuǎn)換系統(tǒng)框架

        可見層與隱藏層之間的條件概率計算如下:

        其中,是函數(shù),是一種神經(jīng)元非線性函數(shù)。RBM模型的更新權(quán)重能夠通過導(dǎo)數(shù)概率的對數(shù)得到。

        在調(diào)節(jié)過程中,通過逐層訓(xùn)練的方式得到每層的權(quán)值,完成可見層與隱藏層之間的反復(fù)三次轉(zhuǎn)換,分別得到相應(yīng)的重構(gòu)目標(biāo),并利用縮小原對象同重構(gòu)對象之間的差異,實現(xiàn)對RBM參數(shù)的調(diào)節(jié)。

        微調(diào)是把全部的經(jīng)過初始化后的RBM按訓(xùn)練的順序串聯(lián)起來,組成一個深度置信網(wǎng)絡(luò),通過深度模型的反饋微調(diào)可以得到手勢圖像的特征信息。SVM識別過程是把獲得的手勢圖像的特征信息進行分類識別得到手勢種類,其過程如圖2所示。

        2.2 人臉表情識別

        人臉表情識別過程如圖3所示,包括預(yù)處理、特征提取和SVM識別3個階段。預(yù)處理階段對原始圖像中可能會影響到特征提取結(jié)果的一些不重要的背景信息進行處理。首先對原始的輸入圖像使用具有68個面部地標(biāo)點的檢測器進行檢測,然后再將圖像調(diào)整到地標(biāo)邊緣,在保留完整表情信息的前提下對圖像進行裁剪,剪裁后刪除圖像的一些沒有特定信息的部分,使神經(jīng)網(wǎng)絡(luò)模型的輸入圖像大小為96×96。在特征提取階段,利用一個22層的DNN模型進行特征提取,從輸入的每張表情圖像中得到128維的特征。在SVM識別階段,將得到的表情特征利用一個訓(xùn)練好的SVM分類器進行分類識別,從而得到人臉表情對應(yīng)的情感標(biāo)簽。

        圖2 手勢識別

        圖3 人臉表情識別

        2.3 情感語音聲學(xué)模型訓(xùn)練

        本文以普通話和藏語的聲母和韻母為語音合成的基本單元,利用說話人自適應(yīng)訓(xùn)練(Speaker Adaptive Training, SAT)獲得了情感的語音聲學(xué)模型,情感語音聲學(xué)模型的訓(xùn)練過程如圖4所示。

        圖4 情感語音聲學(xué)模型訓(xùn)練過程

        首先,利用一個普通話中性大語料庫(多說話人)和一個藏語中性小語料庫(1個說話人)中的語音和文本分別進行聲學(xué)參數(shù)提取與文本分析,得到聲學(xué)特征對數(shù)基頻(Log-fundamental Frequency, logF0)和廣義梅爾倒譜系數(shù)(Mel-generalized Cepstral, MGC)以及文本的標(biāo)注信息(上下文相關(guān)標(biāo)注和單音素標(biāo)注);然后利用聲學(xué)特征和標(biāo)注信息進行說話人自適應(yīng)訓(xùn)練,得到混合語言平均聲學(xué)模型。

        最后將從多說話人普通話情感語料庫中提取的情感語音聲學(xué)特征和相應(yīng)文本的標(biāo)注信息,與獲得的平均聲學(xué)模型一起通過說話人自適應(yīng)變換得到目標(biāo)情感的說話人相關(guān)聲學(xué)模型,以合成普通話或藏語的情感語音。

        本文采用基于半隱馬爾可夫模型(Hidden Semi-Markov Model, HSMM)[19]的說話人自適應(yīng)訓(xùn)練算法訓(xùn)練聲學(xué)模型,以減少不同說話人之間的差異對合成語音音質(zhì)的影響。時長分布與狀態(tài)輸出分布的線性回歸方程分別為

        本文采用約束最大似然線性回歸(Constrained Maximum Likelihood Linear Regression, CMMLR)[20]訓(xùn)練得到平均聲學(xué)模型,進而獲得上下文相關(guān)的多空間分布半隱馬爾科夫模型(Multi-Space Hidden semi-Markov models, MSD-HSMM)。訓(xùn)練平均聲學(xué)模型后,將基于MSD-HSMM的CMMLR自適應(yīng)算法應(yīng)用于多說話人普通話情感語料庫,得到用來合成普通話情感語音和藏語情感語音的說話人相關(guān)混合語言目標(biāo)情感聲學(xué)模型。狀態(tài)下狀態(tài)時長和特征向量的變換方程如式(7)、(8)所示:

        MAP估計為

        2.4 手語到情感語音轉(zhuǎn)換

        為了獲得手勢文本,根據(jù)《中國手語》[22]中定義的手勢種類的含義,設(shè)計了一個手勢字典,該字典給出了每個手勢對應(yīng)的語義文本。在手語到情感語音的轉(zhuǎn)換過程中,首先通過手勢識別獲得手勢類別,然后查找手勢字典,獲得手勢文本,最后對手勢文本進行文本分析,獲得文本的聲韻母信息以及聲韻母的上下文信息,從而能夠利用決策樹選擇出最優(yōu)的聲韻母的聲學(xué)模型。聲韻母的上下文信息以上下文相關(guān)標(biāo)注的形式給出,包括普通話或藏語的聲韻母信息、音節(jié)信息、詞信息[23]、韻律詞信息[24]、短語信息和語句信息。同時,采用人臉表情識別獲得情感標(biāo)簽,利用情感標(biāo)簽選擇相應(yīng)情感的語音聲學(xué)模型,從而能夠利用文本的上下文相關(guān)標(biāo)注信息合成出普通話或藏語的情感語音。手語到情感語音轉(zhuǎn)換流程如圖5所示。

        圖5 手語到情感語音轉(zhuǎn)換框圖

        3 實驗結(jié)果

        3.1 手勢識別

        3.1.1 手勢數(shù)據(jù)

        在實驗中構(gòu)造的手勢樣本集合主要來自2位測試人所生成的樣本,每位測試人打30種手勢,每種手勢的樣本個數(shù)均為1 000,以此來生成30個深度學(xué)習(xí)模型。預(yù)定義的30種靜態(tài)手勢如圖6所示。

        圖6 預(yù)定義的30種手勢

        3.1.2 手勢識別率

        為了驗證DBN模型在手勢識別上的有效性,本文從圖6所示的30種手勢庫中隨機挑選了4 000個樣本,分別利用DBN模型和PCA方法進行了5次交叉實驗,每次實驗的訓(xùn)練集和測試集樣本數(shù)分別為3 200和800,并將這五次實驗分別進行編號(集1到集5);最終利用SVM識別得到如表1所示的識別率。從表1中可以看出,在5次交叉驗證中,利用DBN模型進行特征提取的手勢識別率優(yōu)于PCA方法,表明通過DBN模型提取到的特征能更好地反映出手勢的本質(zhì)特征。

        表1 5次交叉驗證識別率(%)

        3.2 人臉表情識別

        3.2.1 人臉表情庫數(shù)據(jù)

        本文采用擴充的Cohn-Kanade數(shù)據(jù)庫(the extended Cohn-Kanade database, CK+)[25]和日本女性面部表情(Japanese Female Facial Expression, JAFFE)數(shù)據(jù)庫[26]進行人臉表情的訓(xùn)練和測試。CK+數(shù)據(jù)庫中每個序列圖像都是以中性表達式開始到情感峰值結(jié)束。實驗數(shù)據(jù)庫中包含8種情感類別的表情圖像,但在實驗中,蔑視和中性表情圖像沒有被使用,并且只選取了一些具有明顯表情特征信息的圖像來作為樣本集使用。將JAFFE數(shù)據(jù)庫中7種表情中的6種表情進行了實驗,沒有使用中性表情圖像,其中每人的一種表情圖像大小均為256×256。數(shù)據(jù)庫中圖像的一些例子如圖7所示。

        3.2.2 DNN模型

        本文采用了nn4.small2的神經(jīng)網(wǎng)絡(luò)模型[27]去提取表情圖像特征,圖8展示了一張裁剪后的圖像經(jīng)過該模型的第一層卷積后輸出的特征圖,該圖顯示了輸入圖像的第一個卷積層的64個全部濾鏡。網(wǎng)絡(luò)模型定義如表2所示。其中包含了8個Inception的模塊。池化層可以有效地縮小矩陣的尺寸,而最大池化表示對鄰域內(nèi)特征點取最大,平均池化表示對鄰域內(nèi)特征點只求平均。池項目表示嵌入的最大池化之后的投影層中1×1過濾器的個數(shù),池項目中最大池化用表示,降維后的池化用表示。

        圖7 數(shù)據(jù)庫示例

        圖8 卷積層可視化示例

        表2 網(wǎng)絡(luò)模型定義

        3.2.3 表情識別率

        在CK+數(shù)據(jù)庫上進行5次交叉驗證的實驗,得到6種表情相應(yīng)的識別率。在JAFFE數(shù)據(jù)庫上進行3次交叉驗證的實驗,得到6種表情相應(yīng)的識別率。如表3所示。

        從表3可以看出,JAFFE的數(shù)據(jù)庫上的識別率要低于CK+數(shù)據(jù)庫上的識別率,主要原因是在實驗中JAFFE數(shù)據(jù)庫的表情圖片數(shù)量少于CK+數(shù)據(jù)庫的表情圖片數(shù)量。

        表3 不同數(shù)據(jù)庫上的人臉表情識別率(%)

        3.3 情感語音合成

        3.3.1 語料

        普通話語料庫選用7個女性說話人的中性語料,每個說話人的語料各包含169句,共計1 183句(7×169句)語料。普通話情感語料庫,是本研究設(shè)置特定的場景采用激發(fā)引導(dǎo)方式錄制的9個女性說話人 11 種情感的普通話情感語音庫,每個說話人的每種情感語料各包含100句,錄音人不是專業(yè)演員,實驗中選取了其中的6種情感語料(9人×6種情感×100句)。藏語語料庫是本研究錄制的一個藏語女性說話人的800句語料。所有實驗的語音均采用16 bit量化、16 kHz采樣、單通道的WAV文件格式。采用5狀態(tài)的上下文相關(guān)的一階MSD-HSMM模型來建立聲學(xué)模型。

        3.3.2 情感相似度評測

        通過情感平均意見得分(Emotional Mean Opinion Score, EMOS),對合成的普通話情感語音以及藏語情感語音分別進行情感相似度評測。給10名普通話評測者播放100句原始普通話情感語音作為參考,然后按照情感順序依次播放6種情感的普通話情感語音。同時給10名藏語評測者播放100句合成的中性藏語語音,作為中性參考語音,之后按照6種情感順序播放藏語情感語音。在評測打分過程中是按照播放語音的先后順序來進行的,要求評測者參照現(xiàn)實生活中的情感表達經(jīng)驗,給每句合成出的語音,按5分制進行情感相似度打分,結(jié)果如圖9所示。

        圖9 合成普通話和藏語的情感語音EMOS得分

        從圖9中可以看出,利用普通話情感語料訓(xùn)練的情感聲學(xué)模型合成出的藏語情感語音的EMOS評分,要低于合成出的普通話情感語音的EMOS評分。

        3.3.3 客觀評測

        由于只有普通話情感語料庫,所以僅對合成的普通話情感語音進行了客觀評測。本文計算了原始語音與合成語音在時長、基頻及譜質(zhì)心上的均方根誤差(Root Mean Square Error, RMSE),結(jié)果如表4所示。從表4可以看出,時長、基頻及譜質(zhì)心的均方根誤差值較小,說明合成的普通話情感語音與原始的普通話情感語音比較接近,合成的情感語音音質(zhì)較好。

        表4 普通話合成情感語音與原始情感語音在時長、基頻及譜質(zhì)心 上的均方根誤差

        3.4 表情圖片與情感語音的PAD評測

        為了進一步評測合成語音對原始人臉表情的情感表達程度,本文采用PAD三維情緒模型,對比了表情圖片的PAD值與合成語音的PAD值的差異。本文采用簡化版本的PAD情感量化表[28],對人臉表情圖片及其對應(yīng)的情感語音在PAD的3個情緒維度上進行評分。首先隨機播放所有人臉表情圖片,評測者根據(jù)觀測到圖片時感受到的心理情緒狀態(tài),完成PAD情緒量表。然后隨機播放合成的情感語音,同樣要求評測者根據(jù)聽情感語音時感受到的心理情緒狀態(tài),完成PAD情緒量表。由于藏語評測人不足,所以本文只對合成的普通話情感語音進行了PAD評測。最后,計算出在同一種情感狀態(tài)下表情圖片的PAD值與情感語音的PAD值的歐氏距離。評測結(jié)果如表5所示。從表5可以看出,表情圖片和情感語音的PAD值在同一情感狀態(tài)下的歐氏距離較小,表明合成的情感語音能夠較為準(zhǔn)確地再現(xiàn)人臉表情的情感狀態(tài)。

        表5 PAD的評測結(jié)果

        4 結(jié) 論

        本文提出了一種融合人臉表情的手語到漢藏雙語情感語音轉(zhuǎn)換的實現(xiàn)方法。首先,將手勢庫中的手勢圖像通過DBN模型進行特征提取,同時對人臉表情數(shù)據(jù)庫(CK+和JAFFE)中的表情圖像利用DNN模型進行特征提取,把獲得的手勢特征與表情特征進行SVM識別,并分別轉(zhuǎn)換為手勢文本的上下文相關(guān)標(biāo)注及相應(yīng)的情感標(biāo)簽。再利用情感語料庫以及中性語料庫(普通話中性大語料庫和藏語中性小語料庫),訓(xùn)練了一個基于HMM的普通話/藏語的情感語音合成器。最后,根據(jù)識別獲得的情感標(biāo)簽選擇的情感語音聲學(xué)模型和手勢文本的上下文相關(guān)標(biāo)注進行情感語音合成,從而實現(xiàn)手勢到情感語音的轉(zhuǎn)換。實驗結(jié)果表明,轉(zhuǎn)換獲得的漢藏雙語情感語音的平均EMOS得分為4.0分;同時,利用PAD三維情緒模型對表情圖片以及合成出的情感語音進行PAD評定后發(fā)現(xiàn),表情圖片與合成出的情感語音在PAD值上的歐式距離較小,表明合成的情感語音能夠表達人臉表情的情感狀態(tài)。進一步的工作將結(jié)合深度學(xué)習(xí)優(yōu)化手勢識別、人臉表情識別及漢藏雙語情感語音合成的算法結(jié)構(gòu),提高識別率和合成情感語音的音質(zhì)。

        [1] KALSH E A, GAREWAL N S. Sign language recognition system[J]. International Journal of Computational Engineering Research, 2013, 3(6): 15-21.

        [2] ASSALEH K, SHANABLEH T, ZOUROB M. Low complexity classification system for glove-based arabic sign language recognition[C]//Neural Information Processing. Springer Berlin/Heidelberg, 2012: 262-268.

        [3] GODOY V, BRITTO A S, KOERICH A, et al. An HMM-based gesture recognition method trained on few samples[C]// 2014 IEEE 26th International Conference on Tools with Artificial Intelligence (ICTAI). IEEE, 2014: 640-646.

        [4] YANG Z Q, SUN G. Gesture recognition based on quantum-behaved particle swarm optimization of back propagation neural network[J]. Computer application, 2014, 34(S1): 137-140.

        [5] GHOSH D K, ARI S. Static Hand Gesture Recognition using Mixture of Features and SVM Classifier[C]// 2015 Fifth International Conference on Communication Systems and Network Technologies (CSNT). IEEE, 2015: 1094-1099.

        [6] OYEDOTUN O K, KHASHMAN A. Deep learning in vision-based static hand gesture recognition[J]. Neural Computing and Applications, 2017, 28(12): 3941-3951.

        [7] HSIEH C C, HSIH M H, JIANG M K, et al. Effective semantic features for facial expressions recognition using svm[J]. Multimedia Tools and Applications, 2016, 75(11): 6663-6682.

        [8] PRABHAKAR S, SHARMA J, GUPTA S. Facial Expression Recognition in Video using Adaboost and SVM[J]. Polish Journal of Natural Sciences, 2014, 3613(1): 672-675.

        [9] ABDULRAHMAN M, GWADABE T R, ABDU F J, et al. Gabor wavelet transform based facial expression recognition using PCA and LBP[C]//Signal Processing and Communications Applications Conference (SIU), 2014 22nd. IEEE, 2014: 2265-2268.

        [10] ZHAO X, SHI X, ZHANG S. Facial expression recognition via deep learning[J]. IETE Technical Review, 2015, 32(5): 347-355.

        [11] BARRA-CHICOTE R, YAMAGISHI J, KING S, et al. Analysis of statistical parametric and unit selection speech synthesis systems applied to emotional speech[J]. Speech Communication, 2010, 52(5): 394-404.

        [12] WU P, YANG H, GAN Z. Towards realizing mandarin-tibetan bi-lingual emotional speech synthesis with mandarin emotional training corpus[C]//International Conference of Pioneering Computer Scientists, Engineers and Educators. Springer, Singapore, 2017: 126-137.

        [13] CARIDAKIS G, CASTELLANO G, KESSOUS L, et al. Multimodal emotion recognition from expressive faces, body gestures and speech[C]// IFIP International Conference on Artificial Intelligence Applications and Innovations. Springer, Boston, MA, 2007: 375-388

        [14] BURGER B, FERRANé I, LERASLE F, et al. Two-handed gesture recognition and fusion with speech to command a robot[J]. Autonomous Robots, 2012, 32(2): 129-147.

        [15] SINYUKOV D A, LI R, OTERO N W, et al. Augmenting a voice and facial expression control of a robotic wheelchair with assistive navigation[C]// 2014 IEEE International Conference on Systems, Man and Cybernetics (SMC). IEEE, 2014: 1088-1094.

        [16] YANG H, AN X, PEI D, et al. Towards realizing gesture-to-speech conversion with a HMM-based bilingual speech synthesis system[C]// 2014 IEEE International Conference on Orange Technologies (ICOT). IEEE, 2014: 97-100.

        [17] AN X, YANG H, GAN Z. Towards realizing sign language-to-speech conversion by combining deep learning and statistical parametric speech synthesis[C]// International Conference of Young Computer Scientists, Engineers and Educators. Springer Singapore, 2016:678-690.

        [18] FENG F, LI R, WANG X. Deep correspondence restricted Boltzmann machine for cross-modal retrieval[J]. Neurocomputing, 2015, 154: 50-60.

        [19] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis[J]. Speech Communication, 2009, 51(11): 1039-1064.

        [20] YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al. Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(1): 66-83.

        [21] SIOHAN O, MYRVOLL T A, LEE C H. Structural maximum a posteriori linear regression for fast HMM adaptation[J]. Computer Speech & Language, 2002, 16(1): 5-24.

        [22] 中國聾人協(xié)會. 中國手語[M]. 北京:華夏出版社, 2003.

        China Association of the Deaf and Hard of Hearing. Chinese Sign Language[M]. Beijing: Huaxia Publishing House, 2003.

        [23] YANG H, OURA K, WANG H, et al. Using speaker adaptive training to realize Mandarin-Tibetan cross-lingual speech synthesis[J]. Multimedia Tools & Applications, 2015, 74(22): 9927-9942.

        [24] 楊鴻武, 朱玲. 基于句法特征的漢語韻律邊界預(yù)測[J].西北師范大學(xué)學(xué)報(自然科學(xué)版), 2013, 49(1): 41-45.

        YANG Hongwu, ZHU Ling. Predicting Chinese prosodic boundary based on syntactic features[J]. Journal of Northwest Normal University (Natural Science Edition), 2013, 49(1): 41-45.

        [25] LUCEY P, COHN J F, KANADE T, et al. The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression[C]// Computer Vision and Pattern Recognition Workshops. IEEE, 2010:94-101.

        [26] LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with gabor wavelets[C]// Third IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 1998: 200-205.

        [27] AMOS B, LUDWICZUK B, SATYANARAYANAN M. OpenFace: A general-purpose face recognition library with mobile applications[R]. Technical report, CMU-CS-16-118, CMU School of Computer Science, 2016.

        [28] LI X M, FU X L, DENG G F. Preliminary application of the abbreviated PAD emotion scale to Chinese undergraduates[J]. Chinese Mental Health Journal, 2008, 22(5): 327-329.

        Gesture-to-emotional speech conversion based on gesture recognigion and facial expression recognition

        SONG Nan, WU Pei-wen, YANG Hong-wu

        (College of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, Gansu, China)

        This paper proposes a face expression integrated gesture-to-emotional speech conversion method to solve the communication problems between healthy people and speech disorders. Firstly, the feature information of gesture image are obtained by using the model of the deep belief network (DBN) and the features of facial expression are extracted by a deep neural network (DNN) model. Secondly, a set of support vector machines (SVM) are trained to classify the gesture and facial expression for recognizing the text of gestures and emotional tags of facial expression. At the same time, a hidden Markov model-based Mandarin-Tibetan bilingual emotional speech synthesis is trained by speaker adaptive training with a Mandarin emotional speech corpus. Finally, the Mandarin or Tibetan emotional speech is synthesized from the recognized text of gestures and emotional tags. The objective tests show that the recognition rate for static gestures is 92.8%. The recognition rate of facial expression achieves 94.6% on the extended Cohn-Kanade database (CK+) and 80.3% on the JAFFE database respectively. Subjective evaluation demonstrates that synthesized emotional speech can get 4.0 of the emotional mean opinion score. The pleasure-arousal-dominance (PAD) tree dimensional emotion model is employed to evaluate the PAD values for both facial expression and synthesized emotional speech. Results show that the PAD values of facial expression are close to the PAD values of synthesized emotional speech. This means that the synthesized emotional speech can express the emotion of facial expression.

        gesture recognition;facial expression recognition; deep neural network; Mandarin-Tibetan bilingual emotional speech synthesis; gesture to speech conversion

        TP391

        A

        1000-3630(2018)-04-0372-08

        10.16300/j.cnki.1000-3630.2018.04.014

        2017-10-09;

        2017-12-17

        國家自然科學(xué)基金(11664036、61263036、61262055)、甘肅省高等學(xué)??萍紕?chuàng)新團隊項目(2017C-03)資助。

        宋南(1990-), 男, 河北遷安人, 碩士研究生, 研究方向為信號與信息處理。

        楊鴻武,E-mail: yanghw@nwnu.edu.cn

        猜你喜歡
        手語手勢聲學(xué)
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        挑戰(zhàn)!神秘手勢
        自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
        活力(2019年15期)2019-09-25 07:23:06
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        V字手勢的由來
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        勝利的手勢
        奇怪的手語圖
        奇怪的手語圖
        中国少妇和黑人做爰视频| 影视先锋av资源噜噜| 国产黄三级三·级三级| 亚洲国产日韩精品综合| 日本一区二区在线免费看| 国产av无码专区亚洲avjulia| 成人h动漫精品一区二区| 欧美精品久久久久久三级| 手机在线播放成人av| 国产熟妇疯狂4p交在线播放| 亚洲av无码1区2区久久| 精品91精品91精品国产片| 亚洲精品456在线播放狼人| 女人高潮久久久叫人喷水| 欧美孕妇xxxx做受欧美88| 国产精品成人无码久久久久久| 亚洲国产av一区二区不卡| 亚洲av无码乱码在线观看性色| 人人妻人人澡人人爽曰本| 四虎成人精品国产永久免费| 国产三级精品三级男人的天堂 | 国产一级黄色片一区二区| 妺妺跟我一起洗澡没忍住| 又色又污又爽又黄的网站| 尤物蜜芽福利国产污在线观看| 国产69精品麻豆久久| 国内精品伊人久久久久网站| 中文亚洲日韩欧美| 午夜黄色一区二区不卡| 日韩精品 在线 国产 丝袜| 妓院一钑片免看黄大片| 蜜芽尤物原创AV在线播放| 久久国产在线精品观看| 人妻av鲁丝一区二区三区| 中文字幕Aⅴ人妻一区二区苍井空| 中文字幕亚洲永久精品| 青青草原亚洲| 亚洲欧美偷拍视频| 18禁成人免费av大片一区| 国产日产精品_国产精品毛片| 藏春阁福利视频|