亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于去噪自編碼器和長短時記憶網(wǎng)絡(luò)的語音測謊算法

2020-04-09 14:49:40傅洪亮雷沛之

計算機應(yīng)用 2020年2期

傅洪亮，雷沛之

（河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院，鄭州450001）

0 引言

測謊的重要性不言而喻，自20 世紀末，謊言檢測逐漸在刑偵、國安、民事仲裁等方面得到了廣泛的應(yīng)用。人們在說謊時往往會伴有心理變化，這種變化會導(dǎo)致部分聲音特性的改變，這就使利用語音進行測謊具有了可行性［1］。而且與以往的測謊方法相比，語音測謊有操作簡單、成本低、結(jié)果更客觀等優(yōu)點，因此，研究語音測謊具有重要的現(xiàn)實意義和使用價值。但是語音測謊是一項具有挑戰(zhàn)性的任務(wù)，因為目前還不清楚運用語音中的哪些特征可以高效地分辨謊言和真話。以往的研究中，部分研究者仿照語音情感識別中傳統(tǒng)的特征提取方法，使用基于先驗知識的人工設(shè)計的特征LLD（Low-Level Descriptor）和它的統(tǒng)計函數(shù)HLSF（High-Level Statistic Function）進行謊言檢測。LLD 可以描述短時語音的語音特性，包括韻律、音質(zhì)等特征，具體來說，常見的LLD 包含基頻、能量、過零率、線性預(yù)測倒譜系數(shù)、抖動等；與此同時，HLSF作為LLD 的統(tǒng)計量主要描述了語音的全局動態(tài)變化，包括最大值、最小值、方差、偏度等［2］。例如，Ekman 等［3］通過收集受試者對于某些電視片段的觀后感來進行語料采集，分析后發(fā)現(xiàn)謊言和真話的基頻部分有明顯差異；Hansen 等［4］利用梅爾頻率倒譜系數(shù)以及它的一階差分、自相關(guān)函數(shù)和互相關(guān)函數(shù)等構(gòu)造出一組特征進行謊言檢測。然而這些人工設(shè)計的特征是較低級的，提供的信息不能全面地體現(xiàn)出說話人在語音中表達的主觀狀態(tài)，這些特征中的冗余信息也會干擾識別，更糟糕的是，僅憑先驗知識很難選擇出真正有效的特征，該過程還會花費研究者大量的時間。

近幾年，深度神經(jīng)網(wǎng)絡(luò)在語音識別、圖像處理等領(lǐng)域取得了優(yōu)異的性能，利用深度學(xué)習(xí)提取出語音特征并進行測謊也引起了研究者的關(guān)注。深度學(xué)習(xí)可以從語音中學(xué)習(xí)到更高級的深度特征，如Zhou 等［5］用深度置信網(wǎng) 絡(luò)（Deep Belief Network，DBN）將語音的稀疏表示作為輸入進行測謊；Srivastava 等［6］提取語音中的基本特征后，利用多層神經(jīng)網(wǎng)絡(luò)和支持向量機（Support Vector Machine，SVM）進行謊言檢測。然而這類測謊方法也有其缺點，它沒有考慮到語音中基于先驗知識的人工特征信息，相當(dāng)于丟棄了語音中的這部分信息，進而影響了識別結(jié)果。有研究表明，人工統(tǒng)計特征和深度學(xué)習(xí)技術(shù)提取出的特征存在著各自的特征空間，可以從不同的角度來描述語音的主觀情感狀態(tài)并具有互補性，然而目前還沒有將其融合在一起進行語音測謊的研究。

針對這些問題，本文提出了基于去噪自編碼器（Denosing Autoencoder，DAE）和長短時記憶（Long Short Term Memory，LSTM）網(wǎng)絡(luò)的多特征融合語音測謊算法，在特征和模型方面都做了改進，旨在從語音中獲取更豐富的有助于識別謊言的信息。在特征方面，本文算法根據(jù)2009 年情感識別挑戰(zhàn)賽制定的特征集，從語音中提取出共384 維的特征及其統(tǒng)計函數(shù)值；此外，還提取出每條語音的Mel譜。對于提取出的人工統(tǒng)計特征，先使用優(yōu)化后的DAE 進行處理，去除其中的冗余信息并提煉出更魯棒的特征，對于Mel譜特征，將其輸入到在語音識別領(lǐng)域表現(xiàn)卓越的LSTM 模型中，逐幀學(xué)習(xí)語音的深度特征以保留語音中的所有情感細節(jié)信息。在模型方面，所提算法將傳統(tǒng)DAE 中的每一層都加入批歸一化（Batch Normalization，BN）以提高模型收斂速度，且在批歸一化層之后還加入了dropout 以防止過擬合，并放棄了傳統(tǒng)的ReLU（Rectified Linear Unit）、tanh（tanhyperbolic）等激活函數(shù)，選擇ELU（Exponential Linear Unit）作為激活函數(shù)。之后，將優(yōu)化后的DAE 和LSTM 并行連接在一起，將兩類特征同時輸入模型進行處理，并將融合特征輸入softmax 分類器中進行分類。最后在2個謊言語料庫上對所提算法的有效性進行了驗證。

1 算法介紹

1.1 語音特征提取

1.1.1 人工統(tǒng)計特征

基于人類先驗知識的人工特征和統(tǒng)計函數(shù)種類豐富，僅憑主觀隨機挑選部分特征會丟失許多信息，因此，本文算法使用2009年情感識別挑戰(zhàn)賽規(guī)定的特征集［7］。該特征集是語音處理領(lǐng)域權(quán)威的人工統(tǒng)計特征集，制定者選擇了在語音的韻律、音質(zhì)等方面應(yīng)用最為廣泛的特征和函數(shù)，包括16 個LLD及其一階差分和12 個HLSF，如過零率、諧波噪聲比、基頻和最大最小值、均方誤差等，具體信息如表1 所示。為了保證實驗的可復(fù)現(xiàn)性，本文使用opensmile［8］開源軟件從語音中提取這些特征，最終每條語音都得到16×2×12=384維特征。

表1 2009年國際語音情感識別挑戰(zhàn)賽特征集Tab.1 Feature set of 2009 International speech emotion recognition challenge

1.1.2 Mel譜

與人工特征不同，Mel 譜從另一個角度描述了語音中的細節(jié)信息。Mel 譜將語音建模成圖像，它不僅包含了豐富的時頻特性，而且語音中的主觀情感在不同時間頻率下的變化也可以從譜圖中得到。本文算法首先對語音信號進行預(yù)處理，這一步的目的是為了消除說話人口唇輻射的影響，增加語音的高頻分辨率，之后使用1 024 長度的漢明窗及512 長度的幀移對每條語音進行加窗分幀，在本文中，采用64個Mel濾波器來過濾語音信息以保證每幀的信息細節(jié)程度相同。最終得到的Mel譜維度如式（1）所示：

其中：F 是Mel 濾波器組的大小，為64；T 為幀數(shù)，因為每條語音長度不同，因此T也不一樣。

謊言和真話的Mel 譜圖樣例如圖1 所示，Mel 譜圖中橫坐標(biāo)表示幀序號，縱坐標(biāo)表示頻率，圖中顏色的深淺代表著特定頻帶能量的大小。

圖1 真話和謊話的Mel譜圖Fig.1 Mel spectrum of truth and deception

1.2 基于去噪自編碼器和LSTM的特征融合

1.2.1 基礎(chǔ)模型

1）自編碼器由編碼層、隱含層和輸出層組成，數(shù)據(jù)經(jīng)編碼層映射到隱含層，之后再通過解碼層盡量恢復(fù)出原始數(shù)據(jù)，它經(jīng)常被用來提取數(shù)據(jù)中的高級特征［9］。去噪自編碼器（DAE）是其經(jīng)典的變種，如圖2 所示，它向原始數(shù)據(jù)中加入部分干擾元素，DAE 需要克服這些雜質(zhì)的干擾以重構(gòu)出原始數(shù)據(jù)，因此可以提煉出更具魯棒性的特征。它的編碼過程和解碼過程分別如式（2）、（3）所示：

其中：F 為非線性激活函數(shù)，一般為sigmoid 或ReLU 函數(shù)；W1、W2為編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)的權(quán)重矩陣；B1、B2為偏置向量；X為加入噪聲后的數(shù)據(jù)；Y 為隱含層數(shù)據(jù)，即提取出的魯棒特征；Z 為輸出層數(shù)據(jù)。它在訓(xùn)練時利用反向傳播算法來最小化重構(gòu)誤差，其誤差函數(shù)可以表示為：

圖2 去噪自編碼器Fig.2 Denoising autoencoder

2）長短時記憶網(wǎng)絡(luò)。語音中的信息是按序列進行編碼的，而循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）在處理序列問題時有明顯的優(yōu)勢。LSTM 是為了解決RNN 長程依賴問題的特殊類型［10］。如圖3 所示，它的內(nèi)部單元結(jié)構(gòu)比RNN更復(fù)雜，輸入門、輸出門、遺忘門這三個門控制著信息的流向，因此它可以有效地存儲和更新上下文信息。LSTM 每次的輸入包括當(dāng)前時間點的輸入值xt、前一時間的單元輸出值ht-1和最后的單元狀態(tài)Ct-1三部分，最終將當(dāng)前時刻的輸出值和當(dāng)前狀態(tài)值一并進行輸出。

圖3 LSTM結(jié)構(gòu)Fig.3 Structure of LSTM

遺忘門確定以往信息的丟棄或保留，它通過讀取當(dāng)前輸入和上一時刻的輸出來確定最終的結(jié)果是0 還是1，0 代表完全丟棄，1代表完全保留。

然后輸入門決定需要更新的信息并將單元狀態(tài)由Ct-1更新為Ct：

最后輸出門決定當(dāng)前的狀態(tài)值有多少成為當(dāng)前時刻的輸出值。

在上述公式中，σ 代表sigmoid 激活函數(shù)，這樣每個門的輸出都是0到1之間的值，Wf、Wi、Wc、Wo和bf、bi、bc、bo分別代表權(quán)重和偏置向量。

1.2.2 本文設(shè)計的模型及特征融合

DAE在去除冗余信息、提取魯棒性特征等方面表現(xiàn)良好，LSTM在處理序列問題時能保證數(shù)據(jù)的前后依賴關(guān)系，因此本算法設(shè)計了如圖4所示的用于特征融合的模型。對于DAE部分，算法采用兩層神經(jīng)網(wǎng)絡(luò)來分別組成編碼和解碼部分，并在每一層之后都加入了批歸一化（BN）來加快模型收斂和提高模型的穩(wěn)定性；因為語音測謊是二分類問題，在數(shù)據(jù)量有限的情況下容易過擬合，因此在批歸一化之后加入了一定比率的dropout，使部分神經(jīng)元處于暫停工作狀態(tài)，這樣可以有效地避免過擬合的發(fā)生。同理，LSTM 也加入相同比率的dropout。之后將DAE 和LSTM 進行并聯(lián)組合（Parallel connection of DAE and LSTM，PDL）以對不同的特征同時進行處理，模型的最后為全連接層（Fully Connected Layer，F(xiàn)C）和分類器。這是本文后續(xù)實驗的基本框架。

如前所述，人工特征和深度特征具有不同的特征空間并有互補性，因此本文算法使兩類特征協(xié)作以充分利用語音中的情感信息，進而獲得更好的識別效果。本文算法使用特征融合而不是決策融合，這是因為特征融合設(shè)計成本低、計算方便，在許多系統(tǒng)中都得到了應(yīng)用［11］。此外，算法所設(shè)計的模型是并行連接且同時工作的，在訓(xùn)練時需要同時將不同的特征輸入到對應(yīng)的模塊中進行處理并融合。這也是該模型的先進性之一，同時處理特征能確保特征的一致性，在優(yōu)化模型參數(shù)時也能保證不同的特征對融合特征的貢獻度達到最優(yōu)，而不是簡單的特征堆疊。下面介紹特征融合的過程。

圖4 本文算法的整體框架Fig.4 Overall framework of the proposed algorithm

對于人工統(tǒng)計特征，在模型工作時將其輸入到優(yōu)化后的DAE中，設(shè)輸入為x1，提取到的魯棒特征（即待融合的特征）為F1，輸出的數(shù)據(jù)為x2，那么DAE 自身的重構(gòu)誤差L1計算如式（11）所示：

同時，用LSTM學(xué)習(xí)Mel譜中的幀級深度特征，流程如圖5所示。LSTM 需要一樣維度的輸入，然而語音是不等長的，因此分幀后的長度也不相同。為了解決這個問題，本文采用補零的方式讓每條語音Mel 譜的維度保持一致，補充的零不涉及單元內(nèi)的參數(shù)更新，所以不會影響LSTM 對深度特征的提取。經(jīng)補零后，CSC（Columbia-SRI-Colorado）庫中提取出的Mel譜維度都是（1 190，64），Killer庫中提取出的Mel譜維度都是（709，64）。由于Mel 譜是將語音分幀后提取的，因此LSTM的輸入是組向量[m(1)，m(2)，…，m(T)]，T 為語音的幀數(shù)，m(t)為對應(yīng)幀的Mel 譜；經(jīng)過LSTM 的學(xué)習(xí)后，可以得到語音的幀級深度特征[n(1)，n(2)，…，n(T)]。進一步地，為了使LSTM學(xué)習(xí)到更豐富的信息和提高模型的穩(wěn)定性，本文將對幀級深度特征進行平均處理后（如式（12）所示）得到的F2作為待融合的特征。

圖5 LSTM提取幀級特征Fig.5 Extracting frame-level features with LSTM

得到兩類待融合的特征后將它們先進行批歸一化處理，這一步的目的是消除不同的最大最小值對融合效果的影響，之后再對兩類特征進行串聯(lián)，即得到了兩類特征的組合F=[F1，F(xiàn)2]。然后將F 作為下一全連接層的輸入，全連接層的作用是將它們投射到相同的特征空間中并減少特征維度。特征維度對識別效果有一定的影響，維度過大則冗余信息增多，過小則會丟失信息，本文參考了文獻［12-13］，經(jīng)過多次實驗后，將經(jīng)DAE 處理后得到的特征的維度設(shè)為1 024，經(jīng)LSTM 得到的深度特征維度也設(shè)為1 024，全連接層的維度設(shè)為1 024（模型參數(shù)的詳細信息見實驗部分），即最終得到了1 024 維的融合特征，最后使用softmax 分類器對融合特征進行分類，輸出該語音是真話還是假話的概率。

其中g(shù)i為softmax 的輸出，本文使用交叉熵函數(shù)來定義分類誤差：

其中yi為語音對應(yīng)的真實標(biāo)簽。因為在模型工作時，DAE 從人工統(tǒng)計特征中提取出更魯棒的特征和LSTM 從Mel 譜中學(xué)習(xí)幀級深度特征是同時進行的，所以最終的誤差函數(shù)為：

模型訓(xùn)練時，本文采取小批次隨機梯度下降法來最小化誤差函數(shù)［14］，這種方法不僅訓(xùn)練速度快，而且在每次更新參數(shù)時都使用了全部的訓(xùn)練樣本，可以得到全局最優(yōu)解。

2 實驗與結(jié)果分析

2.1 數(shù)據(jù)集

為了驗證本文所提算法的有效性，本文在CSC 庫和自行構(gòu)建的謊言語料庫中進行了實驗。CSC 語音庫是美國哥倫比亞大學(xué)錄制的用于語音測謊研究的專業(yè)數(shù)據(jù)庫［15］，參與錄音者都是該校的師生，共32 人，男女各占一半。錄制以訪談形式進行，受試者被告知參加一個“尋找美國頂級企業(yè)家”的活動，并努力使面試官相信自己符合所規(guī)定的條件，最終生成約7.5 h的語音數(shù)據(jù)，本文從中剪取了5 400條語音（謊言語音為2 209條），其中包含了4 860條訓(xùn)練數(shù)據(jù)，540條測試數(shù)據(jù)。

此外，參照瑞士Idiap 機構(gòu)建立的Idiap Wolf 數(shù)據(jù)庫的規(guī)則及流程［16］，本文還自行構(gòu)建了用于語音測謊研究的語料庫。先是選擇了網(wǎng)絡(luò)上近50 h 的“狼人游戲”和“殺手游戲”視頻，在游戲中，平民和警察需要找出場上的所有殺手，殺手則需要找出所有警察，玩家需要掩蓋自己的身份并進行邏輯推理，因此參與者有了充分的說謊動機。每場“狼人游戲”參與者為12 人，每場“殺手游戲”參與者為16 人，剔除重復(fù)參與者后的詳細人數(shù)見表2。之后用Cooledit 軟件從中提取語音，并邀請多人進行聽辨檢驗，去除低質(zhì)量和難以聽清的部分后，從中剪切出987 條語音（謊言語音為510 條），其中包含了890 條訓(xùn)練數(shù)據(jù)和97條測試數(shù)據(jù)。將該語料庫命名為Killer語音庫。

表2 游戲玩家人數(shù)Tab.2 Number of players in games

2.2 實驗設(shè)置及評價指標(biāo)

本文所做實驗均基于谷歌的開源深度學(xué)習(xí)框架tensorflow，顯卡為GTX 1080ti。所有實驗均重復(fù)10 次并求其均值，以消除偶然誤差影響。模型中各個部分的參數(shù)如表3所示。

將系數(shù)為0.3 的高斯噪聲加入人工特征作為DAE 的輸入，激活函數(shù)選擇Elu，在模型訓(xùn)練時采用小批次隨機梯度下降法，學(xué)習(xí)率設(shè)為0.000 01，dropout統(tǒng)一設(shè)置為0.6，訓(xùn)練最多迭代100次。

表3 模型參數(shù)Tab.3 Parameters of model

本文選取加權(quán)平均召回率（Weighted Average Recall，WA）和非加權(quán)平均召回率（Unweighted Average Recall，UA）作為識別性能的評價指標(biāo)。WA 是正確識別的樣本數(shù)和所有樣本數(shù)的比值，UA是該類中正確識別的樣本數(shù)和該類總數(shù)的比值，這是語音測謊領(lǐng)域常用的評價指標(biāo)。

2.3 實驗結(jié)果及分析

為了驗證使用所提出的DAE-LSTM 并行融合特征相較于僅使用單一特征時對分類效果的影響，本文分別去掉模型的DAE 部分和LSTM 部分，只保留其一，在其他參數(shù)保持不變的情況下，觀察它們各自的謊言識別情況。

表4 不同模型的識別精度單位：%Tab.4 Recognition accuracy of different models unit：%

從表4中可以看到：所提并行模型在CSC庫上的WA達到了65.18%，UA 達到了62.56%；在Killer 庫上的WA 達到了68.04%，UA 達到了65.35%。相較于僅使用單一特征，并行模型的識別性能有了較大提升。

結(jié)合收斂曲線圖6 可以看出：并行模型的收斂曲線更平滑且能較快地達到收斂，說明所提模型的穩(wěn)定性較高；Killer庫上的收斂曲線較CSC庫有更多的波動，原因在于Killer庫的語音數(shù)量較少，且人數(shù)多于CSC庫，因此相對來說較難收斂。

此外，本文還對測試結(jié)果進行了T 檢驗（顯著性檢驗），目的是驗證在不同數(shù)據(jù)集中，PDL模型對識別效果的改善情況。根據(jù)T 檢驗的理論，需要先計算出兩組數(shù)據(jù)存在差異的概率（P 值），然后根據(jù)此值來判斷它們是否存在顯著性差異，一般來說當(dāng)P 值小于0.05 時，兩組數(shù)據(jù)存在顯著性差異［17］。檢驗結(jié)果如表5 所示，可以看出，在不同的數(shù)據(jù)集上，PDL 模型與單獨的DAE 和LSTM 模型相比，P 值都小于0.001，因此，所提模型對識別效果有明顯的改善。

在本文算法中，將人工統(tǒng)計特征用DAE 進行處理這一步十分關(guān)鍵，如果不利用DAE 提取原始特征中更具魯棒性的特征并去除掉包含在內(nèi)的冗余信息，可能會影響分類效果，為了驗證這一點，本文還將未經(jīng)DAE 處理的人工統(tǒng)計特征直接和深度特征相結(jié)合進行測謊，得到的實驗結(jié)果如表6所示。

圖6 不同語料庫上的收斂曲線Fig.6 Convergence curves on different corpora

表5 測試結(jié)果的T檢驗Tab.5 T-test of test results

表6 是否利用DAE得到的不同識別精度單位：%Tab.6 Different recognition accuracies whether to using DAE unit：%

可以看到，人工統(tǒng)計特征經(jīng)DAE 處理后再與深度特征融合會達到更優(yōu)的識別效果。與直接融合的方法相比：本文算法在CSC 庫上的WA 提高了1.29 個百分點，UA 提高了2.48個百分點；在Killer庫上的WA提高了2.07個百分點，UA提高了2.89 個百分點。說明利用DAE 對人工統(tǒng)計特征進行處理很有必要。

進一步地，本文還將所提算法與其他基于經(jīng)典模型的語音測謊在識別效果上進行了比較。它們分別是：

1）多層神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）。DNN 屬于基礎(chǔ)模型之一，許多文獻將其設(shè)置為基本對比模型，在本文中，DNN的層數(shù)設(shè)置為3，隱層單元數(shù)為128。

2）SVM。SVM選擇線性核函數(shù)，C值設(shè)置為10。

3）棧式自編碼器（Stacked Autoencoder，SAE）網(wǎng)絡(luò)［18］。根據(jù)文獻［18］，SAE的層數(shù)設(shè)置為2，隱層單元數(shù)為200。

4）深度信念網(wǎng)絡(luò)-極限學(xué)習(xí)機（Deep Belief Network-Extreme Learning Machine，DBN-ELM）［19］。DBN 包含3 個隱層，每層單元數(shù)為100；ELM的隱層單元數(shù)為120。

以上對比模型使用的特征均為本文選擇的2009 年情感識別挑戰(zhàn)賽特征集。

5）卷積神經(jīng) 網(wǎng) 絡(luò)（Convolutional Neural Network，CNN）［20］。文獻［20］中的CNN 為經(jīng)典的Lenet-5，包括3 個卷積層，卷積核都為5×5，步長為1，第一個卷積層的輸出通道數(shù)為6，第二個為16，第三個為120，每個卷積層后都連接一個最大池化層，該模型使用本文提取的Mel 譜特征進行謊言檢測。

從表7 中可以看出，本文算法的單條語音識別時間比其他方法相對來說要長一些，這主要是因為本文算法使用的融合特征具有更大的數(shù)據(jù)量，以及將Mel譜逐幀輸入LSTM 時的計算量也更大，但增加的幅度也僅為幾毫秒到幾十毫秒之間，人體感官幾乎難以察覺，與此同時，本文算法的識別準確率卻提升明顯。在CSC 庫上：本文算法的WA 相較于其他算法最低提升了2.05個百分點，最高提升了5.56個百分點；UA相較于其他算法最低提升了2.53個百分點，最高提升了9.36個百分點。在Killer 庫上：本文算法的WA 相較于其他算法最低提升了4.02個百分點，最高提升了7.22個百分點；UA相較于其他算法最低提升了3.79 個百分點，最高提升了9.67 個百分點，識別結(jié)果顯著優(yōu)于其他算法，進一步驗證了本文所提算法的先進性。

表7 不同測謊方法的識別精度與單條語音識別時間對比Tab.7 Comaprison of recognition accuracy and recognition time of single speech by different deception detection methods

3 結(jié)語

為了充分利用語音的不同特征所包含的信息，本文提出了一種基于去噪自編碼器和LSTM 的特征融合語音測謊算法。該算法分別提取出了語音中的人工統(tǒng)計特征和Mel 譜圖，在用去噪自編碼器處理人工特征的同時，LSTM 也對Mel譜進行了幀級深度特征的學(xué)習(xí)，最后用softmax 分類器對融合特征進行了識別。融合特征綜合利用了不同類特征中包含的不同信息，兩個數(shù)據(jù)庫上的實驗結(jié)果顯示，相較于以往的識別方法，本文所提算法可以達到更高的準確度。但是，利用融合特征進行語音測謊仍然有廣闊的研究前景，如何選擇其他特征進行融合以及使用其他先進的模型對特征進行處理，將是下一階段的研究工作。