李正友,李天偉,黃 謙
(1.大連艦艇學(xué)院 航海系,遼寧大連116018; 2.中國(guó)人民解放軍69029 部隊(duì),新疆 烏魯木齊830011)
船舶航行數(shù)據(jù)記錄儀(voyage data recorder,VDR)是現(xiàn)代船舶的必備設(shè)備。安裝VDR 的目的是“為了以一種安全和可恢復(fù)的方式,保存有關(guān)船舶發(fā)生事故前后一段時(shí)間的船舶位置、動(dòng)態(tài)、物理狀況、命令和操縱的信息”[1],在船舶事故原因調(diào)查中能夠發(fā)揮重要作用。由于存儲(chǔ)容量限制,VDR 采用由新數(shù)據(jù)覆蓋舊數(shù)據(jù)的循環(huán)存儲(chǔ)方式[2]。這要求VDR 主機(jī)必須能在第一時(shí)間準(zhǔn)確判斷事故是否已經(jīng)發(fā)生并及時(shí)關(guān)閉,以保留事故發(fā)生前后存儲(chǔ)的寶貴數(shù)據(jù)。檢測(cè)20 min 內(nèi)有無(wú)人聲是目前最常用的VDR 主機(jī)停機(jī)條件之一。由于駕駛室環(huán)境是各種人聲(不同的說(shuō)話(huà)人、說(shuō)話(huà)內(nèi)容、語(yǔ)言類(lèi)型等)和各種非人聲(如海浪聲、風(fēng)聲等)的混合聲音,因此VDR 人聲檢測(cè)的目的在于判斷一段聲音是否是語(yǔ)音,或者判斷其中是否含有語(yǔ)音。
目前,國(guó)內(nèi)外在聲音識(shí)別領(lǐng)域的研究包括識(shí)別不同說(shuō)話(huà)人特征的說(shuō)話(huà)人識(shí)別及識(shí)別不同語(yǔ)義特征的語(yǔ)音識(shí)別、識(shí)別不同情感狀態(tài)特征的情感識(shí)別等。它們的共性是在已知該聲音是語(yǔ)音的前提下,研究語(yǔ)音的某一方面特征,而VDR 人聲檢測(cè)則是需要判斷一段聲音是否是語(yǔ)音或者判斷其中是否含有語(yǔ)音。由于語(yǔ)音和環(huán)境的多變性,說(shuō)話(huà)人識(shí)別、語(yǔ)音識(shí)別或情感識(shí)別中應(yīng)用廣泛的特征參數(shù)(如MFCC、LPCC 等),在人聲檢測(cè)中應(yīng)用效果并不理想。本文從語(yǔ)音的產(chǎn)生機(jī)理出發(fā),結(jié)合駕駛室環(huán)境下各種聲音的特點(diǎn),提出采用共振峰諧波特征(formant-consonance characteristic,F(xiàn)CC)來(lái)進(jìn)行人聲檢測(cè)。在分類(lèi)方法方面選擇了泛化能力較強(qiáng)的支持向量機(jī)(support vector machines,SVM)分類(lèi)方法。
語(yǔ)音的產(chǎn)生主要是聲門(mén)激勵(lì)和聲道調(diào)制的結(jié)果,這是語(yǔ)音區(qū)別于其他任何聲音的本質(zhì)特征。聲道可以看成是1 個(gè)具有某種諧振特性的腔體,其一組諧振點(diǎn)稱(chēng)為共振峰,共振峰的位置及各個(gè)峰的寬度決定了聲道的頻譜特性[3]。由于聲門(mén)激勵(lì)不同,產(chǎn)生了濁音、清音、爆破音等不同類(lèi)型的語(yǔ)音,其中濁音占據(jù)了大部分語(yǔ)音能量和時(shí)長(zhǎng)。濁音的聲門(mén)激勵(lì)是準(zhǔn)周期的脈沖序列,它有豐富的諧波成分[3],反映了聲門(mén)激勵(lì)特征。因此共振峰和諧波特征可以有效區(qū)分駕駛室環(huán)境下人聲和非人聲。
共振峰信息包含在頻譜包絡(luò)之中,頻譜包絡(luò)的極大值就是共振峰[4]。圖1(a)和圖1(c)實(shí)線所示為人聲和海浪聲的頻譜,虛線所示為各自的譜包絡(luò);圖1(b)和圖1(d)所示分別為去除共振峰信息后剩余信號(hào)的頻譜。從圖1(a)實(shí)線所示語(yǔ)音信號(hào)頻譜圖中可以明顯地看出共振峰和諧波,計(jì)算圖1(a)虛線所示的頻譜包絡(luò)后,共振峰更加明顯,語(yǔ)音信號(hào)去除共振峰信息后剩余的信號(hào)頻譜如圖1(b)所示,諧波特征非常明顯,而且其諧波頻率與原始語(yǔ)音頻譜的諧波頻率相等;圖1(c)和圖1(d)所示的海浪聲頻譜則不具備語(yǔ)音信號(hào)的上述特征。
共振峰提取方法已經(jīng)提出了多種,目前主要有2 類(lèi):倒譜法和線性預(yù)測(cè)分析(linear prediction analysis,LPA)法[4-6]。倒譜法是對(duì)原始語(yǔ)音信號(hào)進(jìn)行傅立葉變換的對(duì)數(shù)幅度譜進(jìn)行逼近,然后進(jìn)行反傅立葉變換得到時(shí)域的倒譜系數(shù)。倒譜系數(shù)的低時(shí)部分?jǐn)y帶了聲道的信息,可以通過(guò)倒譜系數(shù)表示的頻譜包絡(luò)來(lái)估計(jì)共振峰頻率,但是存在倒譜系數(shù)的長(zhǎng)度不確定的問(wèn)題,并且在頻域中處理計(jì)算的復(fù)雜度較高[5]。線性預(yù)測(cè)法是共振峰檢測(cè)領(lǐng)域的主流算法,它首先求出線性預(yù)測(cè)系數(shù),然后用線性預(yù)測(cè)系數(shù)估計(jì)聲道的譜包絡(luò),再用峰值檢出法算出共振峰頻率[6]。本文采用線性預(yù)測(cè)法檢測(cè)共振峰,用線性預(yù)測(cè)殘差信號(hào)檢測(cè)諧波。圖2所示為采用線性預(yù)測(cè)法分別對(duì)語(yǔ)音和非語(yǔ)音信號(hào)進(jìn)行檢測(cè)的結(jié)果。
圖1 語(yǔ)音信號(hào)和關(guān)門(mén)聲信號(hào)頻譜對(duì)比Fig.1 Spectrum comparison of speech signal and the sound of closing door
從大量語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)的檢測(cè)結(jié)果來(lái)看,濁音語(yǔ)音信號(hào)的共振峰頻率和帶寬與音素及說(shuō)話(huà)人有關(guān)。同一說(shuō)話(huà)人發(fā)同一個(gè)濁音,其共振峰頻率和帶寬基本不變;不同說(shuō)話(huà)人發(fā)同一個(gè)濁音,其共振峰頻率和帶寬相差不大;同時(shí)語(yǔ)音濁音音素的個(gè)數(shù)有限,其共振峰頻率和帶寬在一定范圍內(nèi)變化;而非語(yǔ)音信號(hào)頻譜包絡(luò)的峰值頻率和帶寬十分不穩(wěn)定。對(duì)語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)殘差分析后,都能得到相對(duì)穩(wěn)定的諧波,其殘差頻譜峰值較少,峰值之間的間隔相差不大。因此本文采用聲音信號(hào)LPA 譜前3個(gè)峰的頻率F1~F3、LPA 殘差信號(hào)譜的0 ~2 000 Hz 范圍內(nèi)波峰的個(gè)數(shù)Nr和相鄰波峰頻率間隔的方差Sr等參數(shù)作為VDR 人聲檢測(cè)的主要特征參數(shù)。
圖2 語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)共振峰諧波對(duì)比Fig.2 Formants and resonances comparison of speech and non-speech signals
支持向量機(jī)(support vector machine,SVM)以統(tǒng)計(jì)學(xué)習(xí)理論作為堅(jiān)實(shí)的理論依據(jù),具有簡(jiǎn)潔的數(shù)學(xué)形式、直觀的幾何解釋和良好的泛化能力,避免了局部最優(yōu),有效克服了“維數(shù)災(zāi)難”,能夠較好地解決線性不可分問(wèn)題。近年來(lái),它在實(shí)踐方面取得了比傳統(tǒng)分類(lèi)器更優(yōu)的分類(lèi)性能[7]。基于SVM 的VDR 人聲檢測(cè)實(shí)際上是提取信號(hào)的某些聲學(xué)特征、利用SVM 解決語(yǔ)音和非語(yǔ)音的2 類(lèi)分類(lèi)問(wèn)題。
在SVM 的訓(xùn)練階段,給定訓(xùn)練樣本集{xi,ti},i=1,2,…,N,xi為n 維特征向量,ti∈{-1,+1}(ti=1 表示語(yǔ)音,ti=-1 表示非語(yǔ)音),求解高維映射空間內(nèi)分類(lèi)間隔最大的最優(yōu)超平分類(lèi)面(w,b)。約束條件為
求解下列函數(shù):
式中:φ(·)為非線性映射函數(shù);ξi為松弛變量;C為用于平衡錯(cuò)分樣本比例與算法復(fù)雜度的常量。
在SVM 測(cè)試階段,其最優(yōu)分類(lèi)函數(shù)為
式中:η 為判決門(mén)限;sgn(·)為符號(hào)函數(shù);f(x)=1 表示觀測(cè)量x 是語(yǔ)音,反之為非語(yǔ)音。
語(yǔ)音與非語(yǔ)音的范圍非常廣泛,但VDR 人聲檢測(cè)僅僅需要區(qū)分駕駛室環(huán)境下少數(shù)人的語(yǔ)音和環(huán)境噪聲即可。以在海上實(shí)際采集的海浪聲、風(fēng)聲、海鳥(niǎo)叫聲、船笛聲、船舶主機(jī)工作聲、駕駛室內(nèi)部分設(shè)備工作聲等非語(yǔ)音以及典型10 名話(huà)者語(yǔ)音構(gòu)成語(yǔ)料庫(kù)。
在獲得訓(xùn)練樣本時(shí),對(duì)于語(yǔ)音信號(hào),需要先進(jìn)行語(yǔ)音能量檢測(cè)及清濁判別,每個(gè)語(yǔ)音信號(hào)可以得到多個(gè)濁音段。對(duì)每個(gè)濁音段分幀,再采用LPC 方法對(duì)每一幀數(shù)據(jù)提取共振峰諧波特征參數(shù)。對(duì)于非語(yǔ)音信號(hào),經(jīng)過(guò)能量檢測(cè)后,直接分幀,對(duì)每幀信號(hào)提取特征參數(shù)。將語(yǔ)音和非語(yǔ)音信號(hào)提取的特征參數(shù)組合到一起,構(gòu)成SVM 的訓(xùn)練樣本,其中部分訓(xùn)練樣本如表1所示。在進(jìn)行人聲識(shí)別測(cè)試時(shí),無(wú)論是語(yǔ)音還是非語(yǔ)音信號(hào),都經(jīng)過(guò)能量檢測(cè)后直接分幀,再提取特征參數(shù),輸入SVM 進(jìn)行分類(lèi)。如果一個(gè)聲音信號(hào)有連續(xù)多幀被SVM 判別為語(yǔ)音,則該聲音為語(yǔ)音信號(hào)。
表1 部分訓(xùn)練樣本Tab.1 Part of training samples
表2 人聲檢測(cè)正確率(%)比較Tab.2 Comparison of speech detection accuracy rate (%)
本文開(kāi)展了2 個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)1 從不同說(shuō)話(huà)人對(duì)同一濁音音素的發(fā)音中提取特征參數(shù);實(shí)驗(yàn)2 從不同說(shuō)話(huà)人對(duì)不同濁音音素的發(fā)音中提取特征參數(shù),再加上從各種非語(yǔ)音中提取的特征參數(shù),構(gòu)成訓(xùn)練樣本和測(cè)試樣本。實(shí)驗(yàn)結(jié)果如表2所示,從檢測(cè)正確率上可以看出,如果僅考慮對(duì)不同說(shuō)話(huà)人的同一個(gè)濁音音素進(jìn)行檢測(cè),采用MFCC 參數(shù)和FCC 參數(shù)都獲得了較高的正確率;但如果考慮對(duì)不同說(shuō)話(huà)人的不同濁音音素進(jìn)行檢測(cè),則采用MFCC 參數(shù)和SVM 的人聲檢測(cè)正確率下降到67.4%,而采用FRC參數(shù)和SVM 的人聲檢測(cè)正確率雖然有所下降,但仍高達(dá)92.6%。
VDR 人聲檢測(cè)需要對(duì)語(yǔ)音和其他聲音進(jìn)行區(qū)分,它并不像一般的語(yǔ)音識(shí)別研究那樣在已知該聲音是語(yǔ)音的前提下研究語(yǔ)音的某一方面特征,而是要研究語(yǔ)音區(qū)別于其他聲音的特征。語(yǔ)音有規(guī)律的諧波成分和共振峰是人類(lèi)發(fā)音的一個(gè)顯著特點(diǎn)。本文從語(yǔ)音的共振峰和諧波中提取特征參數(shù),并利用SVM 分類(lèi)器進(jìn)行二元分類(lèi)判別,獲得了較好的檢測(cè)效果。
[1]GDXXX-2001 船載航行數(shù)據(jù)記錄儀檢驗(yàn)指南[S].中國(guó)船級(jí)社,2001.
GDXXXX-2011 Testing guide for shipborne voyage data recorder[S].Chinese Maritime Office,2001.
[2]IEC61996:2000 (E).Shipborne voyage data recorder(VDR)-performance requirements-methods of testing and required test results[S].IEC,2000.
[3]鮑長(zhǎng)春.數(shù)字語(yǔ)音編碼原理[M].西安:西安電子科技大學(xué)出版社,2007.13-16.
BAO Chang-chun.Principles of digital speech coding[M].Xi′an:Xi′an Electronic Technology University Press,2007.13-16.
[4]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2005.76-80.
ZHAO Li.Processing of speech signals[M].Beijing:Mechanism Industry Press,2005.76-80.
[5]王曉亞.倒譜在語(yǔ)音的基音和共振峰提取中的應(yīng)用[J].無(wú)線電工程,2004,34(1):57-59.
WANG Xiao-ya.Cepstrum usage for pitch and formant detection[J].Radio Engineering of China,2004,34(1):57-59.
[6]成新民.情感語(yǔ)音信息中共振峰參數(shù)的提取方法[J].湖州師范學(xué)院學(xué)報(bào),2003,25(6):76-80.
CHENG Xin-min.The method analysis of formant parameters picked-up in sensibility speech communication[J].Journal of Huzhou Techers Colloge,2003,25(6):76-80.
[7]張曉雷.基于支持向量機(jī)與多觀測(cè)復(fù)合特征矢量的語(yǔ)音端點(diǎn)檢測(cè)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,51(9):1209-1214.
ZHANG Xiao-lei.Support vector machine based VAD using the multiple observation compound feature[J].Journal of Tsinghua University(Science and Techonology),2011,51(9):1209-1214.