亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于共振峰諧波特征和支持向量機(jī)的VDR人聲檢測(cè)方法

2013-12-02 06:07:18李正友李天偉

艦船科學(xué)技術(shù) 2013年2期

李正友，李天偉，黃謙

(1.大連艦艇學(xué)院航海系，遼寧大連116018; 2.中國(guó)人民解放軍69029 部隊(duì)，新疆烏魯木齊830011)

0 引言

船舶航行數(shù)據(jù)記錄儀(voyage data recorder，VDR)是現(xiàn)代船舶的必備設(shè)備。安裝VDR 的目的是“為了以一種安全和可恢復(fù)的方式，保存有關(guān)船舶發(fā)生事故前后一段時(shí)間的船舶位置、動(dòng)態(tài)、物理狀況、命令和操縱的信息”［1］，在船舶事故原因調(diào)查中能夠發(fā)揮重要作用。由于存儲(chǔ)容量限制，VDR 采用由新數(shù)據(jù)覆蓋舊數(shù)據(jù)的循環(huán)存儲(chǔ)方式［2］。這要求VDR 主機(jī)必須能在第一時(shí)間準(zhǔn)確判斷事故是否已經(jīng)發(fā)生并及時(shí)關(guān)閉，以保留事故發(fā)生前后存儲(chǔ)的寶貴數(shù)據(jù)。檢測(cè)20 min 內(nèi)有無(wú)人聲是目前最常用的VDR 主機(jī)停機(jī)條件之一。由于駕駛室環(huán)境是各種人聲(不同的說(shuō)話(huà)人、說(shuō)話(huà)內(nèi)容、語(yǔ)言類(lèi)型等)和各種非人聲(如海浪聲、風(fēng)聲等)的混合聲音，因此VDR 人聲檢測(cè)的目的在于判斷一段聲音是否是語(yǔ)音，或者判斷其中是否含有語(yǔ)音。

目前，國(guó)內(nèi)外在聲音識(shí)別領(lǐng)域的研究包括識(shí)別不同說(shuō)話(huà)人特征的說(shuō)話(huà)人識(shí)別及識(shí)別不同語(yǔ)義特征的語(yǔ)音識(shí)別、識(shí)別不同情感狀態(tài)特征的情感識(shí)別等。它們的共性是在已知該聲音是語(yǔ)音的前提下，研究語(yǔ)音的某一方面特征，而VDR 人聲檢測(cè)則是需要判斷一段聲音是否是語(yǔ)音或者判斷其中是否含有語(yǔ)音。由于語(yǔ)音和環(huán)境的多變性，說(shuō)話(huà)人識(shí)別、語(yǔ)音識(shí)別或情感識(shí)別中應(yīng)用廣泛的特征參數(shù)(如MFCC、LPCC 等)，在人聲檢測(cè)中應(yīng)用效果并不理想。本文從語(yǔ)音的產(chǎn)生機(jī)理出發(fā)，結(jié)合駕駛室環(huán)境下各種聲音的特點(diǎn)，提出采用共振峰諧波特征(formant-consonance characteristic，F(xiàn)CC)來(lái)進(jìn)行人聲檢測(cè)。在分類(lèi)方法方面選擇了泛化能力較強(qiáng)的支持向量機(jī)(support vector machines，SVM)分類(lèi)方法。

1 共振峰諧波特征提取

語(yǔ)音的產(chǎn)生主要是聲門(mén)激勵(lì)和聲道調(diào)制的結(jié)果，這是語(yǔ)音區(qū)別于其他任何聲音的本質(zhì)特征。聲道可以看成是1 個(gè)具有某種諧振特性的腔體，其一組諧振點(diǎn)稱(chēng)為共振峰，共振峰的位置及各個(gè)峰的寬度決定了聲道的頻譜特性［3］。由于聲門(mén)激勵(lì)不同，產(chǎn)生了濁音、清音、爆破音等不同類(lèi)型的語(yǔ)音，其中濁音占據(jù)了大部分語(yǔ)音能量和時(shí)長(zhǎng)。濁音的聲門(mén)激勵(lì)是準(zhǔn)周期的脈沖序列，它有豐富的諧波成分［3］，反映了聲門(mén)激勵(lì)特征。因此共振峰和諧波特征可以有效區(qū)分駕駛室環(huán)境下人聲和非人聲。

共振峰信息包含在頻譜包絡(luò)之中，頻譜包絡(luò)的極大值就是共振峰［4］。圖1(a)和圖1(c)實(shí)線所示為人聲和海浪聲的頻譜，虛線所示為各自的譜包絡(luò);圖1(b)和圖1(d)所示分別為去除共振峰信息后剩余信號(hào)的頻譜。從圖1(a)實(shí)線所示語(yǔ)音信號(hào)頻譜圖中可以明顯地看出共振峰和諧波，計(jì)算圖1(a)虛線所示的頻譜包絡(luò)后，共振峰更加明顯，語(yǔ)音信號(hào)去除共振峰信息后剩余的信號(hào)頻譜如圖1(b)所示，諧波特征非常明顯，而且其諧波頻率與原始語(yǔ)音頻譜的諧波頻率相等;圖1(c)和圖1(d)所示的海浪聲頻譜則不具備語(yǔ)音信號(hào)的上述特征。

共振峰提取方法已經(jīng)提出了多種，目前主要有2 類(lèi):倒譜法和線性預(yù)測(cè)分析(linear prediction analysis，LPA)法［4-6］。倒譜法是對(duì)原始語(yǔ)音信號(hào)進(jìn)行傅立葉變換的對(duì)數(shù)幅度譜進(jìn)行逼近，然后進(jìn)行反傅立葉變換得到時(shí)域的倒譜系數(shù)。倒譜系數(shù)的低時(shí)部分?jǐn)y帶了聲道的信息，可以通過(guò)倒譜系數(shù)表示的頻譜包絡(luò)來(lái)估計(jì)共振峰頻率，但是存在倒譜系數(shù)的長(zhǎng)度不確定的問(wèn)題，并且在頻域中處理計(jì)算的復(fù)雜度較高［5］。線性預(yù)測(cè)法是共振峰檢測(cè)領(lǐng)域的主流算法，它首先求出線性預(yù)測(cè)系數(shù)，然后用線性預(yù)測(cè)系數(shù)估計(jì)聲道的譜包絡(luò)，再用峰值檢出法算出共振峰頻率［6］。本文采用線性預(yù)測(cè)法檢測(cè)共振峰，用線性預(yù)測(cè)殘差信號(hào)檢測(cè)諧波。圖2所示為采用線性預(yù)測(cè)法分別對(duì)語(yǔ)音和非語(yǔ)音信號(hào)進(jìn)行檢測(cè)的結(jié)果。

圖1 語(yǔ)音信號(hào)和關(guān)門(mén)聲信號(hào)頻譜對(duì)比Fig.1 Spectrum comparison of speech signal and the sound of closing door

從大量語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)的檢測(cè)結(jié)果來(lái)看，濁音語(yǔ)音信號(hào)的共振峰頻率和帶寬與音素及說(shuō)話(huà)人有關(guān)。同一說(shuō)話(huà)人發(fā)同一個(gè)濁音，其共振峰頻率和帶寬基本不變;不同說(shuō)話(huà)人發(fā)同一個(gè)濁音，其共振峰頻率和帶寬相差不大;同時(shí)語(yǔ)音濁音音素的個(gè)數(shù)有限，其共振峰頻率和帶寬在一定范圍內(nèi)變化;而非語(yǔ)音信號(hào)頻譜包絡(luò)的峰值頻率和帶寬十分不穩(wěn)定。對(duì)語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)殘差分析后，都能得到相對(duì)穩(wěn)定的諧波，其殘差頻譜峰值較少，峰值之間的間隔相差不大。因此本文采用聲音信號(hào)LPA 譜前3個(gè)峰的頻率F1～F3、LPA 殘差信號(hào)譜的0 ～2 000 Hz 范圍內(nèi)波峰的個(gè)數(shù)Nr和相鄰波峰頻率間隔的方差Sr等參數(shù)作為VDR 人聲檢測(cè)的主要特征參數(shù)。

圖2 語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)共振峰諧波對(duì)比Fig.2 Formants and resonances comparison of speech and non-speech signals

2 基于SVM 的人聲檢測(cè)

支持向量機(jī)(support vector machine，SVM)以統(tǒng)計(jì)學(xué)習(xí)理論作為堅(jiān)實(shí)的理論依據(jù)，具有簡(jiǎn)潔的數(shù)學(xué)形式、直觀的幾何解釋和良好的泛化能力，避免了局部最優(yōu)，有效克服了“維數(shù)災(zāi)難”，能夠較好地解決線性不可分問(wèn)題。近年來(lái)，它在實(shí)踐方面取得了比傳統(tǒng)分類(lèi)器更優(yōu)的分類(lèi)性能［7］。基于SVM 的VDR 人聲檢測(cè)實(shí)際上是提取信號(hào)的某些聲學(xué)特征、利用SVM 解決語(yǔ)音和非語(yǔ)音的2 類(lèi)分類(lèi)問(wèn)題。

在SVM 的訓(xùn)練階段，給定訓(xùn)練樣本集{xi，ti}，i=1，2，…，N，xi為n 維特征向量，ti∈{-1，+1}(ti=1 表示語(yǔ)音，ti=-1 表示非語(yǔ)音)，求解高維映射空間內(nèi)分類(lèi)間隔最大的最優(yōu)超平分類(lèi)面(w，b)。約束條件為

求解下列函數(shù):

式中:φ(·)為非線性映射函數(shù);ξi為松弛變量;C為用于平衡錯(cuò)分樣本比例與算法復(fù)雜度的常量。

在SVM 測(cè)試階段，其最優(yōu)分類(lèi)函數(shù)為

式中:η 為判決門(mén)限;sgn(·)為符號(hào)函數(shù);f(x)=1 表示觀測(cè)量x 是語(yǔ)音，反之為非語(yǔ)音。

3 實(shí)驗(yàn)結(jié)果及分析

語(yǔ)音與非語(yǔ)音的范圍非常廣泛，但VDR 人聲檢測(cè)僅僅需要區(qū)分駕駛室環(huán)境下少數(shù)人的語(yǔ)音和環(huán)境噪聲即可。以在海上實(shí)際采集的海浪聲、風(fēng)聲、海鳥(niǎo)叫聲、船笛聲、船舶主機(jī)工作聲、駕駛室內(nèi)部分設(shè)備工作聲等非語(yǔ)音以及典型10 名話(huà)者語(yǔ)音構(gòu)成語(yǔ)料庫(kù)。

在獲得訓(xùn)練樣本時(shí)，對(duì)于語(yǔ)音信號(hào)，需要先進(jìn)行語(yǔ)音能量檢測(cè)及清濁判別，每個(gè)語(yǔ)音信號(hào)可以得到多個(gè)濁音段。對(duì)每個(gè)濁音段分幀，再采用LPC 方法對(duì)每一幀數(shù)據(jù)提取共振峰諧波特征參數(shù)。對(duì)于非語(yǔ)音信號(hào)，經(jīng)過(guò)能量檢測(cè)后，直接分幀，對(duì)每幀信號(hào)提取特征參數(shù)。將語(yǔ)音和非語(yǔ)音信號(hào)提取的特征參數(shù)組合到一起，構(gòu)成SVM 的訓(xùn)練樣本，其中部分訓(xùn)練樣本如表1所示。在進(jìn)行人聲識(shí)別測(cè)試時(shí)，無(wú)論是語(yǔ)音還是非語(yǔ)音信號(hào)，都經(jīng)過(guò)能量檢測(cè)后直接分幀，再提取特征參數(shù)，輸入SVM 進(jìn)行分類(lèi)。如果一個(gè)聲音信號(hào)有連續(xù)多幀被SVM 判別為語(yǔ)音，則該聲音為語(yǔ)音信號(hào)。

表1 部分訓(xùn)練樣本Tab.1 Part of training samples

表2 人聲檢測(cè)正確率(%)比較Tab.2 Comparison of speech detection accuracy rate (%)

本文開(kāi)展了2 個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)1 從不同說(shuō)話(huà)人對(duì)同一濁音音素的發(fā)音中提取特征參數(shù);實(shí)驗(yàn)2 從不同說(shuō)話(huà)人對(duì)不同濁音音素的發(fā)音中提取特征參數(shù)，再加上從各種非語(yǔ)音中提取的特征參數(shù)，構(gòu)成訓(xùn)練樣本和測(cè)試樣本。實(shí)驗(yàn)結(jié)果如表2所示，從檢測(cè)正確率上可以看出，如果僅考慮對(duì)不同說(shuō)話(huà)人的同一個(gè)濁音音素進(jìn)行檢測(cè)，采用MFCC 參數(shù)和FCC 參數(shù)都獲得了較高的正確率;但如果考慮對(duì)不同說(shuō)話(huà)人的不同濁音音素進(jìn)行檢測(cè)，則采用MFCC 參數(shù)和SVM 的人聲檢測(cè)正確率下降到67.4%，而采用FRC參數(shù)和SVM 的人聲檢測(cè)正確率雖然有所下降，但仍高達(dá)92.6%。

4 結(jié) 語(yǔ)

VDR 人聲檢測(cè)需要對(duì)語(yǔ)音和其他聲音進(jìn)行區(qū)分，它并不像一般的語(yǔ)音識(shí)別研究那樣在已知該聲音是語(yǔ)音的前提下研究語(yǔ)音的某一方面特征，而是要研究語(yǔ)音區(qū)別于其他聲音的特征。語(yǔ)音有規(guī)律的諧波成分和共振峰是人類(lèi)發(fā)音的一個(gè)顯著特點(diǎn)。本文從語(yǔ)音的共振峰和諧波中提取特征參數(shù)，并利用SVM 分類(lèi)器進(jìn)行二元分類(lèi)判別，獲得了較好的檢測(cè)效果。

［1］GDXXX-2001 船載航行數(shù)據(jù)記錄儀檢驗(yàn)指南［S］.中國(guó)船級(jí)社，2001.

GDXXXX-2011 Testing guide for shipborne voyage data recorder［S］.Chinese Maritime Office，2001.

［2］IEC61996:2000 (E).Shipborne voyage data recorder(VDR)-performance requirements-methods of testing and required test results［S］.IEC，2000.

［3］鮑長(zhǎng)春.數(shù)字語(yǔ)音編碼原理［M］.西安:西安電子科技大學(xué)出版社，2007.13-16.

BAO Chang-chun.Principles of digital speech coding［M］.Xi′an:Xi′an Electronic Technology University Press，2007.13-16.

［4］趙力.語(yǔ)音信號(hào)處理［M］.北京:機(jī)械工業(yè)出版社，2005.76-80.

ZHAO Li.Processing of speech signals［M］.Beijing:Mechanism Industry Press，2005.76-80.

［5］王曉亞.倒譜在語(yǔ)音的基音和共振峰提取中的應(yīng)用［J］.無(wú)線電工程，2004，34(1):57-59.

WANG Xiao-ya.Cepstrum usage for pitch and formant detection［J］.Radio Engineering of China，2004，34(1):57-59.

［6］成新民.情感語(yǔ)音信息中共振峰參數(shù)的提取方法［J］.湖州師范學(xué)院學(xué)報(bào)，2003，25(6):76-80.

CHENG Xin-min.The method analysis of formant parameters picked-up in sensibility speech communication［J］.Journal of Huzhou Techers Colloge，2003，25(6):76-80.

［7］張曉雷.基于支持向量機(jī)與多觀測(cè)復(fù)合特征矢量的語(yǔ)音端點(diǎn)檢測(cè)［J］.清華大學(xué)學(xué)報(bào)(自然科學(xué)版)，2011，51(9):1209-1214.

ZHANG Xiao-lei.Support vector machine based VAD using the multiple observation compound feature［J］.Journal of Tsinghua University(Science and Techonology)，2011，51(9):1209-1214.